智谱AI COO张帆:千亿模型是AIGC的船票

5月17日消息,由搜狐主办的2023搜狐科技峰会17日上午在北京开幕。峰会下午,智谱AI COO张帆发表了《大模型的探索和实践》的演讲。他认为,ChatGPT背后是大模型技术,只有做到千亿模型,才是AIGC的船票。

张帆认为,做大模型需要面临算法、算力的挑战,还需要数据经验。所谓名师出高徒,越好的数据,喂出来的模型越好。如果数据有问题,或者数据的价值观有问题,传导到模型后,将很难修复。

同时他表示,大模型有很多应用场景,比如文本生成、信息抽取等。大模型可以进一步让AI普惠,可以更加低成本、快速地把AI应用到各种业务场景中。

以下为张帆演讲全文:

首先大家能够看到今年被震撼的事件,就是ChatGPT用了两个月的时间,全球破亿用户的神话,特别是对比传统的技术,这个速度变得非常快。在ChatGPT背后的技术是什么呢?是一个大模型的技术,我简单罗列了一下大模型发展趋势。

大模型从2017年Transformer这篇论文出现,开始有了这个赛道,18年发布GPT-1开始,横轴是时间线,纵轴是参数量,越来越多的模型和越来越大的参数出现。智谱是比较早就关注到这个方向。

从19年公司成立就在关注大模型,那个时候没有那么火热,一直投入资源在做。一直到21年下半年,我们开始训练我们第一个希望能够普惠的千亿稠密的大模型,大概训练了8、9个月之后,到22年8月份发布第一个版本,并且开源出来,在国际社会上有很多正向的反馈。

到了今年3月份,我们对标ChatGPT,出台了ChatGLM对话式模型反馈非常好。今年3月份,发布了6B小号的大模型更加普惠,甚至在单张游戏卡上就可以跑出来,一个多月的时间,全球有200万的用户,热度非常高的。

从最开始OpenAI有GPT-1、GPT-2,到GPT-3,有代码、网页指令等,到后面的GPT-4。我们去年8也许发布了千亿模型之后,也在跟进每个环节,我们有对应的对标,比如说代码模型、指令微调,让大模型遵循指令,Web及时获取真实信息,Chat更像是跟人聊天,按照这样的节奏,在今年3、4月份,基本上补齐3.5对标的逻辑,我们正在追赶GPT-4的逻辑。

为什么我们叫千亿大模型?它的模型参数从一开始1亿、10亿、百亿、千亿这样的流程,纵向是由机器生成一篇文章,让人判别,有多大概率是机器写的,判别这个事儿,最低线是随机猜,下面是50%的底线。随着参数量从1亿到千亿,每次增长人类越来越发现不了,这篇文章是不是机器写的,等到达千亿的时候,几乎人类已经很难分辨是机器写的还是人类写的,只有做到千亿模型,才是AIGC的船票。

为什么会产生这样的智能?其实很多研究中,很多的任务中,我们可以看到,随着参数量的变化,从百亿到接近千亿,甚至到大几百亿的时候,突然智能有快速的突增,这就是所谓的涌现,包括思考的能力、遵循指令的能力,推理的能力,都在很大规模才开始产生的。但是这个背后的原因虽然有各种各样的猜测和说法,也没有很明确的定论。

但是我们认为这个逻辑还是讲得通的。其实,人类的智能不是随着神经元做的线性增长,我们1岁的时候,有一些基础的智力,谈不上很聪明,到了2岁、3岁,结果到了3岁以后,开始快速具备智能,这些能力也不是线性的。所以我们觉得机器跟人很像,而且人有多少神经元,人类大概有800亿神经元,今天到了千亿参数量,开始接近人类了,至少接近一个数量级的情况下了,这是我们从大模型里看到的变化。

但是做大模型本身也是很难的,这个好比我们盖楼房一样,咱们盖五层楼和盖50层楼,不是一个线性关系,用的基础技术都不一样,5层楼用木头就可以了,50层楼要用到钢筋。

我们总结几个挑战。

第一个挑战是算法挑战。大模型精度非常高,它在非常复杂的计算的时候,我们本身是希望会逐步收敛起来,变成稳定的模型,现实当中,复杂精度训练当中,经常出现由于精度不够,代替梯度爆炸,模型突然训坏了,没有收敛了,而且爆炸了,这种情况非常常见。

另外一个是算力挑战。我们整个千亿130B模型的训练,纯的算力费用超过一个亿,这是去年的,今年所有的算力都翻倍,甚至更高,关键是买不到了。

另外就是数据上的经验。这通常就是大家所理解的名师出高徒,也就是越好的数据,喂出来的模型越好,如果数据有问题,或者数据的质量价值观有问题,直接传导到模型上,后面很难去修复。

下面简单介绍一下我们整体大模型矩阵,智谱有完整的大模型矩阵,我们全面涵盖了文本、代码、图像、视频,基本上对标OpenAI,我们有一个大号的大模型130B,到小号的大模型到6B,从基座模型到对话模型,以及应用端的代码模型,有文生图模型,还有CogVideo文生图视频,整个矩阵比较完整。

更关键的是大模型生产过程中,我们大多数人用的是GPT,而我们用的是GLM,百分之百自主知识产权的算法自研的,这个相当于一方面有把GPT单向模型的能力,只会单向预测出现的概率,到双向的,从文本中间抠掉字,通过两种特殊能力的结合,产生GLM的算法。我们明显超过GPT-3的水平,得益于算法本身从训练当中挖掘更多的知识信息。

讲一下我们具体模型特点,130B模型,1300亿大语言模型在去年8月份发布的,今年持续迭代,这个模型有几个特点,在去年8月份,我们率先把它做了开源,一个双语的模型,尤其在中文的数据集上有领先优势。

另外两个特色,第一个是无损量化,我们是极其少有的,我们能够用int4无损压缩大模型,每个参数用全精度32个位,现在变成4个位还不影响精度,它占据的空间非常小。另外我们全面支持国产信创,我们甚至有一些模型完全在华为的昇腾上面完成训练,我们对于国产的芯片都是有较好的支持。

另外分享一下,我们还有一个CodeGeeX,全球领先的多语言代码,我们在多语言模型上仅次于OpenAI,像Meta的,其他的开放平台,Salesforce都是胜出的,我们包装成中国的插件,也是对标GitHub,中国每天产生400万行的代码为我们的用户。另外在评测当中,有84%的用户都觉得它的效果是比较好的。

我们在过去一段时间,大概沟通有将近100家客户,在这个过程当中,我们不断的产生新的idea,让我们了解大模型如何应用到应用当中。每一次交互的变化,都可能对某一类需求产生洗牌的机会,我们更了解大模型,大模型应用场景非常值得关注。

我们选了几个常见的点,跟大家做简单的分享。

第一个文本生成。没有大模型之前,我们的文本生成基本上都是规则作为基础,都是以规则的拼接方式来做的,基本上很容易发现是人还是机器做的,而且它的影响面和应用场景非常小。

现在模型大文本生成能力非常强,比如广告文案生成,工作当中周报的生成,新闻的生成,标书的生成,招聘的话,职位的生成,旅游的话,游记的生成,它的生成能力放在无数的地方,可能对市场的生态带来新的可能性,或者新的机会。这是一个非常好的场景。

第二个信息抽取。我们以前做信息抽取,基本上都靠NLP的方法,来打标,各种规则等等方法,其实它的泛化能力非常差,生产成本特别高,我们在一些客户需求抽取乐得长江,有一些销售戴着智能工牌,跟客户聊天有一万字的生成,我们提取用户画像,用户需求,甚至做客服的质检,有没有该说的话,不该说的话也说了来打分。

如用传统的NLP的方法,则需要用两三个月的时间不断调整,而在今天大模型时代,它的生产成本,一个人搞半天就可以搞好了,在这种情况下,大模型进一步让AI普惠,在每个地方更加低成本、大家快速的把AI应用到自己的业务场景里面去。

再比如说信息检索,微软的New Bing,带来一种全新的模式。我们原来的搜索引擎,搜索完了之后,把10条结果全部要读一遍,看完要一个小时,大模型可以帮你完全看完,基于你的问题,针对性做回答,甚至还可以进一步做追问,这个体验会带来完全颠覆。

这仅仅是网页,它本身内容密度比较高的。我们今天搜一个视频,往往只能得到封面或者是一个标题,你完全不知道自己查的内容在哪,如果把整个视频看了,半天就没了,大语言能不能把字幕里的内容提取出来,阅读完之后,转成对应的方式给我们,不再受制于展现形式。

比如说我们简历的检索,原来简历检索到这个人的职位和公司,它对于每一场项目经验的描述,我们没办法转化成语义,在今天有可能完全改变垂直领域,用户搜索的习惯和场景,这也是一个非常大的机会。在原来的方式里面做不到的。

比如说对话系统,原来对话系统,基本上以QA为基础,我们写好的问题,不够的话,我们不停扩展扩写,用各种各样的方法,非常生硬,稍微长一点的上下文理解不了,在大模型领域里面,有无数的场景,更好把对话能力植入进去,不断有更丰富的对话,即使QA里面没有,放一个用户手册,可以随便提问题,它了门槛、效果、上下文能力,泛化能力,远远超过之前的传统方法,包括我们在会议场景上做会议纪要,会议纪要直接变成排期,都是有机会。

我们会看到仅仅在过去两个月时间,就见到无数这样的场景,一次一次被我们大模型能力惊艳到,它在各个场景里会出现越来越多的应用,这将是一个值得大家关注的方向。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-05-17
智谱AI COO张帆:千亿模型是AIGC的船票
大模型将推动AI普惠。

长按扫码 阅读全文