AI大模型的白垩纪

美好的长假即将过去,我们又该忙起来了。在AI领域,这两年最忙的一项基础技术应该非大模型莫属。

随着最近AI绘画、AI生成视频等能力不断刷新大众对AI技术边界的认知,站在AI创作家们背后的大模型的地位也跟着水涨船高。轰轰烈烈的“炼大模型”运动似乎来到了丰收时节。

但在大模型愈发火爆的同时,我们不难看到一个问题:预训练大模型虽然在众多领域都表现出了良好的应用效果,但这些效果所产生的商业价值,却很难与大模型的训练成本、基础设施投入成本画上等号。

事实上,表面光鲜的大模型正在经历一个有些艰难的转型阶段:大模型不断表现出的“神奇”效果,引发了资本、产业、学术界的巨大关注。随着一个又一个大模型被训练完成,推向市场,却会发现大模型的应用场景与商业价值虽然有,但并不充沛。如何从“炼大模型”,走向“用大模型”,正在成为关键考验。尤其值得注意的是,中国AI行业对大模型的投资、建设更加激进,那么大模型的应用转型考验也将更加显著、先觉地浮现于中国市场。

AI预训练大模型在目前阶段的境况,让我想到一个词:白垩纪。

白垩纪是地质年代中,中生代的最后一个纪元。这时候全球开始变暖,大陆架结构开始定型。恐龙依旧统治着世界,但哺乳动物已经开始活跃。

大模型似乎也处在这样一个阶段里。被BERT、GPT-3夯定的大模型思路依旧笼罩在AI产业头顶。但如何让大模型走向新的应用纪元,已经成为一个非常热切,同时略带迷茫的必答题。

新物种开始出现,老物种依旧占据主流

在讨论大模型的转型之前,我们还是需要用一点篇幅回溯一下大模型的发展思路与应用逻辑。

所谓的预训练大模型,是指在大规模宽泛数据上进行训练的基础模型。它抓住了深度学习算法数据越多模型鲁棒性越强的基础特点,对模型进行暴力地“数据投喂”。经过大规模数据的预训练后,模型可以适应更多种类、更为复杂的下游任务,从而最终获得更好的智能体验。

大规模预训练模型,其实并不是一种技术路径上的创新,而是更接近把握技术特征之后的工程创新。大模型之路被广泛认可,开始于谷歌在2018年10跃发布BERT。它利用BooksCorpus和维基百科的大规模数据进行模型训练,在11个下游任务上刷新了当时的业界纪录。

我们可以将大规模预训练模型理解为一种“预制菜”。既然用户自己烹饪的难度太高,费工费火,那就不妨由商家先行预制。用户将菜买回后加热一下,加入自己喜欢的调料就能上桌食用。大模型的思路也是如此,它通过上游进行模型预训练,下游进行任务微调的方式来使更多产业能给应用到效果好、质量高的AI模型。

而经过几年的发展,大模型如今已经来到了一个新旧交替的临界点。这里的新旧交替可以分为两个层面进行理解。首先大模型本身不断进行技术层面的革新。我们知道,业界最具典型性,也最为出圈的大模型OpenAI在2020年5月发布的GPT-3。这一大模型具有1750亿参数,在非常多文本生成类任务上有着出众表现。而无论是BERT还是GPT-3,都是自然语言处理领域的大模型。而在GPT-3之后,大模型一方面在模型参数上不断提升,同时也在技术上进行迭代。比如机器视觉大模型已经成为行业的新主流,同时多模态大模型与行业知识紧密结合的大模型开始出现。推动大模型的能力覆盖从语言走向视觉,继而走向更复杂的综合任务。

另一个层面的大模型新旧交替,体现在产业侧对大模型应用的呼唤上。随着几年时间过去,“我们必须赶快有一个大模型”的热情开始消退;转而产生了“我们确实有大模型,然后呢?”这样的应用焦虑。尤其对于中国市场来说更是如此。在美国AI界,大模型一直都是少数科技巨头、学术组织在做,其中很多大模型的基础定位就是AI技术投资的一部分。但在中国则不同,怀揣着对技术竞争的重视,大量互联网、云计算企业都加入了大模型的构建竞赛,这些大模型必须找到有效的商业出口才能收回投资。同时,也有大量科研机构、院校加入其中。于是我们可以在中国看到雨后春笋般发布的大模型,这样做的优势是中国AI在大模型数量上遥遥领先,同时,也带来了如此多的大模型项目应该要如何消化和使用的问题。

目前阶段,大模型产业的特征是那些直接对标GPT-3的大模型项目依旧占据主流,或者说并没有给出太多有说服力的超越价值。同时,新的大模型技术思路与产业转型思路也已经开始出现。这正是白垩纪的特点:恐龙和哺乳动物共处一地,而新生物种正期待着更多变化到来。

大模型的野蛮生长,已经陷入某种枯竭

几年来,炼大模型成了AI领域最热门,同时也最能引起舆论、资本关注的一件事。伴随着大量大模型项目的快速上马,我们很难判断其中有哪些是抱着“竞争对手在做,所以我也要做”的互联网心态来推动,又有哪些项目是为了与新基建、科技举国体制等热门概念挂靠火速上线。

整体来看,跑马圈地式的大模型产业发展,为整个AI领域提供了一种积极昂扬的氛围。推动大模型与各个行业、各科研领域结合变得比较轻松。与此同时,我们也很容易将大模型与更多AI技术,甚至VR、元宇宙、区块链等同样被称为风口的技术进行类比,并且发现大模型的发展轨迹,也有着诸多“野蛮生长”的痕迹。

其实从应用角度看,大模型就像云计算一样,是一种将产业上游投入进行收紧的集约化操作。一般来说,企业应用AI有几种方案。最简单的一种是直接接入具有AI能力的标准化API,这种模式只能提供简单的AI能力,无法覆盖复杂的智能化需求;第二种是整体定制AI解决方案,这种方案需要产生高额的定制费用与专家成本,是最不经济划算的一种;第三种是自己进行AI开发,这种最为贴近企业真实需求,但会导致开发出的模型不够标准化,与业界领先水平具有差距,并且也要求企业具备AI开发经验与相关组织架构。

大模型的出现,可以说是在几种方案之间寻找平衡点。通过大规模预训练+微调的模式,若干企业与行业可以共享、重复应用大模型。这样企业既用到了高水准的AI能力,同时也避免了过重的开发成本与建设成本,也就是所谓的推动AI进入工业生产时代,抛弃作坊式的AI开发。

然而我们能够发现,这种逻辑下最终一定会导致大模型数量较少,而下游应用非常丰富的产业格局。在目前阶段,情况恰恰相反。下游的大模型应用处在方兴未艾的阶段,相关企业与解决方案并不断。反而上游的大模型项目层出不穷,并且展现出了一定程度上的同质化。这种野蛮生长,一般来说包含着几种潜在问题:

1.过分聚焦大模型参数和数据集测试结果。

1700亿参数的GPT-3,将大模型正式拉到了千亿参数规模。随后大模型的参数比拼不断升级,很快我们就见到了万亿参数规模的大模型。追求大模型的参数巨大化,曾经一度成为AI领域的主流,随后也引发了相当多的反思。一味追逐模型体积大、训练数据规模大,会导致模型很难在现实场景中进行部署,并且低质量的训练数据过多,很多时候会导致反向效果出现。

大模型领域另一个问题,是追逐在某项数据集测试中刷新纪录。以标准化数据集评判大模型能力当然无可厚非。但很多时候数据集测试是有诀窍的,可以进行针对性调优。一味关注测试结果,很可能导致大模型的实际应用效果不足。

2.技术创新过分“个性化”。

由于大模型领域的竞争激烈,并且工程路线其实比较单一,为了标明自己的大模型具有差异化,业界开始兴起了大模型的“微创新”热潮。一般做法是,提出自己是业界首个某某技术上的大模型。但这项技术是否具有说服力,是否有足够的实际应用价值,则可能要打上一些问号。而随着大家都是首个某某大模型,大模型的定义越来越复杂,评判标尺也越来越模糊。下游用户选择大模型的难度也随之加大。一定要强调自己是“首个”,导致大模型陷入了混乱的创新局面。

3.打着国产化的名号,进行大量重复投资。

业界另一项关于大模型的问题,是随着自主可控与国产化替代成为趋势,相关企业与科研机构开始大量进行重复的大模型投资。大模型国产化当然是合理且必要的。但不同企业、科研机构与不同项目、不同地区政策之间合作,容易造成大模型国产化项目处于较低水平且重复建设的发展模式中,反而降低了国产化的最终效果。

在种子问题之下,大模型的野蛮生长虽然并未结束,但已经显露出了某种枯竭。推动大模型从参数为中心向应用为中心转变,是目前阶段的核心问题。

大模型转型,呈现出两个思路

无论是称作“炼大模型”,还是大模型的野蛮生长,可以看到中国AI大模型的第一阶段发展处于一种饱和态势中。虽然可能产生各种各样的浪费与重复投资,但确实为整个产业长期发展打下了坚实基础。

这一点最直接的体现,在于目前中国AI产业中与大模型发展相适配的基础设施已经非常完善。这一优势是此前很多技术,乃至深度学习技术刚刚兴起时都不具备的。IDC发布的《Market Glance:中国AI大模型市场概览,2022》报告提出,大模型作为人工智能融合产业级实践的必然形式,目前底层支撑服务基本完善,多类型芯片持续迭代,围绕训练能力、核心算子库、上层软件平台深入布局优化。

底层基础支柱与配套设施的完善,让大模型走向应用更加顺遂。在今天我们可以看到,大模型转型应用为中心,主要呈现出两个发展思路。

1.拥抱AIGC,与欧美对齐的大模型发展思路。

从GPT-3出圈的自动协作,到近来火爆的AI作画,再到谷歌与Meta最近纷纷押注的AI生成视频,这项能力都可以归纳为AIGC(AI-Generated Content),即AI生成内容。

AIGC能够产生优质、复杂,甚至以假乱真的内容,背后的“脑力”普遍来自大模型的支撑。因此在大模型亟待与商用价值接驳的时间段,AIGC也就构成了最直接,最清晰的商业化路径。但在目前阶段,AIGC的商业化潜力还有待深耕。应用范围最广的AIGC能力应该就是AI作画,但其本身面向的常态化用户更多是插画师、设计师、自媒体,大量C端用户都是本着尝鲜的心态试试看,其最终能够激活多大的商业价值尚不明确。一般来说,AIGC中大模型扮演着双重角色,一种是直接为大模型所属企业的软件提供支撑,最终按需求次数或积分完成商业转化;另一种是赋能其他软件开发者,通过模型使用或者带动云计算、云存储用量来完成商业价值。无论哪种形式,将AIGC从小众需求变成大众需求,同时进一步提升AIGC的商业空间都是当务之急。

另一个角度看,AIGC也是谷歌、Meta等欧美科技巨头大规模投入的领域,因此国内互联网与AI企业是有发展参照物的。这一点当然带来了很多竞争,但也将确保发展路线处在中国科技企业比较熟悉的发展节奏当中。

2.拓展大模型与行业智能化、科学计算的结合空间,中国大模型的自主探索。

就像AI技术本身一样,中国产学政各界对大模型的深层期待是激活行业智能化价值,与中国经济整体应用空间结合,甚至在中国激活第四次工业革命。而这条路则是完全新颖、缺乏参照物的大模型发展可能性。其最大的问题在于,经过多年的发展,产业应用AI依旧难以解决成本过高、难以规模化复杂的问题,大模型的成本更加高昂,能否逃出AI的成本效益陷阱也变得更加复杂。而且将大模型与具体行业、具体科研领域结合,虽然在欧美也有尝试探索,但中国已经依靠丰富的产业需求与全社会的数字化热情走到了前列。如何在无人区激活大模型的长期价值,既是中国AI的机遇,也是严苛挑战。

在目前阶段,我们能看到一些AI厂商已经推出了行业大模型,比如金融大模型、能源大模型等等。也有多个领域与大模型进行了跨界合作,比如中国商飞联合科技厂商,发布了应用于大飞机测试的流体仿真大模型、西安交大相关团队应用大模型在超级抗药菌领域取得突破等等。

中国AI大模型,已经在跨模态搜索、自动驾驶、数字人、生物医疗、材料化学、数学能领域进行了广泛探索。但这些探索普遍处在跨领域合作与案例打造的阶段,举例坚实的商业化价值还有不短的路要走。尤其在如何摊薄大模型成本,推动规模化应用方面还有非常多的挑战。

不管怎么样,大模型走向产业,走向商业化,已经从“等等再说”变成了“时不我待”。不适应新的变化,很可能无法走向更远。

在清醒与未知中走向新生代

6500万年前,白垩纪正式结束,地球迎来了最新的地质时代:新生代。随着恐龙灭绝,灵长类觉醒,整个地球的故事开始呈现出新的样貌。

在今天,我们或许也会疑惑。如今大模型的发展成果、基础设施建设、技术路线探索,究竟有多少能留到下一个阶段呢?肯定是会有的,但大概率并不多。

我们必须清醒地认识到,大量大模型终归会丧失产业空间。就像其他计算、存储、AI基础设施一样,大模型到最后也只能留下被频繁使用,形成基础设施的极少数。转型必然带来新的投资与建设热潮兴起,以及传统热潮的消退。当产学各界不需要如火如荼般炮制大模型的时候,那些为此打造的算力、网络、开发平台基础设施应该何去何从?似乎也是一个需要提前思考的变量。

此外,我们还需要意识到大模型的前路不是一帆风顺的。大模型与行业融合,是一条根植中国经济与社会特性,并且蕴藏着极大价值可能性的新路。但经过多年发展,我们会发现所有AI问题到最后都是成本问题。大模型能否掏出AI“有用,但过贵”的成本怪圈,能不能为IT、云计算、互联网厂商带来足够的价值定位?这些问题依旧缺乏清晰的答案。

所以,大模型的白垩纪依旧没有结束。但我们也知道拼参数、大量重复建设的大模型发展阶段终会过去,而考验在那时或许才刚刚开始。

很多人认为,大模型是深度学习2.0,是AI避免陷入第三次寒冬的诺亚方舟。它被寄托了太多期待。

在新的AI火苗被点燃前,大模型还将在很长时间里难以替代。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2022-10-09
AI大模型的白垩纪
但在大模型愈发火爆的同时,我们不难看到一个问题:预训练大模型虽然在众多领域都表现出了良好的应用效果,但这些效果所产生的商业价值,却很难与大模型的训练成本、基础设施投入成本画上等号。

长按扫码 阅读全文