跨越AI天堑时：行动代号“盘古大模型”

原标题：跨越AI天堑时：行动代号“盘古大模型”

我采访过一个案例，某工厂的IT负责人想要应用AI，咨询之后却发现开发成本过于高昂，人才、算力、算法等条件都不具备，最后只能作罢。

我认识一位朋友，任职于某家AI技术供应商，他们推出的行业解决方案备受好评，却在实际进入商业化阶段时，发现大量客户都需要定制，只能让公司的AI专家四处奔波，解决用户的细小问题，最后利润却连人员开支都无法覆盖。

还记得一条朋友圈。一位AI开发者在使用之后感叹GPT-3的神奇，同时也惋惜于中文世界缺少类似的NLP预训练大模型。

其实，这些朋友都遇到了同一个问题：一道名为“AI开发”的产业天堑。

当我们谈论AI时，总是会将其效果等同于数据集、实验室里的能力上限，却忽略了在真实的开发、训练、部署中，AI有着太多碎片化与不确定性的因素。

而跨过这道产业天堑，也成为了一场名副其实的全球大赛。这场赛跑中至关重要的一个项目，名为“预训练大模型”。2018年，谷歌AI团队发布了BERT模型，预训练模型的价值一时间成为全球焦点。2020 年 5 月，Open AI公布了拥有 1750 亿参数的 GPT-3 预训练大模型，打破了人类有史以来创建最大神经网络的记录。

与此同时，随着预训练大模型的产业与战略价值水涨船高，致力于将AI打造为新一代信息技术核心抓手的中国产学各界出现了一丝紧迫。

中文世界什么时候能迎来强大可用的预训练大模型？又是否能够冲出GPT-3带来的能力边界？面对AI开发的”天堑”，我们有什么自己的办法？

就在种种声音不断发酵的同时，华为云人工智能领域首席科学家田奇，正在和团队一同发起一次安静的冲锋。

这次冲锋的“行动代号”，叫做——盘古大模型。

天堑：“小作坊式”的AI开发困境

试想一下，如果每家企业在进行研发时，都需要自己做螺丝、轴承、齿轮这些基础部件，那整个社会的工业化从何说起？

但在AI领域，却真的会出现这种情况。如今，AI技术的企业渗透率仅仅为4%，距离产业爆发期还有相当长的路要走。究其原因，并不是AI缺乏价值，而是开发过程中存在大量的碎片化因素。每家想要应用AI的企业，可能都需要一些技术水平很高的人才来进行独立的架构设计与调参。这就像每家工厂都需要聘请设计师来设计螺丝，是一种相当粗放、原始的手工作坊模式。

来到华为云的田奇，就和同事们共同发现了这样的问题。

加入华为之前，田奇已经是业界知名的AI领域学者。他是美国伊利诺伊大学香槟分校博士、IEEE Fellow，也是原德州大学圣安东尼奥分校计算机系正教授。在高校任教17年之后，带着学术界的前沿思考和科研成果，田奇与团队来到了产业一线。而他们首先关注到的，就是广泛存于各个角落的AI开发困境。

由于传统的NLP、机器视觉模型开发都来自研究机构，所以其开发模式也天然与实验室对齐，缺乏产业界要求的效率、标准化与成本可控。

比如说，一家企业的一个项目，往往都需要开发一系列定制化的小模型。但每个模型的开发周期都相对较长，并且需要不断完成各种数据清洗、数据增强、模型适配等等琐碎繁杂的工作。这个过程中，开发人员会选择自己熟悉、擅长的模型与开发方式，又导致每个模型之间差异化很大。一旦出现问题就可能推倒重来，而人员变动更可能让所有努力付诸东流。

这种开发模式，存在着“三高”的问题：开发人员专业性要求高、综合成本高、不可控程度高。

那么如何突破这道产业天堑呢？从工业体系的逻辑上看，核心方案就是提升AI开发前置工作的标准化程度，把不同开发者所需模型的公约部分提前训练好。这就是工业化中的零件化、标准化和流程化。

在探索AI工业化的过程中，预训练大模型逐渐成为行业认可的方案。它的逻辑就是提前将知识、数据、训练成果沉淀到一个模型中，然后将这个基础释放到产业。由不同行业、不同企业的开发者在此基础上进行二次开发和微调。就像一个工业化社会的第一步，是完善重型机械的建造能力。AI工业化的来临，也需要首先拥有作为底座的“重型机械”。这也成为了盘古大模型团队在华为云体系中的首要任务。

翻越开发天堑，在于能筑“重器”。

登山：盘古大模型背后的人与事

想要打造一个属于中文世界，并且适配各种真实产业场景的AI预训练大模型，首先摆在研发团队面前的是两大门槛。一个是技术门槛，大模型需要非常好的并行优化来确保工作效率，这对网络架构设计能力提出了很高要求；第二是资源门槛，大模型训练需要极大的算力。后来在训练千亿参数的盘古大模型时，团队调用了超过2000块的昇腾910，进行了超过2个月的训练。这对于一般企业来说显然难以承担。

总之，想要快速打造一个可堪重用的AI大模型，需要调用各方的力量，并且精准完成技术上的进化。

2020年夏天GPT-3的出现，让欧美AI界产生了对预训练大模型的极高兴趣。但在国内，产业界对NLP预训练大模型的关注还相对较少。而机器视觉领域的预训练大模型，在全球范围内都是十分陌生的新鲜事物。

此时，刚刚在2020年3月份加入华为云团队的田奇，开始组建团队并且进行方向梳理。到了8月，团队迎来了核心专家的加入。随后在9月，团队开始推动盘古大模型的立项，希望能够在华为云的产业基座上，完成适配各个产业AI开发的大模型。

来到2020年11月，盘古大模型在华为云内部立项成功，也完成了与合作伙伴、高校的合作搭建。在开始打造盘古大模型的时候，团队确立了三项最关键的核心设计原则：一是模型要大，可以吸收海量数据；二是网络结构要强，能够真正发挥出模型的性能；三是要具有优秀的泛化能力，可以真正落地到各行各业的工作场景。

接下来就是选择赛道的问题。NLP领域的预训练大模型当时已经得到了广泛关注，自然是盘古大模型的重中之重。同时，AI在产业中应用的更广泛需求是机器视觉能力，所以盘古大模型同时也瞄准这一领域，同时开启了NLP和机器视觉两个领域的大模型开发。

与此同时，盘古大模型也做好了未来规划。首先希望能够把机器视觉、NLP、语音，甚至计算机图形学的技术结合起来，形成多模态的预训练大模型，增强预训练大模型的跨领域协同落地能力。另外，AI落地中还有一个十分重要的领域是科学计算。海洋、气象、制药、能源等领域都有非常强的知识处理、科学计算需求。用AI的方法去求解科学计算问题，将带来十分巨大的价值潜力。因此，多模态与科学计算大模型，将是盘古接下来的行动方向。

确定了建设方案与赛道选择之后，接下来的研发工作可以顺理成章地开展，同时也必然经历创造性研究中难免产生的一系列挑战。

比如盘古大模型的核心开发过程，就是以海量有效数据进行模型预训练，实现吸收大量数据之后模型的高度智能化。那么数据和算力从哪来，就成为了一个不可避免的问题。在盘古大模型的开发过程中，华为云和合作伙伴的多方推动，确保了所需数据和算力资源的保障到位。即便华为云拥有非常好的资源基础，在千亿参数级别的大模型面前也依旧存有不足。为此，田奇团队也尝试了与合作伙伴的紧密协作，调用一切资源来确保开发进度。比如团队同著名的鹏城实验室合作，来完成了模型训练所需算力的调用。

而在数据与知识方面，盘古大模型的开发团队经常会遇到与具体行业知识体系、数据系统的磨合问题。这在具体过程中经常出现意料之外的情况。比如一个医学数据的准确率，显然应该依赖医学专家的解答。但在具体场景中，往往医学专家的判断准确率也并不高。这类AI之外领域的情况，往往会反向影响到盘古大模型的开发。为此，盘古大模型团队需要与具体的行业专家进行反复沟通，希望把他们的知识或者直观感受，转化为计算机可量化的模型，再对训练出的结果进行协同验证。这种反复的跨领域沟通与联动，才最终可能达成关于AI的共识。

在盘古大模型开发过程中，由于时间紧张、训练难度与成本巨大，并且还是机器视觉与NLP双模型同时推动，自然也需要内部团队的“超人发挥”。田奇回忆，团队内部都叫自己“特战队员”，也就是角色需要经常互换，工作需要相互支撑，哪里缺人就要哪里顶上。一个技术专家，同时也要考虑很多产业落地、商业化方面的问题。

支撑着盘古大模型不断攻坚克难的团队，起初仅有6、7人，他们是让盘古大模型得以从实验室走向产业的中坚力量。如今团队已陆续壮大起来，已包括20多名博士、30多名工程师、3名广受关注的“华为天才少年”，还有50多名来自全国C9高校的专家。

翻山越岭从来不易，智能时代亦是如此。

翻越：“盘古”究竟强在何处？

2021年4月，盘古大模型正式对外发布。其中盘古NLP大模型是业界首个千亿参数的中文预训练大模型，在CLUE打榜中实现了业界领先。为了训练NLP大模型，团队在训练过程中使用了40TB的文本数据，包含了大量的通用知识与行业经验。

而盘古CV大模型，在业界首次实现了模型的按需抽取，可以在不同部署场景下抽取出不同大小的模型，动态范围可根据需求，覆盖特定的小场景到综合性的复杂大场景；提出的基于样本相似度的对比学习，实现了在ImageNet上小样本学习能力业界第一。

这些数据下，我们可以进一步考察盘古大模型的优势和能力点在何处。尤其盘古大模型与GPT-3的对比情况究竟如何，应该会有很多朋友好奇。

横向对比盘古大模型与GPT-3的差异，也是透视盘古大模型技术创新的有效方案。首先我们知道盘古大模型有机器视觉模型，这是GPT-3所没有的。回到NLP领域中，GPT-3更偏重于生成，其理解能力相对较弱。这也是为什么我们看到的GPT-3案例基本都与文本生成相关。而在盘古大模型的研发过程中，团队考虑到真实的产业场景中有大量的内容理解需求，比如客服、智能对话等等，于是给盘古大模型设计了兼顾架构，能够同时高度完成理解与生成任务。

再来看具体一些的技术差异，盘古大模型提升了复杂场景下的小样本学习能力，在小样本学习上比GPT-3提升了一个数量级的效率；在微调能力上，盘古有着更好的数据吸收理解能力，可以在真实行业场景中实现提升模型应用效率；再有盘古大模型集成行业知识的能力更强，其采用更灵活的模块设计，能够根据业务场景适配，提升行业知识吸收效率。

在技术创新之外，盘古大模型还是一个天然瞄准AI工业化、现实场景的项目。在立项初期，研发团队就与合作伙伴进行了一系列商业化验证，以此来确保盘古大模型走入真实产业场景中的效率和适应能力。这也是盘古大模型的一大差异，它并非为实验室而创造，而是将工业化的一面放置在更高的优先级上，是一个以商业价值驱动研发创新的“实干模式”大模型。

再有一点，盘古大模型与其他预训练大模型不同的是，团队在研发过程中始终将生态化、协同创新纳入考量。盘古大模型是一个开放、可生长的产业实体，可以在各个环节引入生态合作伙伴、高校科研团队，以及不同领域AI开发者的力量。这样确保了盘古大模型融入产业链条、搭建生态化合作的能力。从技术化、商业化、生态化三个层面，盘古大模型都驱动预训练大模型来到了一个新的阶段，建造了一个从“作坊式AI开发”到“工业化AI开发”的转换基础。

盘古之力，在于合力。

灯火：大模型的落地进行时

虽然刚刚发布几个月，但从立项之初，盘古大模型就已经开展了一系列产业合作。这些来自千行百业的“盘古故事”，可以让我们看到大模型与AI开发之变带来的真实影像。

在物流场景，盘古大模型协助浦发银行构建了“物的银行”——浦慧云仓。在人员行为、货物检测方面，可以实现性能提升5%到10%；同时开发效率也极大提升，原本需要1到2个月的开发工作，现在只需要两三天就可以完成，开发中的人力、算力、维护成本都极大降低。

在盘古大模型的落地进程中，也经常会出现一些“意外”的惊喜。比如在国家电网巡检案例中，由于缺陷种类复杂多样，传统的方法需要对大多数缺陷适配特定模型以满足性能需求，这样100余种缺陷就需要开发20+模型，造成模型迭代维护困难。盘古大模型创造性地提供行业预训练模型，得益于其突出的特征表达能力，能够做到一个模型适配所有缺陷，极大地提升了开发效率，同时识别效果平均提升超过18%。同时，盘古大模型还提供针对零样本的缺陷检测功能，能够快速判断新缺陷，真正贴近于巡检员能力。

这样的案例不断增多，让盘古大模型的行业认可度节节攀升。继而也让“预训练大模型是AI工业化主要途径”成为行业共识与产业发展方向。目前，盘古大模型已经在100多个行业场景完成验证，包括能源、零售、金融、工业、医疗、环境、物流等等。精度提升、效率加强、开发成本下降，逐渐成为盘古大模型走向产业的几个“标签”。

万家灯火初上，百业AI将兴。

思索：AI工业化的虹吸与变革

盘古大模型的故事当然刚刚开始，但从它的立项、研发和落地进程中，我们却可以得到一些关于AI工业化的思考。

从历史中看，一种产品的工业化进程必然需要经历研发为重—基座为重—产品为重三个层级。比如说我们熟悉的智能手机，在经历了微型处理、无线通讯、屏幕触控等技术的储备阶段之后，最终形成了一套标准化的集成逻辑与基础产业链。这一阶段，厂商不必再花费巨资进行基础研发，而是可以用相对较低的成本完成零部件采购与集成制造。也只有这样，厂商才能打磨产品，雕琢功能，消费者才能用上物美价廉的智能手机。

将这个逻辑回溯到AI领域。自深度学习为代表的AI第三次兴起之后，这项技术得到了快速发展。但其基础业态还处于“研发为重”的第一阶段。行业中缺乏公开、有效、低成本的产业基础，最终导致很多理论上成立的落地方案难以成行。

而盘古大模型的价值，恰恰就在于推动AI的低成本、可复制。虽然在打造大模型的阶段需要耗费巨大的研发成本与资源，但一旦突破产业规模期，将带来全行业的普惠价值。田奇认为，目前我们处在AI工业化开发模式起步后的快速发展阶段，而大模型是最有希望将AI进行落地的一个方向。

从这个角度看，我们在观察、思考和推动预训练大模型发展时，就不应该停留在科研基础设施的角度，而是应该以产业应用为导向，引导各方全力以赴，谋求AI工业化进程的质变契机。

从盘古大模型的故事中看，这个过程需要多重力量的携手与跨界。比如说，田奇加入华为，一度被视作AI学者进入产业界的代表性事件。而今天来看，这种“跨界”和“变化”确实起到了作用。田奇有着最新的研究方法、技术创新能力与国际视野；而在华为云的产业结构中，田奇团队也找到了学术界所不具备的驱动力——在产业界，科学家必须思考功耗、效率、成本、商业场景等等一系列真实问题，“学以致用”需要落进方方面面。

再比如，盘古大模型的开发过程，也是一场AI学者与工程师，同各行业专家、企业的对话。铁路、物流、医学、天文，种种知识要融入大模型之中，这就需要更强的协同能力与互相理解。

产学研的纵向融合，不同行业领域的横向协同，诞生了AI在工业化阶段必须经历的虹吸效应。从这个角度看，盘古大模型也是一次产业、科研的虹吸范本。

这种“协同发力、重装行动”的盘古大模型模式，或许将在未来一段时间内不断涌现，也将成为云计算与AI产业的战略重心。而其影响，可能是AI开发的综合门槛下降，一系列产业与社会价值的提升，以及战略级AI基础设施的完备。

田奇回忆说，在打造大模型的过程中，他更多考虑的是可能带来的商业价值。如果不能复制推广，那么大模型可能就是“一个toy、一个只能在实验室中被观赏的东西”。团队希望大模型能够在更多场景中被使用，这样才能带来改变。

当更多科学家、行业专家、AI架构师，用这样的角度和动力去思考AI、推动AI、建造AI，横亘在AI面前的产业天堑，最终会成为登山者的丰碑，成为AI工业化变革的标志。

也许有一天，我们在聊AI往事的时候，会记住这么几个字：

AI落地，“盘古”开天。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

跨越AI天堑时：行动代号“盘古大模型”

下一篇