百度:不做大模型王者,要做AI世界的基石

讨论国产AI大模型,百度是绕不过的话题。作为中国AI产业的扛旗者,百度在AI技术上拥有足够高的话语权,其推出的文心大模型被视作是最有机会追赶GPT的国产基础大模型。不过从最新的发布来看,百度在AI大模型这件事上,似乎并不想过度地卷参数,而是将重心放在了落地上,给人们提供开发AI应用的工具,则是百度推动AI大模型落地的关键。

4月16日,Create 2024 百度AI开发者大会在深圳举行。从现场人流量可以看出,AI依然是科技圈顶流。现场嘉宾中,有企业高管,有技术人员,有销售人员,有高校学生……所有人都在学习AI大模型,都在寻觅AI大模型的机会。

自去年以来,诸多热门AI大模型技术持续占据媒体头条,对普通人来说却遥不可及。当所有人都在仰望神坛上的AI大模型技术时,百度决定要让AI技术走下神坛,这正是李彦宏的演讲主题《人人都是开发者》所表达的愿景。

李彦宏没有过多地介绍文心大模型的技术优势,而是将主题围绕开发者,将更多时间给到了“工具”。

为什么要让工具成为这届开发者大会的主角?用李彦宏的话说是:"大语言模型本身并不直接创造价值,基于大模型开发出来的AI原生应用才能满足真实的市场需求。”根据过去一年的实践,踩了无数的坑,交了高昂的学费后,百度积累了基于大模型开发AI原生应用的思路,并带来三大AI开发神器:智能体开发工具AgentBuilder、AI原生应用开发工具AppBuilder、各种尺寸的模型定制工具ModelBuilder。

三大AI开发神器,让“人人都是开发者”不是梦

在2023年10月,百度发布了文心大模型4.0版本。为了推动AI大模型落地,李彦宏提出了AI原生应用概念,他认为大模型技术和AI原生应用是一体两面、共生共存:前者的理解、生成、逻辑、记忆四大能力的进步是AI原生应用不可或缺的生存土壤;反过来,如果没有AI原生应用在各个场景的落地、普及,大模型技术也就失去了现实意义。

简单地说,AI原生应用之于大模型技术,如同App之于移动互联网。所有应用都值得用AI重做一遍,在AI大模型上也将长出截然不同的新应用。

然而,对于绝大多数企业与个体来说,开发App本身就是高门槛的事,基于大模型开发AI原生应用,门槛更是指数级上升:大模型技术新,人才本就奇缺,大模型技术还高度复杂、且日新月异,开发难度更高,很多学计算机类专业的程序员在未经专业培训时都难以掌握。

提供专门的AI原生应用开发工具就成为大模型落地的燃眉之急。2023年10月提出AI原生应用概念时,百度就意识到这一问题,且提出了要让AI原生应用开发更敏捷的目标。随着代码大模型技术本身的快速升级,百度如今推出了可以让人人成为开发者的系列AI开发工具。

1、AgentBuilder是人人可用的智能体开发工具,用户不需掌握任何编程技术,即可用“对话式交互”的模式,用自然语言输入指令创造AI原生应用。目前已有新加坡旅游局、启德教育和索菲亚等上万家企业、5万多名开发者基于AgentBuilder开发智能体,最快5分钟即可创建完成。

2、AppBuilder是目前最好用的AI原生应用开发工具。百度已提前将开发AI原生应用所需的组件和框架封装在AppBuilder中,开发者最快三步就可以开发一个AI原生应用,且依然是自然语言编程。李彦宏在现场基于AppBuilder进行AI原生应用开发实战,演示了“游乐场排队助手”、华北电力大学“华电AI助理”和百度文库智能漫画生成三个AI原生应用的创建过程。

3、ModelBuilder是面向专业开发者的模型定制工具,其预置了最全面最丰富的大模型(高达77个),包括旗舰基础大模型ERNIE3.5、ERNIE4.0,百度旗下的多款轻量级大模型以及垂直模型,以及第三方主流模型。ModelBuilder可以根据开发者的需求定制任意尺寸的模型,并根据细分场景对模型进一步精调,达到更好的效果,李彦宏在现场展示了基于ModelBuilder开发教育行业的“作文批改助手”,不仅可以拥有更专业的老师点评思维、做到格式遵循,而且相比未精调模型,精调后的模型打分与真实的老师点评分数更为接近。

AgentBuilder、AppBuilder、ModelBuilder三大AI开发神器的底层,则是强大的代码大模型技术。据李彦宏介绍,文心大模型快速进化,其中“代码”是重要升级领域,其在代码生成、代码解释、代码优化等通用能力方面实现了进一步的显著提升,达到国际领先水平。

在一年多前,百度就基于文心大模型推出智能代码助手Comate,支持100多种语言和主流IDE平台,可推荐代码、生成代码注释、进行代码续写、查找代码缺陷、给出优化方案,还可深度解读代码库、关联私域知识生成新代码,目前已被百度自身,以及喜马拉雅、三菱电梯、软通动力等上万家企业应用,生成代码采纳率达46%,百度每天新增代码中已有27%由其生成。

在开发者大会上,李彦宏还发布了文心大模型4.0的工具版,让开发者可在工具版上使用代码解释器功能,通过自然语言交互实现对复杂数据和文件的处理与分析,还可以生成图表或文件,能够快速洞察数据中的特点、分析变化趋势。

随着大模型在代码领域的持续进阶,以及AgentBuilder、AppBuilder这样的低门槛甚至零门槛开发工具的出现,自然语言编程不再是梦想,每个人都可以使用自然语言来表达自己的需求、构建需要的程序,专业程序员则可以靠ModelBuilder专业工具大幅提高效率,减少重复工作,聚焦在业务与创造本身。

正如李彦宏所说:“AI正在掀起一场创造力革命,未来开发应用就像拍个短视频一样简单,人人都是开发者,人人都是创造者。”他甚至乐观地表示:“你只要会说话,就可以成为一名开发者,用自己的创造力改变世界。

有了计算机就有了编程的概念。编程语言一直在进化,从最初的二进制,到后来的机器代码,到汇编语言,再到高级语言。这些年,高级语言也在不断革新。而编程语言不断进阶的目的,就是为了让编程难度更低、效率更高。按照这样的路线来看,人人都掌握的自然语言将是“编程语言”进化的终极形态。

不只是百度意识到这样的趋势,此前,英伟达CEO黄仁勋也曾表示,AI可以让每个人都能编程:“编程语言可以普及成为人类的语言,现在世界上每个人都是程序员。这就是人工智能的奇迹。”

英雄所见略同,百度发布三大AI开发神器,让“人人都是开发者”变为现实,让每个人都可以更好地掌控、利用和挖掘AI红利,创造更好的世界。

不卷参数卷工具,百度成为AI普及的推手

在这届开发者大会上,李彦宏也有分享百度文心大模型的最新进展。截至目前,文心大模型已经成为了中国最领先、应用最广泛的AI基础模型。基于文心大模型的AI原生爆款应用文心一言在发布一年后,用户数已突破2亿,API日均调用量也突破2亿,服务客户数达到了8.5万,利用千帆平台开发的AI原生应用数超过了19万。

丝毫不难发现:百度丝毫没有要卷大模型参数“堆料”的意思,它分享的核心数据均关系到大模型的应用进展,它正在进行的一切努力也围绕着大模型落地进行。

首先是提供更全、更好、更智能的应用开发工具。

在“百模大战”如火如荼且许多大模型走向开源后,当下的市场不再需要更多的基础大模型。市场真正紧缺的,一个是具有世界级竞争力的顶尖大模型,这是文心大模型努力的方向;另一个则是基于AI大模型的杀手锏应用。只有形成类似于AppStore这样的繁荣的原生AI应用生态,AI大模型技术才算真正实现了爆发。

然而,AI原生应用开发彻底改变了软件开发的思路,不再是面向过程也不再是面向对象,而是“面向智能”,开发者需要调用、组合模型的能力来创造应用,传统的开发工具体系很难适应这样的新型开发模式。因此,不论是从0到1的新建,抑或是对成熟应用的改造,AI原生应用的构建都必须要有更适合的专业AI大模型应用开发工具,就像网站、软件、App开发有各自的专门工具体系一样。

于是我们发现,“工具”成了百度这届AI开发者大会的最高频的关键词。

其次是不断降低大模型成本,让开发者愿意用、用得起、用得多。

除了降低AI原生应用开发门槛外,百度也在努力降低大模型的计算成本。从“囤卡现象”,到“电力短缺”,诸多与大模型相关的新闻均表明AI大模型应用成本高昂务必。然而,技术普及的关键就在于成本降低。从飞机到5G网络到电动车再到智能驾驶,每一个技术走向爆发都会经历一个进化曲线:随着技术不断发展,产品化与商用化加速促进成本降低,到达一个奇点时,成本出现质变,走向大规模普及。

推动大模型经济成本降低,百度双管齐下:

一方面是技术降本。在芯片、框架、模型、应用这四层架构上有着全栈的布局,具备端到端这一模式的先天优势,基于此可不断地将模型成本打下来,让更多人都可以高效、低价地用大模型来做AI应用,且不断提高文心大模型和文心一言的效率。

另一方面是规模降本。在GPT出圈以前的2019年,百度就已布局大模型技术并推动落地。大模型用得越多越智能,也越便宜。随着百度大模型技术的规模化落地,技术持续进化的同时成本不断降低,飞轮效应已然形成。据李彦宏介绍,“相比一年前,文心大模型的算法训练效率提升到了原来的5.1倍,周均训练有效率达到98.8%,推理性能提升了105倍,推理的成本降到了原来的1%。也就是说,客户原来一天调用1万次,同样成本现在一天可以调用100万次。”

最后、建立AI大模型生态,鼓励AI原生应用创新。

在这届开发者大会上,李彦宏宣布,第二届“文心杯”创业大赛正式启动,这是一个鼓励开发者基于大模型开发AI原生应用的大赛。2023年5月百度首次启动“文心杯”创业大赛,一共给15支优胜团队提供了数千万元的资金支持。今年百度“文心杯”创业大赛力度更大,首次设立‘特别大奖’,特别优秀的项目,将有机会获得5000万人民币的现金和资源支持。

不论是WEB时代的网站,抑或是移动时代的App,任何应用生态的繁荣都来自于开发者的创新。在AI原生应用生态中,百度一方面提供更强的基础大模型技术基石,和更成熟的配套开发工具支持,另一方面则营造良好的创新生态,降低开发门槛,吸聚开发者,发挥中国创业者善于做应用落地的优势,推动大模型上更早长出更多成功的AI原生应用。

李彦宏多年来一直扮演着“AI布道师”角色,自深度学习时代起就一直为AI产业化摇旗呐喊,致力于让全社会理解AI、重视AI、用好AI。在演讲的最后,李彦宏动情地表示:“今天的中国,有10亿互联网用户,有强大的基础大模型,有足够多的AI应用场景,有全球最完备的产业体系,国家也在大力鼓励和支持‘人工智能+’行动,每一个人,每一家企业,只需要充分利用这些工具,就可以释放无限的创造力和生产力。”

百度AI的落地范式,行业的游戏规则

2023年,大模型就已成为科技产业的头等大事,中国兴起了如火如荼的“百模大战”。然而迄今为止,真正让用户有感知的AI大模型应用仍是凤毛麟角。虽然时不时会有类似于Sora、Suno这样的AI大模型爆款应用或者技术刷屏,但它们大都仅限于“娱乐”,且往往会“昙花一现”,因为无法真正解决用户生活中面临的问题,或者没有给企业带来任何实质性价值。

由此可见,“落地”依然是大模型以及AI发展的重中之重。行业亟待杀手锏应用的出现,亟待能跑通商业模式的大模型应用,亟待更繁荣的AI应用生态。在这样的关键窗口期,百度旗帜鲜明展现出的AI观,正是行业需要的AI观。

当行业在卷开源“重复造轮子”,或者围绕“比大更大”的参数进行军备竞赛时,百度公然“唱反调”,只做有价值的大模型,号召开发者使用更合适(而不是更大)的模型,让行业回到理性发展的轨道。

在开发者大会上,李彦宏甚至直言,“开源模型会越来越落后。”在百度看来,未来绝大多数AI原生应用都是MoE的,即大小模型的混用,不依赖一个模型来解决所有问题;小模型推理成本低,响应速度快,在一些特定场景中,经过精调后的小模型,它的使用效果可以比美大模型。基于此,开发者可在强大的基础模型文心4.0之上,根据需要,兼顾效果、相应速度,推理成本等各种考虑,剪裁出适合各种场景的更小尺寸模型,并且支持精调和post pretrain。这样通过降维剪裁出来的模型,比直接用开源模型调出来的模型,同等尺寸下,效果明显更好;同等效果下,成本明显更低。“所以开源模型会越来越落后。”

在大模型基座研发上,百度在确保文心大模型自主可控、技术领先的同时,强化中文等独特优势。同时,围绕多模态大模型等垂直场景构筑长板优势,李彦宏在开发者大会上表示:“视觉大模型最大的应用场景是自动驾驶。百度在这个方向上是最好的,是自动驾驶的全球领导者,我们不只训练AI如何生成视频,更训练AI理解真实世界发生的事情并预测未来。”这一点马斯克也曾发出同样的感慨,在Sora发布后他在X上直言:特斯拉的视频生成技术是世界上最好的,甚至超过OpenAI的Sora,原因在于特斯拉拥有强大的自动驾驶技术。

更重要的是,百度将“落地”视作发展大模型AI的头等大事。技术只有落地才有价值,大模型只有转化成AI应用才能为人类所用。不论是提出AI原生应用的畅想,抑或是推出成套的AI开发神器,都表明百度在力所能及地推动AI大模型落地。

作为技术领先者的百度,已然成为AI大模型落地的关键推手,其AI观已成为行业游戏规则,将让AI大模型健康发展,让AI大模型的普惠时刻更早来临。

大模型落地不需要“大炮打蚊子”。“适合的才是最好的。”百度以务实的态度,构建基础大模型和垂直大模型技术基座,同时提供工具链支持,让每个人都有机会挖掘到AI红利。

毫无疑问,百度走在正确的道路上。

#暮春谷雨#

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-04-16
百度:不做大模型王者,要做AI世界的基石
百度:不做大模型王者,要做AI世界的基石

长按扫码 阅读全文