今天,AI正作为一个科技发展周期的轴心,成为万众瞩目的焦点。与历史上数次技术革命和AI浪潮所不同的是,这次AI的全球领先阵营里,有了中国的身影。
从一个学术灵感,到一项全球领先的专利技术,从一篇顶会论文到一个宏大的AI产业布局,中国AI的量变和质变,凝结了无数人扎根在泥土中一步一个脚印的寸进。
5月6日,第十二届吴文俊人工智能科学技术奖颁奖典礼正式举办。其中,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰带领团队完成的“知识与深度学习融合的通用对话技术及应用”成果,荣获“2022年度吴文俊人工智能科技进步奖特等奖”,这也是“吴文俊奖”首次评出特等奖。
这一个特殊的时刻,承载了一个“中国人工智能最高奖”、一个中国AI科学家、一个中国AI科技企业的十二年光阴。
如果大家对中国AI如何一步步前行而感到好奇,那么这个奖项正好是机会,可以看到一个人和一家企业,究竟是如何征服山岭的。
敢登千丈山:和“吴文俊奖”同行的百度攀山路
这两天,大家一定看到了很多“吴文俊奖”的消息。
将时间退回到2011年,中国人工智能学会刚刚发起“吴文俊人工智能科学技术奖”的那一天,绝大多数人都无法想象,中国AI能有这样的盛况。
十二年,对于“吴文俊奖”,以及百度和王海峰,都是一条值得感慨的时间旅程。
十二年前,刚刚发起的“吴文俊奖”规模尚小,第一届只颁出了五个奖项,获奖者大多来自北京邮电大学、中科院自动化所等高校院所。十二年来,该奖先后授予了两百多个单位和行业机构,以及七百多位专家学者,见证了中国AI学术力量和产业力量的崛起。
这个中国AI酝酿量变的过程,百度的身影一直都在。
早在2010年,大部分人对AI的想象,还跟科幻电影一样,觉得非常遥远、看不懂的时候,百度已经开始积累AI技术。2010年,王海峰加入百度,推动NLP、知识图谱、深度学习等AI技术进入新的应用空间。
百度技术进入了新的阶段,一系列AI布局接连启动。比如2010年成立的百度自然语言处理部(NLP),是百度历史最悠久的基础技术部门之一;2013年,百度深度学习研究院(IDL)成立,是中国产业界最早触摸深度学习技术的机构之一。随后百度又相继打造了大数据实验室BDL、硅谷人工智能实验室SVAIL、百度研究院等研究机构。
正是与AI的结缘够早、够深,百度才能在人工智能领域达成全面领先,第一个看到未知的远处风景。
王海峰,作为推动AI产学研融合的一面旗帜,是“吴文俊奖”十二年历史中,首个“吴文俊人工智能杰出贡献奖”的获得者。
王海峰团队的“知识与深度学习融合的通用对话技术及应用”,则拿下了吴文俊人工智能科技进步奖首个特等奖。
从中,我们也可以看到,“吴文俊奖”究竟在嘉奖什么。
能够让代表中国人工智能领域最高荣誉的“吴文俊奖”,打破常规,因为百度AI不断深入技术无人区,主动探索那些未被发觉的地带。
以此次获“特等奖”的 “知识与深度学习融合的通用对话技术及应用”为例,这一研究项目解决了该领域的四方面技术难题:
提出了基于知识统一表示的通用对话管理技术,解决了对话不连贯的难题;提出了融合知识的流式对话语音识别技术,解决了对话听不清的难题;提出了知识增强的通用对话理解技术,解决了理解不准确的难题;提出了基于隐变量与知识的对话生成技术,解决了回复有错误的难题。
王海峰在发表获奖感言时提到:“通用对话技术是人工智能领域最具挑战性的方向之一,也被认为是通用人工智能的必备能力。团队多年来持续在技术上探索和创新,突破了知识与深度学习融合的通用对话技术,目前已广泛应用于各行各业和人们生产生活中。”
敢登千尺山的百度,最终和“吴文俊奖”一起,见证中国AI一路走来,和世界顶峰相见。
深耕AI路:夯实底层技术,长出文心一言
对于首个吴文俊人工智能科技进步奖特等奖,院士专家给出了这样的评语,“整体技术指标与应用效果达到国际领先水平,极大地提升了我国在这一领域的科技竞争力和产业影响力”。
不难看到,学术高度与产业广度,是百度获奖研究项目的两大特点。
据了解,百度的通用对话技术已经获授权发明专利82项,发表高水平论文36篇,在国际权威评测中获得了11项世界冠军。同时,其也实现了大规模的产业应用,基于小度等业务,支持了5亿智能设备的对话能力提升,服务了超过10亿用户,其应用领域覆盖通信、金融、汽车、能源等20多个行业。
如今,百度在通用对话技术上的积累和突破,也经由技术蓝图,流向了全新的领域。比如让全球瞩目的AI新贵:大语言模型。
很多人都认为,文心一言是全球第一个由科技大厂自研的大语言模型。它的出现让中国快速跻身全球LLM的第一梯队,为中国AI争取到了更大的战略空间,而文心一言的背后,就有成熟的通用对话技术作为支撑。
对话增强是文心一言的核心技术特征之一,让文心一言具备更强的上下文理解、多轮对话能力,强化文心一言对话的完成度、连贯性、合理性,而对话增强,就是百度基于通用对话技术优势的再创新。百度提出了全球首个基于隐空间的生成式开放域对话大模型文心PLATO,不断提高模型的内容丰富性和连贯性。文心PLATO是百度研发的具有大规模参数的中英文对话预训练生成模型,经历多次升级,现已升级到百亿参数的文心PLATO版本。正是长期积累下来的通用对话技术,让文心一言具备了对话增强这个关键优势。
除了对话增强之外,文心一言还具备知识增强、检索增强等技术特点。
在知识增强方面,得益于百度构建的5500亿事实的知识图谱,以及早在2019年3月就提出了知识增强的语义理解框架ERNIE,百度不断强化语义理解技术能力。
文心一言基于庞大的知识图谱来做知识增强,从海量数据和大规模知识中融合学习,还可以直接调用知识图谱做知识推理,自动构建提示,高效满足用户需求。
而检索增强也是基于百度已有的语义理解技术优势的创新。百度拥有世界上最大的中文搜索引擎,百度搜索已经发展到基于语义理解和匹配的新一代搜索架构,深入理解用户需求和网页内容,进行语义匹配,得到更精准的搜索结果,进而为大模型提供准确率高、时效性强的参考信息,更好地满足用户需求。
更值得一提的是,文心一言还在飞速成长中。
王海峰在一次采访中透露,在内测时,有员工疑惑,文心一言怎么写不好藏头诗,而当时文心一言还处于学习阶段,王海峰很有信心,说“差不多明后天就能学会了”,果然第二天文心一言就能写藏头诗了。王海峰说:“信心就是因为我们对系统的能力有比较准确的把握。”
最近,飞桨又专门针对文心一言做了专项优化,一个月内迭代了4次,推理性能提升10倍,其中业内首创的支持动态插入的分布式推理引擎,推理性能提升了123%。
可以说,文心一言的各个方面,都展现出了百度夯实底层技术,系统化积累技术优势的技术战略。显然,王海峰的技术视野与技术关怀,在其中扮演了关键角色。
技术攀登是一个非常漫长的过程,如果没有对于技术动能的持续补充,可能因为“体力不支”,而无法坚持到登顶的那一天。基于文心大模型 ERNIE 及对话大模型 PLATO的文心一言,能走的更远、更快,靠的正是百度AI技术的持久续航。
青山遮不住:百度AI,向产业冲锋
从“训大模型”到“用大模型”,已经成为中国产学政各界这一波大语言模型浪潮的深层期待。
如何穿越AI与产业之间的无人区,走向千行百业,与社会更具深度地融合,是今天摆在科技企业面前的新挑战。
文心一言的技术核心,来自百度积累了十余年的四层架构:芯片、框架、模型、应用,这一整套技术体系,共同支撑文心一言向产业冲锋。
芯片层,百度有自研的量产AI芯片昆仑。同时,百度还跟硬件行业上下游建立了紧密的合作,与主流国内外芯片厂商进行了非常好的适配,所以任何一家有合适的AI算力,文心一言都能用得起来,这就保障了后续AI业务发展所需要的算力资源。
框架层,百度自主研发的中国首个开源开放的产业级深度学习平台飞桨,支撑了大模型的灵活开发、高效训练和推理部署。
模型层,文心大模型 ERNIE 及对话大模型 PLATO等自研模型已经证明了,文心一言的核心技术都是掌握在中国企业手里。
应用层,百度已经打造并开放了200多项AI能力和应用,并在飞桨平台提供大量应用模型、开发者工具,以及定制化服务,帮助各行业更简单地将AI用起来。
这四层架构,合在一起,展现出百度AI布局的全面与长远,也成为文心一言持续向上攀爬的保障。
用王海峰的话说,有了百度独特的技术和积累,能给普通用户带来不一样的感受:一是效果更好,文心一言能记住上下文,给出更新的信息、更准确的知识;二是效率更高,模型推理效率提高,用户等待的时间更短了。
从中,我们能看到,百度AI在产业中鲜明的差异化特征:
1.向上,保持核心技术突破,勇于探索技术无人区,主动承担了全球范围内底层技术的突破任务,保持着中国AI与世界最前沿的并列或领先。
2.向下,做实AI基础设施,确保产业自主可控。大模型训练推理,需要芯片、框架、开发工具等一系列软硬件,核心基础设施不能掌握在自己手里,产业使用时就会有顾虑。百度在AI领域四层架构实现了全面的核心技术自研,解除AI产业化和产业AI化的后顾之忧。
3.向前,带头构建产业生态,打通大模型到产业的关隘。通过开源开放的飞桨生态,以及飞桨产业赋能中心,把AI技术沉淀下去、开放出去、让各行业都用起来,帮助更多人爬上AI这座高峰,看见路前方的风景。
此时再回眺百度AI,会发现领先不是一个结果,而是由一个个技术脚印所串联起来的过程。这些过往凝结在一起,才有了我们熟悉的百度AI,与新生的文心一言。
获得“吴文俊奖”,顶峰之上的百度,正在攀登更高的山。大模型所开启的AI与产业融合之路,有如一片未知的土地,蕴藏着极大价值可能性,但也充满了变数,需要勇敢者先抵达彼端,一探究竟。
十二年弹指一瞬,走在科技前沿的百度,已踏上天地重开一境宽的新旅途。青山万丈,遮不断赤子的眼眸;雀喧鸠聚,挡不住行者的脚步。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。