清华大学教授孙茂松：理解大模型机理建立AI新理论

7月27日消息，25日，清华大学人工智能研究院教授、欧洲人文和自然科学院外籍院士孙茂松在浦江基础科学发展论坛期间接受采访时表示，根据现有文本分析、不生成新文本的理解类大模型不存在“幻觉”。但像ChatGPT这样生成类的大模型，对话需要与事实对齐，这还要付出很大的努力，也是目前的研究热点。

澎湃新闻报道，孙茂松表示，当前业界对于ChatGPT的举一反三还处于“知其然，不知其所以然”的阶段，只有搞清楚大模型的机理，才有可能克服现有人工智能大模型的局限性，超越现有大模型，建立下一代人工智能理论和模型。而人工智能最前沿之争就是人才的竞争，顶尖高手决定了人工智能的高度，广泛的应用决定了人工智能的广度。

理解大模型机理，才能克服局限建立下一代AI理论

人们常常忽略语言的重要性，因为语言自然得就像空气一样。但只有人类才有语言能力，语言的地位极其重要。而ChatGPT的出现让机器也有了语言对话的能力，孙茂松说，这是5000年未有之变局，也会催生一系列新应用。

但对于ChatGPT，“现在是知其然，不知其所以然。OpenAI开发出了这样的现象，但为何会产生智能涌现这样的现象还说不清。现在人工智能领域的大公司、大机构都在拼命往前跑，把大模型效果做得更好，还没有时间停下来深刻地思考大模型的机理。”孙茂松表示，这就像蒸汽机带来了工业革命，但直到大约100年后在热力学三定律之下才解释清楚。

大模型里的元素事关数学，当前大模型的参数到了万亿级，应用数学家从来没有解过如此大的方程组，并且大模型涉及到的数学问题与经典数学完全不同，这为理解大模型机理带来了挑战。

但孙茂松认为，只有搞清楚大模型的机理，才有可能克服现有人工智能大模型的局限性，超越现有大模型，建立下一代人工智能理论和模型。而这不会再像蒸汽机那样需要100年才能理解机理，他相信三五年时间就能突破大模型的机理研究。

语料利用处于粗放阶段，减少大模型幻觉是研究热点

目前大模型的语料利用还处于粗放阶段，仅仅是从互联网上抓取语料，还没有涉及网页中的超链接和图片处理、文本结构的识别与利用等。孙茂松表示，“大模型写短文可以写得很好，但写长文、短篇小说不行，它没有办法保持大逻辑流畅、人物角色连贯。因为大模型就是对下一个词的预测，预测得再好，它对语料的利用还是有深刻的不足。”

除此之外，孙茂松表示，要对语料质量保持足够关注，剔除语言不通顺的语料、计算机生成的语料，利用质量好的语料。但水至清则无鱼，越纯的语料可能导致多样性损失，例如喂给大模型的都是“高大上的语料”，大模型就看不懂带有表情符号的语料。因此要追求平衡，根据应用判断什么是好的语料。

大模型存在“幻觉”，常常一本正经地“胡说八道”。但孙茂松表示，“幻觉”是能力强的表现，是创新的源泉。大模型分为生成模型和理解模型，前者如ChatGPT，孙茂松说，以前要让计算机通顺地说话是做不到的，因为词与词的组合关系复杂。现在做到了通顺，但并不意味着所说的话是正确的，语义层、语用层都需要和现实世界对齐。

“比如机器回答在上海城隍庙吃了上海小笼包和上海烤鸭，从语言角度来看，这都没有问题。哪个更符合事实，它就不知道了，这就需要人介入进来。”孙茂松表示，大模型的对话需要与事实对齐，这还要付出很大的努力，也是目前的研究热点。

对于后者，模型根据现有文本进行分析，不生成新的文本，只理解不说话，就不存在“幻觉”。利用这种理解模型，打通语料，让机器自主学习，就可以依靠模型查询相似诗句，例如哪一诗句和杜甫《绝句》中的“一行白鹭上青天”最接近？大模型的回答是宋代《野景》中的“白鹭一行登碧霄”，这就是大模型所擅长的。

AI最前沿之争是人才的竞争，顶尖高手决定高度

这一波人工智能浪潮起于2010年，彼时学术界和工业界都在开足马力研究，积累了充分的经验，ChatGPT的出现为人工智能点了一把火。孙茂松表示，国内的“百模大战”并非贬义，而是实力的象征。未来通用大模型支撑垂直模型的开发，绝大多数从业者将不会把主要精力放在基础模型上，而是面向行业应用开发垂直模型。

但在通用大模型方面，“我们确实在跟跑，跟领跑者的差距很明显。这半年我们把差距缩小了，但没有质的变化。”孙茂松表示，在ChatGPT之前，国内的大模型研究和国外相比差半个肩位，ChatGPT出现后甩开100米，这半年追了几十米，但在关键性能上还有差距。如果能够研究透彻大模型的机理，就可能棋高一着。

无论是模型还是应用，都离不开硬件厂商或云服务商，算力目前是最稀缺的资源。启明创投发布的《生成式AI》报告显示，GPU的性能实际上决定了这个新兴行业的步调，但从长期来看，人才对人工智能未来的影响超过算力。

孙茂松同样认为，人工智能最前沿之争就是人才的竞争，顶尖高手决定了人工智能的高度，广泛的应用决定了人工智能的广度。人工智能的发展需要一流的人才，这些人才除了具备顶尖的能力，还要有远大的科学理想、敏锐的洞察力和对技术的激情。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

清华大学教授孙茂松：理解大模型机理建立AI新理论

下一篇