大模型通过图灵测试:AI终于要取代人类了吗?

GPT-4.5化身人类,73%胜率碾压真人,LLaMa-3.1紧随其后。图灵测试首被攻破,AI模仿力引发热议:它会取代我们吗?

75年前,Alan Turing提出了一个大胆的想法:如果机器能通过文字与人对话,让人无法分辨它是机器还是人类,那它是否就拥有了智能?这便是如今大名鼎鼎的图灵测试。简单来说,一个人类“审问者”同时与两个对象聊天,一个是真人,一个是机器,两者都尽力证明自己是人。如果审问者分不清谁是谁,机器就胜出了。Turing认为,这不仅考验机器的聪明程度,还关乎它能否模仿人类的行为举止。

我们最近做了一场实验,测试了四款系统:老牌聊天机器人ELIZA,以及三款现代大型语言模型GPT-4o、LLaMa-3.1-405B和GPT-4.5。实验设计很直接:参与者在5分钟内与另一位人类和其中一款AI同时对话,然后判断谁是真人。结果让人瞠目结舌——当GPT-4.5被要求扮演一个“人类角色”时,73%的人认为它是真人,甚至比真正的参与者更像人!LLaMa-3.1也不甘示弱,56%的胜率与人类不相上下。而ELIZA和GPT-4o的表现则惨淡,分别只有23%和21%的胜率,远低于随机猜测的水平。这是有史以来首次有系统通过经典的三方图灵测试,证据确凿。

想象一下,你在网上和一个“人”聊得火热,分享生活琐事,结果发现对方是AI,会是什么感觉?GPT-4.5的成功并非偶然。我们给它设定了具体的角色:一个内向、熟悉网络文化、爱用俚语的年轻人。它不仅能流畅应对,还能根据对话历史调整语气,甚至偶尔“装傻”,让人觉得它更真实。相比之下,没设定角色的GPT-4.5和LLaMa胜率骤降,只有36%和38%。这说明,AI要骗过人类,光靠技术还不够,得有点“演技”。

图灵测试的意义远不止一场智力游戏。Turing当年设想,机器得在语言能触及的几乎所有领域模仿人类,比如下棋、解数学题,甚至聊八卦。可有人觉得这太简单了,人容易被忽悠;也有人认为太难,机器得撒谎,而人类只需坦诚。现实是,现代AI已不再拘泥于逻辑推理,而是擅长模仿社交中的细腻情感。比如,参与者常问“你今天过得怎样”或“你觉得这天气如何”,GPT-4.5会轻松答道:“有点烦,但喝了杯咖啡就好多了,你呢?”这种自然流露的“人性”让它脱颖而出。

实验中,我们招募了两组人:UCSD的心理学本科生和Prolific平台的线上工作者。每人玩8轮游戏,每轮与一个AI和一个真人对聊。审问者使出浑身解数,有的闲聊,有的问怪题,甚至直接抛出“你是人吗?”。结果显示,策略越奇特越有效,比如故意说些怪话,看对方怎么接招。可即便如此,GPT-4.5还是频频胜出,甚至有人感叹:“它回答得太顺了,反而觉得不像是AI。”

这结果让人既兴奋又不安。如果AI能如此逼真地模仿人类,它会带来什么?工作上,它可能悄无声息地取代客服、销售,甚至写作岗位。生活中,它或许能成为“虚拟朋友”,陪你聊天解闷。可隐患也随之而来——如果AI能骗过我们,它会不会被用来搞社会工程,或散布假消息?毕竟,图灵测试本质上是个“可替代性”的检验:机器能否在不被察觉的情况下,顶替真人的角色。

回顾历史,无数团队试图打造能通过图灵测试的系统,但都铩羽而归。如今,大型语言模型的崛起让这一梦想成真。它们靠统计学习和强化反馈生成语言,灵活得像个真人。可这也引出一个问题:通过测试的到底是模型本身,还是背后人类的提示词设计?答案或许没那么重要。就像ELIZA当年靠简单规则也能偶尔唬人一样,现代AI的成功,离不开技术和“剧本”的双重加持。

更深一层看,图灵测试到底测什么?Turing认为,如果机器和人没区别,我们就得承认它有智能。可有人反驳,人太容易把简单系统当人看了,比如ELIZA常被误认为有感情。我们的实验也发现,有些人选ELIZA为“人”,理由竟是“它很幽默,不像AI”。这说明,测试不只关乎智力,还涉及人类对“人性”的复杂期待。如今,AI在逻辑任务上已超人类,反而是社交能力成了新挑战。

未来会怎样?GPT-4.5的73%胜率让人既惊叹又深思。它不仅通过了测试,还比真人更“像人”。这或许只是开始。随着AI越来越聪明,我们可能得重新定义“人性”。正如Brian Christian所说,机器首次通过图灵测试不是终点,而是人类重拾自我的起点。面对这些“假人”,我们得学会更珍惜那些独一无二的人类特质——毕竟,AI再逼真,也模仿不了我们的灵魂。

本文译自 arxiv.org,由 BALI 编辑发布。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2025-04-04
大模型通过图灵测试:AI终于要取代人类了吗?
GPT-4.5化身人类,73%胜率碾压真人,LLaMa-3.1紧随其后。

长按扫码 阅读全文