GPT-3.5在图灵测试中败给上世纪六十年代研发的AI

12月5日消息,来自加利福尼亚大学圣迭戈分校的 2 位研究人员在一篇题为「GPT-4 可以通过图灵测试吗」的研究中,对 GPT-4、GPT-3.5、人类和上世纪 60 年代麻省理工团队开发的史上第一个基于规则的聊天机器人进行了图灵测试。

GPT-3.5 根据不同的提示,成功率最高只有 14%。ELIZA 在这次研究中取得了相对较好的成绩,成功率达到了 27%。GPT-4 取得了 41% 的成功率,仅次于人类得分(63%)。纽约大学心理学和神经科学教授 Gary Marcus 对此调侃道,通过图灵测试的梦想落空了。

作者在认真研究了为什么测试者将 ELIZA 认定是人类的原因,再次印证了一个结论:长久以来,「图灵测试」成为了判断计算机是否具有「智能」的核心命题。

但图灵测试并不应该是一个判断 AI 智能高低的测试。不能因为 ELIZA 比 ChatGPT 表现好,就认为这个 1966 年的基于规则的 AI 系统智能比 ChatGPT 强。

因为测试者判断 ELIZA 是人类的最重要的原因居然是:我问他啥他都不想说,又没有表现得很热情或者很唠叨,我就没见过这么差的 AI,所以它一定是一个不耐烦的人类。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-12-05
GPT-3.5在图灵测试中败给上世纪六十年代研发的AI
有意思。

长按扫码 阅读全文