在9.11和9.8谁更大上 OpenAI最新的大模型OpenAI o1也翻车了

人阅读

2024-09-14 08:37:00

来源：TechWeb.com.cn
相关关键词

9月13日消息，据外媒报道，在今年7月份，也就是在OpenAI推出新一代旗舰大模型GPT-4o之后约两个月，国外有用户在社交媒体上爆料称自己在ChatGPT 4o上询问9.11和9.9哪一个大（9.11and9.9—which is bigger？）时， ChatGPT 4o笃定的回答9.11比9.9大（9.11 is bigger than 9.9），OpenAI当时最强模型GPT-4o加持下的ChatGPT 4o，在这一问题上给出如此离奇的回答也让外界震惊不已。

而随后有用户的测试发现，不只是GPT-4o加持下的ChatGPT 4o，谷歌Gemini Advanced、Claude 3.5 Sonnet这两款国外知名的大模型在这一问题上也相继翻车，国内也有多家厂商的大模型未能幸免。

除了9.11和9.9，也有相关媒体对其他的数字进行测试，比如9.11和9.8，结果显示也有多家厂商的大模型翻车。

在OpenAI当地时间周四推出较以往的模型更注重推理，在奥数、编程竞赛中的表现都远强于GPT-4o的OpenAI o1系列大模型之后，也有好奇的用户再次对这一问题进行了测试。

但让人意外的是，号称有更强推理能力、数学和编程方面表现出色的OpenAI o1，也未能避免翻车。

有测试显示，在询问9.11和9.8谁更大这一问题时，OpenAI o1预览版在经过14秒的思考后，还是给出了9.11更大的结果，而给出的原因竟是因为9.11比9.8大。

就显示的内容来看，OpenAI o1预览版在比较9.11和9.8谁更大时，进行了比较数值大小、对比数值大小、对比大小、比较两个数值这4个方面的思考，但除了对比数值大小是9.8大于9.11，另外三个方面都是9.11大于9.8。不过在对比数值大小这一项中，显示的是“蒙特认为9.8大于9.11，9.8显示出数学上的优越性。”（海蓝）

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）