OpenAI宣布o3系列大模型:能力较o1大幅提升 Codeforces测试强于OpenAI首席科学家

12月21日消息,据外媒报道,在发布o1满血版、视频生成模型Sora等之后,OpenAI连续12天的直播活动在当地时间周五进入了最后1天,他们在当天的发布会上宣布了更强的o3系列人工智能模型。

同第1天、第3天和第5天的直播一样,OpenAI CEO 萨姆·奥尔特曼(Sam Altman)也参与了他们第12天的直播,o3系列大模型也是由他在直播中宣布的。

OpenAI在9月份推出了o1系列大模型,他们周五推出o3系列,在命名上就越过了o2,没有遵循数字一样的连续命名方式。对于越过o2,有外媒在报道中称可能是为了避免和英国电信运营商O2在命名上产生纷争。而在当天的直播中,萨姆·奥尔特曼承认了他们在命名上的不足,他表示基于OpenAI不太擅长命名的传统,新的大模型被命名为o3。

同9月份推出的o1系列大模型一样,OpenAI新宣布的o3系列大模型也有o3和o3 mini两款,不过尚未正式发布,o3 mini是预计会在明年年初发布。

在OpenAI此前推出的大模型中,能力在持续提升,新宣布的o3系列也不例外。

从OpenAI方面公布的消息来看,o3大模型在测试中的表现明显强于他们之前推出的大模型,在部分测试中的表现已经达到了人类的水平。

在ARC-AGI测试中,o3在低推理能力设置下的得分达到了75.7%,是o1的3倍,在高推理能力设置下则是高达87.5%,超过了85%的人类门槛。

在数学推理及解决问题的能力方面,o3也表现不俗,在2024年AIME测试中,o3的准确率达到了96.7%。

在编码和软件工程方面,o3的能力较o1也有大幅提升,在SWE-Bench认证中,o3的得分为71.7%,较o1提升了22.8个百分点。

值得注意的是,有外媒在报道中提到,在Codeforces的测试中,o3的得分为2727,比OpenAI首席科学家的得分还高。

虽然OpenAI的o3系列大模型要在明年才会正式发布,但他们在官网已表示,安全研究人员可以申请用于测试,从当地时间周五开始接受申请,截止时间为明年1月10日。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2024-12-21
OpenAI宣布o3系列大模型:能力较o1大幅提升 Codeforces测试强于OpenAI首席科学家
在发布o1满血版、视频生成模型Sora等之后,OpenAI连续12天的直播活动在当地时间周一进入了最后1天,他们在当天的发布会上宣布了更强的o3系列人工智能模型

长按扫码 阅读全文