“地球上最聪明AI”Grok 3发布,头部大模型之争愈演愈烈

北京时间2月18日中午,埃隆·马斯克的人工智能初创公司xAI发布了Grok 3大模型,马斯克称之为“地球上最聪明的人工智能”。Grok 3的发布,势必将现在已经炙热的模型之战推向新的高潮。

Grok3的现场演示

在当天的直播中,马斯克与该公司的三位工程师一起进行了现场演示,包括使用Grok3帮助火星飞船计算航天发射窗口,以及把俄罗斯方块和消消乐两款游戏“融合成一款”等。

尤其是工程师仅用“开发结合俄罗斯方块和宝石迷阵玩法的2D游戏”这一自然语言指令,Grok3完成核心代码生成与调试的演示令人印象深刻。

在演示的过程中,马斯克要求使用Grok 3使用pygame组件设计一款游戏,把俄罗斯方块和宝石迷阵缝合到一起。

同时还提示代码可能会很长,需要保存到一个文件当中,运行成功后,生成的游戏即保留了俄罗斯方块的经典玩法,而且还加入了“同色消除”的新规则。

在发布会上,马斯克放话,今后Space X的发射任务,包括2026年火星探索任务,都将会借助Grok 3进行AI辅助。

随后,在场的工程师要求Grok 3现场生成一段太空发射3D动画的代码,而在Grok-3生成代码后,马斯克团队运行这段代码,之后画面上显示出了飞船在地球和火星间往返的动画的演示,突出了Grok-3的编程能力,这对AI模型理解复杂物理知识的要求非常高。

马斯克对此表示,我们非常高兴能够推出 Grok-3,我们认为,在很短的时间内,它的功能比Grok-2强大一个数量级。这要归功于一支不可思议的团队的辛勤工作,我很荣幸能与这样一支优秀的团队合作。此外,他还预测,三年内,计算机将在各方面打破人类水平,实现诺贝尔奖级别突破。

推理能力超竞争对手

发布会演示显示,在数学推理、科学逻辑推理等多方面的性能表现上,Grok3和Grok-3 mini都超过或媲美Gemini、DeepSeek和ChatGPT等对手,此外xAI还推出了功能更为强大的Grok3 Thinking推理模式。

具体表现在Grok3 在 AIME'24(美国数学竞赛)、GPQA(研究生水平科学知识问答能力的基准测试)等测试中均取得了比 Gemini-2 pro、DeepSeek-v3、Claude 3.5 Sonnet 和 GPT-4o 更好的效果。

尤其在推理方面 ,Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等测试中取得了压倒性的优势,最高分达到 96 分,超过了 o3 mini(high)、o1 和 DeepSeek-R1 等前沿模型。甚至在最新的 AIME 2025 评测中 ,Grok3 推理系列模型更是达到了 90 及以上的分数,稍微领先 o3 mini(high) 的 87 分。

此外,在 Chatbot Arena 评估中,Grok-3 的得分更是达到了 1400 分,同样超过了 Gemini 系列和 chatgpt-4o 和 DeepSeek-R1。

值得一提的是,GPT-4o和Gemini相比,Grok 3在处理复杂问题时不仅能给出正确答案,还能详细解释解题思路,帮助用户理解背后的逻辑。

除了数学、编程、推理能力超强外,Grok3的多模态能力也是提升明显,另外,Grok 3引入了DeepSearch,它能够扫描互联网和X平台(原Twitter),为用户提供信息摘要,帮助用户查找最新的科技信息。

在发布会现场,xAI团队预测2025年NCAA“疯狂三月”篮球赛的全部胜负结果,最终Grok 3给出了它认为的2025年NCAA冠军,具体预测正确与否,答案即将在3月揭晓。

xAI团队在直播中展示称,在训练Grok的过程中,团队搭建了大型算力集群,并克服了散热、电力等问题带来的挑战,用了122天让首批10万张GPU投入使用并正常运行,后续还计划将集群规模继续扩大一倍。

最后,马斯克表示,未来,最快一周后Grok 将获得“语音模式”。几周后,Grok 3模型将与 DeepSearch功能一起出现在xAI企业的API中。而当下一个版本完全发布时,我们将开源Grok的上一个版本。

颇具挑战意味的是,就在Grok 3发布前数小时,OpenAI首席执行官兼联合创始人SamAltman表示,对于高要求的测试者来说,试用GPT-4.5带来的AGI的感受体验,远比我预期的要深刻得多,看来GPT-4.5已经进入测试阶段,离正式发布也不远了。

可以预见,随着Grok-3的发布,头部AI大模型的竞争将愈演愈烈。(御风)

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2025-02-18
“地球上最聪明AI”Grok 3发布,头部大模型之争愈演愈烈
埃隆·马斯克的人工智能初创公司xAI发布了Grok 3大模型,马斯克称之为“地球上最聪明的人工智能”。

长按扫码 阅读全文