Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

4月8日消息,被寄予厚望的美国Meta公司的最新开源大模型Llama 4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。

今天,大模型评测平台LM Arena亲自下场发文,打脸Meta提供给平台的Llama 4是“特供版”。

据知情人士爆料称,Meta因面临DeepSeek、Gemini等竞品的快速迭代压力,选择“仓促发布未完成优化的模型”,牺牲技术严谨性以追赶进度。

Llama 4亮相,LMSYS榜单排名第二

在周日,大模型开源届的旗帜Meta发布了最新的大模型Llama 4,包含Scout、Maverick和Behemoth三个版本。

Llama 4以全系列首次采用混合专家(MoE)架构、高效推理和长上下文处理为亮点。

根据Meta公开的信息和数据,在基准测试中,Llama 4三大版本均有优异表现:

Llama-4-Maverick在LMSYS排行榜(也被称为Chatbot Arena或LM Arena)中排名第二,仅次于Gemini 2.5 Pro。

在图像推理任务(MMMU、MathVista)中得分超越GPT-4o和Gemini 2.0,但编程和科学推理能力落后于DeepSeek V3和Claude 3.7。

Llama-4-Scout通用任务得分较低(如Intelligence Index仅36),与GPT-4o mini相当,但在长文本处理和小规模部署中具备实用性,支持1000万token上下文窗口(相当于15000页文本),适用于长文档分析、代码库推理等场景,为行业领先水平。

Llama-4-Behemoth目前仍在训练中,但已公布的STEM测试成绩(如MATH-500 95.0)超越GPT-4.5和Gemini 2.0 Pro。

另外,Maverick的推理成本为每百万token输入0.19-0.49美元,远低于GPT-4o(约4.38美元),且支持多模态输入,性价比突出。

看到Llama 4性能强大,业内一时之间热情澎湃,盛赞大模型开源届再迎来强力军。

但是,试用后,开发者们发现事情没那么简单。

实测水准拉垮

Meta CEO 扎克伯格在Llama 4发布时曾宣称其“AI编程水平将达中级工程师”,但用户在对Llama 4进行实测时却发现巨大反差。

在多项基准测试中,Llama 4的表现远低于预期。Maverick在aider polyglot多语言编码测试中仅得16%,远低于Qwen-32B等竞品,甚至被用户称为“糟糕透顶的编程模型”。

Maverick在基础编程任务(HumanEval)得分仅接近GPT-4o mini,远低于DeepSeek V3。

尽管Llama-4-Scout支持1000万token上下文窗口,但实际测试显示其召回率在16K token时仅22%。有用户将《哈利•波特》全书输入后Scout回答问题的正确率,远低于Gemini 2.5 Pro等对手。

此外,还有用户测试发现,Llama 4生成的物理动画违背基本规律,如小球弹跳轨迹错误,并且需多次尝试才能完成复杂逻辑链任务,而DeepSeek和Gemini等都可一次成功。

独立评测机构Artificial Analysis指出,Llama 4在综合推理、科学任务和编码中与顶级模型存在系统性差距。Maverick的Intelligence Index得分仅49,远低于Gemini 2.5 Pro(68)和DeepSeek R1(66)。

Llama 4的实际表现如此一般,引发用户对其夸大宣传的强烈质疑。

被曝作弊刷榜

与此同时,Meta前员工在论坛“一亩三分地”匿名发帖等多个消息源指出,Llama 4在训练后期阶段将基准测试的测试集数据混入训练数据,以此提升模型在评测榜单上的表现。

这种做法使模型在特定测试中过拟合,短期可以提升排名,但实际应用表现远低于预期,因此也被业内认为是作弊来刷榜单排名。

不过,很快,Meta研究科学家主管Licheng Yu实名辟谣,团队根本没有针对测试集过拟合训练。Meta首席AI科学家的Yann LeCun也发帖力挺。

但是,开源社区的用户还发现Meta提供的Llama 4榜单版本与开源版本不同。

也就是,Meta提交给评测平台LM Arena的Llama-4-Maverick是一个实验性聊天优化版本,其行为与公开发布的基础版存在显著差异,如回答风格更冗长、使用表情符号等。

这被质疑为“针对榜单优化的特供版”,误导开发者对模型真实能力的判断。

进一步加剧了大模型开源社区用户对Llama 4能力的质疑。

在经过2天发酵后,今天,Chatbot Arena官方发文确认了用户的上述质疑,公开表示Meta提供给他们的是“特供版”,并考虑更新排行榜。

Chatbot Arena官方发文:

“我们已经看到社区对Llama-4在Arena上的最新发布提出了问题。为了确保完全透明,我们正在发布2000多个一对一模型对战结果供公众审查。这包括用户提示、模型响应和用户偏好。

初步分析显示,模型回复风格和语气是重要影响因素,我们正在进行更深入的分析以了解更多!

此外,我们还将 Llama-4-Maverick的 HF(HuggingFace) 版本添加到 Arena中,排行榜结果将很快公布。

Meta 对我们政策的解释与我们对模型提供者的期望不符。Meta应该更清楚地说明“Llama-4-Maverick-03-26-Experimental”是一个经过人类偏好优化的定制模型。

因此我们正在更新我们的排行榜政策,以加强我们对公平、可重复评估的承诺,从而避免未来出现这种混淆。”

“伪开源”,比DeepSeek差远了

一直以来,Meta都以大模型开源路线领路人自居,有了DeepSeek珠玉在前,这次Llama 4的开源方式,反而动摇了Meta作为开源标杆的地位。

Llama 4执行的非标准开源许可,而是采用Meta自定义的许可条款,对商业使用和分发设置了多重限制。例如,月活跃用户超过7亿的公司需向Meta单独申请授权,且Meta可自行决定是否批准。竞争对手员工被禁止接触模型,要求所有衍生模型名称必须以“Llama”开头,并在界面、文档中突出显示“Made with Llama”水印等。

而DeepSeek R1遵循标准的开源协议MIT许可协议,允许自由使用、修改、分发及商业化,仅需保留原始版权声明和许可声明。无商业限制,企业对模型的使用无需额外授权,且可基于MIT许可开发闭源商业产品。

开放源代码促进会(OSI)定义的“开源”需允许自由修改和分发,而Meta的条款明显违背这一原则。仅从开源许可方面来看,和DeepSeek R1相比,Llama 4的开放性差远了。

Llama 4开源仅提供模型参数,缺乏对训练流程、数据清洗策略的披露,未公开完整的训练数据集和超参数优化细节,如MetaP方法的核心逻辑,开发者无法复现或改进模型。此举被社区用户质疑为“黑箱式共享”。

另外,Llama 4还设置了诸多限制,比如,繁琐的申请流程,用户需登录Hugging Face账号并填写包含个人身份、公司信息、税务标识等详细资料的申请表,稍有错漏可能被永久拉黑且无申诉渠道。

相比之下,国内开源模型如DeepSeek、通义千问等都无需复杂流程即可直接使用。

此外,Llama-4-Scout和Maverick虽宣称支持单卡运行,但需要NVIDIA H100等高端GPU(单卡成本超3万美元),普通开发者难以负担。用户认为,真正的开源应兼顾不同硬件环境。

总之,Meta针对Llama 4开源的一系列骚操作,被开发者批评“背离开源精神”,是“既要开源流量,又防社区威胁”的双标策略,进一步加剧Llama 4的信任危机。

Meta的Llama 4本被寄予厚望,却在短短两天内因作弊刷榜、代码能力拉垮、伪开源争议跌落神坛。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2025-04-08
Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源
被寄予厚望的美国Meta公司的最新开源大模型Llama 4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。 今天,大模型评测平台LM Arena亲自下场发文,打脸Meta提供给平台的Llama 4是“特供版”。据知情人士爆料称,Meta因面临DeepSeek、Gemini等竞品的快速迭代压力,选择“仓促发布未完成优化的模型”,牺牲技术严谨性以追赶进度。

长按扫码 阅读全文