大模型竞技场：Llama4发布前私下测试27个版本，精益求精，只取最佳成绩的论文锤炼之旅

人阅读

2025-05-04 10:02:04

作者：极客AI
相关关键词
- [db:关键字]

大模型竞技场的可信度再受挑战

近期，一篇名为《排行榜幻觉》的论文引发了学术圈的关注。该论文指出，大模型竞技场存在诸多系统问题，如数据访问不平等、模型测试的私密性等，这些问题对大模型竞技场的可信度构成了新的挑战。

大模型竞技场作为目前大型语言模型领域的热门竞技平台，其可信度一直备受关注。然而，近期的一系列事件使得该平台的可信度再次受到质疑。首先，论文中提到，少数大模型厂商被允许私下测试多个模型变体，并只公开最佳表现的版本。这种“最佳 N 选 1”策略导致排名膨胀，使得排行榜的快速变化不再反映真实的技术进步。

其次，论文还指出，数据访问不平等的问题也存在于大模型竞技场中。专有模型获得的用户反馈数据显著多于开源模型，这可能导致开源模型在竞争中处于劣势。此外，论文还发现，许多模型被静默弃用（减少采样率至接近 0%），这在 243 个公开模型中，有 205 个被静默弃用，远超过官方列出的 47 个。这种做法特别影响开源和开放权重模型，会导致排名不可靠。

面对这些质疑，大模型竞技场官方 Lmrena.ai 给出回应。他们表示确实帮助厂商进行测试，最后发布最受欢迎的版本；但这不代表竞技场有偏见，排行榜反映数百万人类的个人真实偏好。然而，对于这些回应，一些研究人员并不认同。他们认为排行榜的快速变化不太可能反映真实的技术进步，因为开发和完善一个全新的基础模型通常需要数月时间。

尽管如此，大模型竞技场作为当前 AI 领域的重要平台，其影响力不容忽视。它为开发者提供了一个展示和比较不同模型的平台，有助于推动大型语言模型的发展。因此，我们不能因为个别问题就完全否定大模型竞技场的作用。

事实上，大模型竞技场也并非一无是处。它为各大厂商提供了展示和比较自家模型的机会，有助于推动模型的优化和进步。同时，它也为公众提供了一个直观了解不同模型差异的平台。尽管存在一些问题，但大模型竞技场依然是一个有价值的平台。

另一方面，这篇论文的提出也提醒我们不能只参考一个榜单。在 AI 社区中，我们需要更多的参考基准，以更全面地评估大型语言模型的性能。这可能意味着我们需要更多的竞技场、更多的评估指标、更多的公开比较，以建立一个更全面的评估体系。

总的来说，大模型竞技场是一个充满活力和机遇的平台。尽管存在一些问题，但其潜力依然值得期待。我们期待看到更多的大型语言模型在这个平台上竞争和进步，同时也期待看到 AI 社区对评估体系的不断完善。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）