英伟达开源模型Llama-Nemotron打破DeepSeek-R1垄断,引领模型优化新潮流

超越DeepSeek-R1,英伟达开源新王登顶!

随着人工智能技术的飞速发展,英伟达的Llama-Nemotron系列模型在推理吞吐量和内存效率上显著超越了DeepSeek-R1,成为引领模型优化新潮流的佼佼者。这一系列模型不仅开源,还针对高吞吐量推理进行了优化,同时保持强大的推理能力和最多128K的上下文长度。

首先,我们来看看Llama-Nemotron模型的构建过程。英伟达的研究团队通过神经架构搜索(NAS)在Llama 3系列模型基础上优化推理效率,并引入前馈网络融合(FFN Fusion)。然后,通过知识蒸馏和继续预训练来恢复模型性能。接下来,进行有监督微调(SFT),结合标准指令数据和来自DeepSeek-R1等强大教师模型的推理过程,从而让模型具备多步骤推理能力。最后,在复杂的数学和STEM数据集上进行大规模强化学习,这是学生模型能够超越教师模型能力的关键一步。

值得注意的是,为了支持如此大规模的强化学习训练,团队专门开发了新的训练框架,包含多项优化措施,其中最重要的是支持FP8精度的生成能力。这个过程需要大量的计算资源和时间,但结果令人满意。LN-Ultra在各类推理任务中展现出领先的开源模型性能,证明了英伟达研究者大规模强化学习训练方法的有效性。

在模型设计方面,英伟达也进行了许多创新。借助神经架构搜索Puzzle框架,LN-Super和LN-Ultra优化了模型推理效率。通过“逐块局部蒸馏”的方式,开发者利用Llama 3 Instruct构建了替代Transformer模块的库。每个模块都会被独立且并行地训练,逼近原始模块的功能,同时优化计算性能。这样,每个替代模块都具有特定的“精度-效率”权衡特性:有些模块虽然更高效,但可能会带来一定的质量下降,从而形成一种在计算成本与模型准确性之间的明确取舍。

为了应对不同场景下的推理需求,英伟达还推出了推理开关功能。用户只需通过系统提示词“detailed thinking on/off”就可以动态切换标准聊天模式和推理模式。这种设计让模型既能满足日常通用需求,也能胜任复杂的多步骤推理,无需使用不同的模型或架构。

此外,为了提升模型的泛化能力,英伟达还进行了许多尝试。他们使用强化学习技术对模型进行训练,使其能够适应各种新的任务和环境。这种技术允许模型持续探索新的可能性并进行自我学习,从而在分布外任务上表现出色。在JudgeBench数据集上进行的测试也进一步证实了LN-Ultra的强大泛化能力。

总的来说,英伟达的Llama-Nemotron系列模型以其卓越的性能、强大的推理能力和广泛的适用性,打破了DeepSeek-R1的垄断,引领了模型优化新潮流。这些模型的开源开放也使得更多的研究者能够参与到这个过程中来,共同推动人工智能技术的发展。我们期待看到更多基于Llama-Nemotron模型的优秀研究成果,为人类生活带来更多便利和惊喜。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2025-05-06
英伟达开源模型Llama-Nemotron打破DeepSeek-R1垄断,引领模型优化新潮流
超越DeepSeek-R1,英伟达开源新王登顶! 随着人工智能技术的飞速发展,英伟达的Llama-Nemotron系列模型在推理吞吐量和内存效率上显著超越...

长按扫码 阅读全文