阿里云开源推理模型QwQ-32B,性能比肩满血版DeepSeek-R1,通义APP可用

3月6日消息,阿里云开源推理模型QwQ-32B,性能媲美6710 亿参数的DeepSeek-R1。据介绍,QwQ-32B是基于Qwen2.5-32B+强化学习炼成,开发者和企业可以在消费级硬件上轻松将其部署到本地设备中。

用户可以通过Qwen Chat(https://chat.qwen.ai)在线体验访问。

用户也可通过通义APP免费体验最新的千问QwQ-32B模型。

目前,QwQ-32B 已在Hugging Face和ModelScope魔搭社区开源,采用了 Apache 2.0 开源协议。

所有人都可免费下载模型进行本地部署,或者通过阿里云百炼平台直接调用模型API服务。

对于云端部署需求,用户可通过阿里云PAI平台完成快速部署,并进行模型微调、评测和应用搭建;或是选择容器服务ACK搭配阿里云GPU算力(如GPU云服务器、容器计算服务ACS等),实现模型容器化部署和高效推理。

QwQ-32B团队指出,大规模强化学习(RL)有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek R1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。

最新的推理模型 QwQ-32B,是一款拥有320亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。

QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

QwQ-32B 模型表现出色,几乎完全超越了OpenAI-o1-mini,比肩最强开源推理模型DeepSeek-R1:在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型;在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1。

QwQ-32B团队表示,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外,研发团队还在QwQ-32B推理模型中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

据介绍,在初始阶段,QwQ-32B模型特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型(reward model)不同,通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。随着训练轮次的推进,这两个领域中的性能均表现出持续的提升。在第一阶段的 RL 过后,增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。最后发现,通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。(果青)

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2025-03-06
阿里云开源推理模型QwQ-32B,性能比肩满血版DeepSeek-R1,通义APP可用
3月6日消息,阿里云开源推理模型QwQ-32B,性能媲美6710 亿参数的DeepSeek-R1。

长按扫码 阅读全文