阿里发布国内首个“混合推理模型”Qwen3:颠覆式创新,支持两种思考模式,预训练规模创纪录!
近日,阿里巴巴发布了新一代通义千问 Qwen3 模型,一举登顶全球最强开源模型,这一消息无疑在人工智能领域引起了巨大的震动。Qwen3 作为国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,大大节省算力消耗,无疑是一次颠覆式的创新。
首先,我们来了解一下Qwen3模型的特点。Qwen3模型支持两种思考模式,这是其最大的亮点之一。思考模式是指模型在处理问题时,通过逐步推理,经过深思熟虑后给出最终答案的方式。这种方法非常适合需要深入思考的复杂问题。而另一种模式则是非思考模式,这种方式下,模型能够提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。
Qwen3模型的预训练规模创下了纪录。相比于前一代模型Qwen2.5,Qwen3的数据集有了显著扩展,使用的数据量几乎是其两倍。这一大规模的训练数据为模型提供了更丰富的知识储备,使模型在处理各种任务时都能够表现出色。
另外,Qwen3模型还采用了多种新技术,如多语言支持、Dense基础模型和MoE基础模型等,这些技术大大提高了模型的性能和泛化能力。尤其是Qwen3-30B-A3B这个小型的MoE模型,其激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。
阿里云在训练Qwen3模型时实施了一个四阶段的训练流程,主要包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习等步骤。这些步骤确保了模型在各种任务中都能够表现出色,无论是复杂的数学问题、代码推理,还是简单的指令遵循,Qwen3都能够应对自如。
此外,为了开发能够同时具备思考推理和快速响应能力的混合模型,阿里云还提供了一种软切换机制,允许用户在对话中动态控制模型的行为。通过添加指令如“请思考一下”或“无需思考”来逐轮切换模型的思考模式,用户可以轻松地调整模型的推理和快速响应能力,以满足不同任务的需求。
总的来说,阿里发布的Qwen3模型无疑是一次颠覆式的创新。它将“快思考”与“慢思考”集于一体,大大节省了算力消耗;大规模的训练数据为模型提供了丰富的知识储备;多种新技术的应用提高了模型的性能和泛化能力;四阶段的训练流程则确保了模型在各种任务中都能够表现出色。此外,软切换机制和多语言支持等功能为用户提供了更多的灵活性和便利性。
面对未来,我们有理由相信,Qwen3模型的推出将为人工智能领域带来更多的可能性,推动人工智能技术的进一步发展。我们期待着Qwen3在未来能够展现出更加出色的表现,为人类社会的发展做出更大的贡献。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )