标题:智谱新一代开源AI模型GLM-4-32B-0414系列惊艳亮相
随着人工智能技术的飞速发展,越来越多的模型在各种基准测试中崭露头角。近日,智谱发布了新一代开源AI模型GLM-4-32B-0414系列,该系列模型具有320亿参数,效果比肩OpenAI的GPT系列和DeepSeek的V3/R1系列,且支持非常友好的本地部署特性。 GLM-4-32B-0414系列模型共有四款,分别为GLM-4-32B-Base-0414、GLM-Z1-32B-0414、GLM-Z1-Rumination-32B-0414和GLM-Z1-9B-0414。
首先,让我们关注GLM-4-32B-Base-0414模型。该模型在预训练阶段采用了高质量的15T数据,其中包含大量推理类的合成数据,这为后续的强化学习扩展打下了基础。在后训练阶段,团队通过拒绝采样和强化学习等技术强化了模型在指令遵循、工程代码、函数调用方面的效果,加强了智能体任务所需的原子能力。这些努力使得GLM-4-32B-Base-0414在工程代码、Artifacts生成、函数调用、搜索问答及报告等方面都取得了不错的效果,部分Benchmark甚至可以媲美更大规模的模型。
接下来,我们来看GLM-Z1-32B-0414模型。该模型是具有深度思考能力的推理模型,它在GLM-4-32B-0414的基础上,通过冷启动和扩展强化学习,以及在数学、代码和逻辑等任务上对模型的进一步训练得到。相对于基础模型,GLM-Z1-32B-0414显著提升了数理能力和解决复杂任务的能力。在训练的过程中,该团队还引入了基于对战排序反馈的通用强化学习,进一步增强了模型的通用能力。
而GLM-Z1-Rumination-32B-0414模型则具有沉思能力,它是深度推理模型的代表,对标Open AI的Deep Research。沉思模型通过更长时间的深度思考来解决更开放和复杂的问题,例如:撰写两个城市AI发展对比情况,以及未来的发展规划。结合搜索工具处理复杂任务,并经过利用多种规则型奖励来指导和扩展端到端强化学习训练得到。
最后,我们来看一下GLM-Z1-9B-0414模型。这是一个开源9B小尺寸模型,在数学推理和通用任务中依然展现出极为优秀的能力,其整体表现已处于同尺寸开源模型中的领先水平。
在各项基准测试中,GLM-4系列表现优异。例如在IFEval指令遵循测试中得分高达87.6;在TAU-Bench任务自动化测试中,零售场景得分高达68.7%,航空场景得分高达51.2%;在SimpleQA搜索增强问答测试中得分高达88.1%。这些成绩充分证明了GLM-4系列模型的强大性能。
此外,智谱发布的GLM-4-32B-0414系列还具有代码修复方面的优势。在SWE-bench测试中,该系列模型的成功率达到了惊人的33.8%。采用MIT许可的GLM-4降低了计算成本,为研究和企业提供了高性能AI解决方案。
总的来说,智谱发布的GLM-4-32B-0414系列开源AI模型无疑是一款具有强大竞争力的产品。该系列模型不仅参数规模庞大,而且在各种基准测试中表现优异,尤其是在指令遵循、工程代码、函数调用、搜索问答及报告等方面具有显著的优势。更为重要的是,该系列模型还具有代码修复方面的优势,能够为企业提供更为安全、可靠的AI解决方案。智谱发布这一系列模型无疑将引领AI新潮流,为人工智能领域的发展注入新的活力。
以上就是我对智谱新一代开源AI模型GLM-4-32B-0414系列的介绍。希望我的文章能够帮助大家更好地了解这一系列模型的优点和潜力。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )