国产大模型选手智谱AI,近日又有了新动作。官方最新消息,第四代GLM系列开源模型GLM-4-9B正式推出。
首先有必要简单解释下,在谈及大模型的概念时,会通过参数指标来进行区分。参数在10B(100亿)以下的,通常会被归类为小模型。因此,智谱AI现在发布的GLM-4-9B,也可以被归类到小模型的范畴中。
虽说是小模型,但GLM-4-9B的实力并不弱。根据官方介绍,在预训练时,GLM-4-9B获得了10T高质量多语言数据,是ChatGLM3-6B模型的三倍多。智谱AI认为,6B规模的模型性能有限,因此将其扩充至9B。
(图源:智谱)
据了解,GLM-4-9B各方面的能力都有显著升级,包括多语言、多模态、推理性能等方面。像GLM-4-9B的上下文处理从128K增加到了1M tokens,能够同时处理200万字的文本,约等于两部红楼梦。
GLM-4-9B还支持多达26种语言,包括汉语、英语、俄语、西班牙语、德语、法语、意大利语、葡萄牙语等等。这意味着,GLM-4-9B可以在全球范围内找寻到更为广阔的用户群体,满足不同语种用户的模型使用需求。
GLM-4-9B系列模型还细分出了多个版本,包括基础版GLM-4-9B(8K)、对话版 GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版 GLM-4V-9B-Chat(8K)。它们能够适用于不同场景,满足各自细分领域的具体需求。
另外,GLM-4-9B的函数调用能力有巨大升级,相比上一代提升了40%,在部分测试项目中,它的Function Call能力已经追上了GPT-4。
(图源:智谱)
部分人可能会好奇,既然市面上已经有大参数的大模型,为什么智谱AI这样的模型玩家,还要持续迭代更新小模型产品?
理论上来说,模型参数越大,能力上限自然更高。但是,参数过大,也会带来成本增长的问题。对市场、对用户来说,更想通过低成本获得高性能。因此,片面通过参数增长来提升模型性能,是一种比较粗放且不可持续的做法。
当前的大模型行业中,以智谱为代表的玩家们,执行的技术路线逐渐不再片面强调参数量,而是更加着重强调模型本身所具备的实际能力。说白了,就是它们能够用户带来什么实用的价值。
而此次发布的GLM-4-9B,一大亮点就是在10B参数规模以下实现了各项能力的大幅提升。在更加具体的模型产品上,GLM-4-9B也呈现出了较明显的价格优势,比如GLM-4-Flash综合能力提升了40%,但价格低至0.06元/M Tokens,堪称最能打的小模型。
GLM-4-9B的到来,也将给竞品们更大的压力,在小模型市场上,如何提升训练数据的质量,如何提升基础能力和控制成本,都将成为AI玩家们需要解决的问题。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。