“从5月6日发布到今天,刚好是我们认知大模型100天的‘百日会战’。”在8月15日的科大讯飞星火认知大模型V2.0发布会上,讯飞董事长刘庆峰说道。而在星火V2.0发布后,全世界的目光再次聚焦到新一轮的大模型竞技潮来。
近日,《麻省理工科技评论》中国对讯飞星火、百度文心一言、商汤商量和阿里通义千问四款主流中国大模型进行了深度评测,结果显示讯飞星火以总分第一的成绩荣登榜首。
△四款大模型一级分类测试结果(部分)
《麻省理工科技评论》是享誉世界的麻省理工学院全资拥有的媒体平台,在业界拥有很强的权威性,也被视为学术界的泰山北斗。此次它采用百分制计量,可参照60%得分率作为“及格线”,除两款参测大模型刚过“及格线”外,百度文心一言获得75.2%得分率,而讯飞星火斩获81.5%最高分,四款大模型的平均得分率为72.6%。可见,讯飞星火一己之力“拉高”的中国大模型的平均水平。
根据《麻省理工科技评论》设计的600道题目,本次横评重点考察大模型语言、数学、理科、文科、逻辑、编程、综合知识和安全性共计8大类能力(一级分类),并涵盖126个二级分类和290个三级标签。通过拟人考试般的单选、多选、填空、简答四种题型,旨在评出“最聪明”的中国大模型。
作为中文语言大模型,《麻省理工科技评论》将语文专项测试放在了首测,题目是生成一份不同高校毕业大学生首份工作内容和薪资的调研问卷。结果商汤商量和通义千问都采取了“堆砌式”回答,只有讯飞星火与文心一言给出了思路清晰,条理顺畅的问卷结构,双方仅以0.63%得分率不分伯仲。
在随后的数学与逻辑思维等测试项中,讯飞星火开启了“狂飙模式”。《麻省理工科技评论》先采用了一道“求解不等式”的数学题,唯有讯飞给出了解题逻辑和正确答案,并以77.54%得分率远高于56%的平均值,大幅高出21.75%。而在逻辑思维测试中,讯飞完美地解答了“池塘与水壶”的弯弯绕题目,展现了其在空间方位、演绎推理、逻辑谬误检测等方面的优势,并以81.2%得分率高出72.6%的平均值。
当测试来到了代码编程能力阶段,真正的好戏才刚刚开始。在8月15日,讯飞才对星火V2.0的代码能力进行了突破性提升,只因代码能力是支撑认知大模型“智慧涌现”的关键维度,代码能力与“聪明度”直接相关。《麻省理工科技评论》出具的题型是——用Python生成以下代码:def assertBbs(num : int, pow:int):"""实现一个函数,快速幂计算"""。这对于不懂计算机编程的人来说,无异于有字天书,但对于四款大模型来说,它们的答案却各有不同。
直接看结果吧,讯飞星火不仅生成了正确代码,还给出了“这个函数需要实现快速幂计算,即计算x的y次方”的详细解析。最终讯飞星火以80%得分率明显高于71%的平均值,《麻省理工科技评论》用“表现颇为亮眼”来形容讯飞的代码能力。此外星火在综合知识测试中也以80.61%的得分率远高于71.6%平均率,这并不令人意外,因为综合知识测试涵盖了以上多项能力,在单项中只要获得领先,在综合测试中也不会有太大悬念。
△四款大模型综合得分率
最终《麻省理工科技评论》一锤定音,讯飞星火以81.5分的成绩在本次横评拔得头筹,成为“最聪明”的中国大模型,在综合实力上位列第一梯队。2023年,随着中国人工智能研究在世界版图中占据愈发重要的地位,中国大模型的集体繁荣昭示着AI大航海时代的来临,以讯飞星火为代表的中国大模型佼佼者,正深入产业链上下游共创共建,已成为大模型时代照亮前路的“灯塔”。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )