过去两天,高考成为了社会各界广泛关注的话题,但与往年相比,由于今年AI大模型风靡全球,使得高考试卷也成为了检测AI大模型“智商”的试金石。对于人类而言,IQ越高的人大多数学越强,这是因为数学考验的是一个人的理解和推理能力,甚至很多检测IQ的题目就是数学题,对于大模型也是如此,数学能力高低也能反映一个大模型是否“聪明”。
那么这次的高考数学题能否难倒AI大模型呢?根据搜狐科技、量子位等权威科技媒体对ChatGPT、讯飞星火、文心一言、通义千问、360智脑等主流AI大模型的横向评测,讯飞星火居然力压群雄,成为了解题正确率最高、“最聪明”的AI大模型。
先来看下搜狐科技的测试方法,他们选择了2023年高考数学试卷的前10道填空题,让五款AI大模型轮番进行回答。仔细看这10道填空题,既包括了不等式解方程解,圆形方程解和三角形方程解,还包括了GDP逐季度递增的解法,非常全面地考验了人类的数学计算能力,而“智力超群”的AI大模型面对高考数学题会怎样?
根据搜狐科技得出的结论,讯飞星火答对了5道题,正确率为50%;ChatGPT和文心一言答对了4道题,正确率为40%;其他两个大模型一道题都没答对,等同于交了“白卷”。
接下来我们再来看量子位对五款大模型的测试,他们去掉了360智脑,但新增了公认最强的GPT-4。在 “已知函数 f ( x ) = cos ω x -1 (ω>0 ) 在区间 [0,2 π] 有且仅有3个零点 , 则ω的取值范围是?”这道题的求解中,GPT-4给出了ω的取值范围是(0,1/2]U{1}的错误答案。随后其余的大模型也可谓是“全军覆没”,它们都给出了错误的答案。
唯独只有讯飞星火给出了正确的答案。量子位的测试编辑心情悲喜交加地表示道:“本已经抱着再一次全军覆没的心情了,没想到中文大模型(讯飞星火)力挽狂澜!”
后来在三角函数题中,讯飞星火第一小问答案对了,但是步骤中出现了偏差,这说明讯飞星火在数学能力上还有改进空间。估计在6月9日科大讯飞发布星火V1.5之后,这种数学计算的小bug会得以修复。
最终量子位同样制作了一张横评汇总表,结果显示GPT-4在排列组合、立体几何和三角函数三道天空题中只有一道答对,在三角函数解答题中回答错误。而讯飞星火同样答对了一道填空题,但在三角函数解答题中答对了一问。而其余大模型完全就是“陪跑”,没有答对任何一道数学题。
讯飞星火数学能力一直是其优势之一,据悉,6月9日讯飞星火迎来V1.5迭代,不仅会在数学能力方面再上新台阶,还会在开放式问答、多轮对话方面明显升级,并在文本生成、语言理解和逻辑推理能力上持续提升。按照科大讯飞公布的三轮迭代时间表,看来星火将在10月24日实现中文超越ChatGPT、英文旗鼓相当的目标应该可以踏踏实实地一步一个脚印地抵达!
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )