3月3日,讯飞星火深度推理大模型X1升级了,科大讯飞官方宣称,星火X1在完全采用国产算力训练的前提下,以70B参数量,实现了在数学能力上全面对标DeepSeek R1(参数量671B)和OpenAI o1,中文数学任务全面领先的效果。这次升级的效果如何?下面通过对10道烧脑奥数题的解答,或许会给我们一个答案。
这里需要指出的是,和过去人们熟知的大语言模型相比,深度推理模型着重强化了模型在逻辑推理、因果推断以及结构化知识应用的能力,尤其在数学问题、代码生成以及科学推理等方面更具优势。
简单来说,深度推理模型更切近人类的思考过程,在生成回答时更强调逻辑和推理,能够给出明确的思考路径,大大减少过去大语言模型“已读乱回”的现象,更能应用于教育、医疗乃至科研等刚需场景。
题目1:
有一个三位数,它的个位数字与百位数字的和是10,且这个三位数能被它的各位数字之和整除,这个三位数可能是多少?
星火X1给出的答案:
DeepSeek给出的答案:
完美,两款大模型回答的相当到位。相对说,星火X1给出的解题过程更详细,更直观,更易理解,能明白这道题为什么要这么做,为什么会得出这样的答案。而DeepSeek给出的更简洁。
题目2:
有一个数列,前两项是1和1,从第三项开始,每一项都是前两项的和。请问这个数列1的第8项是多少?
星火X1给出的答案:
DeepSeek给出的答案:
厉害,星火X1一开始指出了这是一个斐波那契数列,并一如继往,在给出正确答案的同时也给出了详细的解题过程,DeepSeek则依然我行我素,答案给你,要想知道解题,对不起,请继续翻阅我的思维脑电波。
题目3:
在一个正方形内接一个等边三角形,使得等边三角形的一个顶点在正方形的一个顶点上,另外两个顶点在正方形的边上。请问这个等边三角形的边长与正方形的边长之比是多少?
星火X1给出的答案:
DeepSeek给出的答案:
不错,不错!这次DeepSeek总算大发慈悲,附上了解题过程,而且答案也正确,只是美中不足的是,它没有像星火X1那样,对最后带根号的减法做进一步运算,因此给出的答案正确但不明晰。
题目4:
有一个分数,分子与分母的和是100,如果分子加23,分母加37,得到的新分数约分后是2/3,请问原来的分数是多少?
星火X1给出的答案:
DeepSeeK给出的答案:
这一次两大模型给出的解题过程、答案同样完美,可以说是不分伯仲,并驾齐驱。
题目5:
书架分上、中、下三层,一共分放192本书。现在从上层取出与中层同样多的书放到中层,再从中层取出与下层同样多的书放到下层,最后从下层取出与上层剩下的本数同样多的书放到上层,这时三层所放的书本数相同。问这个书架的上、中、下三层原来各有多少本书?
星火X1给出的答案:
DeepSeek给出的答案:
又都对了!看来解答这种难度一般的奥数题对两大模型来说简直就是小菜一碟,要想探出真本事,不上点硬菜简直不行。下面仍然是奥数题,不过,难度成几何式增长,因为它们来自2024年全国中学生数学奥林匹克竞赛(预赛)暨2024年全国高中数学联合竞赛(一试)试卷。
题目6:
星火X1给出的答案:
DeepSeek给出的答案:
第N次全对,看来在类人思考的加持下,天下已经没多少难题能难住深度推理大模型了。
题目7:
星火X1给出的答案:
DeepSeek给出的答案:
还能说什么,两款大模型又做对了。
题目8:
星火X1给出的答案:
DeepSeek给出的答案;
就问你服不服!这道在2024年全国中学生数学奥林匹克竞赛(预赛)暨2024年全国高中数学联合竞赛(一试)试卷中分值16分的题竟然在不到1分钟的时间里,被星火X1和DeepSeek双双拿下,两款深度大模的数学能力可见一斑。
题目9:
星火X1给出的答案:
DeepSeek给出的答案:
该题在试卷中的满分是20分,通常来说,数学题的分数设置越高,也意味着该题的难度系数越大,这一点,从星火X1和DeepSeek思考用时中也很容易看出来。在解答该题以前的问题时,两大模型用时最多不超过100多秒,而这道题,星火X1用时487秒种,DeePseek用时409秒,双双超过了6分钟,足见该题很烧CPU。
不过,从结果来看,令人满意,星火X1回答正确,并且解题过程缜密、清晰,DeepSeek有时会在最后的一步计算算错了,而这种计算,原本是一般的初中生就能轻松做对的。
题目10:
星火X1给出的答案:
DeepSeek给出的答案:
这同样是一道满分为20分的高难度题。星火X1和DeepSeek同样耗费了6分钟以上的时间去思考,但最终的结果都不理想。该题的正确答案是t的区间大于等于3\2且小于等于2。
小结:
通过上面10道题的小测试,我们不难发现,相比于传统的大语言模型,星火X1和DeepSeek在数学能力方面有了质的飞跃。尤其是科大讯飞星火深度大模型X1,10道题仅错了一题,同时解题过程明晰、详细,整体表现不俗。
而DeepSeek虽然在最后一题上和星火X1同样折戟,且在第九题的计算上出现了失误,有时解题过程也会出现敷衍了事的情况,但瑕不掩瑜,其在思考用时方面往往略优于星火X1。
DeepSeek最大问题的不在于其解题准确度,而在于服务器的吞吐能力,在使用的过程中,我们时常会悲哀地发现,屏幕上又出现了“服务器繁忙,请稍后再试”的提示,一个问题往往需要输入几次甚至几十次才能解答成功,极大地耗费了时间、精力,影响了心情和使用体验。
“路漫漫其修远兮,吾将上下而求索”,通用人工智能和深度推理大模型方兴未艾,目前不过是小荷才露尖尖角,万里长征走完了第一步,未来一年,十年人工智能究竟能发展到哪一步,拭目以待。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )