标题:DeepSeek/o3研究警告:频繁跳转或错过正确答案,简单才是王道
DeepSeek和o3一类推理大模型在持续带来震撼的同时,也引发了新的研究兴趣。近期,一项新研究揭示了这些模型的弱点——在遇到高难度问题时,它们可能会频繁切换解题思路,这可能会让它们错过正确答案。这种现象被研究者称为“欠思考”(Underthinking)。
DeepSeek和o3等模型在解决复杂问题时表现出色,但它们也有其局限性。特别是在遇到高难度问题时,它们可能会频繁切换思路,这可能会导致它们在解决问题时效率低下,甚至错过正确答案。为了解决这个问题,研究人员开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。
这项研究以DeepSeek-R1和Qwen QwQ系列模型为研究对象,通过分析AI的错误答案,发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个tokens对解题毫无贡献。这种现象不仅浪费计算资源,还显著降低了答案的正确率。
值得注意的是,这种频繁的思路切换并不是一种有效的解决问题的方式。在解决数学竞赛题等更为复杂任务时尤为明显。为了系统分析这个问题,研究人员在具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上对类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。结果显示,平均来看,错误答案中的token使用量和思维切换次数比正确答案多。
为了解决这个问题,研究人员提出了一种思路切换惩罚机制(TIP)。TIP通过调整参数(惩罚强度α和持续时间β),抑制模型过早的切换倾向,迫使模型在当前路径上探索更久。实验结果显示,加入TIP后,模型的准确率上升,同时UT Score下降,说明既减少了无效切换,又提高了答案质量。
尽管DeepSeek和o3一类推理大模型在解决复杂问题时表现出色,但频繁的思路切换可能会成为它们的弱点。解决这个问题的方法并非完全重新训练模型,而是通过调整解码策略,如引入TIP机制,来改善模型的推理过程。这种方法实用价值高,展现了无痛升级的效果。
值得注意的是,DeepSeek和o3一类推理大模型在解决复杂问题时的表现令人印象深刻。然而,我们不能忽视它们在面对高难度问题时的局限性。频繁的思路切换可能会让它们错过正确答案。因此,我们需要深入研究这个问题,寻找更好的解决方案。简单才是王道,过于复杂的问题可能会让模型失去方向。
总的来说,DeepSeek和o3一类推理大模型在持续带来震撼的同时,也引发了新的研究兴趣。通过深入研究和探索它们的弱点,我们可以更好地了解它们的性能,并找到更好的解决方案来提高它们的准确性。这项研究为我们提供了新的视角和思路,有助于我们更好地利用这些强大的模型来解决现实世界中的问题。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )