AI犯错不如人类那样可预测且成群出现。了解其错误规律,设计专门的防护机制,才能让技术更安全地融入社会。
人类每天都会犯错,从简单任务到复杂问题,错误无处不在。有些错误无伤大雅,而另一些可能导致灾难。为了应对这些问题,人类花了几千年设计各种安全机制。例如,赌场定期轮换荷官,避免他们长时间工作时出错;医院会在手术前标记病人肢体,防止操作失误;甚至在会计和法律审查中,我们也建立了复杂的检查和纠错流程。
如今,社会正在快速接纳一种全新的“错误制造者”——人工智能。像大型语言模型(LLMs)这样的技术在完成许多认知任务时表现出色,但它们也会犯错。而且,它们的错误与人类的完全不同。AI的错误有时会显得荒谬可笑,比如建议吃石头或在披萨上加胶水。这种“奇怪”的错误模式是人类无法预见的,因此传统的纠错方法往往无效。
人类错误通常发生在知识的边缘领域,比如解高数题时出错是常见现象。这些错误通常具有聚集性和可预测性,例如疲劳或分心时更易出错。AI的错误则完全不同,它们可能随机分布在知识范围内,毫无主题可言。同样自信的回答可能是完全正确的,也可能荒谬至极。这种随机性和不稳定性使得人类难以信任AI在复杂问题上的推理能力。
这揭示了两个研究方向:一是让AI的错误更接近人类,二是为AI设计专属的纠错机制。目前已经有一些方法能引导LLMs更符合人类的思维方式,比如通过人类反馈强化学习技术,让AI更倾向于生成“合理”的回答。然而,现有的纠错系统还不足以解决AI的独特问题。
相比人类,AI不会感到疲惫或不耐烦,因此可以通过重复询问和合成多次回答来降低错误率。此外,一些专门的工具正在开发中,用来捕捉和分析AI在错误中展现的“奇怪逻辑”,以便更好地预防潜在风险。
尽管AI的错误常被认为离谱,但某些模式其实与人类行为相似。例如,LLMs在回答问题时对提示词敏感,这和人类在问卷调查中因措辞变化而改变答案的现象如出一辙。此外,AI对常见概念的偏好可能反映了人类“可得性启发”的倾向——想到的第一个答案往往并非经过深思熟虑的结果。
另一方面,AI在处理长文本时容易“中途分心”,这点也像人类。不过,训练更多样化的文本检索数据后,AI在这方面的表现已有改善。此外,研究还发现,某些人类的社交工程技巧,例如假装身份或开玩笑,竟然也能“欺骗”AI。
虽然人类偶尔也会犯奇怪的错误,但这种情况少见且通常预示更严重的问题。我们通常不会让表现出随机行为的人承担决策任务。同理,AI的应用应限制在它真正胜任的领域,同时对其错误的潜在影响保持警惕。
本文译自 IEEE Spectrum,由 BALI 编辑发布。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )