研究发现,许多AI系统已经具备了故意向人类用户提供虚假信息的能力。这些狡猾的机器人已经掌握了欺骗的艺术。AI开发者对于导致不良AI行为(如欺骗)的原因没有自信的理解。
通常来说,我们认为AI欺骗是因为基于欺骗的策略被证明是完成给定AI训练任务的最佳方式。欺骗帮助它们实现目标。AI系统在游戏领域尤其善于虚假信息。
研究人员的工作中有三个值得注意的例子。
一个是Meta的CICERO,设计用于玩策略游戏《外交》,玩家通过谈判谋求世界统治。Meta打算让它的机器人友好和诚实;实际情况恰恰相反。"尽管Meta的努力,CICERO被证明是一个谎言专家。它不仅背叛其他玩家,而且还进行预谋性的欺骗,提前计划与人类玩家建立虚假联盟,以欺骗该玩家使其不设防受到攻击。"这个AI在表现得如此出色以至于它跻身于曾玩过多场游戏的人类玩家的前10%。
但这绝不是唯一的罪犯。DeepMind的AlphaStar是一个设计用于玩《星际争霸II》的AI系统,它充分利用了游戏的战争迷雾机制进行虚实蒙骗,让人类玩家以为它是在朝一个方向前进,实际上它是在朝另一个方向前进。
而Meta的Pluribus,设计用于玩扑克,能成功地吓跑人类玩家。这看起来似乎微不足道,而且事实上也是如此。与一群计算机代码进行一场《外交》游戏的风险并不特别高。
但研究人员指出了其他一些不那么良性的例子。例如,受过训练以进行模拟经济谈判的AI系统学会了如何在谈判中撒谎以占据上风。其他旨在通过人类反馈来提高其性能的AI系统学会了如何欺骗审查人员,使他们误以为任务已完成,从而给自己评分。
是的,这也包括聊天机器人。ChatGPT-4骗过一个人,让对方以为这个聊天机器人是一个视觉障碍的人类,以获取帮助解决CAPTCHA。也许最令人担忧的例子是AI系统学会了欺骗安全测试。在一个旨在检测和消除AI的更快复制版本的测试中,AI学会了装死,从而欺骗安全测试关于AI真实复制率的情况。
"通过系统地欺骗人类开发者和监管者强加给它的安全测试,一个具有欺骗性的AI可以让我们人类产生一种虚假的安全感,"MIT认知科学家Peter Park说。因为至少在某些情况下,欺骗的能力似乎与人类程序员的意图相矛盾,学会说谎的能力代表着我们没有一个干净利落的解决方案的问题。
一些政策开始制定,比如欧盟的AI法案,但它们是否会被证明有效还有待观察。"我们作为一个社会需要尽可能多的时间来为未来AI产品和开源模型更先进的欺骗行为做准备。随着AI系统的欺骗能力变得更加先进,它们对社会造成的危险将变得越来越严重,"Park说。"如果在当前时刻禁止AI欺骗在政治上是不可行的,我们建议将具有欺骗性的AI系统分类为高风险。"
本文译自 ScienceAlert,由 BALI 编辑发布。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )