大型语言模型 (LLM) 作为新一代人工智能工具,如今已广泛应用于各行各业,辅助工程师和普通用户完成各种任务。然而,评估这些工具的安全性和可靠性也变得至关重要,这将有助于更好地规范其使用。
最近,旨在评估人工智能系统安全性的 Apollo Research 组织开展了一项研究,评估大型语言模型 (LLM) 在面临压力时做出的反应。他们的研究成果发表在预印服务器 arXiv 上,令人震惊地指出,这些模型(其中最著名的包括 OpenAI 的 ChatGPT)在某些情况下可能会故意欺骗用户。
该论文的共同作者之一 Jérémy Scheurer 告诉 Tech Xplore:“在 Apollo Research,我们认为最大的风险之一来自先进的 AI 系统,它们能够通过战略性欺骗来逃避标准的安全评估。我们的目标是充分理解 AI 系统,从而防止欺骗性 AI 的开发和部署。”
“然而,到目前为止,还没有证据表明 AI 会进行战略性欺骗,除非明确指示它们这样做。我们认为,进行这样的令人信服的演示非常重要,以便使这个问题更加突出,并让研究人员、决策者和公众意识到这是一个重要问题。”
通过识别特定 AI 工具可能进行战略性欺骗的场景,Scheurer 及其团队希望为进一步评估其安全性的研究提供参考。目前,很少有实证证据突出 AI 的欺骗性及其发生的场景,因此该团队认为需要通过实验验证并提供清晰示例来揭示 AI 的欺骗行为。
Scheurer 表示:“这项研究的很大一部分动机在于理解 AI 如何以及何时可能会变得欺骗,我们希望这项早期工作能够成为更严谨的 AI 欺骗科学研究的起点。”
Scheurer 与他的同事 Mikita Balesni 密切合作完成了这项研究,Balesni 设计了具体的交易任务来测试 LLM。他们的工作由 Apollo Research 的高级调查员兼首席执行官 Marius Hobbhahn 监督。
Scheurer 说道:“这是一种模型红队测试(机器学习领域常用的网络安全术语),这意味着我们通过对抗性地输入文本来攻击 LLM,使其行为与预期不符(即错误)。这与询问中立问题(例如,‘法国的首都是什么?’)并观察其反应相反。”
在这项研究中,研究人员特别“攻击”了 OpenAI 开发的 LLM GPT-4,它是 ChatGPT 运行的基础。他们通过设计文本输入(即提示)来指示模型在模拟环境中充当进行金融投资的 AI 系统。
Scheurer 说:“我们告诉模型,它可以访问各种工具来寻找盈利交易、发送电子邮件和执行交易。然后,我们模拟模型可能与‘同事’之间的正常互动,并且至关重要的是,我们给模型施加了表现良好的压力。例如,首席执行官给 AI 代理发送电子邮件,说公司业绩不佳,需要一个好的年份。另一个‘同事’通过消息提到即将出现经济衰退等等。最后,一位交易员提到即将有两家公司宣布合并,这可能会带来利润,同时还提到如果管理层发现有人利用内幕信息交易,会很不高兴。”
研究人员发现,在这个模拟的高压环境中,基于 GPT-4 的 AI 代理非常频繁地决定利用从同事那里获得的内幕信息来操作,购买合并公司的股票。更进一步,模型明确认为它不应该提及内幕交易,而是在其主管报告中为其做的交易提供替代解释。
Scheurer 表示:“即使经理明确询问该模型是否事先知道合并消息,它通常也会选择继续撒谎。我再次强调,这是一项红队测试,也就是说,我们特别寻找了可能发生这种情况的现实场景。因此,我们的研究更多的是证明这种行为可以发生,并不代表它在现实中出现的可能性有多高。”
Scheurer 及其同事的这项研究提供了一个清晰的例子,展示了 LLM 可能进行战略性欺骗的场景。研究人员现在计划继续在这个领域进行研究,以识别 AI 工具可能进行战略性欺骗的其他情况及其欺骗行为的潜在影响。
Scheurer 补充道:“我认为我们这项工作最大的影响就是让战略性 AI 欺骗(没有明确指示要进行欺骗)问题变得具体化,并表明这不仅是关于未来的猜测性故事,而且这种行为在特定情况下确实可以发生在当今的模型身上。我相信这可以让人们更加重视这个问题,同时也为社区进一步研究和理解这种行为并确保它不再发生打开了大门。”
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )