360AI安全风险白皮书：小心深度学习逃逸攻击

2017以来，人工智能的兴起让“深度学习”这个词频繁出现在公众视野。有了深度学习算法，机器也能够模拟人类的思考方式，自主获取知识，修习技能，完成很多常人无法完成的任务。但是作为一种新兴技术，深度学习算法自身仍存在很多安全缺陷和漏洞。近日360安全研究院发布的《AI安全风险白皮书》结合深度学习逃逸攻击方面的实例和研究工作，详细解读了人工智能应用所面临的安全风险。

“逃逸攻击”是一个专业术语，它指的是攻击者在不改变目标机器学习系统的情况下，通过构造特定输入样本以完成欺骗目标系统的攻击。例如，攻击者可以修改一个恶意软件样本的非关键特征，使得它被一个反病毒系统判定为良性样本，从而绕过检测。

图1：攻击者生成对抗样本使系统与人类有不同的判断

以最近颇受关注的图像识别为例，图像识别的原理是具备深度学习能力的人工智能系统，模仿人类视觉功能，通过一定的算法规则，区分不同的图像目标。但是，目前图像识别深度学习所依赖的判断规则和人眼的视觉机理仍存在较大的差距，这也就意味着：只要对目标图片稍加改造，图像识别系统就有可能在完全正常的流程下输出一个截然不同的错误结果。

此前，Ian Goodfellow在2015年ICLR会议上就提出了著名逃逸样本，样本使用了谷歌的深度学习研究系统，该系统利用卷积神经元网络，能够精确区分熊猫和长臂猿等图片。不过，攻击者对熊猫的图片“稍加改造”，增添了一些干扰因素。虽然这细微的差别并不会影响人类的判断，不过图像识别深度学习系统却会把熊猫误认为长臂猿。

图2：逃逸攻击让深度学习系统将熊猫误认为长臂猿

据悉，基于机器学习的逃逸攻击主要分为白盒攻击和黑盒攻击。白盒攻击需要获取机器学习模型内部的所有信息，然后直接计算得到对抗样本；黑盒攻击则只需要知道模型的输入和输出，不需要了解模型内部的构造和状态，即可通过观察模型输出的变化来生成对抗样本。

此外，该文合作者许伟林采用遗传编程随机修改恶意软件的方法，成功攻击了两个号称准确率极高的恶意PDF文件分类器：PDFrate和Hidost。这些逃逸检测的恶意文件和算法自动修改出来的，并不需要PDF安全专家介入。同样的算法可以用来对实际应用的机器学习系统进行逃逸攻击。

同时，针对AI系统的对抗性研究，就是让人工智能系统输出错误的结果。还是以手写图像识别为例，攻击者可以构造恶意的图片，使得人工智能系统在分类识别图片的过程中触发相应的安全漏洞，改变程序正常执行的控制流或数据流，使得人工智能系统输出攻击者指定的结果。

图3：针对人脸识别系统的对抗样本生成

白皮书中还提到，虽然深度学习系统经过训练可以对正常输入达到很低的误判率，但是当攻击者用系统化的方法能够生成误判样本的时候，攻击的效率就可以接近100%，从而实现稳定的逃逸攻击。这也意味着，虽然人工智能应用正越来越普及，但是对于逃逸攻击的研究也应该同步跟进，其安全问题不容忽视。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

360AI安全风险白皮书：小心深度学习逃逸攻击

下一篇