对抗样本技术综述

2020-04-07 03:44李杉

科学大众 2020年1期

李杉

摘要：如今，作为人工智能应用方面关键之一的深度学习被广泛应用于图像分类和图像识别的问题中。近期，研究人员提出了“对抗样本”的概念。对抗样本是通过深度学习方法产生的普遍存在于机器学习模型中的问题之一。文章介绍了对抗样本的基本概念及其相关概念。对近年来有关于对抗样本的研究和论文進行了简单总结，按照各自的算法原理将经典的生成算法分成基于梯度优化损失函数，基于优化目标函数和GAN 3大类进行简单介绍，并对一些方法的对抗性进行了分析与对比。

关键词：深度学习;对抗样本生成;机器学习

近年来，人工智能发展势头迅猛。深度学习的概念也被广泛应用到当今研究的诸多方面。对抗样本是由Szegedy等[1]提出的、常见于深度神经网络中、能够使得深度学习出现错误的一类合成样本。目前，对对抗样本的研究逐渐引发了人们对深度学习安全问题的思考，深度学习模型将某些人类无法识别的样本以高置信度进行分类从而暴露了其极大的脆弱性。对抗样本的生成技术是研究对抗样本的关键之一，通过对生成对抗样本的各种技术的总结与归纳，不但可以发现基本的生成规律，还可以发现一些创新点与应用价值。

1 简介

1.1 对抗样本的基本概念

对抗样本（Adversarial Examples，AE）是指在人类能够辨识出来目标物体的前提下，向原有样本中添加微小扰动，导致模型以高置信度给出一个错误的输出。人类观察者不会察觉原始样本和对抗样本之间的差异，但是网络会作出非常不同的预测[2]。

1.2 相关概念

黑盒测试[3]（Black Box Test，BBT）：未知模型（包括网络结构及权值参数等信息）的情况下，从输入和输出数据的对应关系进行测试的方法。

白盒测试[3]（White Box Test，WBT）：已知模型（包括网络结构及权值参数等信息）的情况下进行的测试方法，与黑盒测试相对。

目标定向攻击（Targeted Attack，TA）：通过对输入样本进行一定的扰动，使得模型误分类为某个特定类别。

目标非定向攻击（Non-targeted Attack，NTA）：对输入样本进行一定的扰动，使得模型产生误分类。

2 对抗样本生成方法

近年来，学术界针对不同的优化算法提出了很多的对抗样本生成算法。文章仅挑选几个经典的算法简单介绍。

2.1 基于梯度优化损失函数

2.1.1 FGSM

FGSM是一种对抗样本的快速生成的方法，仅对输入进行一次扰动，它将输入x的每个像素修改一个小幅度，以最大化预测损失。因此，它不能保证成功改变输入的类别。通过增加扰动幅度可以提高成功率，但这可能会导致人眼可见的较大扰动。FGSM在对抗样本领域被广泛使用，由于它具有极高的效率和较高的攻击成功率，所以通常作为新的防御策略的基准攻击方法或基准评估方法[4]。

2.1.2 I-FGSM

I-FGSM即Itersative FGSM，是迭代版FGSM算法，其基本的思想是把优化区间减小，也就是假设优化的目标函数在很小的区间内是线性的，就可以在这个很小的区间内采用FGSM的优化算法。I-FGSM通过迭代的方式使得生成的对抗样本的攻击性能更好，也极大地提高了对抗样本的鲁棒性[5]。

2.1.3 MI-FGSM

MI-FGSM是由Yinpeng Dong等[6]在借鉴I-FGSM和ILCM两种算法以后提出的基于定向目标的黑盒攻击方法。该方法把梯度迭代部分用动量迭代来替代，并在Iterative的基础上引入了Momentum，在保证样本攻击能力的同时提升了对抗样本的迁移性。

2.2 基于优化目标函数

2.2.1 C&W attacks

C&W attacks是由Carlini等[7]在总结了L-BFGS、FGSM和JSMA几个对抗样本生成的方法后提出的算法。该方法是前3种方法的拓展，并且比以往的攻击方式更加有效。这个算法被公认为是目前最强的攻击算法。

2.2.2 DeepFool

DeepFool是由Seyed-Mohsen等[8]提出的目标非针对性的方法。该方法对深度网络有很强的对抗性和鲁棒性，并且在保持与FGSM差不多的对抗性的同时产生更小的扰动。

2.2.3 Curls&Whey

Curls&Whey是由Yucheng Shi等提出的针对黑盒攻击设计的方法。该方法采用卷曲迭代和过滤扰动结合的解决算法，以期解决在沿梯度上升方向单调地添加扰动所生成的迭代轨迹缺乏多样性和适应性的缺陷及容易添加过多扰动的问题。

2.2.4 Box-constrained L-BFGS

Box-constrained L-BFGS是由Szegedy等提出的基于L-BFGS的对抗样本生成算法，该算法成功对MNIS和ImageNet（Alexnet分类模型）的数据进行攻击[10]。

2.3 基于GAN

PS-GAN[11]是针对攻击力的增强和逼真程度的提高而提出的一种感知敏感生成对抗网络。PS-GAN将patch的生成转化为一个patch到另一个patch的翻译以提高视觉逼真度，进而输出与被攻击图像具有高度感知相关性的类似对抗patch。在对抗样本的生成中引入attention机制以增强对抗样本的攻击能力，预测出合适的攻击区域作为patch，进而产生更真实、更有攻击性的对抗样本。

3 结语

近年来，机器学习技术被广泛应用，对抗样本作为机器学习模型普遍存在的问题之一，受到了更多的重视。文章简单介绍了基于梯度优化损失函数、优化目标函数、GAN 3种分类的8种对抗样本生成方法，对一些方法的对抗性进行了分析与对比，可为对抗样本生成技术的研究与应用提供参考。

[参考文献]

[1]SZEGEDY C，ZAREMBA W，SUTSKEVER I，et al.Intriguing properties of neural networks[J].Computer Science，2013（4）：1312.

[2]MIYATO T，MAEDA S，KOYAMA M，et al.Distributional smoothing by virtual adversarial examples[C].Kyoto：International Conference on Learning Representations，2015.

[3]ZHAO C.Analysis of black box testing and white box testing[J].Silicon Valley，2010（11）：39.

[4]潘文雯，王新宇，宋明黎，等.對抗样本生成技术综述[J].软件学报，2016（2）：1-17.

[5]刘雨佳.针对神经网络的图像对抗样本生成及应用研究[D].北京：中国科学技术大学，2019.

[6]DONG Y，LIAO F，PANG T，et al.Boosting adversarial attacks with momentum[J].Springer，2017（3）：1085.

[7]CARLINI N，WAGNER D.Towards evaluating the robustness of neural networks[J].2017 IEEE Symposium on Security and Privacy，2016（2）：39-57.

[8]MOOSAVIDEZFOOLI S M，FAWZI A，FROSSARD P.DeepFool：a simple and accurate method to fool deep neural networks[C].Las Vegas：Processing of the IEEE Conference On Computer Vision and Pattern recognition（CVPR） IEEE，2016.

[9]SHI Y，WANG S，HAN Y.Curls&Whey：boosting black-box adversarial attacks[EB/OL].（2019-04-02）[2020-01-01].https：//arxiv.org/abs/1904.01160v1.

[10]陈岳峰，毛潇锋，李裕宏，等.AI安全—对抗样本技术综述与应用[J].信息安全研究，2019（11）：1000-1007.

[11]AISHAN L，XIANGLONG L，JIAXIN F，et al.Perceptual-sensitive GAN for generating adversarial patches[EB/OL].（2019-07-10）[2020-01-01].https：//www.researchgate.net/publication/335800857_Perceptual-Sensitive_GAN_for_Generating_Adversarial_Patches.