基于输入通道拆分的对抗攻击迁移性增强算法

2023-01-27 08:27郑德生陈继鑫周静柯武平陆超周永仇钎

计算机工程 2023年1期

郑德生，陈继鑫，周静，柯武平，陆超，周永，仇钎，3

（1.西南石油大学计算机科学学院，成都 610500；2.中国航发四川燃气涡轮研究院航空发动机高空模拟技术重点实验室，四川绵阳 621000；3.西北工业大学动力与能源学院，西安 710072）

0 概述

深度神经网络（Deep Neural Network，DNN）在图像识别、目标检测等任务中取得了快速的发展和显著的成果，因此，神经网络的安全性备受研究人员的关注。DNN 的鲁棒性在安全敏感的人脸识别［1］、自动驾驶［2-3］等场景中具有重要作用。然而，已有研究证明神经网络模型很容易被误导。在神经网络的输入中添加精心设计、细微的扰动，便可以使神经网络以高置信度输出一个错误的预测结果。该结果虽然对视觉效果影响甚微，但可以把神经网络的样本误称为对抗样本。近年来，研究人员［4-5］提出用于生成具有攻击性的对抗样本。对抗样本的研究有助于评估并提高神经网络的鲁棒性。

根据攻击者对目标模型了解的程度，对抗攻击被分为白盒攻击和黑盒攻击两类。在白盒攻击中，攻击者可以访问目标模型的梯度、网络架构、参数等，而在黑盒攻击中，攻击者对目标模型一无所知。相比黑盒攻击，白盒攻击虽然能够取得更优的攻击性能，但是在现实场景中，攻击者往往无法访问目标模型的内部结构等信息。常见的解决方案［6］是通过对本地白盒模型进行攻击，利用生成对抗样本的迁移性对黑盒模型进行攻击。但当这类方法攻击白盒模型时存在过拟合问题，导致攻击黑盒模型的效果不理想。许多研究［7-8］通过减少对白盒模型的过拟合来提升对抗攻击的迁移性。但是它们只考虑了输入整体对迁移性的影响，而未考虑输入的每个部分对其的影响。

本文提出一种基于通道拆分的对抗攻击迁移性增强算法CSA。通过对原始RGB 图像输入的通道进行拆分与零填充，以得到三张三通道图片。在每次迭代过程中，将原图与得到的三通道图片同时传入模型中，计算聚合梯度。通过聚合梯度调整原始梯度更新方向，从而避免局部最优，提升对抗攻击的迁移性。

1 相关工作

假设x∈X为干净样本，y表示其真实标签，给定一个参数为θ的目标模型f，L(f(x,θ),ytrue)表示其损失函数，如交叉熵损失函数。对抗攻击的目的是试图找到一个对抗样本xadv∈X，使其满足：

其中：ϵ为扰动允许的上界，表示原始样本x与对抗样本xadv之间的p 范数。本文使用无穷范数来限制对抗扰动，即p=∞。

1.1 对抗攻击

近年来，研究人员提出许多关于对抗攻击的研究，如基于梯度的对抗攻击［9］、基于分数的对抗攻击［10］、基于决策的对抗攻击［11］等。由于本文主要关注对抗攻击的迁移性，因此简要概述了基于梯度的对抗攻击。

快速梯度符号法［12］（Fast Gradient Sign Method，FGSM）通过在梯度方向上添加增量来最大化损失函数，进而通过单步更新来生成对抗样本，对抗样本的生成过程如式（3）所示：

其中：sgn 为符号函数；∇为模型的梯度。

迭代快速梯度符号法［13］（Iterative-Fast Gradient Sign Method，I-FGSM）是FGSM 的迭代版本，每次迭代将扰动大小限制在ϵ邻域。第t+1 次迭代对抗样本的生成过程如式（4）所示：

其中：α为步长；=x。

动量迭代快速梯度符号法［14］（Momentum Iterative-Fast Gradient Sign Method，MI-FGSM）通过将动量引入迭代攻击过程中来增强对抗攻击的迁移性，其梯度的更新表示如式（5）所示：

其中：gt+1为第t+1 次迭代的梯度；||·||1为1 范数。

输入变换法［15］（Diverse Input Method，DIM）以固定的概率对输入进行随机调整大小和填充，使用变换后的图像进行梯度计算，以提高迁移性。其梯度更新表示如式（6）所示：

其中：T为输入变换函数；p为变换的概率。

平移不变法［16］（Translation Invariant Method，TIM）将梯度与预先定义的核函数进行卷积，得到优化的梯度，从而提高迁移性。梯度的更新表示如式（7）所示：

其中：gt为第t次迭代的梯度；W为预先定义的高斯核。

尺度不变法［17］（Scale Invariant Method，SIM）引入尺度不变属性，并将输入按比例缩放，计算平均梯度。梯度的计算如式（8）所示：

其中：Si(x)=1/2i表示输入图片按比例缩放；n表示缩放的次数。

1.2 对抗防御

为降低模型的潜在风险，尤其是在安全性敏感的应用场景中，研究人员提出多种防御对抗样本的方法。这些方法大致可以分为两类，一类是通过修改模型的训练或推理策略来提高模型的鲁棒性。MADRY 等［18］提出的对抗训练是最有效的防御方法之一。对抗训练通过将对抗样本加入到训练集中，再对模型进行训练，以提高鲁棒性。文献［19］提出集成对抗训练，将攻击多个模型生成的对抗样本作为训练集，训练具有鲁棒性较强的模型。COHEN等［20］使用随机平滑（Random Smoothing，RS）策略来训练鲁棒性强的模型。然而，这类方法通常计算成本过高，且不易拓展。

另一类是图像的预处理方法，即对抗样本在输入模型前先对其进行预处理，以消除对抗扰动。CIHANG等［21］对对抗样本进行随机调整大小和填充，以降低其对模型的影响。GUO 等［22］研究了五种图像变换方法，发现总方差最小化和图像压缩能够消除对抗扰动。LIAO等［23］训练一个高阶表征引导的除噪器（HGD）来防御对抗样本。GU 等［24］提出位缩减（Bit-Red）和空间平滑来检测对抗样本。JIA 等［25］提出的ComDefend 是一个端到端模型，通过压缩重建来防御对抗样本。文献［26］提出一个残差U-net，结合SENet［27］用于防御对抗样本的攻击。NASEER 等［28］设计一个神经表征净化器（Neural Representation Purifier，NRP）来自动学习净化对抗样本。

2 通道拆分对抗攻击算法

2.1 通道拆分与填充

不同的模型抵抗对抗攻击的能力有所不同。文献［29］将对抗攻击的过程比作模型的优化过程。在攻击的迭代过程中，采用数据增强策略能够有效避免攻击白盒模型时产生的过拟合现象，进而提升对抗攻击的迁移性。DIM、SIM 等使用数据增强策略来提高对抗攻击的迁移性。这类方法虽然均考虑了输入所有通道对攻击成功率的影响，都取得较优的效果，但是未考虑输入的每一个通道对攻击成功率的影响。受此启发，本文在每次迭代过程中，考虑对输入的通道进行拆分和填充，并通过计算聚合梯度来调整梯度的更新方向，提升对抗攻击迁移性。通道拆分和填充的表示如式（9）所示：

其中：CSAP 为通道拆分和填充操作；xR、xG、xB分别为RGB 输入的三个通道进行拆分和零填充后的图片。RGB 通道拆分与填充的流程如图1 所示。

图1 RGB 通道拆分与填充的流程Fig.1 Procedure of RGB channels splitting and padding

从图1 可以看出，对于每个RGB 输入，将其三个通道拆分，再分别使用零矩阵填充，得到三个输入xR、xG、xB与原始RGB 输入x共同构成用于梯度计算的一组图片X′=[x,xR,xG,xB]。

2.2 通道拆分对抗攻击

在同一数据集上，由于不同神经网络模型的架构与参数不同，因此其决策边界也有所不同。复杂的决策边界降低了对抗样本的迁移性。为充分利用原始RGB 的输入，本文将其每个通道分别用于梯度的计算。根据每个通道的梯度信息来调整原始梯度的更新方向，避免陷入局部最优，进而提高对抗攻击的迁移性。梯度的计算如式（10）所示：

2.3 模型攻击

攻击集成模型可以生成具有高迁移性的对抗样本。这主要是因为在多个模型上生成的对抗样本能够很容易捕获模型“盲点”的全局最优值。将N个模型的输出进行融合，根据融合输出进行梯度计算，可以有效提高对抗攻击的迁移性。融合模型输出的表达如式（11）所示：

其中：li(x)为第i个模型对输入x的概率输出；N为模型的个数；pi为第i个模型概率输出所占的权重，满足p1+p2+…+pN=1。

3 实验与结果分析

3.1 实验设置

本文实验从ILSVRC 2012验证集［30］中，从1 000个类别中随机选取1 000 张能够被所有模型正确识别的图片，并对CSA 算法进行评估。本文实验采用攻击成功率作为评价指标，用于对比不同方法的性能。攻击成功率通过模型预测错误的样本个数除以样本总数得出。

本文实验选择的三种基线方法分别是DIM［15］、TIM［16］、SIM［17］以及它们的组合，分别表示为SI-TIM、SI-DIM 和SI-TI-DIM。最大扰动ϵ=16，迭代次数T=10，迭代步长α=ϵ/T=1.6，衰减因子μ=1。对于DIM 算法，本文设置变换的概率p=0.5；对于TIM 算法，设置高斯核大小为7×7；对于本文所提的CSA 算法，参考文献［14］设置n=5，γi=1/2i。

本文共选择七个模型对CSA 算法进行验证。本文实验的ImageNet 模型选择如表1 所示，包含四个常规训练的模型和三个对抗训练的模型，分别用编号表示。

表1 本文实验的ImageNet 模型选择Table 1 ImageNet models selection of experiment in this paper

3.2 单模型攻击

3.2.1 单一对抗攻击算法对比

本文实验使用基线算法和本文所提的CSA 算法对单个模型进行攻击，分别在四个常规训练的模型上生成对抗样本，并在七个模型上对生成的对抗样本进行测试。

表2 和表3 分别所示为单一对抗攻击算法在常规训练和对抗训练模型上的攻击成功率。其中*表示白盒攻击成功率，加粗数据表示相对较高的攻击成功率。CSA 算法在保持接近100%的白盒攻击成功率的情况下，无论是对常规训练还是对抗训练的黑盒模型，取得的攻击成功率均高于DIM、TIM 和SIM算法。例如，当白盒模型为M1（Inception-v3）时，CSA 对四个常规训练模型的平均攻击成功率为84.2%，相比SIM 提高9.3 个百分点。CSA 对三个对抗训练模型的平均攻击率相较于SIM 提高10.5 个百分点。因此，CSA 可以有效地提升对抗攻击的迁移性。

表2 单一对抗攻击算法在常规训练模型上的攻击成功率Table 2 Attack success rates of single adversarial attack algorithms on conventional training models %

表3 单一对抗攻击算法在对抗训练模型上的攻击成功率Table 3 Attack success rates of single adversarial attack algorithms on adversarial training models %

3.2.2 集成对抗攻击算法对比

在文献［17］中证明将DIM 与TIM 和SIM 相结合，可以提升对抗攻击的迁移性。因此，本文还评估了CSA 与其他算法相集成的效果。当用于调整梯度的一组图片X′=[x]时，CSA 变为SIM，因此，本文分别将DIM 和TIM 与CSA 进行集成，集成的对抗攻击算法分别记作DI-CSA、TI-CSA 和TI-DI-CSA。

集成对抗攻击算法在常规训练和对抗训练模型上的攻击成功率分别如表4 和表5 所示。从表4 和表5 可以看出，DI-CSA、TI-CSA、TI-DI-CSA 可以大幅提高对抗攻击的迁移性。例如，当白盒模型为M1时，DI-CSA、TI-CSA、TI-DI-CSA 对常规训练模型的平均攻击成功率相较于CSA 提升了0.7～7.1 个百分点，相比SI-DIM、SI-TIM 和SI-TI-DIM提高6.7～9.1 个百分点。DI-CSA、TI-CSA、TI-DI-CSA 对对抗训练模型的平均攻击成功率相较于CSA 提升了11.9～35.6 个百分点，相比SI-DIM、SI-TIM 和SI-TI-DIM提高12.6～15.2 个百分点。因此，集成对抗攻击算法DI-CSA、TI-CSA、TI-DI-CSA 均能提高对抗攻击的迁移性。

表4 集成对抗攻击算法在常规训练模型上的攻击成功率Table 4 Attack success rates of integrated adversarial attack algorithms on conventional training models %

表5 集成对抗攻击算法在对抗训练模型上的攻击成功率Table 5 Attack success rates of integrated adversarial attack algorithms on adversarial training models %

3.3 集成模型攻击

对抗攻击算法同时攻击多个模型，可以提高生成对抗样本的迁移性。为进一步验证本文所提CSA算法的有效性，本文实验采用2.3 节所描述的方法，对集成模型进行攻击，即同时攻击M1、M2、M3和M4。在三个对抗训练的黑盒模型上进行测试，以验证生成对抗样本的迁移性。

不同对抗攻击算法在常规训练模型和对抗训练模型上的攻击成功率对比分别如表6 和表7 所示。从表6和表7 可以看出，CSA、DI-CSA、TI-CSA 和TI-DI-CSA 与其他算法在白盒模型上都取得了较优的攻击效果，攻击成功率相接近。当攻击黑盒模型时，本文所提算法取得的攻击成功率远高于其他对抗攻击算法，CSA 比DIM、TIM 和SIM 的攻击成功率平均提高了7.9～29.4 个百分点。CSA 与DIM 相集成的DI-CSA 比SI-DIM 的攻击成功率平均提高5.2 个百分点，与TIM 集成的TI-CSA 比SI-TIM 攻击成功率平均提高3.6 个百分点，与DIM 和TIM 集成的TI-DI-CSA 在三个对抗训练的黑盒模型上取得了94.7%的平均攻击成功率，比SI-TI-DIM 提高2.1 个百分点。

表6 不同对抗攻击算法在常规训练模型上的攻击成功率对比Table 6 Attack success rates comparison among different adversarial attack algorithms on conventional training models %

表7 不同对抗攻击算法在对抗训练模型上的攻击成功率对比Table 7 Attack success rates comparison among different adversarial attack algorithms on adversarial training models %

3.4 防御模型攻击与攻击效果展示

为进一步验证CSA 的有效性，本文对七种防御模型进行攻击。这七种防御模型分别是2017 年NIPS防御竞赛排名前三的HGD、R&P和NIPs-r3，以及近年来提出的防御模型，如ComDefend、NRP、Bit-Red和RS。

图2 所示为六种对抗攻击算法对防御模型的攻击成功率。从图2 可以看出，CSA 对防御模型的攻击成功率高于DIM、TIM 和SIM。TI-DI-CSA 对防御模型的攻击成功率平均为91.8%，相较于SI-TI-DIM的88.0%提高3.8 个百分点。该实验充分验证了所提CSA 算法的有效性。

图2 不同算法对防御模型的攻击成功率对比Fig.2 Attack success rates comparison among different algorithms against the defense model

为确保CSA 生成的对抗样本所包含的信息仍然完整，且不影响人类的主观判断，本文在不同扰动大小下，分别使用DIM、TIM、SIM 和CSA 对M1、M2、M3和M4模型进行攻击，并在七个模型上计算平均攻击成功率。实验结果如图3～图5 所示，横坐标表示白盒模型。从图3 可以看出，当最大扰动为2 时，即ϵ=2，在白盒模型为M1的情况下，CSA 在七个模型上取得的平均攻击成功率比其他三种算法提高0.4～2.7 个百分点。当白盒模型为M2或M3时，CSA 取得的平均攻击成功率比DIM 和TIM 两种算法分别提高2～3.7 个百分点和0.2～0.8 个百分点，比SIM 低0.4和0.6 个百分点。当白盒模型为M4时，CSA 取得的平均攻击成功率比其他三种算法平均降低0.1～0.6 个百分点。从图3～图5 可以看出，最大扰动越大，CSA取得的平均攻击成功率越高。当最大扰动分别为4和8 时，CSA 均取得了最高的平均攻击成功率，相较于其他三种算法平均提高约4.8 和10.8 个百分点。

图3 当最大扰动为2 时不同算法对白盒模型的攻击成功率Fig.3 Attack success rates of different algorithms against the white-box model when the maximum disturbance is 2

图4 当最大扰动为4 时不同算法对白盒模型的攻击成功率Fig.4 Attack success rates of different algorithms against the white-box model when the maximum disturbance is 4

图5 当最大扰动为8 时不同算法对白盒模型的攻击成功率Fig.5 Attack success rates of different algorithms against the white-box model when the maximum disturbance is 8

在不同扰动下，DIM、TIM、SIM 和CSA 在M1模型上生成对抗样本的可视化效果如图6 所示。从图6 可以看出，CSA 生成的对抗样本在视觉上与其他算法相似，但能够获得更高的攻击成功率。

图6 不同算法在M1模型上生成对抗样本的可视化效果Fig.6 Visualization effect of generating adversarial samples comparison among different algorithms on M1 model

4 结束语

针对对抗攻击迁移性低的问题，本文提出一种基于通道拆分的对抗攻击迁移性增强算法。通过对原图像的三个通道进行拆分和零值填充，充分考虑单个通道对攻击成功率的影响，以提高对抗攻击的迁移性。在标准的ImageNet 数据集上的实验结果表明，相比基于梯度的攻击算法DIM、TIM、SIM 等，本文算法对白盒模型、黑盒模型和防御模型都具有较优的攻击效果。下一步将改进CSA 算法的时间复杂度，在保持较高攻击成功率的前提下加快对抗样本的生成速度，同时构建一个自动攻击与防御架构，并在攻击与防御的对抗过程中不断优化该架构，提升攻击性能。