数据增强对深度伪造检测模型的影响研究

2021-09-07 00:47耿鹏志唐云祁樊红兴张时润朱新同
计算机工程与应用 2021年17期
关键词:后处理深度特征

耿鹏志,唐云祁,樊红兴,张时润,朱新同

1.中国人民公安大学 侦查学院,北京100038

2.中国科学院 自动化研究所 智能感知与计算研究中心,北京100190

3.湖南工业大学 计算机学院,湖南 株洲412007

近年来,生成式对抗网络[1](Generative Adversarial Networks,GANs)在计算机视觉领域发展迅速。以该技术为依托的深度伪造(Deepfake)技术在全世界范围内掀起了一股伪造热潮。如人脸替换、人脸属性编辑以及人脸表情操控等,伪造技术的恶意应用在社会安全等领域造成了巨大的风险。人脸信息作为生物特征信息最为敏感的一环,如果该技术被不法分子所利用,一方面会导致虚假新闻等信息的泛滥,另一方面,生物特征信息的泄露会导致个人隐私、名誉以及财产等受到侵害,严重者甚至危害国家安全。因此,针对深度伪造视频的检测,对于促进网络空间的健康发展以及政治和经济社会的稳定具有极其重要的意义。目前各学术团队已经就深度伪造检测展开了深入研究,其中Facebook公司斥巨资主办的Deepfake检测挑战赛(Deepfake Detection Challenge,DFDC),极大地促进了深度伪造取证领域的发展。同时,各国也在立法层面上采取措施来限制Deepfake为代表的造假技术,如中国于2019年印发的《网络音视频信息服务管理规定》[2]明确规定不得使用人工技术制作、传播虚假新闻信息,由美国两党议员提出的《2019年深度伪造报告法案》[3]也建议政府制定相应的规则与法律,并提高鉴别真伪的技术能力。

目前已经出现了许多经典的检测方法,主要分为基于视频检测和基于图像检测两大类。基于视频检测方面,研究者主要针对时间信息进行建模,如文献[4-5]利用长短期记忆网络(LSTM)来提取视频序列中的时序信息。文献[6]提取视频中的光流信息(Optical Flow)作为卷积神经网络的输入。还有研究人员使用生物信号rPPG[7]用于深度伪造检测。基于图像检测方面,可以分为传统手工设计和深度学习两大类,在传统手工设计方面,如Yang等人[8]使用对头部和面部的姿势进行建模,Li等人[9]对眨眼信息进行检测,但由于深度伪造技术的更新发展,该方法已不适用。Matern等人[10]对眼睛、牙齿以及人脸区域的伪影设计特征,但他们使用简单的分类器,都可能存在特征提取不到位的情况。在深度学习方面,文献[11-13]分别使用了MesoNet、胶囊网络以及Xception进行换脸检测,并取得不错的效果,其中Xception网络由于出色的特征提取能力,被作为主流的深度伪造取证网络,Stehouwer等人[14]采用注意力机制让检测模型更加关注伪造区域,以此提升检测效果。卞明运等人[15]使用空洞卷积捕捉图像上下文信息,提升对伪造图片的检测效果。胡永健等人[16]将图像分割网络用于深度伪造检测中,可以对伪造区域的定位检测。以上方法都依赖于特定的数据集,当待检测的数据属于另一类的伪造方法或数据经过后处理操作的情况时,检测模型会损失部分精度。本文通过对相关比赛进行调研,发现对于跨库或者经过后处理图片检测问题,一种最直接有效的方法是使用数据增强。所以本文选取四种经典遮挡类增强方法以及高斯模糊、高斯噪声、色度变换等十种光学变换的数据增强方法,探究其对深度伪造检测模型性能的影响。由于XceptionNet对于伪造视频图片的出色检测性能,使得它在相关比赛中被广泛应用,同时作为经典的检测模型在取证领域也被作为基线模型进行对比研究,所以最终选取XceptionNet作为本文的检测模型。

总体来说,本文主要有以下3方面贡献:

第一,针对目前大多数Deepfake检测方法是对于网络结构进行改进或者寻找有意义的其他的线索。本文结合相关比赛从数据增强角度出发,探究数据增强方法对于模型检测的影响以及是否可以迫使模型学习更高级的伪造特征。

第二,选取4种经典的遮挡式数据增强方法和10种基于光学变换的数据增强方法,探究其对检测模型的影响。实验结果表明遮挡式数据增强方法对于检测模型的检测性能提升有所帮助,对比度和亮度变换有一定效果的提升。相比于增加网络模型结构等操作,数据增强方法简单有效,可以有效地提升模型在经后处理操作图像上的检测准确度。但不能提升模型的泛化性。

第三,使用Grad-CAM方法可视化对数据增强所起的作用进行可解释分析。从激活图中可看出数据增强策略能使检测模型的激活面积增大,降低了错检情况的发生。

1 本文方法

1.1 本文所使用的数据增强方法

有效的数据增强方法可以使CNNs模型避免只学习到某一局部特征,使检测模型关注到更多具有判别信息的特征。为探究其对于深度伪造模型检测的影响,本文就遮挡式和基于光学变换这两大类数据增强方法进行了研究。

1.1.1 遮挡式数据增强方法

本文所使用的遮挡式增强方法分别为Random-Erasing[17]、Cutout[18]、HaS(Hide-and-Seek)[19]和GridMask[20]这四种,如图1所示。

图1 HaS、Cutout、RandomErasing和GridMask的结果Fig.1 Results of HaS,Cutout,RandomErasing and GridMask

RandomErasing(随机擦除)在训练时,会在原图随机选择一个矩形区域,将该区域的像素替换为随机值,以此对训练的图片做不同程度的遮挡,从而降低过拟合的风险并提高模型的鲁棒性。

HaS是将图片均匀地分成S×S个网格,然后每一个网格以一定概率随机删除,而RandomErasing和Cutout只删除图像的某一连续区域,所以HaS可产生更多类型的遮挡形状,具有更强的遮挡鲁棒性。

Cutout利用固定大小的矩形对图像进行遮挡,在矩形范围内对图片进行全0填充。相比于RandomErasing,其遮挡大小需要手动设置。

GridMask是结构化的丢弃,它与以上方法的不同之处为,其删除区域是一组空间均匀分布的正方形。这样可以避免类似于Cutout生成一个大的遮挡块从而完全覆盖掉目标,相对于HaS可以更好地控制原图片中遮挡与保留的比例。

1.1.2 基于光学变换的数据增强方法

基于光学变换的数据增强方法,主要是通过滤镜等操作方法,将特定功能的滤镜与图像进行卷积操作,进而得到多种类型的数据。在伪造模型检测中,有效的数据增强方法可以使模型提取更高级的伪造特征,提升模型的鲁棒性。另一方面,经过后处理的伪造图片,加大了检测模型检测的难度,所以不法分子可能会通过后处理操作逃避检测。因此本文选取了常见的10种基于光学变换的数据增强方法,ChannelShuffle、GaussNoise、GaussianBlur、IAAAdditiveGaussianNoise、IAASharpen、HueSaturationValue、RandomBrightnessContrast、Random-Brightness、ISONoise和ToSepia,其效果如图2所示。

图2 基于光学变换的数据增强结果Fig.2 Data enhancement results based on optical transformation

1.2 基于数据增强的伪造检测模型

1.2.1 特征提取网络

本文使用的特征提取网络为Xception网络。XceptionNet主要有输入层、中间层以及输出层3个部分组成,共有36个卷积层。Xception网络设计并使用了深度可分离卷积,其结构如图3所示,深度可分离卷积由两个连续的卷积运算组成:(1)对输入的每个channel,分别进行3×3卷积操作,并将结果拼接。(2)对上一步卷积中的拼接结果,进行1×1卷积操作来获取跨通道的相关性。与普通卷积核相比,可以通道间和空间上的相关性分离开来,提高了特征表达能力。相比于Inceptionv3,可以在不增加网络复杂度的情况下提升精度。

图3 深度可分离卷积Fig.3 Depth separable convolution

1.2.2 本文网络模型

本文选择文献[13]中Xception作为本文的特征提取网络,对RGB通道中的特征进行学习。在预处理方面使用遮挡式和光学变换这两大类方法,目的是对输入数据进行相应的预处理。之后将Xception网络的全连接层修改为[2 048,1],使用Sigmoid进行判别输出,网络结构图如图4所示。

图4 本文的网络结构Fig.4 Framework of model proposed by this paper

1.2.3 损失函数

本文使用的损失函数为BCEWithLogitsLoss,损失函数公式如下:

其中,x为模型的输出值,y代表样本的真实标签,真实人脸为1,伪造人脸为0。p代表预测为真实人脸的概率,反之,1-p表示预测为伪造人脸的概率。Sigmoid函数使真假类别概率分布在(0.1)区间,即大于0.5预测为假,反之预测为真。

2 实验分析与结果

2.1 实验数据

为了有效地验证本文提出的方法,本文采用Face-Forensics++[13]数据集,该数据集中包括人脸替换和表情操控两大类,共计4种篡改类型。人脸替换有Deepfakes、FaceSwap,表情操控有Face2Face、NeuralTextures。其中Deepfakes和NeuralTextures是基于深度学习方法,FaceSwap和Face2Face是基于计算机图形方法。每种数据集包括Raw(C0)、HQ(C23)、LQ(C40)三种压缩方式。由于高压缩率会丢失相应的篡改特征,导致模型准确率下降,而在C0、C23上检测的准确率高达98%+,所以本文为提高模型在抗压缩方面的能力,本文选取C40作为本文的实验数据。

由于官方给定的划分格式严格规定了视频之间的生成关系,这样可使实验结果更具有一定的可比性。所以本文按照划分格式对FaceForensics++数据集中的视频进行划分,每一种类型的伪造视频划分为Manipulated和Origianl两组,每组又划分为训练集、验证集和测试集。之后使用MTCNN(Multi-Task Convolutional Neural Network)对人脸进行检测获取人脸框,并向外扩张0.3倍保存。共制作50 000个实验样本作为实验数据集,数据集如表1所示。

表1 数据集的描述Table 1 Description of training set and testing set

2.2 实验环境配置

本文实验平台为linux,GPU为4块TITAN X(Pascal)显卡。深度学习框架为Pytorch1.2。为提高检测性能,所用算法均使用ImageNet预训练模型,不使用其他数据增强策略,图片大小统一设置为299×299。学习率调整策略为Adam,超参数设置为:lr=0.000 2,Weight-Decay(权重衰减)=0.001,Batchsize=40,epoch=10。为保证实验结果的稳定性,在训练和测试过程中设置相同随机种子。

2.3 评价指标

本文将深度伪造检测视为一个二分类问题,使用ACC作为评价指标公式如下。其中Sigmoid输出区间为[0,1],图片判断阈值设置为0.5,小于0.5则认为是真视频。

2.4 实验结果分析

2.4.1 探究各类遮挡式方法的参数设置

后处理操作会破坏伪造视频中存在的高频GAN指纹信息,导致模型漏检、错检情况的发生。本文将遮挡式数据增强方法作为预处理模块,放置于Xception网络之前,目的是让网络输入多种类型的人脸数据,这样可以避免网络学习到某一局部特征,使其关注到更多具有判别信息的特征。由于GridMask、Cutout、HaS和RandomErasing设置不同的参数,会产生不同的效果,为了选取一组合适的参数设置,本文对其关键参数进行对比实验(主要是遮挡面积的大小),其余参数尽可能选用其在原文中的参数,不同参数设置的遮挡效果如图5所示,由于RandomErasing是随机生成遮挡大小,故使用原文参数(sl=0.02,sh=0.4,擦除大小的上下阈值)。实验在FaceForensics++中的五种C40压缩率的篡改数据集上进行,遮挡概率为p=0.5,实验结果如表2所示。

图5 不同遮挡参数设置的结果Fig.5 Results of different parameter settings

表2 各类遮挡式方法的参数设置的结果Table 2 Result of parameter setting of various occlusion methods

从实验结果中可以看出,遮挡式数据增广策略在不同参数条件下,检测效果不同。由于其超参数为遮挡面积的大小,遮挡面积过大容易遮挡住伪造人脸,过小不能使网络关注到更多具有判别信息的特征。本文还与基准模型(Baseline,XceptionNet)进行了对比实验,实验结果如表3所示,结果表明经过遮挡式数据增强在RGB上学习到相应的伪造特征明显优于基线网络所提取的特征,其中RandomErasing方法的增强效果最佳,从中可以看出,遮挡式增强在深度伪造检测领域同样有效果,该增强可以有效地提升网络的检测能力。

表3 各类遮挡式方法的结果对比Table 3 Comparison of results of various occlusion methods

2.4.2 基于光学变换的数据增强方法

基于光学变换的数据增强方法是计算机视觉中常用的训练方法。有效的数据增强方法可以使模型学习到更多鲁棒的特征。为此本文选取了10种常见的光学变换数据增强方法,进行了实验,实验结果如表4所示。从实验结果中可以看出只有RandomBrightnessContrast这一光学变换方法有提升,提升约0.07个百分点。它主要是用于调整图像的对比度和亮度,如图6所示,该方法抑制了某些伪造图片中的底层取证特征,迫使模型学习到更加鲁棒伪造线索。这在相关比赛中也有所体现,如针对黑人脸部的伪造图片错检的情况会经常发生。

表4 基于光学变换方法的实验结果对比Table 4 Comparison of experimental results based on optical conversion methods

图6 RandomBrightnessContrast处理的结果Fig.6 RandomBrightnessContrast processing result

通过表4可以得知,单一的光学变换方法对于深度伪造检测模型的性能提升有限,为了探究多种数据增强方法的组合对检测模型性能带来的影响。因此本文根据上述中的实验结果,选择部分方法进行组合实验,主要为RandomBrightnessContrast(BanBC)、HueSaturation-Value(HueSV)、IAASharpen(IAAS)、GaussNoise(GNoise)、GaussianBlur(GBlur)等常见的后处理方法。实验结果如表5所示,从实验结果中可以看出RanBC&Chan&IAAS提升效果较好,相比于baseline模型提升约0.21个百分点。结合表4与表5的结果,发现单一的光学变换数据增强方法对深度伪造检测模型带来的影响不明显,有的方法甚至会带来性能的下降。推测其原因是单一的光学变换数据方法带来的样本多样性较小,网络仍然会集中地关注到单一的伪造特征,缺少了数据的多样性。而多种增强方法的组合,增加了数据的多样性,使网络能更多地学习到具有判别信息的特征。

表5 不同光学变换的融合实验Table 5 Fusion experiment of different optical transformations

2.4.3 模型的鲁棒性的研究

近年来深度伪造检测算法发展迅速,但其主要方法仍然是通过数据驱动,去拟合卷积神经网络模型。由于伪造图像在经过压缩、模糊等后处理等操作时,会造成部分伪造特征消除,这不仅会导致肉眼无法分辨真伪的结果,对于检测模型来说,也容易造成漏检、错检等情况的发生。为了验证模型的鲁棒性,本文选用高斯模糊、高斯噪声、亮度和对比度变换进行了模拟实验,预训练模型使用的表3和表4中效果最好的模型,实验结果如表6所示。

表6 验证集在后处理操作中的表现Table 6 Performance of validation set in post-processing operations

从实验结果中可以看出,尽管遮挡式数据增强可以加强对某些细节特征的提取,但在面对模糊和噪声后处理操作时,检测精度有不同程度的下降,同样基线模型(baseline)也有相同的情况。这样说明噪声对于伪造线索破坏较大。值得注意的是,当数据增强方法和数据后处理操作一致时,相比基线模型,经过这种数据增强的方法会获得很好的检测性能提升。在面对多种后处理操作的情况时,使用多种数据增强组合方法尽管性能表现较好。面对当前的互联网环境中可能会存在多种的后处理情况,所以在训练检测模型时使用较多的数据增强方法增强模型的鲁棒性,可以很好地应对后处理操作。

2.4.4 模型的泛化性分析

由于数据增强提升了模型在后处理数据上的表现,但是否提升了模型的泛化性能力,仍需验证。因此本文使用本领域的常用的泛化性分析方法对模型的泛化性能力进行了研究,即在Face2Face数据集上训练模型,在其他数据集上进行验证。实验结果如表7所示。从结果中可以看出,本文所使用的数据增强方法,对于模型在泛化性能的提升并未起到明显的作用。也从侧面说明了篡改数据类型的多样性对于训练检测模型的重要性。

表7 模型的泛化性实验对比Table 7 Experimental comparison of model generalization

3 可视化分析

为进一步探究检测模型在进行分类决策时,重点关注于哪些区域,本文使用类激活热力图(Gradient-weighted Class Activation Mapping,Grad-CAM)[21]对本文数据集进行可视化分析。Grad-CAM可以对伪造检测模型提供一定的解释性。通过目标的梯度信息,来说明检测模型对于哪些位置信息比较敏感。具体原理如下,通过定义第m个特征图对于类别b的权重为abm,其计算方式如下:

其中,Z表示第m个特征图中的像素的数量,yb表示类别b的决策分数,表示第m个特征图中像素点(i,j)敏感程度。在得到相应的权重后,送入到ReLU激活函数处理,最终得到类激活图公式如下:

本文选取了部分图片使用Grad-CAM进行可视化,其中包括伪造样本、真实样本以及错检的样本。其效果如图7所示,从结果中可以看出经过数据增强训练的检测模型其激活的区域明显大于Baseline模型。对于错检的图片,Baseline模型的决策分数为0.48左右,而Augmentation决策分数为0.99。这在热力图中可以得到解释,Augmentation的激活区域较大并且更为准确,这有利于模型最后的决策。通过Grad-CAM可视化分析在一定程度上说明遮挡式数据增强方法可以使检测模型的激活面积增大,提升伪造特征的泛化性能力,证明了其对于伪造模型训练的有效性。

图7 Grad-CAM可视化效果Fig.7 Grad-CAM heatmaps

4 结语

本文主要探究了遮挡式增强方法以及基于光学变换的增强方法对于深度伪造检测模型的影响,对其鲁棒性和泛化性进行了测试,并使用Grad-CAM进行可视化对数据增强所起的作用进行可解释分析。实验结果表明,遮挡式方法均有一定效果的提升,其中RandomErasing相比其他遮挡式方法效果较好。在基于光学变换的数据增强方法中,对比度和亮度变换对于模型的检测精度有一定提升。相比于增加网络模型结构等操作,数据增强方法简单有效,在训练检测模型时使用多种类的数据增强方法可以获得很好的鲁棒性能,但不能提升模型泛化性。由于后处理操作会使伪造视频丢失很多关键的特征,所以在后续工作中,将进一步对深度伪造视频的鲁棒性特征进行研究,以此来提升模型的鲁棒性。

猜你喜欢
后处理深度特征
果树防冻措施及冻后处理
深度理解一元一次方程
如何表达“特征”
不忠诚的四个特征
深度观察
深度观察
乏燃料后处理的大厂梦
深度观察
抓住特征巧观察
乏燃料后处理困局