深度伪造人脸检测技术发展综述

2023-11-05 15:39李敏

电视技术 2023年9期

李敏

（国家知识产权局专利局专利审查协作北京中心，北京 100160）

0 引言

人脸深度伪造技术，是指通过自动编码器、生成式对抗网络等机器学习模型将包含人脸的图片或视频合并、叠加到源图片或视频上，借助神经网络技术进行大样本学习，将个人的声音、面部表情及身体动作拼接到源图片或视频中，合成虚假内容的人工智能（Artificial Intelligence，AI）技术[1]。相较于传统的人脸合成技术，人脸深度伪造技术可实现人脸更高真实度的生成与替换。人脸深度伪造技术一经上线即取得了广泛应用。采用该技术的应用软件“ZAO”和“去演”一度风靡一时。人们纷纷通过这些软件将自己的面部替换为影视剧中演员的人脸，从而生成以用户人脸为主角的影视剧视频。快手、抖音等知名短视频/直播软件也基于该技术提供了一键AI 换脸等的相关功能。

然而，由于神经网络算法的开源性，人脸深度伪造技术被一些不法分子用来实施违法犯罪活动。该技术还被用来将明星或个人的人脸合成在成人电影中，以谋取巨大利益，或通过生成包括他人人脸的虚假视频取得身份认证从而盗取账号、财产等。这些技术滥用的情况给个人隐私、社会治安甚至国家安全带来了巨大的挑战[2]。因此，对视频中深度伪造的人脸进行检测和鉴别，现已成为世界各国政府、企业乃至个人所关注的热点问题之一。

近年来，随着人脸深度伪造技术的广泛应用，对视频中深度伪造人脸的检测技术取得了快速的发展。作为科研成果的风向标，专利文献常常能够体现出相关技术领域中技术发展的方向和脉络。基于此，本文围绕近年来涉及视频中深度伪造人脸检测技术的专利文献，分析该技术在我国的最新研究进展和发展方向，以对我国视频中深度伪造人脸检测技术的研发、专利申请及专利分析等提供依据。

1 专利申请趋势分析

本文在中国专利全文数据库（CNTXT）中对涉及视频中深度伪造人脸检测技术的专利文献进行检索，基于检索结果对该领域专利的申请趋势进行了简要分析。涉及视频中深度伪造人脸检测技术的专利申请量年度趋势如图1 所示。从图1 可以看出，视频中深度伪造人脸检测技术相关专利申请从2019 年开始逐渐起步，在2022 年达到顶峰，2023年因可能涉及部分尚未被公开的专利申请无法被统计而有所降低。截至检索日2023 年7 月31 日，2019—2023 年间在中国申请并公开的与视频中深度伪造人脸检测相关的发明专利申请共有196 件。下面的分析将围绕这些专利文献展开。

图1 视频中深度伪造人脸检测技术专利申请趋势图

2 技术发展方向

通过对2019—2023 年与视频中深度伪造人脸检测技术相关的中国专利申请文献进行分析，可以根据样本类型的不同以及信息提取方式的不同，将视频中深度伪造人脸检测技术的发展分为以下几个方向。

2.1 有伪造样本学习方法

在视频中深度伪造人脸检测方法中，要想训练得到有效的深度伪造人脸检测模型，需要对大量样本进行学习。而所学习的样本中需要包括伪造人脸样本的方法，即为有伪造样本学习方法[3]。其利用真假成对数据作为训练数据样本，通过神经网络挖掘的形式分别提取真人脸和假人脸的可区分特征，从而训练分类器进行识别。根据信息提取角度的不同，有伪造样本学习方法又可细分为基于空域信息、基于时域信息、基于频域信息、基于注意力机制以及跨模态检测方法。

2.1.1 基于空域信息的方法

基于空域信息的视频中人脸深度伪造检测方法可直接从视频帧图像的空域提取特征信息，对图像帧中存在的浅层或深层的视觉伪影进行检测[4]。例如，CN114926885A 公开了一种基于局部异常的强泛化深度伪造人脸检测方法，首先对训练数据集中的真假人脸视频进行帧分解，检测出人脸位置后，剪裁得到连续的人脸图像训练集，将其输入自适应空域富模型进行训练。通过可学习的高通滤波器，帮助挖掘细微的噪声特征，得到训练好的局部异常检测网络。将待检测数据集中的人脸图像输入训练好的局部异常检测网络，进行最终人脸真假分类。该方法通过在空域中进行二阶局部异常学习，从人脸图像的深度特征图中挖掘局部区域的异常，实现对真伪人脸的有效检测。

2.1.2 基于时域信息的方法

基于时域信息的视频中人脸深度伪造检测方法不再止步于仅关注单帧内的伪影信息，能够通过对视频帧之间存在的伪造信息的检测从而识别深度伪造痕迹。例如，CN112488013A 公开了一种基于时序不一致性的深度伪造视频检测方法。该方法先获取视频数据集，对数据进行预处理，获得视频帧的人脸图像，再将视频帧输入微调的网络Xception+卷积模块的注意力机制模块网络进行训练，用于提取视频帧级特征。再用训练好的Xception 网络进行视频连续帧的特征提取，并输入双向长短期记忆网络+条件随机场网络模型中进行训练。最后，使用训练好的模型对待测试的视频进行伪造检测。该方法利用伪造技术造成视频在帧间的时序不一致性，结合双向长短期记忆网络和条件随机场算法，提升了对深度伪造视频的检测效果。

2.1.3 基于频域信息的方法

基于频域信息的视频中人脸深度伪造检测方法能够解决视频被多次压缩后伪影细小、冗余特征众多而难以有效检测伪影的问题，可以很好地挖掘出由伪造方法带来的伪影细节。例如，CN113609952A 公开了一种基于密集卷积神经网络的深度伪造视频频域检测方法，首先对视频进行预处理，对视频中的人脸进行定位和人脸图像提取；其次，利用2D-DCT 变换将特征变换至频域，构建密集卷积神经网络并基于频域数据进行训练；最后，基于训练后的密集卷积神经网络检测深度伪造视频。该方法在训练密集卷积神经网络时，以频域图像为单位对卷积神经网络检测模型进行训练，使得无论视频压缩在时域产生多少冗余特征，都不影响最终的检测效果。

2.1.4 基于注意力机制的方法

基于注意力机制的视频中人脸深度伪造检测方法能够从全局信息中关注篡改痕迹明显的区域，从而提高视频中人脸深度伪造的检测效率。例如，CN114549481A 公开了一种融合深度和宽度学习的深度伪造图像检测方法，首先将待检测图像转换为灰度图像并分割为两组图像块，提取每个图像块的中心化频域幅度谱并对其施加注意力机制，对两组图像块进行通道连接，得到初级特征；其次，利用预训练的通道卷积自编码模块的编码器对初级特征进行特征融合，得到两个中级特征，分别作为特征映射流和特征增强流的输入，得到两个映射特征和增强特征；最后，根据宽度学习系统原理构建3 个分类器，将3 个分类器的输出结果进行加权平均，得到最终的检测结果。该方法对图像块施加注意力机制，可以从全局信息中关注篡改痕迹明显的区域，模型训练所需的数据和时间少，实现了准确度和效率的兼顾。

2.1.5 跨模态检测方法

跨模态的视频中人脸深度伪造检测方法将视频和音频信息结合，对视频中的声音和唇形进行匹配，从而从跨模态的视角来对深度伪造人脸视频进行检测。例如，CN116310937A 公开了一种深度伪造视频检测方法，对待检测视频进行视频特征分析，得到待检测视频的视音频特征，并将待检测视频的视音频特征输入预设的多层感知机分类模型，最后得出检测结果。其视音频特征包括视觉特征和音频特征，且预设的多层感知机分类模型是以深度伪造视频的视音频特征和真实视频的视音频特征为样本，以与深度伪造视频的视音频特征与真实视频的视音频特征各自对应的标签训练得到。该方法通过对音频特征和视频特征的匹配，可有效在视频中检测出唇形与语音不符的深度伪造人脸。

2.2 无伪造样本学习方法

基于无伪造样本学习方法的深度伪造人脸检测方法在训练过程中不需要使用伪造人脸负样本进行训练，仅通过识别人脸的某些特定特性，或通过识别深度伪造过程中某一流程的纰漏即可进行深度伪造人脸的检测[5]。例如，CN116229539A 公开了一种基于人脸边缘带状的伪造人脸检测方法，提供一视频数据集，并将视频数据集进行间隔抽帧形成图片帧集，采用人脸识别工具对图片帧集进行人脸检测，将检测后的人脸放大后进行切割得到切割人脸图集；对切割人脸图集进行处理，仅保留切割人脸图集的人脸边缘部分的带状图片；将带状图片作为训练的输入，并对其进行左右随机翻转和归一化处理；采用网络结构进行训练，提取带状图片的空间特征，将其保存为伪造人脸检测模型；将预处理后的人脸边缘带状图放入模型中检测识别，以对待检测的图片或视频的真实性进行检测。该方法通过对人脸边缘的带状部分进行检测，从而分辨图片和视频的真假，有利于提高对伪造人脸的识别准确率。

3 结语

视频中深度伪造人脸的检测技术对于目前出现的由于虚假人脸视频的生成和使用而导致的各种社会问题至关重要。深度伪造人脸检测技术近几年取得快速的发展，发展方向可分为有伪造样本学习方法和无伪造样本学习方法两类。有伪造样本学习方法可细分为基于空域信息的方法、基于时域信息的方法、基于频域信息的方法、基于注意力机制的方法以及跨模态检测方法。目前，国内的众多申请人在该领域取得了丰富的技术成果，但该技术目前仍处于快速发展阶段，且其反技术——人脸深度伪造技术依然处于不断发展过程中。因此，为了跟上人脸深度伪造技术的步伐，避免因无法有效检测伪造人脸而导致的种种问题，国内申请人需加速对该技术的研究步伐，从而为社会稳定、国家安全等提供有力的技术支持。