基于坐标注意力机制的人脸图像超分辨率重建算法

2022-10-11 07:37杨晓雅邓淼磊高辉张德贤
电子设计工程 2022年19期
关键词:人脸注意力身份

杨晓雅,邓淼磊,高辉,张德贤

(河南工业大学信息科学与工程学院,河南郑州 450001)

单图像超分辨率(Super Resolution,SR)重建是计算机视觉领域的一个重要研究方向[1-2],人脸细节的恢复技术在医学影像、交通监视、刑侦追踪等领域有着重要的研究意义。在现实监控场景下,视频收集设备、自然天气条件、非限制人为活动等因素的存在,导致获取的图像分辨率低、模糊甚至失真[3]。其可能会导致工作人员对图像信息的误判,从而造成不可估量的损失。因此,人脸图像SR 重建任务势在必行。

GAN 网络以其无监督学习的方式被广泛应用[4],为人脸图像SR 重建提供无限的可能性。图像分辨率由低到高转变时,通常会丢失有效的信息,而人脸识别中大量的先验信息可以协助人脸图像SR重建。基于人脸身份信息的人脸图像SR 重建网络(ID Preserving Face Super Resolution Generative Adversarial Networks,IP-FSRGAN)[5]利用不同身份的人脸信息,实现人脸图像SR 重建。该文提出了一种坐标注意力机制[6(]Coordinate Attention,CA)与IPFSRGAN 结合的模型,并在残差密集块(Residual Dense Block,RDB)中嵌入CA。表达目标信息时,两个方向的特征相互弥补实现特征增强,在LFW 数据集上验证了该方法的有效性。

1 相关工作

1.1 IP-FSRGAN模型

SRGAN[7]中提供了一种有潜力的增强图像表达方式,以4 倍放大因子得到逼真的自然图像。为获得更优的视觉质量,用RDB[8]作为网络构建单元且不进行批量归一化;引入感受野块(Receptive Field Block,RFB)[9]以平衡计算量和大感受野的问题,同时抽取到更细腻的特征;权重平均方法有效提升了抗噪能力和鲁棒性。然而这些GANS 应用在人脸图像SR 重建中,轻微的扭曲通常会被放大为畸形的人脸甚至生成非人脸图像。在加入人脸的先验信息后,大幅降低了畸形人脸的出现概率[10]。同时,加入人脸ID 信息保存模块协助生成器在重建过程中能够保存面部的身份信息,IP-FSRGAN 在LFW 等数据集上取得了较高精度的人脸验证模型。

1.2 坐标注意力机制

目前的注意力机制正朝着信息级、轻量级发展[11]。(Squeeze-and-Excitation attention,SE)[12]通过2D 全局池化来计算通道注意力,在相当低的计算成本下提供了显著的性能提升;(Convolutional Block Attention Module,CBAM)[13]通过减少通道数和使用大尺寸卷积利用位置信息来实现注意力集中。在人脸SR 图像重建中,人脸部的眼睛、鼻子、嘴巴的位置信息对人脸的复原较为重要。CA 将通道注意力分解为两个并行的一维特征编码过程,有效地将空间坐标信息整合到生成的注意图中。其既能捕获通道之间的依赖,也可以较好地建立位置信息和长程依赖,实验表明,CA 在Celeb-A、LFW 等数据集上提升明显。

2 网络模型

2.1 网络结构

该文的IP-FSRGAN-CA 模型如图1 所示,其包括超分辨率模块和人脸身份信息保存模块。超分辨率模块是一个GAN 网络,用以重建SR 人脸图像;人脸身份信息保存模块协助生成器生成与身份信息相同的SR 人脸。

图1 IP-FSRGAN-CA模型

其中,G(·) 表示SR 重建模块的映射函数,D(·)表示相对性判别网络模块的映射函数,F(·) 表示人脸特征提取函数,Bres表示不同像素间的相似性度量,Bid表示不同身份间的像素性度量。

2.2 超分辨率模块

超分辨率模块是一个GAN 网络,其包括生成器G 和判别器D。G 将输入的LR 图像进行一个G 映射得到人脸SR 重建图像,表示为G:X→Y;D 将G 生成的SR 图像与HR 图像作相似性度量,得到当前SR 图像是否比较真实的结果。

生成器模型如图2 所示,RRDB 模块集包括23个RRDB 模块,RRDB 模块包括3 个RDB 子模块,每个RDB 子模块中嵌入一个CA 模块。23 层的残差模块使得该超分辨率模块获取更广的感受视野,CA 模块能更优地捕捉高频图像信息。该判别网络使用相对性判别器RaD,其结果并非是预测生成SR 图像的真假,而是试图找出该SR 图像是否真实。

图2 生成器模型

2.3 人脸身份信息保存模块

如图3 所示,该文采用余弦距离判断样本之间的距离,提取样本的身份特征,最小化正样本之间的距离,从而达到相似性最大[14];最大化负样本之间的距离,达到相似性最小。该判定的前提是人脸图像SR 重建前后的图像具有身份一致性。

图3 人脸身份信息保存模块

2.4 坐标注意力(CA)

在CA 中,将通道注意力分解为两个并行的一维特征编码,利用这两个一维全局池化分别将垂直和水平方向的输入特征融合为两个独立的方向感知特征图。两个嵌入特定方向信息的特征图分别被编码为两个注意力图,每个注意力图均捕获了输入特征图沿着一个空间方向的长程依赖。位置信息被保存在生成的注意力图内,两个注意力图接着被乘到输入特征图上来增强特征图的表示能力。CA 模块包括坐标信息嵌入模块和坐标注意力生成模块,坐标注意力模块如图4 所示。

图4 坐标注意力模块

坐标信息嵌入模块如Ⅰ操作,先将全局池化分解为两个一维特征编码。对于输入X,用核大小为(H,1)与(1,W)的池化层沿着水平和竖直坐标方向对每个通道进行编码。

坐标注意力生成模块首先级联坐标嵌入模块生成的两个特征图,使用一个共享的1×1 卷积对F1进行变换。

变换得到的f∈RC/r×(H+W)是空间信息在水平方向与竖直方向的中间特征图,沿着空间维度将f分割为两个单独的张量f h∈RC/r×H和f w∈RC/r×W。利用两个1×1 卷积Fh、Fw将特征图f h和f w变换到与输入X同样的通道数,然后对gh和gw进行拓展,作为注意力权重。

SRGAN 模型在卷积层后加BN 层,防止数据饱和[15],从而使数据对激活函数不敏感,但网络深度加深。BN 层不仅会产生较大的计算开销和内存占用,且会对生成的人脸SR 图像产生伪影[16]。在ESRGAN中去除BN 层,在RB 上增加更多的残差网络和密集连接,采用叠加的残差块与长跳跃构建深度神经网络。该文在RRDB 模块中增加CA,其提取人脸图像的浅层特征后,扩大注意力的关注区域,构成文中使用的(Residual and Coordinate Attention in Residual Dense Block,RRDBCA)模 块。RRDBCA 由3 个RDBCA 模块组成,其模型的结构如图5 所示。

图5 RRDBCA模块

3 损失函数

x表示从底层空间X提取的人脸LR 图像,y表示从底层空间Y提取的人脸HR 图像,训练集d={(x1,y1),…,(xm,ym)}来自于联合空间X×Y。人脸SR 图像重建的目的是找到一个L函数使得映射函数h(x)和目标图像y的距离最小化。

该文的损失函数包括4 个部分:对抗损失函数Ladv、身份保存损失函数LID、感知损失函数Lp以及像素损失函数L1。

λ、γ、η、ξ分别控制每个损失对最终损失函数的贡献程度。

生成器G和判别器D的损失函数公式表达如下:

在人脸身份信息保存网络中,人脸SR 重建图像G(x)与参考人脸图像的ID 特征之间的余弦相似性为cos(F(G(x)),F(y)),Ii,j表示身份函数,若人脸yi和yj属于同一个身份,则Ii,j=1;否则,Ii,j=0。

用φj表示j到第四层的卷积层,在伪SR 人脸G(x)和HR 人脸y间的感知损失表示为:

Cj、Hj、Wj表示在VGG 网络第j层卷积层的人脸图像特征图形状。重建损失被用来迫使生成的SR图像接近真实的HR 图像。

4 实验及分析

4.1 实验环境及数据集

实验中使用RRDBCA 网络作为生成器G,使用VGG 网络作为鉴别器D,使用预训练的LightCNN 作为人脸身份信息保存模块。实验参数方面,初始学习率为2×10-4,每经历2×105次迭代学习率衰退为70%,初始的λ、γ、η、ξ分别为0.005、10、0.01、1。使用自适应矩估计Adam 优化器训练模型,参数为β1=0.9,β2=0.999。

4.2 实验结果分析

如图6 所示,在放大倍数为4 时,该文方法的loss收敛效果更优,且重建性能更佳。

将文中方法与SRGAN、ESRGAN、IP-FSRGAN进行对比,同时受EDSR 残差模块的启发,对CA 的配置进行调整(a 方法):将RB 子模块加入5 个CA 模块前的输入与最后一个CA 模块的输出短连接,作为RB 子模块的输出。

图7 展示了该文方法在测试集LFW 上生成的部分SR 图像与其他方法重建人脸图像的细节对比。图7(a)中,文中方法重建的人脸SR 图像脸部的纹理和线条信息得到了较好的恢复,增大了不同人脸部位的亮度对比。例如图7(a)的第二行人脸,该文方法得到的人脸脸颊颧骨部分及额头部分的亮度较其他图像中有明显的提升,丰富了人脸SR 图像的立体感;在图7(b)中,照片从视觉上拉大了背景与人物之间的对比度,使人物部分更加突出。由此可见,文中方法的人脸图像SR 重建的性能最优。

图7 各模型实验结果对照图

该文方法与SRGAN、ESRGAN、IP-FSRGAN、a方法四种方法的PSNR 值与SSIM 值的比较如表1 所示。由表可知,添加5 个CA 模块,人脸SR 图像被严重破坏,重复添加CA 模块不能使重建性能获得提升;添加短连接时,PSNR 下降了1.5 dB,SSIM 提升了0.02;文中方法的PSNR 和SSIM 与IP-FSRGAN 比较均有提升,相对于其他方法提升显著。从表2中可以看出,在坐标注意力下,Y 通道上的PSNR 提升0.748 dB,SSIM 提升0.04。Y 通道上的特征表示能力被用到了后续的人脸信息恢复中,模型的重建性能得到明显提升。该文方法在IP-FSRGAN 上添加CA 模块,提取人脸特征时更多的关注并充分利用通道中的人脸细节特征。在人脸SR 图像重建时能恢复更多有用的人脸信息,验证了文中方法的有效性。

表1 各模型评估对照表

表2 各模型Y通道评估对照表

5 结束语

该文提出一种融合坐标注意力机制的单图像人脸SR 重建模型,该方法融合了轻量级的坐标注意力机制。在IP-FSRGAN 的核心模块RRDB 模型中加入CA 模块,采用随机LFW 数据集测试模型性能。在放大倍数为4 时,该方法与IP-FSRGAN 相比,PSNR 提升0.14%,SSIM 提升0.59%,Y 通道PSNR 提升2.43%,SSIM 提升0.38%。实验结果证明,文中提出的IP-FSRGAN-CA 模型在人脸超分辨图像重建上具有有效性。

猜你喜欢
人脸注意力身份
让注意力“飞”回来
玻璃窗上的人脸
智力考场:有趣的图片测试
跟踪导练(三)(5)
妈妈的N种身份
身份案(下)
A Beautiful Way Of Looking At Things
“领家系”可爱脸VS“高冷系”美人脸
长得象人脸的十种动物
放松一下 隐瞒身份