基于ShuffleNet的人脸图像质量评估方法

2021-06-16 09:35李荔瞿洪桂孙家乐

电子技术与软件工程 2021年7期

李荔瞿洪桂孙家乐

（1.国家信息中心软件评测中心北京市 100000 2.北京中电兴发科技有限公司北京市 100095）

人脸识别是公共安全物联网应用最为广泛的场景之一，识别效果的好坏取决于待识别人脸图像质量的高低。即，低质量的人脸图像会大大降低人脸识别的准确率。在连续视频帧中，人脸图像的质量会随着光照、姿态、表情、运动等因素变化。如何使得图像传感器能够正确评判连续视频帧中人脸图像质量的高低，成为很多学者研究的内容。针对姿态和非对称光照对人脸的干扰，邹[1]提出基于子区域直方图距离的人脸对称度评价，进而评估人脸质量的方法。黄[2]提出基于CNN 的人脸图像亮度和清晰度的质量评价方法，利用人脸识别匹配器的相似性分数与人类视觉系统清晰度等级分类方法，结合传统亮度分级方法,将人脸图像分成9 类并建立相应的数据标签，基于数据标签和数据集训练CNN 模型用于人脸质量评估。在众多的研究中也有学者探索利用迁移学习基于轻型网络去实现人脸图像质量评估，如基于MobileNet 网络进行迁移学习实现图像质量分类评估[3]。物联网信息系统中，数据采集过程中对图像数据进行过滤，可大大减少网络传输压力，节省存储资源。故而，在视频采集器中实现可靠的人脸图像质量评价尤为重要。本文致力于利用轻量型网络ShuffleNet 实现人脸质量评价在视频采集器中的应用。

1 常用的人脸图像质量评估方法

由于光照强度、光照方向、目标距离、焦距、采样率、曝光时间和增益、暗漏电流、分辨率等因素的影响，摄像机采集的图片质量或高或低。此外，作为一般图像的特例，人脸图像质量还会受头部姿态、面部表情、遮挡、妆容、饰物等因素的影响。

图像质量评估（Image Quality Assessment, IQA）可分为主观评估和客观评估两种方法。主观评估就是从人的主观感知来评价图像的质量，首先给出原始参考图像和失真图像，让标注者给失真图像评分，一般采用平均主观得分（Mean Opinion Score, MOS）或平均主观得分差异（Differential Mean Opinion Score, DMOS）表示。主观评估费时费力，且评分受观看距离、显示设备、照明条件、观测者的视觉能力、情绪等诸多因素影响，可操作性差。客观评估使用数学模型给出量化值，操作简单，已经成为IQA 研究的重点。

图1：ShuffleNet 网络结构的基本单元

图2：样本标注流程图

图3：fa 子集图像置信度

图4：数据集中不同光照，姿态的人脸图像标注结果样例

图5：数据增强后标注结果样例

人脸图像质量评估作为图像质量评估的一个分支，既要考虑传统图像质量评估中关注的因素，又要考虑人脸特有的因素。2009年，国际标准化组织制定了关于人脸图像质量的ISO/IEC 标准,对多种参数做出了规定[4]。基于该标准，出现了很多质量评估方法。有基于多因素的人脸图像质量评估方法[5]，该类方法对人脸图像大小、位置、角度、对比度、明亮度、清晰度等分别进行评价，再对每个评价结果选择合适的权重，进而得到整体质量得分。该类方法中，如何确定每个评价结果的权重是一个难题。不同方法中选择的评价因素也不同[6]，各种影响因素很难全面考虑到。有学者提出基于全局特征人脸特征聚类对人脸质量进行标注，并使用深度学习网络对人脸图像质量进行回归的方法[7]，也有学者提出基于特征聚类的分类方法[8]。这类方法考虑人脸图像的全局质量，能兼顾不同因素对人脸图片质量的影响。在评估测度上，除上述的分类输出、回归输出，还有基于秩的评估方法[9]。

2 基于ShuffleNet的人脸图像质量评估方法

在基于深度学习的人脸质量评估算法中，不同的网络结构被提出以应用于人脸质量评估[10]。但是大多网络结构复杂，性能有限。自ShuffleNet 提出以来，基于ShuffleNet 的网络结构被广泛的应用于人脸识别系统中[11-12]。

2.1 基于ShuffleNet的网络结构

ShuffleNet 是旷视科技最近提出的一种计算高效的CNN 模型，ShuffleNet 的核心是采用了两种操作：pointwise group convolution和channel shuffle，这两种操作在保持精度的同时大大降低了模型的计算量。目前最优的网络结构是ShuffleNetV2。本文基于ShuffleNetV2 实现人脸图像质量分数的回归。

ShuffleNetV2 网络的基本结构是基于残差网络的残差结构。如图1 所示。

网络采用3 个基本单元构成网络结构主体，两个全连接层FC1 输出维度为200，FC2 输出1 维质量分数，loss 层选用EuclideanLoss 对人脸图像质量分数进行回归。

2.2 样本质量分数标注

基于人工进行人脸图像质量标注, 不仅工作量巨大，还易受主观因素影响。标注结果与人的视觉感受一致，但未必符合人脸识别系统的需要。本文使用基于人脸识别算法的样本标注方法，为人脸识别算法量身定做质量评估方法。人脸检测目标分类置信度体现了目标分类的正确概率，也是衡量人脸图像质量的一个参考指标。本文采人脸检测置信度对人脸图像质量分数进行微调。首先选定一张人脸位置合适，光照合适，正脸，无遮挡等质量优的图片作为基准图像，图片质量分数标注为1，其他人脸图像通过人脸识别算法提取特征，计算图像特征与基准图像特征的余弦相似度作为图像质量分数，再利用人脸检测置信度对最终质量分数进行微调。

图6：模型在监控场景中的应用效果

余弦相似度通过计算两个向量的夹角的余弦值来度量它们之间的相似性。向量A，B 的余弦相似度similarity 的计算公式为：

similarity 取值为-1 到1：-1 意味着两个向量指向的方向正好截然相反，1 表示它们的指向是完全相同的，0 通常表示它们之间是独立的，而在这之间的值则表示中间的相似性或相异性。

其中confidence 是人脸目标检测的置信度。

样本质量分数标注流程如图2 所示。

3 实验与分析

3.1 训练样本标注

本文使用Color FERET 和CAS_PEAL_R1 数据集进行实验。Color FERET 数据集是由美国Feret 项目组收集的人脸数据库，包含994 个类别共11338 张图像，其中每个类别中的fa 子集是统一光照的正脸图像，fb 子集是与fa 表情不同的统一光照正脸图像，其它为包含15，22.5，45，67.5 头部姿态水平旋转的人脸图像。CAS_PEAL_R1 是由中科院技术研究所收集的人脸数据库，包含姿态变化，饰物变化，光照变化，背景变化，距离变化，时间跨度变化等7 种变化模式子库。

表1：模型在数据集合上的表现

表2：测试集上模型标注结果和推理结果对比

基准图片的选择是训练样本标注的关键，Color FERET 数据集中fa 为正常表情，正常光照的人脸图像，但部分目标fa 子集包含多张图片，为了更好的选择基准图片，我们对每张人脸图像进行人脸检测得到人脸目标置信度，选择fa 子集中人脸目标置信度最高的图像作为该目标的基准图像。如图3 所示。

本文所述实验使用了基于Resnet 网络的SSH 人脸检测算法和基于Mobilefacenet 网络的Arcface 深度特征提取算法。标注结果样例如图4 所示。

3.2 数据增强

人脸图像质量受多种因素的影响，但实验所用数据集包含的情况远远不足，需要对样本进行扩充，以增加样本的多样性。扩充方式包括：

（1）人脸检测框水平和垂直方向偏移±2、±4、±8；

（2）图像左右旋转±10°、±20°、±30°；

（3）角度为45°的运动模糊；

（4）高斯模糊；

（5）人脸完整程度0.7、0.9、1.1 的裁剪。

在样本扩充中考虑到实际的监控场景中，运动模糊是常见的一种影响因素[13]，样本中的图像尽可能的贴近实际场景中可能出现的情况，能提高模型在实际应用中的效果。如图5 所示。

3.3 模型训练

将数据集分为训练、验证、测试三个数据集，图像归一化到112*112 与模型的输入一致。选用ShufflenetV2_0.5x，初始学习率设置为0.01，学习率更新策略为poly，power 设置为0.9，momentum 设置为0.9，迭代了30000 次，大约3 个epoch，模型达到收敛。

3.4 结果展示及评价

训练好的模型在划分的测试集上进行评测，评测指标选用LCC (线性相关系数)和MSE（均方误差），既评测标注质量分数与预测质量分数两者的相关性又度量两者的绝对差异。如表1 所示。

表2 列举了测试集部分样本标注质量分数和预测质量分数的差异，通过对比可以看到两者差异较小，模型很好的实现了质量分数的回归。

模型在实际监控场景中的效果图如图6 所示。

4 结论

本文提出了一种基于轻量级网络ShuffleNet 人脸图像质量评估方法。主要有两点：

（1）基于ShuffleNetV2 网络结构实现质量分数回归网络，对标准的ShuffleNetV2 网络进行了剪裁，并使用ShufflenetV2_0.5x，减少了网络推理阶段的资源消耗，使网络能够部署在智能前端采集设备中，数据在前端被过滤，节省了物联网平台的网络和存储资源;

（2）提出了一种基于人脸目标检测置信度与人脸特征提取算法相结合的人脸图像质量样本标注方法，减少了因人工标注样本带来的巨大工作量，提高了标注精度，这种标注方法兼顾不同因素对人脸图像的影响，评价结果更全面，更贴合人脸识别系统最终的需求。

实验证明，本文方法能够针对不同因素引起的图像质量变化给予准确的评估，筛选出高质量的人脸图像。