基于卷积神经网络的人脸图像质量评价

2019-07-31 12:14李秋珍栾朝阳汪双喜

计算机应用 2019年3期

李秋珍栾朝阳汪双喜

摘要：针对人脸识别过程中人脸图像质量较低造成的低识别率问题，提出了一种基于卷积神经网络的人脸图像质量评价模型。首先建立一个8层的卷积神经网络模型，提取人脸图像质量的深层语义信息;然后在无约束环境下收集人脸图像，并通过传统的图像处理方法以及人工筛选进行过滤，得到的数据集用以进行模型参数的训练;其次通过在图形处理器（GPU）上加速训练，得到用于拟合人脸图像到类别的映射关系;最后将输入在高质量图像类别的概率作为图像的质量得分，建立人脸图像的质量打分机制。实验结果表明，与VGG-16网络相比，所提模型准确率降低了0.21个百分点，但是参数规模减小了98%，极大地提高了模型运算效率;同时所提模型在人脸模糊、光照、姿态和遮挡方面都具有较强的判别能力。因此，可将该模型应用在实时人脸识别系统中，在不影响系统运行效率的前提下提高系统的准确性。

关键词：人脸识别;卷积神经网络;图像质量;质量评价;图像质量评价;人脸图像质量评价

中图分类号： TP391

文献标志码：A

文章编号：1001-9081（2019）03-0695-05

Abstract： Aiming at the low recognition rate caused by low quality of face images in the process of face recognition， a face image quality evaluation model based on convolutional neural network was proposed. Firstly， an 8-layer convolutional neural network model was built to extract deep semantic information of face image quality. Secondly， face images were collected in unconstrained environment， and were filtered by traditional image processing method and manual selecting， then the dataset obtained was used to train the model parameters. Thirdly， by accelerating training on GPU （Graphics Processing Unit）， the mapping relationship of fitted face images to categories was obtained. Finally， the input probability of high-quality image category was taken as the image quality score， and the face image quality scoring mechanism was established. Experimental results show that compared with VGG-16 network， the precision rate of the proposed model is reduced by 0.21 percentage points， but the scale of the parameters is reduced by 98%， which greatly improves the efficiency of the model. At the same time， the proposed model has strong discriminant ability in aspects such as face blur， illumination， posture and occlusion. Therefore， the proposed model can be applied to real-time face recognition system to improve the accuracy of the system without affecting the efficiency.

Key words： face recognition; Convolutional Neural Network （CNN）; image quality; quality evaluation; image quality evaluation; quality evaluation of face image

0 引言

近年來，伴随着计算机视觉技术的飞速发展，人脸识别已经成为工业界和学术界研究的热点。人脸识别即根据某种模式判断物体或者物体的一部分是否满足人脸结构，并依据其特征信息标识出其身份的过程，具体可分为：人脸检测、特征提取和人脸检索。人脸识别作为身份校验的一种重要方式，在安全认证方面具有极其重要的意义。传统的门禁卡、身份证等认证方式，极其不方便且容易被盗用，给人们的日常生活带来许多麻烦。而人脸识别作为一种生物认证的手段，具有安全、可靠、简单、友好等特点，备受人们的青睐;因此，人脸识别技术在机器学习、计算机视觉、模式识别等科研领域具有极其重要的研究意义[1]。

然而，随着人脸识别系统的大范围应用、场景环境的多样性以及复杂性，监控系统抓取的同一个人的人脸图像呈现的效果差别很大，比如图像模糊、光照不均匀、非正脸等因素，这些因素导致人脸图像的特征不明显或者缺失，严重影响到人脸图像识别的准确度。有研究指出，人脸识别的准确性不仅仅与识别算法的优劣有关，还与人脸图像的质量高低有关[2-3]。因此，如何过滤掉低质量人脸图像、保留高质量人脸图像是目前人脸识别领域面临的一个巨大挑战。

目前，国际上公认的人脸图像质量标准ISO/IEC 19794-5（International Organization for Standardization/International Electro technical Commission 19794-5）[4]和ICAO 9303（International Civil Aviation Organization 9303）[5]，给用于证件照中的高质量人脸图像提供了参考依据。基于这些标准，科研工作者提出了许多分析人脸图像质量的方法，可以总结为两类：一类是分析人脸图像质量是如何影响检测和识别的性能，一般通过在低质量图像的测试来分析模型的健壮性;另一类研究是通过辨别低质量的图像来克服实际场景中低质量图像带来的问题。Berrani和Garcia等[6]最早研究了人脸图像质量问题，并采用了PCA（Principal Component Analysis）算法来移除低质量的人脸图像。然而由于监控视频场景中低质量的图像占据多数，所以这种方法在监控视频场景中无法得到好的效果。目前已知的大部分人脸图像质量评价方法都是基于对人脸特殊属性的分析，这也是最直接的方案。Yang等[7]使用一种树形结构来对姿态进行估计，并把结果用来评估人脸质量。Gao等[8]利用人脸的不对称性来量化人脸的非均匀光照和姿态。Sellahewa等[9]通过计算与一张特殊的标准参考图像的差异来获得人脸图像质量分数。Wong等[10]使用了概率模型，通过训练均匀光照、中性表情的正脸图像来评估高质量的可能性，但是这种方法的效果取决于筛选的高质量人脸图像。

虽然现有的人脸图像的质量评价很多，但大多数方法都是通过分析其客观因素，比如是否对称、亮度是否均匀、是否有较高的对比度等，或是挑选一张标准图像定义为“基准脸”，计算捕获的人脸图像与“基准脸”的差异来衡量人脸图像的质量。这些方法主观性较强，在复杂的环境中适应性较差。

自从Hinton等[11]于2006年发表论文提出深度学习的概念，并在2012年采用深度学习赢得了ImageNet图像分类比赛的冠军后，深度学习即成为了学术界的研究热点之一。深度卷积神经网络（Convolutional Neural Network， CNN）在图像的分类方面表现出色，同时其提取的特征向量更具有表达性。因此本文提出了通过CNN来评估人脸图像质量的方法，以此来解决人脸识别系统中图像质量问题。

1 人脸质量评价模型

人脸图像质量评价可以被看作一个二分类问题，人脸图像被分为两类：一类是高质量人脸图像，另一类是低质量人脸图像。通过模型来将输入映射到质量标签空间中，在人脸识别时首先判断输入人脸图像的质量高低，将质量低的进行剔除，质量高的保留以进行后续处理。下面将对本文提出的人脸质量评价网络模型进行详细介绍。

1.1 网络模型结构

本文设计的人脸质量评价网络模型是由5层卷积层（Convolution）、3层降采样层（即池化层Pool）和3层全连接层（Fully Connected， FC）堆叠而成的深度CNN，其中还使用了PRelu（Parametric Rectified Linear Unit）激活层、LRN（Local Response Normalization）層和Dropout层等多种不同类型的结构，这些多种类型结构的组合共同拟合出从样本空间到标签空间的映射关系。人脸质量评价网络模型如图1所示。

从图1可以看出，除了第3个、第4个卷积层（Conv）外，其他3个卷积层后都接着降采样层（即池化层Pool）。网络的输入尺寸是112×112×3的三通道人脸图像。

第1个卷积层（Conv1）使用96个11×11×3的卷积核对输入进行卷积运算，移动步长为4个像素，因此输出的特征图尺寸为（112-11）/4+1=26个像素。由于有96个卷积核，所以最后会生成的特征图的规模为26×26×96。这些特征图先经过PRelu1激活函数操作后，再经过一个最大池化层Pool1的处理，池化核的尺寸为3×3，移动步长为2，则池化后图像的宽高分别为（26-3）/2+1=13个像素，数量为96个。

第2个卷积层（Conv2）的输入是13×13×96尺寸的特征图，并在特征图每个通道的周围各填充2个像素，再通过256个5×5×96的卷积核处理，移动步长为1，输出的特征图尺寸为（13-5+2×2）/1+1=13，有256个。输出的结果经过PRelu2激活后再经过一个最大池化层Pool2的处理，池化核的大小是3×3，移动步长是2，得到输出的特征图规模为6×6×256。

第3个卷积层（Conv3）使用3×3大小的卷积核，移动步长为1，该层同样在输入图像每通道的周围填充了一个像素，使得输出的尺寸跟输入一致。该层卷积核数量为384个，产生的输出特征图规模为6×6×384。

第4个卷积层（Conv4）的参数与第3个卷积层（Conv3）一样，输入是6×6×384的特征图，经过填充和卷积运算，得到的输出特征图规模依然为6×6×384。

第5个卷积层（Conv5）使用的卷积核尺寸仍为3×3，数量为256个，移动步长为1个像素。对输入特征图各通道的上下左右填充一个像素后，经过卷积核的卷积运算，产生了6×6×256个特征图。这些特征图经过激活层PRelu5后，输入到一个池化层Pool5。该池化层采用3×3大小的池化核，移动步长为2。最后的输出特征图为3×3×256。

第6层全连接层（FC6）的输入尺寸为3×3×256，采用3×3×256尺寸的滤波器对输入进行卷积运算，每个滤波器都会生成一个一维的运算结果。共有64个这样规模的滤波器，所以最后的输出为64维的向量，再通过PRelu6激活函数和Dropout6操作后，得到本层最后64维的输出值。该层的参数总数为3×3×256×64=147456。

第7层全连接层（FC7）的神经元与第6层的输出结果进行全连接，共有64个神经元，所以最后的输出为64个数据。该层的参数总数为64×64=4096。

第8层全连接层（FC8）共输出两个值，与第7层全连接层（FC7）的所有神经元进行全连接，输出网络最终的训练值。该层的参数总数为64×2=128。

最后的Softmax层是该网络的终点，采用Softmax损失函数来计算训练的结果与实际值之间的误差，该误差越小，表明网络的分类效果越好。通过反向传播算法不断优化网络参数，减小损失函数值，直到其收敛，即可得到最终的网络模型参数。

1.2 数据准备及训练

由于人脸质量评价没有统一明确的定义，目前学术界还没有一套公开标准的人脸图像质量评价数据集可供选择。其他许多公开的人脸数据集，比如：CASIA-WebFace（Institute of Automation， Chinese Academy of Sciences WebFace）[12]、LFW（Labeled Faces in the Wild）、FERET（Face Recognition Technology）[13]等，大多是在有约束的环境中采集的，图像质量普遍偏高，导致高质量人脸图像和低质量人脸图像的比例分布不均，对模型的训练有误导作用。

本文实验所使用的人脸数据集，是利用监控设备，在实际无约束条件下采集的。使用了FFmpeg（Fast Forward MPEG）抓取视频流数据，通过MTCNN（Multi-Task Cascaded Convolutional Network）人脸检测算法检测视频帧中人脸的位置，裁剪后将图像数据保存在本地磁盘上。总共收集有效人脸图像498459张。

对这些人脸图像，首先对人脸图像的光照、模糊度、姿态进行计算，采用的方法分别为：通过图像直方图对光照均匀度进行判别，使用PnP（Perspective-n-Point）方法对人脸姿态进行估计，采用Brenner梯度函数对人脸模糊度进行分析;然后将这三种因素的得分归一化后加权计算总得分，用总得分进行粗分类;最后人工筛选进行精细分类。这些人脸图像共分为三类，一类是高质量人脸图像数据集简称为（High Quality Face Dataset， HQFD），这类数据集中的人脸图像具有面部清晰、五官分明、呈对称分布，且光照均匀、无遮挡的特点;一类是低质量人脸图像数据集简称为（Low Quality Face Dataset， LQFD），这类数据集中的人脸图像的特点是模糊、侧脸、光照分布不均或者遮挡严重;还有一类是介于高质量和低质量图像之间，难以界定的数据集MQFD（Middle Quality Face Dataset），一般面部的轻微遮挡、表情夸张等属于这类数据集。通过清洗筛选，最终得到的人脸图像数量如表1所示。

为了使CNN提取人脸图像具有辨识度的质量特征，更好地拟合人脸图像到质量空间的映射关系，训练模型时只选取HQFD和LQFD两个数据集，其中令HQFD的样本标签为1，LQFD的样本标签为0。对HQFD和LQFD两个数据集再进行划分，分别划分为训练集、验证集和测试集，比例为3∶1∶1。对数据集进行预处理，计算所有图像像素的均值和标准差，然后将图像的像素值减去均值后除以标准差作标准化处理;并且在模型训练过程中，对输入图像进行镜像操作，即图像像素左右翻转，这样数据集规模将增大一倍。

2 实验结果与分析

本文采用了深度学习框架Caffe进行模型的训练和测试，运行环境是Ubuntu14.04，硬件平台使用了GPU加速训练，其型号是GeForce GTX TITAN X。模型的部分训练参数如表2所示。

由于该训练是个二分类问题，且数据特征的差异较明显，所以在训练时该模型的准确率很快就得到了巨大的提升，最后的测试准确率稳定在了99.41%。图2、图3分别展示了模型训练损失和测试准确率随迭代次数的变化关系。

从图2、图3中可以看出，随着迭代次数的增加，模型很快达到了收敛，大约在迭代了15000次后，模型的测试准确率也达到了99%以上。当训练完成后，模型的损失函数值处于稳定的收敛状态，此时网络的参数达到了最优。

模型训练完成后，在测试数据集上进行测试。在低质量数据集上，正确分类的占比为99.1%，在高质量数据集上，测试的准确性为98.7%，整体的测试准确性达到了98.9%，如表3所示，说明模型在测试集上仍具有很好的分类效果。

由于Softmax的输出表示输入属于每一类的概率值，属于高质量一类的概率值越高，则输入是高质量人脸图像的可能性越大。本文使用属于高质量一类的概率值作为对输入图像的质量评分。用打分方法对测试集人脸图像进行打分，同时在通过电脑合成的两张完美人脸上用本文提出的方法进行打分，打分的部分结果如图4所示。

图4说明了人脸遮挡、模糊、光照不均匀、姿态等因素较差时，得分也较低，而两张完美人脸的得分都为1，属于高质量人脸图像。同时对打分结果进行统计分析，高质量的人脸图像的得分大部分高于0.8，而在低质量测试集上，大约90%的图像得分都低于0.1，说明模型在测试集上仍具有较好的表现。

为了验证模型在人脸模糊、光照、姿态以及遮挡方面的性能，本实验使用公开数据集Color FERET、FIIQD（Illumination Quality Assessment for Face Images DataSet）[14]和FDDB（Face Detection Data Set and Benchmark），分别验证模型在人脸姿态、光照和遮挡上的表现性能，并取部分Color FERET数据集进行高斯模糊，来验证模型在人脸模糊上的表现性能。实验结果表明，模型对人脸图像的模糊因素具有明显的区分度，在模糊度高于一定值后，模型给出的评分急剧降低，越模糊的人脸图像得到的评分越低，如图5（a）所示。在光照方面，模型對光照不均匀、光线较暗的人脸图像评分很低，对光线均匀的人脸图像评分很高，说明模型在光照方面表现出优越的性能，如图5（b）所示。在人脸姿态方面，对于偏转小于45°的人脸，模型都评判为高质量，而偏转角度过大的人脸都被评判为低质量，说明模型对人脸姿态也有很好强的适应性，如图5（c）所示。在遮挡方面，对于少量遮挡，且能够清晰辨别出五官的前提下，模型打分较高，对于遮挡住面部五官的少量遮挡或者大范围遮挡的情况下，模型给出的得分较低，实验结果如图5（d）所示。

上述實验表明：本文提出的用于人脸图像质量评价的CNN模型，在人脸图像模糊、光照、姿态和遮挡方面都表现较好，具有一定的判别能力;同时模型的参数较少，只有9.5MB，但是达到了较高的判别准确率，其前向传播一次耗时为4.1ms，运算速度快，能够实时响应，可用于人脸识别系统中人脸质量的实时评价。表4列出了数据集在不同网络结构下的准确率等信息，可以看出，在准确率相差不大的情况下，该模型的参数规模比AlexNet（Alex Network）、VGG-16（Visual Geometry Group）、VGG-19分别降低了95.6%、98.1%、98.2%，运算效率得到极大的提高。

本文模型在实际应用中，可根据实际情况设定一个阈值，当评分高于该阈值时，判定是高质量人脸图像，可进行后续步骤处理，否则判定是低质量人脸图像，进行抛弃。

3 结语

本文针对人脸识别中的低质量图像造成识别准确率低下的问题提出了解决方案。将人脸质量评价转化为二分类问题，采用流行的CNN对训练集进行学习，提取人脸图像的深层质量特征，并加以分类。网络模型在测试集上达到了98.9%的分类准确率。通过将人脸图像属于高质量一类的概率作为其质量评价，建立了人脸质量打分机制。最后实验结果表明，模型对人脸图像的模糊、光照、姿态和遮挡等因素造成的影响具有较强的判别能力，同时具有较高的运算效率。下一步工作是不断提高模型的准确性和适应性。

参考文献（References）

[1] 徐晓艳.人脸识别技术综述[J].电子测试，2015（5X）：30-35.（XU X Y. Survey of face recognition technology [J]. Electronic Test， 2015（5X）： 30-35.）

[2] DODGE S， KARAM L. Understanding how image quality affects deep neural networks [C]// Proceedings of the 2016 8th International Conference on Quality of Multimedia Experience. Piscataway， NJ： IEEE， 2016：11-16.

[3] KARAHAN S， YILDIRUM M K， KIRTAC K， et al. How image degradations affect deep CNN-based face recognition？ [C]// Proceedings of the 2016 International Conference of the Biometrics Special Interest Group. Piscataway， NJ： IEEE， 2016： 22-29.

[4] ISO/IEC 19794-5， ANSI美国国家标准：Information technology-biometric data interchange formats-Part 5： face image data [S]. New York： American National Standard Institute （ANSI）， 2001.

ISO/IEC 19794-5. Information technology-biometric data interchange formats—Part 5： face image data [S]. New York： American National Standard Institute （ANSI）， 2001.

[5] ICAO 9303. International civil aviation organization： machine readable travel documents [S]. Canada[S. l.]： International Civil Aviation Organization， 2006.

[6] BERRANI S A， GARCIA C. Enhancing face recognition from video sequences using robust statistics [C]// Proceedings of the 2005 IEEE Conference on Advanced Video and Signal based Surveillance. Washington， DC： IEEE Computer Society， 2005： 324-329.

[7] YANG Z， AI H， WU B， et al. Face pose estimation and its application in video shot selection [C]// ICPR '04： Proceedings of the 17th International Conference on Pattern Recognition. Washington， DC： IEEE Computer Society， 2004， 1： 322-325.

[8] GAO X， LI S Z， LIU R， et al. Standardization of face image sample quality [C]// Proceedings of the 2007 International Conference on Biometrics， LNCS 4642. Berlin： Springer， 2007： 242-251.

[9] SELLAHEWA H， JASSIM S A. Image-quality-based adaptive face recognition [J]. IEEE Transactions on Instrumentation and Measurement， 2010， 59（4）： 805-813.

[10] WONG Y K， CHEN S K， MAU S， et al. Patch-based probabilistic image quality assessment for face selection and improved video-based face recognition [C]// Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway， NJ： IEEE， 2011： 74-81.

[11] HINTON G E， SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science， 2006， 313（5786）： 504-507.

[12] YI D， LEI Z， LIAO S C， et al. Learning face representation from scratch [J]. Computer Science， 2014， 1（1）： 1411-1438arXiv Preprint， 2014， 2014： arXiv.1411.7923.

[13] PHILLIPS P J， MOON H， RIZVI S A， et al. The FERET evaluation methodology for face-recognition algorithms [C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition（CVPR）， Piscataway， NJ： IEEE， 1997， 22（10）：137-143.

PHILLIPS P J， MOON H， RIZVI S A， et al. The FERET evaluation methodology for face-recognition algorithms [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2000， 22（10）： 1090-1104.

[14] ZHANG L， ZHANG L， LI L. Illumination quality assessment for face images： a benchmark and a convolutional neural networks based model [C]// Proceedings of the 2017 International Conference on Neural Information Processing， LNCS 10636. Berlin： Springer， 2017： 583-593.