基于卷积神经网络的人脸识别研究综述

2018-05-15 08:31鲍睿栋赵敏
软件导刊 2018年4期
关键词:卷积神经网络人脸识别特征提取

鲍睿栋 赵敏

摘 要:人脸识别是目前计算机技术研究的热门领域,广泛应用于人们的日常生活,如门禁系统、摄像监视系统、相机以及智能手机等。传统的人脸识别技术需要经过人工特征提取、特征选择以及分类器选择等一系列复杂步骤,然而识别效果却并不理想。随着数据量的激增以及GPU高性能计算的发展,卷积神经网络在人脸识别上有了重大突破。文章回顾了传统人脸识别方法,阐述了卷积神经网络的基本结构及其改进和优化方法,介绍了基于卷积神经网络的人脸识别技术及典型应用,展望了人脸识别技术的发展方向。

关键词:卷积神经网络;人脸识别;深度学习;特征提取;分类器

DOIDOI:10.11907/rjdk.172518

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2018)004-0006-03

Abstract:Face recognition is a hot research field of computer technology, and has been widely used in peoples daily life, such as entrance guard system, camera monitoring system, cameras and smart phones, etc. The traditional face recognition technology requires a series of complex steps, such as artificial feature extraction, feature selection and classifier selection, but the recognition effect is not ideal. With the emergence of large data sets and the rapid development of GPU high performance computing, convolutional neural networks have made breakthroughs in face recognition. Firstly, this paper briefly reviews the traditional face recognition method and describes the effectiveness of convolution neural networks. Secondly, it introduces the basic structure some improvement and optimization methods of convolutional neural networks. Thirdly, this paper mainly analyzes some typical applications for convolutional neural networks in face recognition. Finally, it concludes the CNN-based face recognition and the future direction.

Key Words:convolution neural networks; face recognition; deep learning; feature extraction; classifier

0 引言

人脸识别技术是利用计算机进行人脸图像分析,并从图片中提取出有效的识别信息进行身份验证的一种技术,广泛应用于门禁系统、摄像监视系统、学生考勤系统以及智能手机等领域。然而,对于人脸来说,个体之间结构相似,人脸会由于个体喜怒哀乐的情绪变化带来脸部形状的变化,并且光照条件、遮挡物、拍摄角度等都使人脸识别变得困难。

传统的人脸识别算法主要有:①Bledsoe[1]提出的基于几何特征的人脸识别方法。该方法将人脸表征为一个特征向量,特征向量的分量可以是眼、鼻、嘴等形狀以及相互之间的几何关系,利用此特征向量匹配出相似的人脸;②Turk和Pentland[2]提出的特征脸方法。主要思想是从人脸图像提取全局特征,将这个高维图像映射到低维子空间,完成人脸图像统计特征的提取,在子空间中进行识别; ③基于支持向量机的人脸识别。Osuna[3]最早将支持向量机用于人脸检测,其基本思想是把一个低维线性不可分的问题转换成高维线性可分问题。

传统人脸识别方法难以满足精度需求,其繁琐的特征提取工作以及分类器的选择降低了效率,有一定的局限性,如提取的特征如果是低层特征,显然无法充分表征原始图像。另外,如果提取的特征维度不可分,会导致识别率低。

近年来,由于训练数据的增加以及GPU高性能计算的发展,卷积神经网络在图像领域获得了广泛关注。相比传统人脸识别算法,它避免了对图像复杂的前期预处理过程,可直接输入原始图像,自动提取高维特征。和传统神经网络神经元之间进行全连接相比,卷积神经网络的权重共享机制使神经网络结构变得更加简单。

1 卷积神经网络

1.1 卷积神经网络基本结构

卷积神经网络是一个层级结构,主要包含输入层、卷积层、池化层、全连接层以及输出层。网络一般使用多个卷积层和池化层组合,在末端使用多层全连接的前馈神经网络,训练过程使用反向传播算法,其基本结构如图1所示。

1.1.1 输入层

输入层是整个网络的输入部分,在人脸识别问题上一般代表待训练或待预测的人脸图片像素矩阵。如图1所示的输入图片,长和宽代表了图片的大小,深度代表图片的色彩通道。例如一张彩色图片,是RGB三个通道,则图片深度为3。由于网络的输入节点个数是固定的,所以一般在将图片作为输入提供给网络之前,需要对图片大小进行调整。有时为了使训练得到的模型尽可能小地受到噪声影响,会对图像做增强处理,如图像翻转、色彩调整等。

1.1.2 卷积层

卷积层对输入层或采样层输出的特征图进行卷积操作,经过激励函数的作用得到特征图。卷积层的作用是提取一个局部区域特征,而每一个卷积核相当于一个特征提取器,第l层卷积层中第j个特征图的计算公式如下:

1.1.3 池化层

池化层往往设置在两个卷积层之间,用以对上一层的特征图进行降采样处理,可以非常有效地缩小矩阵的尺寸,减少参数的数量,一定程度上加快了计算速度,防止了过拟合的问题。

假设第l层为池化层,该层的某个特征图计算公式如下:

式(4)中,g(x)表示池化操作,常用的池化操作有Max Pooling和Average Pooling。对于Max Pooling,其操作主要是将输出特征图划分为若干个矩形区域,对每个区域取最大值。而Average Pooling是将区域内的值取平均进行采样。

1.1.4 全连接层

图像经过一系列卷积和池化操作之后,将前一层的所有神经元与全连接层的所有神经元相连接。全连接层依据具体任务对高层特征进行映射。由于第一个全连接层之前是池化层或卷积层,因此需要将这些特征图预先拉成特征向量。

1.1.5 输出层

输出层一般用作分类器,常用的分类器有Sigmoid函数和Softmax函数。以Softmax为例,输出的值代表各个样本属于各个类别的概率,并且概率值之和为1,公式如下:

1.2 网络改进与优化方法

传统网络卷积层采用线性滤波器和非线性激活函数。Szegedy[4]等提出了Inception网络,在同一个卷积层中设置不同大小的卷积核,从而提取上一层特征图中不同尺度的特征。

由于网络权重的更新用的是反向传播算法,所以代价函数需要对各层的权值求梯度。传统的Sigmoid和tanh函数会出现梯度消失(Gradient Vanish)和梯度爆炸(Gradient Explosion)问题,导致权重的更新难以进行。Nair[5]等提出了ReLu函数,其公式如下:

显然,此函数在正半轴上缓解了梯度消失问题,但是在负半轴上依然存在这种问题。相比较Sigmoid和tanh函数,权重更新快,加快了网络的训练速度。He等[6]又提出了PReLU,对负半轴的问题进行抑制,公式如下:

池化层方面,Zeiler等[7]提出了Stochastic Pooling,何凯明等[8]提出了空间金字塔池化,都可以防止网络过拟合,增强网络的泛化能力。

对于全连接层,其参数众多,对这一部分要进行权值优化防止过拟合。Hinton等[9]提出了Dropout,主要思想是在模型训练阶段,随机让网络的某些隐含层节点的权值不工作,只有部分权值得到更新。

在小样本量时代,网络权值的更新可以使用批量梯度下降法。这种方法在进行一次权值更新时会遍历所有样本,随着训练图片的激增,这种方法显然不太现实。现在通常使用随机梯度下降法,即权重的一次更新只关注一小批图片样本,相比原来的方法显然加快了训练速度。常用的训练技巧主要有权值初始化、学习率衰减、滑动平均模型、权值衰减、Batch normalization[10]等。

2 卷积神经网络在人脸识别中的应用

传统的人脸识别方法需要经过特征提取、特征选择和分类器选择这一系列繁琐操作,并在特征提取、特征选择过程中有很大的局限性,比如提取的低层特征对目标的表达能力不足。而卷积神经网络可以提取高层特征,提高特征的表达能力。人脸识别的关键是提出有效的特征来缩减同一人的差异并增大不同人之间差异,将人脸识别和人脸验证信号作为监督,设计深度卷积网络学习到深度识别-验证特征(DeepID2)[11]。卷积神经网络在人脸识别问题上的重点在于怎样提高网络的特征提取能力。

DeepFace[12]模型在常规人脸识别流程(人脸检测-对齐-表达-分类)中,通过3D模型對人脸对齐进行改进,之后用大量的人脸图像训练一个九层网络,最终在LFW数据集上可以达到97.35%的准确率。

DeepID[13]用于人脸验证领域,在LFW数据集上可以达到97.45%的准确率。它的结构和普通卷积神经网络结构类似,但其倒数第二层的隐藏层和前一层的卷积层以及这个卷积层之前的池化层相连接,这种连接方式可以同时考虑局部特征和全局特征,其高准确率的另一个原因是用了大量的数据进行训练。

FaceNet[14]在LFW数据集上准确率可以达到99.63%,在YouTube Faces DB数据集上,准确率可以达到95.12%。其基于深度卷积神经网络,直接将人脸图像映射到欧几里得空间,人脸图像的相似性由这个空间的距离表示。一旦欧几里得空间形成,就可很容易地进行人脸识别。

百度[15]提出了结合muti-patch deep CNN和deep metric learning的方法,在120万的训练集上进行训练,在LFW数据集上准确率可达到99.77%。其思想主要是通过卷积神经网络对人脸不同区域分别进行特征提取,之后再将提取的特征经过metric learning降到128维进行识别。

3 结语

本文对基于卷积神经网络的人脸识别进行了详细的介绍。简要回顾了传统人脸识别算法并介绍了卷积神经网络的基本结构以及一些网络的改进和优化方法,详细分析了卷积神经网络在人脸识别领域的应用。虽然基于卷积神经网络的人脸识别取得了突破性进展,但仍存在一些亟待解决的问题,如目前卷积神经网络中涉及到的超参数都是凭借经验和实践确定,如何对其量化,使得在面对实际问题时有理论指导,从而训练出高效有用的网络,以及如何在大数据量、深层次网络结构背景下进行高效的数值计算等,都是值得深入研究的课题。

参考文献:

[1] BLEDSOE W W. A ManMachine facial recognition system—some preliminary results (1965)[EB/OL]. http://citeseerx.ist.psu.edu/showciting?cid=605724.

[2] TURK M A, PENTLAND A P. Face recognition using eigenfaces[J]. Proc.ieee Conf, computer Vision & Pattern Recognition,2011,84(9):586-591.

[3] OSUNA E, FREUND R, GIROSI F. Training support vector machines: an application to face detection[C]. Computer Vision and Pattern Recognition, 1997 IEEE Computer Society Conference,1997:130-136.

[4] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]. Computer Vision and Pattern Recognition. IEEE,2015:1-9.

[5] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]. International Conference on International Conference on Machine Learning. Omnipress,2010:807-814.

[6] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[EB/OL]. https:∥www.computer.org/csdl/proceedings/iccv/2015/8391/00/8391b026-abs.html.

[7] ZEILER M D, FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks[M]. Eprint Arxiv, 2013.

[8] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,37(9):1904-1906.

[9] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012,3(4):212-223.

[10] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate Shift[J]. Computer Science,2015(2):448-456.

[11] SUN Y, WANG X, TANG X. Deep learning face representation by joint identification-verification[J]. 2014(27):1988-1996.

[12] TAIGMAN Y, YANG M, RANZATO M, et al. Deepface: closing the gap to human-level performance in face verification[C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2014:1701-1708.

[13] SUN Y, WANG X, TANG X. Deep learning face representation from predicting 10,000 classes[C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2014:1891-1898.

[14] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2015:815-823.

[15] LIU J, DENG Y, BAI T, et al. Targeting ultimate accuracy: face recognition via deep embedding[EB/OL]. https:∥arxiv.org/abs/1506.07310.

(責任编辑:杜能钢)

猜你喜欢
卷积神经网络人脸识别特征提取
人脸识别 等
揭开人脸识别的神秘面纱
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
基于深度卷积神经网络的物体识别算法
基于类独立核稀疏表示的鲁棒人脸识别
基于MED和循环域解调的多故障特征提取
基于K-L变换和平均近邻法的人脸识别
Walsh变换在滚动轴承早期故障特征提取中的应用