基于深度置信网络和生成模型的驾驶疲劳识别

2015-05-03 02:41夏利民

湘潭大学自然科学学报 2015年3期

关键词：置信人脸分类器

王军，夏利民

(1.电子科技大学中山学院，广东中山 528402；2.中南大学信息科学与工程学院，湖南长沙 410075)

基于深度置信网络和生成模型的驾驶疲劳识别

王军1, 2*，夏利民2

(1.电子科技大学中山学院，广东中山 528402；2.中南大学信息科学与工程学院，湖南长沙 410075)

驾驶疲劳识别研究对预防交通事故提高交通安全具有重要意义.提出了一种基于深度置信网络和生成模型的驾驶疲劳识别方法.为了有效地表示疲劳，采用深度置信网络从人脸图像中提取疲劳特征；结合已标注样本和未标注样本，提出了一种基于生成模型的半监督学习的疲劳识别方法，解决了疲劳识别中的小样本问题.在自建疲劳数据库上，采用该方法进行了驾驶疲劳识别的仿真实验，同时和其他几种方法进行了对比，结果表明该方法具有更高的识别精度.

疲劳识别；特征提取；深度置信网络；生成模型

疲劳驾驶是导致交通事故的一个重要因素，近年来受到了人们的广泛关注，目前驾驶疲劳识别已成为交通信息和计算机视觉领域中的研究热点之一，其研究对预防交通事故、提高交通安全有着重要的理论意义和应用前景.

本世纪以来，国内外研究人员对驾驶疲劳识别进行了大量研究，提出了很多疲劳识别方法，其中基于计算机视觉的方法[1～10]是最流行的驾驶疲劳检测方法，Singh 等人[1]利用mean-sift算法研究了基于眨眼睛时长的疲劳识别方法；Ahmed[2]等人利用图像处理方法提取人眼闭合、哈欠及点头频率等特征用于驾驶疲劳识别；Cyganek[3]利用视觉方法获取人眼状态，采用高阶SVD进行驾驶疲劳识别；DaSgupta[4]利用Haar特征和卡尔曼滤波器检测人脸，利用PCA检测人眼，并采用SVM识别眼睛的开状态，从而实现疲劳识别；Masala[5]利用符号分类器和姿态字典监测驾驶员注意力，识别结果不受噪声和光照变化影响；Bao[6]利用Gabor滤波器抽取人脸特征，在此基础上采用统计学习算法提取有效的疲劳特征和分类器用于疲劳识别；Vural等人[7]利用机器学习建立了人脸表情编码系统，构建了自动分类器用于驾驶疲劳检测；Vural 等人[8]提出了基于脸部表情和头部运动的疲劳检测方法.大多数基于计算机视觉的疲劳驾驶识别方法都是基于眨眼速度、眼睛闭合、哈欠频率以及其他人为设计的人脸特征，而这些人为设计的特征由于有过多主动因素介入，很难有效地描述人的疲劳状态.Dwivedi等人[10]利用卷积神经网络抽取人脸特征以及特征间的复杂关系，利用softmax层区分疲劳状态和正常状态，该方法提高了疲劳识别率.但是该方法与其他疲劳识别方法一样，采用的是统计识别方法，在构建疲劳分类器时需要大量的已知样本，而实际中已知类别的疲劳样本非常少，这使得疲劳识别率不高.

为了克服以上方法的缺陷，结合深度置信网络和生成模型，提出了新的驾驶疲劳识别方法.首先，利用深度置信网络提取驾驶疲劳特征，避免了过多主动因素的干预，该特征更有效地表征了疲劳特征信息.在此基础上，为了解决疲劳分类中的小样本问题，提出了基于生成模型的驾驶疲劳半监督分类方法，利用少量已标记疲劳样本初始化基于生成模型，然后利用大量未标记疲劳样本对模型进行进一步优化.在自建疲劳数据库上，采用该方法进行了驾驶疲劳识别的仿真实验，并和其他几种方法进行了对比，结果表明该方法能获得更有效的疲劳特征，并具有更高的识别精度.

1 基于深度置信网络的疲劳特征提取

深度学习是一种新的机器学习方法，利用各种网络模型从未标记数据中学习、挖掘复杂、非线性、高维特征表示[11～15]，目前已成功地用于图像处理与模式识别等领域.而深度置信网络(Deep belief network，DBN)[16]是一种典型的深度学习模型，由多层受限玻尔兹曼机(restricted Boltzmann machine，RBM)网络组成，采用无监督的学习进行模型训练，具有优良的特征提取能力.本文借助DBN强大的学习能力提取疲劳本质特征.

1.1 受限玻尔兹曼机

受限玻尔兹曼机是一种基于能量的模型，它由一个输入层(可见层，visible layer)和一个隐含层(hidden layer)组成，其中输入层和隐含层的神经元全连接，而同一层中的神经元无连接，图1是典型的RBM结构图，其中，v、h和w分别表示输入层、隐含层以及输入层和隐含层之间的连接权值.

RBM是一种随机神经网络，其输入层和隐含层的神经元为取值为{0,1}的随机变量，设输入层和隐含层的神经元个数分别为N和M，vi和hj分别表示第i个输入神经元和第j个隐含层神经元的状态，则RBM能量函数为：

(1)

式中，θ=(wij,ai,bj)是RBM待确定的参数向量，wij表示输入层神经元vi和隐含层神经元hj之间的连接权值，ai和bj分别表示vi和hj的偏置值.

RBM的状态满足正态分布，在状态(v，h)下其联合概率分布可表示为：

(2)

由于受限玻尔兹曼机的层内神经元无连接，因此，各个神经元的条件概率分布p(hj|v,θ)可写为：

(3)

(4)

其中，σ(x)=1/(1+e-x)为sigmoid函数.

通过求下列极大对数似然函数可确定RBM的参数向量θ，

(5)

其中，L为训练集样本数.

利用迭代学习方法可估计参数向量θ，本文采用CD(contrastive divergence)算法[17]，可得到各参数的更新规则如下：

Δwij=ε(〈vihj〉data-〈vihj〉model),

Δai=ε(〈vi〉data-〈vi〉model),

Δbj=ε(〈hj〉data-〈hj〉model),

(6)

式中，ε为学习步长，<·>data为训练数据集上的数学期望，<·>model为模型定义的分布上的期望.

1.2 深度置信网络

图2是DBN的结构图，它是一种由多层RBM 组合而成的网络模型，低层RBM的输出，作为上一层RBM的输入.DBN模拟人脑的组织结构，从简单到复杂、从低级到高级逐层提取输入数据特征，并最终在顶层得到更客观、更本质的特征向量.

DBN的训练，采用从低层向高层逐层训练的方式对各层中的RBM进行训练，而每层参数的学习按式(6)进行.

1.3 基于深度置信网络的疲劳特征提取

将一帧N×N的人脸图像逐行排列构成N2维原始特征向量作为DBN的输入，则DBN的输出即为提取的疲劳特征.具体步骤如下：

DBN训练过程：

1) 将疲劳训练样本图像归一化为N×N的人脸图像，并构建N2维原始特征向量；

2) 对于第一层RBM，将N2维人脸原始特征向量作为其输入，对其进行无监督训练，获得该层参数估计值；

3) 对于其他层RBM，将低层RBM的输出作为上一层RBM的输入，对其进行无监督训练，获得RBM网络参数估计值；

4) 利用有监督学习方法对训练好的各层参数进行微调，直到DBN达到全局最优.

待测样本的疲劳特征提取过程：

1) 将测试样本图像归一化为N×N的人脸图像，写出其N2维原始特征向量；

2) 将测试样本的N2维人脸原始特征向量作为DBN可视层输入，利用训练好的网络提取测试样本的抽象特征.

2 基于生成模型的驾驶疲劳识别

在实际中，已标记的驾驶疲劳样本非常有限，为了解决分类的小样本问题，采用基于生成模型的最大似然估计的半监督分类方法[18]，首先利用少量标记驾驶疲劳样本对模型进行训练，得到分类器模型参数的初始值，然后用大量未标记驾驶疲劳样本，对分类器进一步学习，直到包含所有样本的似然函数收敛到局部极大值，此时的模型为最佳疲劳识别模型.对于待测驾驶疲劳样本，利用得到的生成模型，计算其在各类别分布函数下的后验概率，以此进行分类.

2.1 概率生成模型

假设驾驶疲劳是由一个包含c类的混合模型生成的，且每个混合成分都满足一个特定的分布p(X|θi)，那么，数据的概率生成模型可表示为

(7)

式中，X为疲劳样本的特征向量，p(Y)代表该疲劳样本属于第i类的概率，或称先验概率；θ= {θ1,θ2,…,θc}，θi表示第i类样本的均值向量与协方差矩阵，也就是模型训练过程中需要确定的参数.假设每类行为近似符合高斯分布，用p(X|θi)表示，而整个样本集是由这些类别按比例混合生成的(式(7)).

2.2 似然函数

样本集包括未标记样本和已标记样本，即D=L+U={(X1，Y1)，…，(Xl，Yl)，Xl+1,…,Xl+u}，Y∈C={1,2,…,c}，l为已标记样本数，u为未标记样本数.由于它们是由同一个混合模型生成的，所以其对数似然函数可写成下列形式：

(8)

式中，最后一个等式的第一项对应监督分类部分，完全由标记样本决定，Xik表示属于第i类的第k个标记样本的特征向量，li是属于第i类的标记样本数目；而第二项对应无监督部分，仅仅由未标记样本来确定；Xk表示未标记样本的特征向量.其中无监督部分可写成：

(9)

将(9)式代入(8)式得到：

(10)

与上述对数似然函数最大值对应的参数就是要估计的参数.

2.3 分类模型参数估计

首先，在式(10)中只考虑第一项，即仅考虑标记样本，通过求解式(10)中的对数似然函数最大值，可得到对应的参数，以此参数作为分类器参数的初始值；然后，利用EM算法来进一步估计概率生成模型的参数.

E步：采用对数似然函数(式(10))求未标注样本的概率值，即预测未标注样本的类别：

(11)

式中，pjk为当前参数分布下第k个未标注样本对应第j类的概率.t-1、t表示迭代次数.

M步：在预测当前未标注样本的类别之后，求似然函数取极大值时各参数的取值，即p(Y)、μ(均值向量)和∑(协方差矩阵)：

(12)

(13)

(14)

其中，p(Y=j)代表第j类的先验概率，COVj(·)表示第j类的协方差矩阵，u和l分别是未标注样本和已标注样本的个数，lj是属于第j类的已标注样本个数，而Xjk’表示属于第j类的第k个已标注样本.

不断重复E步和M步，直到收敛.其中收敛判别条件为：对数似然函数在相邻两次递归之间变化很小.

2.4 基于生成模型的驾驶疲劳识别

利用训练好的分类器，可识别驾驶疲劳，首先根据待识别的驾驶疲劳图像的特征分别计算其在每个类别中的概率p(Y|X)；然后根据概率p(Y|X)分类：若驾驶疲劳样本在某类的后验概率p(Y|X)最大，则该样本属于该类.

根据贝叶斯公式，可求得待识驾驶疲劳样本的最大后验概率：

(15)

假设采用的生成模型是符合高斯混合分布的，故式中p(Y|X)可由下式计算得到：

(16)

μY,∑Y为类别Y的训练样本的均值向量和协方差矩阵，也就是分类器训练过程中需要确定的参数向量θ.

基于生成模型的驾驶疲劳识别步骤归纳如下：

(1) 训练分类器

1) 对于驾驶疲劳训练样本集D，估计每个类别的先验概率p(Y).

2) 计算每个类别的均值向量和协方差矩阵，即估计参数θi=(μi,∑i).

(2) 驾驶疲劳识别

计算待识别的驾驶疲劳对应各类别的后验概率，然后根据下式分类：

Y*→X=argYmaxp(Y|X)

在本文，只考虑疲劳状态和正常状态两类，即Y={1，-1}，1，-1分别代表正常状态和疲劳状态.

3 实验与结论

我们自建了一个疲劳数据库.该疲劳数据库包含二类图像样本：160个已知疲劳类别的视频图像(其中正常、疲劳分别为80个)和400个未知疲劳类别的人脸视频图像.这些图像是在不同光照条件下拍摄的40个年龄在20至45岁之间的人脸视频图像.实验中每类随机抽取40个已知类别的图像(共80个)和全部未知类别的图像做训练样本，余下的80个已知类别图像作测试样本.

首先把全部样本图像经过眼睛定位、校准、剪切，归一化到64×64.DBN训练参数选择：学习率为0.05；由于DBN网络经过50次迭代后分类精度基本上保持不变，所以DBN学习迭代次数选择为50；当DBN层数与隐含层神经元个数取不同组合，我们发现当DBN的层数为3层、隐含层节点数为128时，疲劳识别率最高. 为此，在实验中选取3层的、隐含层神经元个数为128的DBN.

为了说明文中方法的有效性，在自建的疲劳数据库上，利用文中方法与其他几种方法进行了对比实验.实验结果如表1所示.

表1 4种不同方法的比较结果

其中，文献[4]利用人眼特征，采用SVM+有监督学习方法进行疲劳识别；文献[6]方法是利用Gabor滤波器抽取人脸特征，采用Boosting方法提取疲劳特征、建立疲劳识别分类器.实验结果表明，文献[4]、[6]的方法识别较低，这是因为这两种方法采用的特征均为人为设计的，很难准确描述疲劳状态，且分类器的建立采用有监督学习，需要大量的已知样本，在小样本情况下，识别效果不太理想，所以这两种方法疲劳识别率稍差.文献[10]利用深度学习提取疲劳特征，能很好描述疲劳状态，因此识别率有所提高，但DNN上层用softmax分类器进行疲劳状态判别，该分类器学习采用的是有监督学习方法，在小样本情况下，影响识别率.我们的方法采用深度学习提取疲劳特征，同时利用半监督学习方法建立生成模型，使得识别率高于上述几种方法.

4 结束语

驾驶疲劳识别对预防交通事故、提高交通安全有着重大的理论意义和应用前景.本文提出了一种新的基于深度置信网络和生成模型的驾驶疲劳识别方法.利用深度置信网络提取驾驶疲劳特征，避免了过多主动因素的干预，该特征更有效地表征了疲劳特征信息.在此基础上，提出了基于生成模型的驾驶疲劳半监督分类方法，该方法利用少量已标注样本初始化生成模型，利用大量未标注样本对模型进行进一步优化，解决了疲劳识别中的小样本问题.在自建疲劳数据库上，采用该方法进行了驾驶疲劳识别的仿真实验，并与其他几种方法进行了对比，结果表明该方法能获得更有效的疲劳特征，并具有更高的识别精度.

[1] SINGH M, KAUR G. Drowsy detection on eye blink duration using algorithm[J].International Journal of Emerging Technology and Advanced Engineering, 2012,2(4):155-164.

[2] AHMED R, EMON KEK, HOSSAIN M F.Robust driver fatigue recognition using image processing[C]// 2014 International Conference on Informatics, Electronics and Vision (ICIEV), Dhaka, BANGLADESH: IEEE,2014: 74-83.

[3] CYGANEK B，GRUSZCZYNSKI S．Hybrid computer vision system for drivers’eye recognition and fatigue monitoring[J]．Neural computation，2014，126(4):78-94.

[4] DASGUPTA A，GEORGE A，HAPPY S L，et al．A vision based system for monitoring the loss of attention in automotive drivers[J]．IEEE Transactions on Intelligent Transportation Systems，2013，14(4)：1 825-1 838.

[5] MASSALA G L,GROSSO E. Real time detection of driver attention: Emerging solutions based on robust iconic classifiers and dictionary of poses[J]． Transportation Research part C-emerging Technologies,2014,49:32-42.

[6] BAO C Y. Multiscale dynamic features based driver fatigue detection[J].International Journal of Pattern Recognition and Artificial Intelligence, 2009, 23(3): 3 575-3 589.

[7] VURAL E, CETIN M, ERCIL A, et al. Drowsy driver detection using facial movement analysis[C]． Proc of the IEEE international conference on Human-computer interaction, Berlin Heidelberg：Springer-Verlag,2007: 6-18.

[8] VURAL E, BARTLET M S, LITTLEWORT G. Discrimination of moderate and acute drowsiness based on spontaneous facial expressions[C]． IEEE International Conference on Pattern Recognition，2010:123-135.

[9] 陈云华，余永权，张灵，等．基于面部视觉特征的精神疲劳可拓辨识模型[J]．计算机科学，2013，40(2)：284-288.

[10] DWIVEDIK, BISWARANJAN K, SETHI A. Drowsy driver detection using representation learning[C]. 2014 IEEE International Advance Computing Conference (IACC), 2014:135-147.

[11] BENGIO Y．On the expressive power of deep architectures[C]．Proc of 14th International Conference On Discovery Science, Berlin：Springer-Verlag，2012: 18-36.

[12] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5 786): 504-507.

[13] BENGIO Y. Deep learning of representations for unsupervised and transfer learning[C]. Workshop and Conference Proceedings, Washington, USA, 2012, 27: 17-36.

[14] JONES N．The learning machines[J]．Nature，2014，505 (7 482)：146-148.

[15] BENGIO Y，COURVILLE A，VINCENT P．Representation learning：A review-and new-perspectives[J]．IEEE Trans on Pattern Analysis and Machine Intelligence，2013，35(8)：1 798-1 828.

[16] HINTON G E，OSINDERO S，TEH Y．A fast learning algorithm for deep belief nets[J]．Neural Computation，2006，18(7)：1 527-1 554.

[17] HINTON G E．Training products of experts by minimizing contrastive divergence[J]. Neural Computation，2002,14(8)：1 771-1 800.

[18] THOMPSON S, SAWYER J, BONAM R, et al.Building a better methane generation model: Validating models with methane recovery rates from 35 Canadian landfills [J]. Waste Management, 2009, 29(7):2 085-2 091.

责任编辑：龙顺潮

Driver Fatigue Recognition Based on Deep Belief Network and Generative Model

WANGJun1, 2*,XIALi-min2

(1.Zhongshan Institute, University of Electronics Science and Technology, Zhongshan 528402;2.School of Information Science and Engineering, Central South University, Changsha 410075 China)

Driver fatigue recognition has great theoretical significance and applied value in reducing accidents and improving traffic safety. A novel method based on deep belief network and generative model is proposed for driver fatigue recognition. In order to represent fatigue effectively, fatigue features are extracted using deep belief network (DBN) from the facial image. The semi-supervised learning method for fatigue recognition based on generative model is proposed to solve the problem of small sample in recognition, which makes use of both the labeled and unlabeled samples. Experiments were performed on self-built database to test and evaluate the proposed method. The experiment results show that our method has higher recognition accuracy than other state-of-the-art methods.

fatigue recognition；feature extracting; deep belief network；generative model

2015-04-21

国家自然科学基金项目(50808025)；湖南省科技计划项目(2014FJ3057)

王军(1971— ),男，山西应县人，博士生，讲师.E-mail:505412600@qq.com

TP391

1000-5900(2015)03-0075-07