基于改进LeNet-5神经网络的微表情识别研究

2022-03-08 05:21王凯何宏殷静

中国设备工程 2022年4期

王凯，何宏，殷静

（1.湖南工程学院，湖南湘潭 411104；2.南通大学，江苏南通 226000）

微表情概念最早由心理学家提出，即使人主动控制自己面部表情隐藏内心真实情感，心理学家也可通过观察面部肌肉下意识的细微运动并结合面部编码系统判断其真实情感。因此，微表情被认为是人刻意隐藏和压抑自己真情实感时出现的时间短暂、动作快速且幅度微小的无意识表情。由于微表情持续时间短、表情幅度小、不易于观察等特点，即使是经过针对性训练的心理学从业人员对于微表情的识别和判断也处于较低水平。

本文将LeNet卷积神经网络应用于微表情识别中，提出了一种改进型的LeNet卷积神经网络算法，在传统的神经网络算法中的卷积层与池化层中加入全连接层与输出层，直接计算误差函数，更新算法权值，使用Relu函数来代替sigmod函数作为激活函数，并且在神经网络中引入随机失活法（Dropout），消除过拟合现象，提升神经网络算法精度。

1 LeNeT-5卷积神经网络

LeNet-5卷积神经网络作为基网来提取表情特征，其结构包含有3个卷积层、2个池化层和2个全连接层。除输入层以外，基网的每层都包含不同数量的训练参数，数据先经过两次卷积层到池化层，再经过全连接层。

LeNet网络结构中，C1，C3和C5层为卷积层，S2和S4为池化层，其中C1中包含6张28×28大小的特征图，C3中包含6张10×10大小的特征图，C5中包含120张1×1大小的特征图；S2和S4中各包含6张14×14与16张5×5大小的特征图；F6为全连接层，包含84个神经元。

卷积层是深度卷积神经网络的重要部分，通过卷积层的运算，提取出图片中包含的许多不同特征值，进而通过神经网络中的多层卷积来进一步学习特征，主要负责进行图像特征的提取，卷积的计算公式：

池化层的作用是将卷积层中提取的特征进行降维，使用特定的滤波器和步长对卷积出的像素值进行切割获取，减小特征矩阵的大小，降低运算时间。池化有最大池化和均值池化两种方法，最大池化是将卷积图像区域的像素值取最大值，均值池化则是将卷积图像区域的像素取均值。

池化的计算公式：

神经网络解决多分类问题时一般设置n个输出，其中输出的数量个数即为模型的种类，每对应一个输入，模型都会相较应的给出一个n维的数组，数组的每个维度就是模型的每个类别。

Softmax公式如下所示

在公式（3）中，i表示类别索引，Zj则为分类器前层输出单元的输出，n代表了总的类别个数。

2 改进后的神经网络

本文研究传统的Lenet-5神经网络，根据传统的神经网络结构做出改进，在卷积层后添加一个临时全连接层，得到临时输出层，与真实标签进行比较，计算得到误差函数，进行回调到输入层间的权值。

当图片输入时，通过改进的神经网络，在数据量较小的情况下，因为在卷积层加入了全连接层与输出层，相较传统的神经网络，能够得到更多次的误差函数，再通过更多次的权值调整，使得误差率能够更快的收敛，各层间的权值可以更快的稳定。

原Lenet-5神经网络选用的激活函数是sigmod，而sigmod函数具有缺少通用性的问题，所以对卷积层中的激活函数进行了改进，选择Relu函数作为激活函数，它能阻止负信号通过，将所有小于0的值使用0代替，使得激活函数的导数的正数部分为1。相对于Sigmoid 的幂运算需要大量的计算，Relu函数只有线性关系，可以提升收敛速度可以都很大程度提升计算速度。Relu公式如下：

在神经网络中引入随机失活法（Dropout）。在训练神经网络的时候经常会遇到过拟合的问题，过拟合具体表现在：模型在训练数据上损失函数较小，预测准确率较高；但是，在测试数据上损失函数比较大，预测准确率较低，与预期结果产生较大偏差。使用随机失活法，在深度神经网络的训练过程中，对于神经网络中的单元，按照一定的概率将其暂时从网络中丢弃，减少隐层节点间的相互作用，方便参数的更新，来达到消除过拟合的现象。

3 实验分析

本文的实验环境的具体配置为：GPU为GTX-1080Ti，16GB内存，Python3.7编程语言，操作系统是windows10,以及TensorFlow深度学习平台。

3.1 实验数据集

本文所采用的数据集为Fer2013数据集。Fer2013数据集中包含了28709张训练图，3589张公开测试图和3589张私有测试图。所有的数据图都是12×12的灰度图。其数据集中一共包含生气、厌恶、恐惧、开心、伤心、惊讶和自然这7种人脸面部微表情，涉及了大多数情况下出现的微表情，数据泛用性高。

3.2 模型对比

本文为了对比改进后神经网络与传统神经网络之间的差别，所使用的训练集和测试集均为Fer2013数据集，优化函数为AdaBound算法，学习率设置为0.1，动量为0.9，β1设为0.9，β2设为0.999。

根据图1与图2的数据显示，传统的LeNet-5神经网络和改进后的LeNet-5神经网络在经历了700个训练周期后，损失函数值都有了较大的降低，准确率也有了明显的提升。由于改进后的神经网络结构较传统神经网络结构变得复杂，所以在训练的初期，改进后的神经网络的损失值比传统神经网络的损失值大，但当训练周期达到150后，两者的损失值都相互接近。而在准确率方面，改进后的LeNet-5神经网络不管训练周期的多少都相较于传统神经网络有了较大的提升。

图1 传统网络与改进后网络的准确率

图2 传统网络与改进后网络的损失值

3.3 实验结果分析

本文选取一位测试人员的100张表情图片进行测试，截取统计出测试人员出现的所有微表情，如图3所示。

图3 微表情种类

从图3的检测结果可以看出，本文提出的改进的LeNet-5神经网络结构能较为准确地检测出视频中出现的微表情的类型，其中微表情显示为生气的有17张，厌恶的有12张，恐惧的有9张，开心的有16张，惊讶的有22张，自然的有24张，拥有较为满意的检测结果。

4 结语

本文提出了一种改进的LeNet-5卷积神经网络，在传统的神经网络算法中的卷积层与池化层中加入临时的全连接层与输出层，优化了激活函数，使用Relu函数来代替sigmod函数作为激活函数，并且在卷积神经网络中引入随机失活法（Dropout），消除过拟合现象，提升神经网络算法精度。从实验结果来看，改进后的模型在微表情识别精度方面拥有较大的提升，但是，也存在一些不足，后续我们将进一步研究提升其运行速率。