微表情识别综述

2020-10-09 11:17程村

计算机时代 2020年9期

摘要：微表情的微妙和微表情数据集的通病，对人脸微表情识别任务提出了巨大挑战，同时也使得该课题具有旺盛的生命力和极高的研究价值。文章阐述了人脸微表情识别的定义，介绍了主流的微表情数据集，并总结了微表情识别领域中基于三个正交平面局部二值模型的经典方法和基于深度学习的最新技术。

关键词：微表情识别;微表情数据集;深度学习;面部动作编码系统;三个正交平面局部二值模型

中图分类号：TP391.4

文献标识码：A

文章编号：1006-8228（2020）09-17-03

A survey of micro-expression recognition

Cheng Cun

（school of MathematicsandStatistics， Beijing Technology and Business Unirersity， Beijing 100048. China）

Abstract： Facial micro-expression recognition is faced with an enormous challenge because facial micro-expression is subtle andmicro-expression databases are limited. but in the meantime the significance of micro-expression recognition has posed a hugeattraction to researchers. In this paper， the definition of facial micro-expression recognition is introduced， the commonly used micro-expression databases are summarized， and the classic handcrafted method based on Local Binary Pattern From Three OrthogonalPlanes and the recent techniques based on deep learning in micro-expression recognition are elaborated.

Key words： micro-expression recognition; micro-expression database; deep learning; facial action coding system; Local Binary

Pattern From Three Orthogonal Planes

0引言

人臉表情识别（Facial Expression Recognition）是计算机视觉的一个重要研究课题。随着深度学习技术的高速发展，近年来人脸表情识别技术取得了令人瞩目的成果，但是本文探讨的人脸微表情识别（Microexpression Recognition）不同于常规的人脸表情识别。微表情是一种自发式的表情，不同于普通表情，微表情不能隐藏和作假。因此，人脸微表情识别是判断人主观情绪的有效手段之一，在公共安全、司法系统、情感分析、心理治疗等领域具有重要的应用价值，是智能识别任务中的一个新的研究热点。

本文阐述了人脸微表情识别的定义，介绍主要的微表情数据集，并综述了人脸微表情识别领域中基于三个正交平面局部二值模型的经典方法和基于深度学习的最新技术。

1微表情识别的定义

1.1宏表情与微表情

人脸表情可分类为宏表情和微表情。宏表情是人在日常生活中表现出来的或伪装出来的表情，而微表情是一种自发式的表情，在人试图掩盖内在情绪时产生，既无法伪造也无法抑制[1]。不同于宏表情，微表情的幅度很小且持续时间很短，仅为1/25秒至1/5秒[2]。因此，仅凭肉眼识别微表情具有相当大的难度，借助计算机智能识别微表情的要求越来越高。

1.2微表情的分类标准

微表情识别任务是从一段人脸图像序列中检测出微表情，并对检测出的微表情进行分类。微表情的分类有两种标准：基于情绪的分类和基于面部动作编码系统（Facial Action Coding System）的分类。

人类的面部表情7类基础表情分类包括：生气、厌恶、恐惧、开心、悲伤、惊喜（惊讶）和中立。基于情绪的微表情分类，在7类基础表情分类的基础上对表情细分，通过将单一的基础表情类别映射到二维空间，其横轴为情感的正负程度，纵轴为情感的激烈程度，可以细分得到更多的表情类别。

另一种微表情分类的标准是用FACS（Facial ActionCoding System）对微表情进行编码。FACS是一个面部动作的标注系统，由一系列编码组成，每个编码是一个动作单元（Action Unit， AU）[]。由于面部动作编码系统用一个或多个动作单元描述一个表情，从而可以将微表情的分类任务转换为动作单元的识别。2微表情数据集

有效的人脸微表情识别模型的建立依赖于高质量的微表情数据集。目前主要有三个微表情数据集：SMICHl、CASMEIIm和SAMM[6】。

SMIC数据集是这三个数据集中最早发布的，由于SMIC数据集对每个微表情只使用了三种情绪分类进行标注，即正面表情、惊喜（惊讶）表情和负面表情，没有标注FACS编码，所以相比于CASMEII和SAMM数据集，SMIC数据集使用价值不高。而且SMIC数据集使用的是100帧/秒的摄像机，而CASMEII和SAMM数据集使用的是200帧/秒的高速摄像机，所以SMIC数据集的面部分辨率偏低。

CASMEII数据集在人脸微表情识别领域被广泛使用。CASMEII数据集对每个微表情既使用了5种情绪分类进行标注：开心、厌恶、惊喜（惊讶）、压抑和其他，也有标注FACS编码，可信度较高。而且，由于CASMEII数据集使用的是200帧/秒的高速摄像机，面部分辨率可以达到280*340。但是，CASMEII数据集存在一个问题：由于被测试者都是中科院的学生，这导致年龄分布不均衡，并且只涉及一个种族。

SAMM数据集优于前面两个数据集，它的面部分辨率达到了400*400，对每个微表情不仅使用了7种基础情绪分类进行标注：生气、厌恶、恐惧、开心、悲伤、惊喜（惊讶）和轻蔑（取代中立），而且标注FACS编码。SAMM数据集还有一个优点：被测试者年龄分布均匀，种族分布广泛，涉及到13个种族。虽然SAMM数据集的使用价值很高，但是它仍不可避免的存在微表情数据集的通病：样本量不足和样本分布不均。样本量不足导致学习的分类模型欠拟合，样本分布不均导致数据量多的标签识别率明显高于数据量少的标签。

3微表情的识别方法

3.1基于LBP-TOP（Local Binary Pattern FromThree Orthogonal Planes）的经典方法[7]

近年来，人脸微表情的识别已经成为了学界的热点问题之一，研究人员提出了很多方法解决微表情的识别问题，其中基于LBP-TOP（Local Binary PatternFrom Three Orthogonal Planes）的方法极具代表性，这种具有三个正交平面的局部二值模型是对传统的LBP算法的时空扩展。早期的人脸微表情识别方法是提取单帧人脸图像的LBP特征去识别微表情，LBP-TOP算法创新性地提出了对连续人脸图像视频的微表情识别，试图从运动的角度描述人脸微表情。

在LBP-TOP算法中，引入时间轴T轴，从而得到水平时域平面XT和垂直时域平面YT，分别对XY平面（单帧人脸图像）、XT平面和YT平面提取LBP特征，再拼接起来得到LBP-TOP特征。由于LBP-TOP特征记录了微表情的动态纹理，从而可以更好地捕捉微表情的变化，比传统的LBP特征有更强的描述能力。

3.2基于深度学习的最新方法

最新的微表情识别方法是将深度学习技术应用到微表情的识别任务中，主要有两种方式：①传统方法与深度学习相结合，提取人工特征，利用深度学习技术学习分类模型;②纯深度学习的方法，学习深度特征，训练分类网络。

STSTNet（Shallow Triple Stream Three-dimensionalCNN） for Microexpression Recognition[3]是将传统方法与深度学习结合的较优秀的工作。该算法先用光流法对人脸视频序列提取特征，然后用添加了时间维度的3DCNN训练特征学习分类器。人工特征提取与深度学习技术相结合在理论上可以取长补短，但是受到光流法的影响，STSTNet不能应用于现实场景。光流法是计算相邻帧之间物体运动信息的一种方法，该方法有两个前提假设：①相邻帧之间对应像素点的灰度值不变;②相邻帧之间物体的运动微小。由于这两个要求在真实场景下不能满足，导致STSTNet模型的可靠性较差。

由于采集高质量的微表情数据集相当困难，应用深度学习技术识别人脸微表情时，为了从一定程度上解决数据量不足的问题，通常将数据集CASMEII、SMIC和SAMM整合在一起。并且，为了提高人脸微表情识别率，通常将复杂的人脸微表情识别任务简化为3分类任务：正面、负面、惊喜或惊讶。论文Micrex-pression Action Unit Detection with Spatio-temporalAdaptive Pooling[9]是在基于深度学习的人脸微表情识别领域中极具开创性的工作，作者提出了通过检测构成微表情的AUs去识别人脸微表情的方法。基于AUs检测的情绪识别在宏表情识别领域广泛流行，但是在微表情识别领域面临巨大挑战。虽然使用AUs而不是情绪标签可以更加精准地描述微表情，但是基于AUs的人脸微表情识别主要困难如下：①微表情中的AUs微小且持续时间短，导致区别度过低;②微表情数据集中的AUs类别不平衡，导致学习的分类模型存在无法回避的误差。在文献[9]中，作者通过在时域上的adaptive pooling在一定程度上解决了人脸微表情AUs区别度过低的问题。并且，作者通过使用Fo-cal Loss[10]试图解决样本分布不均的问题。

Focal Loss是何凯明团队在2018年提出了一种新的损失函数。

在二分类问题，正样本xp的类别向量是（1，0），负样本xn的类别向量是（1，0），网络预测的分类结果是，（p，1-p）其中p是预测为正样本的概率，1-p是预测为负样本的概率。

对于正样本xp，其交叉熵Loss为：

CE（xp）=一[1×log（p）+0×log（1-p）]=-log（p）（1）

对于负样本xn，其交叉熵Loss为：

CE（xn）=-[0×log（p）+1×log（1-p）]=-log（1-p）（2）

所以，有

（3）其中y=l表示y是正样本。

为方便起见，定义

（5）

现在，对交叉熵Loss添加一个调节因子（1一pt）γ，其中γ≥0，得到Focal Loss：

FL（pt）=-（1-pt）γlog（pt）

（6）

Focal Loss在交叉熵Loss的基础上添加调节因子，是希望在Loss函数里，对分类清晰的样本给一个小的权重，而对分类困难的样本给一个大的权重，以使模型更加集中于困难的错误分类的样本。在文献[9]中，作者通过使用Focal Loss自适应地降低样本数多的AU标签的权重，从而注重样本数低的AU标签，从一定程度上解決了样本分布不均的问题。

4结束语

在人脸微表情识别领域，传统的方法已经取得了良好的性能，但是需要复杂的实验设计和繁琐的参数调整才能获得理想的结果，所以这些传统算法并不适用于脱离实验室场景下的微表情识别任务。近年来，人脸微表情识别领域中的一个研究热点是应用深度学习进一步提高微表情识别的准确性，并尝试将微表情识别应用于真实场景。但是，微表情数据集的样本量不足和样本分布不均对基于深度学习的人脸微表情识别算法提出了巨大挑战。

参考文献（References）：

[1]Ekman P.Darwin. Deception and Fical Expression. Annalsof the New York Academy of Sciences， 2003.1000：205-221

[2]Yan W J，Wu Q，Liang J，Chen Y H，Fu X L.How fast arethe leaked facial expressions：the duration of microex-pressions. Journal of Nonverbal Behavior， 2013.37（4）：217-230

[3]Ekman P，Friesen W V.Facial Action Coding System. PaloAlto： Consulting Psychologists Press， 1977

[4]Li X B，Pfister T，Huang X H，Zhao G Y，Pietikainen M.Aspontaneous micro-expression database： inducementcollection and baseline. In： Proceedings of the lOthIEEE International Conference and Workshops onAutomatic Face and Gesture Recognition. Shanghai，China： IEEE.2013：1-6

[5]Yan W J，Li X B，Wang S J，Zhao G Y，Liu Y J，Chen Y H，Fu X L.CASMEII： An improved spontaneous microex-pression database and the baseline evaluation. PLoSOne， 2014.9（1）：e86041

[6]Adrian K.Davison， Cliff Lansley， Nicholas Costen. KevinTan， MoinHoon Yap. SAMM：A spontaneous micro-facial movement dataset，IEEE Transactions on AffectiveComputing，2016.

[7]Zhao G Y，Pietikainen M.Dynamic texture recognitionusing local binay patterns with an application to facialexpressions. IEEE Transactions on Pattern Analysisand Machine Intelligence，2007.29（6）：915-928

[8]Sze-Teng Liong，Y.S.Gan， John See， Huai-Qian Kher，Yen-Chang. Shallow Triple Stream Three-dimensionalCNN （STSTNet） for Micro-expression Recognition，arXiv： 1902.03634v2，2019.

[9] Yante Li， Xiaohua Huang， Guoying Zhao. Micro-expressionAction Unit Detection with Spatio-temporal AdaptivePooling， arXiv： 1907.05023v1，2019.

[10] Tsung-Yi Lin， Priya Goyal Ross Girshick， Kaiming He.Focal loss for dense object detection. arXiv：1708.02002v2，2018.

收稿日期：2020-05-27

作者簡介：程村（1977-），女，湖北安陆人，博士，讲师，主要研究方向：图像识别，高等数学教学研究。