基于表情识别的情感计算系统

2021-03-01 12:52李志超

科学与财富 2021年27期

摘要：从工程效果的角度上看，人脸识别技术已经发展成十分成熟的技术。但是，现实任务对于人脸识别的要求不仅仅止步于从机器视觉的角度上了解人脸的表层信息，对于。以人脸识别技术为基础对研究客体进行情感计算是一种透过人脸表面挖掘客体情感的重要技术。本文致力于解决现代表情识别技术存在的由于数据源不适配导致的识别效果差等问题，并设计了基于深度学习的表情识别情感计算系统。

关键词：表情识别;情感计算;深度学习

1 引言

大量的心理学与生理学理论认为，人体拥有丰富的表情是生物进化的结果。哺乳动物和人都有表情，它是生存的需要，是自然选择的结果，是先天就存在的。在达尔文的进化论中曾有过记载，例如：一些恐惧的表情会让我们的瞳孔放大，在野外生存时这种瞳孔放大可以让人了解到更多的信息，从而做出使生存几率变大的行为。但是，这也是一种比较宽泛的说法，真正将表情识别和情感分析联系在一起的是著名的心理学家Ekman[1]。他提出，重要面部单元系统编码是客观的，也就是说人脸的各个肌肉单元不会完全地被主观意识所控制，而是被情感客观控制的。另外，他提出了基本表情模型，將表情模型分为六大模块（生气、伤心、开心、怀疑、害怕、惊喜）。本研究讨论的表情识别主要是面向以上六种感情。

上个世纪60年代开始，表情识别的概念已经存在。到了现代，大量的人脸表情数据库也为相关的研究而开源，但是与此同时，这些数据库都存在着一定的问题。典型的问题是，客体所表现的表情会随着其文化背景不同而造成差异，最终导致不同文化背景的客体与客体之间虽然拥有相似的表情，但其内心的心理活动状态却不尽相同，从而导致表情识别的准确率大打折扣。

另外，现存的大量数据库的数据源为实验室数据源，即在实验室环境下让客体主观表现出符合标签的表情。这种实验室数据与现实中人类心理活动导致的表情上的行为学特征数据有着极大的差异。在研究开始阶段，本文使用hog算法将几个主流的数据库（CK+，FER2013，MMI，OuLu-CASIA，SFEW 2.0）的图片进行特征提取，然后分析出他们的相关系数矩阵如图1所示，可以明显地发现，这些主流的数据库的相互适应能力极差。

2 相关工作

在人工智能各项技术高度发展的今天，国内外已经有许多关于情感分析的研究。可以说，在人工智能的领域各个中，情感分析都占据着较大的比重。

在国内，华东理工大学信息科学与工程系的学者李冬冬使用双相长短时记忆神经网络（BLSTM）对客体的语音序列进行情感分析。[2]这种情感分析依赖语音识别，对语音识别的精度要求较高。在公众场合下，由于声音过于嘈杂导致的语音识别能力低下，从而使得这种方法不能被很好地用于实际场景中。华中科技大学的学者权学良利用脑电波等生理信号构建特征工程，并使用深度学习实现情感分析[3]，但与上述所属的问题相同，这种基于生理信号的情感算方法也不能很好的实现实时应用。江苏科技大学分析机学院的学者张力为使用细粒度分层时空特性描述符对微表情进行了特征构建，并且使用了支持向量机（SVM）的分类方法实现微表情变化的捕获[4]，但是其值做到了表情是否发生变化的度量，并没有实现对客体的情感分析。

在国外，同样有大量的学者致力于情感分析。英国爱丁堡纳皮尔大学的学者Amir Hussain使用信息融合的方法模仿人类处理和分析文本的方式，对文本实现了情感分析[5]。另外有学者Venkata Rami Reddy Chirra提出一种基于多块神经网络（DCNN）的表情识别，其模型具有相对较高的泛化能力[6]。

3 研究工作

本章主要在数据集构筑、深度学习模型训练以及系统布置三个板块介绍本研究的研究过程及结果，详细过程如图2所示：

3.1 构筑数据集

基于上述的几个问题，本研究认为，建立一个国人专用的表情识别系统，就必须先要建立一个国人专用的表情识别数据集。

本团队计划在网络中寻找部分较为经典的电视剧，并截取视频中的角色面部表情，并将该角色对应的心理情感作为该图片的标签，数据量希望在8k到10k左右。其原因是经典的电视机有其剧情的辅助，是的本团队更容易从人工角度识别角色的心理活动，此外，经典的电视剧演员表演功力足够，在整个表演过程中其面部表情更接近于真实生活中的状态。

为此，我们使用scrapy爬虫框架在网络上爬取了大量清晰的视频，并使用openCV将视频分割成帧，然后采用yolo v5模型自动提取其中的人脸。本次实验共提取出16324张图片。此后，我们邀请共80位在校大学生，通过支付酬劳的方式，将他们分为4组，每组完成对4081张图片的表情标注。最后，本研究通过EM算法对他们的标注结果进行清洗，得到标签正确的数据集。

至此，数据集构建完成。

3.2 深度学习模型训练

卷积神经网络（CNN）是一种深度人工神经网络，与其他图像分类算法相比，它可以用最少的预处理工作从输入图像中识别视觉模式。这意味着该网络可以学习传统算法中手工设计的过滤器[7]。CNN层内的重要单元是神经元。它们被连接在一起，以使一个层的神经元的输出成为下一个层的神经元的输入。为了计算成本函数的部分导数，采用了反向传播算法。

本研究使用卷积神经网路的网络结构为：卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1、全连接层2、输出层，具体网络结构如下表所示。

3.3 系统集成与布置

在完成3.2中所述的深度学习模型训练后，本研究需要将完成训练的模型嵌入系统中。从整体结构上看，首先是要在应用环境中获取该环境下的摄像头控制权，因此本研究采用openCV预留的接口完成对摄像头控制权的获取。此后，由摄像头获取到的视频数据将会被传送至后端服务器中，由后端服务器完成对视频分割成帧的任务。获取到被分割成帧的视频图片后，本项目再次采用yolo v5模型截取图片中的人脸图片，并将其尺寸修改为与深度学习神经网络模型的输入层相同的尺寸，最后将其喂入神经网络模型，得到客体的表情识别标签。

4 研究结论

从工程角度看，基于表情识别的情感计算系统能够很好地解决在训练过程中的样本与现实应用样本的不适配性问题。同时，由于其软件结构简单稳定，基于表情识别的情感计算系统能够很好的运用在各个领域。例如，系统可以运用在教学过程中对学生心理状态的监测，以达到教学过程中教师对学生心理状况的把控。又例如，在审讯犯人的过程中，可以利用系统实时监测犯人的心理状态，为警方侦破案情给予了极大的帮助。可以说，基于表情识别的情感计算系统是首款专门以非实验室表情数据的表情识别系统，其识别准确度与利用实验室数据的其他表情识别系统一定存在极大差异。

参考文献：

[1]P. Ekman and W. V. Friesen， “Constants across cultures in the face and emotion，” Journal of Personality and Social Psychology， vol. 17， no 2， p. 124- 129， 1971.

[2]Li Dongdong，Liu Jinlin，Yang Zhuo，Sun Linyu，Wang Zhe. Speech emotion recognition using recurrent neural networks with directional self-attention[J]. Expert Systems With Applications，2021，173.

[3]权学良，曾志刚，蒋建华，张亚倩，吕宝粮，伍冬睿.基于生理信号的情感分析研究综述[J/OL].自动化学报：1-17[2021-03-27].https：//doi.org/10.16383/j.aas.c200783.

[4]张力为，王甦菁，段先华.细粒度分层时空特征描述符的微表情识别方法[J/OL].分析机工程与应用：1-9[2021-03-27].

[5]Hussain Amir，Cambria Erik，Poria Soujanya，Hawalah Ahmad，Herrera Francisco. Information fusion for affective computing and sentiment analysis[J]. Information Fusion， 2021， 71.

[6]Venkata Rami Reddy Chirra，Srinivasulu Reddy Uyyala，Venkata Krishna Kishore Kolli. Virtual facial expression recognition using deep CNN with ensemble learning[J]. Journal of Ambient Intelligence and Humanized Computing，2021.

[7]aionlinecourse.com/tutorial/machine-learning/convolution-neuralnetwork. Accessed 20 June 2019

本文得到上海立信會计金融学院大学生创新创业训练计划（202111047016）基金支持. 李志超（1999-），男，上海人，计算机科学与技术专业本科在读。