面向语音与面部表情信号的情感可视化方法

2016-09-26 02:16韩志艳王健渤海大学辽宁锦州121000

电子设计工程 2016年11期

韩志艳，王健（渤海大学辽宁锦州 121000）

面向语音与面部表情信号的情感可视化方法

韩志艳，王健
（渤海大学辽宁锦州 121000）

为了提高情感可视化的鲁棒性，该文提出了一种面向语音与面部表情信号的情感可视化方法。首先对获取的情感信号进行特征提取，并将其作为神经网络的输入，神经网络的输出即为相应的图案信息，然后通过图像生成模块生成可视化图像，实现对中性、高兴、愤怒、惊奇、悲伤和恐惧六种人类基本情感的可视化。该方法通过组合不同模式的情感特征进入一幅图像中，为人们创造了情感的可读模式，可以直观地展示情感的分类结果。仿真实验结果表明，仅通过语音信号进行可视化的平均正确率是78.0％，而通过该文方法的平均正确率是91.8％，具有良好的鲁棒性和易懂性。

语音信号；面部表情信号；情感可视化；特征提取

近年来，情感信息的研究工作在人机交互领域中已经成为一个热点问题［1-4］。随着社会信息化的推进和网络应用的日益广泛，信息源越来越庞大。对海量信息之间的复杂关系的努力探索，促使了信息可视化这一崭新科学技术的出现。情感信息可视化的研究任务是将大规模复杂数据信息转换为直观图形或图像，充分发挥人们对可视模式的形象思维优势，达到观察、浏览、研究、探索、发现隐藏在大规模数据内部的特征和规律的目的［5-8］。目前情感可视化的研究主要停留在单模式情感可视化的水平，即只从单一信息通道中获得当前对象的情感状态，如从语音信号、面部表情信号或生理信号（血压、体温、脉搏、心电、脑电、皮肤电阻等）等［9-12］。虽然单一地依靠语音信号、面部表情信号或生理参数来进行可视化取得了一定的成果，但却存在着很多局限性，因为人类是通过多模式的方式表达情感信息的，它具有表达的复杂性和文化的相对性［13］。比如，在噪声环境下，当某一个通道的特征受到干扰或缺失时，多模式方法能在某种程度上产生互补的效应，弥补了单模式的不足。所以研究多模式情感可视化的方法十分必要［14］。由于生理信号的测量必须与身体接触，因此对于此通道的信号获取有一定的困难，所以语音和面部表情作为两种最为主要的表征情感的方式，在情感识别方面得到了广泛的研究，但是其只能通过文字来表达识别结果，显示不直观［15-16］。因此本文中提出了一种面向语音和面部表情信号的情感可视化方法，可以应用到情感识别结果的表达上，实现了情感信息的生动描述和高效表达。

1　可视化系统总体结构

如图1所示为本可视化系统的总体结构框图，其包括情感信号获取、情感信号预处理、情感特征参数提取、神经网络设计及图像生成模块。

2　情感信号获取

首先通过噪声刺激或者观看影视片段等诱发方式诱发人的情感，再同步获取相应情感状态下的语音信号和面部表情信号，并将二者绑定存储。其中利用麦克风输入语音数据，然后利用计算机以11.025 kHz的采样频率、16 bit的量化精度进行采样量化，获得相应的语音信号；对面部表情信号则是通过摄像机拍摄，每幅图像大小为256×256像素。

图1　系统总体结构图

3　情感信号预处理

利用一阶数字预加重滤波器对获取的语音信号进行预加重处理，其中利用的预加重滤波器的系数取值范围为0.93～0.97之间，本文取0.937 5。接下来以帧长256点的标准进行分帧处理，并对分帧后的语音信号加汉明窗处理，再利用短时能零积法进行端点检测。

对获取的面部表情信号，首先用肤色模型进行脸部定位，然后进行图像几何特性归一化处理和图像光学特性归一化处理，其中图像几何特性归一化主要以两眼位置为依据，而图像光学特性的归一化处理包括先用直方图均衡化方法对图像灰度做拉伸，以改善图像的对比度，然后对图像像素灰度值进行归一化处理，使标准人脸图像的像素灰度值为0，方差为1，如此可以部分消除光照对识别结果的影响。其归一化后的图像大小为75×100像素。

4　情感特征参数提取

4.1语音情感特征参数提取

以往对情感特征参数的有效提取主要以韵律特征为主，然而近年来通过深入研究发现，音质特征和韵律特征相互结合才能更准确地识别情感。为了尽可能地利用语音信号中所包含的有关情感方面的信息，文中提取了16个语音情感特征，其中前9个语音情感特征为韵律特征，后7个语音情感特征为音质特征。

前9个语音情感特征分别为：语句发音持续时间与相应的平静语句持续时间的比值、基因频率平均值、基因频率最大值、基因频率平均值与相应平静语句的基因频率平均值的差值、基因频率最大值与相应平静语句的基因频率最大值的差值、振幅平均能量、振幅能量的动态范围、振幅平均能量与相应平静语句的振幅平均能量的差值、振幅能量动态范围与相应平静语句的振幅能量动态范围的差值。

后7个语音情感特征分别为：第一共振峰频率的平均值、第2共振峰频率的平均值、第三共振峰频率的平均值、谐波噪声比的均值、谐波噪声比的最大值、谐波噪声比的最小值、谐波噪声比的方差。

4.2面部表情特征参数提取

目前面部表情特征的提取根据图像性质的不同可分为静态图像特征提取和序列图像特征提取，静态图像中提取的是表情的形变特征，而序列图像中提取的是运动特征。本文以静态图像为研究对象，采用Gabor小波变换来提取面部表情特征参数，具体过程如下：

1）将预处理后的面部表情图像网格化为25×25像素；

2）用Gabor小波和网格化后的图像进行卷积，公式如下：

其中，r（x，y）为Gabor小波变换后的结果；I（ε，η）为对应像素坐标（ε，η）的像素值；数算子，σ是与小波频率带宽有关的常数，取值为的取值决定了Gabor滤波的波长，取值为0，1，2，u的取值表示Gabor核函数的方向，取值为1，2，3，4，5，6，表示总的方向数，取值为6；ε，η为积分变量；

3）取模‖r（x，y）‖的均值和方差作为面部表情特征参数；

4）用主成分分析法PCA对上述面部表情特征参数进行降维处理，文中将初始的75*100*2，即15 000个维数降为30维。

5　神经网络设计

如图2所示，所述的神经网络为三层小波神经网络，其中输入层有46个神经元，激励函数为线性变换，隐含层有12个神经元，激励函数为小波函数，输出层有3个神经元，激励函数为Sigmoid函数。

图2　神经网络结构示意图

6　图像生成

6.1图像主颜色编码

通过给屏幕相应位置的RGB赋值，即通过设定图像红色饱和度R、绿色饱和度G和蓝色饱和度B的值，来获得图像的主颜色信息。红绿蓝三基色幅度全为0得到黑色，红绿蓝三基色幅度全为1得到白色，各个基色对颜色的贡献是加色法则。本文取R=0，G=0，B=0，即主颜色为黑色。

6.2图案信息编码

如图3所示，将16个语音情感特征和30个面部表情特征共46个情感特征作为神经网络的输入，神经网络的输出即为相应的图案信息，神经网络的输出层有3个神经元，均采用二进制编码，共有8个不同的码，其中只用前6个码，依次对应着中性、高兴、愤怒、惊奇、悲伤和恐惧6种人类基本情感，即000代表中性情感，001代表高兴情感，010代表愤怒情感，011代表惊奇情感，100代表悲伤情感，101代表恐惧情感。可以通过改变相应位置的三基色RGB的饱和度来显示不同质地的图案。本文取R=1，G=1，B=1，即白色质地的图案。

6.3图像合成

图像合成时，把图像主颜色信息与图案信息融合在一幅图像中在显示屏上显示。具体为先获得图像的主颜色信息，然后用图案信息置换相应位置的主颜色信息，获得相应的情感可视化图像。

图3　图案信息编码示意图

7　仿真实验

图4（a）所示为中性情感的可视化效果图，图案信息为一条横线；图4（b）为高兴情感的可视化效果图，图案信息为一条横线；图4（c）为愤怒情感的可视化效果图，图案信息为一条竖线；图4（d）为惊奇情感的可视化效果图，图案信息为两条横线；图4 （e）为悲伤情感的可视化效果图，图案信息为两条竖线；图4（f）为恐惧情感的可视化效果图，图案信息为十字线。图中可以直观地展示情感的分类结果，与现有技术相比，具有良好的易懂性。

图4　可视化效果图

为证明文中方法的可视化效果，将单模式条件下的可视化效果与多模式条件下的可视化效果进行对比。原始训练样本集包含每种情感的200条语音数据样本与200条面部表情数据样本，测试集包含每种情感的100条语音数据样本和100条面部表情数据样本。在单模式条件下，仅通过语音信号进行可视化的正确率如表1所示；在多模式条件下，通过用本文方法进行可视化的正确率如表2所示。注：表中第行第列的元素表示真实情感状态是的样本被判别成的比例。

由表1和表2可知，仅通过语音信号进行可视化的平均正确率是78.0％，而本文提出的方法可视化的平均正确率是91.8％。因此，单纯依靠某个通道信号进行可视化在实际应用中会遇到一定的困难，因为人类是通过多模式的方式表达情感信息的，所以研究多模式情感可视化的方法十分必要。

表1　仅通过语音信号进行可视化的正确率

8　结　论

文中通过组合语音信号和面部表情信号两种不同模式的情感特征进入一幅图像中，为人们创造了情感的可读模式，可以直观地展示情感的分类结果。同时提取了语音信号的音质特征和韵律特征，能够更全面地提取蕴含在语音信号中的情感信息，使可视化的结果更加准确。采用Gabor小波变换来提取面部表情特征参数，它能够同时检测多尺度、多方向的纹理变化，而且对亮度和人脸姿态的变化不敏感，使得提取的面部表情特征参数鲁棒性更好。而且本文通过神经网络来对图案信息进行编码，有效地提高了情感的可视化正确率，缩短了可视化时间，实现了效率与时间的双赢。但是本文只是针对特定文本的情感进行可视化，距离实用还有一定的距离，所以非特定文本的情感可视化将成为我们下一步的研究方向。

表2　本文提出的方法

［1］余伶俐，蔡自兴，陈明义.语音信号的情感特征分析与识别研究综述［J］.电路与系统学报，2007，12（4）:76-84.

［2］Mao X，Chen L J.Speech emotion recognition based on parametric filter and fractal dimension［J］.IEICE Trans on Information and Systems，2010，93（8）:2324-2326.

［3］Attabi Y，Dumouchel P.Anchor models for emotion recognition from speech［J］.IEEE Trans on Affective Computing，2013，4（3）:280-290.

［4］Zheng W M，Xin M H，Wang X L et al.A novel speech emotionrecognitionmethodviaincomplete sparse least square regression［J］.IEEE Signal Processing Letters，2014，21 （5）:569-572.

［5］Mao Q R，Dong M，Huang Z W，et al.Learning salient features for speech emotion recognition using convolutional neural networks［J］.IEEE Trans on Multimedia，2014，16（8）: 2203-2213.

［6］梁路宏，艾海舟，徐光，等.人脸检测研究综述［J］.计算机学报，2002，25（5）:449-458.

［7］Rahulamathavan Y，Phan R C-W，Chambers J A，et al.Facial expression recognition in the encrypted domain based on local fisherdiscriminant analysis［J］.IEEE Trans on Affective Computing，2013，4（1）:83-92.

［8］文沁，汪增福.基于三维数据的人脸表情识别［J］.计算机仿真，2005，25（7）:99-103.

［9］Zheng W M.Multi-view facial expression recognition based on group sparse reduced-rank regression［J］.IEEE Trans on Affective Computing，2014，5（1）:71-85.

［10］Petrantonakis P C，Hadjileontiadis L J.Emotion recognition from EEG using higher order crossings［J］.IEEE Trans on Information Technology in Biomedicine，2010，14（2）:186-197.

［11］林时来，刘光远，张慧玲.蚁群算法在呼吸信号情感识别中的应用研究［J］.计算机工程与应用，2011，47（2）:169-1172.

［12］Zacharatos H，Gatzoulis C，Chrysanthou Y L.Automatic emotion recognition based on body movement analysis:a survey［J］.IEEE Computer Graphics and Applications，2014，34 （6）:35-45.

［13］Zeng Z，Pantic M，Roisman G I，et al.A survey of affect recognition methods:audio，visual，and spontaneous expressions［J］.IEEE Trans on Pattern Analysis and Machine Intelligence，2009，31（1）:39-58.

［14］Kim J，Andre E.Emotion recognition based on physiological changes in music listening［J］.IEEE Trans on Pattern Analysis and Machine Intelligence，2008，30（12）:2067-2083.

［15］黄程韦，金赟，王青云，等.基于语音信号与心电信号的多模态情感识别［J］.东南大学学报:自然科学版，2010，40（5）: 895-900.

［16］Sayedelahl A，Araujo R，Kamel M S.Audio-visual feature-decision level fusion for spontaneous emotion estimation in speech conversations：2013 IEEE International Conference on Multimedia and Expo Workshops，2013［C］.USA：IEEE，2013：1-6.

Emotion visualization method for speech and facial expression signals

HAN Zhi-yan，WANG Jian
（Bohai University，Jinzhou 121000，China）

In order to improve the robustness of emotion visualization，this paper proposes a new emotion visualization method for speech and facial expression signals.Firstly，extracts emotion feature parameters.Then makes the feature parameters as the input of neural network，the output of neural network is the corresponding pattern information，and then generates a visual image by image generation module，and finally accomplishes the visualization for six kinds of human emotion（neutral，joy，anger，surprise，sadness，fear）.This method creates emotion readable mode for people by combining the emotion features of different patterns into an image.That can visually show emotion classification results.The simulation results show that the average correct rate is 78.0％only through speech signal，while the average correct rate is 91.8％through the proposed method. That is robust and easy to understand.

speech signal；facial expression signal；emotion visualization；feature extraction

TN101

1674－6236（2016）11-0146-04

2016-02-17稿件编号：201602056

国家自然科学基金（61503038；61403042）

韩志艳（1982—），女，内蒙古赤峰人，博士，副教授。研究方向：情感识别、情感可视化。

面向语音与面部表情信号的情感可视化方法

1 可视化系统总体结构

2 情感信号获取

3 情感信号预处理

4 情感特征参数提取

5 神经网络设计

6 图像生成

7 仿真实验

8 结 论

1　可视化系统总体结构

2　情感信号获取

3　情感信号预处理

4　情感特征参数提取

5　神经网络设计

6　图像生成

7　仿真实验

8　结　论