基于语谱图和卷积神经网络的语音情感识别

2017-05-11 07:40田熙燕徐君鹏杜留锋
关键词:池化识别率特征提取

田熙燕,徐君鹏,杜留锋

基于语谱图和卷积神经网络的语音情感识别

田熙燕1,徐君鹏1,杜留锋2

(1.河南科技学院信息工程学院,河南新乡453002;2.南京邮电大学通信与信息工程学院,江苏南京210003)

针对语音情感识别的特征提取和分类模型构建问题,首先提出了一种基于语谱图的特征提取方法,将语谱图进行归一灰度化后,利用Gabor滤波器进行纹理特征提取,并采用主成分分析(principal componentanalysis, PCA)对特征矩阵进行降维;然后分析了卷积神经网络(convolutionalneuralnetworks,CNNs)并把其作为情感识别分类器;最后在EmoDB和CASIA库进行了不同的比对实验.实验结果取得了较高情感识别率,表明了所提特征提取方法的有效性以及CNNs用作情感分类的可行性.

语音情感识别;语谱图;Gabor滤波器;PCA;CNNs

情感作为人类的一种复杂心理行为,一直是心理学、神经学、人工智能等多个学科研究的重要内容[1].语音作为人类社会互相交流的重要工具,不但包含需传递的信息内容,还包含了丰富的情感元素,一直是情感研究的重要对象.用于识别的声学特征大致有韵律学特征、频谱相关特征、音质特征等,以及上述特征筛选组成的融合特征[2].这类特征往往仅集中在时域或频域中,而对于时、频特性关联变化的语音信号,常丢失一些有利信息[3].语谱图作为语音信号的可视化表示,不但能呈现语音时、频特征,而且能反映出说话人的语言特征.已有研究者利用语谱图,将图像处理结合到语音处理中并取得了不错的成果[4-5].

近年来深层神经网络(deep neuralnetwork,DNN)的研究取得重大突破[6].DNN多隐层的复杂结构使其具备了超强的非线性模拟能力,可以对数据实现近于人脑的高度抽象,2016年3月15日,世界顶级棋手李世石1∶4落败于谷歌AlphaGo,就是其强大能力的体现.语音识别领域,用DNN代替GMM计算HMM框架的输出分布,误识别率降低了近25%[7].CNNs是DNN成功模型之一,已在识别手写体等方面获得了成功应用.CNNs的局部感知可充分利用数据的局部特征,其采用的权值共享和降采样计算,既避免了传统识别算法中复杂的特征提取和数据重建,且相对于同隐层数的DNN,又有较低的网络复杂度[8].

本文提出一种从语谱图提取特征并利用CNNs进行分类的语音情感识别方法.该方法首先将语谱图灰度化处理,然后利用Gabor小波和分块PCA进行特征再提取和降维,最后送入CNNs进行识别分类.通过设计的多个比对实验,验证了方法的有效性.

1 语音情感特征提取

语音情感识别系统如图1所示.基于语谱图的情感特征提取和分类器的建立是关键部分,另外为提高运算效率,降维约减也是必不可少的一环.

图1 语音情感识别系统Fig.1 Speech emotion recognition system

1.1 语谱图Gabor滤波

语谱图特征再提取利用Gabor滤波器.Gabor滤波器具有良好的局部空域、频域分辨力,对相邻灰度纹理的分析很有效.提取前首先将语音进行预处理,获得语谱图后进行归一化灰度处理,灰度图例见图2.

图2 归一化语谱灰度图Fig.2 Normalized spectrum gray image

Gabor滤波器核函数定义为

式(1)、式(2)中:u和v表示Gabor的方向和尺度;z=( x, y)表示像素点坐标;σ为高斯半径, ku,v控制高斯窗宽度、震荡波长及方向,kv为滤波采样率.选取5个尺度8个方向的Gabor滤波器,

v∈(0,1,...,4),u∈(0,1,...,7).其他参数:σ=2、kmax=/2、fv=.

通过分块降采样和PCA,在保留贡献较大的情感因素成分的同时,使滤波后的特征矩阵,冗余信息大大约减,节省了下级分类模型训练和识别的计算开销.

2 卷积神经网络

CNNs采用前馈结构,一般由输入层、一组或多组“卷积+降采样”构成的特征提取层、多层感知器结构的全连接层和输出层几部分组成.每层有若干二维平面,每个平面包含若干神经元(节点),图3为经典LeNet-5[9]层结构.

图3 CNNs典型层结构Fig.3 Typicallayers structure ofthe CNNs

为提高输入中相对较小数据对训练效果的灵敏度,输入的提取特征首先进行数据规整,矩阵统一尺寸并归一化到[0,1].利用可训练的卷积核对输入层/降采样层进行卷积运算,通过激活函数映射得到卷积层Cm.为了从特征参数中获得更全面的信息,通常会使用多个不同的卷积核进行操作.一次完整的卷积过程核值不变(权值共享),相较于全连接型网络,大大减少了运算规模和存储量.另外,通过卷积运算,可以使输入的特征增强,噪声干扰降低.卷积的前后层映射关系用式(7)表示

式(7)中:xlj表示在第l个卷积层的第j个映射集合,xil-1表示第l-1个卷积层第i个特征集合;kli表示l层第i个特征集合与第j个映射集合之间的卷积核;θlj为加偏置项;fc(·)为激活函数(Sigmoid、Tanh函数等),“”表示不拓界二维卷积.

利用相邻分布点的相关性,对卷积层进行聚合操作得到Sn层,这种降采样聚合也称为池化(Pooling).池化通过对前层信息的特征筛选,提取了主要信息,减少了输出数目,缩小了运算规模,使训练不易出现过拟合.情感特征的池化能够减弱说话人和说话内容的不同带来的影响,使系统鲁棒性和泛化性得到提升.如共振峰的不同在语谱图中主要体现为能量的反转和移位,而这种反转移位通过池化计算而削弱,从而减小了发声系统和发声内容的差异对识别的影响[10].池化过程用式(8)表示

式(8)中:down(·)表示l-1层到l层的降采样运算方法,常用的方法有最大值池化和均值池化两种;βlj和θlj分别表示乘偏置和加偏置;fp(·)为池化层激活函数.

将最后一级降采样层各矩阵特征值依次取出排成一个向量,构成栅化层R.F层与R层全连接,其任一节点j输出可表示为

式(9)中:wi,j表示输入向量xi与节点j的连接权值,θj为节点阀值,fh(·)表示激活函数.

输出层处理多分类问题时,全连接常采用Softmax模型[8],通过迭代法最小化其代价函数J(w),来解决分类问题.Softmax代价函数如式(10)表示

式(10)中:f(·)表示输入xi为类tnj的概率;1{·}表示示性函数,即当大括号内判别式为真时,函数结果就为1,否则结果为0;为权值衰减项,用来惩罚训练中出现的过大参数,防止J(w)陷入局部最优.

整个网络的训练,可采用经典的误差反向传播BP算法[9],连接权值和阈值初始化时,应设定在均值为0的较小均匀区间内.

3 实验与分析

实验环境为Corei7 3.3 GHz,16 G内存,Ubuntu系统,软件为MATLAB 2012b和Caffe[11]框架.语音样本选取柏林德语情感库(Berlin emotionalspeech database,EmoDB)和中科院自动化所(CASIA)汉语情感数据库的数据.

EmoDB由10人(5男5女)录制,有高兴(Happy,71)、困倦(Boredom,81)、愤怒(Anger,127)、悲伤(Sad,62)、恐惧(Fear,69)、讨厌(Disgust,46)和中性(Neutral,79)7种情感,共535句.训练方案采用10折交叉验证,轮流将其中1人作验证集,剩余9人为训练集.CASIA库由4人(2男2女)录制,有高兴(Happy)、惊奇(Surprise)、愤怒(Anger)、悲伤(Sad)、恐惧(Fear)和中性(Neutral)6种,包含300句相同发音和100句不同发音,共9 600条.实验随机选取相同发音50句共1 200条用做训练网络,其中训练集1 000条.

目前语音情感识别中常用的分类器还有隐马尔可夫模型、K近邻分类和支持向量机(supportvectormachine,SVM)等,实验选取SVM和多隐层神经网络与CNNs进行比对.SVM分类器借助Libsvm工具[12]实现,核函数使用识别效果率高且参数易设的多项式核.CNNs在Caffe框架下搭建,采用两类结构,参数设置如下:

(1)采用单组“卷积+降采样层”,其他层与图1层结构相同.卷积核设置为6个,大小为10×8;降采样层大小1×4,采用最大值池化输出,全连接层节点数为500,表示为CNN-1.

(2)与图1层结构相同.第一组卷积核设置为6个,大小10×8,降采样层大小1×4;第二组卷积核设置为12个,大小8×6,降采样层大小1×3.两层均采用最大值池化输出,全连接层节点数为500,表示为CNN-2.

3.1 CNNs分类效果评价

融合特征用于语音情感识别是目前较常用的方法,文献[13]将基频、能量、前四共振峰等25类特征组合,采用SVM分类器,在WCGS库中进行了负面情绪识别,取得了较好效果.大量研究表明[2,7,10,13],梅尔倒谱系数(MelFrequency Cepstrum Coefficients,MFCC)在语音的情感识别上也有较好效果.实验选取文献[13]所提25类特征和1~15阶MFCC系数构成40维融合特征,分别在EmoDB、CASIA两个库中,对CNNs进行训练和分类效果测试,结果见表1和表2.

表1 Emo DB 7类情感CNN-1识别结果Tab.1 Seven types ofemotionalrecognition results by CNN-1 in EmoDB

表2 CASIA库6类情感CNN-1识别结果Tab.2 Six types ofemotionalrecognition results by CNN-1 in CASIA

表1为EmoDB全样本测试.与文献[13]81.3%的识别率比较,7种感情识别率约低6个百分点,但考虑到文献[13]只进行了负面情绪的评价,如果表1数据只选取愤怒、悲伤、恐惧和讨厌4类负面情绪,平均识别率约为82.6%.排除测试数据库因素,加入15维MFCC后,CNN-1在7类表情以及负面表情识别上,具有较好的分类效果.表2随机选取CASIA库相同发音25句,6类感情各100条用于测试.其中“高兴”的识别率较低,与“悲伤”和“中性”的区分度不好,而“中性”的识别效果最好.CNN-1由于隐层较少,非线性拟合效果并不突出,如果适当增加隐层,识别效果将得到提升.

3.2 提取特征及分类器效果评价

测试选取了上文所提的4类分类器,对基于语谱图提取的特征进行识别效果评测,结果见表3和表4.表中NN-1为两隐层BP神经网络,每个隐层500节点,对应CNN-1.测试样本选取方案与3.1相同.

表3 Emo DB 7种情感识别结果Tab.3 Seven types ofemotionalrecognition results in EmoDB%

表4 CASIA库6种情感识别结果Tab.4 Six types ofemotionalrecognition results in CASIA%

由表3和表4可知,在基于语谱图提取特征的感情识别上,CNN-2在两个语音库的测试结果都为最高,NN-1最低,SVM作为传统的分类器,在完成小样本数据集识别任务时,仍有较好的表现.同结构(隐层)的前提下,NN-1分别比CNN-1低1.4和1.7个百分点,而两组“卷积+降采样”结构,比单组有更好的识别性能.

综合各表实验结果可得,采用本文所提特征+CNN-2分类的识别率为最高,分析原因为:不同语音情感的频谱分布有较大差异,Gabor滤波器将这些差异作为局部纹理特征,有效地从语谱灰度图中提取出来;另外,在不同情感、不同人的情况下,语音的强度、速度和基频等都有着明显的差异,这些差异影响了频率能量分布,相较于其他网络,CNNs采用的局部卷积运算,不但可使语音特征增强、噪声降低,而且能更好地评价能量的分布;降采样操作具有尺度和移不变性,可以减小发声系统和语音内容的不同对情感识别的影响.

4 小结

语音情感识别效果的优劣,关键在于特征提取和分类器选择.基于此,本文在特征提取、维数约减、分类器构建等方面展开研究,提出了一种源自语谱图的特征提取方法,并将CNNs作为分类器应用到识别系统中.通过在EmoDB和CASIA库上进行的不同比对实验,首先验证了本文特征提取方法的有效性,其次比较了4种分类器在该特征下的识别效果,最后得出了较优的识别模型.但文中并未对更深层的CNNs进行研究和实验,未找出具有最佳正确率与效率比的识别模型,有待后续研究.

[1]PICARDR W.Affective Computing[M].Cambridge:The MIT Press,1997.

[2]韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014,25(1):137-50.

[3]VIDHYASAHARAN S,ELIATHAMBY A,JULIEN E.On the use of speech Parameter contours for emotion recognition[J]. EURASIP Journalon Audio,Speech,and Music Processing,2013,13:732-740.

[4]陶华伟,査诚,赵力,等.面向语音情感识别的语谱图特征提取算法[J].东南大学学报(自然科学版),2015,45(5):817-821.

[5]ZHENG W Q,YU J S,ZOU Y X.An experimental study of speech emotion recognition based on deep convolutional neural networks[C]//6th International Conference on Affective Computing and IntelligentInteraction,2015:827-831.

[6]LID,LIX.Machine learning paradigms forspeech recognition:Anoverview[J].IEEE Transactions on Audio,Speech,Lang.Process, 2013,21(5):1060-1089.

[7]周盼.基于深层神经网络的语音识别声学建模研究[D].合肥:中国科学技术大学,2013.

[8]ABDEL-Hamid O,MOHAMED A,JIANG H,et al.Convolutional neural networks for speech recognition[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing.2014,22(10):1533-1545.

[9]LE C Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[C]//Proc.IEEE,1998,USA:IEEE,1998:2278-2324.

[10]孙亚新.语音情感识别中的特征提取与识别算法研究[D].广州:华南理工大学,2013.

[11]JIAY.Caffe:An open source convolutionalarchitecture for fastfeature embedding[CP/OL].[2016-06-22].http://caffe.berkeley vision.org,2013.

[12]CHANG C C,LIN C J.LIBSVM:a library forsupportvector machines[EB/OL].[2016-05-20].http://www.csie.ntu.edu.tw/~cjlin.

[13]SANCHEZMH,VERGYRID,FERRER L,et al.Using prosodic and spectralfeatures in detecting depression in elderly males[C]// 2011 INTERSPEECH,2011:3001-3004.

(责任编辑:卢奇)

Speech emotion recognition based on spectrogram and CNNs

TIAN Xiyan1,XU Junpeng1,DU Liufeng2
(1.SchoolofInformation Engineering,Henan Institute ofScience and Technology,Xinxiang 453003, China;2.SchoolofTelecommunications and Information Engineering,Nanjing University ofPosts and Telecommunication,Nanjing 210003,China)

To solve the problem of feature extraction and classification in speech emotion recognition,first a feature extraction method based on spectrogram was proposed,the method uses Gabor filter to extract the texture feature from the normalized spectrum gray image,and reduce these feature matrix dimension using the PCA.Then the convolutional neural networks was used as an emotion recognition classifier.Finally the performance of this system was assessed by computer simulations and a higher recognition rates were achieved respectively on the EmoDB and CASIA database through comparative experiment in different conditions,the results showed that the method proposed in this paper is effective and the CNNs can be used successfully for emotion recognition as a classifier.

speech emotion recognition;spectrogram;Gabor filter;PCA;CNNs

TN912.34

A

1008-7516(2017)02-0062-07

2016-10-26

国家青年科学基金资助项目(61501260);河南省教育厅重点项目(5201029140111)

田熙燕(1980―),女,河南舞阳人,硕士,讲师.主要从事模式识别与信号处理技术研究.

猜你喜欢
池化识别率特征提取
基于高斯函数的池化算法
卷积神经网络中的自适应加权池化
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
基于卷积神经网络和池化算法的表情识别研究
基于Daubechies(dbN)的飞行器音频特征提取
提升高速公路MTC二次抓拍车牌识别率方案研究
用于手写汉字识别的文本分割方法
Bagging RCSP脑电特征提取算法