基于多模态情绪识别的研究进展*

2023-03-15 17:14殷梦馨倪娜尉怀怀安飞许欣悦武圣君刘旭峰王秀超

生物医学工程研究 2023年3期

殷梦馨,倪娜,尉怀怀,安飞,许欣悦,武圣君,刘旭峰,王秀超△

(1.陕西中医药大学公共卫生学院,咸阳 712046;2.空军军医大学军事医学心理学系,西安 710032)

0 引言

情绪是人对客观事物的态度体验以及相应的行为反应,通常包含主观体验、外在表现和生理唤醒三部分。情绪无论在个体还是人际交往中都具有重要意义。因此,近年来,对情绪识别的研究逐渐成为不同领域的研究焦点。

在现有研究中,根据采集信号的性质,情绪识别方法一般分为两大类:一种是基于人体的行为学指标进行识别,如易于采集的面部表情、手势、姿势等表现信号。另一种是基于生理信号进行识别,如脑电、肌电、皮肤电等,这类信号虽然采集条件极为严格,但由于其难以被掩饰,因而具有可靠的识别结果。近几年,研究者在将情绪变化与各类信号建立稳定的联系时发现,仅靠单一信号难以全面反应情绪状态。Poria等[1]分别探讨了现有的单模态和多模态情绪识别方法,并进行批判性分析后证实,多模态情绪识别的性能优于单模态。鉴于多模态情绪识别优势,本文将重点对基于神经生理、外在行为表现模态及基于多模态情绪识别的常用方法和研究现状进行梳理,并对未来的研究方向进行展望。

1 基于神经生理信号的情绪识别研究

情绪的发生发展与神经系统的活动相互影响。因此,可以在情绪变化和生理信号之间建立一个标准的固定关系,以此判断情绪状态。为更好地区分生理信号,根据神经系统产生的机理不同,人体的生理信号可分为两类:一类与中枢神经系相关,包括脑电信号及大脑的磁场活动等指标;另一类则与周围神经系统相联系,包括皮肤电信号、心电信号、呼吸信号、体表温度和肌电信号等[2]。

1.1 脑电信号

已有研究表明,情绪起源于大脑皮层和皮层下神经的协同作用过程,也受下丘脑、边缘系统、网状结构和神经内分泌系统的共同调节。当神经系统受到情绪刺激时,很难控制和伪装神经系统的活动。因此,来自人脑的脑电信号可真实、可靠地实现情绪识别[3]。

脑电信号可在二维模型(效价和唤醒)上独立进行情绪识别,因此是情绪识别最常用的生理信号之一[4]。近年来,随着脑科学的不断发展和信号处理技术的不断进步,该领域也取得了一定的研究成果。王斌等[5]面向多通道脑电信号,提出一种基于条件格兰杰因果检验(CGC)的因果网络情绪识别方法,将节点之间的因果连接关系作为特征,分别输入支持向量机和K最近邻分类器进行分类训练,识别率分别为 75.3% 和 78.4%。此外,由于脑电信号的频率、时间和空间特征对情绪识别至关重要,为更全面地获取多通道脑电信号的频率、空间和时间信息,有研究选择多维特征结构作为人工神经网络的输入,提出一种基于深度可分离卷积的神经网络模型,提取输入结构的频率和空间特征,最后使用有序神经元长短期记忆(ordered neuron long and short term memory,ON-LSTM) 网络进行建模。利用所提模型在DEAP 数据集上进行实验,唤醒和效价的情绪识别平均准确率分别为 95.02% 和 94.61%[6]。

1.2 心电信号

典型心电图心动周期中的波形是有规律可循的,通常含有P波、QRS波和T波,其中以QRS波群最为显著。在QRS波段中,R峰最为明显,可通过测量R峰出现的时间间隔确定心率变异性,不同的心率变异性对应不同的情绪状态。在一些关于焦虑和抑郁的研究中发现,心率变异性也是诊断焦虑和抑郁等负性情绪的有效指标[7]。因此,越来越多的心理学研究支持心率变异性与情绪反应之间的联系。

为探究主观情绪与客观生理信号间的联系,进一步丰富情绪识别相关研究。易慧等[8]提出基于心率变异性特征信息进行多种情绪分类的识别方法。在实验条件下,采用小波变换技术进行降噪处理,提取心率变异性的时域、频域等特征参数,最后利用改进的支持向量机算法实现情绪分类,对于不同情绪的识别精度可达到 60%～75%。然而,现实应用中,为满足实时性要求,多选择在线识别情绪,因此,减小个体差异,建立一个可泛化的情绪识别模型将成为必要。He等[9]为解决现实需求,采用一种基于心电信号的在线跨主体的情绪识别方法。在分类器训练阶段,无监督域自适应(unsupervised domain adaptive,UDA)通过将源数据和目标数据投影到可以训练分类器的共享子空间,以减少主体间差异;在线识别阶段,引入在线数据自适应(online data adaptation,ODA)方法减少主体内差异,以自适应时变心电信号,然后通过训练的分类器可获得在线情绪识别结果。该方法在Dreame上识别准确率分别为72%和71%,并且对在线场景中的时变心电信号具有鲁棒性。

1.3 皮肤电信号

相比脑电和心电信号,皮肤电信号是易被忽视的一项生理指标。在人体情绪发生变化时,会影响皮肤的汗液分泌,导致皮肤电水平变化,对皮肤电信号进行采集,根据其变化特征,可对情绪进行分类研究。其中,皮肤电导水平和电导反应是反应情绪的良好指标。国内有研究发现,皮肤电反应基础水平的个体差异明显,且与个性特征相关,基础水平越高,表明越紧张、内向、情绪不稳定、反应越敏感、越焦虑不安;基础水平越低,表明越外向、开朗、自信、心态比较平衡、心理适应好[10]。

皮肤电信号通常与情绪的唤醒程度密切相关[11]。鉴于皮肤电信号自身特性,单模态下进行情绪识别的准确率较低,且因个体差异性,识别模型泛化能力差。何国柱等[12]为提高皮肤电信号的情绪识别准确率和泛化能力,通过皮肤电信号构建情绪识别机器学习模型,对皮肤电信号进行多维度特征提取、归一化处理以及情感标签分析,并在此基础上采用基于树模型的决策树和随机森林算法实现情绪的有效分类,获得了较好的分类准确率和泛化能力,在唤醒和效价度维度上的分类准确率分别达到92.00%和90.90%。

1.4 呼吸信号

在呼吸信号的各项参数中,由于呼吸频率在不同情绪状态下存在差异性,因此,可作为情绪识别的重要特征参数之一。呼吸频率降低说明处于放松状态;深呼吸、急促呼吸可表示快乐或愤怒;呼吸暂时中断,表示紧张;不规则呼吸节律是负效价和唤醒的信号,其中,浅而急促的呼吸暗示集中注意或恐惧,浅呼吸和缓呼吸与消极情绪有关[13]。

在现有研究中,基于呼吸信号进行情绪识别的研究文献匮乏,呼吸信号的特征库特征数量不够丰富,因此,在已有的大部分研究中,通常将呼吸信号的各项参数结合其他信号特征以实现情绪识别。但近些年也有针对上述问题提出基于呼吸信号进行情绪识别的新方法。相关研究引入EEMD信息熵算法,将构成呼吸信号的EEMD信息熵特征集输入支持向量机和随机森林,采用十折交叉检验与网格寻优,确定最优算法参数,构建呼吸信号的情绪识别模型,一对一情绪识别率最高达到了83.33%[14]。

试验井钻遇目的地层后油气活跃，为平稳地层压力，将钻井液密度从 1.22g·cm-3提高至 1.44g·cm-3，进行短程起下钻测油气上窜速度时，下钻至1580m时发生严重地层失稳漏失。进行常规堵漏后继续钻至完钻井深2227m，短程起下钻测得油气上窜速度128m·h-1，最低密度为 1.31g·cm-3，最高全烃值 90%，井控风险极大，必须循环提钻井液密度。当密度提至1.52g·cm-3后，再次发生井漏，循环漏速 32m3·h-1。

1.5 皮肤温度

皮肤温度会随情绪状态不同而产生变化。当人处于极度兴奋的状态时,常常会变得面红耳赤,这是由于血液循环加速会导致皮肤温度上升;而受到惊吓时产生恐惧情绪,会使人面无血色,体温下降。通过测量指尖皮肤温度发现,在放松状态下,扩张的血管会使指尖变暖;在压力或焦虑时,血管收缩指尖变冷。

皮肤温度在情绪效价识别中有一定偏向性,相对于消极状态,更容易识别积极状态,在情绪识别中只能用于探测唤醒维度。此外,皮肤温度的变化需要一定时间,且整体变化幅度较小,因此,皮肤温度常作为辅助手段用于提高情绪识别的准确率。在最近的一项研究中,Tan等[15]采用脉冲神经网络(SNN)为多模态数据建立一个情感识别系统,具体使用NeuCube框架对皮肤温度、呼吸信号、心电信号等情绪特征进行分类。结果表明,在应用特征级融合时,该方法对二元效价分类的准确率为73.15%。

1.6 肌电信号

肌电信号主要用于研究认知情绪和生理反应之间的相关性。其采集电极的放置位置范围较广,包括咀嚼肌、皱眉肌、颧大肌和斜方肌等。有研究表明,皱眉肌的电信号活动与愤怒和惊讶等情绪状态间存在显著相关性;面部的肌电信号与不同情绪状态(快乐或不快乐)相关;检测咀嚼肌的肌电图,可确定受试者是否处于愤怒状态[16]。

在情绪识别研究中,肌电信号可对情绪一维效价进行较为准确的测量。因此,在实验条件允许下,肌电信号常作为辅助信号协同其他生理电信号进行情绪识别。目前,由于采集眼电和肌电信号的设备成本低、无线便携、可穿戴,已被广泛应用于情感识别。Kose等[17]使用人工神经网络和时域特征组合,实现了眼电信号和肌电信号的最大分类精度,整体识别准确率达到98%。此外,由于人机界面和医疗保健等领域的发展,利用肌电信号单模态进行情绪识别的潜能也逐渐被发掘。Shiva等[18]尝试在效价情感维度中使用面部肌电图信号的光谱特征,对情绪进行分类,对采集的信号进行短时傅立叶变换,并以1 s的间隔从信号中提取峰值频率值,利用支持向量机分类器对提取的特征进行分类,识别准确率达到61.37%。

2 基于行为表现的情绪识别研究

情绪有多种表达方式,除在情绪产生时伴有生理指标的变化,同时也伴有一定外在行为表现的变化。因此,可通过身体的某些变化来进行情绪识别。在以往研究中,情绪的自动识别研究主要集中于面部表情和语音语调上,但随着动作捕捉技术的发展,姿态情绪识别成为情绪识别中不可或缺的一环。据不同文献研究发现,在众多行为表现模态中,面部表情、语音语调、身体姿态在情绪识别中可取得良好的识别效果。本节将简要综述该类模态的识别准确率。

2.1 身体姿态

目前关于非语言情绪识别的研究大多集中于面部表情,但事实上,一些情绪可能更易被肢体动作所表征。目前的研究表明,特定的身体姿态可被视为特定情绪状态的表达。相对于情绪识别的其他行为模态,人体姿态更具有直观性、不易被隐藏,且由于不受大脑皮层直接控制,能更真实地反应原始情绪过程。

近年来,图卷积网络越来越受到研究人员的关注,而人体骨骼结构是一种天然的图数据,为基于骨骼点的肢体情绪识别提供了一个新途径。Zhuang等[19]在考虑关节的非局部相关性以及输入的噪音时,提出全局图卷积收缩网络(global graph convolution shrinkage network,G-GCSN)。其中,全局连接用于构建适用于情感识别的骨架自然连接图,将情感作为一个整体来感知图卷积收缩块,减少噪音影响,从而有效提取与情感相关的特征。G-GCSN在步态情绪数据集(E-Gait)上的识别准确率达到81.50%。

2.2 面部表情

心理学家通过研究发现,日常生活中人们通过语言进行信息传递的信息量,仅占总信息量的7%,而通过表情传递的信息量则占55%。通常情况下,个体可表现出大量的面部表情,并且多数情况下,面部表情与情绪的对应关系趋于稳定[20],且面部表情对六种基本情绪的表现具有普遍性。因此,分析面部表情蕴涵的信息可很好地了解人类的意识和心理活动。

2.3 语音

语音在交流过程中承载着重要信息,不仅包含文字符号信息,也含有人们在不同情绪状态下的情绪信息。既往研究发现,情绪变化和认知功能损伤均会对语音产生的生理机制(如与发声相关的肌肉系统、神经系统)和协调过程产生直接影响。此外,语音语调对基本情绪和非基本情绪的识别有着良好表现,其中,悲伤和愤怒最容易识别,其次是恐惧和快乐,因此,情绪的语音声学特征成为情绪识别的另一重要途径。

由于说话者之间的情感差异,其性能非常依赖于从语音信号中提取的特征,如韵律特征、音质特征以及谱特征三种声学特征参数,因此,建立有效的特征提取和分类模型仍是一项具有挑战性的任务。Zhang等[23]提出一种基于深度卷积神经网络和双向长短时记忆网络的注意力模型用于语音情绪识别,通过提取三通道对数梅尔频谱图(静态、增量和增量-增量)作为深度卷积神经网络的输入特征,在EMO-DB和IEMOCAP数据库上的实验分别获得了87.86%和68.50%的平均识别准确率。近年,也有研究将语音情绪识别应用于实际场景。李尚卿等[24]通过分析驾驶员语音的频谱特征,利用萤火虫算法优化概率神经网络并构建识别模型,实现驾驶员路怒情绪的识别,模型的识别准确率为93.00%。

2.4 眼动

眼动信号可以提供丰富的情绪特征信号,包括瞳孔直径、注视信息和扫视信号三个常见的基本特征,以及相关的统计特征。其中,瞳孔直径在情绪识别中被广泛关注。

由于眼动信号会根据不同的情绪状态在时域和频域上发生变化,仅采用时域或频域分析对于性能的提升有很大局限性。因此,Wang等[25]综合利用眼动信号时域和频域特征的变化来检测青少年情绪状态,使用短时傅立叶变换对原始眼动数据进行处理和转换,随后提取扫视、注视和瞳孔直径等时域和频域特征,利用支持向量机在特征级融合策略上对积极、消极、中性三种情绪状态识别的准确率达到88.64%。为挖掘眼动信号的深层特征,得到更好的情绪识别准确率,有研究提出一种带恒等映射的浅层卷积神经网络的情绪识别方法[26]。该方法与当前最先进的算法相比,在 MAHNOB-HCI数据集上,情绪识别准确率在效价和唤醒度上分别提升了11.70%和10.50%。

3 基于多模态的情绪识别研究

迄今为止,大多数研究工作都集中在单模态数据的使用,尽管已在各模态信号处理方面取得了很大进展,但使用单模态数据进行情绪识别仍有局限性。为提升情绪识别的准确性、鲁棒性以及应用性,利用多模态进行情绪识别逐渐被广泛采用。

在神经生理模态中,脑电和个别与心肺相关的信号,如心电或脉搏信号,因其生理特点,可独立识别情绪的二维效价和唤醒程度。呼吸信号对于不同情绪状态的检测有限,仅限于对恐慌、恐惧、注意集中或抑郁的识别。皮肤电信号和皮肤温度仅能检测唤醒程度,而肌电信号只能检测效价水平[27],因此,需结合其它生理信号进行情绪识别,以提高识别率。在生理信号融合方面,通常将周围生理信号进行融合或者结合中枢生理信号,以提高情绪识别的精确度和多样化的情绪分类。在最新研究中,Zhang等[28]使用客观的脑电信号和外周生理信号来识别情绪,对提取的关键特征创新性地采用平均阈值法获得每个参与者的标记阈值,解决个体差异,最后采用决策级融合算法开发用于情绪识别的集成学习模型。研究发现,多模态融合优于单模态分类,效价和唤醒分别可达76.16%和71.91%。虽然目前常用的情绪识别方案大多结合脑电信号,且已获得了良好的识别结果,但脑电信号相较于外周生理信号采集困难,因此,有研究把外周生理信号作为一种有效的补充方案来进行情绪识别。Pan等[29]利用肌电、心电、呼吸和皮肤电导率等外周生理信号提出一种融合非线性特征和团队协作识别策略的新方法,该方法的有效性和普适性通过奥格斯堡数据库和生理信号情感分析数据库得到验证,同时也间接证明了融合多种外周生理信号进行情绪识别有巨大的潜能。

虽然身体姿态、面部表情、语音及眼动四种模态在情绪识别中取得了较好效果,但在模态选择与融合上仍需注意一些问题。首先,面部表情可独立识别二维模型中的情绪,但面部表情本身可能包含多种误导信息,仅用单模态进行情绪识别会造成一定误差。而在语音方面的研究中,由于声学特征提取具有很大的主观性,因此,在识别准确率上相较于面部表情存在很大差距。眼动信号和身体姿态对情绪识别的研究较浅,大多数研究将眼动信号和脑电信号相结合进行情绪识别,因此,对于单独使用眼动追踪信号进行情绪识别是否可靠,尚无定论。利用身体姿态进行情绪识别的相关研究发现,在维度情感预测方面,姿态比面部表情能提供更多的预测信息,因此很多维度情感预测是基于身体姿态进行[30]。Castellano等[31]的研究也表明,鉴于单峰情感识别系统的性能,基于手势的情感识别效果最优,其次是基于语音的情感识别系统和面部表情的情感识别系统。因此,为克服单模态信息的偏差,当前情绪识别的研究工作应更关注于将面部表情、语音、肢体动作等特征信息融合,以提高情绪识别的鲁棒性和准确性。受多模态信息集成性和互补性的优势启发,Du等[32]提出融合语音、肢体动作和面部表情的两阶段多模式情绪识别神经网络,通过神经网络与自组织映射层融合特征后,识别率可达87.60%,与单峰方法相比,识别精度最高可提高30%,在实际应用中对模型进行测试,结果表明其可快速稳定地识别人类情绪。

此外,基本情绪理论表明,情绪被激发的同时会伴随各种神经生理和外部行为反应系统的活动[33]。因此,将内部信号特征和外部信号特征结合可在一定程度上提升情绪的识别率。在诸多研究中,脑电信号与眼动信号或面部表情信号相融合进行情绪识别,均展现出良好的识别率。Wu等[34]基于涉及情绪的脑功能连接网络,利用深度典型相关分析,将脑电信号的功能连通性特征与眼动或其他生理信号的特征相结合,构建了多通道情绪识别模型,识别准确率在SEED数据集上为(95.08±6.42)%,结果表明,脑电功能连接网络特征与眼动数据具有互补性。目前在行为与神经生理模态的情绪识别方案大多仅采用两种模态融合。但在最近一项研究中,研究者为语音、脑电以及面部表情三种模态分别设计了一个深度学习模型,通过最优权重分布算法搜寻各模态的可信度,并进行决策级融合,以获得更全面、准确的结果。该融合方法在MAHNOB-HCI数据库的唤醒效价两个维度上分别得到了90.25%与89.33%的准确率[35]。

综上所述,虽然单模态通过改进计算建模可达到较高的识别率,但缺乏实际应用价值。具体来说,单模态在人机交互过程中存在一定局限且效率低,而多模态融合技术通过充分利用情绪信息之间的互补性,可提高交互效率,提高识别率。在模态融合方面,通过回顾国内外研究发现,在众多生理信号中,脑电信号作为中枢神经系统信号,比其他信号能更准确、更客观地反映人的情绪状态变化,因此可认为基于脑电信号的多模态融合能显著提高情绪识别的结果。在行为模态中,通常会选择眼动和面部表情信号与其他信号进行融合。例如融合眼动、面部表情和脑电信号进行情绪识别,既可避免受试者伪装情绪又可以反应其潜意识行为,从多方面、多角度考察受试者的情绪状态。

4 展望

本文基于多模态情绪识别研究的三个主要层面,对情绪识别的主要方法进行了综述,概述了不同方法自身的特性,及其在单一模态和多模态下的识别率。随着深度学习算法的快速发展,情绪识别无论采用单模态,还是多模态方案,识别率均得到提高。由于单模态始终缺乏多样性,仅通过单一模态信号无法全面理解复杂的人类活动,相较之下,多模态的应用更具优势。因此,跨模态学习作为一种让人工智能可以更准确模拟人类实际行为和心理活动的技术,有望在未来获得全面发展。后续可基于模态自身特点并结合单模态的表现,针对不同应用场景选择合适的模态进行混合识别,提高现实应用的可靠性和可行性。例如在精神疾病领域,因抑郁患者的脑电和眼动指标明显异于常人,可将它们作为区分正常和异常的辅助性指标。此外,未来也应推动情绪模型的量化研究。当前进行的情绪识别工作大多是对情绪的效价进行区分,在情绪唤醒层面的研究不多。然而,对于情绪唤醒程度的准确识别能更加明确情绪状态,期待未来能进一步探索模型的量化问题,深化情绪识别领域研究的现实意义。