基于跨模态融合ERNIE的多模态情感分析研究

2022-12-12 10:47陶全桧安俊秀陈宏松
成都信息工程大学学报 2022年5期
关键词:音频模态注意力

陶全桧 安俊秀 陈宏松

(成都信息工程大学软件工程学院,四川 成都 610225)

0 引言

随着新媒体技术的迅速发展,具有丰富情感的多模态数据也日益巨增,例如图片、短视频、音频和文本等,利用大量数据进行多模态情感分析已成为一个新兴领域,并且情感分析的研究有利于疫情防控。新冠肺炎疫情期间,国务院倡议要充分发挥科技支撑作用,运用技术手段积极有效地开展疫情防控,及时加强舆论引导,积极挖掘情感分析的研究价值。

早期情感分析任务主要使用单模态文本数据,首先使用传统的统计学方法提取词语特征进行文本表征,然后使用机器学习算法实现情感分类和预测,随后使用深度学习技术,例如卷积神经网络(convolution neural network,CNN)或词向量提取文本数据特征,解决特征提取困难问题,特别是传统统计机器方法无法解决大数据量的情况。然而目前这些方法只关注单模态文本数据,信息含量有限,数据特征质量低,在如今多媒体时代下很难通过单模态(文本信息)来准确地判断情绪,无法满足多模态的社交网络环境中情感分析问题。

已有的微调预训练模型方法可实现大规模音频与文本的联合表示。然而这类方法不能对上下文相关词加以区分,忽视了构建文本和音频上下词之间语义相关的重要性,导致预训练语言模型无法充分表示所需要的语义信息。最近,微调预训练语言模型ERNIE(enhanced language representation with informative entities)作为一种高效的预训练语言模型,与传统的预训练语言模型不同,ERNIE通过对所有层的上下文进行联合调节来生成上下文词特征表示。因此,单词的表征可表达文本上下文内容。ERNIE在句子级[1]和分词级任务上都取得了较高的结果。然而,大多数微调策略仅基于单模态文本[2]设计,如何将其从单模态扩展到多模态并获得更好的表示,结合多模态信息进行实验研究是一个亟待解决的问题。

本文提出一种跨模态Cross Modality ERNIE(CMERNIE)模型,即通过引入音频模态的信息,以帮助文本模态微调预训练ERNIE模型,进而进行多模态情感分析。Masked multi-modal attention作为CM-ERNIE的核心单元,旨在通过跨模态交互动态调整词的权重。实验结果表明,CM-ERNIE比以前的基线和ERNIE等的纯文本微调模型能较显著提高性能。

1 相关工作

1.1 多模态情感分析

多模态情感分析在不同模式之间具有内部相关性以及数据上下文具有时序相关性,多模态融合可以更有效全面地捕获情绪特征,结合不同模态数据的相关性以及互补性来进行情绪分析。多模态融合的关键点是如何有效地融合多模态之间的信息进行互补,目前主要的融合方式为特征层融合和决策层融合两种,特征层融合是通过连接和其他模态数据的有效特征来融合不同模态数据的特征或者补全不同模态之间的特征差异,由于不同特征交互融合,使情感信息更丰富,因此可以显著地提高性能。不同模态融合可明显提高其分类效果,Borth等[3]提出了利用词性对组合特征补充表达图像包含的语义信息。Guillaumin等[4]发现图像特征结合文本特征信息(例如文本上下文与时序性)可获得更丰富的情感信息。多模态数据(图像与文本)在处理多模态数据分析可提高准确度[5]。考虑到上下文以及话语之间的关系,Poria等[6]引入语境长短时期记忆网络,可以利用话语水平的话语情境信息来捕捉更多的情绪特征。随着注意力机制的普及以及它在多模态融合中起着越来越重要的作用,Tsai等[7]在多模态转换模型中使用定向成对的跨模态注意。文献[8]通过跨时间步长的多模态序列的相互作用,并潜在地从一种模态调整到另一种模态。文献[9]通过对视频弹幕进行聚类分析,实现文本与视频的结合进行多模态情感分析。

1.2 预训练语言模型

微调预训练语言模型两种主要方法为基于特征的方法和基于微调预训练模型。

早期工作[10]专注于采用基于特征的方法,将单词转换为分布式表示。由于这些预训练的词表示捕获语料库中的句法和语义信息,通常用作输入嵌入和各种NLP模型的初始化参数,并提供对随机初始化参数的显著改进[11]。由于这些词级模型经常遭受多义词,Peters等[12]采用序列级模型(ELMo)来捕捉跨不同语言的复杂词特征上下文。

随着人工智能技术的快速发展,Lai等[13]提出了一种用于中文微博情感分类的图卷积神经网络体系结构,该体系的F1值达到了83.32%。Pal等[14]用基于逻辑回归技术,对文本情绪(喜悦、愤怒、悲伤、悬念)进行分类,准确率为73%。Puposh等[15]用支持向量机(svm)对单模态文本进行情感六分类,获得73%的准确率。文献[16]用Elmo对单模态文本数据进行情感分类。文献[17]通过用Bert和BiLSTM结合模型,实现文本情感分类。文献[18]使Bert和BiLSTM相结合,对新媒体时代网络文本情绪趋向进行归类。文献[19]利用Bert与Transformer相结合,处理名词隐喻识别实现情感分类问题。

尽管基于特征和微调的语言表示模型都取得了很大的成功,但忽略了多模态预训练信息的融合。融合多模态信息可以显著提升原始模型学习能力,例如阅读理解[20]、机器翻译[21]、自然语言推理[22]、知识获取[23]和对话系统[24]。因此,融合信息可以有效地使现有的预训练语言模型受益。事实上,有些工作试图联合词和实体的表示学习,充分利用多模态信息并取得了可观的成果。Yu等[25]提出了屏蔽语言的知识模型,引入场景图片模态信息增强语言表征。基于此,本文提出利用多模态语料库和多模态融合方式来训练基于ERNIE的模型。

2 方法论

提出的跨模态ERNIE(CM-ERNIE),首先挖掘单模态文本以及音频内部的特征,对单模态文本及音频数据进行特征表示,并提取音频模态信息。然后,采用屏蔽多模态注意作为其核心,通过跨模态交互作用来动态调整单词的权重。结合来自文本和音频模态的信息微调预先训练过的ERNIE模型。

2.1 CM-ERNIE模型

输入字符级别序列长度为n的文本序列:T=[T1,T2,…,Tn]。由于ERNIE模型的嵌入层将在输入序列之前附加一个特殊的分类embedding([CLS]),因此最后一个encoder层的输出是一个n+1长度的序列,记为Xt=[E[CLS],E1,E2,…,En],为了与文本模态一致,在分词级任务上对齐音频特征之前附加一个零向量,对音频特征进行特征表示:Xa=[A[CLS],A1,A2,…,An]。其中,A[CLS]是一个零向量,利用Xt和Xa之间的交互作用来调整每个单词的权重,以便更好地微调预先训练过的ERNIE模型,提高情绪分析的性能,模型的总体架构如图1所示。

2.2 模型细节

2.2.1 模态输入表征

CM-ERNIE模型的输入包括两部分:字块令牌(word-piece tokens)的文本序列和字级(word-level)对齐音频特征。首先,文本序列将经过ERNIE模型,并使用最后一个Encoder层的输出作为文本特征,其定义为Xt=[E[CLS],E1,E2,…,En]。其次,音频首先经过卷积神经网络:

将CNN处理后的音频数据输入到BiGRU中,提取与文本对应的音频特征:

因为Xt的维数明显高于,所以在训练过程中,的值会越来越大于,为了防止点积变大,将文本特征t缩放到和音频特征a缩放到。

2.2.2 屏蔽多模态注意力

首先,评估每个词在不同模态下的权重。QueryQt和KeyKt文本模态为,其中为缩放后文本特征。QueryQa和音频模态的KeyKa为,其中是缩放后的词级对齐音频特征。然后,文本注意力矩阵αt和音频注意力矩阵βa定义为:

为通过文本和音频模态之间的信息交互来动态调整特征单词权重,对αt和βa加权求和,加权融合注意力矩阵Wf为

其中,wt为文本模态权重,wa为音频模态权重,b为偏差。然后引入Mask矩阵M,减少padding序列的影响,然后将多模态注意力矩阵Wm定义为:

得到多模态注意力矩阵后,将Wm与屏蔽多模态注意力Vm的值相乘,得到注意力XAtt的输出。其中Vm是ERNIE最后一个Encoder层的输出,定义为Vm=Xt。

3 实验

在本节中评估了跨模态ERNIE在公共多模态情绪分析数据集CMU-MOSI和CMU-MOSEI上的性能,和在公共数据集(ChnSentCorp)和(Nlpcc2014-Sc)上的准确性。

3.1 数据集与实验设置

实验使用CMU多模态观点级情绪强度(CMUMOSI)和CMU多模态意见情绪和情绪强度(CMUMOSEI)数据集进行评估,并且使用另外两个官方团队提供的文本单模态公共数据集(ChnSentCorp)和(Nlpcc2014-Sc)验证模型的准确性。

(1)CMU-MOSI是由关于YouTube电影评论观点视频组成,视频共包含93个观点,共计2199条话语,每个话语的标签值由人工注释且标签值在(-3~3),其中,-3表示负面最大值,3表示正面最大值。另外考虑到说话者话语不应同时出现在训练集和测试集中,以及正负数据的平衡,将训练、验证和测试集视频数量拆分为52、10、31,且对应的话语数量分别对应为1284、229 和686。

证明 记δQk(x,t)=Qk+1(x,t)-Qk(x,t),δuk(x,t)=uk+1(x,t)-uk(x,t),将式(3)改写为:

(2)CMU-MOSEI由来自YouTube的23454个电影评论视频剪辑组成。

(3)ChnSentCorp为情感分析任务的中文句子评论级情感分类数据集。

(4)Nlpcc2014-Sc是微博短文本情感分析数据集。

为防止预训练ERNIE模型过拟合,encoder层的学习率设置为0.01,其余层的学习率设为2e-5。为提升实验性能,冻结嵌入层的参数。为训练CM-ERNIE模型,将批量大小和最大序列长度分别设置为24和50,epoch数设置为3。此外,使用Adam优化器和均方误差损失函数。

3.2 特征以及模型对齐

为与文本模态一致,在词级对齐音频特征之前附加一个零向量,然后分别对文本与音频进行特征提取。其中,音频提取过程中需重点注意与对应的文本对齐。

3.3 评价指标

实验中,用相同的评价指标来评估基线和提出模型的性能。情绪评分分类任务采用7类精度(),二元情绪分类任务采用2类精度()和F1评分()。指标值越高,模型的性能就越好。为了使实验结果更具准确性,最终的实验结果为随机选择5次运行的平均结果。

3.4 对比实验模型

EF-LSTM:early fusion LSTM(EF-LSTM)是融合早期输入特征,也称前期融合特征,然后送入LSTM模型来学习多模态上下文交互相关信息。

LMF:低秩多模态融合(LMF)是一种利用低秩权重张量,在不影响实验性能的情况下,使多模态数据高效融合的方法。

MARN:multi-attention recurrent network(MARN)使用多头注意力块和长短时混合记忆网络来挖掘不同模式之间的交互信息。

RMFN:循环多级融合网络(RMFN)将多级融合过程与循环神经网络相结合,以对时间和模态数据特征的进行交互建模。

MFM:多模态分解模型(MFM)帮助多模态判别因子和模态特定生成因子中每个因子的提取,专注于从跨多模态数据和标签的联合信息学习表示提取多模态数据特征。

MCTN:多模态循环翻译网络(MCTN)不同模态之间进行转换,联合表示数据特征。

MulT:multimodal transformer(MulT)使用定向成对交叉模式注意力跨不同时间步长的多模式序列之间的交互,并潜在地将数据流进行模式转换,它是MOSI数据集上当前最先进的方法。

T-BERT:是改进 Transformers(Bert)的双向 Encoder表示,仅使用文本模态信息进行微调。

4 结果与讨论

本节展示了实验结果,讨论了提出的方法与前期成果的差异。此外,将屏蔽多模态注意力可视化,以及在单模态数据集上的结果对比,并讨论了引入音频模态信息后注意力矩阵的变化。

4.1 对比实验结果

表1显示了在 CMU-MOSI数据集上评估 CMERNIE模型的实验结果。由表1知,CM-ERNIE模型在MOSI数据集上创建了一个新的最好的结果,并提高了所有评估指标的性能。在二元情感分类任务中,CM-ERNIE模型在上达到了83.9%。在情感评分分类任务中,CM-ERNIE模型的提升效果更加明显。CM-ERNIE的模型在上达到了42.9%,另外,除T-BERT之外的其他基线模型都使用三模态数据信息,但本文提出的模型仅使用双模态数据(文本和音频)取得了新的最好的结果。

表1 CM-ERNIE模型在CMU-MOSI上的实验结果 单位:%

类似地,在CMU-MOSEI数据集上进行了实验。为了便于比较,继之前数据集实验的工作之后,将表1中后3个模型的和进行了比较。首先,MulT在上达到了82.5%,为82.3%。T-BERT表现出更好的性能,它在上达到了83.0%,为82.7%。但是,CM-ERNIE在上与T-BERT相比,在上达到了83.6%。因此,在CMU-MOSEI数据集上的实验结果也说明本文所提的方法在其他多模态数据集上也有不错的泛化性。

为验证所提模型在多模态数据集上的提升,在单模态数据集上进行对比实验,验证模型的准确性,并与TextCnn、FastText、ERNIE、Bert模型对比,结果如表 2所示。

表2 CM-ERNIE模型在单模态数据集的实验结果 单位:%

从表2可以看出,CM-ERNIE模型将预训练的ERNIE模型从单模态扩展到多模态,并引入了音频模态的信息,帮助文本模态有效地调整词的权重。由于CM-ERNIE模型可以更全面地反映说话者的情绪状态,并且可以通过文本和音频模态之间的交互来捕捉更多的情感特征,因此它在所有评估指标上的表现都得到了显著的提升。

4.2 多模态屏蔽注意力可视化

为证明屏蔽多模态注意力的效率,分别可视化对比了单模态文本数据注意力矩阵αt和多模态数据注意力矩阵Wm中词语权重的差异,并且容易得知在引入多模态音频数据信息后,Masked multimodal attention可以合理调整词权重。例如从CMU-MOSI数据集中选择一个句子,将其单模态文本数据注意力矩阵和多模态数据注意力矩阵可视化,如图2所示,颜色梯度代表单词的重要性。

图2例句为“THERE ARE SOME FUNNY MOMENTS”,图2(a)和(b)是对应的注意力矩阵。很明显,图2(a)和(b)之间存在很多差异。例如,图2(a)中“FUNNY”这个词在“ARE”这个词上的注意力得分很高。然而,AER这个词不包含任何情感信息。引入音频信息后的图2(b),Masked multi-modal attention降低了“ARE”的分数。相比之下,它更多地关注“SOME”和“MOMENTS”这两个词。为了充分说明CM-ERNIE模型的性能,分别统计比较了Bert和CMERNIE模型在两个不同数据集10轮结果的加权F1值,其性能如图2(c)和(d)所示。通过实验发现,结合音频的语音语调信息,音频词与文本交互可挖掘更丰富的情感信息,对于情感极性判断结果更准确。

5 结束语

提出一种新颖的多模态情感数据交互分析模型CM-ERNIE。将预训练的ERNIE模型从单模态文本数据扩展到多模态文本加语音数据,引入音频模态信息(例如语音,语调)来辅助文本模态微调预训练模型ERNIE,通过屏蔽多模态注意力为CM-ERNIE的核心单元,动态调整文本和音频跨模态交互数据特征权重。实验结果表明,CM-ERNIE在多模态数据集上的性能比以前的基线有显著提高,并且在单模态数据集上的性能也超越ERNIE、Bert、FastText等。此外,将注意力矩阵可视化,可以清楚地表明在引入音频模态后,能更有效地提升准确度。事实上,CM-ERNIE也适用于文本和图片模态,也可应用于两种以上的模态。未来,由于大多数多模态数据通常是未对齐,并且数据具有时序性,将会更多地关注如何对齐不同模态数据,挖掘数据的时序特征以及数据的上下文特征,以及如何使用预训练语言模型从未对齐的多模态数据中学习更好的表示。

猜你喜欢
音频模态注意力
联合仿真在某车型LGF/PP尾门模态仿真上的应用
多模态超声监测DBD移植肾的临床应用
让注意力“飞”回来
跨模态通信理论及关键技术初探
柏韵音频举办Pureaudio 2021新产品发布会
如何培养一年级学生的注意力
开盘录音带音频资料的数字化
超音频复合脉冲GMAW电源设计
A Beautiful Way Of Looking At Things
Pro Tools音频剪辑及修正