注意力机制在情感分析中的应用研究

2022-11-22 01:45王宇欣方浩宇
计算机技术与发展 2022年4期
关键词:模态神经网络注意力

王宇欣,方浩宇,张 伟,韩 普

(南京邮电大学,江苏 南京 210003)

0 引 言

情感分析也称意见挖掘、文本倾向性分析[1]。用户情感分析对互联网治理、用户需求分析和网络舆情传播及引导发挥着重要作用,近些年成为社会各界的关注热点。传统的情感分析需要依赖情感词典和人工规则,无法胜任复杂任务的情感分析任务。近些年,循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)等神经网络模型成为情感分析的主流研究方法。为提高深度学习中神经网络模型的可解释性,使其准确捕捉文本或语句中的关键情感词,减少噪音干扰,具有显著目标检测功能的注意力机制得到了广泛应用。

Bahdanau等[2]最初将注意力机制应用于机器翻译任务,借鉴图像处理任务中的注意力思想,对关键信息准确提取,提高了模型生成译文的质量。注意力机制不仅应用于机器翻译[2-3]、序列标注[4-5]和问答系统[6-7]等任务,而且常用于情感分析研究。在不同任务中,注意力机制都展现出了对长距离依赖关系的较强捕捉能力。鉴于以上考虑,该文从注意力机制概念和分类、与神经网络和特征的融合及多模态情感分析中的应用进行系统全面地分析。

1 注意力机制的概念及分类

1.1 注意力机制的概念

1980年,Treisman等[8]针对视觉早期加工问题提出了注意的特征整合理论,该理论将注意力的选择机制分为检测独立特征的前注意阶段,以及可在独立特征之间建立联系,定位特征信息的注意阶段。前注意阶段收集并编码环境中有关特征,但该阶段并不能为后续处理过程提供直接空间关系,与注意并无关联。而注意阶段则是对前期收集的物体特征进行逻辑加工,整合得出该物体轮廓,并同已知的物体描述进行比较,得出需重点关注的特征。视觉注意力的特征整合理论具有自上而下加工、局部交互等特性,为深度学习中注意力机制的产生奠定了一定的理论基础。注意力机制体现了与视觉注意力相似的工作原理。,它结合了外部信息及内部感知,在神经网络发现输入数据的关键信息后,通过不断学习提高注意力对目标区域的观察精度,高效地分配有限资源。

最早的注意力机制应用于机器翻译领域[2],该机制基于Encoder-Decoder框架[9]搭建,通过将输入序列转化为固定长度的向量实现编码,再将此前生成的固定长度向量转化为输出序列即完成解码。其中,输入序列表示为X={x1,x2,…,xm},输出序列表示为Y={y1,y2,…,yn},输入序列通过编码模块的非线性变换转化成语义编码C,再将其输入到解码模块转化为输出序列Y,具体计算公式如下:

C=F(x1,x2,…,xm)

(1)

yi=G(C,y1,y2,…,yi-1)

(2)

该框架中引入注意力机制来解决序列长度增加导致解码精确性下降的问题,在编码解码过程中加入隐藏向量序列hi(i=1,2,…,n),可使模型借助输入序列传递的信息有选择性地筛选子集进行解码,其计算公式如下:

(3)

假设查询为Q,数据源为S,关键字为K,权重为V,注意力值为A,序列中以键值对(K,V)的形式来储存源文本上下文中每一个元素,则注意力机制是Q到一系列键值对(K,V)的映射函数。其中,注意力机制先计算qt与ki的相似度,得到注意力得分ei,相似度越高,表明某元素对于查询目标越重要,ei值越大;再用softmax函数对注意力得分ei进行归一化处理,突出重要元素的权重;最后根据权重系数对V值进行加权求和,获得注意力值A,具体计算公式如下:

eti=F(qt,ki)

(4)

(5)

(6)

1.2 注意力机制的分类

(1)全局注意力机制与局部注意力机制。

根据关注范围,可分为全局注意力机制和局部注意力机制[3]。二者的区别在于前者在计算注意力机制值时考虑源文本序列中每个元素的权重系数,而后者仅考虑预测窗口内元素的权重分布,并采用高斯分布的计算方式增强注意力机制的运行效果。全局注意力存在噪声干扰,运行效果会随着源文本长度增加而减弱,同时在运行过程中会产生不必要的计算开销;局部注意力可更准确地对源文本中重要特征进行识别并提高其注意力权重,减少计算消耗。

(2)软注意力机制和硬注意力机制。

根据注意力机制在计算注意力值时的方法不同,注意力机制可分为软注意力机制和硬注意力机制[10]。软注意力机制在计算注意力值时,将输入的序列与对应的注意力权重加权求即可得到注意力值,其中注意力权重的取值范围在区间[0.1]内;而硬注意力机制则引入一个由注意力权重变换得到的变量,该变量取值仅为0或1,其注意力值由输入序列与新的变量加权求和后得到。新变量的引入导致硬注意力机制对单个元素只会采取关注或不关注的策略,即其用在情感分析领域中时只能对单个词进行关注,而无法准确关注上下文的情感信息,因此并不适用。

(3)动态注意力机制。

动态注意力将前一时刻包含实体表示和注意力值的注意力信息输入注意力网络,与上下文语句表示融合后通过得分计算,归一化后下一时刻的注意力值,再通过GRU网络得到新的实体表示。李丽双等[11]首次将动态注意力机制应用于特定目标的情感分类任务,该机制可以根据上下文信息动态改变目标实体表示和注意力值,有效地获取了目标实体上下文的情感特征,排除了以前误注意到的信息,降低了噪声干扰。

(4)自注意力机制。

自注意力机制[12]可应用于序列内部,通过计算将句子中任意两个词直接联系起来,进而捕获源文本序列内部元素间相互依赖的特征,解决了基于外部查询的编码器-解码器会导致忽视文本自身特性的问题。为应对不同任务以及模型性能提升的需求,自注意力不仅可以代替单独使用,也可以替换编码器或解码器并结合其他神经网络模型使用。

(5)多头注意力机制。

多头注意力机制在编码器与解码器中大量使用多头自注意力[13],对文本序列做多次并行注意力计算,允许模型同时关注不同位置的表示子空间的信息。为提高模型的并行计算能力,Vaswani等[13]将位置信息编码融入多头注意力,可以防止当前序列与后续序列的位置信息发生混淆,且由于多头注意力的每个头都经过降维处理,模型不会为实验带来过多的计算开销。李辉等[14]在情感分析中使用双层多头自注意力机制,学习并捕获文本中的词依赖关系及结构特征,提高了模型的精确度。

2 结合注意力机制与神经网络的情感分析模型

2.1 与循环神经网络结合的情感分析模型

(1)注意力机制融入RNN的情感分析模型。

循环神经网络在传统的多层BP神经网络隐藏层中建立了横向联系,并使用权重矩阵将上一时间序列中神经单元的值传递至下一时间序列中,使模型具备记忆功能。Rong等[15]设计出一种深度半监督的递归神经网络用于结构信息感知。Cai等[16]利用双向RNN[17]结合注意力机制进行多任务的情感分析。RNN具有记忆性、参数共享、图灵完备等特点,在对序列的非线性特征的学习时具有一定优势。但RNN仅依靠隐藏单元并不能很好地保存序列信息,随着时间推移,模型会忘记之前的状态信息,且由于激活函数的累乘,会出现梯度消失及梯度爆炸问题,训练困难度较大,应用范围受限。

(2)注意力机制融入LSTM的情感分析模型。

长短期记忆循环神经网络(Long Short Term Memory,LSTM)[18]是RNN的变体。LSTM在RNN的基础上,采用“细胞状态”的思想,增加了对过去状态的过滤,有选择地进行状态的记忆与遗忘,更好地结合注意力机制应用于情感分析任务。申静波等[19]为突出情感分析过程中单个词汇的重要贡献率,将注意力机制融入LSTM中,提高了分类效果。基于LSTM能够捕捉文本前后情感语义关系的特点,顾军华等人[20]提出了CNN-Attention-LSTM模型。陈千等[21]在融合LSTM、CNN与注意力机制的基础上,提出了两种针对单标记和多标记情感分类任务的循环卷积注意力模型,实验表明该模型具有较强稳定性。段宇翔等人[22]设计了基于LSTM-CNNS的情感增强模型,结合情感词库和自注意力机制对中文微博文本进行情感分析。在以上情感分析任务中,注意力机制与LSTM的融合降低了模型训练难度,同时充分利用了文本上下文中元素之间的相互关系,挖掘关键信息的价值。

针对更细粒度的情感分析任务,彭祝亮等[23]在Bi-LSTM[24]中加入方面注意力模块,使模型可以同时对文本的不同方面进行独立训练,解决了方面情感分析中句子包含多方面情感特征或特征表示模糊时,无法有效提取情感特征的问题。Li等[25]在字编码的基础上结合Bi-LSTM和注意力机制,对带有网络俚语、表情符的中文微博文本进行幽默情感检测。Zhao等[26]提出了方面级情感分类模型,融合了Bi-LSTM、带有位置编码的双向注意力机制与图卷积网络,用情感图对方面情感的依赖关系进行建模。

(3)注意力机制融入GRU的情感分析模型。

门控循环单元(Gated Recurrent Unit,GRU)是由Cho等[27]提出的一种LSTM的变体模型,不同于LSTM输入门、遗忘门、输出门的三重门设定,GRU只有更新门与重置门。更新门控制了当前状态保存的前一时刻状态信息的量;重置门控制前一状态信息被忽略的程度。结构设计上GRU比LSTM网络更简单,整体训练速度更快,也同样可以解决RNN网络中的长依赖问题。袁和金等[28]利用多通道CNN进行不同粒度特征提取,再利用Bi-GRU集成文本特征,搭配注意力机制获得文本上下文情感特征。孙敏等[29]设计了并行混合网络框架,在模型的嵌入层采用CNN与Bi-GRU提取不同特点的文本特征,经特征融合后送入注意力机制来判断不同单词的重要程度,并完成情感分析任务。Liu等[30]首次将二维卷积注意力模块(CBAM)[31]应用于不同粒度级别的情感分析任务,并融合了Bi-GRU与带有注意力机制的二维CNN,研究表明,CBAM考虑了文档中复杂的组合语义和依赖关系,可以进一步提升模型效果。

2.2 与卷积神经网络结合的情感分析模型

卷积神经网络是一种多层的监督学习神经网络,最初应用于图像处理任务。该模型一般包含输入层、用于特征提取的卷积层、用于插入非线性特征的激励层、用于简化计算负责度和提取主要特征的池化层以及用于连接所有神经元并完成分类的全连接层。其具有权值共享、局部连接等特点,被广泛应用于情感分析任务中。Shin等[32]针对情感分析任务,提出将注意力机制有效融入CNN的方法,以提升传统CNN的鲁棒性。徐菲菲等[33]运用CNN的卷积模块提取文本初步特征,再利用注意力机制与最小门控单元[34]进行关键信息的优化与加强。朱烨等[35]利用k近邻算法得到加权文本矩阵,并与原始文本矩阵融合构建注意力,最后利用双通道CNN对文本进行情感分类,该模型可以有效利用文本特征间的依赖关系,获取更多有用信息。

在CNN整体框架中,将低层特征加权组合形成了高层特征,即计算前一层的激活值与后一层神经元权重乘积的和,并通过非线性激活函数进行激活。这些操作使得高低层特征之间的位置关系变得模糊,传统CNN模型在文本分析中会存在上下文语义丢失等问题。

2.3 与混合神经网络结合的情感分析模型

为解决传统CNN在文本分析中丢失上下文语义、最大池化操作中丢失大量特征信息等问题,陈洁等[36]提出了并行混合神经网络,该模型将Bi-GRU融入CNN输出端,并在CNN卷积层和Bi-GRU输出端插入注意力机制,从而保留较多语义特征,提高了情感分析的精准度。杨长利等[37]在混合神经网络层融合胶囊网络、Bi-GRU与注意力机制,使其自适应地感知上下文信息,在提取局部特征、减少池化层信息丢失的同时,又兼顾处理文本序列全局特征,提高情感分类准确度。王丽亚等[38]提出字符级联合网络特征融合模型,先利用Skip-gram模型提取字符级词向量,再使用Bi-GRU和CNN-BiGRU并行的联合网络提取其中的特征,并利用前馈注意力模型进行筛选、降噪,完成情感分析。

2.4 与其他神经网络结合的情感分析模型

(1)注意力机制融入胶囊网络的情感分析模型。

CNN的池化虽然可以通过压缩数据尺寸、减少实验参数使模型加速收敛,并控制过度拟合、减少计算损耗,但相对应地会使部分重要数据丢失,降低了模型分辨率。为弥补CNN无法动态识别图像、位置信息表示模糊的不足,Sabour等[39]提出胶囊网络模型,利用平移可变性特点多角度识别图像中的物体,精确图中事物的位置关系,并通过动态路由算法分割高度重叠的对象。王家乾等[40]将多头自注意力机制用于获取语义信息,胶囊网络用于获取空间位置信息,多头交互注意力机制用于信息融合。该模型捕捉了中长距离语义信息和位置特征信息,提高了模型性能。杨长利等[37]提出了双通道混合神经网络模型,将注意力机制分别与胶囊网络、双向门限循环单元Bi-GRU相结合,使其自适应地感知上下文信息并提取影响文本情感分析的文本特征。

(2)注意力机制融入其他神经网络的情感分析模型。

切片循环神经网络(SRNN)[41]利用切片思想,在不改变序列中循环结构的基础上,实现RNN的并行化。该模型将输入序列分割成最小的等子序列,循环单元可同时在每层的每个子序列中同时工作,信息通过多层神经网络传输。实验结果证明,在不改变循环单元的情况下,SRNN的运行速度比RNN结构快135倍。陈虎等[42]将注意力机制与双向切片门控循环单元结合,切片后的多个子序列输入到Bi-GRU中,并通过注意力机制对其隐藏状态进行加权计算。实验表明,该模型可以弥补低层网络的长期依赖型损失,充分提取文本语义特征。

通过已有研究可知,在神经网络中融入注意力机制可取得更好的情感分析效果。在与神经网络结合时,注意力机制通常用CNN的卷积层与池化层之间,或者用在Bi-LSTM,Bi-GRU等模型输出之后,以提高重要信息的权重。由于CNN更善于抽取上下文中的局部信息,而GRU更善于捕获文本序列的全局信息,因此,基于CNN、Bi-GRU和注意力机制的并行混合神经网络模型(CA-BGA)[36]具有更好的效果。在CA-BGA模型中,自注意力机制分别与CNN和Bi-GRU融合以提取局部特征和全局特征。实验表明,该模型比CNN加注意力机制效果高出8.24%,注意力机制将模型性能提升了1.65%。

3 基于注意力机制的特征融合情感分析模型

3.1 融合基本特征的情感分析模型

在文本情感分析中,名词、动词、形容词等实词相比介词、连词等虚词更突出情感信息。为减低虚词的噪声干扰,突出目标元素,提高模型精确度,曾碧卿等[43]采用局部注意力卷积神经网络从词和词性两种特征中提取篇章特征,在词特征通道和词性特征通道获取到特征表示后,在全局注意力层对两种特征进行特征融合。王家乾等[40]将Glove词向量和Bi-GRU分别结合多头自注意力机制,获取并融合上下文和目标词的语义特征,接着通过胶囊网络获取相应的位置特征,并使用多头交互注意力机制将位置与语义特征进行拼接,最终完成情感分析。

为发挥表情符号对识别微博文本情感极性的辅助作用,提升模型精度,谭皓等[44]在Bi-LSTM中融入表情符注意力机制,将文本与表情符同时训练以得到含有上下文信息的表情符向量。韩萍等[45]将融入表情符号特征的基本语义向量作为模型输入,并利用带有位置信息的多维自注意力机制对词向量进行注意力计算,得到语句的权重矩阵并提取句子特征向量,最后完成情感分类。针对情感分析中否定词、副词等情感修饰词未被充分利用的现状,谢润忠等[46]建立了含有情感修饰词和情感词的情感语言库,经过BERT预训练得到的情感语言库词向量与语料词向量,并分别输入基于双通道注意力机制的全连接神经网络和Bi-GRU提取情感与语义信息特征。

3.2 融合深层特征的情感分析模型

蓝亦伦等[47]通过自编码器得出视觉和情感语义的联合嵌入特征,再利用注意力机制确定图像中与联合嵌入特征相关的显著区域,并基于该区域构建情感分类器,解决了视觉与文本特征存在差异的问题。为提升模型对句法信息和词依存关系的捕获能力,陈佳伟等[48]使用多头自注意力机制获取语义信息,并通过图卷积网络获取句子依存树中的句法信息和词依存关系,最后输入GTRU[49]完成情感分析任务。由于传统文档级情感分析中存在语义理解不足等问题,刘广峰等[50]先通过层级LSTM提取深层情感特征,再利用LDA算法计算得到的主题分布矩阵构建注意力机制提取文档特征,并依据上述两种特征进行情感分析。

通过已有文献可以发现,在特征融合的情感分析模型中,注意力机制不仅可以提高重要词汇的权重,还可以捕获深层语义信息及融合多种特征。在融合基本特征的情感分析模型中,词性和位置特征可以降低虚词和连词等对实验的干扰;表情符号和否定词包含较为强烈的情感信息,融合这些特征后可以提升模型的准确率。在融合深层特征的模型中,语义嵌入、句法依存和主题信息可以提升模型对词语间关系和词语与主题间关系的识别精度,以及语义信息的捕获能力。

4 基于注意力机制的多模态情感分析模型

4.1 结合文本与图像的多模态情感分析

在文本与图像结合的多模态应用中,早期的多模态分析不能充分挖掘多模态数据的研究价值。为提高多模态情感分析的性能,Huang等[51]将两个分别针对图像和文本信息的独立单峰注意力机制,与基于中间融合的多模态注意力机制,通过后期融合完成情感预测。Truong等[52]利用注意力机制将视觉信息应用于句子级别的对齐,解决了文本与图像信息融合过程中会产生向量空间不一致的问题。Man等[53]在通过CNN获得图像的局域地图后,利用注意力机制辅助神经网络获取全局特征,最后由张量融合网络[54]将图像特征与LSTM提取的文本特征融合,达到获取局部关注特征与全局上下文特征的目的。

4.2 结合文本与语音的多模态情感分析

针对文本和语音的多模态分析任务,Xu等[55]以Bi-LSTM为主框架,通过语音编码、语音识别文本编码以及基于注意力机制的多模态融合网络三个模块,实现了音频和识别文本在时序空间的交互。吴良庆等[56]先获得语音及文本的情绪和情感单模态特征,再分别获取情绪特征对应的情感特征得到完整的情绪特征单模态表示,之后通过自注意力机制捕获各模态间的交互特征,最终得到多模态情绪与情感表示。

4.3 针对视频的多模态情感分析

针对视频的多模态分析任务,王雨竹等[57]使用Bi-GRU分别从视频中获取文本、语言和图像的模态数据,利用模态间上下文感知注意力机制,捕获并融合各模态与上下文交互信息,将多模态特征合并输入分类器及回归器完成情感分析。

针对包含视频、短视频和表情包等多模态情感分析任务,注意力机制一方面可以提取不同模态的特征,完成各模态间信息的融合,另一方面可以完成模态间信息对齐以解决向量空间不一致的问题。

已有研究多使用神经网络提取不同模态的信息,并通过融合特征或提取交互特征的方式,完成多模态情感分析。

5 研究趋势

随着深度学习的不断发展,注意力机制的更多特性被不断挖掘并应用在情感分析领域,如何使其适应不同需求的分析任务是当前学界关注的热点。基于当前的最新研究成果,结合注意力机制的情感分析研究趋势主要表现在以下两点。

(1)反讽以及多模态情感的辨别。

在情感分析中,反讽、讽刺等作为难以辨别真实意图的情感表达方式,一定程度上降低了模型准确度。未来,研究学者可以尝试利用多模态注意力机制来解决反讽情感难以检测的问题,通过捕捉说话者细微的动作变化,并结合所述文字或话音信息,分析人们是在正常表述情感状态,还是在利用反讽或自嘲强调自己与他人不同的立场。融合不同模态信息可以增强模型对模糊语义的感知与判断。

(2)自注意力机制的应用延伸。

近年来,出现了针对图像识别任务的注意力机制衍生模型,如通过对各特征通道间的作用关系进行建模,提高重要特征通道的权重的Squeeze-and-Excitation Network(SENet)[58]、包含通道注意力和空间注意力的注意力模块CBAM[31]以及通过十字交叉的注意力网络获取长依赖关系的Criss Cross Network(CCNet)[59]。这些衍生模型较传统注意力机制的效果有明显提高,后续可以应用于情感分析任务。

6 结束语

首先介绍了注意力机制的概念和常见类型;其次对注意力机制与常用神经网络模型CNN、RNN及其衍生模型、胶囊网络及几种神经网络的混合模型等进行了系统阐述;接着基于注意力机制并梳理了融合文本基本和深度特征的情感分析模型;然后对注意力机制在多模态情感分析中的应用进行分类整理;最后给出了注意力机制在情感分析任务中的研究趋势,为该领域的发展提供进一步参考。

猜你喜欢
模态神经网络注意力
基于神经网络的船舶电力系统故障诊断方法
联合仿真在某车型LGF/PP尾门模态仿真上的应用
基于人工智能LSTM循环神经网络的学习成绩预测
让注意力“飞”回来
MIV-PSO-BP神经网络用户热负荷预测
基于老年驾驶人的多模态集成式交互设计研究
模态可精确化方向的含糊性研究
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
A Beautiful Way Of Looking At Things
日版《午夜凶铃》多模态隐喻的认知研究