基于多层次空间注意力的图文评论情感分析方法

2021-11-05 01:29郭可心张宇翔
计算机应用 2021年10期
关键词:图文模态卷积

郭可心,张宇翔

(中国民航大学计算机科学与技术学院,天津 300300)

0 引言

情感分析(Sentiment Analysis)作为社交媒体分析的前沿领域,被广泛应用于针对用户的产品营销、政治预测、股票预测和心理健康分析。近年来,随着移动摄影设备的广泛应用和网络环境的不断进步,图文并茂的用户评论在各个社交媒体平台和电子商务网站平台已经相当常见。多模态(Multimodal)的信息格局给公众舆情的产生和传播带来了不可忽视的冲击,也为情感分析的发展带来了巨大的挑战。

图文情感分析的难点在于不同模态信息本身的异质性及模态间关系的复杂性。为了更精简、更准确地提取和融合图文情感特征,研究者开始进一步探索图像特征与文本特征之间的关联性。受视觉问答(Visual Question Answering,VQA)、图像描述(Image Caption)、跨模态检索(Cross Modal Retrieval)等领域的影响,现有的图文情感分析方法倾向于发掘文本和图像之间的区域性对齐,通常使用空间注意力机制(Spatial Attention Mechanism)进行图文特征的融合[1]。

空间注意力机制最早提出于计算机视觉(Computer Vision,CV)领域的相关任务,原理是模拟人类视觉系统(Human Visual System,HVS)的信号处理机制,更多地关注与任务目标相关的视觉区域。目前空间注意力在各类图文结合的预测任务中已经被证实是有效的,现有的图文特征融合方法通常在文本特征与卷积神经网络(Convolutional Neural Network,CNN)的特征图之间进行空间注意力加权;然而不同于其他视觉特征,图像的情感特征具有复杂性和主观性的特点。心理学研究表明,不同的视觉特征会对人类的情感认知产生不同的影响[2]。传统的CNN方法通常是为中心位置对象分类而设计,通过叠加层次化的视觉抽象图层提取图像特征[3],最高层卷积视野域较大,产生的特征图侧重于对图像实体、图像语义关系的抽象,不能针对性地提取中层图像美学和低层视觉特征。

自然社交媒体中产生的情感评论具有随意性、抽象性等特点,现有的特征融合方法对这两种模态之间的自然联系知之甚少。根据Chen 等[4]的研究,图文之间不仅能产生实体层面的对应关系,还可以通过底层、中层的视觉特征体现情感的一致性。图1 包含两个表达积极情感的图文推特评论。图1(a)中词“Bromeliads”与图片中展示的实体统一,情感“vibrant”与该实体直接相关;而在图2(b)中,用户引入了一个抽象的图片,图文之间不存在实体联系,文本通过词“energetic”表现积极的情绪,而图像则是通过明亮的色彩和有规则的纹理表达积极的情感。

图1 情感评论的分类Fig.1 Classification of reviews with sentiment

受以上观点启发,本文提出了一种基于多层次空间注意力(Multi-Level Spatial Attention,MLSA)的图文情感分析方法。以文本特征为基准,采用多层次结构,在图像不同层次卷积的特征图上使用空间注意力。高层卷积上的注意过程主要突出图像中与文本相关的实体,而低层卷积上的注意过程则更多地关注能表达情感的颜色、纹理等底层特征。本文使用公开的推特图文情感评论数据集对MLSA 方法进行训练和测试,并与多种情感分析方法进行对比。实验结果表明MLSA方法在准确率和F1 值上取得了优于其他对比方法的情感检测结果。

1 相关工作

传统的情感分析方法主要集中于文本,基于词典的方法因其效率和简单而被广泛使用[5-6]。随着深度学习方法在自然语言处理的多项任务中展现出有竞争力的性能,神经网络已经应用于许多情绪的提取和分析方法[7-8]中。

情感识别是视觉理解的一个关键部分,许多研究成果显示,图像情感与众多低水平到高水平的因素有关[9]。早期的研究主要集中于分析图像的颜色、形状等低级特征(low-level features)对情绪进行分类[10-11]。随后Borth 等[12]构建了一个1 200个形容词-名词对(Adjective Noun Pairs,ANP)组成的大型视觉情感本体库,并在此基础上构造了中层属性(mid-level attributes)SentiBank作为图像的情感检测器。随着迁移学习与CNN方法的建立,基于图像高级特征(high-level feature)的情感分析方法逐渐成为主流。You 等[13]提出了一种逐步训练的卷积神经网络(Progressive CNN,PCNN),使用迁移学习的思想解决数据量不足的问题。Rao 等[14]设计了MldrNet(Multi-level deep representations Network),整合情感、纹理和美学3个角度的图像特征构成图像的情感语义,但由于过于注重美学特征,导致其在社交图像数据集上的泛化效果不佳。

根据多模态特征的融合策略,多模态情感分析方法可分为早期融合(Early Fusion)、混合融合(Intermediate Fusion)和晚期融合(Late Fusion)。早期融合又称特征级融合,在进行情感分数计算之前,将多个模态来源的数据整合成一个整体的特征向量[15-16]。许多早期的工作都使用早期融合进行多模态特征学习,但这些方法可能产生高维冗余的特征向量,且破坏了模态之间的独立性和互补性。后期融合又称为决策级融合,发生在每种模态建模之后,将多个模态情感分类器的决策结果进行平均计算,特点是不同模态的分类器训练过程通常不相关[17-18]。后期融合提供了一个廉价而有效的模态融合方案,但忽略了模态之间的特征交互,难以有效地捕捉不同模式之间的关联性。

现有的图文情感分析方法大多采用混合融合的方法,通过共享神经网络表示层的特征向量实现模态间的特征交互,并设计特定的连接单元来实现多个模态特征的有效融合。You 等[19]利用注意力机制学习图像区域和文本单词之间的一一对应,并采取树形结构集成文本和图像信息。Xu等[20]从图文间的跨模态实体一致性入手,提出了一种图像的区域特征与文本的多个语义层次相互作用的双向多层次注意模型(Bi-Directional Multi-Level Attention model,BDMLA)。在此基础上,Xu 等[21]首次提出了方面级的多模态情感分析任务,而Yu等[22]则进一步提出了社交媒体帖子的实体级(又称目标依赖)情绪分析。此外,一部分研究更注重利用社交媒体中的特定图文情境进行情感分析。针对电子评论中存在图文话语关系不平等的情况,Truong 等[23]提出VistaNet,将图像作为文本的附属特征而非独立信息,利用图像作为注意力基准强调文本中的重点句子。随着表达反讽情绪的图文评论数量不断增多,图文情感不一致的问题愈加突出。Cai等[24]提出了一种层次融合方法,通过融合图像、属性和文本三种特征来解决具有挑战性的多模态讽刺检测任务。Zhang 等[25]则进一步考虑了网络广告图像中普遍存在的视觉修辞现象,使用自适应编码器理解图像的视觉修辞,并采用多任务结构,加入主题分析来提高情感分析的效果。

上述研究通过对连接单元的设计和方法的理解,在某些特定场景中具有了联系和理解多模态信息的能力,但仍缺乏对图文情感共现现象及其原理的探究,提出的方法通常将CNN 视为从全局视角中学习图像高层特征的“黑盒子”,并没有充分挖掘文本特征与图像美学相关的中层局部信息或低层视觉特征之间的情感共现。从实际问题出发,本文方法运用文本引导的空间注意力机制,具体设计如何从图像中获取和使用与文本相关的高层语义特征和中、低级视觉特征。

2 本文方法

本章将从模型结构和模型训练两方面对MLSA 方法进行介绍。MLSA 模型采用端到端(end-to-end)的学习方式,根据功能的不同可以划分为文本特征提取模块、层次化图像特征提取模块、情感预测模块3 个部分。区别于仅提取最高层次卷积输出的作为图像特征的方法,MLSA 构建具有5层分支结构的文本引导的空间注意力模块,针对CNN 不同层次卷积的输出进行空间注意力加权,加权后的特征矩阵作为下一层的卷积输入,直到输出最后一个卷积层的卷积结果。MLSA 的 总体架构如图2所示。

图2 MLSA的基本结构Fig.2 Basic structure of MLSA

2.1 MLSA的模型结构

2.1.1 文本特征提取

经过预处理的推特文本作为特征提取网络的输入。给定的文本序列W=[w1,w2,…,wN],其中wn是位置n处单词的一个one-hot 向量表示,下标N表示文本序列的总长度。首先使用嵌入矩阵Wglove将单词嵌入到向量空间中:

其中:Wglove为预训练的词嵌入矩阵[26],随后在训练中进行了调整;E为嵌入向量的维度。对于每一个单词嵌入向量,模型使用了长短期记忆(Long Short-Term Memory,LSTM)网络进行进一步编码。LSTM 接受单词嵌入xn作为输入,并输出一个新的隐藏状态向量hn:

由于文本情感语义受上下文内容的影响,MLSA 模型引入双向LSTM 机制(Bi-directional LSTM),连接前向LSTM 和后向LSTM 生成的隐状态向量,得到每个单词最终的向量表示

一个句子里的每个单词是“不平等”的。有些单词能为情感提供更多的有效信息。为了计算和分配每个词在情绪分类中的权重,模型加入了软注意机制(soft attention)[23]:

其中:un是非规范化注意分数,衡量单词hn与文本情感之间的关系。权重矩阵Wh和偏置向量bh是需要学习的参数。αn用于规范化所有单词hn上的注意力权重。文本整体的文本语义向量FT可以通过对单词特征的加权平均来计算:

2.1.2 图像特征提取

从图像中理解情感的难度远超从图像中识别物体,如何兼顾多个抽象层次进行特征提取是构筑完整的图像情感特征的关键。事实上,CNN 模型本身支持多个抽象层次的情感特征提取,每个不同层对图像的特征学习有着不同的偏好。Zeiler 等[27]在ImageNet 上的实验表示,CNN 每一层卷积的投影体现了网络中特征的层次性,低层卷积由于视野域较小,更倾向于提取低级的特性,比如颜色、边缘和纹理,而高层卷积则因为拥有更大的视野域而倾向于概括对象特征和语义内容。基于这一事实,MLSA 方法将空间注意的思想从卷积的最高层扩展到卷积的每一层上,在每个卷积层的特征图上计算文本引导的视觉注意力权重。为了能结合相关公式,进一步展示出图像特征提取的整体流程,使用图3 对文本引导的多层次空间注意机制的结构细节进行进一步展示。

图3 文本引导的多层次空间注意力机制Fig.3 Multi-level spatial attention guided by text

形式上,假设模型将生成图像的第l层特征。在第l层,文本向量FT将决定空间注意权重pl和被注意权重所调制的图像特征图Yl[3]:

式中:Φ()为空间注意力函数,详见式(9)~(10);f()是将图像特征与注意力权重进行线性组合的模化函数,详见式(11)。Xl记作是l-1卷积层的特征映射输出的图形特征矩阵:

现有实现视觉软注意力的方法有很多,如多层感知器、双线性、点积、缩放点积和求和后的线性投影。其中求和后的线性投影会使注意力更加分散,有利于模型尽可能多地利用相关的视觉特征[28]。给定文本向量FT和第l层的图像特征矩阵Xl∈RC×M,其中M是该层图像矩阵的区域数,C是该层的通道数。首先通过单层神经网络将其输入投射到相同的维度中,然后在文本向量FT的引导下,通过softmax 函数生成文本对应于每个图像区域的注意概率pl[1]:

其中:Wl∈Rk×C、WT∈Rk×d是将图像视觉特征与文本向量映射到同一向量空间的变换矩阵;WP∈R1×k提供在通道方向的压缩规则;bA∈Rk,bP∈R1是线性变换的偏置项。矩阵与向量之间的加法通过将矩阵的每一列与向量相加来实现。根据注意力分布,计算特征图的像素区域和相应区域权重的乘积,在图像特征生成过程中编码了与文本相关的视觉信息:

考虑到CNN 的卷积过程,卷积层通过视野域的扩大而进一步学习到更高层次的视觉特征,在此期间图像特征矩阵在CNN 中不断进行传递,基于文本的注意力也能随着图像特征的进一步训练而保留。为了得到包含多层次关联的视觉特征,提取最后一个卷积层的输出作为最终的图像情感特征FI:

其中L为CNN卷积层的总层数。

2.1.3 情感分类

现有图文评论的视觉特征FI和文本特征FT。首先使用融合层将它们聚合为最终的多模态表示,然后在顶部添加一个softmax分类器进行情感分类。

将交叉熵损失作为softmax 的目标函数,以监督的方式训练模型:

其中:D为图文评论样本总数,指评论样本d的真实标签。

2.2 MLSA的模型训练

在图文评论中,文本作为主要内容,通常承担了情感的主要表达功能。从情感分析的角度,讨论推特环境下文本的以下几个特点:1)一条推文消息的最大长度是140 个字符。这意味着实际上可以将一条推文理解为一个独立的句子,不包含复杂的语法结构。2)推文中的语言往往更具口语化,而且含有很多短词(长度小于3 个字母的单词)、俚语和拼写错误。3)推文中包含很多特定句柄(如@、RT等)和链接。为了保证模型的训练,本文尝试对文本进行预处理操作,包括处理文本中的标点符号、推特句柄、链接、特殊符号、短词,以及对单词进行大小写转换和词干提取。

根据数据集的来源,选择glove.twitter.27B.200d 作为文本嵌入;使用预训练的VGG-T4SA FT-A[29]对MLSA 模型的5个卷积模块进行初始化。网络的初始学习率为0.001,随着迭代次数的增加,学习率每一轮降低为前一轮的1/10。批处理数量为16,冲量为0.9。利用RMSProp 更新规则对最优参数进行反向传播训练。为了避免过拟合,模型的训练过程中还采用了dropout 正则化和早停法(early stopping)的技巧,截断周期设置为10。

3 实验与分析

3.1 数据集介绍

本文采用公开推特图文联合情感分析数据集MVSA[30]进行MLSA方法的性能分析,具体信息如表1所示。数据集的每个样本包括1 个从推特上收集的图文对和1 个手工标注的联合标签,并根据注释者人数的不同,分为MVSA-Single 和MVSA-Multi两个子数据集。

表1 数据集统计Tab.1 Statistics of datasets

首先对该数据集进行了预处理,将图文标签同时包含积极标签和消极标签的样本去除。当一个标签是中性的,而另一个标签是积极或消极时,选择积极或消极标签作为该样本的情绪标签。其次,对于MVSA-Multi的样本,只有当3个注释者中的2个给出了相同的标记时,该样本才被认为是有效的。

3.2 对比方法

为了验证本文MLSA方法的有效性,将该方法与3组对照方法进行比较,其中包括具有代表性的单模态情感分析方法。由于本实验主要研究文本引导的多层次空间注意力机制,不涉及对于基础网络的优化,故而先对比单模态的图像情感分析方法和文本情感分析方法,对模型的基础组件进行评估和选择。然后从准确率和F1值两个指标对MLSA方法进行性能分析。表2 总结了本文使用的对比方法,并提供了这些方法的简要描述。

表2 对比方法的简要描述Tab.2 Brief descriptions of comparison methods

3.3 定量分析

MVSA 数据集被随机分为训练集(80%)、验证集(10%)和测试集(10%),采用综合评价指标F1值和准确率(Acc)对MLSA进行定量分析。表3给出了各方法在MVSA数据集上的结果。

表3 第1 组数据显示了单模态的图像情感分析方法的性能。使用VGG19 进行情感分类的效果明显优于SentiBank 方法,这展示了深度神经网络在图像情感分类任务中的强大性能。由于物体识别任务与图像情感识别任务在特征选取上具有较大差异,经过全层次微调的VGG-T4SA FT-A 的准确率和F1 值在MVSA_Single 数据集上提高了1.92 和1.7 个百分点,在MVSA_Multi 数据集上提高了1.94 和1.28 个百分点,这一结果表明多层次特征学习在图像情感挖掘中的有效性。

表3 第2 组数据显示了单模态的文本情感分析方法的性能。由于深度神经网络在提取文本情感特征方面同样具有优势,基于规则的SentiStrength 方法准确率和F1 值均低于LSTM-Avg 和LSTM-Att。与平均计算每个单词权重的LSTMAvg 方法相比,LSTM-Att 加入了能强调文本情感相关词的软注意力机制,在准确率和F1值上均有小幅度的提升。

表3 第3 组数据显示了图文情感分析方法的性能。Sentibank 与SentiStrength 结合的方法效果仍远不如基于深度学习的方法。Late Fusion 方法和Early Fusion 都是通过整合VGG-T4SA FT-A和LSTM-Att得到的深度神经网络,Late Fusion仅对情感分析的结果进行平均,缺少特征融合过程,在准确率和F1值上的平均性能低于其他的深度学习方法。Early Fusion在逻辑回归前加入了串联式的特征融合过程,在一定程度上提高了情感分析的效果,但通过观察可以发现,Early Fusion方法不仅在性能上低于SA(Spatial Attention)方法和MLSA方法,甚至低于第2组对照方法中的LSTM-Att方法,可以发现,在推特图文评论环境中,完全平等的图文关系建模可能会对情感分析的效果产生负面影响,这验证了文本引导的注意力机制的正确性。SA方法在Early Fusion的基础上,于CNN的最高卷积层增加了文本引导的空间注意力机制,准确率和F1值在两个数据集上得到了大幅度提升。这一实验结果表明了空间注意力机制可以有效捕捉图文特征之间的情感关联,但该方法平均水平上的性能全面劣于MLSA方法,原因是仅使用了图像的高层特征,忽略了对图像低层次和中层次特征的利用,因此难以从一些更抽象的样例中理解图文之间的情感共现。MLSA 方法的准确率和F1值在两个数据集中优于所有其他对比方法,相较于次优的SA方法,在MVSA_Single数据集上均提高了0.96个百分点,在MVSA_Multi 数据集上分别提高了1.06 个百分点和0.62 个百分点。性能的提升证明了图像层次化特征对多模态情感分析的指导意义,也展现了层次化空间注意机制在图文情感分析中的能力。

表3 不同情感分析方法的性能对比 单位:%Tab.3 Performance comparison of different sentiment analysis methods unit:%

3.4 定性分析

为了更直观地观察文本引导的多层次空间注意力机制在特征融合中起到的作用,本节将从“文本引导”和“多层次空间注意力”两个角度对MLSA 方法进行定性分析。图4 和图5 分别给出了VGG-T4SA FT-A、LSTM-Att 方法和Early Fusion、SA、MLSA方法根据预测分数排名得到的置信度最高的3个图文样例,其中预测错误的样本用方框进行标记。所有高置信度图文样例均来自MVSA数据集,按照积极、中性、消极的情感分类依次进行展示,并在类内按预测分数递减顺序从左到右排序。

图4 使用VGG-T4SA FT-A和LSTM-Att方法得到置信度最高的样例Fig.4 Examples with highest confidences by using VGG-T4SA FT-A and LSTM-Att

3.4.1 文本引导的图文话语关系

不同的方法给出了不同的高置信度预测样例。通过比较错误样例的个数可以发现,对于推特平台上的图文评论数据,仅使用文本特征的LSTM-Att 方法样例比仅使用视觉特征的VGG-T4SA FT-A 方法有更强的情感鉴别能力。从图4(a)~(c)中的错误样例可以看出,仅使用图像特征的VGG-T4SA FT-A 方法几乎不能仅通过预测图像的情感倾向得出图文评论的整体情感信息,这一结果说明在推特的图文评论环境中,图像很难独立于文本表达情感。

相较于VGG-T4SA FT-A 方法,LSTM-Att 方法的错误率在高置信度样例中有明显降低,同时通过对图4(e)中错误样例观察可以发现,对于一些语气不突出乃至不包含情感信息的文本,图像通常起到为其加强情感语气、增添情感色彩的作用。

3.4.2 多层次空间注意力

由于Early Fusion、SA、MLSA 使用相同的基础网络,仅在对空间注意力的使用上有所区别,故对三者的比较可以有效地展现出多层次空间注意力的情感特征捕捉能力。Early Fusion 较少考虑图文之间的情感共现,高评分样例中出现的图像和文本本身通常包含更强烈的情感倾向,故对中性样例的识别效果较差。SA 方法仅对图像的最高层卷积施加空间注意力,在效果上表现为更容易为含有突出实体对象的图文样例打出较高的评分;而MLSA 方法将空间注意力扩展到CNN 的每一个卷积层,兼顾了多尺度卷积得到的多层次图像情感特征。对比代表中性样例的图5(e)和图5(h)可以看出,MLSA 方法同样能有效利用图文之间的实体关联进行情感分析;而图5(g)和图5(i)则表现出MLSA 在理解图像情感时更积极地考虑了图像的色彩、纹理以及构图。总的来说,定性分析的结果证明了文本引导的多层次空间注意力机制在图文情感特征融合过程中的合理性和有效性。

图5 使用Early Fusion、SA、MLSA方法得到置信度最高的样例Fig.5 Examples of the highest confidences by using Early Fusion,SA and MLSA

4 结语

在自然社交媒体中,图像丰富的情感表达手段为文本情感带来了另一个角度的解读,而当前大多方法忽略了图像的层次化特征在图文特征融合中的重要作用。针对这一挑战性问题,本文提出了利用文本引导的多层次空间注意力机制进行特征融合的图文情感分析方法MLSA,在特征融合过程中充分考虑图像的高层实体特征和中低层视觉特征,进一步加强了图文之间的情感关联。MLSA 方法在图文推特情感数据集上的实验结果在准确率和F1值上都取得了更好的效果,表明文本引导的多层次空间注意力机制有效增强了神经网络模型捕捉情感语义的能力。此外,图像和文本的关系问题是多模态话语分析中存在的“瓶颈”问题。在实验探索中可以发现,对图文关系的理解也会对图文情感分析的效果产生影响。在今后的研究中,进行情感分析的同时融入图文关系分析,将是一个重要的研究方向。

猜你喜欢
图文模态卷积
基于全卷积神经网络的猪背膘厚快速准确测定
联合仿真在某车型LGF/PP尾门模态仿真上的应用
基于图像处理与卷积神经网络的零件识别
画与理
基于老年驾驶人的多模态集成式交互设计研究
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
模态可精确化方向的含糊性研究
日版《午夜凶铃》多模态隐喻的认知研究
图文配