跨模态数据融合综述

2022-10-10 01:23祁铧颖
软件工程 2022年10期
关键词:图文注意力模态

祁铧颖,贺 萍

(河北经贸大学信息技术学院,河北 石家庄 050061)

1 引言(Introduction)

随着智能设备的不断更新迭代,越来越多的人选择在微博、抖音等社交平台上以文本、图像、短视频等形式发表个人观点。面对海量的社交媒体数据,若能够实现其合理利用,则将在网络监管等方面产生极大的价值。不同于特征简单的数据拼接,数据融合不但包括数据显示融合,而且包括数据深层次的语义交互及不同数据之间关系的建模。目前,数据融合的对象包括单模态、多模态和跨模态三种类型数据。

通过对三种不同类型数据的梳理,发现单模态数据融合主要集中于文本、图像数据;多模态数据融合主要集中在文本、图像、音频和视频等数据,包括模态的两两结合或者三种模态相结合;跨模态数据融合同样是对不同模态的数据进行融合,但它通过跨模态关系抽取来获取不同模态间的交互信息。目前,跨模态数据融合是高效利用海量媒体数据的有效手段之一。

2 单模态数据融合方法(Single-mode data fusion method)

模态是指数据的存在形式,单模态是模态中的一种形式,是对文本或图像单独进行处理的一种方法。以基于文本的单模态融合为例,对文本单模态数据进行处理步骤如下:(1)源数据预处理;(2)向量表示;(3)特征提取;(4)模型分类/回归;(5)输出结果(图1)。

图1 文本单模态数据融合Fig.1 Single-mode data fusion of the text

首先对源数据进行预处理,对文本进行分词、删除标签、归一化等清洗工作,并将数据序列化;然后在文本分析阶段,将获取的向量表示的文本嵌入同一维度的矩阵中,之后提取文本特征;最后经过模型的分类回归处理得出结果。

文本特征的提取结果对文本挖掘起到至关重要的作用。PANG等人首次使用基于机器学习的方法解决文本情感分类问题,该方法使用电影评论作为数据,效果优于传统人工标注。张庆庆等人针对特征向量维度高的问题,提出BPSO与随机子空间方法结合的选择性集成算法,使文本情感分类的准确率得到提升,模型具有较优的泛化能力。但是,基于机器学习的方法不能充分获取文本信息,需要经过大量的训练语料和复杂的样本特征抽取的过程才能得到较准确的分类结果。随着深度学习的发展,基于深度学习方法体系可以自动学习语义特征,避免出现庞大的特征提取过程,常用的方法如使用循环神经网络(Recurrent Neural Networks,RNN)提取文本特征。卢强等人将非情感词、情感词、否定词和程度词等中文语法规则以正则化的形式同双向长短期记忆网络(Bidirectional Long Short Term Memory,Bi-LSTM)模型相结合,应用于中文文本分类。在此基础上,卢强等人在模型中引入了注意力机制和双向门控循环单元(Bidirectional Gated Recurrent Unit,Bi-GRU),能够更好地提取文本关键信息,捕捉文本上下文语义,应用于情感分析中。YUE等人提出了一个Word2vec-BiLSTM-CNN混合模型,该模型得益于卷积神经网络(Convolutional Neural Networks,CNN)提取特征的能力和Bi-LSTM学习文本短期双向依赖性的特性,证明了混合网络模型在短文本中的性能优于单一结构神经网络,但不足之处是它需要比现有基线模型更多的训练数据和训练时间。

对图像单模态数据进行处理步骤如下:(1)源数据预处理;(2)特征提取;(3)模型分类/回归;(4)输出结果(图2)。

图2 图像单模态数据融合Fig.2 Single-mode data fusion of the image

首先对源数据进行预处理,对图像进行去均值、标注、归一化等清洗工作,剔除不相关的区域;然后在图像处理阶段,将获取的向量表示的图像嵌入同一维度的矩阵中,之后提取图像特征作为下一层的输入;最后经过模型的分类回归处理得出结果。

人眼在图像处理方面具有很大优势,传统的基于机器学习的视觉特征提取包括底层特征提取和中高层特征提取。COLOMBO等人在图像和视频数据中根据颜色、温暖度、位置和大小等特征分割不同的区域,获取比物体本身更高的语义层次,应用于艺术类图片的情感分析中。仅从图像底层特征中提取的信息是有偏差的,黄崑等人提取了图像物理感知层、情感接受层与喜好层三层不同特征进行情感分类。随着深度学习的发展,可以自动提取图像特征,常用的方法如使用CNN提取图像特征。在此基础上,李志义等人使用改进的卷积网络模型,将图像的底层特征融入图像的高层语义中,提高了情感分析的准确率和模型的泛化能力,但存在信息冗余的不足。蔡国永等人使用注意力机制以关注图像中的显著区域,融合高层特征和底层特征用于情感分类。

单模态数据融合的优势与问题:单一模态的数据融合具有计算复杂度低、表达更简练的优点,例如在线评论中短文本的情感分类有利于完成用户的推送服务。但是现代社会的信息具有丰富的特征,仅靠单一模态往往容易造成收集信息不全面从而导致判断的不准确性,所以多模态数据融合方法应运而生,以更好地满足人们以图文、音频、视频等多模态形式表达自己的需求。

3 多模态数据融合方法(Multi-modal data fusion method)

多模态是指两个或两个以上模态的各种组合形式。多模态数据融合步骤如下:(1)单模态特征提取;(2)特征融合;(3)模型分类/回归;(4)结果输出(图3)。

图3 多模态数据融合Fig.3 Multi-modal data fusion

文本、图像、音频是多模态研究的三种主要异构数据类型,首先提取不同数据源的特征;然后将提取到的不同特征进行融合,在融合阶段可以采用特征级融合、决策级融合、混合融合三种不同的融合方式;最后进行模型分类、回归等操作得出结果。

3.1 基于显式融合方式的多模态融合

特征级融合是对从原始数据中提取的特征信息进行融合的一种方式,适用于模态之间高度相关的情况。YANG等人采用特征级融合的方法对音频和视频特征进行处理,用于语音识别,但存在特征提取难度大的不足,并不是最理想的融合方法。随着深度学习的发展,林淑瑞等人分别采用特征级融合和决策级融合对音频和视频进行融合,应用于情感分析研究,证明了多模态融合优于单模态融合,且决策级融合结果略高于特征级融合结果,但当特征数量增大时,很难获得不同特征之间的交叉相关性。模糊推理法、产生式规则法等都是特征级融合的常见方法。

决策级融合是对数据经过进一步评估或推理得到的局部决策信息进行融合的一种方式。决策级融合可以融合异质数据,但存在容易造成信息损失的缺点。谢豪等人充分挖掘图文之间的相似性信息,运用多层语义决策级融合模型,对社交媒体中的图文进行情感分类。周红标在单一模态情感识别的基础上,将基于隐马尔可夫的语音情感识别结果和基于最小二乘支持向量机的脉搏情感识别结果进行决策级融合,使情感分类准确率大大提高。贝叶斯概率推理法、D-S证据推理法等都是决策级融合的常见方法。

混合融合是上述特征级融合和决策级融合的结合,它保留了上述两种融合策略的优势,但同时也使模型更加复杂,学习难度加大。由于深度学习模型具有灵活性和多样性的结构特点,比较适合使用混合融合方法,但也需要根据具体问题选择最合适的融合方法。例如,周新民等人提出了一种深度多模态融合模型,该模型兼顾特征级融合、决策级融合及混合融合多层级数据融合方式,实现了多模态数据的有效融合。混合融合一般应用于网络安全、遥感影像等领域。

3.2 基于隐式融合方式的多模态融合

与简单的向量整合操作(如元素相加或拼接)只考虑多模态特征之间的简单相关性不同,双线性池化方法由于两模态之间的二阶相互作用而成为信息融合研究的关键。但是,直接使用双线性池化方法会导致学习参数和计算资源的急剧增加,针对这一问题,人们提出了多种解决方法,如多模态紧合型双线性池化(MCB)、多模态低秩双线性池化(MLB)、多模态因子化双线性池化(MFB)和多模态Tucker Fusion(MUTAN)。

条件随机场在自然语言处理方面具有较好的效果,广泛应用于标注场景。为提高多模态数据分类效果,JIANG等人提出了一种基于监督学习的多模态数据分类方法——多模态隐条件随机场(Multi-modal Hidden Conditional Random Field,M-HCRF),捕捉输入数据的潜在信息,从而促进多模态数据的分类。

多模态情感分析是一个越来越受欢迎的研究领域,它将传统的基于语言的情感分析定义扩展到一个多模态设置,其中其他相关的模式伴随着语言。ZADEH等人针对在线视频中口语的不稳定特性及伴随的手势和声音问题,引入一种新的张量融合网络模型,融合语言、视觉和听觉,应用于情感分析中。实验证明,张量融合能较好地保留多模态数据中各模态之间的交互信息,但存在信息冗余的不足。

近年来,在自然语言处理过程中,注意力机制得到了广泛应用。得益于深度学习的发展,郭可心等人以文本内容为驱动,充分利用图像的中低层特征,并在多层图像特征中引入注意力机制,从多个角度挖掘图文之间的情感共现,但其只在单一模态中使用注意力机制,忽略了不同模态间的交互作用。范涛等人提出一种基于多模态联合注意力机制模型,即通过词引导的注意力机制引导图像注意,使用图像引导的注意力机制引导词注意,将文本和图像进行融合,应用于网民情感分析,相对减少了冗余与噪声。

多模态数据融合的优势与问题:与传统的单一模态相比,多模态数据融合负责将多个模态的信息进行有效整合,提供了更加丰富的信息,且信息之间具有互补的优势。但因为每种模态数据看待事物的角度不同,所以存在一些交叉,要想保存各模态信息与各模态间的交互信息,就必然造成数据的冗余,由此跨模态应运而生。

4 跨模态数据融合方法(Cross-modal data fusion method)

随着人工智能的发展,跨模态数据融合逐渐走进人们的视野。跨模态数据融合步骤如下:(1)跨模态关系抽取;(2)各模态特征提取;(3)跨模态特征融合;(4)模型分类/回归;(5)输出结果(图4)。跨模态数据融合主要是文本、图像和音频的融合,首先从源数据中进行跨模态关系抽取,获取各个模态的交互信息;其次结合模态本身得到相互独立的文本特征、音频特征、图像特征,得到的特征更加全面、准确,这是对多模态的精简和补充,结果也更准确;最后将得到的各模态特征进行融合,应用于情感分析等众多领域。

图4 跨模态数据融合Fig.4 Cross-modal data fusion

4.1 基于深度学习的跨模态融合

CNN因其无须手动提取特征,权值共享且可以直接输入网络的优势,被广泛应用于语音识别和图像处理中,而跨模态融合的核心任务在于跨模态关系抽取和联合特征学习。2016 年,AlphaGO战胜李世石,深度学习得到迅猛发展,蔡国永等人最早使用CNN对图文进行情感预测,并将结果通过决策级融合后进行分类,但图像和文本的表达具有差异。在此基础上,申自强针对图文之间情感互斥问题提出一种基于图文融合的跨模态社交媒体方法,使用CBOW(Continuous Bag of Words)和CNN分别提取文本与图像特征,但该方法只是提取了图像中的高级语义特征,而中、低级语义特征同样影响着情感分类的准确性。针对这个问题,陈巧红等人在图像特征提取中利用VGG13网络外接卷积层,分别获取高、低、中层次的图像特征,对文本图像进行跨模态融合,应用于情感分析。

21 世纪初,RNN发展为深度学习算法之一,LSTM作为RNN的变形,克服了RNN长期依赖的缺点。安迅利用LSTM提取文本特征,使其拥有更强的记忆功能,对文本特征和图像特征进行跨模态的特征对齐,使用Softmax进行情感分类。虽然LSTM能够保留较长时间的信息,但是文本的语义同时与上下文有着密切联系。针对这类问题,陈巧红等人利用BERT词嵌入加Bi-GRU提取文本特征,GRU通过添加更新门与重置门,能够对输入的时序信息选择性地保留与遗忘,从而捕捉到重要的长期信息。同时Bi-GRU更好地结合了文本的上下文语义,将文本特征和图像特征进行注意力融合,应用于情感分析中,但存在计算复杂度大的问题。

深度学习虽然可以提取复杂的数据特征,但是会出现梯度消失的问题,使用残差网络可以使神经网络的层数超越之前的约束,达到几十层、上百层甚至上千层,为高级语义特征提取和分类提供了可行性。王茂等人使用LSTM提取问题词特征,使用ResNet-152提取图像特征,并利用改进的残差通道自注意力增强图像特征,将图文特征进行跨模态动态融合,应用于视觉问答领域,提高了视觉问答的准确性。在此基础上,吴琼在图像特征提取时使用预训练的152 层残差网络,在文本特征提取时使用LSTM,将图文两种特征进行拼接,再与图像的局部和全局特征加权求和,得到最终的视觉表示;接着通过紧凑双线性融合,对融合后特征进行跨模态的情感分类,从文本、图像及二者融合三方面研究情感变化,融合结果更加准确,但增加了计算的复杂度。

4.2 基于注意力的跨模态融合

在深度学习中引入注意力机制是使机器更贴合人类行为的重要方法,最早是在图像情感分析中应用注意力机制。针对传统的单模态情感分析存在的不足且在特征提取时容易忽略重要特征的情感信息的问题,陈小敏等人提出一种基于注意力机制的TAI-CNN(Text And Image-Convolutional Neural Networks)图文跨模态情感分类方法,解决了上述问题,但该模型仍存在改进空间。陈巧红等人提出一种基于多层跨模态注意力融合的图文情感分析模型,如图5所示。

图5 多层跨模态注意力融合模型Fig.5 Multi-layer cross-modal attention fusion model

该模型使用Bi-GRU完成对文本情感的表示,并使用软注意力机制给予文本中表示情感的关键词更多的权重;使用VGG13网络外接卷积层,获取不同层次的图像特征,将文本特征与多层图像特征进行注意力融合,并将图文融合特征输入多层感知机及Softmax分类器进行情感分类。但基于情感分析的跨模态融合不应只局限于文本和图像之间,王雨竹等人针对文本、视觉、音频三种模态,结合跨模态上下文信息并使用注意力机制过滤冗余信息,将融合信息应用在情感分析领域。

跨模态数据融合的优势与问题:跨模态数据融合与多模态数据融合相比,两者的相同之处是数据都来自所有模态,两者的差别是跨模态融合的数据只用于某一个模态,而多模态融合的数据用于所有模态。融合后的跨模态数据相比于单一模态数据具有去冗余、全面、多元及互补的优点,从而实现数据的合理有效利用。今后跨模态数据融合会不断得到改进,获得全面发展。

5 跨模态的应用(Cross-modal applications)

5.1 在跨模态图文检索上的应用

跨模态图文检索能更好地丰富用户对同一事物的认知,如以文搜图或以图搜文,其核心任务是特征提取和语义相似性度量。为提高跨模态图文检索的精度和速率,朱路等人提出了一种基于语义自编码哈希学习的跨模态检索方法,不仅减小了不同模态数据之间的异构鸿沟,而且降低了存储空间。当在检索中出现新数据时,会使计算量大大增加,江朝杰等人针对检索数据的不断迭代,提出增量跨模态检索方法,实验证明其在新增类样本集上具有良好的检索精度。

随着网络数据表现形式越来越多样化,跨模态图文检索逐渐成为研究热点。跨模态图文检索具有检索精度高和应用范围广等优势,目前主要应用于公安领域舆情分析、个性化推荐、医学数据存储等方面。减小跨模态之间的语义鸿沟仍是未来的一个研究方向。

5.2 在推荐系统上的应用

推荐系统最早的一个独立研究领域是新闻推荐,目前还有很大的发展空间。滑瑾从跨模态语义分析的角度展开研究,通过引入外部信息源,解决了现实网络中的数据稀疏问题,完成高质量推荐。推荐系统性能优越的关键就是了解用户的潜在兴趣,贾冬柏从跨模态角度对用户兴趣进行分析,结合艾宾浩斯遗忘曲线,提出构建基于兴趣衰减和多模态特征融合的兴趣挖掘模型来获取用户兴趣所在,实现微博用户个性化推荐。

跨模态数据在推荐系统中的应用使推荐精准度得到提升,目前,基于跨模态数据融合的推荐系统得到了信息检索、计算机视觉等多个学科研究者的关注。相信随着跨模态数据融合技术的不断发展,推荐系统的精度会越来越高,能够更好地服务于大众。

5.3 在情感分析上的应用

情感分析作为近几年的热点话题,得到了广大研究者的青睐。目前,基于注意力机制的图文跨模态情感分析成为研究主流。陈巧红等人将文本与图像进行注意力融合,应用于情感分析。ZHOU等人通过使图文间的语义和情感交互被分层提取,显著呈现不同模态之间的语义关联,用于图文情感分析,解决了噪声问题和联合理解上的差异问题,提高了情感分析结果的准确性。

与单一模态情感分析相比,跨模态能够获得更加全面的数据,提高情感分析的准确度。目前,基于跨模态数据融合的情感分析主要应用于政府部门监控舆情、微博情感分析及微博用户情绪异常预警中。但跨模态数据融合不应只包括图像、文本,基于图文、音频、视频等模态的融合进行情感分析是未来的一个研究方向。

5.4 在人机对话系统上的应用

跨模态学习作为一种能让机器更加贴近人类行为的技术,已经成为人工智能相关领域研究者关注的热点问题。可视问答作为跨模态的一个主要示例,也受到越来越多的关注。LAO等人提出了共同注意学习方法和跨模态多步融合网络,该模型通过句子引导词注意力和问题引导图注意力提取不同模态的特征,通过跨模态多步骤融合网络来生成多步骤特征并实现两种模态的多个交互,它区别于大多数现有的特征融合方法仅专注于两种模态之间的复杂交互建模,通过使用池化方法将最终的融合特征应用于答案预测,实现较为精准的视觉问答。

人机对话系统不断朝着智能化的方向发展,基于文本的细粒度分析和对图像的关键区域提取信息,不仅解决了对话内容的单调性,还能充分结合用户的个性化特征,确保能够准确识别用户意图。针对个性化人机对话系统,如何有效融合文本、视觉和听觉等模态构造人机对话系统将成为未来的研究方向。

6 结论(Conclusion)

跨模态数据融合近年来才得到关注,随着更多研究者的关注,其关键技术也将得到提升,可以从以下三方面着手进行研究。

(1)针对社交媒体中网络新语层出不穷,可考虑在跨模态融合中建立词典,降低文本模态的噪音,提升跨模态融合性能。

(2)针对视觉数据读取与用户对相同信息的理解存在差异的问题,利用注意力模型对齐不同模态特征之间的细粒度将是未来跨模态融合研究的热点问题。

(3)目前,跨模态融合主要集中在文本和图像数据上,而视频数据可以更好地表达人们的不同状态。因此,整合文本、图像、视频等不同模式是未来研究需要考虑的问题。

猜你喜欢
图文注意力模态
让注意力“飞”回来
画与理
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
国内多模态教学研究回顾与展望
基于HHT和Prony算法的电力系统低频振荡模态识别
由单个模态构造对称简支梁的抗弯刚度
图文配
图文配
多模态话语模态的协同及在外语教学中的体现