拥抱融合的多模态灾害分析算法

2022-10-18 07:12缪梓敬
计算机与现代化 2022年10期
关键词:线性模态灾害

梅 欣,缪梓敬

(华南师范大学计算机学院,广东 广州 510631)

0 引 言

近年来,世界各地遭受一系列重大灾害,包括地震、飓风、火灾和洪水。这些灾害给全世界的人民带来极大的损失,不仅是对个人的生命财产,也给国家带来巨大的经济损失。这些灾害信息以文本、图像等多模态在各个社交媒体平台进行传播[1]。相比传统对于单文本[2]和单图像[3]模态信息进行分析,多模态有以下优势:1)数据量相对不多时,多模态可以聚合多源数据的信息,让模型学习到的特征更完整。2)数据量达到一定规模时,模态种类越完整,模型的内在复杂度会降低,从而提高模型的学习效果[4]。因此对这些平台中的灾害信息进行融合[5]就势在必行。

多模态的融合方法,主要分为早期融合(数量级融合)、中期融合(特征融合)、晚期融合(决策融合)3个层次[6]。早期融合是将原始的多模态信息进行融合,然后作为输入求解下游问题,缺点是过早融合,导致不能找出不同数据流之间的相关性,且存在数据冗余的问题[7]。晚期融合是先对不同模态数据进行训练求得相应的决策结果,再融合多个结果得到最终的结果,其优点是各个模型相对独立,具有良好的容错性,缺点是需要根据不同场景调整决策融合方式[8]。中期融合是将不同模态数据的特征提取出来,在统一的特征空间进行融合,再将融合的特征用于求解下游问题,其优点是结果精度更高、前景更广,缺点是特征的抽取存在难度。目前多模态融合主要集中在中期融合方法研究中。融合方式主要有以下3种:

1)特征线性融合[9]。线性融合是直接将文本和图像的特征向量进行拼接或者加权求和,其优点是操作简单,缺点是难以应对复杂情况。文献[10]中提出的文本和图像联合共享算法,将提取的文本特征和图像特征连接成一个表示层,方法可移植性强,但存在重复相同特征,容易因特征冗余而导致准确率不高的问题。文献[11]提出特征权重加权求和,但是要求预训练模型产生确定的维度以及要按一定的顺序来排列,需要让全连接层控制维度和顺序,因此操作复杂。

2)基于注意力机制[12]。基于注意力机制融合是将更多的“注意”关注更重要的特征,针对文本和图像的不同特征训练出不同权重,并建立2个模态之间的联系,得到带有注意力的融合向量。文献[13]中引入一个交叉注意模块,可以从较弱的模态过滤出无信息和误导性成分特征。但不同模态信息缺少明显的交互,无法充分发挥模态信息之间的互补关系。

3)基于双线性池化[14]。基于双线性池化融合是获得文本和图像特征向量联合表示空间,计算它们的外积,产生n2维度的表征,再线性化为一个向量表示,从而得到一个更好的表现力。文献[15]提出基于双线性池化的特征级融合方法,允许特征向量以一种有效的交互方式相互作用,从而表达出特征之间的内在关系,但该方法需要对张量进行分解,维数通常达到几万到几百万的数量级,才能有效训练相关模型。

经过以上分析,考虑特征线性融合和基于注意力机制融合的优劣势,本文提出一种新的拥抱融合算法,在注意力机制中加入线性融合操作。该结构的主要组成部分是对接层和拥抱层。首先对接层基于注意力融合将特定的输入特征和其他特征进行对比,赋予不一样的特征权重。然后拥抱层基于多项抽样[16],选择文本和图像的特征向量进行融合,消除特征冗余,保留多个模态之间特征的相关性。最后将特征融合送到终端网络。本文通过与当前最新算法进行对比实验来验证该算法的优势,同时还验证了该算法对于不同文本和图像深度学习模型的适应性。

1 单模态模型

1.1 文本模型

对于文本预训练,本文使用Merity等人[17]提出的AWD-LSTM(ASGD Weight-Dropped LSTM)模型对文本进行特征提取。

首先遗忘门将2个输入,当前时间步的输入xt以及上一层输出的隐藏状态ht-1,训练出一个门函数,并输出一个0到1之间的数值给每个细胞状态Ct-1中的数字,其中0表示完全舍弃,1表示完全保留。这一步是决定丢弃什么信息。计算公式如式(1)所示。

ft=σ(Wf.[ht-1,xt]+bf)

(1)

其中,W为权值,b为偏移量,σ为sigmoid函数,下同。

it=σ(Wi.[ht-1,xt]+bi)

(2)

(3)

(4)

最后通过输出门将新的Ct通过简单的tanh函数后,与门函数的输出相乘,得到新的隐藏状态ht,这一步决定输出什么。计算公式如式(5)与式(6)所示。

ot=σ(Wo[ht-1,xt]+bo)

(5)

ht=ottanh(Ct)

(6)

AWD-LSTM引入了正则化技术,在处理过拟合的问题中,AWD-LSTM模型使用DropConnect在神经网络中对全连接层进行正则化[18]处理,相对于Dropout[19]在计算ht时刻的某个神经元时,DropConnect[20]只会使用ht-1中部分神经元,从而缓解过拟合。将文本送入到AWD-LSTM模型进行特征提取,得到向量表示。其中DropConnect神经网络如图1所示。

1.2 图像模型

对于图像预训练,本文利用卷积神经网络[21](Convolutional Neural Network, CNN),将图像表示为高维特征向量,通过特征向量来表示图像的语义特征。先在卷积层将图片中的不同特征提取出来,然后经过池化层的切分,得到新的、维度较小特征,最后将所有局部特征结合变成全局特征,用于计算最后分类的得分。其中激活函数贯穿整个卷积全过程。卷积运算如公式(7)所示。

s(t)=f((X*W)(t))

(7)

其中W为卷积核,X为图像。

ResNet50[22]网络结构在连接多层卷积网络之后,网络训练会变得困难。此时构建残差学习块,通过直连进行恒等映射,内部的残差块之间的连接方式使用了跳跃连接。这样误差逆传播的时候只需要传播残差部分,从而解决了梯度消失问题。利用多个残差块构建的深层次网络,能够提取到更丰富的信息,同时更完好保留图像的特征信息,使接下来的特征向量融合方式变得更加灵活。跳跃连接公式如式(8)所示,残差块结构如图2所示。

H(x)=F(x)+x

(8)

其中F(x)为卷积函数,H(x)为跳跃连接后的输出。

2 拥抱融合模型

2.1 算法主要思想

对于多模态融合,本文希望能够得到高准确率,且操作尽可能简单。结合特征线性融合和注意力机制的优势和不足,本文提出拥抱融合策略,先分别从文本和图像获取特征向量,并进一步通过注意力权重突出更重要的特征,然后,考虑每个模态特征之间的相关性。本文并不直接连接文本和图像模型的特征向量,而是将处理后的特征去除特征冗余,挑选有效特征连接到拥抱层结构中,并最终传递到终端网络得到分类结果。同时模型在每一个模态引入多项抽样的概率p,所有模态就相当于多项式分布。在拥抱层通过调整概率p,可以健壮地处理丢失的数据,防止正则化时过拟合。然后采用多项抽样融合特征,有效地防止训练阶段对特定模态数据的过度学习,剔除冗余特征。拥抱融合如图3所示。

2.2 对接层

首先对接层将文本和图像提取的所有特征xi进行对比,由softmax层来学习每个特征维度的注意权重αi,让更重要的特征赋予更多的权重。最后将注意权重与输入特征相乘,得到添加注意之后的特征βi。计算公式如式(9)与式(10)。

(9)

βi=αixi

(10)

其中i,j∈{1,2,…,n+m},n+m是多模态连接的特征向量总维数,W是模型学习到的权值矩阵。

然后考虑融合之前不同模态有不同维度的特征,因此在融合之前需要将它们转换成相同大小的向量。假设β(1)和β(2)分别表示为图像和文本特征的输出向量。对接层的第k(k=1,2)个输入向量的表示为:

z(k)=w(k)·β(k)+b(k)

(11)

其中w(k)和b(k)分别是权重向量和偏差。然后将激活函数fa(线性整流函数ReLU)应用于z(k),从而获得第k个对接层输出,如式(12)。

d(k)=fa(z(k))

(12)

2.3 拥抱层

ri~Multinomial(1,p)

(13)

当每个模态的对接层产生了它自己的表示d(k),在拥抱层中使用哈达玛积(Hadamard product)只对向量的某些部分进行进一步处理,如式(14)。

d′(k)=r(k)·d(k)

(14)

最后一步是融合2个模态的向量,得到融合向量ei,如式(15)。

e=∑kd′(k)

(15)

最后将融合向量输入到全连接层中,第1个全连接层长度为256个节点,第2个全连接层长度根据任务的分类数不同而作调整。任务1为2个节点,任务2为5个节点。然后作为终端网络的输入向量,输出给定分类任务的最终结果。基于AWD-LSTM和ResNet50网络构造的拥抱融合模型如图4所示。

3 实 验

3.1 实验数据集

CrisisMMD2.0[23]多模态推特数据集包含了2017年发生在全世界不同地区的地震、飓风、野火和洪水等7次自然灾害期间收集的数千条人工注释推文和图片数据。数据集包括2个类型的标签:

1)是否为灾害救援相关信息,包括信息性标签与非信息性标签。任务1的目的是确定在灾难事件中收集给定的推特文本和图像是否有助于灾害救援。

2)灾害救援事件的各种信息类型,包括人员伤亡信息、基础设施和公共设施损坏信息、救援和捐赠信息、其他灾害相关信息、非灾害相关信息。任务2的目的是确定推特文本和图像中灾害信息的类型。CrisisMMD2.0数据集数量如表1所示。

表1 灾害名称及数量

3.2 实验设置

本文使用Fastai[24]和集成了Transformers的PyTorch框架来实现多模态模型。首先对每一个模态,在冻结除了最后一层的所有层后,使用Fastai工具确定学习率,然后逐步解冻。这样操作的原因是把模型的全部层一起训练,容易造成通用信息丢失,从而增加信息遗忘的风险。最后解冻所有组后,再次通过Fastai工具确定学习率,并使用这个新的学习速率训练模型。其中实验权重衰减值取0.1, Dropout值取0.8,其余的超参数值为Fastai库中的默认值。本文使用CrossEntropyLoss和Adam[25]分别作为损失函数和优化器。

3.3 实验1结果与分析

为了验证提出的拥抱融合模型的效果,本文在CrisisMMD2.0数据集上进行了任务1和任务2的实验,同时将拥抱融合模型的实验结果与目前的一些主流多模态融合进行对比,分别包括特征线性融合、基于注意力、基于双线性池化。多模态拥抱融合选取的核心指标分别是所有类别的准确率、精确率、召回率和F1值。实验分别计算了精确率、召回率、F1值三者的算术平均数和加权平均数2种实验结果,填写到表中为加权平均数。所有实验的对比结果如表2与表3所示。

表2 任务1实验1结果对比

表3 任务2实验1结果对比

由准确率、精确率、召回率和F1值的实验数据对比结果表明,相较于特征线性融合、基于注意力机制和双线性池化融合算法,本文方法的准确率更高,在融合模态方面展示了更好的性能。具体分析,特征线性融合只是将文本特征和图像特征融合成一个共享特征表示,特征冗余且重复,所以它的效果相对来说是最差的。基于注意力机制和基于双线性池化的效果偏好一点,然而它们没有考虑特征之间的相关性,因此相比特征线性融合好一点,但相比本文算法略差。拥抱模型相比特征线性、基于注意力机制、基于双线性池化在准确率方面,任务1分别提高3.8个百分点、2.2个百分点、3.2个百分点,任务2分别提升6.7个百分点、3.1个百分点、4.1个百分点。

本文进一步分析几个模型的混淆矩阵,观察模型在各个类别的表现,查看哪个类别具有区分性。其中任务1为二分类问题,任务2为多分类问题。任务1和任务2的混淆矩阵如表4~表11所示。

表4 任务1特征线性融合混淆矩阵

表5 任务1基于注意力机制混淆矩阵

表6 任务1基于双线性池化混淆矩阵

表7 任务1拥抱融合混淆矩阵

表8 任务2特征线性融合混淆矩阵

表9 任务2基于注意力机制混淆矩阵

表10 任务2基于双线性池化混淆矩阵

表11 任务2拥抱融合混淆矩阵

从表4~表7结果得出,本文和其他算法模型相比,在TN、TP、FN、FP都全面提升。具体分析,当模型预测为灾害相关的信息(即信息性),但真实标签为没有灾害相关的信息(即非信息性)。本文模型相较于特征线性融合的实验数据实例分别从139、124、135下降到97,说明拥抱融合准确率更高。相同实验结论也可从其他实例得出。

从表8~表11结果得出,当模型预测为非灾害救援相关信息(即非灾害),但真实标签为基础设施和公共设施(即设施),在特征线性融合模型中有10个假阴性实例,基于注意力机制有7个,基于双线性池化有7个,而在拥抱融合模型中只有4个。这表明拥抱融合在多分类实验中也展示出比其他模型的优越性。同样的结论也可从表中多次得出。

3.4 实验2结果与分析

为了进一步验证拥抱融合在不同文本、图像特征提取模型具有同样的优势,本文选取现在流行的文本和图像深度学习模型,例如BERT、AWD-LSTM、XML和ResNet50、DenseNet161、VGG19,继续在CrisisMMD2.0数据集进行任务1和任务2的实验。不同深度学习模型实验结果如表12与表13所示。

表12 任务1实验2结果对比

表13 任务2实验2结果对比

由表12与表13可知在不同文本和图像融合基础上添加拥抱融合算法,在准确率方面会有不同程度的提高,说明拥抱模型可以适用不同的文本和图像深度学习模型。同时也验证了拥抱模型更适用于ResNet50+AWD-LSTM,因为在此融合模型准确率的提高最大。

通过以上实验数据对比,拥抱模型相对于其他融合模型有更高的准确率,且适用于不同的文本、图像深度学习算法,是一种有效的灾害事件分析算法。

4 结束语

针对灾害事件中多模态融合识别问题,本文提出拥抱融合的多模态算法,在基于注意力机制和特征线性融合的基础上,通过对文本和图像特征进行挑选与融合,去除特征冗余的同时,保留特征之间的相关性,来提高拥抱融合的性能。最后在CrisisMMD2.0多模态数据集上验证对比表明,拥抱融合模型相对于其他融合具有更高的准确率和适用性。

由于本文只使用CrisisMMD2.0单一灾害事件数据集,对于不同多模态灾害事件的数据集的适用性,还需要进一步验证。因此在接下来的研究中,可以针对不同灾害事件场景构建模型。这是未来继续研究下去的方向。

猜你喜欢
线性模态灾害
河南郑州“7·20”特大暴雨灾害的警示及应对
联合仿真在某车型LGF/PP尾门模态仿真上的应用
多模态超声监测DBD移植肾的临床应用
二阶整线性递归数列的性质及应用
跨模态通信理论及关键技术初探
线性回归方程的求解与应用
非齐次线性微分方程的常数变易法
线性回归方程知识点剖析
灾害肆虐
2015年我国海洋灾害造成直接经济损失72.74亿元