多模态藏语情感分类的研究＊

2022-10-14 06:55拉桑吉安见才让

计算机时代 2022年10期

拉桑吉，安见才让

（1.青海民族大学计算机学院，青海西宁 810007；2.青海省藏文信息处理与机器翻译重点实验室；3.省部共建藏语智能信息处理及应用国家重点实验室）

0 引言

近年来，深度学习体现出较为优异的学习表现，越来越多的研究人员开始倾向使用神经网络来学习文本或者图像的特征用于情感分类。但是单一模态的信息量容易受到其他因素干扰。通常情况下，对于一个虽然带有情感色彩但情感倾向不明显的藏文句子，如果配上表情和图，其情感倾向相对会清晰很多。在社交平台中图像与文本存互补性，图文两种模态的信息往往比单一模态表达的情感更明确。所以多模态数据能有效地预测藏族网民所表达的情感倾向。

1 相关研究

多模态情感分类的目标是识别带有情感色彩的文本及图像内容的情感极性。本文将情感极性分为三大类，即为积极情感倾向和消极情感倾向、中性等三种极性。积极情感极性由{1}来表示、消极由{-1}表示、中性由{0}表示。

1.1 单模态情感分类研究

⑴文本情感分类

本文是基于深度学习的方法。孙旺本等将深度学习算法的CNN-LSTM（convolutional neural networklong short-term memory，CNN-LSTM）等模型引入藏文的情感倾向分析中；训练了藏文微博词向量模型，提高了特征向量对文本语义信息的表达。

一些藏文语料分词存在不统一的问题。普次仁等将藏文用词向量表示词语，利用无监督递归自编码算法对矩阵向量化，预测藏文语句的情感倾向，其不足点是并未探究语料库大小对深度学习算法性能的影响，以及深度学习中参数较多引起的过拟合现象。曲塔吉将基于注意力机制和LSTM 的神经网络对藏文多极情感句子做了情感分析实验，建立藏文多极情感数据集，使用注意力机制和BiLSTM 神经网络模型来实验，正确率很高。

本课题先收集藏文情感数据集，对其进行数据预处理。由于目前在藏民族居住地区没有公开的情感数据资源，在数据预处理时将藏文分词、情感标注等工作都按照藏文传统文法结构，由人工进行完成。

⑵图像情感分类

论文选用情感特征提取方法研究图像情感数据集。Chen等提出一个包含多个CNN的深度神经网络对图片情感进行分类，模型性能显著优于传统的机器学习模型。Yang等提出了图片局部区域信息和整体信息的图片情感识别模型，取得良好的效果。曹建芳等提出了基于Adaboost-BP 的图像情感分析方法，使用Adaboost 算法结合BP 神经网络的弱分类器，构成一个强分类器，取得了良好的实验效果。

首先收集图像情感数据集，这些图像数据集都是在各种社交平台中使用藏文的网民平时所使用的评论表情图像，然后对其进行情感标注及数据预处理工作。

1.2 多模态情感分类研究

多模态情感分类研究可分为特征融合好、中间层融合和决策融合，本课题选择特征融合。在多模态情感分类研究方面，各专家和学者都选用适合各种课题的技术来研究。

Jindal 和Singh使用卷积神经网络(Convolutional Neural Network,CNN)构建图像情感预测框架，使用于对象的识别与迁移学习当中，在人工标注的图像数据集上进行实验。多模态情感分类有着很大的研究空间。谢豪等提出了一种基于多层语义融合的图文情感分类模型对社交媒体图文数据进行情感分类，以提高情感分类性能、为政府、企业决策提供科学依据。

综上所述，目前在藏民族居住地区对情感分类的研究尚未涉及多模态情感分类。所以，本文选择对多模态藏语情感分类进行研究，以期得到更准确的藏民族情感分析数据。

2 模型设计

对本课题的研究选用一种即适合藏文文法结构，又适合图像情感特征提取的神经网络模型是对多模态情感分类及识别的重要基础。从多模态藏文文本及图像情感分类的角度出发对神经网络模型的选择进行了分析研究，将深度学习的算法模型引入多模态藏语情感分类当中。接下来会简单的将两种单个模态的模型以及融合后的结果进行分析。

2.1 基于全连接神经网络的藏文情感分类模型

在藏文文本的情感分类任务中，对藏文句子提取特征的时候应该要增大对藏文关键词的影响力，从而提高藏文情感分类的神经网络模型识别率。

图1 藏文文本情感分类的全连接神经网络模型（FCNNMSCTT）

FCNNMSCTT 模型主要目的是识别出不同藏文句子的情感的类别和极性，有3种分类极性，分类任务数据集表示为D=(S,S,…,S,…,S)。公式如下：

FCNNMSCTT 模型把输入数据分成两个部分：词和字符，并将词和字符都表示成嵌入向量。其表达形式如式⑵中两个公式：

其中，W表示第i 个的词S词向量，C表示第i 词的第j 个字符嵌入向量。

在收集的情感语料中，其训练句子样本的长度不同，包含的词与字符的长度也不同。在藏文情感分类上我们需要考虑怎样把藏文的字符向量和词向量的维度大小一致，长度大小一致等问题，因此，我们把藏文情感语料的字符向量和词向量设置为512，句子长度统一设置为80，模型的输入向量Tc计算方法如式⑶所示：

句子S的向量表示为：

2.2 基于卷积神经网络的藏语情感分类表情图像模型

藏语情感分析表情图像的深度学习我们采用了卷积神经网络，模型如图2所示。

图2 藏语情感分类中表情图像的卷积神经网络模型(CNNMEITSA)

使用CNNMEITSA 模型中，输入层图像大小为256×128×1。使用卷积核对此进行特征提取和特征映射，第一个卷积层深度为32，卷积了四次池化了四次之后，全连接三次把第五层的输出数据全部做拼接成维度为512 的张量YC，再做全连接处理，激活函数ReLu，输出维度为3的张量Y，表达式为：

输出结果Y计算出每一个图像情感继续极性。

2.3 基于神经网络的多模态图文融合的网络模型

多模态图文情感分类中每一张积极图像的特征和一条积极的藏文情感文本的特征相对应，一张消极图像的特征和一条消极的藏文情感文本的特征相对应，中性图像的特征和中性句子的特征对应的存在。在最后结果输出时，对比图像标签和文本标签的权重哪个模态正确率高，就会取出那一方的正确率来输出分类结果。

3 实证研究

3.1 实验概述

基于神经网络情感分类模型的实验平台是基于Python 编程语言的Anaconda 平台中环境选择了TensorFlow 和Keras。实验数据为多模态藏语图文情感分类数据共6000多条，主要运用的神经网络算法的知识有全连接神经网络、卷积神经网络等。

3.2 实验环境介绍

本课题的所有实验都是在同一个的硬件配置下的计算机上完成的，下面硬件及软件的实验环境进行介绍，具体如表1、表2所示。

表1 计算机硬件配置表

表2 计算机软件配置

4 实验结果分析

4.1 测试数据

本课题是以藏文情感句子当中的情感极性以及图像中文的情感特征为研究对象，从而建立起6000多条藏文情感句子及情感图像的数据集。

⑴藏文文本的三种情感极性：积极情感数据有表示满意句子、表示一般满意句子、表示非常满意的句子；消极情感数据有表示不满意的句子、表示一般不满意的句子、表示非常不满意的句子；中性句子不表达任何带有情感色彩及情感倾向的句子。每一种情感数据都会按照句子本身所表达的情感极性做与之相对应的标注。其数据示例表3所示。

表3 情感文本数据示例

⑵情感图像的三种情感极性：积极图像数据有表示吉祥、开心、高兴、兴奋等图；消极图像数据表示不开心、不讨喜、难过、伤心、孤独、流泪等图；中性图像表面看不出任何内心活动的图像、面无表情的图。每一张图都会根据图片本身所表达的情感倾向为出发点进行标注。其数据示例图3所示。

图3 情感表情图像数据集

本课题采用了基于深度学习全连接神经网络和卷积神经网络模型进行训练，在数据相同的验证集上提高识别精度。此外，在测试集中选择不同情感极性的2400 条句子、2400 张图片作为训练样本，600 条句子和图像作为测试样本来验证识别效果。

4.2 结果分析

基于神经网络的模型在图像情感分类上的表现优异。本次实验的数据共有3000 条文本情感数据和3000多张图像情感数据其实验结果如图4所示。

图4 三个模型训练结果示例

其中图4（左）表示文本模型的结果，图4（中）表示图像模型的结果图4（右）表示融合后的结果，各个模型实验结果数据如表4所示。

表4 各模型实验结果示例

表4 中文本模型FCNNMSCTT 最终正确率56%、表情图像模型CNNMEITSA 正确率88.75%、融合模型FUSIONMODEL 正确率96.98%。实验分析可知数据在计算机识别后的结果跟人想要表达的情感是十分吻合的。证明了多模态对人类日常生活中情感表达的影响程度比单个模态强很多。

本文对多模态情感分类识别的模块进行了实验。最终的实验结果表明模型框架损失值低、识别率高、分类性能优。得出实验过程中样本数据越多，其算法对情感分类的识别准确率也会逐步提升趋于稳定，损失值也会随之降低的结论。后期还会增加数据查看此模型实验相对于其他模型是否更具稳定性，增加语料之后的准确率会不会也随之上升。

5 总结与展望

针对当前多模态藏语情感分类的不足，提出了基于神经网络FCNNMSCTT、CNNMEITSA 情感分类模型。实验结果表明，基于神经网络的多模态情感分类模型具较高的准确率。但现有的多模态图文情感分类的数据少、也没有公开的数据，只能花费大量的人工进行采集和标注。在未来的研究中，多模态图文情感分类语料库需要进一步的建立、提高语料标注效率。