基于ALBERT-BiLSTM-Att的微博评论情感分析研究

2022-02-24 00:08支世尧吴贞如陈涛李盛达彭栋
计算机时代 2022年2期
关键词:情感分析

支世尧 吴贞如 陈涛 李盛达 彭栋

摘  要: 针对传统语言模型无法直接提取句子的双向语义特征,导致情感分类准确率较低的情况,提出一种结合预训练语言模型ALBERT、BiLSTM以及Attention机制的微博评论情感分析模型ALBERT-BiLSTM-Att。在公开数据集weibo_senti_100k上,经过五折交叉验证实验,ALBERT-BiLSTM-Att模型的准确率达到93.30%。

关键词: 情感分析; 微博评论; ALBERT; BiLSTM; Attention

中图分类号:TP389.1          文獻标识码:A     文章编号:1006-8228(2022)02-19-04

ALBERT-BiLSTM-Att Models for sentiment analysis of Weibo comments

Zhi Shiyao, Wu Zhenru, Chen Tao, Li Shengda, Peng Dong

(School of Information Engineering,Nanjing Audit University, Nanjing, Jiangsu 211815, China)

Abstract: Aiming at the situation that traditional language models cannot directly extract the two-way semantic features of sentences, resulting in low accuracy of emotion classification, a Microblog comment sentiment analysis model ALBERT-BiLSTM-Att that combines pre-training models ALBERT, BiLSTM and Attention mechanism is proposed. A 5-fold cross-validation experiment on the public data-set weibo_senti_100k shows that the accuracy of the ALBERT-BiLSTM-Att model reached 93.30%.

Key words: sentiment analysis; Weibo comment; ALBERT; BiLSTM; Attention

0 引言

微博作为全球最大的中文社交全媒体平台,达到了月活跃用户数5.23亿,日活跃用户数2.29亿(截至2020年11月)。通过微博发布信息具有即时性、开放性、碎片化、裂变传播等特征[1]。用户的大量评论(特别是负面评论)往往容易造成舆情事件的爆发。因此相关部门应加强对网络舆情的管控过程,特别是对微博评论进行情感分析应是重中之重[2]。

1 研究现状

文本情感分析的方法主要有基于情感词典、机器学习以及深度学习三种方法。

情感词典方法是将数据集和情感词典中的词进行匹配,通过权重计算,从而得到文本的情感极性,但一个完备的词典很难被构建出来[3]。赵妍妍等人[4]构建了一个基于微博数据的大规模情感词典,该方法在微博情感分类的效果上和NRC-Canada相比提高了1.13%;2019年,XuG等人[5]通过构建一个包含基本、场景以及多义三方面情感词的扩展情感词典,有效提升了情感分类的效果。

机器学习方法则是利用NB、SVM等算法来实现情感分析,但因为基于机器学习方法训练出的模型大多缺少泛化能力,以至于不能够较好的应用在多种场景。Pang等人[6]于2002年首次应用机器学习算法对电影评论数据进行情感分析。支等人[7]使用NB方法对酒店评论进行情感分类,准确率为81.3%。孙建旺等人[8]将中文微博文本中的形容词以及动词作为特征提取出来,并使用基于层次结构和符号的方法对特征进行降维并计算极性值,最后使用SVM进行情感分类。

这两种方法都有明显弊端,基于此,人们提出基于深度学习的方法。KimY[9]最早提出将CNN应用于文本情感分析。关鹏飞等人[10]提出一种基于注意力机制的并行BiLSTM模型,利用Attention机制和BiLSTM提取词、句的特征信息,有效提升了分类效果。胡朝举等人[11]构建了一种基于深层注意力的LSTM模型,通过共享权重的BiLSTM对主题和文本词向量进行训练,并融合主题和文本特征。缪亚林等人[12]针对训练速度慢的问题,提出一种结合CNN与GRU的文本情感分析模型(CNN-BiGRU),实验表明,CNN-BiGRU模型简化了特征提取过程,提高了训练速率并且准确率没有降低。Yin等人[13]于2020年提出Sentibert方法,该方法基于预训练模型BERT,包含BERT、基于注意网络的语义组合模块、短语和句子的预测因子三个模块,通过实验证明该方法对分类效果提升明显。

为了优化特征提取,本文利用ALBERT来获取微博评论的动态特征表示,并结合BiLSTM以及注意力机制,提出ALBERT-BiLSTM-Att模型。通过对比实验发现,该情感分析模型能较好地提取微博评论文本的深层语义特征。

2 基于ALBERT-BiLSTM-Att的微博评论情感分析模型

2.1 BERT与ALBERT

BERT是2018年Google AI Language的DevlinJ等人提出的预训练语言模型[14],刷新了多项NLP任务的记录。该模型采用双向Transformer编码器,其中Bert-base叠加了十二层Encoder,具体单元结构如图1所示。它有两种训练任务:

[Masked Language Model]:随机[MASK]每个句子中15%的词。其中被打上[[MASK]]标记的词有10%替换为任意词,10%不变,其余80%直接替换为[[MASK]]标签,让模型预测被打上[MASK]标记的单词含义。

[Next Sentence Prediction]:通过从训练文本中挑选连续以及非连续的语句对,让模型判断语句相关性。

BERT模型的处理过程为:将输入的文本数据X=(X,X,…,X)進行Token Embeddings、Segment Embeddings以及Position Embeddings。设计了Self-Attention,充分考虑句子中每一个词语之间的语义和语法联系,同时考虑到不同head中单词的Attention不同,通过结合多个Self-Attention形成多头(Multi-Head)机制,使模型获得更大容量。

Add  Norm层的Add为残差连接(Residual Connection),Norm]为层归一化(Layer Normalization)。把模型输入与上层输出相加,再进行层归一化,这样可以做到仅关注差异部分,并使模型更容易训练。Add  Norm层的输出传递到Feed Forward,再经过Add  Norm层后输出。

ALBERT是Google的Lan等人[15]基于BERT模型改进的一种预训练语言模型,该模型与BERT相比,降低了参数量,并提高了运行速度。

ALBERT相较于BERT主要有以下几点改进。

⑴ Factorized embedding parameterization:降低Embedding层的词嵌入维度,并在词嵌入和隐藏层间添加一个中介。参数量[P]的计算公式为:

P=L×H ⑴

P=L×V+V×H  ⑵

词表大小为L,隐藏层维度为H,词嵌入维度为V。BERT模型中V和H相同,在V远小于H的情况下,词嵌入因式分解后的参数量P将大幅度减小。

⑵ Cross-Layer Parameter Sharing](层参数共享):将[FFN]和[Attention]模块都实现了参数共享,尽可能减少参数量。

⑶ [Inter-sentence coherence loss](句间连贯):改进了BERT模型原有的[NSP]任务,提出了[SOP(Sentence-order prediction)]的新型训练任务。

⑷ 移除[Dropout]。

2.2 ALBERT-BiLSTM-Attention模型

ALBERT-BiLSTM-Att模型结构如图2所示。ALBERT-BiLSTM-Att模型主要由四个部分组成:输入层、ALBERT层、BiLSTM-Att层(包含BiLSTM层和Attention层)、输出层。

步骤1 对微博评论数据进行预处理,利用输入层将预处理的微博评论数据输入到模型的ALBERT层中,输入的文本数据为X=(X,X,…,X)。

步骤2 在ALBERT层获取文本的动态特征表示。

步骤3 将步骤3获得的文本特征输入到BiLSTM层中,x表示i位置上的词向量输入,通过前向传递模块LSTM和后向传递模块LSTM,分别获得h和h,之后连接h和h,获得隐层向量h1,2,...,n,并结合注意力机制得到最终句子表示h,算法如下:

步骤4 将特征向量[h]输入到Dense Layer进行降维,全连接层的输出维度为情感标签的类别数。最后对输出结果进行Softmax归一化,得到微博评论文本的情感极性。

3 实验与分析

3.1 数据预处理

本文选用公开数据集weibo_senti_100k作为实验数据集。数据集包含119988条带情感标签的数据,其中正负评论各59994条,0和1分别表示负向评论和正向评论。使用正则表达式对数据进行过滤处理,根据标识删除“#”、“@”、“//”等与情感表达无关内容,并进行停用词去除等操作,示例见表1。

数据集90%作为训练集,采用五折交叉验证,剩下10%作为测试集。由于模型从未见过测试集数据,所以可以更准确的反应模型的分类效果。

3.2 实验参数

实验参数包含两部分,一是ALBERT模型,二是BiLSTM-Att模型。其中ALBERT采用Google发布的预训练模型ALBERT-Base。模型参数见表2:

3.3 对比模型设置

为了评估模型的效果,本文采用以下五个对比模型。

⑴ ALBERT-base模型:利用ALBERT-base模型训练得到文本特征,将获得的文本特征通过一个全连接层,然后直接输入到[Softmax]分类器中。

⑵ Att-BiLSTM模型:该模型是由注意力机制和双向长短期记忆网络组成。

⑶ Word2Vec-BiLSTM:采用Word2Vec训练得到文本特征,并输入到BiLSTM。

⑷ BERT-BiLSTM:采用BERT模型将微博评论文本训练得到文本特征,并输入到BiLSTM中进行情感分类。

⑸ ALBERT-BiLSTM:采用ALBERT模型将微博评论文本训练出词向量表示,并输入到BiLSTM中进行情感分类。

3.4 实验结果与分析

不同模型在weibo_senti_100k上的情感分类效果如表3所示。分析如下。

⑴ 基于ALBERT-BiLSTM-Att的模型优于Att-BiLSTM模型,在三种评估指标上都有很大提升,验证了预训练语言模型ALBERT的有效性。

⑵ 基于ALBERT的方法与其余模型比较,都取得比较理想的实验结果。

⑶ ALBERT-BiLSTM-Att模型与ALBERT-BiLSTM模型相比有微弱提升,但较其他模型,有明显优势。说明Attention机制能够挖掘更深层次的语义特征。

结果表明,基于ALBERT-BiLSTM-Att的情感分类方法在微博评论文本上相比其他模型具有更好的表现。

4 总结

微博作为全球最大的中文社交平台,对其评论进行情感分析,可以掌握网民对公共事件的态度,从而控制网络舆情的发展方向,这对于政府部门进行网络舆情管控有着十分重要的意义。本文设计的ALBERT-BiLSTM-Att情感分析模型可以提取句子的深层语义特征,提升了情感分类的准确率。实验结果表明,该模型在weibo_senti_100k上的分类效果优于其他模型。但由于ALBERT模型训练时间较长且难以复现以及BiLSTM模型的计算量较大等限制,导致模型训练和推理时间较长,下一步将对此进行改进,以进一步提升模型的速度和效果。

参考文献(References):

[1] 张文婷.微博对传统新闻传播模式的影响[J].数字传媒研究,2018,35(7):32-33

[2] 谌志群,鞠婷.基于BERT和双向LSTM的微博评论倾向性分析研究[J].情报理论与实践,2020,43(8):173-177

[3] 徐民霖.结合情感词典和神经网络的文本情感分析研究[D].江西理工大学,2020

[4] 赵妍妍,秦兵,石秋慧,等.大规模情感词典的构建及其在情感分类中的应用[J].中文信息学报,2017,31(2):187-193

[5] Xu G, Yu Z, Yao H, et al. Chinese text sentiment analysisbased on extended sentiment dictionary[J]. IEEE Access,2019,7:43749-43762

[6] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentimentclassification using machine learning techniques[J].arXiv preprint cs/0205070,2002

[7] 支世堯,彭栋,朱旭.基于机器学习的在线评论倾向性分析[J].科学技术创新,2021(15):99-100

[8] 孙建旺,吕学强,张雷瀚.基于词典与机器学习的中文微博情感分析研究[J].计算机应用与软件,2014(7):177-181

[9] Kim Y. Convolutional Neural Networks for SentenceClassification[J]. Eprint Arxiv,2014

[10] 关鹏飞,李宝安,吕学强,等.注意力增强的双向LSTM情感分析[J].中文信息学报,2019,33(2):105-111

[11] 胡朝举,梁宁.基于深层注意力的LSTM的特定主题情感分析[J].计算机应用研究,2019,36(4):121-125

[12] 缪亚林,姬怡纯,张顺,等.CNN-BiGRU模型在中文短文本情感分析的应用[J].情报科学,2021,39(4):85-91

[13] Yin D, Meng T, Chang K W. Sentibert: A transferabletransformer-based architecture for compositional sentiment semantics[J].arXiv preprint arXiv:2005.04114,2020

[14] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training ofdeep bidirectional transformers for language understanding[J]. arXiv:1810.04805,2018

[15] Lan Z, Chen M, Goodman S, et al. Albert: A lite bert forself-supervised learning of language representations[J]. arXiv preprint arXiv:1909.11942,2019

猜你喜欢
情感分析
面向应用比较的用户评论挖掘工具的设计与实现
基于微博文本的情感倾向分析
基于word2vec扩充情感词典的商品评论倾向分析
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
歌曲《我的深情为你守候》的情感分析与演唱诠释
文本观点挖掘和情感分析的研究