基于情感分析和影响力评估的突发事件情感图谱

2022-06-21 06:30仇丽青曲福帅
计算机应用 2022年5期
关键词:图谱舆情突发事件

仇丽青,曲福帅

(山东科技大学 计算机科学与工程学院, 山东 青岛 266590)(∗通信作者电子邮箱qiuliqing2019@163.com)

基于情感分析和影响力评估的突发事件情感图谱

仇丽青*,曲福帅

(山东科技大学 计算机科学与工程学院, 山东 青岛 266590)(∗通信作者电子邮箱qiuliqing2019@163.com)

针对突发事件中负面网络舆情传播的问题,提出了一种基于情感分析和影响力评估的突发事件情感图谱研究方法。提出了一种基于多头自注意力机制和双向长短期记忆网络(Bi-LSTM)的情感分析模型来计算网站用户的情感倾向,并提出了一种融合加权度与K-shell值的节点影响力评估算法来评估用户的影响力,从而综合构建突发事件的情感图谱,有效提高了情感图谱的准确性和科学性。以“7.7安顺公交车坠湖事件”为例,将突发事件的生命周期划分为爆发期、蔓延期、成熟期和衰退期四个阶段,分别生成情感图谱进行可视化分析。实验结果表明,在酒店评论数据集上,所提出的情感分析模型的F1值在积极和消极方面比文本循环神经网络(Text-RNN)模型分别提升了9.92个百分点和2.5个百分点;在Karate网络上,所提影响力评估算法的区分度和准确性比K-shell算法分别提升了46.89个百分点和29.05个百分点。构建基于社交网络的情感图谱有助于相关部门发现意见领袖及其情感倾向,从而把握网络舆情的发展趋势,并降低消极情感对社会造成的影响。

社交网络;情感分析;意见领袖;情感图谱;舆情监测

0 引言

随着互联网技术的发展,社交网络已成为用户信息传递和接收的重要平台。第47次《中国互联网络发展状况统计报告》显示,截至2020年12月,我国网民规模达9.89亿,互联网普及率达70.4%[1]。与传统的传播平台相比,在线社交网络中信息与情感的传播具有速度更快、影响范围更广等特点,使得社交网络的舆情研究成为研究者们重要研究的课题。

社交网络的情感图谱是综合社交网络影响力分析和用户信息情感倾向的动态分布图,为社交网络中突发事件舆情的分析和监控提供了方便[2]。众多舆情危机事件表明,对网络舆情进行实时监控、正确引导,能有效降低或避免负面舆情带来的社会问题[3]。安璐等[4]以“魏则西事件”为例,对利益相关者进行标识,构建利益相关者的社会网络情感图谱;赵蓉英等[5]对突发事件舆情传播进行定量化的测度分析,对结构特征及演化规律进行研究,提出了多种突发事件的网络舆情控制和引导对策;张柳等[6]以“高校学术不端”话题为例,基于词云统计进行内容特征分析,构建微博环境下的高校舆情情感演化图谱。

在情感图谱研究中,首先要对文本数据进行情感分析。情感分析是从特定领域的主观文本中提取用户的意见、情感,并区分其极性[7]。Vaswani等[8]首次将自注意力机制应用在了机器翻译领域,提出了Transformer 模型,并将注意力机制与传统深度网络相结合;Wang等[9]提出了一种基于注意力的方面嵌入长短期记忆网络(ATtention-based Long Short-Term Memory network with Aspect Embedding, ATAE-LSTM)模型,在方面级别的情感分类上达到了更好的性能;Liu等[10]将注意力机制与双向长短期记忆网络(Bi-directional Long Short-Term Memory network, Bi-LSTM)相结合并将其应用到计算机视觉领域,提出了一种AB-LSTM(Attention-based Bidirectional Long Short-Term Memory)模型,在场景文本检测上取得了很好的效果;关鹏飞等[11]提出了一种注意力增强的双向LSTM模型,建立自注意力机制来提高对句中情感关键词的关注度,实验结果表明该模型具有优越性能。

得到用户情感倾向后,还需评估用户在突发事件中的影响力。社交网络中节点影响力评估方法主要根据节点的拓扑结构来评估节点的影响力[12],常用的节点重要性度量方法有度中心性[13]、接近中心性[14]、介数中心性[15]、PageRank算法[16]和K-shell算法[17]等。邓凯旋等[18]利用K-shell分解过程中节点被删除时的迭代层数来增加节点区分度,提高了影响力排序的分辨率和准确性;Ibnoulouafi等[19]利用节点的度和距离来定义节点的密度,提出了一种密度中心性算法;王安等[20]考虑节点的社区结构特征和其节点连接特征,提出了一种基于社区划分的节点重要性排序算法,得到了关键节点排序结果。

现有的大部分情感图谱研究忽视了网络中的信息传播方向,且大多使用单一标准对影响力进行度量。网络中具有较大影响力的个体会对其他个体造成一定的影响,信息传播的方向决定个体之间的影响关系和影响强度。在情感分析过程中,输入特征向量中的特征应具有不同重要性,现有方法一般采用注意力机制赋予不同的重要性权重,然而这种方法只能获取一个方面的信息,导致信息获取的多样性受限。若在构建情感图谱之前考虑到上述问题,情感图谱的研究会更加的准确、合理。因此,本文首先提出了一种情感分析模型,该模型将多头自注意力机制和Bi-LSTM模型相结合,使用多头自注意力机制获取不同子空间的信息并计算每个特征的重要性权重;此外,还提出了一种综合考虑节点加权度和K-shell值的节点影响力评估算法WDK(Weighted Degree fusion K-shell),用来评估网络中单个顶点的影响力。综上所述,本文的主要工作如下:

1)提出了一种新的中文短文本情感分析模型,将多头自注意力机制与Bi-LSTM模型结合来分析用户的情感。

2)提出了一种评估节点影响力的WDK算法。该算法结合节点加权度和节点K-shell值来评估有向图中节点的影响力。

3)使用1)、2)提出的模型和算法,提出了一种社交网络情感图谱研究方法。

实验结果验证了所提算法的优越性和本文社交网络的情感图谱分析方法在实际案例上的可用性。

1 算法设计

为了构建准确、合理的突发事件情感图谱,本文综合情感分析和影响力评估方法进行算法设计与分析。首先,将多头自注意力机制与Bi-LSTM相结合,并将其应用到中文短文本情感分析当中,获取突发事件中用户的情感倾向。同时,提出了一种融合加权度与K-shell算法的节点影响力计算方法,对突发事件中用户的影响力大小进行度量,在有向图的节点影响力计算中具有良好的区分度和准确性。

1.1 基于多头自注意力和Bi-LSTM的情感分类模型

1.1.1 双向长短期记忆网络

Hochreiter等[21]提出长短期记忆网络(Long Short-Term Memory network, LSTM)模型,引入“门”的概念,有效避免了梯度消失与爆炸问题。LSTM的基本结构如图1所示。

图1 LSTM模型结构Fig. 1 LSTM model structure

传统的LSTM模型只考虑了序列前值,忽略了未来的上下文信息。Bi-LSTM分别考虑前向和后向传播,利用两次LSTM充分提取短文本的所有特征。Bi-LSTM提取的文本特征向量如式(7)所示:

1.1.2 多头自注意力机制

自注意力机制(self-attention)可以在模型训练中判断关键词的重要程度,关注那些对研究更有用的信息。为了增加情感词在分类过程中的权重,利用多头自注意力机制获取情感词在句子中的权重分布。通过多头自注意力机制获取不同方面更重要的上下文信息,与双向长短期记忆网络相结合,实现了短文本的情感分类。本文使用多头自注意力机制获取不同子空间的信息并计算每个特征的重要性权重,具体实现原理如式(8)~(10)所示:

多头自注意力机制的算法描述如下。

1.1.3 模型设计

为了更加准确地得到突发事件中用户的情感倾向,构建更加科学有效的突发事件情感图谱。本文使用基于多头自注意力机制的双向长短期记忆网络模型,将用户情感划分为积极(Positive)和消极(Negative)两种。本文所使用的情感分析模型可以分为以下四层,模型结构如图2所示。

1)数据处理层。文本预处理之后,利用Word2vec将预处理之后的数据进行向量化表示。

2)特征提取层。词是模型处理的基本单位,利用Bi-LSTM模型获取词在句子上下文中的文本特征。

3)加权层。判断词级特征的重要性并赋予该词在句子中的注意力权重。

4)分类层。对特征进行加权处理后,利用Softmax函数进行情感预测,预测结果分为积极和消极。

图2 基于自注意力的Bi-LSTM模型结构Fig. 2 Self-attention based Bi-LSTM model structure

1.2 影响力评估算法

1.2.1 K-shell算法

K-Shell算法首次提出了节点的影响力与节点在社交网络中的位置有关,相较于传统的中心性算法,K-Shell在处理大型社交网络时,具有较高的准确性和更低的时间复杂度。

2)删除度值为1的节点,如果网络中新出现度值为1的节点,继续删除度为1的节点,重复以上操作,直至网络中不再存在度值为1的节点。本步骤删除的节点构成网络的1-shell层,节点的层数。

3)重复步骤2)删除操作,删除度值为2的节点,如果网络中新出现度值小于等于2的节点,重复以上操作,直至网络中不再存在度值小于等于2的节点。本步骤删除的节点构成网络的2-shell层,节点的层数。

1.2.2 WDK算法

大部分社交网络中节点的影响不是对称的,信息的传播方向决定着节点之间的影响关系和影响力强度。K-shell算法能够较好地从全局角度反映节点的影响力,但存在分辨率不高的问题,忽略了节点之间的影响关系。度指标是一种经典的局部性指标,可以反映节点的局部影响。为了让影响力评估算法有效适用于突发事件的情感图谱研究,本文考虑用户之间信息的传播关系,将K-shell算法应用到有向社交网络中,从局部和全局方面对节点影响力进行综合度量,获取用户的综合影响力。

定义1 由于有向图中节点之间的影响不是对称的,因此计算过程中只考虑影响关系,即只考虑节点的出度,为防止出现出度值为0的情况,计算节点影响力时,节点的度记作:

为了更加准确地对节点局部影响力进行评估,提高节点间影响力的分辨率,考虑节点本身的同时结合其影响的邻居节点的影响力,提出了一种加权度对有向图的局部影响力进行度量,如式(12)所示:

基于上述研究,本文提出了一种基于有向图的融合加权度与K-shell的WDK算法,将度中心性与K-shell算法相结合,对节点影响力进行综合评估。WDK算法如式(13)所示:

融合度与K-shell的节点影响力算法综合考虑节点的局部属性和全局属性,算法主要过程如下:

1)加权度计算,分别计算每个节点的出度、入度以及邻居节点的度,利用三者的关系计算节点的加权度。

2)K-shell值计算,利用基于有向图的K-shell算法计算节点的层数。

3)影响力计算,综合考虑节点影响力的局部因素和全局因素,利用加权度与值计算节点的影响力。

WDK算法的伪代码如下。

4) end for

7) end for

10) end for

1.3 突发事件的情感图谱

通过构建社交网络的突发事件情感图谱,将用户的情感倾向和影响力差异进行可视化表示,有效地展现突发事件的情感传播方式和演化特征,为相关部门对突发事件风险监控预警和调控提供了有效途径,以维护社会的稳定,降低消极情感对社会造成的影响。

在突发事件的情感图谱研究过程中,首先将利用爬虫技术获取的突发事件中用户评论关系及其发表的情感文本,作为本文研究的实验数据。为了构建突发事件的情感图谱,使用结合情感分析和影响力评估的方法进行设计分析,提高本文情感图谱研究的科学性和有效性。将用户情感倾向和影响力大小作为情感图谱中的评价标准,分别设计相应算法。在用户情感倾向研究中,本文基于多头自注意力机制和Bi-LSTM的情感分析模型计算用户文本数据的情感倾向,得出用户在突发事件中的情感倾向。在用户对突发事件中影响力的评估上,利用WDK算法评估用户在突发事件舆情传播中的影响力。结合用户情感倾向与影响力大小,对舆情事件的生命周期划分为多个阶段进行分析,得到基于社交网络的突发事件情感图谱,动态展示突发事件舆情的发展趋势,全面了解突发事件舆情的发展趋势与用户的情感变化规律。

基于社交网络的突发事件情感图谱结构如图3所示。

图3 基于社交网络的情感图谱结构Fig. 3 Emotional map structure based on social network

2 实验设计与结果分析

2.1 情感分析模型性能分析

2.1.1 数据集与对比模型

为了准确地获取突发事件中用户的情感倾向,构建更加科学有效的情感图谱,对本文情感分析模型在突发事件中的有效性进行验证,在中文情感文本数据集上设计对比实验。实验使用酒店评论数据集和电商评论数据集对本文模型进行测试对比。酒店评论数据集包含4 315条积极评论,1 971条消极评论;电商评论数据集包括书籍、平板、手机、水果、洗发水、热水器等10个领域,其中积极评论31 728条,消极评论31 046条。本文按照6∶2∶2的比例对训练集、验证集和测试集进行划分。

将本文模型在不同数据集上分别与文本分类循环神经网络(Recurrent Neural Networks for Text classification, Text-RNN)[22]、文本循环卷积神经网络(Recurrent Convolutional Neural Networks for Text classification, Text-RCNN)[23]、Text-RNN+Attention[24]、FastText[25]、深度金字塔卷积神经网络(Deep Pyramid Convolutional Neural Network,DPCNN)[26]和Transformer[8]进行对比。

1)Text-RNN:将Word Embedding输入到双向RNN中,将最后一位的输出输入到全连接层中,进行Softmax分类。

2)Text-RCNN:使用双向RNN处理输入的向量,把双向RNN的输出与对应的词向量拼接,将其输入到全连接网络对其进行整合,然后使用池化层进行特征选择,最后将其输入一个全连接分类器中实现分类。

3)Text-RNN+Attention:将注意力机制应用到Text-RNN中,为每个特征赋予不同的重要性,从而提高模型的预测准确率。

4)FastText: 使用n-gram特征代替单个词的特征,提取序列信息,使用层次Softmax对文本进行分类,具有快速高效的优势。

5)DPCNN:通过下采样来捕捉长距离文本依赖关系,发现CNN不能提取的隐含的长距离依赖关系,从而提高了模型预测准确率。

6)Transformer:通过多头自注意力机制,在不同的独立子空间发现独特的特征表示,在并行计算的同时捕获长距离依赖关系,学习得到文本的全局语义信息。

为了保证结果的可信度,本文的所有实验都在同一环境下进行。

实验环境如下:操作系统Windows 10,内存16 GB,处理器为Intel Core i5-8400H,GPU为Geforce GTX 1050 Ti,显存4 GB,使用PyTorch深度学习框架。

为了防止过拟合,本文在训练过程中使用早停法来防止泛化能力的下降,具体参数设置如表1所示。

表1 实验参数设置Tab. 1 Experimental parameter setting

2.1.2 模型性能分析

将本文模型与其他情感分析模型分别在酒店评论数据集和电商评论数据集上进行实验对比,并分析各模型在积极和消极两个方面的准确率、召回率和F1值情况,各情感分析模型在酒店评论数据集上的实验结果如表2所示。

表2 不同模型在酒店评论数据集上的实验结果 单位:%Tab. 2 Experimental results of different models on hotel review dataset unit:%

各情感分析模型在电商评论数据集上的实验结果如表3所示。

表3 不同模型在电商评论数据集上的实验结果 单位:%Tab. 3 Experimental results of different models on e-commerce review dataset unit:%

由表2~3可知,在酒店评论数据集上,本文模型在积极和消极方面的性能均优于其他对比模型,Text-RCNN的性能仅次于本文模型,Text-RNN在该数据集上性能最差。具体来说,在酒店评论数据集上,本文模型在积极和消极方面,与Text-RCNN模型相比,本文模型的F1值分别提升了0.65个百分点和0.2个百分点;与Text-RNN模型相比,本文模型的F1值分别提升了9.92个百分点和2.5个百分点。在电商评论数据集上,本文模型在积极方面表现出最优的性能,在消极方面略低于DPCNN模型,与Text-RCNN模型相比,本文模型的F1值分别提升了1.71个百分点和0.18个百分点;与Text-RNN模型相比,本文模型的F1值分别提升了3.38个百分点和0.56个百分点。出现上述结果的主要原因是:本文模型使用Bi-LSTM更好地捕捉双向的语义依赖,使用多头自注意力机制自动学习多个子空间权重分布,获得更加多样的信息增加情感词在分类过程中的权重。因此,本文模型可以有效地提高模型的预测准确率,有利于对中文短文本进行情感分析,可应用在突发事件的情感图谱研究中。

2.2 节点影响力算法性能分析

2.2.1 数据集与对比算法

为了验证本文节点影响力评估算法在突发事件中用户言论影响力度量上的有效性,对该算法的区分度和准确性进行验证。本节实验中使用的公开数据集均来自Network Repository网站,数据集详细信息如表4所示。为了验证WDK算法的性能,将本文算法与度中心性(Degree Centrality, DC)[13]、接近中心性(Closeness Centrality, CC)[14]、介数中心性(Betweenness Centrality, BC)[15]、K-Shell(KS)[17]和H-indeX(HX)[27]算法进行对比。将各算法在每个数据集上计算得到其节点影响力序列,利用影响力序列对算法的区分度和准确性进行对比分析。

表4 社交网络数据集统计Tab. 4 Statistics of social network datasets

2.2.2 区分度分析

通过提高影响力评估算法的区分度,使影响力较高的用户意见领袖地位更加明确,方便情感图谱针对意见领袖进行研究,因此对WDK算法的区分度进行对比分析。算法的区分度是指影响力算法区分节点影响力的能力,在相同级别中节点的数量越少,其区分度就越高。本文利用M函数[28]对算法区分度进行测试,评价标准如式(17)所示:

由表5可知,WDK算法在不同数据集上的区分度均优于其他对比算法。以Karate网络为例,与度中心性算法相比,WDK算法的区分度提升了25.68个百分点;与K-shell算法相比,WDK算法的区分度提升了46.98个百分点。WDK算法通过对度值进行加权,使相同级别中节点的数量更少。将加权度与K-shell算法相结合,提高算法的区分度,满足情感图谱研究中对用户影响力的区分性要求。

表5 节点影响力算法的M函数值Tab. 5 M-function value of node influence algorithm

2.2.3 准确性分析

通过提高影响力评估算法的准确性,可以使用户的评估影响力更加接近真实影响力,使得情感图谱更加准确科学,因此对本文影响力评估算法的准确性进行对比分析。本文使用易感-感染-免疫(Susceptible-Infected-Recovered, SIR)模型进行模拟,得到数据集的影响力序列作为数据集真实影响力序列,采用肯德尔相关系数来计算和的关联程度,测试算法的准确性。对于节点对和,若满足,或,,则认为这两个节点是协调的;反之认为节点之间不协调。肯德尔相关系数越高,表示算法的准确度越高。肯德尔相关系数如式(18)所示:

在SIR模型中,节点在任意时刻只能处于易感染(Susceptible)、已感染(Infected)和免疫(Recovered)三种状态,利用节点在感染概率下的感染数量表示节点的影响力。在SIR模型中,常用一阶邻居与二阶邻居的平均度数表示传播概率的阈值,为了提高准确性,实际应用中传播概率一般大于阈值。本节实验中,对每个节点进行1 000次SIR模拟,取平均值作为节点的真实影响力。通过对比各算法在不同数据集上的肯德尔相关系数,验证了WDK算法具有良好的准确性,节点影响力算法的准确性如表6所示。

表6 节点影响力算法的肯德尔相关系数Tab. 6 Kendall coefficients of node influence algorithms

由表6可知,WDK算法在不同数据集上的准确性均优于其他对比算法,可以准确体现节点的真实影响力。以Karate网络为例,与度中心性算法相比,本文算法的准确性提升了3.2个百分点;与K-shell算法相比,本文算法的准确性提升了29.05个百分点。度中心性算法在准确性上具有较好的性能,度指标在计算时更加接近准确影响力。本文算法将度指标进行加权,对节点的局部影响力进行评估,且与K-shell值相结合,得到节点的综合影响力,获得更优的准确性,满足情感图谱研究中对用户影响力的准确性要求。

3 社交网络的情感图谱构建与分析

3.1 事件选取与数据获取

本文选取“7.7安顺公交车坠湖事件”为研究案例,构建基于社交网络的情感图谱对突发事件进行可视化分析。2020年7月7日12时12分,安顺市一公交车在行驶至西秀区虹山水库大坝时,突然转向冲入水库,造成人员伤亡;7月12日,贵州省安顺市公安局公布公交车坠湖原因,系驾驶员的个人犯罪行为,共搜救出37人,其中20人当场死亡,1人经抢救无效死亡,15人受伤,1人未受伤。该事件引起网友的广泛关注,形成社会舆论。本文以微博为研究平台,以“安顺公交车坠湖事件”为研究案例,生成相应的情感图谱,对突发事件进行研究分析。为方便数据获取和处理,利用微博的高级搜索功能筛选出热门微博,对7月7日至7月17日时间区间内事件相关的微博、用户、评论、时间等信息进行获取。对实验数据进行分析前,首先进行预处理操作,具体包括去除停用词、制定正则表达式过滤规则、利用Jieba工具进行分词处理等。数据处理完成后,以用户为节点,以用户之间的评论关系为有向边,构建突发事件的社交网络图。

3.2 情感图谱构建与可视化

“7.7安顺公交车坠湖事件”的发生没有任何征兆和预警,事件发生后舆情热度瞬间爆发,达到该事件热度峰值。根据该突发事件不同时间段的热度特征,将该事件的生命周期划分为爆发期、蔓延期、成熟期和衰退期四个阶段进行分析,生命周期中各阶段的用户状态如图4所示。其中,7月7日为事件的爆发期,8~11日至为蔓延期,12日为成熟期,13~17日为衰退期。“7.7安顺公交车坠湖事件”引发网民的热议,网民的整体情感趋于正向,但依然存在一定比例的负面评论。

图4 “7.7安顺公交车坠湖事件”各发展阶段用户状态Fig. 4 User status in each development stage of “7.7 Anshun Bus Falling into Lake Incident”

本文利用基于多头自注意力和Bi-LSTM的情感分析模型计算用户文本数据的情感倾向,情感值为正表示积极情感,情感值为负表示消极情感。若用户发表多条信息,将多条文本数据的情感倾向平均值作为用户的情感倾向。利用融合度与K-shell的节点影响力算法,计算用户在突发事件舆情传播中的影响力大小。在得到用户的情感倾向和影响力之后,将计算结果导入Gephi可视化软件,按照事件生命周期的不同阶段生成情感图谱。“7.7安顺公交车坠湖事件”的情感图谱如图5所示。在图5中,每个节点表示一个用户,节点大小表示用户的影响力大小,节点标签表示用户名;节点的颜色表示用户的情感倾向,灰色表示传播消极的情感,白色表示传播积极的情感,有向边表示用户之间的评论关系。

图5 “7.7安顺公交车坠湖事件”情感图谱Fig. 5 Emotional map of “7.7 Anshun Bus Falling into Lake Incident”

为了更好地分析用户在突发事件的不同阶段关注的热点问题,研究用户群体的情感变化趋势,本文利用该事件中用户发布的文本信息,为事件生命周期各阶段生成舆情词云,对每个阶段的话题词频进行分析。“7.7安顺公交车坠湖事件”词云如图6所示。

3.3 “7.7安顺公交车坠湖事件”舆情分析

通过生成“7.7安顺公交车坠湖事件”的情感图谱和舆情词云,对该事件爆发期、蔓延期、成熟期和衰退期进行分析,研究了该事件的舆情发展趋势。

在舆情的爆发期,事件热度迅速增长,大量网友关注该事件,开始形成社会舆论,舆论热度出现“井喷式”传播现象。在该时期,“共青团中央”“紫光阁”“人民网”等官方账号迅速向公众发布事件的真实情况,对社会舆论进行积极引导。从该时期情感图谱可以看出,“共青团中央”“紫光阁”“人民网”“楚天都市报”等白色节点数量较多,“北京突发”“江苏侃爷”等灰色节点数量较少,大多数用户表现积极的情感。该时期出现频次较高的词语有“公交车”“司机”“平安”“逝者”等,用户主要围绕事件的基本情况发表言论。在该时期的意见领袖中,官方账号占据舆论的中心,不断向公众传递事件相关信息,防止事件相关谣言传播。

图6 “7.7安顺公交车坠湖事件”词云Fig. 6 Word cloud of “7.7 Anshun Bus Falling into Lake Incident”

在舆情的蔓延期,相关部门对事件展开调查,该事件依然保持较高热度。“人民日报”等官方账号对该事件持续跟进,传达事件的正确信息并安抚网民情绪。“人民日报”“沈阳网警巡查执法”等具有较大影响力节点均呈现白色,个别影响力较小的意见领袖节点呈现灰色。该时期用户的讨论话题以“公交车”“贵州”“司机”“英雄”为主,更多的用户开始关注事件的后续发展,出现较多对事件起因的分析。该时期用户之间呈现明显的小团体现象,各小团体之间存在大量关联,用户接收到多方信息,降低了受到谣言的影响。

在舆情的成熟期,警方对案件基本情况及原因进行通报,对网络传言进行声明。官方媒体占据舆论的中心,传达事件真实信息,使网民对该事件得到全方位的了解。其中,“新京报”“澎湃新闻”“人民日报”等用户节点均呈现白色,“中国新闻网”等少量用户节点呈现灰色。该时期用户讨论话题以“司机”“蓄意”“报复社会”为主,随着事件起因的爆出,舆情重心进一步转移。相较事件初期,该阶段网络舆情影响力得到有效的控制,体现出官方媒体的公信力。

在舆情的衰退期,事件热度开始分散,舆情传播扩散速度缓慢。该时期,传播积极情感和传播消极情感的意见领袖数量没有明显差距,未出现对事件占据主导作用的意见领袖。该时期用户谈论话题以“司机”“报复社会”“心理健康”为主,网民在讨论事件起因的同时,开始出现对事件进行反思和预防的话题。该时期网络舆情进入衰退状态,整个事件开始进入反思阶段。

在事件整体过程中,官方账号积极介入,向网民传达正确的信息,有效避免了谣言及偏激舆论的传播。传播积极情感的用户在该突发事件生命周期的各个阶段,均多于传播消极情感的用户,绝大多数用户对该事件具有正确的认知。爆发期和蔓延期是进行舆情监控的主要时期。在爆发期中,普通用户对事件的了解不够全面,容易受到消极情绪的影响,需对用户进行正确引导。在蔓延期时,用户对事件有了更全面的认知,主流媒体对事件真实情况持续更新,保证了积极的舆论发展趋势。在突发事件发生时,绝大部分用户处于舆论的边缘,对舆论的影响较小,官方媒体和主流媒体对事件的舆情发展具有主导作用。主流媒体表达信息客观公正,能够保证信息的正向传播,有利于事件的和谐发展和社会的稳定。在该事件中,虽然大多意见领袖能够传播积极的情感,也难免存在意见领袖传播消极的情感,这类用户属于突发事件不稳定因素,需进行重点监控和引导。

4 结语

为了对突发事件的网络舆情进行合理监控和引导,本文基于情感分析和社交网络分析方法,构建情感图谱对网络舆情进行可视化分析。为了有效评估突发事件中用户的情感倾向和影响力大小,综合情感分析与影响力评估算法构建突发事件的情感图谱。首先,提出了一种中文短文本情感分析模型,将多头自注意力机制与Bi-LSTM模型结合来分析用户的情感。同时,提出了一种评估节点影响力的WDK算法,结合节点加权度和节点的K-shell值来评估有向图中节点的影响力。实验结果表明,本文情感分析模型在情感分类上具有较优的性能,社交网络影响力算法在区分度和准确性上表现优异。

为了验证本文研究方法的有效性及实用性,以“安顺公交车坠湖事件”为研究案例,对突发事件进行了可视化分析。实验结果表明,通过构建社交网络的情感图谱,可以有效地展现突发事件的情感传播方式和演化特征,为相关部门对突发事件风险监控预警和调控提供了有效途径。在未来的研究中,可以进一步提高情感分析精确度和影响力区分度,使情感图谱更加准确有效。

[1] 中国互联网络信息中心.第47次中国互联网络发展状况统计报告[EB/OL].[2021-03-12].http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203334633480104.pdf.(China Internet Network Information Center. The 47th China statistical report on Internet development [EB/OL]. [2021-03-12]. http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203334633480104.pdf.)

[2] 戴杏云,张柳,戴伟辉,等.社交网络的情感图谱研究[J].管理评论,2016,28(8):79-86.(DAI X Y, ZHANG L,DAI W H, et al. Research on emotional mapping of social networks [J]. Management Review, 2016, 28(8): 79-86.)

[3] 黄星,刘樑.突发事件网络舆情风险评价方法及应用[J].情报科学,2018,36(4):3-9.(HUANG X, LIU L. The evaluation method and application of unexpected events network public opinion [J]. Information Science, 2018, 36(4): 3-9.)

[4] 安璐,欧孟花.突发公共卫生事件利益相关者的社会网络情感图谱研究[J].图书情报工作,2017,61(20):120-130.(AN L, OU M H. Social network sentiment map of the stakeholders in public health emergencies [J]. Library and Information Service, 2017, 61(20): 120-130.)

[5] 赵蓉英,王旭.突发事件网络舆情关键节点识别及导控对策研究——以“大贤村遭洪灾事件”为例[J].现代情报,2018,38(1):19-24,30.(ZHAO R Y, WANG X. Research on identifying key nodes and guiding and controlling strategies of network public opinion in emergency — a case study of being suffered by flooding in Da Xian Village [J]. Journal of Modern Information, 2018, 38(1): 19-24, 30.)

[6] 张柳,王晰巍,王铎,等.微博环境下高校舆情情感演化图谱研究——以新浪微博“高校学术不端”话题为例[J].现代情报,2019,39(10):119-126,135.(ZHANG L, WANG X W, WANG D, et al. The study of emotional evolution map of public opinions in university under the microblog environment — a case of “academic misconduct in universities” in Sina Weibo [J]. Journal of Modern Information, 2019, 39(10): 119-126, 135.)

[7] HEMMATIAN F, SOHRABI M K. A survey on classification techniques for opinion mining and sentiment analysis [J]. Artificial Intelligence Review, 2019, 52(3): 1495-1545.

[8] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 6000-6010.

[9] WANG Y Q, HUANG M L, ZHAO L, et al. Attention-based LSTM for aspect-level sentiment classification [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2016: 606-615.

[10] LIU Z, ZHOU W, LI H. AB-LSTM: attention-based bidirectional LSTM model for scene text detection [J]. ACM Transactions on Multimedia Computing,Communications, and Applications, 2019, 15(4): Article No.107.

[11] 关鹏飞,李宝安,吕学强,等.注意力增强的双向LSTM情感分析[J].中文信息学报,2019,33(2):105-111.(GUAN P F,LI B A, LYU X Q, et al. Attention enhanced Bi-directional LSTM for sentiment analysis [J]. Journal of Chinese Information Processing, 2019, 33(2): 105-111.)

[12] ZAREIE A, SHEIKHAHMADI A, FATEMI A. Influential nodes ranking in complex networks: an entropy-based approach [J]. Chaos, Solitons and Fractals, 2017, 104: 485-494.

[13] FREEMAN L C. Centrality in social networks conceptual clarification [J]. Social Networks, 1978, 1(3): 215-239.

[14] SABIDUSSI G. The centrality index of a graph [J]. Psychometrika, 1966, 31(4): 581-603.

[15] NEWMAN M E J. A measure of betweenness centrality based on random walks [J]. Social Networks, 2005, 27(1): 39-54.

[16] BRIN S, PAGE L. The anatomy of a large-scale hypertextual Web search engine [J]. Computer Networks and ISDN Systems, 1998, 30 (1/2/3/4/5/6/7) :107-117.

[17] GARAS A, SCHWEITZER F, HAVLIN S. Ak-shell de-composition method for weighted networks [J]. New Journal of Physics, 2012, 14(8): 2017 No. 083030.

[18] 邓凯旋,陈鸿昶,黄瑞阳.一种基于改进K-shell的节点重要性排序方法[J].计算机应用研究,2017,34(10):3017-3019, 3084.(DENG K X, CHEN H C, HUANG R Y. Method of node importance ranking based on improved K-shell [J]. Application Research of Computers, 2017, 34(10):3017-3019, 3084.)

[19] IBNOULOUAFI A, EL HAZITI M. Density centrality: identifying influential nodes based on area density formula [J]. Chaos, Solitons and Fractals, 2018, 114: 69-80.

[20] 王安,顾益军.基于社区划分的节点重要性评估方法[J].计算机工程与应用,2020,56(8):42-48.(WANG A, GU Y J. Nodes importance ranking method based on community detection [J]. Computer Engineering and Applications,2020, 56(8): 42-48.)

[21] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[22] LAI S W, XU L H, LIU K, et al. Recurrent convolutional neural networks for text classification [C]// Proceedings of the 2015 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 2267-2273.

[23] LIU P, QIU X, HUANG X. Recurrent neural network for text classification with multi-task learning [C]// Proceedings of the 2016 Twenty-Fifth International Joint Conference on Artificial Intelligence. New York: AAAI Press, 2016: 2873-2879.

[24] YANG Z C, YANG D Y, DYER C, et al. Hierarchical attention networks for document classification [C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: ACL, 2016: 1480-1489.

[25] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification [C]// Proceedings of the 2017 15th Conference of the European Chapter of the Association for Computational Linguistics (Volume 2, Short Papers). Stroudsburg: ACL, 2017: 427-431.

[26] JOHNSON R, ZHANG T. Deep pyramid convolutional neural networks for text categorization [C]// Proceedings of the 2017 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg: ACL,2017:562-570.

[27] LÜ L Y, ZHOU T, ZHANG Q M, et al. The H-index of a network node and its relation to degree and coreness [J]. Nature Communications, 2016, 7: Article No.10168.

[28] LI H J, ZHANG X S. Analysis of stability of community structure across multiple hierarchical levels[J]. Europhysics Letters, 2013, 103(5): Article No.58002.

Emotional map of emergency based on sentiment analysis and influence evaluation

QIU Liqing*, QU Fushuai

(College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao Shandong266590,China)

Aiming the spread of negative network public opinions in emergencies, a research method of emotional map of emergency based on sentiment analysis and influence evaluation was proposed. In the proposed method, a sentiment analysis model based on multi-head self-attention mechanism and Bi-directional Long Short-Term Memory network (Bi-LSTM) was proposed to evaluate website users’ emotional tendencies. Meanwhile, a point influence evaluation algorithm combining weighted degree and K-shell value was proposed to measure users’ influences. Based on the above models, the emotional map of emergency was constructed, which effectively improved the accuracy and scientificity of the emotional map. Taking “7.7 Anshun Bus Falling into Lake Incident” as an example,the life cycle of an emergency was divided into four stages such as outbreak stage, spread stage, maturity stage and decline stage, which were used to separately generate the emotional maps for visualization analysis. Experimental results show that, the F1-score of the proposed sentiment analysis model on the hotel review dataset is 9.92 percentage points and 2.5 percentage points higher than that of Recurrent Neural Networks for Text Classification (Text-RNN) model in positive and negative aspects respectively. On the Karate network, the discrimination and accuracy of the proposed influence evaluation algorithm are 46.89 percentage points and 29.05 percentage points higher than those of the K-shell algorithm respectively. By building the emotional map based on social networks, relevant department can find the opinion leaders and their tendencies, thereby grasping the development trend of online public opinion, and reducing the influence of negative emotions on society.

social network; sentiment analysis; opinion leader; emotional map; public opinion monitoring

TP391

A

1001-9081(2022)05-1330-09

10.11772/j.issn.1001-9081.2021040654

2021⁃04⁃25;

2021⁃07⁃10;

2021⁃07⁃14。

国家自然科学基金资助项目(71772107);山东省自然科学基金资助项目(ZR2020MF044);山东省社会科学规划数字山东研究专项(21CSDJ48);青岛市社科规划项目(QDSKL1801103)。

仇丽青(1978—),女,山东德州人,副教授,博士,主要研究方向:社交网络、数据挖掘; 曲福帅(1996—),男,山东潍坊人,硕士研究生,主要研究方向:社交网络、情感分析。

This work is partially supported by National Natural Science Foundation of China (71772107),Shandong Natural Science Foundation (ZR2020MF044), Digital Shandong Research Project of Shandong Social Science Plan (21CSDJ48), Qingdao Social Science Planning Project (QDSKL1801103).

QIU Liqing, born in 1978, Ph. D., associate professor. Her research interests include social network, data mining.

QU Fushuai, born in 1996, M. S. candidate. His research interests include social network,sentiment analysis.

猜你喜欢
图谱舆情突发事件
“植物界大熊猫”完整基因组图谱首次发布
基于伪谱法的水下航行体快速操舵变深图谱研究
食品安全突发事件的应急管理处置及应对策略
图表
消费舆情
月度最热舆情事件榜11月
月度最热舆情事件榜9月
突发事件
话说“灾难和突发事件”
你会如何应对突发事件