基于演化建模的突发事件网络舆情态势感知分析*

2022-09-24 13:32温志韬夏一雪
情报杂志 2022年9期
关键词:态势突发事件舆情

温志韬 夏一雪

(中国人民警察大学网络舆情治理研究中心 廊坊 065000)

1 研究现状

突发事件发生后,网络舆情呈现主体多元化,主题多样化,情感复杂化,传播高速化等特征,导致网络舆情生态格局发生深刻变化。如何深度分析海量舆情数据,快速、动态、全面感知突发事件网络舆情态势已成为提升政府网络舆情治理效能的关键。

网络舆情是极具中国特色的热点研究领域,其研究主题主要围绕网络舆情演化机理、舆情话题内容、网民情感、舆情传播主体等方面展开,研究方法涉及了统计学模型、系统理论方法、传统机器学习方法、深度神经网络等。a.网络舆情演化机理方面,基于SIR模型、Logistic模型、博弈模型等[1-3]进行建模和仿真研究;b.在舆情话题内容方面,使用LDA主题模型、SVM、逻辑回归等方式[4-6],对舆情进行内容分析和主题发现;c.在网民情感方面,侧重使用朴素贝叶斯、Single-Pass聚类算法、情感词典等[7-9],开展定性的情感分类和定量的情感计算;d.在舆情传播主体方面,有通过用户画像、主体建模等[10-11],对舆情传播主体进行属性特征刻画、主体关系研究。

综合上述分析,在已有研究中,网络舆情演化机理研究与网络舆情态势研究(包括对舆情传播主体、舆情话题、网民情感等的研究)往往分开进行,而实际上两个研究方向具有内在的逻辑联系:网络舆情演化机理揭示了网络舆情演化的内在规律,而网络舆情态势则是在规律之上,网络舆情所呈现的外在表现形式。因此,本文基于网络舆情演化机理对网络舆情态势开展研究,提出网络舆情态势感知模型,搭建对网络舆情态势演化的综合研究框架,并开展基于阶段数据累加的网络舆情态势动态研究,以弥补静态研究的不足,更全面清晰地展现出网络舆情态势演化过程,为政府治理网络舆情提供参考依据。

2 基于Gompertz的突发事件网络舆情演化机理

2.1 网络舆情演化生命周期

信息生命周期理论指出,信息是具有生命周期的资源,在其自身从产生到消亡的运动过程中,存在循环往复的过程和规律性特征[12]。网络舆情作为公众对公共事件所持有的多种意见、情绪、态度的总和[13],其传播过程实质上是以信息作为载体,因此,也就具有完整的生命周期和周期性特点。而网络舆情在周期运动中的阶段性规律,也决定了网络舆情具有阶段性特征,具体而言,体现在网络舆情在不同阶段具有不同的传播速率、信息体量、阶段时长等。

由此,网络舆情的传播过程,也即网络舆情的演化具有周期性和阶段性两项基本特征。相关领域学者对网络舆情演化过程提出了三阶段划分[14]、四阶段划分[15]、五阶段划分[16]等理论,总结已有理论成果中的相关论述,网络舆情演化都可以描述为一个常态过程:在网络舆情产生之初,其热度和传播速率均处于较低值;随着相关事件的发酵,舆情的传播速率逐渐加快并达到最大值,此时,舆情热度会在短时间内迅速达到峰值;在这之后,由于政府部门的管控、相关事件的自身消亡等原因,舆情热度会在一段时间内逐渐下降并维持在较低值,最终消亡(图1,“抢购双黄连”事件)。

但是,由于受多种社会因素影响,部分网络舆情会产生异于常态过程的演化。比如对于一些突发事件,由于其波及范围广、影响人数多,在事件发生之初便引起公众的高度关注,拥有极快的传播速率,在极短时间内便达到热度峰值,不存在事件发酵过程(图1,“郑州暴雨”)。此外,由于次生效应、唤醒效应的影响[20],部分舆情事件会在一段时间内多次反复达到热度峰值,呈现“多峰”的演化趋势(图1,“重庆公交坠江”事件)。尽管此类舆情事件各具演化特征,但只是从现象层面反映了周期运动中某一阶段持续时间的缩短(迅速到达热度峰值)或者新一轮周期运动的开启(反复出现热度峰值),在本质上仍旧契合信息生命周期运动的周期性、阶段性特征,具有同质性。

图1 网络舆情事件演化趋势

2.2 基于Gompertz的突发事件网络舆情演化建模

在网络信息环境中,各类可统计信息(如:话题传播量、网络搜索量、媒体发布量等)可用于度量某一网络舆情的演化,假设这些信息量是关于时间的连续可微函数,则生态学中的种群生长模型适用于网络舆情演化建模。常见的生长曲线如:Logistic曲线、林德诺曲线、Gompertz曲线等,均可以用于模型构建,但是,在自媒体充斥互联网、网络社交平台高度普及的环境下,网民参与讨论的活跃度与信息传播的速度前所未有,各类信息会在短时间内形成共振效应与聚集效应[17],因此,突发事件舆情信息在网络上的传播会有如下特点:

a.“舆情爆发如山倒”。在短时间内,相关舆情信息会在网络上迅速增长,舆情热度迅速达到峰值,网络舆情爆发时间靠前,绝大多数舆情信息集中于舆情爆发之初的一段时间内,要求政府相关部门在“黄金4小时”原则下做出迅速的反应。

b.“舆情消亡如抽丝”。在度过舆情峰值时间点后,对舆情事件的关注热度会逐渐下降,但是,网络环境中会有对舆情事件的持续关注,致使其热度在之后较长一段时间内呈现低水平状态。

以上两个特征,使得突发事件舆情信息在分布上呈现“长尾分布”。考虑到此,本文选择了非对称的、拐点偏前的Gompertz模型对突发事件网络舆情演化进行建模,并对模型进行三阶段划分,即:

(1)

其中,定义X为网络舆情的网络搜索量(搜索指数),r为舆情传播的固有增长率,K为增长上限,X0为初值。

图2 突发事件网络舆情演化三阶段划分

(2)

其中,△X(t)=X(t)-X(t-1),可以看出,△X(t)是关于XlnX和X的多元函数,通过多元线性回归即可拟合得到参数-r和rlnK的取值,进而解出参数r、K的取值。

3 基于演化建模的突发事件网络舆情态势感知方法

3.1 突发事件网络舆情态势量化

已有突发事件网络舆情研究文献中,不同学者对网络舆情有不同定义,为提炼共性认识,对众多定义进行词频统计分析,词节点可分为3类:一是关于网络舆情中参与主体的,如:“主体”“民众”“公众”等;二是关于网络舆情主题的,如:“事件”“内容”“本体”等;三是关于参与主体情感的,如:“情绪”“情感”“态度”等。可看出,主体、主题、情感是网络舆情研究的3个主要角度,基于此,本文将网络舆情态势定义为网络舆情在演化过程中在上述3个角度下所呈现的形态,这种形态是突发事件网络舆情演化在其本质规律之上的外在表现,需要基于演化机理从主体、主题、情感3个层面进行量化和感知:

a.对主体的量化。主体是指关注并通过网络平台参与舆情讨论的实体,包括了个人用户、媒体用户等,用户画像可用于对主体信息特征、兴趣偏好、需求信息等的描述。统计学方法被普遍用于用户画像,可对主体的地域分布特征和性别分布特征进行量化。

b.对主题的量化。舆情主题是在一定时间段内,网民对网络舆情的关注热点。单个舆情在发展过程中,受网民观点表达、官方更新报道、其他相关舆情出现等因素的影响,网民对舆情的关注热点会随时间的推移而变化。LDA模型可用于对舆情主题的量化,其在贝叶斯框架下,用词在主题中的概率分布(主题-词模型)和主题在文档中的概率分布(文档-主题模型)来描述给定文档,推测其主题的概率分布[19]。

c.对情感的量化。在网络舆情环境下,网民通过发文将主体情感“映射”到了文本信息上,因此,对主体情感的量化需要对文本信息进行情感分析。基于情感词典的文本情感分析技术是一种常用的方法,该方法提取文本中的情感词语与情感词典中的情感词相匹配,展开情感极性、细粒度分析等研究。

在已有的情感词典中,大连理工大学中文情感词汇本体库[20]应用较广,将其作为基础词典,能够匹配到大多数常用情感词。但是,在实际应用中会存在一类特殊情感词,其情感属性只有在特定事件的特定语境下才会明显显现,而这一类情感词基础词典无法匹配。为了正确匹配该类词汇,本文采用了筛选特定事件情感词并扩展基础词典的方法,以提升文本情感评分的准确性。

3.2 突发事件网络舆情态势感知模型

随着网络舆情的规律性演化,网络舆情态势也将呈现演化特征,以Gompertz舆情演化三阶段建模为基础,结合网络舆情态势的主体、主题、情感3个层面,构建网络舆情态势感知模型,如图3所示。模型定义变量s为感知态,表示某一特定舆情态势。从感知阶段角度出发,定义s(i=1,2,3)为感知阶段态,分别表示舆情发展的潜伏期、扩展期和消退期的感知态。从感知层面角度出发,定义s[j](j=1,2,3)为感知层面态,分别表示主体层面、主题层面和情感层面的感知态。基于上述定义,构建了九个独立的感知态,分别从3方面开展网络舆情态势研究:

图3 网络舆情态势感知模型

a.对任意感知阶段、任意感知层面下的网络舆情态势开展独立研究,即对s[j](i=1,2,3;j=1,2,3)开展研究。

4 实证研究

4.1 案例来源和阶段划分

2020年“杭州女子失踪案”在全网引起了广泛的关注,连续多日登上微博热搜。7月初,网络平台上开始出现以“杭州女子失踪”为话题的未经官方证实的信息,在小范围内引起了网民的关注,讨论主题集中于对该事件真实性的怀疑。至7月25日杭州警方正式通报相关案情,证实了事件的真实性,舆情事件迅速发酵,负面评论和消极情绪在网络上迅速传播。面对此种情况,地方政府、公安部门和各大官方媒体采取措施,通过及时公布案件调查进展、报道办案民警连夜作战等方式,积极引导网络舆论,安抚网民的负面情绪。可以看出,在该舆情事件的整个演化过程中,网络舆情态势在主体、主题、情感层面都出现了明显的变化。因此,本文以该事件为研究对象,利用百度指数数据,通过多元差分回归法拟合Gompertz模型,得到该舆情事件传播的固有增长率为0.33623,增长上限为661612.07915,拟合优度R2为0.8185。按照3.1中提出的网络舆情传播三阶段划分法,将舆情事件发生后的第4日(t1=4.42898)与第7日(t2=7.25734)作为关键时间节点,第1日到第4日划为潜伏期,第4日到第7日划为扩散期,第7日后进入消退期。拟合结果如表1和图5所示。

图5 网络舆情态势可视化框架

表1 相关参数拟合结果

图5 Gompertz模型拟合

4.2 数据来源及处理

以4.1中得出的时间节点为划分依据,分别爬取该舆情事件潜伏期、扩散期和消退期的微博数据,共获取了约8 000条微博评论数据和213条微博用户信息数据。其中,扩散期集中了绝大多数数据,约占总数据量的68%,潜伏期和消退期数据量占比分别约为4%和28%。将评论数据和用户信息数据按舆情发展阶段划分,分别存储到3个文档中。其中,每条用户信息包括了用户名、地域、性别3个属性,用做地域和性别分布分析,评论数据用做主题建模和情感分析。

在进行主题建模时,对评论数据分词后去除停用词,保留出现频次大于5次的分词。每个文档生成对应的BOW稀疏向量,并在此基础上计算各个分词的TF-IDF数值,将BOW稀疏向量作为文档特征进行LDA建模。

在进行情感分析时,首先构建特定事件情感词典,对所有评论数据进行词频统计后,在前300个词中筛选具有情感倾向的词汇64个,并通过多人标注投票和取平均值的方式确定词汇的情感分类和强度,部分特定事件情感词如表2所示。将特定事件情感词扩展到基础情感词典中,对评论文本中分词进行逐一匹配后计算文本情感值。文本情感评分计算公式如式(3)所示

(3)

其中,scorei分别代表对文本中怒、恶、恐、悲、惊、好、喜七类情感的评分;αij是文本中匹配到的具有第i类情感的第j个情感词的情感强度,取值由情感词典给出。最后,将惊、好、喜三类情感评分之和作为积极情感评分,将怒、恶、恐、悲四类情感评分之和作为消极情感评分。

表2 部分特定事件情感词汇

4.3 网络舆情主体态势感知与可视化

由于舆情事件在发生地点、舆情内容等方面的不同,参与讨论的主体在地域分布、性别分布上会呈现出宏观特征,并且,随着舆情的发展,相关特征会出现动态的演化。通过统计微博用户的地域属性和性别属性可描述地域分布和性别分布的演化特征。

图6中,统计了网民分布数量最多15个省份或地区,左图展示了在静态可视化下,网民在3个舆情阶段的地域分布情况,右图是数据累加后的动态可视化展示,颜色越深表明网民分布数量越多。可以看出,该事件中网民的地域分布存在总体上的特征,网民较多分布于符合以下特征的地域:

a.舆情发生省份及其邻省,如:浙江省、江苏省;

b.经济较为发达的地区,如:北京市、广东省;

c.人口较多的省份,如:山东省、四川省。

分析静态热力图可看出地域分布的阶段性特征,在舆情潜伏期和消退期,参与讨论的网民相对较少;在舆情的扩散期,参与讨论的网民迅速增多并且分布于全国各个地区。而动态热力图则显示了同一地域分布特征的变化趋势,随着舆情的发展,各个地区热力值逐渐上升,本质上体现出舆情信息的动态传播过程。

图6 静态、动态网民地域分布热力图对比

对该舆情事件中网民性别占比分别进行静态数据统计和动态数据统计。静态数据统计显示,在舆情发展的各个阶段,参与讨论的女性用户占比均高于男性用户占比,说明了在该舆情事件中女性网民群体对该舆情事件投入了更多的关注,更进一步而言,说明了在进行舆论引导时,对女性网民给予关注的重要性。同时,动态数据统计显示,随着舆情的发展,女性用户的数量占比逐渐下降趋势,由潜伏期的74.3%降为消退期的68.6%,这说明了在舆情发生之初,有大量女性网民在短时间内参与了讨论,而随着舆情进入扩散期、消退期,后续新参与讨论的网民中,男性网民数量高于女性网民数量。

4.4 网络舆情主题态势感知与可视化

通过python提供的LdaModel API分别对3个阶段的评论数据文档进行主题建模。为了使不同阶段下的主题产生直接对比,设置各个文档下的主题数为1,每个主题的关键词数为10,模型迭代次数为500。由于对各个文档中主题及主题词的分布没有先验知识,因此采用API推荐值,α设置为1,β设置为0.1。部分主题建模的结果如表3所示,其中敏感词汇通过拼音首字母代替。

表3 主题建模部分结果及原始评论数据

基于建模得出的数据,绘制了静态可视化和动态可视化下的词云对比图,如图7所示。图7(a)-(c)图显示了静态可视化下该舆情在3个阶段的主题层面的特征,可看出,在各个舆情阶段,网民对舆情事件的的关注热点有所不同:在潜伏期,由于官方尚未对此事件有正式通告,网民对案件的真实性尚存疑,因此出现了“造谣”词节点,同时,网民的关注点集中在了对死者子女、继承权等问题上,因此出现了“儿子”“女儿”“继承权”等节点;在扩散期,央视新闻官微于7月25日以“杭州警方通报女子失踪案侦破细节”为题报道了死者丈夫许某具有重大作案嫌疑,评论中“sr”等节点成为较大节点,表明了网民对该舆情事件真相的一致性认知;在消退期,央视新闻官微于8月6日以“杭州杀妻案嫌疑人被批捕”为题发表后续报道,“死刑”节点成为最大节点,表达出了大多数网民希望将嫌疑人判处死刑观点。

图7 静态、动态词云对比

图7(d)-(f)为动态可视化下的词云展示。可以看出,动态词云除了展示出了上述静态词云在各个舆情阶段下的主题词外,还体现出了贯穿舆情始终的主题词。比如“儿子”“女儿”节点出现在了每一动态可视化图中,表明了网民对受害者子女的关注,这一主题词出现于舆情潜伏期,在舆情发展过程中,该主题词有被其他主题词冲淡,但是其潜在影响却是贯穿整个舆情期间的,在动态可视化下,此类“潜在信息”被体现出来,而静态可视化则忽略了该种信息。

4.5 网络舆情情感态势感知与可视化

基于上文提出的文本情感评分算法和扩展后的情感词典,对采集的微博评论文本进行情感评分,并分别在静态可视化和动态可视化下,统计得出网民情感倾向占比图与网民情感倾向变化趋势图,结果如表4和图8所示。从情感占比角度讲,不论是静态的各阶段的情感倾向占比,还是动态累加的情感倾向占比,都表明消极情感是整个舆情期间的主导情感。在潜伏期,由于相关报道的不确切性、非官方性,消极情感占比为3个时期中最大,达到了73.65%;在扩散期,随着有关部门的正面引导、事件细节逐渐明晰等原因,积极情感达到3个时期中的最大占比,为34.07%。

表4 静态、动态网民情感倾向占比 %

从情感倾向变化趋势角度讲,由动态趋势曲线可以看出,在整个事件期间,虽然网民情感的负面倾向一直占据主导,但总体上负面情绪呈小幅度、持续下降趋势,相比于潜伏期负面情绪占比约74%,后两个动态累加阶段的负面情绪占比分别下降到了约68%和66%。从静态趋势曲线可知,在单独研究各舆情阶段的情况下,负面情绪变化趋势呈现出“V”形,扩散期数据与潜伏期数据相比,负向情感占比下降了约8个百分点,说明了有关部门在此期间的正向引导,是使得负面情感在总体上呈现下降的主要原因。

图8 网民情感倾向变化趋势图

5 总 结

精确感知突发事件网络舆情态势是政府部门进行舆情治理的前提,为此,本文通过突发事件网络舆情演化机理研究和Gompertz演化建模,描述了突发事件网络舆情演化的周期性和阶段性特征,进而构建了突发事件网络舆情态势感知模型。该模型基于3个感知层面和3个感知阶段,将网络舆情态势的研究对象划分为九个独立的感知态,同时,模型给出了静态融合与动态融合两种态势感知模式及可视化方法。实证研究表明:a.静态的态势感知模式与可视化方法,可以较好地刻画突发事件网络舆情在各个阶段的阶段性特征(如:在“潜伏期”,从主题模型中“儿子”“谣言”“继承权”等词语的概率分布可看出,主题建模较好地反映了“潜伏期”内网民的关注点),但缺点是忽略了一些在整个舆情期间具有时间连续性和整体性影响的特征(如:整个舆情期间呈小幅度、持续下降的负向情感动态演化趋势);b.动态的态势感知模式与可视化方法有效弥补上述缺点,通过数据累加确保了舆情信息的连续性和全面性,突发事件网络舆情的周期性演化特征得以凸显;c.感知模型从感知层面和感知时间两个维度,对突发事件网络舆情态势感知问题进行切割,规范化了问题的研究角度,研究结果较为直观地展现出参与主体、舆情主题和主体情感在各个阶段的演化态势,可为政府相关部门的舆情管控与引导工作提供理论依据,具有一定参考价值。

在未来的研究中,可从以下方面进行突破:a.本文仅研究了突发事件网络舆情演化在“三阶段”划分方式下的态势感知,在“四阶段”“五阶段”划分下的态势感知需进一步研究;b.构建的网络舆情态势感知模型对网络舆情态势的描述是从主体、主题、情感3个层面进行的,在以后研究中,可引入其他指标以丰富模型内涵。

猜你喜欢
态势突发事件舆情
历史虚无主义的新近演化态势与特征
2019年12月与11月相比汽车产销延续了增长态势
汇市延续小幅震荡态势
国际金价能否延续上涨态势
数字舆情
数字舆情
消费舆情
突发事件的舆论引导
清朝三起突发事件的处置
突发事件