基于BP神经网络的突发传染病舆情热度趋势预测模型研究

2018-07-11 09:51曾子明黄城莺
现代情报 2018年5期
关键词:预测模型BP神经网络微博

曾子明 黄城莺

〔摘要〕[目的/意义]研究突发传染病舆情热度的发展趋势,能够为制定舆情引导策略提供参考,具有重要的理论意义。[方法/过程]本文首先构建微博舆情热度评价指标体系,基于信息熵确定各个指标的权重,然后对求得的舆情热度趋势值进行分类,在此基础上,建立基于BP神经网络的突发传染病舆情热度趋势预测模型。以新浪微博为例,选取“MERS病毒卫生突发事件”的舆情热度数据进行实例分析,预测该突发传染病事件的发展趋势,从而验证模型的可行性。[结果/结论]实验结果表明,该模型能有效预测突发传染病舆情热度趋势,进而为舆情管控提供决策支持。

〔关键词〕BP神经网络;舆情热度;突发传染病;微博;预测模型

DOI:10.3969/j.issn.1008-0821.2018.05.006

〔中图分类号〕G2062〔文献标识码〕A〔文章编号〕1008-0821(2018)05-0037-08

〔Abstract〕[Purpose/Significance]It is of great theoretical significance to study the development trend of public opinion in emergent infectious diseases,which can provide reference for making public opinion guidance strategy.[Method/Process]The paper first constructed the index system of microblog public opinion and evaluated the weight of each index based on the information entropy,and then classified the obtained public opinion heat trend,on the base of which,it established the public opinion heat trend prediction model of emergent infectious diseases bases on BP neural network.Taking Sina microblog as an example,it analyzed the public opinion heat data of“MERS virus”to predict the development trend of the emergent infectious disease event,and verified the feasibility of the model.[Result/Conclusion]The experimental results showed that the model could effectively predict the trend of public opinion in emergent infectious diseases,and then provide decision support for public opinion control.

〔Key words〕BP neural network;heat of public opinion;emergent infectious diseases;microblog;prediction model

据中国互联网络信息中心(CNNIC)发布的《第40次中国互联网络发展状况统计报告》显示,截至2017年6月,我国互联网普及率较2016年底提升了11个百分点,达到543%,超过全球平均水平46个百分点[1]。在互联网迅猛发展的环境下,国际范围内频繁发生的突发传染病引起人们高度关注,如“埃博拉病毒”、“塞卡病毒”、“SARS病毒”、“MERS病毒”等。微博作为传播媒介的代表,具有互动性高、传播速度快等特点,突发传染病事件借助新浪微博等社交平台不断发酵,往往迅速演化为网络舆情。以2014年西非爆发的埃博拉病毒为例,在2014年2月1日至10月31日期间,新浪微博平台上共产生23万多条包含“埃博拉”关键词的微博[2]。在描述突发传染病舆情的诸多要素中,舆情热度体现了人们对于舆情事件的关注程度,日益受到政府以及学术界的广泛关注。

突发传染病舆情同其他类型突发事件舆情相较而言,具有爆发性、演变不确定性、负面倾向性等特征。由于涉及公众的健康和生命安全,社会公众高度关注致病原因、每日新增病例数、死亡率、治愈情况等与之相关的信息。相关消息一旦发出就会掀起网络舆情的浪潮,引起整体舆论环境的波动,其舆情发展的管控已经成为应急管理的一个重要组成部分。基于此,本文结合徐旖旎[3]对媒体奇观网络舆情热度趋势分析以及赵磊、王松等[4]对舆情热度趋势仿真模型的研究思路,将突发传染病舆情热度趋势预测问题转化为模式分类问题,并尝试引入BP神经网络对舆情热度趋势做预测。首先,文章构建面向微博的舆情热度评价指标体系,基于信息熵确定各个指标的权重,再利用加权求和的方法得到热度值,然后求出舆情热度趋势值并进行分类,接着引入BP神经网络理论,從新浪微博收集“MERS病毒卫生突发事件”相关数据,对突发传染病的舆情热度趋势进行预测,探讨该方法的可行性和有效性。

1研究现状

11网络舆情热度研究

网络舆情热度研究是一门涉及情报学、统计学、传播学等多学科交叉融合的研究领域。当前,国内外学者针对网络舆情热度的研究分为定性研究、定量研究以及定性定量相结合方法。其中,定性研究包含网络舆情热度发展演变规律、特征、热度评价指标体系建立等,定量研究包含最优化模型、系统动力学模型、马尔可夫链模型等。Lean Yu等[5]提出了以网络公民、意见领袖、政府以及大众媒体四大主体为代表的网络舆情传播模型,并通过4起典型的危险化学品泄漏事件进行案例研究,验证模型的有效性;张行钦等[6]使用百度指数,研究了“乙肝疫苗”事件网络舆情热度演变规律;Jeffrey R Lax等[7]根据突发事件网络舆情生成过程、热度涨落的影响因素,提出了较为成熟的舆情热度指标。曹学艳等[8]引入突发事件应对等级,构建了网络舆情热度评价指标体系;王慧军等[9]通过最小化舆情热度的负面作用与监控成本之和,研究了政府对舆情热度的最优监控问题;袁国平等[10]借助系统动力学的流图模型,通过Vensim PIE软件进行模拟仿真,从事件公共度、事件敏感度、网民质疑度、政府公信力4个方面分析对网络舆情热度的影响;屈启兴等[11]给出了基于微博的企业网络舆情热度的计算公式,在此基础上提出基于马尔可夫链的舆情热度趋势分析模型;王新猛[12]构建了针对政府负面网络舆情热度趋势的马尔可夫链预测模型。Xue Gang Chen等[13]运用粗糙集理论降低网络舆情指标体系的属性,并通过层次分析法确定指标权重,从定量和定性的角度出发,提出一种网络舆情趋势预测与评价的新方法。

12我国突发传染病舆情研究

我国对于突发传染病舆情的研究始于2003年的SARS事件。目前,相关研究主要包括舆情传播规律、舆情监测预警和舆情引导治理3个方面。安璐等[2]以埃博拉(Ebola)有关的微博为调查对象,利用LDA模型和SOM方法比较分析了Twitter和Weibo平台上相关微博的热点主题类别,揭示其演化模式和时序发展趋势的异同点;靳松等[14]以H7N9禽流感事件为研究对象,通过采集到的数据生成H7N9信息传播网络拓扑结构图,并基于其邻接矩阵,系统分析传播网络的要素和内部簇结构特性;安璐等[15]以“塞卡病毒”的微博數据为研究样本,利用潜在狄利克雷模型识别微博内容的主题特征,同时结合用户特征和发布时间特征,构建决策树模型,对突发传染病微博影响力进行预测;杜洪涛等[16]以新浪微博社区中MERS疫情数据为样本,研究如何改善突发性传染病舆情中的公共管理沟通问题;翁士洪等[17]以H7N9事件为例,探讨微博谣言的产生机制,并结合现有文献资料和现实状况,提出针对性的治理对策。

综上所述,虽然国内外已经有诸多学者对网络舆情热度展开研究,涵盖了从演变规律、评价指标到预测模型的多个方面,但是突发传染病舆情的相关研究仍然处于发展阶段,还需要深入研究该领域及相关技术方法。BP神经网络由于具有强大的自学习、自适应的能力,擅长于模式识别、分类、数据拟合等问题的解决,被广泛应用于应急需求预测、微博转发量预测、冬小麦耗水预测等方面。因此,本文将基于BP神经网络,对突发传染病的舆情热度趋势进行预测研究。

2微博舆情热度评价指标体系构建

21舆情热度评价指标

建立一个科学合理的评价指标体系是衡量微博舆情热度的基础,并非指标越多越好,关键在于能否定量化反映微博舆情热度的实质。本文借鉴文献[11,12]构建的网络舆情指标,从原创微博发布量(A)、转发量(B)、评论量(C)、点赞量(D)等4个指标来描述微博舆情热度。这些数据以天为单位进行统计,其与时间的对应关系见表1。

2)一般而言,不同评价指标的类型、量纲等往往存在差异,为了消除这些差异带来的影响,将其转化为无量纲、方向一致的标准指标值,本文采用极值法[19]对评价指标进行无量纲化处理:

3BP神经网络

BP神经网络(Back Propagation Neural Network)基于梯度下降策略,通过反向传播来不断调整网络连接的权值和阈值,直到输出值与真实值的误差减少到可以接受的范围或预先设定的学习次数为止。BP神经网络由输入层、隐含层、输出层组成,本文选取单隐层的三层BP神经网络来实现突发传染病舆情热度趋势的预测。其中输入向量为原创微博发布量、转发量、评论量、点赞量4个元素,所以输入层的节点数为4。输出向量为微博舆情热度趋势值,本文将预测问题转化为模式分类问题,将微博舆情热度趋势值分为6类:C1=急速上升=H(i)max2,H(i)max,C2=明显上升=H(i)max4,H(i)max2,C3=缓慢上升=0,H(i)max4,C4=缓慢下降=H(i)min4,0,C5=明显下降=H(i)min2,H(i)min4,C6=急速下降=H(i)min,H(i)min2,其中H(i)max、H(i)min分别为微博舆情热度趋势值的最大值和最小值。在此基础上,分别用二进制001、010、011、100、101、110表示微博舆情热度趋势值的类别,所以输出层的节点数为3,输出状态为:001、010、011、100、101、110,分别对应6种类别。对于隐含层节点数而言,若节点过多,则会致使网络复杂化甚至出现过度拟合的情况,若节点过少,则会致使结果不收敛,目前并没有一个理想的解析式可以用来确定合理的隐含层节点数,本文采用经验公式(13)得到隐含层节点数的估计值:

4实验及结果分析

本研究通过Excel 2007软件完成描述性统计以及图形绘制,利用MATLAB R_2016a神经网络工具箱构建突发传染病舆情热度趋势预测模型。研究分为突发传染病舆情时间跨度选择、舆情热度数据收集、舆情热度数据预处理及清洗、舆情热度数据归一化处理等阶段,具体的流程见图2。

41突发传染病舆情时间跨度的选择

本文选取2015年上半年人民网舆情监测室广受关注的“MERS(中东呼吸综合征)病毒卫生突发事件”作为研究对象。根据人民网、中国新闻网关于中东呼吸综合征的新闻报道得出该突发传染病事件的进展见表2。

结合百度指数搜索指数的网民关注度时间变化趋势,截止到2015年7月31日,该事件基本平息,网民关注度降到与突发传染病爆发前持平的状态。因此,选取2015年5月28日至2015年7月31日为研究时间段。

42舆情热度数据收集

本文利用Gooseeker爬取新浪微博上包含“MERS”词条的所有原创微博条目,具体字段包括:发布时间、博主名称、原创微博内容、微博网页、转发量、评论量、点赞量,共收集数据样本56 043条。

43舆情热度数据预处理及清洗

对收集到的原创微博进行逐条筛选,剔除232条广告、重复的1 255条记录、以及其他与MERS无关的401条微博,得到有效数据54 155条,累计转发量1 316 856次,累计评论量572 759次,累计点赞量991 963次。然后,以天为单位,根据公式(1)~(4)整理汇总每日微博舆情热度数据,得到65条结果见3。

44舆情热度数据归一化处理

本文中原创微博发布量、转发量、评论量、点赞量均为效益型指标,根据公式(8)进行无量纲化处理,见表4。

45舆情热度计算

根据公式(10)~(12)计算得到原创微博发布量、转发量、评论量、点赞量对应的权重(保留小数点后5位):W1=020364,W2=028456,W3=023797,W4=027383。根据公式(5)计算微博舆情热度,结果见表5。

从图3可以看出,MERS微博舆情热度的演变具有快速爆发、回落相对缓慢的特点,大致经历了萌动、加速、成熟、衰退4个阶段,基本符合网络舆情生命周期的特点。

萌动期(5月28日~5月30日),公众开始关注该突发传染病事件,舆情热度上升明显,此后,网络舆情热度进入短暂的加速期(5月30日~5月31日),然后维持在成熟期(6月1日~6月5日)。尤其是在衰退期(6月6日后)前期,出现明显的波动,体现为在6月18日和6月26日微博舆情热度剧增,出现两个小高峰,经过分析原创微博原文发现在这两日,“为抢救韩国MERS患者广东15天花掉逾800万元”与“韩国籍MERS患者出院”两大话题引起网友广泛关注,致使微博舆情热度上升。

根据公式(6)计算MERS微博舆情热度趋势值,再由上文關于类别的计算方法,将微博舆情热度趋势值分为6类,C1=[025779052,051558103],C2=[012889526,025779052],C3=[0,012889526],C4=[-018638998,0],C5=[-037277995,-018638998],C6=[-0745559908,-037277995],计算结果见表6。

46BP神经网络参数设置

隐含层和输出层的传递函数均采用双曲正切S型函数

“Tansig”,训练函数采用Levenberg-Marquardt反向传播算法训练函数“Trainlm”[21],训练目标误差为0005,学习率为005,最大训练次数设置为1 000。各训练参数设置见表7。

47突发传染病舆情热度趋势预测

本文将2015年5月28日至2015年7月23日期间的数据作为训练样本。根据隐含层节点数的公式(12),将α进行逐个试验,。先设定初始隐含层节点数为3(α=1时),然后训练10次,去掉最大和次大误差,取剩下8个误差的平均值并记录下来,再设置隐含层节点数为4……一直到取隐含层节点数为12(α=10时),得到不同隐含层节点数下网络训练平均误差见图4。

从图4可以看出,随着隐含层个数的增加,训练样本的Mse平均值基本呈下降趋势。当α=8时,即隐含层节点数N=10时,网络误差最小。因此,本文所建BP神经网络拓扑结构为“4-10-3”,将隐含层为10中训练误差较小、预测结果准确率较高的BP神经网络结构的参数保存。经过141次迭代,达到最小误差值0005848,网络训练提前停止,其训练结果混淆矩阵见图5。

从图5可知,57个训练样本的准确率为877%,说明该模型的训练结果较为理想。基于此,通过训练好的网络预测2015年7月24日至2015年7月31日MERS舆情热度趋势值,对应的预测结果见表8。

48突发传染病舆情热度趋势预测模型的评价

将预测得出的MERS微博舆情热度趋势值的类别与实际类别进行误差分析见表9,模型预测结果的混淆矩阵见图6。

由表9的误差分析以及图5的混淆矩阵可以看出,基于BP神经网络预测的MERS微博舆情热度趋势的后7个类别与实际相符,只有第一个类别预测有偏差,准确率达到875%,预测结果较为理想。说明基于BP神经网络模型的突发传染病舆情热度趋势的预测是可行的。

5结语

突发传染病发生后,由于严重危及生命安全,事件相关信息往往迅速在网络上传播交流,从而形成网络舆情。本文将BP神经网络应用到突发传染病舆情热度趋势的预测中。首先在查阅文献的基础上,针对微博自身的特点,提出舆情热度的定量方法,然后利用信息熵确定各个指标的权重,最后建立基于BP神经网络的突发传染病舆情热度趋势预测模型,并选取新浪微博“MERS病毒卫生突发事件”的舆情热度数据进行实例分析,预测该突发传染病事件的发展趋势,从而验证模型的可行性。研究结果可以为突发传染病微博舆情的管控提供决策支持。

然而,本文研究也存在一定的局限性:第一,本文仅针对新浪微博这一媒介平台建立指标体系,忽略了微信、论坛、新闻网站等互联网平台上的舆情信息,而且选取的微博舆情热度评价指标只包括新浪微博的原创微博发布量、转发量、评论量,点赞量四项指标,较为单一,忽略了微博内容主题特征、博主类型,博主粉丝量等信息对舆情热度的影响,该体系还有待进一步完善;第二,突发传染病舆情具有爆发性、演变不确定性等特点,在一段时间内(1天或者数小时)可能会有大幅度的波动,本文以天为单位进行数据统计,在未来的研究中还需考虑选取更加细粒度的单位进行分析;第三,本文只选取了一个突发传染病案例进行实证分析,结果表明模型预测的准确率较高,但对于该模型是否同样适用于其他突发传染病舆情尚未进行探讨。因此,在未来的研究中还需要选取一定数量的案例来验证模型的合理性和有效性。

参考文献

[1]中国互联网络信息中心(CNNIC).第40次中国互联网络发展状况统计报告[R].中国互联网络信息中心,2017.

[2]安璐,杜廷尧,余传明,等.突发公共卫生事件的微博主题演化模式和时序趋势[J].情报资料工作,2016,(5):44-52.

[3]徐旖旎.基于微博的媒体奇观网络舆情热度趋势分析[J].情报科学,2017,35(2):92-97,125.

[4]赵磊,王松.基于BP神经网络的舆情热度趋势仿真模型研究[J].情报学报,2016,35(9):989-999.

[5]Yu L,Li L,Tang L.What Can Mass Media do to Control Public Panic in Accidents of Hazardous Chemical Leakage into Rivers?A Multi-Agent-Based Online Opinion Dissemination Model[J].Journal of Cleaner Production,2017,(143):1203-1214.

[6]张行钦,张东红,付刚瓯,等.“乙肝疫苗”事件网络舆情热度演变特点及应对研究[J].中国预防医学杂志,2017,18(1):60-62.

[7]Lax JR,Phillips JH.How Should we Estimate Public Opinion in the States?[J].American Journal of Political Science,2009,53(1):107-121.

[8]曹学艳,张仙,刘樑,等.基于应对等级的突发事件网络舆情热度分析[J].中国管理科学,2014,22(3):82-89.

[9]王慧军,石岩,胡明礼,等.舆情热度的最优监控问题研究[J].情报杂志,2012,31(1):71-75.

[10]袁国平,许晓兵.基于系统动力学的关于突发事件后网络舆情热度研究[J].情报科学,2015,33(10):52-56.

[11]屈启兴,齐佳音.基于微博的企业网络舆情热度趋势分析[J].情报杂志,2014,33(6):133-137.

[12]王新猛.基于马尔可夫链的政府负面网络舆情热度趋势分析——以新浪微博为例[J].情报杂志,2015,34(7):161-164.

[13]Chen XG,Duan S,Wang L.Research on Trend Prediction and Evaluation of Network Public Opinion[J].Concurrency and Computation:Practice Practice and Experience,2017,29(24):e4212.

猜你喜欢
预测模型BP神经网络微博
何以解忧?基于社交媒体大数据的睡眠健康公众叙事研究
基于神经网络的北京市房价预测研究
事实与流言的博弈
重大突发事件中微博之力不微