互联网舆情监测、预警和引导技术

2014-10-16 12:01张冬冬林杉
计算机与网络 2014年19期
关键词:舆情预警聚类

张冬冬 林杉

(解放军61716 部队福建福州350002)

1 引言

据中国互联网络信息中心(CNNIC)《第31 次中国互联网络发展状况统计报告》显示,2012年12月底,网民规模达为5.64 亿,互联网普及率达到42.1%。互联网成为了继报纸、广播、电视之后的“第四媒介”,也成为反映社会舆情的一个重要载体。互联网的开放性和离散性决定了信息传递和交流自由度的无限制扩大,使互联网上各种思潮并存并相互激荡,成为了舆论信息与不良内容的助推器与集散地。

西方国家通过“软杀伤”战略进行网络意识形态渗透,利用互联网干涉他国内政和颠覆他国政权,在北非和西亚等地区屡屡得手。国内如云南看守所“躲猫猫事件”、上海“杨佳袭警案”、杭州飙车案和乐清钱云会案等,也都是互联网舆情向现实空间扩散的结果。因此,研究互联网认知域监测、预警和引导技术,能及时有效地感知影响面广的谣言和反政府敌对势力的舆情攻势,掌握其意识形态渗透的策略手段,监控其舆情发展的变化趋势;同时进行舆情的主动引导,揭露违法分子扰乱社会安定,敌对势力反动宣传的企图,引导民众不信谣,维护社会安定团结,争取中立国家、国际和地区组织等对我国政策、制度、支持和理解是十分必要的。

互联网舆情是互联网空间认知域信息的综合汇集,本文主要以网络空间的互联网媒介为研究对象,对现阶段互联网舆情信息的监测、预警技术进行分析和总结,结合互联网空间认知域的信息引导技术,形成一个完整的体系架构。网络空间认知域的监测、预警和引导处理流程下:

①采集:按照预先配置的信息采集条件,通过分布式并行采集器完成数据源的收集,将分散的数据进行有机的集中;

②预处理:对不规范的数据进行规约和整合,对不完整的和不一致的数据进行清理,完成数据的规范化变换,简化数据处理的难度[1];

③分析处理:对预处理后的数据,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理与模糊集,甚至神经网络和遗传算法等方法进行处理,得出分析结果;

④预警:将分析结果以报表和图示等可视化方式呈现,同时评估当前网络舆情的态势,按照舆情预警规则向指定的预警提醒对象发送相应的危机处理提醒;

⑤引导:辅助完成引导信息的主题策划和内容策划,制作认知域的信息,利用互联网的社交网络、论坛、博客及微博等渠道完成信息投送。

网络信息的监测、预警和引导处理是一个完整的循环流程,通过新一轮的采集可以获取引导信息产生的效果,并不断调整引导策略,达到化解公共危机和挫败恐怖分子破坏社会安定的目的。

2 网络舆情监测

网络舆情的监测主要包括信息采集、预处理和分析处理。提供舆情的自动发现和分类,对用户关注的敏感信息进行跟踪,通过褒贬倾向性分析技术发现负面信息,实现对敏感信息的有效监控。

2.1 信息采集

信息采集解决网络舆情监测数据的来源,利用网络爬虫技术从某一个网页开始,下载该网页内容及其网页内URL 指向的其他网页,递归下载直至完成整个网站的镜像。

为保证数据 釆集的及时性,爬虫程序需要长时间运行和大规模的遍历访问,会遇到被目标网站屏蔽的问题,特别是境外网站,这样就需要采用有效的采集防屏蔽技术,目前应用的主要技术包括轮转访问/分时任务、lP 地址轮换和模拟浏览器等。

⑴轮转访问和分时任务

在目标网站容忍范围内对网站进行访问抓取,将一个大规模任务分块分时段完成。

⑵IP 地址轮换

多数网站会对访问频率过高的主机lP 地址进行暂时性屏蔽,当抓取进程检测到当前lP 地址被屏蔽后,自动更换一个IP 地址继续访问。

⑶模拟浏览器登陆技术

对于一些需要用户登录后才能继续访问的网站,如论坛、博客和微博等,需要采取模拟浏览器的技术,提交用户名和密码实现登录。

2.2 预处理

由于互联网信息冗余度高,网页重复和转载现象严重,加上采集到的原始数据包含大量非结构化数据,在表示方法和可访问性等方面参差不齐,而这些数据难以直接处理,因此需要通过数据规约、清理和变换等预处理手段转化为规范化数据。

⑴数据规约

通过元数据筛选降低数据量,采用特征选择和子集选择简化数据处理难度,利用字幕提取、视频关键帧抽取、语音识别、图像识别和文本摘要完成数据降维,方便处理。

⑵数据清理

通过删除、替换与补齐缺失数据完成信息格式标准化,利用比对、相似度计算、哈希散列和文本摘要清除重复数据,使用分箱技术局部平滑、聚类检测孤立点、回归函数和时间序列分析修正清除噪声数据,采用移动窗口理论、移动曲面拟合及聚类分析异常检测完成信息的错误纠正。

⑶数据变换

通过音视频编码、封装格式转换完成格式转换,利用线性或非线性数学变换消除数据空间、属性、时间及精度等差异,减少数据复杂度,按比例缩放落入特定区域。

2.3 分析处理

舆情信息分析处理技术实现采集信息的综合解析处理,对文本文件直接提取属性与内容,对音视频文件抽取关键帧、语音转换为文字并提取属性与内容,然后进行聚类分析和主题检测。

⑴文本聚类

文本聚类算法从本质上来看,属于无监督的机器学习方法,通过将一个文本集聚成若干个簇,同一个簇中的文本间具有较大的相似性,簇之间的文本具有较小的相似性。文本聚类算法的目的是让属于同一个话题信息之间的度量值尽可能的小,而不同类别信息之间的度量值尽可能的大。

当前主流的聚类算法中基于划分的聚类方法和层次聚类方法应用最为广泛。最常用的基于划分的聚类算法是k-means算法,该算法不断计算每个聚类的中心,也就是聚类中对象的平均值。层次聚类方法就是把所有的数据按层次聚集,最终形成一个树状类簇结构,每一类簇节点包含所有的子类簇节点,所有相邻的子类簇分割了他们父类簇的数据点。

⑵主题检测

主题是有生存期限的,通过老化理论建立主题生存模型来测量主题的生存周期。根据输入信息的顺序,先出现的信息先聚成主题的候选集合,后来的相似信息内容将被聚到已形成的主题,或者形成新的主题。通过引入老化理论建立主题的生存周期模型,主题有其生存期限。一个主题一直有新增的补充信息,其主题的生命值将不断提高,证明这是一个持续性的热点主题;如果一个主题没有新帖增加,那么其主题的生命值就会不断减弱,主题也会消失。

3 网络舆情预警

舆情预警的作用在于超前反馈、及时布置和防风险于未然,因此预警要能够灵敏、准确地呈现风险。舆情预警主要包括呈现和预警通知两部分。

3.1 呈现

网络舆情处理的结果需要以一种直观的方式呈现给用户,便于用户的理解和决策。常见的社交关系和饼图比例如图1 所示。

图1 社交关系和舆情区域比例图

社交关系图以微博、邮件和即时通信等为载体,绘制虚拟社交网络中的人际交往关系,利用人群间连线的跳数展示关系的强弱。舆情区域比例图主要展现舆情热点在各个区域的分布情况,用于定位舆情的区域热度。

如图2 所示,时间趋势分析图将舆情信息的数量按时间轴进行统计,用于演示与某个事件相关信息的增长或减少趋势。传播路径分析图记录了信息产生的源头,被转载和传播的路径,各站点传播的先后次序及时间点,可以清晰的掌握舆情的传播规律。热点聚类分析图以颜色区分的点状图显示舆情聚类分析的结果,点状图形的大小标明了该主题的热度,图形之间的颜色和距离表示主题之间的关联关系。

图2 时间趋势分析图

3.2 预警通知

综合倾向性分析结论、统计结果以及舆情信息内容敏感程度,通过网络舆情预警机制的动态模型确定不同舆情信息的权重系数,将网络舆情态势分为3个等级:一级预警,定时提醒用户查看相关信息;二级预警,主动推送,及时处理;四级,最高级,启动引导联动处置。

预警等级的量化指标主要包括舆情传播类型、舆情表现和舆情关注3个部分[2]。舆情传播类型由网络新闻、传统媒体和官方新闻发布组成;舆情表现部分由新建量、转载量和点击量组成;舆情关注部分由政府关注、网民关注和境外关注组成。舆情等级可通过下式表示:

舆情等级=关注度×关注度权重指数+扩散度×扩散度权重指数+敏感度权重指数×舆情信息内容敏感度+危害度×危害度权重指数。

4 网络舆情引导

根据舆情的特点和传播特性研判到网络舆情对社会稳定和发展产生威胁时,通过多种网络空间信息舆情引导技术,在短时间内调动和整合各方面的力量,形成应对危机的合力,引导舆情向着预设的方向发展。通过发送舆情疏导信息,使得网民能了解真实信息,通过正面的信息潜移默化地引导和调节舆情。舆情引导流程如图3 所示。

图3 舆情引导流程

根据舆情呈现和预警提供的舆情报告、预警通知和呈现图表等,同时利用舆情引导技术的辅助情况判断和决策,制定引导方案,完成引导信息的主题和内容策划,辅助制作人员完成引导信息的制作,利用互联网和传统媒体等完成引导信息的投送。

4.1 辅助决策

各个网络人群具有不同的信息采集偏好,网络舆论形成的特点和渠道各不相同。辅助决策依据目标人群年龄、性别、政治倾向、上网习惯和网络信息来源渠道等,定位投送目标和引导渠道[3]。

4.2 信息策划

以人工智能、运筹学和信息处理技术作为工具,以知识库和专家系统为基础,研究信息智能策划技术,通过计算、推理和仿真等手段辅助完成引导信息主题和内容的策划。根据舆情发展的不同阶段,提供相应的应对预案。

4.3 信息投送

网络空间舆情信息引导以互联网和电信网为主。互联网舆情引导基于社交网络、论坛、博客和微博等渠道,电信网舆情引导以移动通信网和公用电话网为主要途径。信息投送需要综合网络空间的各种媒介渠道,最广度的发布舆论疏导信息,增强舆论导向信息传播的速度和密度,以及信息投送的精度和力度,形成快速和有效的舆情引导能力[4]。

5 结束语

我国在舆情监测方面的建设取得了一定的成果,国家职能部门根据自己的需要直接指导建设、定制开发及推广,但由于业务与关注点不同,都是各自为政,缺乏统一的网络舆情汇集和分析机制的指标体系,系统的综合可用性较差,而且在舆情预警和舆情引导领域的研究尚处于起步阶段,距离实用化还有相当的距离,面临着巨大的挑战。

为了有效提升网络空间舆情监测、预警和引导能力,应该从以下几个方面进行持续的研究和投入:①充分借鉴国外的建设经验和理论成果,紧跟网络前沿技术和网络新兴媒体,整体布局,统一顶层规划[5],将网络舆情的监测、预警和引导成体系建设;②舆情的深度加工与利用在很长一段时间内都会是研究的重点,因涉及语义层面的因素,需要融合多个学科领域在文本挖掘、知识发现、机器学习和语义分析等相关方面的成果加以应用;③提升舆情引导能力应对复杂网络舆情,不仅需要充分利用已有的理论知识和先进的技术手段,还需要我们能够创新性地提出更贴切实际的解决方案[6]。

[1]谭 磊.大数据挖掘[M].北京:电子工业出版社,2013.

[2]何 佳,周长胜,石显锋.网络舆情监控系统的实现方法[J].郑州大学学报,2010(1):83-85.

[3]孙 荣.网络舆论引导的特点及其方法研究[J].产业与科技论坛,2012(24):119-120.

[4]段婉立,王力尘.互联网舆情引导策略研究[J].辽宁工业大学学报,2013(6):67-68.

[5]罗霄峰,罗万伯,等.网络舆情治理研究[J].通信技术,2010(4):82-83.

[6]张金龙.互联网舆情分析研究[J].辽宁经济,2012(11):84-85.

猜你喜欢
舆情预警聚类
法国发布高温预警 严阵以待备战“史上最热周”
园林有害生物预警与可持续控制
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
舆情
舆情
舆情
机载预警雷达对IFF 的干扰分析
一种层次初始的聚类个数自适应的聚类方法研究
预警个啥