网络舆论的主题探测、追踪与关键技术

2017-03-06 17:25吴晓阳
电子技术与软件工程 2016年23期
关键词:网络舆论

摘 要

在网络舆情监测中,舆论主题经常会不断转化,需要把握好事件主题之间的演化关系,主抓事件中的种子事件,掌握主题演变规律。要将情感倾向性研究应用于主题探测与追踪中,将局部情感倾向检测扩大至整篇报道,把握报道的情感倾向。构建基于Hadoop平台的舆论监控分析系统,拥有强大的数据处理能力,能够实现文章数据的情感分析、主题追踪、主题探测、信息处理等功能。

【关键词】网络舆论 主题探测 追踪 Hadoop平台

近年来,互联网已经深入社会生活的各个方面,它既是新闻传播的重要媒体,同时也是民众分享信息、表达意见的主要平台,网络舆论的形成空间和发展速度空前,民众通过互联网对社会热点事件发表评论、寻求声援乃至组织行动,网络舆论群体性事件不断出现,给社会的和谐与稳定带来了一定的负面影响,因此,对网络的舆情监测十分有必要。互联网的舆情监测技术主要是通过信息的收集以及智能处理等技术实现,在信息处理中,需要应用到分类技术、自动抓取技术、专题聚焦技术以及主题检测等技术。本文主要是进行主题探测、追踪关键技术的探讨。

1 基于事件演化的主题探测和追踪

关于主题的检测和追踪经常存在变动现象,这在网络新闻媒体的报道中时常体现,主题的变动会不断转化重心。比如说,某地区发生了自然灾害,那么在网络媒体的报道中,一开始的重心集中在对自然灾害造成的人员伤亡,这是人们首先关注并最为重视的,理所当然成为焦点。随着事情的发展,舆论的重心会转移到灾害发生的原因,随后,时间推移,舆论的主题重心再度转移到灾后的重建工作中来。这样的舆论主题转变,便是主题的飘移。在新闻事件中,主题常常会发生这种飘移,对于舆论主题的检测也会产生一定的难度,舆论主题检测的精准度难以把握。要想加大飘移性主题的准确检测,需要把握好事件主题之间的演化关系,主抓事件中的种子事件。种子事件通常就是初始事件,初始事件是后續产生事件的前提,把握好种子事件,并掌握主题演变规律,就能很好的抓住主题重心的演变,从而及时地调整主题重心,实现主题检测追踪的动态性。除此之外,在类似的主题演变中,需要准确把握事件主题中的实体名词,强调实体名词的贡献度,保障主题探测与追踪不会发生较大偏移。

另外,研究发现,在主题产生演变的事件当中,后续产生的事件报道,通常会对先对前面所发生的重要进展或者对前面主题进行总结性阐述。因此,舆论主题检测与追踪技术不仅要重视事件之间的时序关系,还要重视事件之间内容上的联系与相似度。

2 基于事物多面性的情感倾向分析

任何事物,本质上都是多面性的。一个事物,具有正向的一面,同时也要认识到其反向的一面。即使是一个新产品的发布,比如新产品在性能上得到大力的改善,但是产品的其他方面可能存在缺陷,如产品的外观设计,续航能力等。因此,我们在认识事物或者事件时,一定要进行正反两方面的认识。因此,网络媒体在进行事物或事件报道时,通常会给出多方面的报道和评价。那么网络舆论主题的检测和追踪,也要意识到情感分析的多面性,加强对情感倾向性的研究。首先,也是最为关键的技术应该对情感词汇进行准确的判断和识别。在进行情感词汇判断和识别时,先要抓住主题事件中的种子词汇,比如在知网词典中,中文情感词语达到8936个,其中正面的情感词汇有4566个,而反面的情感词汇有4370个,要想准确把握情感倾向,需要对其中的种子词汇进行确定。种子词汇的情感倾向通常表现为强烈性,比如“悲痛欲绝”,“兴奋不已”等这类。接着开始使用筛选技术,对于一些情感倾向表现不明显的词汇筛选,如“春风得意”等词。将这种技术应用于网络舆论主题检测和追踪中,可以将局部情感倾向检测扩大至整篇报道,继而得出整篇报道的情感倾向。

3 基于Hadoop平台的舆论主题监控分析系统

随着互联网信息数据的越来越大,对计算机的数据存储功能要求也越大,而Hadoop平台的出现,无疑能够很好满足舆论主题的监控,进行分析系统设计。

3.1 系统架构

在Hadoop平台下,使得舆论主题的监控分析系统构建拥有强大的数据处理能力,实现了文章数据的情感分析、主题追踪、主题探测、信息处理等功能。并能够对网络热点主题进行自动的情感抓取和分析,实现自动追踪,还能够将情感分析报告传达给用户。

3.2 系统功能模块设计

3.2.1 主题探测和追踪模块

这个模块主要包括增量聚类设计、自动关键词提取设计以及话题归并设计。在增量聚类设计中,主要聚焦于文章与文章之间的相似度,相似度达到一定程度的所有文章,进行归类,并找到文章的中心即可。关键词的提取主要以文章的标题为主要依据,对标题关键词相似的文章主题进行归类,并摘取标题权重大的两个词为关键词;话题的归并主要以关键词的匹配为主,将属于同一主题的文章尽心归类。

3.2.2 主题追踪模块

该模块中,主要有两个设计思想,一是进行追踪任务的申请建立,而是进行主题向量模型的更改更新。前者需要前台界面与主题追踪的子系统进行配合,如果主题追踪系统追踪成功,那么立即建立新专题,并返回主题ID,如果失败,则返回错误信息。后者主要是计算产生的新文章,计算的结果进行保存和显示,这个过程可以自动运行。

3.2.3 情感性倾向性分析模块

对于该模块的设计,需要进行情感词、情感修饰以及情感对象的抽取。在情感词典以及副词典中进行情感词的抽取,并与语料库进行比对,最终找出情感对象。随后,情感对象之间需要分组以及合并,具体分析和计算情感对象的极性。局部情感需要进行加权处理,进而得到极性。这些情感极性最终都要传达给用户,实现用户对舆论主题的追踪。

4 结束语

综上所述,随着互联网的进一步发展,网络的信息数据十分巨大,使用传统的搜索引擎不能满足舆情监测需求,需要应用更加先进的舆论控制分析系统。本文所分析的舆论主题探测和追踪技术,对于网络舆论控制分析具有一定的现实性作用,随着科学技术的发展,将会出现更多先进的平台,加强舆情精准控制。

参考文献

[1]胡耀斌.网络舆论主题探测、追踪与分析关键技术研究[D].济南:山东财经大学,2013.

[2]费绍栋.网络舆情突发事件检测与追踪关键技术研究[D].济南:山东师范大学,2015.

作者简介

吴晓阳(1977-),男,回族,河南省南阳市人。现为南阳医学高等专科学校教师。主要研究方向为信息技术应用、电子政务。

作者单位

南阳医学高等专科学校 河南省南阳市 473000

猜你喜欢
网络舆论
魏则西事件网络舆论传播探析
社会化媒体对网络舆论环境的重建
媒体如何做好新闻舆论工作
网络舆论对大学生思想政治教育工作的影响及对策探究
社会传播视域下微信的影响探究
新媒体环境下“沉默的螺旋”效应再研究