大数据环境下的突发事件网络舆情动态监测与预警研究

2018-12-22 03:32
无线互联科技 2018年18期
关键词:知识库结构化突发事件

于 茜

(大连科技学院 信息科学学院,辽宁 大连 116052)

突发事件网络舆情是指以突发事件为核心内容的网络舆情,包括已发生或未发生的自然灾害、事故灾难、公共卫生事件及社会安全事件等。经过不正当的过分渲染将变成有害舆论,并迅速传播扩大,危及社会公共安全,突发事件网络舆情已然成为影响社会持续、稳定、和谐发展的重要因素。近年来突发事件网络舆情受到政府密切关注。

然而随着大数据时代来临,数据量巨大,数据形式不统一,结构化、半结构化和非结构化数据充斥网络,给数据分析处理带来困难,也给网络舆情工作带来了挑战。以往的网络舆情监测和预警方法、手段在大数据环境下难以发挥其应有的效用[1-6]。本文研究的大数据环境下突发事件网络舆情动态监测与预警系统的体系架构能够解决上述问题。

1 系统体系架构

大数据环境下的突发事件网络舆情动态监控和预测系统架构分为4层,分别是数据采集层、数据处理层、网络舆情动态监测层、自动预警层。

1.1 第一层数据采集层

数据采集层完成大数据环境下网络舆情信息的收集。大数据环境下网络舆情信息主要来源有新闻评论、社区论坛、社交网络、博客、微博、微信、邮件、维基WIKI、聚合新闻(Really Simple Syndication,RSS)、聊天工具网站数据库等,针对不同数据来源采用不同的数据采集方式。采用网页爬虫方法收集综合性论坛信息,采用RSS摘要收集方式对新闻和博客类网站进行数据收集,应用社交网络服务平台SNS采集微博等社交网络数据,应用全文检索系统实现对网站数据库的直接检索[7],Web挖掘方法适用于大数据环境下所有类型网络数据采集,包括结构化数据、半结构化数据和非结构化数据。

1.2 第二层数据处理层

数据处理层完成大数据环境下数据的分类、转换等处理工作。大数据环境下突发事件网络舆情数据的特点是数据量巨大,结构差异大,数据常常包含结构化数据、半结构化数据和非结构化数据,为分析处理增加了难度。本层实现按照信息内容的数据分类、聚类;实现信息去重,降低数据处理量;实现数据转换,将非结构化和半结构化数据转换成结构化数据进行分析;最后为数据建立索引,加快访问速度。

1.3 第三层网络舆情动态监测层

网络舆情动态监测层通过大数据分析、知识匹配实现自然灾害、事故灾难、公共卫生事件及社会安全事件四大类突发事件网络舆情信息的动态监测。动态监测过程是通过大数据舆情分析子系统实现的,舆情分析子系统将信息量已达到标准的突发事件网络舆情实时数据构建成知识模型与知识库中的已发生突发事件模型进行动态匹配,成功则确认其已经达到发布预警程度,交由自动预警层处理;匹配不成功则继续监控不断匹配,直到信息量降到标准以下,认为其威胁已经消失。

1.4 第四层智能预警层

智能预警层评定预警级别,通过动态监测分析结果自动向有关部门发布预警,并产生报告供领导决策。确定预警的各项指标,建立科学合理的预警级别;接收监测层的监测结果与各级预警指标智能比对确定预警级别向相关政府部门、人员发布预警,并提供详尽的级别评定报告和数据供管理者决策。

以上是大数据环境下的突发事件网络舆情动态监控和预测系统4层架构,其中大数据舆情分析子系统和突发事件知识库是本系统的核心,下面讨论大数据分析子系统的核心实现过程及突发事件知识库的构建过程。

2 基于MapReduce的大数据处理

MapReduce是面向大数据分析和处理的并行计算模型,是实现大数据背景下突发事件网络舆情分析的工具。MapReduce把计算过程分解为两个主要阶段,即Map阶段和Reduce阶段。Map函数处理键值对,产生一系列的中间键值对,Reduce函数用来合并所有具有相同Key值的中间键值对,计算最终结果[8]。Map和Reduce是两个可定义函数,定义了任务本身,在此基础上MapReduce才能并行计算。通过Map和Reduce函数的定义使得网络舆情中杂乱无章的数据得到有效整理,得到含有突发事件属性及属性值列表的有效数据,使之可以与突发事件知识库中的知识进行匹配,匹配一旦成功则向有关部门发布预警,等待处理。

3 突发事件知识库构建

基于大数据的知识计算是大数据分析的基础。要对数据进行高端分析,就需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析和计算知识库。当前各领域成型知识库已有50多种,但在突发事件领域还未构建出知识库,由于突发事件具有其独特的特性,与其他领域知识概念完全不同,所以该领域的知识库需要单独构建。

采用手工构建和半监督自动构建相结合的方法构建突发事件知识库。首先依据突发事件实际情况,赋予概念模型中属性的具体涵义;其次依据部分真实发生的突发事件手工构建基础概念模型,即种子;然后依据种子,进行半监督自动构建,逐步形成知识库。

4 基于Web服务的大数据分析

基于Web服务的大数据分析过程,是采用Web服务中的请求和响应来描述大数据分析过程。即从整理后的网络舆情大数据中得到一个突发事件高频热词,将其和属性封装为一个Web服务请求发送到服务器,服务器将其与知识库中的知识进行匹配,并给出响应,从而分析出该高频热词是否属突发公共安全事件,是否需要关注或预警。(1)Web服务定义,将网络舆情大数据封装成Web服务。服务由若干输入构成,输入是大数据属性和类型的序对。(2)Web服务约减,由于网络舆情中数据量过大,产生的服务过多,影响计算速度,所以在正是计算之前先进行服务约减从而得到最简化的服务队列。(3)Web服务匹配,是将服务参数值和知识库中的知识属性值进行匹配,初步匹配基于可变精度的分级偏序粗糙集进行分类划分,得到局部分类,然后再按照等价划分进行精确匹配(允许空值出现)。通过以上方法网络舆情中的大数据实现了与知识库中突发事件知识的匹配,从而得知哪些大数据是需要关注和预警的。

5 结语

大数据环境下网络舆情信息形式发生了巨大变化,半结构化和非结构化数据为网络舆情信息监控、分析带来了困难,本文提出的大数据环境下突发事件网络舆情动态监测和预警系统体系架构,能对突发事件网络舆情数据进行采集和预处理;能实现大数据处理;构建了突发事件知识库;建立了突发事件网络舆情知识模型;并实现了知识模型和知识库的匹配和智能预警,实现了大数据环境下突发事件网络舆情分析。

猜你喜欢
知识库结构化突发事件
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
基于图模型的通用半结构化数据检索
基于软信息的结构化转换
位置与方向测试题