基于大数据的灾情舆情分析与预警系统研究

2022-08-29 12:14刘晓辉邵开丽周凯祥
物联网技术 2022年8期
关键词:爬虫灾情分词

刘晓辉,邵开丽,周凯祥

(黄河科技学院,河南 郑州 450009)

0 引 言

互联网时代,每个人都拥有使用网络发表自己意见的权力。人们在网络中表达自己情绪和发表评论的渠道越来越多,也越来越复杂。而大多数人正是通过这些渠道来了解灾情信息。在复杂的环境下,如果一旦有人发表了背离灾情真实性的消息,就会误导网民,使灾情在传播过程中逐渐偏离其真实的轨道。因此,研究解决灾情在传播过程中的质量问题,有很大的使用和探索价值。

如何对灾情舆情产生的大数据进行分析和处理,并给出相应的预警,国内一些研究者对其进行了很多研究。王展、赵征鹏的研究中,对学校的舆情管理起到了关键作用。夏玲玲等的研究中,帮助政府和有关监管部门及时管理和掌握公众号的文章和评论内容,有助于提高社会稳定性。邝楚文的研究中,通过对大数据背景下数据挖掘技术面临的问题进行分析,设计了校内网络舆情监测系统。袁志远、徐怀超等的研究中,对舆情信息进行了多个维度的智能分析,提升了对舆情信息的分析能力。王政的研究中,精准、迅速的掌握和判断互联网舆情发展现状及未来发展走势,为构建和谐社会,打造良好的舆情生态环境和正能量意识形态打下了基础。黄迅、孙军梅的研究中,通过LSTM-CNN混合模型了解学生主要关注的热点,进而分析学生的思想。田煜的研究中,为网络热点事件得到控制和增强管控提供了技术支撑。朱琪的研究中,通过对数据的预处理,为数据去重、降噪,并利用数据分析方法实现了预警。陈刚、李弼程等的研究中,用威胁评估等方法构建预警系统模型。曾宇的研究提高了监测的准确率,增强了舆情的管控能力。

以上研究可分为三类:

(1)第一类只是对灾情数据的分析和分类进行了研究;

(2)第二类主要为系统的数据来源比较单一;

(3)第三类是系统的对象只针对政府和有关部门而设计,预警涉及面窄。

综合而言,这些研究针对基层网民的比较少,收集的舆情评论范围不够广泛,没能从根本上起到对网民的预警作用。网民是数据的产生者和传播者,如果系统能建立起与网民之间的联系,直接引导、纠正网民对灾情的评论与传播行为,从根本上解决舆情传播变质的问题,将大大减少灾情舆情的监控工作量。

1 基于大数据的灾情舆情采集流程

在网民普遍的时代,数据越来越多,出现了很多获取数据的手段。面对如此多的数据,可以用爬虫迅速获取需要的数据。爬虫选择需要爬取的网页,使用规定的规则,通过网页链接及源代码进行数据爬取,爬虫流程如图1所示。

图1 基于大数据的灾情舆情采集流程

本文针对网络信息的海量特性,将爬虫技术从功能上分为3个部分,分别为数据获取、数据处理、数据存储。

(1)数据获取是通过爬取网页的链接获取其中掺杂文本的源代码,然后对源代码进行解析,获得需要的舆情数据;

(2)数据处理是对获取的灾情舆情数据,利用自然语言处理技术进行处理;

(3)数据存储是将处理好的舆情数据自动存储到数据库中,方便后续流程使用数据。

2 舆情数据的分析与处理

为使获取的原始数据能够在系统中有效使用,需要对灾情舆情数据做进一步提取,并且对数据进行预处理,获取标准格式的数据,然后再对数据进行文本分析,得到不同类型的舆情数据。数据分析流程如图2所示。

图2 数据的分析流程

2.1 信息提取

爬虫爬取HTML页面的原始代码,找到代码中对应的成对标签。标签层层嵌套,在爬取时要选对标签,找到需要的信息后开始爬取。

2.2 数据预处理

由于爬取的数据并非标准数据,所以需要对数据进行预处理。数据预处理主要包括数据的清洗、集成、变换和规约。数据清洗是指去除噪声和部分无用数据。其中,噪声是数据随机产生的误差和方差,即obs=。数据集成是将多个数据源合并,最终变成一个大数据并存储。数据变换是将原数据转换成适合使用的数据。数据规约的主要方法一般为维度归约、离散化等。

2.3 文本分析

在得到标准格式的数据后需要进行文本分词和文本分类。文本分词一般基于词典分词或者基于语言模型分词。词典分词有英文分词,通常以空格分词。中文分词有3种匹配法,分别为正向最大匹配法、逆向最大匹配法和双向最大匹配法,这些方法基于词典匹配而成。基于语言模型的分词方法有很多,常用的是隐马尔可夫模型。文本分类方法包括K-最近邻、决策树、贝叶斯分类方法等。KNN是指找到个最近的测试样本,按照占比最多的类别,判断测试样本为该类,计算可由公式(1)实现,其中为奇数。

式中,=1, 2, ...,

在贝叶斯公式中,B被认为是导致试验结果发生的原因,而(B)(=1, 2, ...)是多种原因发生的概率,即先验概率;(B|)(=1, 2, ...)是当产生一个试验结果后,对其他原因进行新的概率分析,即后验概率。

3 基于大数据的灾情舆情分析与预警系统

3.1 系统总体框架

该系统由5层组成,分别为数据的采集层、处理层、提取层、应用层和用户交互层。系统的总体框架如图3所示。

图3 系统总体框架

数据采集层:主要功能是通过反爬虫、网页爬取、框架设计获取新闻、微博、微信、APP、短视频、评论等数据。

数据处理层:主要包含2个模块,分别为数据处理和聚类法分类。其中,数据处理主要是对采集的灾情舆情数据进行规范化处理,包括过滤去重、降噪、格式转换等处理方式。聚类法模块主要是对采集的数据进行简单分类。

数据提取层:从舆情采集模块中获取及时数据,形成不断更新的数据流,再通过舆情检索模块、舆情分析模块构建具有流动性数据的结构化数据库。结构化数据库采用分布式存储方法,分类存储不同类型的数据,为应用层的数据计算和数据分析提供大量不同类型的数据。

应用层:在数据提取层的基础上,借助舆情采集、检索、分析、预警4个模块,为预警系统构建简洁、方便、通俗易懂的可视化页面。

用户交互层:主要结合数据整合和文本处理与分析,判断用户发表的舆情言论是否准确,便于系统发挥对用户引导和预警的作用。校对信息来自数据提取层。

3.2 系统主要功能模块

该系统主要包含4个模块,分别是舆情采集、检索、分析和预警模块。系统主要功能模块如图4所示。

图4 系统主要功能模块

舆情采集模块:舆情采集主要是对系统涉及的舆情信息进行采集、收纳,并存入数据库。信息来源于不同网站,以及微博、微信、抖音等APP。

舆情检索模块:该部分主要将检索的网络舆情信息暂时储存,然后信息数据采集爬虫根据任务要求工作,并将结果存储到数据库中。

舆情分析模块:舆情分析主要完成对收集的灾情信息的分类,提取其中的重要信息,以及对用户评论的内容进行分析,最终构建结构化数据库,为后续预警打下基础。

舆情预警模块:预警模块主要根据结构化数据库对用户发表有关舆情的评论内容,进行真实性的监测与追踪,最终通过页面展示分析结果,达到预警目的。

3.3 灾情信息分类和预警分类标准展示

为提高系统的预警性能,需要对灾情信息进行分类并划出预警的标准,见表1所列。表中将灾难分为四大类,即自然灾难、人为灾难、技术性灾难、区域性灾难。预警等级为4个等级,每个等级都有相应的条件。在系统预警过程中,根据这些条件可以很好地实现对舆情走势的把控,预防劣质灾情信息传播。

表1 灾情信息分类与预警标准

4 结 语

由于互联网数据飞速增长和舆情信息快速传播,使舆情分析难度增大。在应对网络舆情时要充分利用大数据技术,通过专业的技术分析可以很好地进行测评和评估,实现预警。该系统有助于及时、快速,并且准确地分析舆情走向,引导用户成为高质量的舆情传播者。

猜你喜欢
爬虫灾情分词
利用网络爬虫技术验证房地产灰犀牛之说
2022年6月全球灾情
2021年12月全球灾情
长庆油田:灾情就是命令
基于Python的网络爬虫和反爬虫技术研究
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
利用爬虫技术的Geo-Gnutel la VANET流量采集
大数据环境下基于python的网络爬虫技术