基于大数据的灾情舆情分析与预警系统研究

2022-08-29 12:14刘晓辉邵开丽周凯祥

物联网技术 2022年8期

刘晓辉，邵开丽，周凯祥

（黄河科技学院，河南郑州 450009）

0 引言

互联网时代，每个人都拥有使用网络发表自己意见的权力。人们在网络中表达自己情绪和发表评论的渠道越来越多，也越来越复杂。而大多数人正是通过这些渠道来了解灾情信息。在复杂的环境下，如果一旦有人发表了背离灾情真实性的消息，就会误导网民，使灾情在传播过程中逐渐偏离其真实的轨道。因此，研究解决灾情在传播过程中的质量问题，有很大的使用和探索价值。

如何对灾情舆情产生的大数据进行分析和处理，并给出相应的预警，国内一些研究者对其进行了很多研究。王展、赵征鹏的研究中，对学校的舆情管理起到了关键作用。夏玲玲等的研究中，帮助政府和有关监管部门及时管理和掌握公众号的文章和评论内容，有助于提高社会稳定性。邝楚文的研究中，通过对大数据背景下数据挖掘技术面临的问题进行分析，设计了校内网络舆情监测系统。袁志远、徐怀超等的研究中，对舆情信息进行了多个维度的智能分析，提升了对舆情信息的分析能力。王政的研究中，精准、迅速的掌握和判断互联网舆情发展现状及未来发展走势，为构建和谐社会，打造良好的舆情生态环境和正能量意识形态打下了基础。黄迅、孙军梅的研究中，通过LSTM-CNN混合模型了解学生主要关注的热点，进而分析学生的思想。田煜的研究中，为网络热点事件得到控制和增强管控提供了技术支撑。朱琪的研究中，通过对数据的预处理，为数据去重、降噪，并利用数据分析方法实现了预警。陈刚、李弼程等的研究中，用威胁评估等方法构建预警系统模型。曾宇的研究提高了监测的准确率，增强了舆情的管控能力。

以上研究可分为三类：

（1）第一类只是对灾情数据的分析和分类进行了研究；

（2）第二类主要为系统的数据来源比较单一；

（3）第三类是系统的对象只针对政府和有关部门而设计，预警涉及面窄。

综合而言，这些研究针对基层网民的比较少，收集的舆情评论范围不够广泛，没能从根本上起到对网民的预警作用。网民是数据的产生者和传播者，如果系统能建立起与网民之间的联系，直接引导、纠正网民对灾情的评论与传播行为，从根本上解决舆情传播变质的问题，将大大减少灾情舆情的监控工作量。

1 基于大数据的灾情舆情采集流程

在网民普遍的时代，数据越来越多，出现了很多获取数据的手段。面对如此多的数据，可以用爬虫迅速获取需要的数据。爬虫选择需要爬取的网页，使用规定的规则，通过网页链接及源代码进行数据爬取，爬虫流程如图1所示。

图1 基于大数据的灾情舆情采集流程

本文针对网络信息的海量特性，将爬虫技术从功能上分为3个部分，分别为数据获取、数据处理、数据存储。

（1）数据获取是通过爬取网页的链接获取其中掺杂文本的源代码，然后对源代码进行解析，获得需要的舆情数据；

（2）数据处理是对获取的灾情舆情数据，利用自然语言处理技术进行处理；

（3）数据存储是将处理好的舆情数据自动存储到数据库中，方便后续流程使用数据。

2 舆情数据的分析与处理

为使获取的原始数据能够在系统中有效使用，需要对灾情舆情数据做进一步提取，并且对数据进行预处理，获取标准格式的数据，然后再对数据进行文本分析，得到不同类型的舆情数据。数据分析流程如图2所示。

图2 数据的分析流程

2.1 信息提取

爬虫爬取HTML页面的原始代码，找到代码中对应的成对标签。标签层层嵌套，在爬取时要选对标签，找到需要的信息后开始爬取。

2.2 数据预处理

由于爬取的数据并非标准数据，所以需要对数据进行预处理。数据预处理主要包括数据的清洗、集成、变换和规约。数据清洗是指去除噪声和部分无用数据。其中，噪声是数据随机产生的误差和方差，即obs=。数据集成是将多个数据源合并，最终变成一个大数据并存储。数据变换是将原数据转换成适合使用的数据。数据规约的主要方法一般为维度归约、离散化等。

2.3 文本分析

在得到标准格式的数据后需要进行文本分词和文本分类。文本分词一般基于词典分词或者基于语言模型分词。词典分词有英文分词，通常以空格分词。中文分词有3种匹配法，分别为正向最大匹配法、逆向最大匹配法和双向最大匹配法，这些方法基于词典匹配而成。基于语言模型的分词方法有很多，常用的是隐马尔可夫模型。文本分类方法包括K-最近邻、决策树、贝叶斯分类方法等。KNN是指找到个最近的测试样本，按照占比最多的类别，判断测试样本为该类，计算可由公式（1）实现，其中为奇数。

式中，=1, 2, ...,

在贝叶斯公式中，B被认为是导致试验结果发生的原因，而(B)(=1, 2, ...)是多种原因发生的概率，即先验概率；(B|)(=1, 2, ...)是当产生一个试验结果后，对其他原因进行新的概率分析，即后验概率。

3 基于大数据的灾情舆情分析与预警系统

3.1 系统总体框架

该系统由5层组成，分别为数据的采集层、处理层、提取层、应用层和用户交互层。系统的总体框架如图3所示。

图3 系统总体框架

数据采集层：主要功能是通过反爬虫、网页爬取、框架设计获取新闻、微博、微信、APP、短视频、评论等数据。

数据处理层：主要包含2个模块，分别为数据处理和聚类法分类。其中，数据处理主要是对采集的灾情舆情数据进行规范化处理，包括过滤去重、降噪、格式转换等处理方式。聚类法模块主要是对采集的数据进行简单分类。

数据提取层：从舆情采集模块中获取及时数据，形成不断更新的数据流，再通过舆情检索模块、舆情分析模块构建具有流动性数据的结构化数据库。结构化数据库采用分布式存储方法，分类存储不同类型的数据，为应用层的数据计算和数据分析提供大量不同类型的数据。

应用层：在数据提取层的基础上，借助舆情采集、检索、分析、预警4个模块，为预警系统构建简洁、方便、通俗易懂的可视化页面。

用户交互层：主要结合数据整合和文本处理与分析，判断用户发表的舆情言论是否准确，便于系统发挥对用户引导和预警的作用。校对信息来自数据提取层。

3.2 系统主要功能模块

该系统主要包含4个模块，分别是舆情采集、检索、分析和预警模块。系统主要功能模块如图4所示。

图4 系统主要功能模块

舆情采集模块：舆情采集主要是对系统涉及的舆情信息进行采集、收纳，并存入数据库。信息来源于不同网站，以及微博、微信、抖音等APP。

舆情检索模块：该部分主要将检索的网络舆情信息暂时储存，然后信息数据采集爬虫根据任务要求工作，并将结果存储到数据库中。

舆情分析模块：舆情分析主要完成对收集的灾情信息的分类，提取其中的重要信息，以及对用户评论的内容进行分析，最终构建结构化数据库，为后续预警打下基础。

舆情预警模块：预警模块主要根据结构化数据库对用户发表有关舆情的评论内容，进行真实性的监测与追踪，最终通过页面展示分析结果，达到预警目的。

3.3 灾情信息分类和预警分类标准展示

为提高系统的预警性能，需要对灾情信息进行分类并划出预警的标准，见表1所列。表中将灾难分为四大类，即自然灾难、人为灾难、技术性灾难、区域性灾难。预警等级为4个等级，每个等级都有相应的条件。在系统预警过程中，根据这些条件可以很好地实现对舆情走势的把控，预防劣质灾情信息传播。

表1 灾情信息分类与预警标准

4 结语

由于互联网数据飞速增长和舆情信息快速传播，使舆情分析难度增大。在应对网络舆情时要充分利用大数据技术，通过专业的技术分析可以很好地进行测评和评估，实现预警。该系统有助于及时、快速，并且准确地分析舆情走向，引导用户成为高质量的舆情传播者。