基于数据挖掘的高校网络舆情分析系统设计与实现

2017-03-06 22:02陈艺卓
电子技术与软件工程 2016年23期
关键词:数据挖掘

摘 要

本文将数据挖掘技术引入舆情分析处理中,研究了网络舆情从信息收集到传播控制需要解决的重点问题,重点解决了分布式环境下海量数据的分析和处理难题,最终构建了基于数据挖掘的高校网络舆情分析系统。

【关键词】数据挖掘 高校网络 舆情系统

1 概述

目前计算机网络已经和学校的学习生活紧密的联系在了一起,在给高校师生带来便利的同时,也为高校的学生管理工作带来诸多挑战。目前在校的高校学生,年龄普遍不超过20岁,年纪小极容易受到网络上不良信息的影响,比如国际国内的新闻、社会热点、关乎切身利益的问题、失实或反动的舆论等等,这些信息会促使他们在网络上展开讨论,形成网络舆论,如果不及时进行干预,就可能引起严重的群体事件。

为了解决高校的这种困境,本文设计了一个基于数据挖掘的网络舆情分析系统,该系统采用分布并行方式采集数据,利用多线程、多任务分解处理海量数据,能够有效的对网络舆情进行预警和应对,一定程度上缓解了网络舆情带来的负面影响。

2 研究现状和意义

网络舆情监控平台主要是针对海量数据进行网络舆情分析。网络舆情分析一直都是数据挖掘研究的重点,目的是通过对海量网络数据进行挖掘,分析出隐藏在数据背后的舆情观点,核心的技术重点包括数据采集、文本分类、文本聚类、主题跟踪等。

文本分类这里重点关注的是中文的文本分类,随着研究的不断深入,中文文本分类领域提出了很多优秀的方法,如KNN算法、朴素Bayes算法、支持向量机(SVM)算法、决策树算法等,其中中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,号称当前世界上最好的中文文本分类工具。

文本聚类的目标是按照文本的相似度将文本进行聚合。文本聚类作为一种无监督的机器学习方法,不需要训练过程,不需要预先对文档进行标注,具有较高的灵活性和自动处理能力,成为组织文本信息、摘要的重要手段。文本聚类的算法非常多,有划分法、层次法、基于密度的方法等,其中划分法中的K-Means算法,在实现难度和计算速度方面都有不错的表现,尤其适合挖掘大数据集。

主题跟踪的目标是跟踪用户感兴趣的主题,在海量的信息里,找到属于该主题的内容。在主题跟踪中训练样本数、训练与分类的算法都是影响跟踪质量的重要因素。和文本分类问题类似,经典的KNN算法、SVM算法、决策树算法等都能够发挥很好的作用。

目前,随着核心技术的发展,网络舆情监控也得到了长足的发展,国内外已经开发出很多用于实际场景的商业平台,但由于高校舆情的特殊情况,使得这些成熟的商用系统并不能很好的在高校发挥作用。

3 基于数据挖掘的高校舆情分析系统设计与实现

为了验证系统的设计,测试系统的性能和效率,本文搭建的原型系统为:5台PC机组成分布式计算平台,操作系统选择Fedora,软件平台使用JDK1.6,云平台使用Hadoop。

舆情数据的来源主要源于论坛、微博、空间、新网网站等,采用API与网页抽取相结合的采集方法。采集到的数据并不能直接用于挖掘,这些数据是有噪声的、不完整的,数据预处理的工作就是将原始的数据进行提取、分离、合并,将其转换成适合进行数据挖掘的数据格式,保存到关系数据库表或数据仓库中。

数据分析部分是系统的核心,这部分采用MapReduce模型搭建。MapReduce是一种编程模型,用于大规模数据集的并行运算。网络舆情规模巨大、维度超高,如何降维、去噪就是文本聚类算法首先要解决的重要问题,聚类算法一般常用的算法有K-Means、 Canopy、BIRCH等,在本系统中为了解决数据量巨大的问题,首先使用了Canopy算法进行粗聚类,由于Canopy只用计算重叠部分的数据向量,所以能够大大的降低运算量,而且使用Canopy算法粗聚类后的聚类个数可以直接确定K-Means算法的K值,然后就可以使用K-Means算法进行进一步的聚类了,由于实现方便,而且K值已经比较准确,能够达到较好的聚类效果。将Canopy-Kmeans算法在MapReduce中加以实现,Map算法负责生成输出Canopy中心点集合,Reduce算法负责生成中心点和区域半径,最终由K-Means算法迭代调用Map和Reduce函数,具体过程如图1所示。

4 结束语

本文设计并实现了一个基于数据挖掘的高校网络舆情分析系统,系统采用分布式文件系统存储数据,结合云计算技术,保证了系统的执行效率和稳定性,通过话题发现和舆情分析跟踪,及时监控和正确引导网络舆情,对高校学生管理工作起到重要帮助。

参考文献

[1]董坚峰.面向公共危机预警的网络舆情分析研究[D].武汉:武汉大学,2013.

[2] 陈艺卓. Web日志挖掘中数据预处理的研究[J].信息与电脑:理论版,2011(02):94-94.

[3] 吴明友. 校园网络舆情的应对策略分析[J].中国教育信息化,2008(24).

[4]李琼,张菁,马素伟.微时代高校网络舆情应对路径研究[J].青少年研究(山东省团校学报),2014(01).

[5]陈艺卓.基于数据挖掘的舆情观点挖掘研究[J].电子技术与软件工程,2015(14).

作者简介

陳艺卓,男,副教授,现为海南软件职业技术学院教师。主要研究方向为数据挖掘,云计算。

作者单位

海南软件职业技术学院 海南省琼海市 571400

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议