Web舆情信息数据分析模型研究及系统设计

2018-03-21 09:27王朝霞姜军冯炎
电脑知识与技术 2018年3期
关键词:文本分类数据挖掘

王朝霞 姜军 冯炎

摘要:面对海量Web舆情信息数据资源,在前期探索其演化规律及影响因素研究基础上,该文对Web舆情信息数据进行了特征分析,结构化定义,设计了Web数据分析系统框架,并深入了相关技术研究,为把握Web数据发展态势,科学管理互联网数据信息提供了可行性依据。

关键词:Web数据;数据挖掘;文本分类;文本聚类

中图分类号:G206 文献标识码:A 文章编号:1009-3044(2018)03-0022-03

1 概述

互联网及相关技术地快速发展,产生了海量的网络数据信息,面对千变万化的网络数据资源,单纯采用传统的手工检索、收集、分析、处理方法,已经无法满足网络数据管理需求。本文在已有的网络信息演化阶段、影响因素等研究基础上[1],构建了网络数据模型,设计了网络数据分析系统框架,并研究了技术路线,为快速抽取网络数据信息,有效把握其发展态势,方便实现科学管理提供了可行性依据。

2 相关研究述评

饶元等Web数据网络分析主要从社区网络分析、整体网络分析和个体网络中心开始,主要采用数据网络分析手段、方法来解决系统分析的主要问题[2]。庞宇提出了网络数据的特点及主要载体[3]。郑琳提出了Web用户评论中同阶层人群的“抱团取暖”行为[4]。厚泽民等提出了基于潜在语义索引的改进算法[5]。安计勇等提出了改进的K均值文本聚类算法[6]。

3 Web数据模型研究

3.1 Web数据特征分析

Web数据来源于互联网,具备发布随意、形式多样、表达自由等特点,使得特征分析结果冗余度高,离散效果明显,准确度差,难以科学把握其数据挖掘过程和结果分析。因此,对Web数据文本开展有效地预处理,去伪存真,消除冗余和关联数据,是确保Web数据挖掘质量的关键所在,也是进一步开展数据分析、聚类研究的前提。

Web数据来源于互联网,在网民作用力下随着互联网信息的演化、影响因素的制约和内驱力作用呈现出沿时间轴发展的趋势,Web数据具备以下几个关键特征:

1) Web数据所在文本数量规模大。据中国互联网网络信息中心统计报告,广大网民借助在线博客、微信、论坛、微博等社交工具开展社交讨论。这是Web数据的广泛来源。

2) Web数据涉及面广,内容复杂。Web数据几乎涵盖了政治、经济、文化、军事、科技、艺术、医疗、生态、环保、养老、就业等所有重要领域,还包含了区域特点、风土人情及民众生活的方方面面及社会百态。

3) 广告信息多,真假难辨。非官方的Web页面多数存在大量的广告信息,以及不实信息帖子等,与Web数据主题无关,需要对数据进行噪声预处理,其质量高低直接影响文本挖掘和数据分析结果。

4) Web数据分布的不均衡。Web用户网上行为(发帖偏好、发帖时间、发帖内容、发帖主题、态度观点等)的不确定性、选择载体的不确定性等因素决定了Web数据的分布不均。如:天涯论坛大多讨论社会百态,铁血论坛主要针对军事领域,小木虫论坛科研技术数据居多。不同网民围绕各自的兴趣倾向访问不同Web页面,衍生出一系列的评论、转帖、顶帖等行为数据。

5) Web用户存在情绪倾向、行为偏好等个性特征。Web用户大多数属于普通用户,十分关注生活所用、工作所需以及与自身利益相关的就业、环保、退休养老等热点话题,个人情绪及行为偏好等相关数据在所难免地存在与Web数据中。

3.2 Web数据结构化模型定义

在掌握Web数据结构特征前提下,为了充分挖掘Web数据,并能为数据分析、数据处理所用,本文对Web数据结构化定义如下:

1) Web用户主体结构化模型定义

Web用户作为互联网的主体对象,多数情况需要信息注册后才能获得浏览内容、回复评论及下载资料等行为允许。对Web用户而言,不仅在互联网产生静态数据结构信息,同时产生了动态操作行为、操作内容以及和其他Web用户之间建立的关联关系等社会网络信息。因此,本文对Web用户主体结构化模型定义包含三方面内容:一是Web用户静态属性信息,如:用户名、性别、年龄、住址、URL、活跃等级、社会阶层、社会影响力、社会知名度、学历、收入、教育经历、工作经历、个人简介、注册日期、个性标签等;二是Web用户动态属性信息,发表文章数、回复帖子数、Web页面浏览爱好、在线时长、关注数、支持数、粉丝数、反对数、评论数、推荐数、情绪倾向、行为偏好、最后登录时间等;三是行为关联文本信息,如:标题、领域类别、文本内容等;四是用户关联关系信息,如:关注我的Web用户、被我关注的Web用户,关系属性等。其模型描述如图1所示:

2) Web数据文本结构化模型定义

众所周知,Web页面的数据文本内容,本身就包含自身存在的静态文本对象内容和动态加载的新闻内容,除此之外,还包含了不同的Web用户参与回复、评论行为等动态描述内容。由于Web页面信息多、内容复杂等特征,为达到噪声预处理成效,提高内容挖掘质量,方便文本分類或聚类操作,本文对Web页面数据属性进行了抽象化描述。综上,Web数据文本结构化模型定义包含四反面的内容:一是Web页面文本的静态属性,如:URL、标题、内容、标签、发表时间、作者、领域;二是Web页面文本的动态属性,如:回复内容、回复话题、回复时间、回复情感等;三是Web页面文本的抽象属性,如:特征词、特征向量、聚类主题、表达情感、现实意义等;四是用户关联关系信息属性,如:收藏者、推荐者、转载者或回复者等用户关系及用户情感等。其模型描述如下:

4 Web数据分析系统设计

4.1 Web数据分析系统框架

Web数据分析系统的基本原理为根据管理员需求收集特定主题新闻或消息(即与Web页面相关文本信息)并进行文本内容预处理(净化网页噪声、特定文本分词、相关词频统计、文本特征选择、文本特征提取算法等),然后将预处理文本结果入库,利用挖掘算法开展数据分析,最终反馈出热点搜索信息及其跟踪事件等。本系统设计框架如图3。

4.2 子模块功能设计及技术分析

4.2.1 输入输出层

输入层主要指论坛社区、博客、新闻网页、微博、微信、搜索引擎等载体信息和相关数据源。数据源是指根据系统管理员需求所需要收集的相关数据信息,主要的信息采集范围包括Web新闻页面,互联网信息及传媒信息等。随着互联网用户的突增猛涨,网络媒体已经滋生了与广大Web用户息息相关的重要信息平台,如微信、微博、论坛、政府官方门户网站等,人们可以从中获取娱乐、生产、科研、消费、生活、社交等重要价值意义信息。

输出层主要指系统前端展示,主要提供满足管理员需求的一系列数据处理结果信息,如相关新闻排行榜、热点话题统计信息、关键词统计、情感倾向性和行为倾向性统计、数据统计报告自动生成和统计结果可视化展示等。

4.2.2 业务处理及扩展层

1) 数据采集及预处理

如果互联网是一张大图,那么网页就是互联网上一个个节点,不同网页的链接关系则是链接节点的一条条边,Web页面数据采集就是以一个网页为中心出发点,根据图论的遍历方法自动获取其他页面,形象地称为网络爬虫,网络爬虫技术会通过采集模块收集和返回页面文档中有价值的信息并保存到缓冲区,将缓冲区数据进行预处理后保存到数据库。Web数据的数据采集主要通过网页之间的链接关系,获取网页资源源码及其定位,并根据链接朝整个网络方向扩散。Web数据分析系统根据用户提出的用户检索需求,设定关键词、主题及其关注关系目标,使用信息自动采集和人工干预相结合的方法完成Web数据采集任务。对于已经定位的网络资源,首先判断抽取出的内容是否已经保存到历史数据库中,如果数据库中已经存在,并且数据库中保存的资源没有变化,则采用内容去重方法忽略该资源开展下一个资源收集工作。如果数据库中不存在该资源,则按照文本分类方法存储到固定数据库模块中。

Web数据预处理任务是:将采集的网络页面进行数据清洗,分词,分类,并形成新的格式化数据存储到数据库中。Web数据预处理是Web数据分析系统的技术准备及数据准备阶段,主要对新收集的文本正文信息等进行预处理,如网页格式转换、重要信息过滤。对于新闻评论等内容,滤除无关信息,保留用户名、性别、年龄、住址、URL、活跃等级、社会阶层等Web用户主体结构化和URL、标题、内容、标签、发表时间、作者、领域等Web数据文本结构化内容。

2) 数据处理

Web数据处理主要包括数据入库、网页快照、附件存储等相关操作。Web数据入库主要是将Web用户主体结构化信息和Web数据文本结构化信息保存到数据库中。数据库操作只要包括算法知识库、数据收集知识库、向量特征库及语义分析库等。

3) 数据语义分析

主要针对Web数据预处理模块所得数据进行数据挖掘,主要采用内容分析、模式识别、自动摘要、文本聚类、主题检索与跟踪、情感倾向识别、趋势分析等相关技术。该模块是Web数据分析系统的核心模块,是热点跟踪、科学发现功能的技术关键所在。

在系统实现过程,网页信息分析方法建构在向量空间模型理论基础上,采用当前比较成熟的文本聚类、文本分类等数据挖掘技术。在信息处理过程,将多种数据挖掘算法有机结合在一起,进行可定制和可选择的算法组织形式,对Web数据信息进行分析和挖掘,这就保证系统能根据管理员和实际应用需要,进行策略调整和优化,确保系统运行能达到最佳状态。

4.2.3 相关技术分析

文本聚类:文本聚类是指将一组文本和文章信息开展相似性比较,比较结果相似的文本和文章归为相同组的技术。聚类事先没有约定类别数确定的类别,聚类不需要人工标注分类器。

文本分类:分类是事先定义好类别数固定的类别,采取分类器将把人工标注的预料训练而得,属于指导性学习,文本分类技术是数据挖掘的重要技术。

内容分析法:内容分析法让研究者采用间接方式对人类行为开展研究。研究者通过直接或间接方式获得相关信息,也可以通过书籍或网络媒介得到。内容分析法不受时空干扰,可以研究文献记录或历史文档钻研,了解當前社会状况。内容分析法节时节源,缺点是重视资料次数,忽略了易被忽略和少数内容。

模式识别:就是采用计算机用数学方法研究模式判读和自动处理。模式识别对现象和表征事物开展形式化的信息分析及处理技术(如文字的、逻辑的和数值的)。对现象或事件开展描述、辨认、解释、分析等过程,是人工智能和信息科学组成部分。

自动摘要:就是自动利用计算机从原始文本自动提取文摘,文摘就是按照自动摘要将文本简单连贯的短文。常用方法就是将文本作为句子自动摘要成线性序列。

主题检测与跟踪:就是在传统检测话题基础上,从社会话题监测和突发性检测基础上与跟踪方法同时分析,最好展望跟踪方法及检测话题的发展趋势。

情感倾向识别:主要针对Web用户评论等主观性情感及看法急剧增长,已分析判断威胁和数据发展态势为目的数据分析系统,得到广大Web用户数据分析崛起,成为职能分析的核心技术之一。

趋势分析:就是数据达到的效果,与财务报表的在不同时期的指标数据开展比较,从而确定现金流量、经营成果、财务状况的变化趋势和规律的数据分析方法。

5 结束语及展望

互联网存在的海量Web数据,本文进行了结构化定义、特征分析,设计了基于Web数据分析系统框架,同时对技术有所研究,下一步需要进行详细地编码实现。

参考文献:

[1] 王朝霞,姜军,高红梅,等.Web数据“蝴蝶效应”的预警机制研究——以群体性突发事件为例[J].新闻界,2015(16):59-64.

[2] 饶元,冯妮,宋明爽,员鹏,等.数据分析—基于内容与结构的网络舆情分析报告(2015)[M].电子工业出版社, 2015:10-15.

[3] 庞宇.Web数据事件预防与应对[M].中国法制出版社,15-26.

[4] 郑琳.首席数据官:2013-2014Web数据响应百例[M].电子工业出版社,2014:280-290.

[5] 侯泽民.一种改进的基于潜在语义索引的文本聚类算法[J].计算机与现代化,2014(7):24-27.

[6] 安计勇,高贵阁,史志强, 等.一种改进的K均值文本聚类算法[J].传感器与微系统,2015,5(34):131-133.

猜你喜欢
文本分类数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于组合分类算法的源代码注释质量评估方法
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究