用户评论数据挖掘系统研究

2017-06-06 12:00邢煜东北石油大学
数码世界 2017年5期
关键词:数据挖掘聚类分类

邢煜 东北石油大学

用户评论数据挖掘系统研究

邢煜 东北石油大学

如今随着微博、微信、互联网等用户新媒体的飞速发展和扩大,收集整理网民们的各类意见在各个运营商和企业的眼中就显得愈发重要和必须了。当中便包括网民们的各类评论和意见收集挖掘。本文将就当前比较流行的几种数据挖掘研究系统进行介绍分析,比如通过词语的频度分析、评论的意义、研究分析手段及相关系统模块。

评论 数据挖掘 研究

1 用户评论数据挖掘系统的背景

在1996年,数据科学家Fayyad和Piatetsky-Shapior曾将数据挖掘进行定义:在大量的数据库中进行筛选、挖掘、探寻出崭新的、富有市场潜力的可以被人们所用的行为模块,并从中获得市场经济效益的过程。从字面理解,就是在数据中找到有用的可以为特定用户所用的东西,给企业的市场运作提供数据归纳分析,从而产生良好的经济成效。

2 用户评论数据挖掘系统的研究现状

谈到数据挖掘,和网络学习往往密不可分。例如分类、聚类、相关规则推荐、个性化推荐、预测系统、广度研究等。现如今,全世界正处于大数据时代,很多企业拥有数量庞大的数据,比如淘宝的消费数字、谷歌的搜索数据、微信掌握着人们的社交数据,其中分为可直接转化和不能的数据。此外,强大的处理数据的能力,即处理数据的工具也是不可缺少的。

3 用户评论数据挖掘系统的主要模式

3.1 传统模式和互联网时代模式

传统模式如图1所示。

互联网时代数据挖掘和传统模式有着巨大差异,如图2。

图1 传统数据挖掘模式

图2 互联网时代数据挖掘模式的差异

从图1和图2我们可以看出:第一、传统数据挖掘的数据分析全部来源于现有资源,而在互联网时代,将这来源繁杂多样的数据统一进行整理归纳便是其主要特点。这类数据能否顺利处理对于大部分的数据源的质量有着很大影响,而且这不单单是算法可以左右的。第二、传统数据的挖掘能力受计算机的处理能力很大,能够进行分析的数据不多。而在互联网时代的技术环境下,则能同时轻松实现大量数据的实时分析整理,其效率将大大超过抽样数据。第三、互联网数据依赖其优秀的数据处理能力和巨大的数据资源库,通过数据挖掘和相关专业算法找到其关联,并运用相关归纳和数据整理进行分析从而实现事件的妥善处理。

3.2 分类模式和聚类模式

分类简单来说,就是根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。聚类的理解则更为简单,就是在不知道数据会分为几类的情况下,通过聚类分析将数据或者说用户聚合成几个群体。聚类不需要对数据进行训练和学习。

比如以能同时使用这两种算法的电商作为例子。使用分类算法,依靠背后所拥有互联网资源,将网站浏览用户数据事先按照各类结构进行分类,之后再投入拥有丰富实操经验和专业知识水平的运营工作人员将从这些分类好的数据进一步的整理分析。如果企业能妥善的完成这一步,就能使自己的产品更准确的投放给目标群体,从而加快提升回收成本,能尽快获得更多利益。

完成分类这一步骤后,管理人员就要根据相关的即时使用数据来调整企业的商品生产策略。用户的每一次网络购物浏览行为,比如页面浏览、点击、评价等行为都将被企业详细的记录和挖掘,并使用专业的数据算法进行深层次的策略分析和调整,这样才能使企业对自己的目标用户的特征有更进一步的认识,并通过这些挖掘到的数据将用户分成不同的种类,将大大提升企业对客户的服务水平及客户对商品的满意率。从而使得企业的经济效益随之取得大幅度增长。

4 小结

随着互联网用户在使用各类新媒体时使用的评论和文本越来越偏向口语化和创作性强烈,使得传统的数据分析在日新月异的互联网浪潮中越来越难以发挥其作用。数据挖掘技术随着互联网时代的到来已经显现出更强大的功能特征,而它所蕴含的真正意义在于能从海量的数据库中挖掘出隐藏在其中的有用信息。掌握互联网时代下的数据挖掘原理,才能从乱花渐欲迷人眼的信息大潮中挖掘出真正有意义有价值的数据,只有紧随时代更新及时规划调整自身战略的企业才能保持强劲的竞争力,吸引消费者的眼光,在市场经济中取得一席之地。

[1]李建荣.基于数据挖掘的移动用户个性化推荐系统研究与设计[J].现代电子技术,2016(22):59-63

[2]吉顺权,周毅.产品用户评论在企业竞争情报中的应用——基于产品特征的关联规则数据挖掘[J].现代情报.2015(6):114-121

秦皇岛市科学技术研究与发展计划项目(201601B028),项目名称:秦皇岛市农业电子商务平台解决方案。

猜你喜欢
数据挖掘聚类分类
改进支持向量机在特征数据挖掘中的智能应用
分类算一算
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
数种基于SPSS统计工具的聚类算法效率对比
面向WSN的聚类头选举与维护协议的研究综述
改进K均值聚类算法
教你一招:数的分类
说说分类那些事
软件工程领域中的异常数据挖掘算法