数据挖掘应用和优化的研究

2017-04-25 13:26崔嘉
电子设计工程 2017年8期
关键词:数据源数据挖掘可视化

崔嘉

(海军航空工程学院 山东 烟台 264001)

数据挖掘应用和优化的研究

崔嘉

(海军航空工程学院 山东 烟台 264001)

针对数据挖掘技术从数据源中挖掘出潜在的、有价值的知识,对科学决策和分析问题具有非常重要的意义。通过对聚类算法进行分析,结合可视化技术,利用网格与聚类算法相结合,进行二次聚类处理,提高数据挖掘的工作效率。本文对于智能研究人员具有积极的作用。

数据挖掘;优化;可视化;聚类分析

随着网络和计算机技术的不断提高,各行各业对于数据的运用越来越广泛,促使了信息化程度的日益提高[1]。大量的数据给人们的决策提供了丰富的原始资料,但数据集中存在着数量众多的冗余数据,如何提取有用的数据形成知识给人们使用,促使了数据挖掘技术的不断发展。可视化技术是将计算机图像处理技术、图形学、辅助设计、人机交互和计算机视觉等多个学科相结合的一门学科,随着可视化技术发展的需要,数据挖掘技术与可视化技术相结合是发展数据可视化的有效手段[2]。

1 数据挖掘技术

1.1 数据挖掘概念

1)数据挖掘定义

数据挖掘从20世纪70年代提出以来,就受到了IT业界的欢迎,特别是20世纪末期,随着计算机技术和网络技术的迅速发展,信息化处理受到人们越来越多的关注,为了更加准确地获取数据,数据挖掘与其他行业的结合越来越广泛[3]。

数据挖掘是对拥有海量的、模糊的、有噪声的、随机的及不完全的数据源中通过特有的运算提取出潜在的、事先不知的知识过程。其中数据源不一定来自同一位置或同一出处[4];提取出的知识能够被人或计算机识别。

2)数据挖掘过程

数据挖掘经过多年的不断发展,国内外专家和学者提出和设计了大量的算法,无论哪种算法,其过程基本上是相近的。整个过程分为数据准备、数据挖掘和结果表达3个阶段,具体如图1所示[5-6]:

在数据准备阶段,是通过数据集成和选择等操作将数据源中杂乱的、无序的或不可识别的数据转换为计算机可识别的目标数据;在数据挖掘阶段,通过预处理数据,挖掘出有用的数据信息;结果表示阶段是将预处理后的数据以知识表现的形式展示出来。

3)数据挖掘功能

数据挖掘与其他应用性行业相结合,具有了丰富的功能,其实现的算法过程差距非常大,数据挖掘问题主要有数据统计与概括、分类分析、聚类分析、关联分析、依赖分析、演变分析和孤立点分析等几个类别[7]。

图1 数据挖掘过程

数据挖掘的功能主要分为预测验证功能和描述功能,其中预测验证功能主要是预判数据的属性和规律;描述功能是对数据理解的展开[8]。功能如图2所示。

图2 数据挖掘功能

1.2 聚类分析

1)聚类分析定义

聚类分析是数据挖掘技术之一,将数据源中的数据对象划分为若干个不同的簇(集合),通过算法对簇进行分类,使得同一类簇中的数据的相似性尽可能地大,而不在同一类簇中的数据的相似性尽可能地小,这现类簇之间的差异化[9]。

2)聚类分析算法

根据聚类分析方法中选取的数据目标、应用范围和数据类型的不同,聚类分析主要分为基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法、基于模型的聚类算法和基于网络的聚类算法[10-11]。

2 可视化技术

2.1 数据可视化

数据挖掘对数据源进行处理之后获取知识,知识只有被人们识别才能够称得上有效数据,数据可视化技术就是运用数据图形图像学及相关的处理技术,将数据转换成图形图像并在输出设备上显示或打印出来,是人机交互的直观表现[12]。

当前,数据的可视化的形式比较多,无论哪种形式的图形图像都是为了迎合人们实际工作的需求,本文对当前的可视化形式进行总结,主要有以下几种:

1)离散点图

该方式是将数据以点的直观形式分布在图上,便于直观地查看孤立点数据和噪音数据,特别适合于二维或三维数据,对于多维的数据,可以通过显示部分维度或离散点矩阵的方式来实现[13]。

2)饱和图

当显示的数据量特别大时,人们无法通过离散点图观察出数据的疏密程度,甚至看到整个图形都是同一个颜色。在这种情况下,利用屏幕的色彩对密度不同的区域通过不同的色彩来进行区分,进而实现数据分布的直观表现。

3)平行坐标系法

对于多维的数据采用相应的平等线进行表示,例如维度为100,就用100个平行线来表示,每个属性点的值代表该维度的值,该方法虽然比较直观明了,但缺点是维度的数量必须确定且不能太多。

4)多角度巡视

通过对特定的数据进行多角度的分析,通过连续的变换线形,并且通过不同的角度动态地显示出来,便于更好地观察和分析该数据。

2.2 过程和模型可视化

一般来说,结果是静态的,过程是动态的,对过程可视化操作,需要在过程在运算的过程中给用户提供大量的数据信息,使用户可以直观地看到数据挖掘的过程[14]。

对于模型的可视化,主要是应用在专家领域,普通的用户对模型的关注度不高,不过随着社会的不断发展,模型的完美展示,更有利于用户对产品或数据的理解。模型的可视化可以通过结构输入量的变化来观察输出,进而得到更优的效果。

3 多维网格聚类的可视化方案

3.1 扩展的多维网格聚类算法

1)算法原理

设一组样本X{x1,x2,…,xn},对于每个样本xi都有一个对应的m个属性的属性集A{ai1,ai2,…,aim}。

用网络计算的方法通过一个多维的立方体将所有的样本全部包含,对网格中的样本进行聚类操作,得到聚类的结果,通过二维的离散点图进行表示[15]。

2)构建网格空间

网络空间设置成为一个多维的立方体,用公式(1)表示。

其中m表示维度,max表示各个维度的最大值,min表示各个维度的最小值,DIV表示各个维度的分割线。三维的网格空间样本点分布如图3所示。

图3 三维网络样本分布

3)扩展原始样本并分类至网格

由于原始的样本进行初步的分类分配给对应的网格,因此应该对原始样本的维进行扩充处理,对样本进行扫描时,发现某个样本属于某个网格,则该网格的密度进行加1操作。

4)利用聚类算法对网格聚类

所有的样本已经分类完毕,接下来,将生成的k个网格进行聚类操作,其方法同上,根据原始样本与网格的映射关系,输出原始样本的聚类结果。

3.2 算法实现

聚类算法是数据挖掘中重要的一种算法,已经广泛应用于众多领域,本文在此给出聚类算法的核心代码,具体如下:

4 结 论

文中对数据挖掘的应用和优用展开研究,聚类算法是当前数据挖掘中应用比较广泛的一种算法,首先对数据挖掘的定义、过程和功能进行全面的分析研究;其次对可视化技术进行了描述;最后给出了多维网格聚类的可视化方案,并给出了部分核心代码。

[1]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004.

[2]刘海林,华程.数据挖掘在网络优化平台中的应用策略研究[J].电信快报:网络与通信,2015(12):16-18.

[3]方宏斌.模糊聚类及其实际应用[J].广东通信技术,2008(5):9-13.

[4]张玉英,分析数据挖掘在网络优化中的应用[J].电子技术与软件工程,2015(12):201-202.

[5]韩振东,蔡子龙,程晓军.基于用户行为数据挖掘的网络质量优化[J].数据通信,2012(1):36-39.

[6]韩茂,邱崧,李外云.基于数据挖掘的测试工程数据整合分析平台 [J].电子设计工程,2015(11):105-109.

[7]刘静.数据挖掘技术在教务管理实践中的应用研究[J].电子设计工程,2014(24):1-3.

[8]马保平.关于对软件工程中的数据挖掘技术的探讨[J].电子技术与软件工程,2015(19):196-197.

[9]王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考[J].中国电子科学研究院学报,2013(1):8-17.

[10]程苗.基于云计算的Web数据挖掘[J].计算机科学,2011(B10):146-149.

[11]陈开,黄明和,但宝平.浅析数据挖掘在CRM中的应用[J].中国电子商务,2013(2):65-66.

[12]贾辉.浅谈数据挖掘技术在图书馆中的应用[J].经济研究导刊,2012(27):241-242.

[13]谭英丽,郭峰.数据挖掘在电子商务中的应用研究[J].价值工程,2011(22):165-166.

[14]付光.可视化原理及应用中的可视化数据挖掘[J].广西教育,2011(24):125-127.

[15]韩振东,蔡子龙,程晓军.基于用户行为数据挖掘的网络质量优化[J].数据通信,2012(1):36-39.

Research on application and optimization of data mining

CUI Jia
(Naval Aeronautical and Astronautical University,Yantai 264001,China)

Mining potential and valuable knowledge for data mining technology is very important to scientific decision making and analysis.Through the analysis of the clustering algorithm,combined with visualization technology,the use of grid and clustering algorithm,the two clustering processing,improve the efficiency of data mining.This paper has a positive effect on the intelligent researchers.

data mining;optimization;visualization;cluster analysis

TN03

:A

:1674-6236(2017)08-0024-03

2016-04-05稿件编号:201604031

崔 嘉(1982—),男,山东滨州人,硕士研究生,讲师。研究方向:物联网应用技术、装备管理信息化、信息安全。

猜你喜欢
数据源数据挖掘可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
探讨人工智能与数据挖掘发展趋势
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
Web 大数据系统数据源选择*
基于并行计算的大数据挖掘在电网中的应用
基于不同网络数据源的期刊评价研究
一种基于Hadoop的大数据挖掘云服务及应用
基于真值发现的冲突数据源质量评价算法