面向大规模数据库的数据挖掘系统的设计

2010-08-15 00:52
科技传播 2010年7期
关键词:数据类型数据挖掘聚类

张 毅

四川省宜宾市第一人民医院网络中心,四川宜宾 644000

1 数据挖掘的概念和分类分析

1.1 数据挖掘的概念

数据挖掘系统是信息化自然进化的结果,在信息科技时代,随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息。信息中包含大量的数据,如何从大量的数据中获取有用的知识是我们面临的一个重要而且紧迫的课题。数据挖掘技术正是从这样的商业角度出发孕育而生的。 简单的说,数据挖掘就是从大量数据中提取或挖掘知识。数据挖掘步骤可以与用户或知识库交互的平台。

1.2 数据挖掘数据库的类型分类

数据挖掘系统可以根据挖掘的数据类型分类。数据库系统本身可以根据不同的标准分类,每一类可以需要自己的数据挖掘技术,这样就可以根据数据类型分类。

2 Golden-Eye系统简介

数据挖掘融 合了数据库技术,人工智能和统计学是目前的研究热点、为了能够集成当前数据挖掘的主要技术并使它们协同工作,在进行数据挖掘基本算法研究的基础上研制开发了一个数据挖掘系统-Golden-Eye-系统实现了数据控制研究中的一些 最新成果,集成了泛化、数据清洗这两个数据准备操作以及关联规则发现,例外规则发现、时序模 式发现、分类器构造、聚类分析等基本数据挖掘操作,并实现了对挖掘操作的基本管理和结果和图形化显示,整个框架设计充分体现了系统的完整性、协调性和高效性;自底向上将存储控 制模块、数据预处理模块、挖掘操作模块、挖掘库管理模块有机地结合在一起,在底层实现了对包括中间结果在内的数据的统一管理,在上层为用户提供了可视化的界面,实验结果表明,该系统 能够在大规模数据库上成功地完成用户所指定的数据挖掘操作。

3 Golden-Eye系统的特点

集成了泛化、数据清洗、关联规则发现、时序模式(sequential pattern)发现、分类、聚类等多种基本数据挖掘操作。

集成了一些新的操作和新的算法,比如改进的DBSCAN聚类算法以及例外规则发现、数据清洗、类别属性(categorical attribute)聚类这些数据挖掘领域里较新的操作。

能处理大规模的数据级,测试的最大记录数目达到了10000000条以上。

在系统框架的设计上充分考虑到了系统的完整性、协调性和高效性。

4 Golden-Eye系统的展望

我们开发的数据挖掘系统Golden-Eye成功地集成了数据挖掘和数据准备的几个方面的功能。从结构上看,系统利用挖掘库将各个挖掘操作松散且一致地结合起来,便于扩充新的挖掘操作模块;从功能上看,我们集成了一些新兴的数据挖掘操作;从实现上看,我们实现了一些自创或者经过改进的算法。

当然,本系统还存在着一些不足之处。首先,对各挖掘操作的集成还不够紧密,挖掘操作只能简单地按顺序进行;其次,系统并未考虑与DBMS和OLAP工具的集成。

我们还需要在以下几个方面做更多的工作:

1)集成简单的数据库操作和数据仓库操作;

2)更紧密地集成各个数据挖掘操作;

3)在现有平台的基础上开发新的挖掘操作。

5 数据挖掘未来研究方向

当前,数据挖掘研究方兴未艾,,其研究与开发的总体水平相当于数据库技术在90年代所处的地位,迫切需要类似于关系模式,数据系统和SQL查询语言等理论和方法的指导,才 能使数据挖掘的应用得以普遍推广。预计在本世纪,数据挖掘的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:

发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;

寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;

研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现分布式数据采掘;

加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文本数据,图形数据,视频图像数据,声音数据乃至综合多媒体数据的开采;

处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。

6 结论

需求牵引与市场推动是永恒的,将首先满足信息时代用户的急需,大量的基于数据挖掘的决策支持软件产品将会问世。只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务,也只有到那时,数据才能够真正成为与物质,能源相媲美的资源,信息时代才会真正到来。

[1]魏藜,钱海蕾,钱卫宁,王焱,周傲英.数据挖掘原型系统软件学报,2001(8).

[2]王小虎,韩家伟.数据挖掘的概念与技术.计算机工程与设计,2002(10).

[3]钱卫宁,周傲英.一个面向大规模数据库的数据挖掘系统,2009(1).

猜你喜欢
数据类型数据挖掘聚类
详谈Java中的基本数据类型与引用数据类型
探讨人工智能与数据挖掘发展趋势
如何理解数据结构中的抽象数据类型
基于DBSACN聚类算法的XML文档聚类
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
基于SeisBase模型的地震勘探成果数据管理系统设计
一种基于Hadoop的大数据挖掘云服务及应用
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例