基于云计算的海量数据挖掘算法

2015-03-18 00:54王晓燕

产业与科技论坛 2015年16期

□赵慧王晓燕

一、云计算的含义

云计算(Cloud Computing)是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。云计算甚至可以让你体验每秒10万亿次的运算能力，拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心，按自己的需求进行运算。

对于到底什么是云计算，至少可以找到100种解释。现阶段广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式，这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算资源共享池(资源包括网络，服务器，存储，应用软件，服务)，这些资源能够被快速提供，只需投入很少的管理工作，或与服务供应商进行很少的交互。

二、云计算的特点和分类

(一)云计算具有的特点。一是超大规模。云计算的超大规模能赋予用户强大的计算能力。二是虚拟化。可以支持用户在任意位置使用各种终端获取服务。三是高可靠性。使用了计算节点同构可互换等措施来保障服务的高可靠性。四是通用性。可以支撑不同的应用同时运作。五是高可伸缩性。可以满足应用和用户规模增长的需要动态伸缩。六是按需服务。用户按需购买“云”中的资源，按量计费。七是高性价比。

(二)云计算的分类。一些研究专家把云计算分为三类:一是公有云。由第三方提供者为用户提供的共享的资源和服务，但用户并不拥有云计算的资源。二是私有云。单独客户专用的云计算平台，因而提供对数据、安全性和服务质量的最有效控制;具有软硬件资源利用率高、数据安全、质量可靠等优点。三是混合云。混合云是近年来云计算的主要模式和发展方向，融合了公有云和私有云。

三、海量数据挖掘的现状与发展

以数据挖掘作为主体的国际会议主要有:2003年，KDD第四次会议;2004年，KDD第五次会议;2005年，ADMA第一届国际会议;2005年，PAKDD第九届国际会议;2005年，ICDE第21届国际会议;典型的数据挖掘系统有IBM公司的InterligentMiner等。

国外的典型的数据挖掘系统有:Intelligent Miner、社会科学统计软件包(SPSS)、See5、Neural network Browser、DB Miner、CBR Express等。

我国在该领域的研究始于20世纪90年代中期，目前，数据挖掘基础理论以及应用的研究已经进入一个成熟阶段。1997年，国内正式期刊开始发表数据挖据的文章。1998年，刘小虎等学者提出了改进的优化算法;2005年，国内学者提出了基于关联度函数的决策树分类算法，不仅克服了多支偏向的问题，还保证了精确、高效的分类正确率。

综上可知，无论国内还是国外，数据挖据在现代科技社会有着广泛的应用发展前景。在未来十年，对人类产生重大影响的十大新兴技术中数据挖掘排列第三。

四、云计算支持下的数据挖掘算法

数据挖掘中引入云计算可以进行分布式计算，实现实时高效的挖掘，利于发现更多的有利信息。基于云计算的数据挖掘底层被屏蔽掉后，用户不需要考虑数据分配到节点、数据的划分等问题，使得开发更加方便。并行化的处理，大大提高了处理大规模数据的能力，基于云计算的数据挖掘使得海量数据挖掘更加方便快捷。为解决数据挖掘面临的海量数据处理问题，基于云计算的海量数据挖掘算法主要是利用云计算的并行处理和海量存储能力。

专业的数据挖掘厂商SGI、软件及数据库服务商如Oracle、IBM、Microsoft等都可以提供数据挖掘产品和方案。目前国内外还并未出现完整而且成熟的基于云计算的数据挖掘产品，大多数都还停留在分析或者研究阶段。而基于云计算的海量数据存储技术已经颇为成熟，更进一步的发展则是基于云计算或云存储之上的能够提供数据高可靠性、高性能的海量数据的存储、分析、处理及挖掘。

数据挖掘的算法很多，比如经典的关联规则算法Apriori算法及聚类分析K-Means算法。云计算支持下的数据挖掘算法，必须在Map/Reduce框架中进行并行化处理的基础上，再对数据挖掘算法进行云计算化。

关联规则Apriori算法:数据遍历，然后找出所有的频繁项集，再将所有规则提取出来，之后排除掉置信度小于预设值的规则，对Apriori算法完成了并行化处理后，将其移植到云计算框架下，在Map/Reduce框架下降低了原算法并行化后的耦合性，使得资源的浪费大大减少。

聚类分析K-Means算法:基于云计算首先要做并行化处理，将数据、环境、设置初始化，生成K个初始聚类中心，将数据分块分配给计算节点，每个节点通过Map、Combine、Reduce三个过程进行聚类计算后获得最终的聚类，就可以在云计算支持下进行数据挖掘的信息处理了。

在数据挖掘领域还有很多经典的算法，比如关联规则、贝叶斯分类、Canopy聚类、Nearest-Neighbor分类等等，数据挖掘很多经典算法都可以在进行Map/Reduce化后在云计算平台上运行。

五、结语

随着大数据时代的到来，尤其是云计算的出现，网络数据尤其是采用分布式存储的数据更加多样化、数据量日益庞大。海量数据的极速增长，从中提取出有价值的知识和信息，有着极为重要的意义。数据挖掘算法的好坏将直接关系到数据挖掘的效率和精确度以及对数据的利用效果。数据挖掘领域中海量数据处理和海量数据计算成为一个极为重要的问题。基于云计算的海量数据挖掘能够超越传统的数据挖掘所不适应的问题，并且能够不断增长高效、可靠、可信的数据信息。大数据时代，基于云计算的海量数据挖掘技术将有着更为广泛的应用前景。

［1］云计算的概念和内涵［EB/OL］．中国云计算，2014-2-26

［2］云计算是什么意思，什么是云计算［EB/OL］．云创存储，2014-4-2

［3］2014年云计算大会云计算标准化体系草案形成［EB/OL］．中国云计算，2014-3-5

［4］十种方法保持云中数据安全［EB/OL］．TechTarget云计算，2013-8-23

［5］刘小虎，李生．决策树优化算法［J］．软件学报，1998

［6］韩松来，张辉，周华平．基于关联度函数的决策树分类算法［J］．计算机应用，2005

［7］何元．基于云计算的海量数据挖掘分类算法研究［D］．电子科技大学，2011