数据挖掘技术与关联规则挖掘算法

2017-03-06 21:53何栋
电子技术与软件工程 2016年23期
关键词:项集数据挖掘关联

何栋

摘 要

当今是一个信息技术飞速发展的时代,人们在日常的生活和工作中产生的数据量越来越大,要让人们理解和接受这些错综复杂的数据,数据研究工作者需要采用数据挖掘技术来解决这一难题。本研究就对数据挖掘技术进行分析,并对当前运用较多的关联规则挖掘算法进行探讨。

【关键词】数据挖掘 关联规则算法

数据挖掘是对数据进行理解分析,对数据中隐藏的知识进行挖掘发现的技术,所以也称为数据库中的知识发现(KDD)。数据挖掘技术在近几年来的研究越来越深入,这是数据研究工作者经过长期在大量的应用过程中探索研究的成果。在数据挖掘技术中的关联规则是应用较为广泛的一种算法,数据研究工作者在大量数据中获取微量信息时,关联规则能发挥其重要的价值。本研究在对数据挖掘技术相关概念进行分析的基础上,对关联规则中的集中常用算法进行探讨,以期为数据研究工作这提供可靠参考。

1 数据挖掘技术介绍

1.1 数据挖掘技术的概念

数据挖掘技术是一门包容性以及开放性较强的跨领域数据信息揭示学科,这项技术能从大量含有噪声,且模糊不确定的实际业务数据中进行计算,在这些数据中对当前尚未发现,或者没有被明确认知的具有一定价值的知识信息进行揭示。在进行数据挖掘中的业务数据形式不是单一固定的,是复杂多样的,所以数据挖掘得出的分析结果形式能以多种形式表现出来,可以是具有较强逻辑性的数学表达式,也可以是容易被一般用户理解的结果。且数据挖掘技术在科学研究、市场分析等领域均得到了广泛的应用。

1.2 数据挖掘技术分类

数据挖掘功能的分类主要是根据数据挖掘功能的不同进行的,当前的数据挖掘技术主要有关联规则挖掘技术、分类挖掘技术、孤立点挖掘技术以及聚类挖掘技术等。本研究主要对关联规则挖掘算法进行详细探讨。

2 关联规则挖掘算法

2.1 关联规则种类介绍

关联规则按照不同的标准,能用各种不同的方法分成不同类型。将关联规则分为挖掘频繁项集、闭频繁项集、被约束频繁项集、极大频繁项集,是根据挖掘模式的完全性分类的;将关联规则分为多层和单层关联规则,以及单位和多维关联规则是根据规则所涉及的数据进行分类的;将关联规则分为量化关联规则和挖掘布尔型规则是根据规则处理值类型分类的;将关联规则分为序列模式挖掘、频繁项集挖掘以及结构模式挖掘是根据俄关联规则挖掘模式进行分类的;将关联规则分为兴趣度约束、知识类型约束、数据约束,是根据规则所挖掘的约束类型分类的。

2.2 關联规则挖掘算法分析

2.2.1 Apriori算法分析

关联规则算法中的挖掘完全频繁项集中,Apriori算法该类型中最具有应用价值,影响力最大的算法。Apriori算法主要有两个步骤:

(1)发现所有的频繁集;

(2)生成强关联规则。

在Apriori算法中的第一步是最为重要的步骤,该算法的核心思路是,给定一个数据库,在第一次数据库扫描中找出所有支持度大于等于最小支持度的项目组成频繁1—项集,也就是L1,1—项集C1,由L1进行连接得到;接着进行第二次数据库扫描,将C1中所有支持度大于等于最小支持度的项集组成频繁2—项集,也就是L2,候选2—项集C2由L2连接得到。以此类推,直到找出最大项频繁集。即在进行第N次数据库扫描时,找出CN-1中所有支持度大于等于最小支持度的项集组成频繁N—项集,即是LN,N—项集CN要由LN连接得出,一直到找不出新的选集为止。在这里还要用到Apriori算法性质,即是频繁项集是频繁项集的子集,非频繁项集是非频繁项集的超集。在Apriori算法中对数据库的扫描次数需要大于最大频繁项集的项数。

Apriori算法的操作具有两个明显的缺点。(1)该算法的使用需要对数据库进行多次扫描,因此在读写操作上会花费很多的时间,从而增加挖掘算法的时间成本,这种成本的增加不可小觑,因为它是有数据库存储数据的增加,以几何级数上升的成本;

(2)Apriori算法会出现众多的候选频繁集,频发集的产生量在每一步都很大,这会使算法在广泛度和深入度上的适应性较差。

2.2.2 FP—growth算法分析

FP—growth算法是关联规则算法中属于深度优化的一种算法,这种算法是深度优化算法中较新且具有较高成效的,不同于Apriori算法本质的常用算法。FP?—growth算法的基本基本步骤有两个:

(1)先将频繁模式树FP—tree生成;

(2)在生成的FP—tree频繁模式树中搜索频繁项集。

(1)需要将项集关联信息保留住,并采用一棵频繁模式树(FP—tree)用来容纳压缩后的数据库;

(2)再将压缩后的FP—tree再分散为几个小的条件数据库,再分别对这些数据库进行信息挖掘。FP—growth算法相较于Apriori算法,只需要对数据库进行两次扫描,不需要多次扫描,大幅度减少了挖掘算法的时间成本;也不会出现大量的候选项集,大幅度减少了频繁集的搜索空间。也就是说FP—growth算法能明显提高时间和空间效率。但是该算法也有缺点,在对庞大且松散的数据库进行挖掘处理过程中,不管是递归计算还是信息挖掘都需要占据大量的空间。

3 总结

综上所述,本研究对对数据挖掘技术概念和分类进行了简单的介绍,并对关联规则的种类进行了详细的分析,对关联规则中常用的两种算法FP—growth算法和Apriori算法进行了详细的分析。两种算法都还存在各自需要改进缺点,怎样在挖掘过程中提高挖掘效率,满足人们对挖掘系统的需求,这将是数据研究工作者仍然需要突破的重难点。

参考文献

[1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京:北京工业大学,2015.

[2]张弛,王本德,李伟等.数据挖掘技术在水文预报中的应用及水文预报发展趋势研究[J].水文,2015,27(02):74-77,85.

[3]魏陵博,付先军.基于Aprio关联规则挖掘技术分析归心经中药与抗心律失常药理作用的相关因素[J].中西医结合心脑血管病杂志,2014(05):517-518.

[4]付先军,周永红,王中琳等.基于频繁项集与关联规则挖掘技术探索王新陆临床用药及处方配伍规律的初步研究[J].中国中医药信息杂志,2015,17(09):92-94.

[5]郭涛,门瑞.关于数据挖掘技术与关联规则挖掘算法的研究[J].无线互联科技,2014(10):150-150,264.

作者单位

山西轻工职业技术学院 山西省太原市 030013

猜你喜欢
项集数据挖掘关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
智趣
一种基于Hadoop的大数据挖掘云服务及应用
一种频繁核心项集的快速挖掘算法
基于GPGPU的离散数据挖掘研究
一种新的改进Apriori算法*
分布式数据库的精简频繁模式集及其挖掘算法*