基于weka的数据挖掘的关联规则应用研究

2015-02-20 08:16董婷

机械设计与制造工程 2015年12期

关键词：Apriori算法关联规则数据挖掘

董　婷

(榆林学院信息工程学院，陕西榆林　719000)

基于weka的数据挖掘的关联规则应用研究

董婷

(榆林学院信息工程学院，陕西榆林719000)

摘要：以榆林市采气厂的采气监测数据为例，运用weka工具进行数据分析，并通过基于weka的Apriori算法数据挖掘的关联规则应用，找出油压、进站压力、日产气量之间的关联，利用关联规则分析其中存在的规律。实验结果表明，数据挖掘工具weka能够准确分析出各数据之间的关联情况。

关键词：关联规则；weka；数据挖掘；Apriori算法

随着信息技术的发展，产生的数据量越来越大，人们对于从数据中获取有效信息的要求也越发强烈。数据库数量的日益增多，数据类型多样化、结构复杂化的趋势越发明显，迫切需要先进的技术以满足人们的需求。数据挖掘(data mining， DM)技术正是基于人们对挖掘有效信息的需求而产生的新技术。所谓数据挖掘就是从数据中发现趋势和模式的过程[1]。学术界对于数据挖掘进行了深入的研究，取得了不菲的成绩，其中关联规则算法的研究在数据挖掘算法的研究中占有举足轻重的地位，而关联规则算法的核心就是Apriori算法，目前对Apriori算法的研究也在逐渐增加[2]。

数据挖掘就是从多种多样的数据中发掘出潜在的、有价值的、有规律的知识发现(knowledge discovery in database，KDD)的过程[3]，不仅如此，数据挖掘还可以用于数据自身的维护[4]。本文基于weka软件对数据挖掘中的关联规则应用进行研究。

1数据挖掘中的关联规则挖掘

1.1　关联规则主要概念、参数

设I={i1,i2,…,in}是由n个不同的项目组成的集合，字母T表示I的子集，事务数据库用字母D表示， TID代表着一个事务，这个标识符有着唯一性。设A是一个由项目组成的集合，项目A中包含数个子项目，用字母k表示，称之为k项集，项目A蕴含于事务T中。常用置信度(confidence)、支持度(support)、期望置信度(expected confidence)和作用度(lift)4个参数来描述一对关联规则的属性。

1.2　关联规则的挖掘

在基于支持度-置信度框架中，同时满足用户给定的最小支持度阀值与最小置信度阀值的关联规则称为强关联规则。关联规则的挖掘实际上就是在事务数据库D中找出满足用户给定的最小支持度与最小置信度的强关联规则。

2Apriori算法

挖掘关联规则的重点在于产生所有频繁集。基本思路是，从1项集开始找起，产生的候选项集经过最小支持度判断产生1项频繁集，继续对1项频繁集进行组合产生2项候选项集，继续进行最小支持度判断产生2项频繁集，依次类推，直至找到最大项频繁集。这里用到了Apriori算法的性质：一个频繁项集的任一子集也应该是频繁项集。Apriori算法流程如图1所示。

Apriori算法实际上就是利用了Apriori性质在不断地对事务数据库进行迭代扫描，直至产生出最大频繁集的一种数据挖掘算法，在数据挖掘中具有重要作用。

3基于weka的Apriori算法数据挖掘的关联规则应用分析

榆林市采气厂每天产生大量的地下采气监测数据，如何对这些数据进行分析，找出油压、进站压力、日产气量之间的关联，是一个值得研究的问题。本文从数据挖掘角度出发，利用关联规则分析其中存在的规律。

图1　Apriori算法流程图

1)处理数据。首先在榆林市采气厂采集数据，在H2浓度为0.016 6%、He浓度为0.028 0%、N2浓度为0.285 4%、CO2浓度为1.996 2%、CH4浓度为93.841 1%的安全情况下采集数据，然后对采集的数据进行统计，并将数据放到excel表里面进行筛选，共筛选出299条有用数据，将其保存为文件名为a.xls的excel表。在a.xls表中b代表油压，c代表套压，d代表日产气量，e代表日产水量，f代表进站压力。

2)因为weka软件能识别的是.arff文件，而不能识别a.xls文件，所以不能直接进行分析，需把a.xls文件另存为a.csv,便于在weka软件中分析使用。

3)打开weka软件进入weka GUI Chooser界面，选择第4个Simple CLI命令按钮，打开第二个输入代码对话框，用代码将a.csv数据转化为a.arff文件。

4)因为weka不能识别数值型数据，所以需要在weka>filters>unsupervised>attribute>Numeric To Nominal中将数值型数据转化为离散型数据，如图2所示。

5)点击Discretize区域，出现选择框，对相关参数进行设置。

6)数据准备好之后进行关联规则的分析。在weka的Explorer中选Association选项进行，使用Apriori算法对实验数据集进行关联分析。

图2　Nominal数据图

实现参数设置合理化的关键在于选择恰当的支持度和合适的可信度，其目的是挖掘有效的关联规则。研究发现，参数设置得是否合理与支持度和可信度的选择有着很大的关系，具体表现为支持度和可信度的增减会影响支持度的上下界、度量单位，从而影响挖掘的结果。设置好参数后挖掘出10条规则，生成的频繁项集与10条规则如下所示：

Apriori

Size of set of large itemsets L(1): 8

Size of set of large itemsets L(2): 11

Size of set of large itemsets L(3): 3

Best rules found:

1.b=(14.98-15.35]f=(14.74-15.87]63==>d=(4.87505-inf)63lift:(1.11)lev(0.03)[6]conv:(6.18)

2.b=(14.61-14.98]58==>d=(4.87505-inf)58lift:(1.11)lev(0.03)[5]conv:(5.69)

3.e=(0.578-0.715]65==>d=(4.87505-inf)63lift:(1.07)lev(0.02)[4]conv:(2.13)

4.c=(14.99-15.42]134==>d=(4.87505-inf)129lift:(1.07)lev(0.04)[8]conv:(2.19)

5.b=(14.98-15.35]119==>d=(4.87505-inf)114lift:(1.06)lev(0.02)[4]conv:(1.7)

6.c=(14.99-15.42]f=(13.61-14.74]89==>d=(4.87505-inf)85lift:(1.06)lev(0.02)[4]conv:(1.7)

7.b=(14.98-15.35]c=(13.99-15.42]88==>d=(4.87505-inf)83lift:(1.05)lev(0.02)[3]conv:(1.4)

8.f=(14.74-15.87]86==>d=(4.87505-inf)81lift:(1.04)lev(0.02)[3]conv:(1.41)

9.f=(13.61-14.74]117==>d=(4.87505-inf)109lift:(1.03)lev(0.02)[3]conv:(1.28)

10.e=(0.441-0.578]58==>d=(4.87505-inf)53lift:(1.01)lev(0)[0]conv:(0.95)

从以上10条关联规则分析得出，在采气时，各自然因素参数之间存在很强的相关性，具体分析如下：

1)在采气生产过程中，油压、进站压力、日产气量有着较强的关联，如果进站压力不稳定、采气油压过高，作业区处于不安全状态的概率很高。

2)在采气生产过程中，日产气量和日产水量之间有较强的关联，在外界条件相同时，日产气量和日产水量成正比。

3)在采气生产过程中，套压、进站压力、日产气量有着较强的关联，如果进站压力不稳定、采气套压过高，作业区处于不安全状态的概率很高。

4结束语

本文借助图形化工具 weka软件，对采集到的榆林市采气厂的生产数据进行了关联分析，并快速地从采气厂的数据库中挖掘出采气过程中各个因素之间有意义的、有价值的关联规则，提高了数据检测的效率和准确率，对于以后的数据整理及数据关联分析具有重要意义。但是本文由于篇幅所限，仅以榆林市采气厂的部分采气监测数据为例展开研究，研究数据的广泛性不足，下一步研究应在扩大研究样本方面做出努力。

参考文献:

[1]张玺. 数据挖掘中关联规则算法的研究与改进[D].北京：北京邮电大学,2015.

[2]廖强. 基于关联规则挖掘的weka数据挖掘应用[J]. 计算机光盘软件与应用,2012(19):52-53.

[3]陈志泊.数据仓库与数据挖掘[M].北京:清华大学出版社,2009.

[4]宋新葵,杜中军.一种新的改进的Apriori算法[J].微计算机信息,2009(12):239-241.

The application of association rules in weka based on data mining

DONG Ting

(School of Information Engineering, Yulin University, Shaanxi Yulin, 719000, China)

Abstract：Based on the analysis of the association rules mining and Apriori algorithm in data mining, this paper uses the weka tool for data analysis, and applies the tool to analyze the association rules of weka based on Apriori algorithm. Experiments show that the data mining tool weka can accurately analyze the relationship between the data, weka tool plays a guiding role.

Key words:association rules; weka; data mining; Apriori algorithm

作者简介：董婷(1981—)，女，陕西岐山人，榆林学院讲师，硕士，主要研究方向为软件工程。

基金项目：榆林市科技局项目(2014cxy-09)

收稿日期：2015-10-09

中图分类号：TP391

文献标志码：A

文章编号：2095-509X(2015)12-0078-03

DOI:10.3969/j.issn.2095-509X.2015.12.021

基于weka的数据挖掘的关联规则应用研究

1.1 关联规则主要概念、参数

1.2 关联规则的挖掘

1.1　关联规则主要概念、参数

1.2　关联规则的挖掘