决策树数据挖掘技术在学生管理中的应用研究

2016-07-10 05:09罗明挽
电子技术与软件工程 2016年7期
关键词:决策树数据挖掘

罗明挽

数据挖掘可以在大量的、不完全的、有噪声的数据中挖掘出有价值的信息。决策树是数据挖掘的常用方法之一。本文在分析数据挖掘基本方法的基础上,详细介绍了决策树挖掘技术,阐述了决策树中ID3算法的思想,并采用ID3算法对学生管理进行了应用研究。

【关键词】数据挖掘 决策树 ID3

1 数据挖掘

数据挖掘,即Data Mining,也称为数据采矿。它是数据库知识发现的一个步骤。数据挖掘从大量的数据中,通过算法,搜索出隐含于其中的有价值的信息。这些数据具有量大、噪声、模糊、随机、不完全等特点。数据挖掘的过程就是从这些数据中找出有价值的、先前不为人所认识的有价值的信息或知识的过程。数据挖掘通常借助于计算机或数学的技术,通过数理统计、机器学习、专家系统、模糊识别等方法来进行“挖掘”。具体而言,数据挖掘所采用的分析方法包含了分类(Classification)、估值(Estimation)、预测(Prediction)、关联规则(association rules)、聚类(Clustering)以及复杂型数据挖掘如Web挖掘等。

数据挖掘的过程有几个步骤,首先是要确定业务对象,要清晰地定义数据挖掘的目的和业务问题;其次要进行数据准备,从与业务对象相关的内部、外部数据中选择适当的、适用于进行数据挖掘的数据,然后进行数据预处理,并将数据进行模型化处理,使数据适合某种挖掘算法的模型;数据挖掘的第三步是是进行具体的数据挖掘,即在前面几步的基础上,根据模型和选定的数据挖掘算法进行具体的挖掘;第四是进行结果分析,对数据挖掘的结果进行评估,明确本次数据挖掘的方法、模型的可信度等;数据挖掘的最后就是数据挖掘结果和模型的运用。

数据挖掘的常用操作方法有决策树方法、人工神经网络方法、遗传算法、粗集方法、模糊集方法等。

2 决策树算法

决策树是数据挖掘的常用方法之一。决策树(即Decision Tree),是在已知各种情况发生的概率基础上,通过构建决策树来求取净现值的期望值在大于等于零情况下的概率,由此做项目风险评价,并判断其可行性的分析方法。

决策树是一种树形结构,是根据策略抉择而建立起来的一种属性结构。在决策学习中,决策树就是一个预测模型,代表了对象属性与对象值之间的映射关系。决策树中每个节点表示对象的属性,而分支则代表属性的取值,叶子节点代表一个分类。简言之,决策树就是基于分类训练集的预测树,用于预测和归类。

决策树的起源源于概念学习系统,到ID3算法的时候真正发展起来。在早期,决策树是人工智能的重要方法,随着数据挖掘技术的发展,决策树成了构建决策支持系统的一种重要工具。

在决策树的算法中,ID3算法是比较成熟的算法之一。ID3算法以信息增益来决定属性的选择,选择分支后信息增益最大的属性进行分支。

ID3算法的基本思想是:

(1)通过自顶向下的贪婪搜索,遍历可能的决策空间构建决策树;

(2)确定一个属性作为根节点,而后为每个可能的属性值构建一个分支,并把训练样例归到适当的分支中,也就是将样本分成多个子集,每个子集对应到一个分支中;

(3)不断重复这个过程,仅使用真正到达这个分支的样本;

(4)如果在一个节点上的所有样本所拥有的类别相同,则停止该部分树的继续扩展。

那么,怎么确定哪个属性是最佳的分类属性呢?那就要依靠“信息增益”来确定。信息增益(Infromation Gain)是用来衡量给定的属性区分训练样本能力的指标。在属性在分裂中,选择信息增益最大的属性作为分裂属性。信息增益用信息“熵”来具体衡量。熵描述了任意样本集的纯度,可以衡量数据集的不确定性、突发性或不确定性的程度。当一个数据集里面的记录全都属于同一类别时,则熵为零,因为同一个类别,代表着没有不确定性。在决策树分类中,就是要将样例划分为一个个确定的、归类为同一类别的子集,或者说使分裂后的子集的熵尽可能的小。

在决策树的分类思想中,熵越小,信息增益就越大,决策树分类就是选择增益最大的属性来作为决策树的分类节点,然后由该属性的不同取值建立不同的分支。而分支中,则采用同样的方法,递归地进行分类,直到所有子集都能归为同一个类别为止。

可以这样进行属性的信息增益计算:

设C是样本里面的类别数,S是样本,P(s,j)表示样本S里面样本属于第j类的概率,即p(i,j)=sj/S,是样本S中属于类j的样本数。对于一个给定的样本分类,望信息增益为:

具有值集的属性T,可以将S划分为不同的子集{S1,S2,...Sk},其中sj包括了类Ci的Sij个样本,根据T的这种划分的期望信息,称作T的熵。其加权平均为:

T的信息增益定义为:

3 决策树ID3算法在学生管理中的应用

在学生的管理中,通常要对学生的学习情况或优秀情况进行评估,或者找出决定学生优秀的几种因素。我们可以通过对学生的智育、德育、体育、美育等因素进行评估,采用决策树算法对学生进行分类,以便确定影响学生优秀度的因素。

为了进行数据挖掘,我们先取一些数据样本,然后进行预处理。将数据预处理后的样本如表1所示。

根据决策树ID3的原理,我们可以先计算出每个属性的熵。智育得分为例,可以计算智育得分每个分段相对于标类别的熵。

“智育<=90”;I(S11, S21)=0.972

“智育>90”;I(S12, S22)=0

“智育80-90”;I(S13, S23)= 0.972

如果根据“智育”属性对样本集进行子集划分,信息熵为:

E(智育)=(5/14)* I(S11, S21)+( 4/14)* I(S12, S22)+ (5/14)* I(S13, S23)=0.694

得出“智育”属性的信息增益为:

Gain(智育)=I(S1, S2-E)-E(智育)=0.251

同样地,其他属性“美育”、“体育”、“德育”的信息增益也可以使用同样的方法计算出来。我们选取信息增益最大的作为划分分支的节点。划分出来之后,其他节点的子集划分也可以采用相同样的办法进行划分,一直递归划分到同个类别样本为止。

根据该方法构建出来的决策树如图1所示。

通过决策树,我们可以看到,智育得分高的学生容易在评比中获得优秀。这是显而易见的。但是,除了智育分数以为,优秀学生还与哪些因素有比较大的关系呢?通过决策树的分析,我们发现德育好的学生更容易获得优秀,而体育好的学生不太容易得到优秀。通过这样的模型,便可以在一定程度上对学生进行类别划分和进行优秀学生预测,以便于学生的管理。

4 结语

决策树是数据挖掘的常用方法之一,它是一种树形结构,代表了一个预测模型,反映了对象属性与对象值之间的映射关系。决策树中每个节点表示对象的属性,而分支则代表属性的取值,叶子节点代表一个分类。决策树可以用于预测和归类,事实上,它就是一种基于分类训练集的预测树,因此,可以采用决策树进行预测分析。本文利用决策树对学生的优秀情况进行评估分析,以寻找影响学生培养质量的因素,达到了较好的效果。

参考文献

[1]刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述[J].清华大学学报:自然科学版,2002,42(6):727-730.

[2]罗可,林睦纲,郗东妹.数据挖掘中分类算法综述[J].计算机工程,2005,31(1):3-5.

[3]林向阳.数据挖掘中的决策树算法比较研究[J].中国科技信息,2010(2):94-95.

[4]王永梅,胡学钢.决策树中ID3算法的研究[J].安徽大学学报:自然科学版,2011(3):71-75.

作者单位

阳江职业技术学院 广东省阳江市 529500

猜你喜欢
决策树数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究