决策树数据挖掘技术在学生管理中的应用研究

2016-07-10 05:09罗明挽

电子技术与软件工程 2016年7期

罗明挽

数据挖掘可以在大量的、不完全的、有噪声的数据中挖掘出有价值的信息。决策树是数据挖掘的常用方法之一。本文在分析数据挖掘基本方法的基础上，详细介绍了决策树挖掘技术，阐述了决策树中ID3算法的思想，并采用ID3算法对学生管理进行了应用研究。

【关键词】数据挖掘决策树 ID3

1 数据挖掘

数据挖掘，即Data Mining，也称为数据采矿。它是数据库知识发现的一个步骤。数据挖掘从大量的数据中，通过算法，搜索出隐含于其中的有价值的信息。这些数据具有量大、噪声、模糊、随机、不完全等特点。数据挖掘的过程就是从这些数据中找出有价值的、先前不为人所认识的有价值的信息或知识的过程。数据挖掘通常借助于计算机或数学的技术，通过数理统计、机器学习、专家系统、模糊识别等方法来进行“挖掘”。具体而言，数据挖掘所采用的分析方法包含了分类（Classification）、估值（Estimation）、预测（Prediction）、关联规则（association rules）、聚类（Clustering）以及复杂型数据挖掘如Web挖掘等。

数据挖掘的过程有几个步骤，首先是要确定业务对象，要清晰地定义数据挖掘的目的和业务问题；其次要进行数据准备，从与业务对象相关的内部、外部数据中选择适当的、适用于进行数据挖掘的数据，然后进行数据预处理，并将数据进行模型化处理，使数据适合某种挖掘算法的模型；数据挖掘的第三步是是进行具体的数据挖掘，即在前面几步的基础上，根据模型和选定的数据挖掘算法进行具体的挖掘；第四是进行结果分析，对数据挖掘的结果进行评估，明确本次数据挖掘的方法、模型的可信度等；数据挖掘的最后就是数据挖掘结果和模型的运用。

数据挖掘的常用操作方法有决策树方法、人工神经网络方法、遗传算法、粗集方法、模糊集方法等。

2 决策树算法

决策树是数据挖掘的常用方法之一。决策树（即Decision Tree），是在已知各种情况发生的概率基础上，通过构建决策树来求取净现值的期望值在大于等于零情况下的概率，由此做项目风险评价，并判断其可行性的分析方法。

决策树是一种树形结构，是根据策略抉择而建立起来的一种属性结构。在决策学习中，决策树就是一个预测模型，代表了对象属性与对象值之间的映射关系。决策树中每个节点表示对象的属性，而分支则代表属性的取值，叶子节点代表一个分类。简言之，决策树就是基于分类训练集的预测树，用于预测和归类。

决策树的起源源于概念学习系统，到ID3算法的时候真正发展起来。在早期，决策树是人工智能的重要方法，随着数据挖掘技术的发展，决策树成了构建决策支持系统的一种重要工具。

在决策树的算法中，ID3算法是比较成熟的算法之一。ID3算法以信息增益来决定属性的选择，选择分支后信息增益最大的属性进行分支。

ID3算法的基本思想是：

（1）通过自顶向下的贪婪搜索，遍历可能的决策空间构建决策树；

（2）确定一个属性作为根节点，而后为每个可能的属性值构建一个分支，并把训练样例归到适当的分支中，也就是将样本分成多个子集，每个子集对应到一个分支中；

（3）不断重复这个过程，仅使用真正到达这个分支的样本；

（4）如果在一个节点上的所有样本所拥有的类别相同，则停止该部分树的继续扩展。

那么，怎么确定哪个属性是最佳的分类属性呢？那就要依靠“信息增益”来确定。信息增益（Infromation Gain）是用来衡量给定的属性区分训练样本能力的指标。在属性在分裂中，选择信息增益最大的属性作为分裂属性。信息增益用信息“熵”来具体衡量。熵描述了任意样本集的纯度，可以衡量数据集的不确定性、突发性或不确定性的程度。当一个数据集里面的记录全都属于同一类别时，则熵为零，因为同一个类别，代表着没有不确定性。在决策树分类中，就是要将样例划分为一个个确定的、归类为同一类别的子集，或者说使分裂后的子集的熵尽可能的小。

在决策树的分类思想中，熵越小，信息增益就越大，决策树分类就是选择增益最大的属性来作为决策树的分类节点，然后由该属性的不同取值建立不同的分支。而分支中，则采用同样的方法，递归地进行分类，直到所有子集都能归为同一个类别为止。

可以这样进行属性的信息增益计算：

设C是样本里面的类别数，S是样本，P（s，j）表示样本S里面样本属于第j类的概率，即p（i，j）=sj/S，是样本S中属于类j的样本数。对于一个给定的样本分类，望信息增益为：

具有值集的属性T，可以将S划分为不同的子集{S1，S2，...Sk}，其中sj包括了类Ci的Sij个样本，根据T的这种划分的期望信息，称作T的熵。其加权平均为：

T的信息增益定义为：

3 决策树ID3算法在学生管理中的应用

在学生的管理中，通常要对学生的学习情况或优秀情况进行评估，或者找出决定学生优秀的几种因素。我们可以通过对学生的智育、德育、体育、美育等因素进行评估，采用决策树算法对学生进行分类，以便确定影响学生优秀度的因素。

为了进行数据挖掘，我们先取一些数据样本，然后进行预处理。将数据预处理后的样本如表1所示。

根据决策树ID3的原理，我们可以先计算出每个属性的熵。智育得分为例，可以计算智育得分每个分段相对于标类别的熵。

“智育<=90”；I（S11， S21）=0.972

“智育>90”；I（S12， S22）=0

“智育80-90”；I（S13， S23）= 0.972

如果根据“智育”属性对样本集进行子集划分，信息熵为：

E（智育）=（5/14）* I（S11， S21）+（ 4/14）* I（S12， S22）+ （5/14）* I（S13， S23）=0.694

得出“智育”属性的信息增益为：

Gain（智育）=I（S1， S2-E）-E（智育）=0.251

同样地，其他属性“美育”、“体育”、“德育”的信息增益也可以使用同样的方法计算出来。我们选取信息增益最大的作为划分分支的节点。划分出来之后，其他节点的子集划分也可以采用相同样的办法进行划分，一直递归划分到同个类别样本为止。

根据该方法构建出来的决策树如图1所示。

通过决策树，我们可以看到，智育得分高的学生容易在评比中获得优秀。这是显而易见的。但是，除了智育分数以为，优秀学生还与哪些因素有比较大的关系呢？通过决策树的分析，我们发现德育好的学生更容易获得优秀，而体育好的学生不太容易得到优秀。通过这样的模型，便可以在一定程度上对学生进行类别划分和进行优秀学生预测，以便于学生的管理。

4 结语

决策树是数据挖掘的常用方法之一，它是一种树形结构，代表了一个预测模型，反映了对象属性与对象值之间的映射关系。决策树中每个节点表示对象的属性，而分支则代表属性的取值，叶子节点代表一个分类。决策树可以用于预测和归类，事实上，它就是一种基于分类训练集的预测树，因此，可以采用决策树进行预测分析。本文利用决策树对学生的优秀情况进行评估分析，以寻找影响学生培养质量的因素，达到了较好的效果。

参考文献

[1]刘红岩，陈剑，陈国青.数据挖掘中的数据分类算法综述[J].清华大学学报：自然科学版，2002，42（6）：727-730.

[2]罗可，林睦纲，郗东妹.数据挖掘中分类算法综述[J].计算机工程，2005，31（1）：3-5.

[3]林向阳.数据挖掘中的决策树算法比较研究[J].中国科技信息，2010（2）：94-95.

[4]王永梅，胡学钢.决策树中ID3算法的研究[J].安徽大学学报：自然科学版，2011（3）：71-75.

作者单位

阳江职业技术学院广东省阳江市 529500