基于决策树算法在学生成绩上的应用

2019-04-10 07:01薛亚楠杨晓东
科技资讯 2019年36期
关键词:数据挖掘

薛亚楠 杨晓东

摘  要:决策树是从一组无规则并且无次序的数据集中求解分类问题的重要技术。决策树不仅是从数据集中生成分类器的有效方法,同时也是数据挖掘技术中一个活跃的研究领域。通过决策树挖掘可以对数据进行分类。该文以学生学习态度、完成作业情况、考勤等为因素,利用决策树技术分析影响学生成绩的因素,对学生成绩的影响因素加以探讨。

关键词:数据挖掘  决策树方法  学生成绩

中图分类号:G64   文献标识码:A 文章编号:1672-3791(2019)12(c)-0083-02

在数据挖掘和数据分析中,决策树起着非常重要的作用,其可以构建一个决策系统,对数据进行预测。决策树的结构类似树型结构,利用树的结构将记录进行分类,树的一个叶结点就代表某个条件下的一个记录集。并根据记录字段的不同取值建立分支,以此重复,便可生成决策树。根据决策树的结构对数据集中的属性值进行测试可以对未知数据对象进行分类识别。决策树的常用算法包括:ID3算法、C4.5算法、CART算法、CHAID算法等。

1  決策树方法的特点

决策树因其形状像树。所以特点包括:(1)一个决策树由一系列节点和分支组成。(2)节点和子节点之间形成分支,节点代表着决策过程中所考虑的属性,不同属性值形成不同分支。

基于CLS算法思想和Quinlan的ID3算法思想,改进的决策树学习算法如下。

(1)生成一颗空决策树和一张训练样本表。

(2)若训练样本集T中的所有样本都属于同一类,则生成结点T,并终止学习算法。

(3)根据最大信息增益的原则,先从训练样本属性中选择信息增益最大的属性,并生成测试性结点,即根结点A。

(4)若A的取值为a1,a2,…,am,则根据A取值不同,将 T划分为m个子集T1,T2,…,Tm。

(5)对每一个Ti(1≤i≤m),转步骤(2)。

2  实证分析

该研究用例是采用某大学学生期末数学成绩数据作为挖掘对象,数据来源于网络。通过挖掘分析,找出影响学生成绩的主要因素。该文采用基于ID3算法的改进算法建立决策树。建立决策树,应从以下属性考虑:(1)学生对数学课的感兴趣程度;(2)学习态度;(3)出勤情况;(4)独立完成作业情况。

如表1所示,经过数据处理后的数据成绩信息的训练集,将考试结果分为4类。具体为:A(优秀)、B(良好)、C(及格)、D(不及格)。我们的输出结果是A、B、C、D,一共30条记录。其中,取值为A的记录有17个,取值为B的记录有9个,取值为C的记录有2个,取值为D的记录有2个。则样本S记为:S1=17,S2=9,S3=2,S4=2。

根据熵的计算公式,得到:

下面计算信息增益:分别以“对数学课感兴趣的程度”“学习态度”“课堂考勤”等作为根结点,计算其信息增益。以属性“对数学感兴趣的程度”作为根节点。取值为感兴趣的记录有17个,其中有14个A、2个B、1个C,0个D;取值为一般的记录有11个,其中有3个A,7个B,0个 C,1个D;取值为不感兴趣的记录有2个,其中1个D,1个C,0个A,0个B。

计算其相应的熵:

然后计算其相应的信息增益:

同理,我们得到了以上4个属性相应的信息增值Gain(对数学的感兴趣程度)=0.511972,Gain(学习态度)=0.708688,Gain(课堂考勤)=0.395689,Gain(独立完成作业情况)=0.77499。

最后按信息增益最大的原则选 “独立完成作业情况”作为根结点,并将样本分成3个部分,然后对每一棵子树按照递归的方法计算,并且进行剪枝,最后得出的决策树如图1所示。

从研究得到的决策树发现,考试结果多数是A(优秀)的学生在作业完成时,独立完成作业情况很好,对数学感兴趣的学生往往考试结果也较好,多数为A(优秀)或B(良好);而相反,独立完成作业较差或对数学不感兴趣的学生,往往考试结果都不理想。另外,学生的学习态度也是一个不容忽视的因素。

3  结语

该文通过一个实例表述了数据挖掘技术在学生成绩分析中的应用,通过决策树方法能够分析影响学生学习成绩因素的原因,独立完成作业情况,课堂考勤以及学习态度都对学生成绩有着相互影响,通过分析影响学生成绩的因素,从而制定相应的措施,达到提高教学质量的目的,同时对于学校和教师来说可以通过决策树分析重点管理学生,帮助有效提高学习成绩。

参考文献

[1] 朱迪茨.实用数据挖掘[M].北京:电子工业出版社,2004.

[2] 魏萍萍,王翠茹,王保义,等.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003(11):87-89.

[3] (英)汉德(Hand,D.),著.数据挖掘原理[M].张银奎,译.北京:机械工业出版社,2003.

[4] 王名扬.基于数据挖掘的决策树生成与剪枝方法[J].计算机工程与科学,2005(11):19-20.

[5] 杨清.基于决策树的学习算法[J].湘潭师范学院学报,2005(3):24-25.

[6] 黄芳.基于数据挖掘的决策树技术在成绩分析中的应用研究[D].山东大学,2009.

猜你喜欢
数据挖掘
近十年国内教育数据挖掘领域的应用技术分析
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘技术在物流企业中的应用
数据挖掘过程模型及创新应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
电子政务中基于云计算模式的数据挖掘研究
数据挖掘创新应用
数据挖掘的系统构成与发展趋势