基于决策树的学生成绩对毕业影响分析

2018-01-06 16:44林秀科沈良忠
电脑知识与技术 2017年35期
关键词:决策树毕业数据挖掘

林秀科+沈良忠

摘要:高校生源质量的下降使得学生顺利毕业问题成为关注的焦点,该文以温州商学院会计学专业学生的毕业情况为例,运用决策树分类技术对学生的成绩进行综合分析,从中提取出决策树分类规则,发现关键课程对学生毕业的影响,以便于高校提前对学生实施预警,减少学生无法毕业的情况。

关键词:数据局挖掘;决策树;C4.5算法;学业预警

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)35-0015-02

Analysis of the Influence of Student Achievement on Graduation Based on Decision Tree

LIN Xiu-ke, SHEN Liang-zhong

(School of Information Engineering, Wenzhou Business College, Wenzhou 325000, China)

Abstract: Decline in student quality makes students graduate problems become the focus, this paper takes the graduate students of accounting major of Wenzhou business school as an example, and uses the decision tree classification to analyze the student score comprehensively. The classification rules extracted from the decision tree indicates the influence of key courses for the graduate students. Therefore the college can implements early warning on these students and reduces the number of students unable to graduate.

Key words: Data Mining; Decision Tree; C4.5 Algorithm; Academic Early Warning

1 概述

近些年,随着我国高等教育的迅速发展,高等教育已经进入了国际公认的大众化教育阶段。随着高校招生规模的迅速扩大,学生的生源结构以及生源质量都发生了很大的变化。很多普通本科高校,特别是在高等教育大众化阶段出现的民办高校,其学生都呈现出学习积极性不高、独立思考和解决问题的能力偏弱,但是同时又表现出较好的活动组织能力和情商的特点。

作为一名大学生,经过四年的学习是否能够顺利取得毕业证书和学位证书,主要依据就是课程成绩汇总处理之后得到的平均绩点。如果平均绩点低于学校的规定,那么学生将无法顺利毕业,从而对学生的就业和未来发展造成很大影响。由于最终平均绩点的计算在时序上有其滞后性,无法对学生进行及时的提醒和预警,因此有必要通过相关课程数据的分析对可能无法顺利毕业的学生进行提前的预警,以保障学生的顺利毕业。当前,高校对于学生成绩管理也逐渐向信息化发展,学生成绩的管理方式已由原来的纸质文件变成了现在的计算机管理。但是,大部分高校对于学生成绩信息的综合分析和挖掘还明显不够,例如可以通过数据挖掘相关技术对往届学生成绩进行分析,提炼出不同专业的学生学业预警规则,以此来指导学生的学习等。王芙蓉针对英语等级四级考试成绩,利用SPSS Clementine 12.0作为数据挖掘工具分析得出聽力单项成绩的高低对四级成绩是否合格有很重要的作用,阅读成绩的作用仅次于听力,写作的影响程度最小[1]。范珣珣基于Weka软件中的决策树算法进行挖掘,发现学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级成绩之间存在潜在的关系[2]。刘红保用决策树C4.5算法从成绩分析,非成绩分析,院校性质三方面加实现了对CET-4成绩分类挖掘[3]。2017年,陈甲华以某大学信管专业学生成绩数据为例,运用改进后的Apriori建立了大学成绩关联规则分析模型[4]。由此可见,数据挖掘技术在成绩管理中已经有了一定的研究和应用,本文主要针对温州商学院会计学院近年来的毕业情况,分析各个课程成绩对学生毕业的影响。教师可以根据分析结果及时对学生实行预警并指导调整学生的学习状态,同时也有助于教师及时调整教学策略,提高教学质量并对个别有无法顺利毕业风险的学生进行高度关注。

2 决策树算法

2.1 数据来源

本文以商学院教务系统中所保留的历年来的会计学本科学生成绩与毕业情况为研究对象,确保了数据的真实性。同时为保护个人隐私,删除了学生姓名等重要身份信息,并对残缺的数据予以删除,最终保留906条数据。在课程选取上,剔除了大学体育,思想道德修养等考查类课程,保留了大学英语、高等数学以及各类专业基础、必修等考试类课程。课程包括如大学英语、高等数学、管理学原理、西方经济学、基础会计、审计学、成本会计税法、管理会计等等。具体数据如表1所示:

2.2 数据处理

为了方便数据的处理,本文直接把成绩转化为绩点。分数在 [0,60)内绩点为0,在[60,70)内绩点为1.5,在[70,80)内绩点为2.5,在[80,90)内绩点为3.5,在[90,100]内绩点为4.5。对于毕业情况,“Y”表示顺利毕业,“N”表示结业或者延迟毕业。处理后的数据如表2所示:

2.3 决策树构建

决策树算法属于数据挖掘中的分类算法,通过对某一带有类标记的数据集的训练,产生一棵二叉树或者多叉树。决策树的构建过程中,最重要的就是分裂节点的选择。ID3算法在树的分裂节点上选择具有最高信息增益的节点作为当前的分裂节点,因为该节点的分裂将使得分裂得到的结果划分中的样本分类所需的信息量最小[5]。ID3算法使用的公式如下所示:endprint

猜你喜欢
决策树毕业数据挖掘
我们今天毕业了
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
毕业季
毕业了,能否学以致用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于GPGPU的离散数据挖掘研究