数据挖掘技术在高职院校教学管理中的应用

2018-10-29 11:09米保全
软件导刊 2018年8期
关键词:Apriori算法关联规则数据挖掘

米保全

摘要:职业教育是我国教育改革与发展的重点之一,教学管理是提升高职院校教学质量的关键环节。为了提高高职院校教学质量和教学水平,应用大数据挖掘技术对教学数据进行分析。首先采用Apriori算法对学生成绩表、课堂考勤表进行数据处理,然后挖掘隐藏在学习成绩和考勤数据中的规律,分析各学期不及格科目、出勤情况与毕业状态之间的关联规则。通过结果分析与评估,为任课教师和教学管理部门提供指导,帮助科学规划各学期教学管理重点,进一步改进教学管理水平,提高教学质量。

关键词:高职院校;数据挖掘;关联规则;Apriori算法; 教学管理

DOIDOI:10.11907/rjdk.181499

中图分类号:TP319

文献标识码:A 文章编号:1672-7800(2018)008-0178-04

英文摘要Abstract: Vocational education is one of the key points of educational reform and development in China.Teaching management is the key link to improve the teaching quality in higher vocational colleges.In order to improve teaching quality and teaching level of higher vocational colleges,this paper adopts big data mining technology to analyze teaching data.Firstly,it adopts the Apriori algorithm to deal with the students' scores and the attendance tables.Then,by excavating the laws hidden in the academic achievement and attendance data,we analyse the association rules among the failed subjects,attendance rates and the states of graduation.Through analysis and evaluation results,it can provide guidance for teachers and teaching management staff,and help to make scientific planning of the priorities of teaching management in every semester,and further improve the levels of teaching management and teaching quality.

英文关键词Key Words:higher vocational colleges; data mining; association rules; Apriori algorithm; teaching management

0 引言

随着我国制造业的转型升级,作为培养技能型人才的高职院校,承担着越来越重要的任务和使命。然而,由于高职院校学生来源的差异,教学质量成为教育界经常思考的问题。目前国内高职院校招生有普通高考、分段考试、自主招生、综合评价等多种方式。由于国家对职业教育的日益重视,高职院校面临空前发展机遇。同时,随着在校生人数的不断攀升,学生素质却呈现逐年下降趋势,考试不及格的学生越来越多。尽管对学生的评价需要多元考评方式,但考试成绩仍然作为衡量学生学习水平、约束学生行为的主要手段,在保证教学稳定有序开展、提高学生学业和技能水平中仍然发挥着重要作用[1]。

为了改进教学模式,提高教学质量,教学管理者和研究人员提出了许多新思路。文献[2]对我国高校当前的教学日常管理进行深入分析,并提出改进建议。文献[3]提出在“互联网+”背景下,应用O2O模式改进高校教学管理模式的思路,通过APP软件对学生成绩、出勤情况、教学评价等进行管理,提高教学效果。文献[4]应用数据挖掘等方法,通过对学生在线学习的学业成绩进行挖掘,分析影响成绩的主要因素,并建立分类预测模型。文献[5,6]通过对学生成绩数据挖掘,分析学生行为与课业成绩之间的关系,为进一步通过干预学生行为提高成绩采取有力措施。文献[7]设计了基于数据挖掘的学生成绩管理系统,实现对学校、教师、学生、成绩等信息的管理。关联规则挖掘是最主要的数据挖掘方法之一,Agrawal等[8]最早提出用于关联规则挖掘的Apriori算法。文献[9]在教学管理中应用Apriori算法对学生作弊行为进行分析,并提出通过改进考试手段和方式提高教学质量的方法。文献[10]应用Apriori算法通过对学生考试成绩的挖掘,分析了大学课程中不同学科之间的关联关系,用以改进教学计划和课程体系建设。文献[11,12]应用数据挖掘技术处理和分析教学数据,为教学改革提供了理论依据。

以上方法从不同角度,通过对高校教学数据的处理和分析,为教学管理提供了指导和建议。但是,高职院校作为培养应用型技术人才的主阵地,与普通本科院校相比,在教学管理和培养模式上还存在一定差异。本文针对高职院校教学管理中存在的不足,应用数据挖掘技术,对学生成绩表、课堂考勤表进行数据处理,挖掘隐藏在学习成绩和考勤数据中的规律,分析各学期不及格科目、出勤情况与毕业状态之间的关联规则。通过结果分析与评估,为教学管理水平的提高和改进提供参考。

1 教学管理现状

计算机和通信技术的发展,使高职院校的办公和教务管理实现了信息化、数字化。但是,大多院校对于信息化应用只停留在提高工作效率上,而忽视了对信息化和数字化带来的各种大数据(如学籍数据、成绩数据、招生数据、就业数据等)的处理[13]。若能从这些大数据中挖掘出学生学习状态、日常行为和学习成績之间的潜在关系,从而有针对性地加强教学管理,将会更加有效地促进教学管理工作,提高教学质量。

在已有的高职院校电子教务系统中,大多教师和教务管理部门的数字化应用只停留在对原始数据的增、删、改、查上,没有更加深入地分析数据之间的关联关系[14]。在学习成绩、课堂考勤等数据中,存在着一定的关联关系,如能深入分析这些数据中所隐藏的重要信息,将会根据数据间的联系找到规律性,为提高教学效果提供指导。信息技术和办公自动化的发展普及,为智能分析学习成绩等各种数据数据提供了便利[15]。数据挖掘技术作为一种快速分析工具,能从海量、随机、模糊、不完整的数据中,提取并发现其隐藏的深层次有用信息[16]。该技术可以从关系数据库、数据仓库以及文本等各种各样的数据源中想方设法地去获得像分类模型、聚类模型、关联模型等知识模型。采用数据挖掘技术能快速发现教务系统中各项数据间的联系,对有价值的结果进行分析与评估,为提高教学管理水平和教学质量提供参考。

2 数据挖掘算法

数据挖掘(data mining),一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。数据挖掘通常与计算机科学有关,通常采用数据库理论、机器学习、统计学、在线分析处理、专家系统和模式识别等多种方法实现上述目标[17]。目前,数据挖掘已广泛应用在金融、商业、工业等领域。近年来,教育信息化和数字化校园的发展与普及,数据挖掘技术在教育领域也受到普遍关注。

可以将数据挖掘的系统描述为:首先从数据库中得到源数据,然后将源数据进行预处理,转化为可进行挖掘操作的目标数据,再使用决策树、遗传算法、神经网络等方法对目标数据进行挖掘处理,最后对挖掘的信息数据进行科学评估[18]。其系统模型如图1所示。数据挖掘的常用方法有关联分析、聚类分析、回归分析、分类分析、特征分析和序列模式分析等。

2.1 关联规则的基本概念

关联规则(association rule),又称作购物篮分析,用来发现事物之间的联系,可以用它从某一事情推测出另一事情的发生,从中分析出事物发展的规律,主要用于分析不同变量间的关联程度[19]。

设I={i1,i2,…,im}为m个不同商品项目的数据项集(itemset),简称为项集。用T表示事务(transaction),事务T为项的集合,可以描述为T是I中一组项目的集合,即T有一个唯一事务的标识TID。将事务T的集合用D表示。

若项集XI且XT,则X∩Y=Φ。在事务数据库中,支持度(support)可以描述为事务集中包含X和Y的事务数之比,记作support(XY);将包含X和Y的事务数与包含X的交易数之比用置信度(confidence)表示,记作confidence(XY)。

根据以上分析和计算,最后产生的强关联规则就是符合用户给定的最小支持度和最小置信度。在关联规则挖掘过程中,主要有两个阶段:①迭代挖掘所有频繁项集;②由频繁集产生强关联规则。在以上两个阶段,核心部分均是挖掘频繁项集[21]。

2.2 Apriori算法

Apriori算法是最经典的关联分析挖掘算法,使用一种逐层搜索的迭代方式实现[21]。该算法用k-项集逐步探索(k+1)-项集,从而遍历数据集中的频繁项集。Apriori算法的基本思想是:首先列出所有的项集,通过计算项集支持度,筛选出大于等于minsup的项集;然后由在上一步中找到的规则,使用连接步生成下一步项集,通过剪枝步利用Aprioride的性质产生候选项集,剔除不满足条件的候选项集。按迭代方式逐层进行,当产生的项集集合成为空集时,该算法终止执行,找出所有频繁项集。Apriori算法的过程分为两个步骤:①迭代检索存在的所有频繁项集,即满足支持度高于设定的阈值的项集;②根据第一步检索出的频繁项集,构造出关联规则,该规则满足最小信任度的阈值。本文采用Apriori算法对学生成绩进行关联规则分析,应用算法挖掘分析学生每学期不及格科目门次与能否按期毕业之间的关联关系,具体挖掘过程如图2所示。

3 学生成绩关联分析

3.1 挖掘对象确定

教学管理部门每年对学生成绩进行统计管理,并且任课教师在提交班级学生成绩记录时,会提交学生上课考勤表。根据统计结果和经验观察,推断学生能否按期正常毕业和不同学期不及格科目数的关联规则;另外,学生能否按期正常毕业可能与不同学期上课缺勤次数存在关联关系。因此,挖掘学生的缺勤状况和补考科目数,有针对性地制定不同学期的教学管理重点。

3.2 源数据获取

统计学生历年成绩表,对每个学生的补考科目数按学年进行归纳。根据学生上课考勤表,统计各个学期每位学生的缺勤次数。

3.3 数据预处理

将学生不及格科目数和上课缺勤次数进行数据预处理,分别按数据清理和数据变换两个步骤进行预处理。

(1) 数据清理。该阶段主要消除源数据中的冗余、噪声、重复数据。在不及格科目中,可能存在个别学生因请假、患病等原因无法正常参加考试而办理了缓考手续,导致部分课程出现不及格或空数据的现象。这些数据会影响结果分析的准确性,需要删除。对于考勤结果,需要将请假、参加公益活动、参与比赛等情况按正常出勤对待。

(2)数据变换。为了便于数据挖掘的实施,使用统一的格式表示成绩数据和考勤数据。使用关联规则挖掘逻辑性数据,对于高职学生3年的学习成绩数据,分别用A、B、C、D、E表示5个学期,其后的数字表示本学期不及格科目数,如A2表示某学生第一学期有两门课程不及格,第六学期为毕业设计,用T表示合格、F表示不合格;用Y表示按期正常畢业,N表示无法正常毕业,如表1所示。对于上课考勤数据,分别用A、B、C、D、E、F表示6个学期,后边数字表示本学期缺勤次数,其中0表示没有缺勤,1表示缺勤1次,2表示缺勤2次,3表示缺勤3次及以上,Y表示毕业状态为正常毕业,N表示无法正常毕业,如表2所示。

3.4 关联规则生成

在Apriori算法执行过程中,多次扫描经过转换处理的逻辑数据表,用以寻找所有频繁项集。先对频繁1-项集进行连接并处理,然后得到频繁2-项集,对其连接处理、分析得到候选3-项集的子集。判断子集中有无非频繁子项集,将其非频繁子项集剪掉,剩下的均为候选3-项集的频繁子项集。再对数据表进行扫描,删除小于最小支持度阈值计数的候选项集并得到频繁3-项集。反复扫描处理,最后得到频繁k-项集。算法执行结束后,得到每学期不及格科目数与毕业状态之间的关联规则,如图3所示。用相同方法,得到每学期缺勤次数与毕业状态之间的关联规则,如图4所示。

4 结果分析

本文取100为事务数,设置最小支持度的值为40%,最小置信度的值为20%,分析以上挖掘结果,根据关联规则可得到结果,如图4所示。

4.1 不及格科目数与毕业状态的关联规则结果

通过不及格科目数与毕业状态的关联规则的分析结果可以看出,第一学期没有不及格门次的学生,能按期毕业的学生比例占80%,而第一学期有两门以上不及格门次的学生,不能按期毕业的学生比例高达89%。由此可以看出,第一学期学生的学习状态对学生3年的影响非常关键,在教学管理中,第一学期是重点。另外,最后一学期的毕业设计十分重要,毕业设计完成的学生,能正常毕业的比例达90.9%,而毕业设计没有完成的学生,不能正常毕业的比例达94.7%。

可见,在第一学期,学生刚刚踏入大学校门,对大学学习规律、课程设置、教学规律缺乏一定的认识,需要一个逐步适应的过程。在这个阶段,需要任课教师和教学管理部门认真思考,改进教学方式,在加强管理的同时,采用引导、帮助、鼓励等手段,使学生尽快从高中阶段的学习模式顺利过渡到大学模式,实现从督促学习到自主学习的转变,为后续学习建立良好的开端。在最后一学期,学生面临找工作的压力,部分学生会过早步入社会,淡化甚至放弃自己完成学业,因此需要及早进行教育,稳定学生的心态,使能按期顺利完成学业。

4.2 缺勤次数与毕业状态的关联规则结果

通过不及格科目数与毕业状态的关联规则结果可以看出,第一学期没有缺勤的学生,能按期毕业的学生比例达88%,而第一学期有3次以上缺勤的学生,不能按期毕业的比例高达95%。同时,第一学期缺勤多的学生,后续每学期缺勤的比例也比较高。由图4可以看出,最后一学期不缺勤的同学,能正常毕业的比例达93%,有3次以上缺勤的学生,不能按期毕业的比例高达96%。

因此,第一学期是教学管理的最关键点,需要全方位的协调配合,从学习、纪律、作息等多方面加强管理和监督,促进学生养成良好的学习和生活习惯。到了最后一学期,部分学生由于各种原因造成较多科目成绩不及格,但在该学期都相应安排清考,不缺勤的学生能在完成毕业设计的同时,认真复习并按时参加考试,因此大多能按期毕业。因此需要对毕业季的学生严格考核,加强管理,采取提前预警、及早宣传教育等方式,使之趁早解决遗留问题,圆满完成最后的学习任务。

5 结语

教学管理是学校的重点工作,需常抓不懈,不断改进。本文应用数据挖掘技术手段,对学生的成绩、出勤与毕业状态之间的相关度进行了分析。通过对教学数据挖掘结果的分析与评估,

使教学管理者能准确把握三者之间的联系和规律,有针对性地加强日常教学管理,进而减少不能按期毕业学生的比例。同时,为任课教师和教学管理部门提供科学依据,对制定课程设置、培养方案、教学管理和工作重点提供指导。该方法的应用和结果评估分析,将有效提升高职院校的教学管理和科学决策水平,从而进一步提高教学质量。

参考文献:

[1] 陈子健,朱晓亮.基于教育数据挖掘的在线学习者学业成绩预测建模研究[J].中国电化教育,2017(12):75-81.

[2] 陈军涛.高校教学管理制度相关问题研究[J].长春师范大学学报,2016(12):105-108.

[3] 魏宇辰.“互联网+”时代下O2O教学管理工作方式探讨[J].中国教育信息化,2016(15):46-48.

[4] 陈子健,朱晓亮.基于教育数据挖掘的在线学习者学业成绩预测建模研究[J].中国电化教育,2017(12):75-81.

[5] 崔仁桀.数据挖掘在学生专业成绩预测上的应用[J].软件,2016,37(1):24-27.

[6] 胡在林.关联规则和决策树组合算法在学生成绩分析中的应用与研究[D].青岛:青岛理工大学,2017.

[7] 闫金奎.基于数据挖掘的高校学生成绩管理系统的设计与实现[D].天津:天津大学,2016.

[8] AGRAWAL R,SRIKANT R.Fast algorithms for mining association rules[C].Proceedings of International Conference on Very Large Databases,1994:487-499.

[9] 冯俊,胥莉,闵兰.基于Apriori算法的高校学生考试作弊动机分析与应对[J].西南师范大学学报:自然科学版,2017,42(2):174-180.

[10] 赵峰,刘博妍.基于改进Apriori算法的大学生成绩关联分析[J].齐齐哈尔大学学报:自然科学版,2018(1):11-15.

[11] SATYANARAYANA A,KING B.Teaching Data Mining in the Era of Big Data[C].Angola:Asee 2013 Conference,2013.

[12] DESAI A,SHAH N,DHODI M.Student profiling to improve teaching and learning:a data mining approach[C].Amity:International Conference on Data Science and Engineering,2017.

[13] 朱正茹,徐春林,史娟荣.高职院校教学管理与实施的现状、问题与对策[J].高等职业教育,2017,26(2):17-21.

[14] 周庆,牟超,杨丹.教育数据挖掘研究进展综述[J].软件学报,2015,26(11):3026-3042.

[15] 林倩瑜.关联规则挖掘算法研究综述[J].软件导刊,2012,11(6):27-29.

[16] HAN J,KAMBER M,PEI J.數据挖掘概念与技术(第3版)[M].范明,等,译.北京:机械工业出版社,2012.

[17] ANJEWIERDEN A,KOLLOFFEL B,HULSHOF C.Towards educational data mining:using data mining methods for automated chat analysis to understand and support inquiry learning processes[C].Amsterdam:Intemational Workshop on Applying Data Mining in e-Learning,2007.

[18] 闫金奎.基于数据挖掘的高校学生成绩管理系统的设计与实现[D].天津:天津大学,2016.

[19] 纪雅楠.数据挖掘技术在高校成人教育学生成绩分析中的应用研究[D].青岛:中国海洋大学,2010.

[20] 何芬.数据挖掘技术在教学管理中的研究与应用[D].武汉:武汉理工大学,2010.

[21] 李雄飞.数据挖掘与知识发现[M].北京:高等教育出版社,2003.

(责任编辑:江 艳)

猜你喜欢
Apriori算法关联规则数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于Hadoop平台的并行DHP数据分析方法
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究