崔薛腾
(长春大学教务处,吉林长春130022)
大数据环境下的高校成绩预警算法研究*
崔薛腾
(长春大学教务处,吉林长春130022)
在高校学生成绩预警研究中,传统的分析是使用统计汇总方法,这种方法挖掘出的规律不够深入,并缺乏明确的指导原则.该文以教务成绩信息和数据挖掘理论为基础,重点研究了大数据环境下的高等院校成绩预警算法设计与优化,提出了一种基于关联分析技术的预警机制,保证预警系统知识库规则的丰富、科学和完备.通过对某高校同一专业学生的成绩进行预警知识挖掘,获得了预警规则集,进而帮助学生对课程的未来成绩走向进行预测,并相应地调整学习计划,为教学管理提供有效的决策支持.
大数据;教育;数据挖掘;关联分析;成绩预警
大数据时代的到来为世界带来了一场全面的革命,对社会的进步和变革起到了巨大的推动作用.大数据具有数据量大、种类繁多、价值密度低的特性,如何对大数据进行更加有效、快速的存储、采集、处理和分析成为当前研究的重点.其中,教育领域在大数据研究方面也遇到了前所未有的挑战和机遇.随着我国高等教育改革的不断深入和发展,网络教学、移动教学、社交网络及高校各类信息系统的使用,促进了学生、教师数据量的快速激增,尤其在学校的教务系统中,存在着大量的教学信息数据[1].但是,这些数据目前大多处于沉睡的状态,没有得到有效的利用,而且随着数据量的持续增加,很多前期数据被当作垃圾数据清理掉,造成巨大的信息资源浪费.因此,如何充分利用此类数据,将数据转化成促进教学效果的知识和信息,帮助教务管理者和教师进行教学决策、课程优化等服务,是大数据时代教务工作者必须重视的问题.
高等院校在教学运行过程中,学生的成绩管理是教务工作关注的重点.课程成绩不仅是学生个人学习能力的体现,可以为学生选择研究方向、工作方向提供参考,还是高校教学质量的重要反映,对高校加强教学管理、调整教学方式和方法具有重要的指导意义.随着大数据时代的到来,高等院校在教务管理系统的研发和应用方面有了快速的发展,并积累了海量的教务管理和教学过程数据.高校的教学管理工作者一直致力于通过分析此类数据促进高校教务管理能力和管理水平,但是,常用的方法都是通过传统的统计汇总完成的,这种方法挖掘出的规律不够深入,并缺乏明确的指导原则,在大数据环境下这些分析方式的缺陷更加突出.基于上述观点,本文基于数据挖掘算法对大数据环境下的高校成绩预警模型进行了研究和构建.高校成绩预警模型通过对大学生的课程成绩进行分析,能够挖掘出学科课程间的联系,并结合实际成绩数据获取预警信息,帮助学生对课程的未来成绩走向进行预测,然后根据预测结果制定相应的方案,为教学管理提供有效的决策支持.
所谓预警,是指在事件发生前对事件发生的潜在可能性进行预测并提供警示信息的过程.在大数据环境下,基于现有的数据和知识,预警可以通过数据挖掘技术对事物的发展规律进行总结和分析,描述、预测事物的发展趋势,然后与目标阈值进行对比,判断是否发出必要的信号和警示,以便事件主体有充足的时间采取适当的处置对策[2-3].
随着我国教育信息化、网络化的发展和应用,从积累的大数据仓库中提取有用的成绩预警规则并建立一套预警系统成为教育工作者的重要研究方向.基于教务系统中的成绩数据,自动预警系统能够自动构建预警模型并应用模型提供必要的预警信息,这种从真实数据提取的知识具有更高的应用价值.本文首先对基于数据挖掘算法的成绩预警系统框架进行简要的介绍,如图1所示.
图1 成绩预警系统框架
成绩预警系统包括成绩数据导入、数据预处理、知识挖掘建模、参数设置、成绩预警、预警信息输出等模块,以及一个预警知识库组成.其中,知识挖掘建模模块是系统的重要核心,它能够基于用户预置参数和教务系统成绩数据挖掘出预警规则和知识,并将这些知识存储到预警知识库内.因为教务系统数据是不断变化的,因此,预警系统需要从数据库中定期更新成绩数据,构建新的预警模型,形成新的预警规则和策略.
针对监测数据,成绩预警系统能够根据知识库的规则和事先制定的预警阈值来判断是否发出预警.最后的预警模块和信息输出模块能够对外提供一系列的控制接口,进而与其他系统联动完成整个成绩预警过程.
2.1 成绩预警规则介绍
成绩预警规则是对被预警课程成绩与前期已修课程成绩间关联或依赖关系的反映,被预警课程成绩能够根据关联课程成绩进行预警[4-5].预警系统主要应用关联分析技术产生预警规则,在教务管理的过程中,系统首先将监测数据处理成标准的数据格式,然后根据数据特征从预警知识库中提取相应的预警规则,并将预警规则和监测数据对比:首先在规则集的前项中查找监测数据,若均无法匹配,则使用下一条规则重新比对;若匹配成功,则根据事先的策略产生综合预警信息.
2.2 基于关联分析技术的成绩预警算法
关联分析技术,是指从数据集中挖掘频繁项集的技术,它形成一系列形如X→Y的规则,其中,X代表发生前项事件,Y代表预警事件.关联分析产生的规则称为关联规则.关联分析通过提取满足支持度、置信度要求的规则对事件的前后项关系进行预测.
支持度:表示在所有的事务中,项集{X,Y}出现的概率大小.如下所示:
Support(X→Y)=P(X,Y)=P(X∪Y)
置信度:表示发生事务X的前提下,由“X→Y”得到Y的概率大小.即在所有包含X的项集内,包含Y的概率,如下所示:
Confidence(X→ Y) = P(Y|X) =P(X,Y)/P(X)=P(X∪Y)/P(X)
基于教务系统大数据的成绩预警模型主要以关联分析技术为基础进行构建.但是,由于传统的关联分析算法会产生很多无用的、冗余的关联规则,这些规则会对最终的预警结果产生很大的影响,显著降低预警的精度.因此,在实际应用过程中,对算法流程进行了一定的约束和优化:
(1)最小支持度.支持度是项集在数据集中出现的概率,反映了数据项集的普遍规律.在数据挖掘过程中,要保证所分析出的规则和规律具有普遍性,因此需要对最小支持度进行限制,这样才能使得到的结果具有现实意义.
(2)最低置信度.置信度的大小代表了预测结果的准确度,如果最低置信度设置得较小,会将准确度较低的规则都纳入到关联规则中来,从而显著降低预测的效果.同时,也会增加建模的硬件压力和时间.
(3)后件约束.通常,算法中不对关联规则的前件和后件属性进行约束.但是,在进行高校学生成绩预警的过程中,要求规则的后件必须为限定条件下的项集元素.也就是说,需要对预警规则的后件进行一定的约束.约束后不仅能够保证算法的正常运行,还能将无效规则剔除,从而提高算法的运行效率.
(4)顺序约束.在关联分析中,规则的前件和后件顺序没有固定的限制和要求.但是在学生成绩预警时,后件课程需要发生在前件课程之后,这是课程大纲和业务需求所决定的.因此,在本文的算法设计过程中,需要加入前后件事件的时间顺序约束.
本文设计的成绩预警模型主要基于Apriori算法.通过算法分析和上述限制条件的约束,最终得到的规则和实际情况相比是比较符合的,可以把这些预警规则添加到规则库内.Apriori算法得到的规则较多,但是有用的规则比例较低.本文经过优化后的算法能够实现定向的数据挖掘,在有约束的前提下获取让用户更感兴趣的知识.算法描述如下所示:(其中:D1代表事务集,D2代表预警项集,L代表频繁项集,C代表候选集,Rules代表预警规则集,seq代表项顺序集,minsup代表最小支持度,minconf代表最小置信度)
Input:D1,minsup,minconf,D2,seq
Output:成绩预警规则Rules
①初始化频繁项集L1
②while(all Lk-1≠?)
a.产生新候选集Ck;
b.根据minsup分割Ck;
c.遍历Ck中的全部候选项并对计数;
d.选择Ck中支持度大于minsup的集合作为Lk;
③end
④while(all Lk)
a.对于同时属于L和D2的子集lk,要求lk满足:x∈(Lk-lk),y∈lk,有(x,y)∈seq;
b.while(all lk)
置信度=support(Lk)/support(Lk-lk);
if置信度≥minconf
Rules=Rules∪{(Lk-lk)→lk};
end
c.end
⑤end
随着我国高校规模的迅速扩大和学生数量的不断增加,我国高等教育的发展水平取得了很大的进步.随着在校学生的增长,高等院校的教育质量和教学成果受到了广泛的关注.通过高等院校的培养,大学生能否顺利毕业,能否满足就业的需求成为社会关注的焦点.因此,高校教学工作要加强对学生学习水平的考核与管理,这样才能保证学生学习的质量和教师教学的效果.然而,由于我国高校的办学方式主要是自主管理,所以课程的数量和种类变化很大,使得对高校学生的管理和培养更加困难,严重影响了大学生的发展[6].
通过上文的介绍,预警规则模型能够通过对教务系统数据库成绩数据的分析,挖掘数据中的潜在规律,建立成绩预警知识库,以辅助学校的教学管理和教务决策工作.这样就能够通过提前预警,帮助学生及早发现学习中的问题,进而通过改正问题提高学习的质量,另外也能够帮助教师优化教学流程,完善教学体系,提高高校教育的系统化、合理化、科学化.为了对预警规则的有效性进行验证,需要将高校教务系统中的成绩数据代入模型,通过预警模块产生预警信息,然后通过对比预警信息与实际成绩确定模型分析效果.
下文以某高校同一专业87位学生的23门专业课程成绩为例进行数据建模,模型将学生在大一期间的课程作为项集前件,在大二期间的课程作为项集后件,目的是建立预警规则,通过学生大一课程的成绩对其大二课程成绩进行判断和预警.模型最小置信度为0.6,最小支持度为0.3,最终模型得到了30条预警规则.部分规则如表1所示:
表1 部分预警规则
表1列出了部分模型挖掘出的预警规则.例如,高等数学A2与概率论与数理统计A、线性代数A之间的关联性较强,这几门课程均属于数学基础课程,课程相互之间必然存在一定的关联.而且在大部分的课程培养方案中,高等数学通常作为最基础的课程首先开设.因此,当学生出现“高等数学A2-不及格”的情况时,预警模型就会对后续的概率论与数理统计A和线性代数A进行预警,让学生提前引起重视,合理调整学习计划,也让教师在教学过程中能够更多关注此类学生.
另外,高等数学A2与数字电子技术、大学外语Ⅲ之间也具有显著的关联性.这个规律在课程内容上虽然不是很明显,但却是一条具有统计意义的规律,这些课程在学生的理解方式、学习方法方面可能具有相似的部分.相对于很多显而易见的规则,这些看似不相关的规则更加重要,因为它们能够为教务管理工作者和教师提供更多的信息和启发,加深对学生、课程的理解,促进教务工作摒弃以往根据主观判断进行决策管理的方式,提高教务管理的系统性、科学性.
大数据对社会的进步和变革起到了巨大的推动作用,教育领域在大数据研究方面也遇到了前所未有的挑战和机遇,如何充分利用大数据,将数据转化成促进教学效果的知识和信息,帮助教务管理者和教师进行教学决策、课程优化等服务,是大数据时代教务工作者必须重视的问题.本文以数据挖掘理论和高校成绩预警现状为基础,对高等院校成绩预警算法进行了设计和优化,提出了一种基于关联分析技术的预警机制,通过对某高校同一专业学生的成绩进行预警知识挖掘,获得了预警规则集.根据预警规则集就可以形成预警信息,进而指导教务管理工作者、教师和学生作出合理的决策,提高学习的质量和效果.
[1]张庆利,李文斐.浅谈提高本科教学质量[J].高教探索,2003,19(1):27.
[2]柳炳祥.基于数据挖掘的危机管理及其预警方法研究[D].南京:东南大学,2003.
[3]罗尧成,陈敬良,姚俭.我国高校课程与教学改革三十年:历程、经验与瞻望[J].中国高教研究,2009,24(2):11-14.
[4]Agrawal R,Imielinskia T,Swami A.Mining Association Rules between Sets of Items in Large Databases[C].Acm Sigmod Record.Washington D.C,1993:207-216.
[5]卢炎生,杨芬,赵栋.带单调约束的关联规则挖掘[J].计算机工程,2004,30(15):78-80.
[6]胡华平,张怡,陈海涛,等.面向大规模网络的入侵检测与预警系统研究[J].国防科技大学学报,2003,25(1):21-25.
(责任编辑:王前)
图6 提示信息
综上所述,我们可以从Word文档中要转换为演示文稿中第一张幻灯片标题文字的段落开始,将该段落之前不需要转换的文字删除,同时将该段落及其下面要转换为演示文稿中各张幻灯片标题文字的各段文字都设置成“标题1”样式,把要转换为幻灯片的1级文本、2级文本、3级文本等的各段文字设置成“标题2”“标题3”“标题4”等样式,并放置在对应的已设置成“标题1”样式文字段落的下面,然后进行转换就可以了.
参考文献:
[1]孙伟.计算机应用基础Win 7+Office 2010[M].北京:化学工业出版社,2015.
[2]王杰.PPT转Word三妙招[J].电脑知识与技术,2014(04).
[2]何勇.亲密无间——Word2000与其他Office程序间的合作[J].电脑技术,2001(02).
(责任编辑:岳朋)
TP274
1008-7974(2016)06-0075-04
10.13877/j.cnki.cn22-1284.2016.12.024
2016-08-09
吉林省教育科学“十三五”规划课题(ZD16022)
崔薛腾,男,吉林长春人,教师.