大数据背景下挖掘影响学生学业水平的因素

2019-11-11 14:17王雯麓朱定局

课程教育研究·学法教法研究 2019年21期

王雯麓朱定局

【摘要】随着大数据时代的到来，如何利用数据资源分析学生学业的相关因素以改善教育效果，有着重要的现实意义和时代意义。本文利用Apriori算法和Pearson相关系数挖掘学生学业的相关因素与学生学业的关系及重要程度，从学生、家长和学校三方面给出建议;基于学生层面的相关因素，利用全连接神经网络、逻辑回归以及xgboost分类器进行训练，对学生分类，以实行“因材施教”，改善教育效果。

【关键词】Apriori算法;全连接神经网络;学生学业影响因素;教育大数据

【基金项目】本文受以下项目资助：国家级新工科研究与实践项目“新工科人才创新创业能力培养的辩证发展模式探索”（教高厅函【2018】17号）;广东省高等教育教学研究和改革重点项目“辩证发展创新教学法研究与实践——以计算理论课程的创新思辨与实证为例”（粤教高函[2016]236号）;广东省学位与研究生教育改革研究重点项目“基于科研创新能力培养的辩证发展教学法研究与实践”（粤教研函[2016]39号）;广东高校重大科研项目“基于大数据深度学习的辩证创新教学机器人核心技术研究”（2017KTSCX048）;广东省新工科研究与实践项目“新工科人才创新创业能力培养的辩证发展模式探索”（粤教高函【2017】118号）;广东省联合培养研究生示范基地“联合培养研究生示范基地”（粤教研函[2016]39号）。

【中图分类号】R197.4 【文献标识码】A 【文章编号】2095-3089（2019）21-00-01

一、背景

随着大数据时代的到来，如何利用数据资源分析学生学业的相关因素以改善教育效果，有着重要的现实意义和时代意义。另外现阶段，学校普遍存在学生学业水平参差不齐的现象，这使得教师的教学目标和教学活动难以针对到每一个学生身上。

目前已有一些学者对高校学生学业进行了关联规则挖掘[1];有研究仅利用学生某一次成绩一项指标对学生进行分类管理[2];也有一些仅针对某一学科某一专业进行影响因素挖掘的研究[3];但还没有一项研究可以全面分析学生学业与学生层面、家庭层面及学校层面的多种因素之间的关系及重要程度。如何在保障教育公平的前提下，更好地开展因材施教的教学活动也是我们亟待解决的问题。

二、核心任务

本文利用CEPS的112所学校、近2万名初中生的1700多个变量的数据，选取与学生学业相关的学生层面、家庭层面及学校层面的因素如图2-1，通过可视化以及Apriori规则关联挖掘算法分析各因素与学生学业之间的关系及重要程度。

本文的另一个任务是基于学生层面的相关因素建立学业综合评价体系，对学生的学业进行综合评价，以实行“周期性走班制度”（周期性走班制度是指周一至周四实行正常的教学活动，周五实行特殊的走班制教学，即针对学生学业上各个方面进行综合评价，为学生提供基础类、提升类、拓展类的教学，满足各个层次学生的学习需求。）。

三、结果与分析

本文采用的数据集男女样本数量均衡，男性样本数量占全体样本数量的51%，女性样本占全体样本数量的49%，这对提升结果的可靠性是有利的。对学生学业综合成绩进行标准化处理，将学业综合成绩进行H、M、L等级评定。

1.单一因素与学生学业综合成绩等级的关系

从个人层面来看：女生学业综合成绩比男生优秀，女生处于H等级的比例比男生比例高了17个百分点，L等级低了18个百分点;住宿情况对学生学业综合成绩等级影响较小，在学业综合成绩的各个等级中，住校人数的百分比与不住校人数的百分比基本持平。曾入读幼儿园的学生处于H等级的比例比不曾入讀的学生比例高了7个百分点，L等级的比例低了5.5个百分点，可见进入幼儿园接受规范幼儿教育有利于学生未来学业水平的提高。周末的课外辅导班对学生的学业水平的促进明显大于周一到周五的课外辅导班;学生回答问题次数、参加活动次数与学生等级之间存在明显正相关关系;学生的迟到、逃课行为与学生等级之间存在明显负相关关系。

而从家庭层面中可以发现：是独生子女的学生中H等级和M等级的比例均略高于非独生子女的比例;非农业户口学生中H等级和M等级的比例均略高于农业户口学生的比例;父母学历相差较大的学生中L等级和M等级的比例略高，可见部分父母的学历差距有会有教育观念和教育方式的不一致，进而对孩子的学业等级有反作用;父亲不经常喝醉酒的学生中H等级的比例较父亲经常喝醉酒的学生高了6.7个百分点，L等级的比例少了8.2个百分点;父母关系好的学生中等级为H的比例较父母关系不好的学生高了6.2个百分点;家长的教育观念不同的学生，学业等级分布有较明显区别;只有父亲在家同住的学生中，大部分学生的学业等级为M和L;

从学校层面来看，学校的图书馆情况、周边环境以及师资力量对学生的学业等级都无较明显关系。

2.Pearson相关系数分析

经所次筛选后，本文选择若干因素进行Pearson相关系数分析如图3-1：

由图可知，家庭经济、父母关系、父亲学历、母亲学历、教育观念、是否独生、是否住宿、自信心均与学生学业综合成绩等级正相关;户口类型、是否与父母同住均与学生学业综合成绩等级负相关。其中相关系数大于0.05的影响因素由高到低依次是自信心、父亲学历、母亲学历、教育观念和父母关系。说明学生自信心高有利于学生学业综合成绩的提高，学生学业综合成绩的提高反过来又可以增强学生自信心，两者相互促进，因此应该有意识地增强学生自信心。此外，父母学历的高低、教育观念和父母间的关系也会对学生学业综合成绩造成较大影响，可见家庭环境十分重要。

3.Apriori关联规则挖掘

使用Apriori算法进行关联规则挖掘得到各变量与学生学业情况组成的支持度、置信度和提升度不尽相同的多种规则。其中confidence最高的20条规则如下图3-2所示：

女学生是一个较为感性、细腻、易受干扰的群体，而从上面的规则中可以发现lhs中均有“性别=女”，这可以反映出家庭层面和学校层面的若干个外部因素对女生的学业等级影响更大。本文推测女生的学业等级与各因素之间的关系较男生更密切，更有规律可以供挖掘。

4.训练分类

本文首先仅利用学生层面的34个因素，通过全连接神经网络进行500次训练，模型准确度达到0.64。由于模型的准确度不高，继续加入家庭层面和学校层面的各因素继续进行训练。逻辑回归和xgboost机器学习算法对学生进行训练分类，训练后逻辑回归算法的模型准确度约为0.46，xgboost分类器的准确度为0.51。

通过对数据的标准化，将所有的数据缩放为0-1，并进行特征选择，两个模型的准确度均上升，分别变为0.49和0.53，图3-3为xgboost分类器在测试集上测试的结果。再利用上文中的全连接神经网络继续进行训练，训练的前一千轮的损失值和准确率如图3-4所示，经2000次训练，模型最终准确率达0.76。

本文的研究旨在运用大数据分析数据挖掘分析，为学校、家庭以及学生三个维度提供一定的参考，改善教育以实现更高效的人才培养。

参考文献

[1]朱东星，沈良忠.关联规则在高校学业预警中的应用研究[J].电脑知识与技术，2017，13（23）：196-197.

[2]李珍，刁钢，赵慧峰.基于大数据分析的学生学业分类管理体系——河北农业大学商学院新生入学成绩的K-mean聚类分析[J].河北农业大学学报（农林教育版），2018，20（05）：96-99.

[3]滕广青，张良军，张凡.基于决策树的英语专业学业影响因素的关联规则挖掘[J].浙江教育学院学报，2010（04）：97-102.

作者简介：王雯麓，朱定局（通信作者），华南师范大学。