基于机器学习的学生成绩预警模型研究

2022-06-07 08:01廊坊卫生职业学院侯婧
内江科技 2022年5期
关键词:准确率预警样本

◇廊坊卫生职业学院 侯婧

中国人民警察大学 贾南

对于学生学习成绩进行预警进行提前预警有助于及时调整教学策略,对提升教学效果具有重要意义。传统的学生成绩预警方法在很大程度上依赖于设计者对测评指标权重的设计,存在主观性强和误差略高的问题。随着教育大数据的不断完善和人工智能技术的快速发展,基于机器学习算法的学生成绩预警已成为可能。本文基于真实的学生学习情况数据,通过特征选择建立特征工程,采用K-近邻法建立学生学习成绩预警模型,利用训练集数据训练模型,并使用测试集数据来测试模型。结果表明,本文设计的基于K-近邻算法的学生成绩预警模型准确率为90.5%,并得到了影响学生挂科的若干重要因素,可为教师及时调整教学策略、提升教学效果提供参考。

1 引言

近年来,大数据研究的快速发展,不断影响着社会生活的各个领域。2015年8月31日,国务院印发了《关于促进大数据行动纲要的通知》,其中明确要求加大数据技术在教育领域的应用。在人工智能时代,将大数据分析技术与时俱进地应用于教育教学研究中,不仅可为教学改革提供新的思路,也符合我国教育事业发展要求[1]。

在学生学习效果的评价体系中,挂科是较为重要的指标。因此,对学生成绩特别是挂科情况进行预警具有重要意义。传统的预警方法主要采用人为选取学生学习指标、设置指标权重的方法,具有较强的主观性[2-3]。本文拟基于教育大数据,运用机器学习算法中的K近邻算法建立模型[4-5],较客观的对学生成绩进行预警,并对影响学生挂科与否的指标重要性进行排序分析,有助于提升教学效果。

2 算法介绍

K近邻算法是机器学习中的典型算法。该算法1967年由Cover T和Hart P提出,是一种较易理解的分类算法。其原理为:假定存在一个带有标签的数据样本集合,即每个样本的类型是已知的,用该集合作为训练集;现在要预测某个未知标签的新数据的类型,我们将已知标签的数据样本按照其特征维度建立N维度坐标系,将已知标签的数据样本投放到N维空间中,对于要预测的未知标签样本也按N维坐标投放到坐标系中,圈定距离其最近邻的K个样本,K个样本中哪种标签类型最多,则认为该未知样本属于这一类型。

K值的选取是K近邻算法预测准确率的重要指标,对于有已知经验的情况,通常按照经验对K值进行设置;对于无已知经验的情况,可遍历K的取值(K一般为整数,通常不大于20),取准确率最大时的K值。

3 模型建立和实例验证

3.1 特征工程建立

为准确预测学生挂科情况,本文选取章节测验、章节学习次数、作业、随堂练习、综合评分、教学视频观看时长、参与讨论次数、模拟考试和期末成绩九个特征建立特征工程。其中前八个特征为自变量,期末成绩为因变量,即使用前八个变量预测学生的期末成绩。其中期末成绩按照是否大于60分划分为“及格”和“不及格”,分别用1和0表示。

3.2 数据探索性分析

特征工程各特征之间若存在较强相关性则会影响预测准确率,因此对各特征间的相关性进行分析很有必要。表1为9个变量之间的相关系数矩阵,从其中可以看出,大部分变量之间不存在明显的相关性。各变量与期末成绩之间的相关系数处于0.005-0.34之间。

表1 各变量间相关系数矩阵

3.3 模型建立和训练

建立基于K近邻算法的学生成绩预警模型,首先从sklearn模块中加KNeighborsClassifier,然后设置n_neighbors的值,从而实例化KNeighborsClassifier,实现模型建立[6]。数据集中70%的数据用于训练模型,剩余的30%用于测试模型。

4 结果分析

4.1 模型准确率分析

K值是影响K近邻算法的重要参数,为取得最佳K值,本文分别测试了K取1-19之间全部数值时的模型的准确率,如图1所示。从图中可以看出,随着K值的逐渐变大,模型的准确率逐渐提升,当K取12时,模型准确率达到最大值90.5%。说明K近邻算法建立的学生成绩预警模型预测效果较好。

图1 模型准确率随K值变化图

4.2 特征重要性分析

除了得到较高准确率,分析影响学生期末成绩的影响因素也同样重要。本文运用随机森林算法的feature_importances_属性得到预测期末成绩的八个特征的重要性排序[7],如图2所示。从图中可以看出影响预测精度的最重要的三个特征为“作业”、“教学视频观看时长”、“模拟考试”,教师在教学过程中应重点关注在这三个方面表现不佳的同学。

图2 学生成绩预警特征重要性排序图

5 结束语

本文为解决学生成绩预警问题,运用机器学习中的K近邻算法建立了学生成绩预警模型,通过调整K值大小,模型最高准确率为90.5%,具有较高的预测效果,对预测学生是否挂科具有一定指导意义。另外,影响学生挂科与否的最重要的三个特征分别为“作业”、“教学视频观看时长”、“模拟考试”,教师在教学过程中应重点关注在这三个维度表现欠佳的学生,及时予以针对性、个体化的教学指导,以提升教学效果,降低挂科率。

猜你喜欢
准确率预警样本
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
用样本估计总体复习点拨
法国发布高温预警 严阵以待备战“史上最热周”
规划·样本
高速公路车牌识别标识站准确率验证法
随机微分方程的样本Lyapunov二次型估计
机载预警雷达对IFF 的干扰分析
日盲紫外探测技术在空间预警中的应用