基于RFG-SVM算法的在线课程学习行为分析

2022-03-26 01:37黄婕

长沙航空职业技术学院学报 2022年1期

黄婕

（1. 湖南省飞机维修工程技术研究中心，湖南长沙 410124；2. 长沙航空职业技术学院，湖南长沙 410124）

当前，随着云计算、大数据和人工智能等信息技术的飞速发展，在线教育的适应性学习越来越引起教育信息技术领域专家的关注和研究。2017年，《新媒体联盟地平线报告》也指出，个性化学习是一项“容易理解但却难以寻求解决方案”的挑战；个性化学习、适应性学习等技术是在线学习环境中的重要研究问题。

现阶段，教育发展过程中面临着优质资源供给不足、规模化教育与人才差异化成长需求存在矛盾的问题。近年来，深度学习方法正成为各类推荐系统的研究热点，其原因在于深度模型引入了一些有效的训练方法，与传统推荐方法相比，深度学习方法有助于在自适应学习环境中更加精准地实现个性化辅助学习，从而提高信息技术在教育学习领域的适用性[1]。

1 在线课程平台学生学习行为分析

我们将从挖掘规律、分析学习特征和习惯、评估学习现状及预测学习效果四个方面着手，提高学习者在线学习的效率和成效[2]。

1.1 学习行为规律的挖掘

利用大数据等先进技术对在线学习平台的数据进行分析、研究，找到学习者的认知规律。重点关注学习者受何种因素干扰影响最多。基于决策树算法的研究者[3]对学习者进行分类研究，发现学习方向、学习中的表现和平时成绩都会影响最终学习成绩。该算法发现了学生成绩与学习管理体系的关联。利用回归算法的研究者[4]发现学习者合作学习解决实际问题的能力和学习者性别的组合也对学习产生影响。

不仅学习行为会影响学习成效，学习行为模式也有影响。利用EM算法的研究者[5]对学生进行聚类研究，发现了共同合作的行为模式对学习的影响。利用关联规则算法的研究者[6]发现了学习者有知识误区后的系列影响。

1.2 学习特征和学习习惯的分析

分析学习者的学习特征与习惯有利于提高学习成效，使得学习成绩有所提高。

有研究人员善于研究学习者的学习风格和方法，有利用贝叶斯算法的研究者[7]通过游戏表现研究学习风格。而在决策树算法基础上建立计算模型的研究者发现了学生与在线学习系统之间互动数据的关系。基于K-means算法的研究者[8]则将学生分层，发现学生认知水平与成绩优劣的关系。

有研究者发现学习者浏览、查阅文献的习惯，与浏览文件的顺序和频率有关，利用关联规则和序列挖掘模型算法分析出学习者的知识结构及各知识点间的联系。

1.3 学习现状的评估

依据学习者现阶段知识掌握情况、学习习惯、特征，观察学习者在线学习的学习现状。结合学习者的学习现状和知识掌握状况，及时发现学习中存在的问题，有利于教师做好学情分析，调整在线学习教学方法，有利于学习者提升学习能力，收获更好的学习成效。

有研究者利用隐藏的机器自我学习功能，及时发现学习者在学习中是否态度认真。有研究者利用序列模型挖掘算法发现学习者的学习方式是否得当、有效，能及时进行干预。也有研究者利用网络分析手段研究共同学习的内聚性特征，能将孤立团队和活跃团队有效区分。也有基于教育学和心理学的专家[9]发现，以对学习的干扰因素构建的数学模型能预估出学生精神状态，有助于教师及时进行心理辅导，能缓解压力，提高效率。

1.4 学习效果的预测

不少研究者利用大数据构建计算模型，通过数据关系和教育理论进行学习效果的预测。

有研究者利用线性回归模型对学生的学习情况进行预测。还有研究者[10]结合学习者的学习习惯再利用Logistics回归模型建模，预测学生的学习成绩，同时，还能对后期行为进行追踪，发现利用Logistics回归模型能预测学习者后期是否能考上大学。也有研究者能进行学习动力不足的预测，能及时补救减少辍学发生。

2 支持向量机SVM算法

基于结构分析最小原理和统计学原理的支持向量机SVM算法，是将测试数据在学习者的学习能力和模型复杂度之间权衡、比对选择最优方案。此支持向量机SVM算法能有效模仿真实模型，首先将原始特征利用核函数变换映射后，在高维空间分解特征矩阵，使得问题可以转化成对凸二次规划问题的求解。令样本数据集是（xi,yi），xiRn，yi{-1, 1}，i=1,…,n，超平面： ·x+b=0。最优超平面能把两种样本到超平面的最短距离之和取到最大值，公式是：

上式（1）中松弛变量用表示，惩罚参数用C表示，而上式（2）中b表示阈值。训练集利用非线性映射量 (xi)映射到高维空间，核函数是公式：K(xi,xj)= (xi)· (xj)，用二次规划问题求得最佳超平面：

利用Lagrange乘子ai求出决策函数：

对上述核函数的优化、决策函数的性能改善是后续重要内容，可以使SVM算法获得更优性能。

3 加权的支持向量机对在线课程学习的行为分析

因支持向量机算法对在线课程平台的学习行为分析有误差，而利用加权的支持向量机算法，是基于大数据技术Random Forest（随机森林）模型的Gini（基尼）指标计算特征加权值，再对随机森林分类识别的影响力做计算，依据各属性的重要性设置对应权重，使得影响力大的特征属性比影响力小的获得的权重更大，再把此权重值利用支持向量机进行计算，以得到SVM算法的在线课程学习平台学习者的行为分析。本文亟待解决的问题是利用优化的核函数选择内积参数，有助于SVM算法进行更优分类识别。

3.1 特征加权支持向量机RFG-SVM算法

利用核函数添加的特征加权值向量机叫作特征加权支持向量机。其概念为：核函数Kp是在X*X(XRn)区间里，p是输入集的n阶（维度）线性变换矩阵，核函数Kp计算公式：

算法步骤为：

步骤1：样本集S的收集和取样，S={x(i), x(j)}， (i=1,…,n)，其中x(i)是特征变量，y(i)是类别量。

步骤2：Random Forest（随机森林）模型的Gini（基尼）指标的获取、指标参数的处理都是标准化操作。在建立加权特征量时应当根据标准化后的参数来加权。利用RFG值优化原始特征内积RFG(x(i))=(gx(1),…,gx(n))，(i=1,…,n)

步骤3：空间线性矩阵p=diag(RFG(x(i)))的建立，用p来构造Kp核函数。

步骤4：有效性验证。对于Kp的校验采用SVM方法。若存在K和Rn×Rn→R的映射（R是实数域，Rn是n维向量），当样本集是{x(1), x(2),…,x(m)}时，有效核函数K是对此半正定的，即所有非零实数向量zr都满足zrKz＞0。任意x(i),x(j)代入K中得到kij=k(x(i),x(j))(i,j1,…,m)，最终得到m*n的矩阵：

因此核函数K在训练集{x(1), x(2),…,x(m)}中有效。

步骤5：把SVM的线性核函数替代掉，利用特征加权的Kp核函数输出支持向量构造分类器。

步骤6：设计特征加权向量机的RFG-SVM算法流程图及性能检测，如图1所示。

图1 特征加权值向量机RFG-SVM算法流程图

3.2 实验与分析

针对获得校内微知库平台数据集的3869行数据及10项特征属性进行研究，先利用R-Studio对数据做预处理，舍掉错误数据最终获得3834条数据集。采用Random Forest随机森林模型和varimpPlot函数得到最终数据，得到的Gini指标值如图2所示。

图2 Random Forest 的Gini指标值

3.3 数据对比

为验证Random Forest的Gini的稳定性，将它与其他两种支持向量机的算法进行对比，结合微知库线上平台数据研究分析如下：

对比表1数据，RFG-SVM算法的准确率（Accuracy）最高，且根均方误差最优，所以在识别分类和预测判断上RFG-SVM性能较强，对在线课程中学生的学习行为的分析、预测识别的准确度有明显提高。

表1 实验数据对比

接下来采用三种算法对学校微知库平台的在线课程学生学习行为的数据进行分析，研究各类算法最优应用场景，实验数据如图3所示。

图3 在线课程对比试验数据分析

对比这三个算法对各种学习行为数据的分析，可以看出具有特征加权的支持向量机的RFGSVM算法在分类识别上较另外两种算法准确性更高，而常见的SVM算法的准确率较低。因为RFG-SVM算法数据采集样本较低，使得“互动次数”的数量较低，导致性能不佳。但综合各项性能指标，RFG-SVM算法较另外两种算法，在对在线课程的学习行为数据的分析、对比和预测上都有较高的准确性，性能最优。

4 学习效果预测

4.1 学习效果行为分析

对学校微知库平台的飞机电子设备维修专业群的五门课程的数据进行分析，C语言程序设计（C）、电工技术（G）、单片机技术与应用（D）、数字电子技术（S）、飞机仪表技术与应用（F），每门课程基本要求不相同，学习规律各异，学生的学习方法也不同，最终五门课程的成绩动态分布图如图4。

图4 在线课程成绩动态曲线图

从表2看出，有良好学习习惯的学生成绩较好，而仅完成基本学习内容不参加互动、讨论的成绩不理想，但也不是说参与的越多就一定有好的学习效果，不过能较好地评估学生的学习现状并给出该课程的学习建议。

表2 不同学习活动和成绩对应关系

4.2 学习效果预测

在线课程的学习平台要让教师及时分析学生学习习惯和规律，了解学生的学习特征和学习状态，利用RFG-SVM方法对学生在线课程的学习效果进行预测。下面利用RFG-SVM方法对学习者进行实验性预测。

4.2.1 问题分析和数据集

教师需对有不同学习规律、学习特征和习惯的学生预测学习效果，五门课程学习时长、跨度都不一样，选择中间10周的学习状况，表3对学习者的多个特征值进行统计，n表示学习者个数，p表示特征值个数。

表3 不同学习活动和成绩对应关系

预测值：

当y=0时不及格，y=1时及格。

4.2.2 实验结果

利用完成作业次数、讨论互动次数、学习次数、实验次数、实践活动次数五个数据参数，得到下表4的结果。

表4 实验数据样本

上述五门课程利用随机森林的支持向量机RFG-SVM算法进行预测，学习效果的准确率较高。当参数为1时，准确率和召回的平均值较高，证明该方法有效。

5 结论

在发现传统支持向量机算法对在线课程平台的学习行为分析有误差时，提出的基于大数据技术的RFG-SVM支持向量机算法，是在传统支持向量机算法上做完善、修改，经特征加权计算、数据挖掘后在分类、识别方面功能更完善，预测更精准。通过对不同学习行为的学生的学习效果的预测，发现该方法能有效帮助教育者通过在线平台分析学习者的学习行为，预测学习效果，具有更高的准确率和稳定性。