MOOC学习行为分析及成绩预测方法研究

2016-07-10 04:40郝巧龙
电子技术与软件工程 2016年7期
关键词:回归分析数据挖掘

郝巧龙

近年来,MOOC以“互联网+教育”模式迅速发展,积累了海量学习行为数据,MOOC学习行为分析及成绩预测成为研究热点。笔者收集学习行为数据,用Clementine构建了MOOC成绩预测模型,为验证其有效性,依托智慧树平台数据结构课程的行为数据展开实证研究,旨在为其课程团队提供指导意见。

【关键词】MOOC 数据挖掘 回归分析 成绩预测模型

MOOC(Massive Open Online Course)的理想是任何人在任何时间和地点学到任何知识。2012年斯坦福大学等名校组建了Coursera、Udacity和edX平台。2013年清华北大等名校和互联网公司展开了MOOC实践,研发了学习者在线交互平台,为分析成绩与行为的关系提供数据支持。国内在部分课程上进行MOOC教学但实证研究较少。蒋卓轩[2]首次描述中文MOOC学习行为并预测成绩。Suhang Jiang用绩效考核和公开课结合进行一周的干预,用logistic回归分析预测成绩验证了及时干预的激励作用。笔者理论上对比国内外学习行为分析及成绩预测成果,用线性回归分析构建了MOOC成绩预测模型;实践上用Clementine进行实证研究,预测效果良好并提出应用方案,为教师的决策支持提供严谨的数据保障。

1 成绩预测模型构建

笔者分五个模块构建了MOOC成绩预测模型(图1)。

模块一:确定变量初始集。根据预测目标确定变量范围,回归分析的前提是因变量为数值型变量。

模块二:全部变量进入回归方程。选择进入法和逐步法将全部变量加入方程中便于对比预测结果。

模块三:筛选重要影响变量进入回归方程。为保证结果的普适性,需要对变量初始集依次进行散点图分析、统计量分析和特征选择,剔除相关性弱的构成变量集3。在变量集3上选择上述两种方法进入方程。

模块四:评估预测模型确定最优回归模型。方程通过回归方程的拟合优度检验、回归方程的显著性检验和回归系数的显著性检验后才能用于实际问题,通过评估模块二、三的模型确定最优模型。模块五:呈现预测模型结果。模型结果直观呈现变量关系,形式为Y=ε+β0+β1X1+β2X2+…+βkXk。因变量Y为总成绩;ε为误差且ε~N(0,σ2);β0…βk为未知参数;自变量X1…Xk为影响因素。

2 实证研究

在2015年3月至6月数据结构的学习行为数据上展开研究,因为有本校学生参与,分析结果可信度强。所用设备是Intel Core i3处理器,Win 7操作系统,2.27GHz主频,6G内存。

2.1 研究过程

模块一:预处理行为数据存入learner_all表得到变量初始集。总成绩为因变量Y,自变量是学生编号、学校编号、持续时间、学习进度、观看时长、笔记数、一~七次作业成绩、发帖数、回帖数、得分帖数、一~六次见面课成绩、在线成绩、论坛得分、见面课成绩和期末成绩,编号为X1~X26。

模块二:X1不起作用将其过滤;将总体样本分区70%为训练集30%为测试集;添加回归模型目标为总成绩,选择进入法和逐步法使全部变量进入方程,为模型结果连接表输出和分析节点,执行数据流(图2)显示结果。

模块三:一是散点图分析:读入learner_all设置总成绩为输出其它变量为输入;添加散点图节点Y轴为总成绩X轴为25个自变量,X2、X9、X10与Y不相关将其剔除得到变量集1。二是统计量分析:添加统计量节点由Pearson相关性强度得知X3与Y相关性弱剔除后构成变量集2。三是特征选择:添加特征选择节点目标为总成绩输入为21个自变量,其中X4变异系数低将其剔除形成变量集3。为变量集3添加分区节点设置同模块二;添加回归模型选择进入法和逐步法执行,为模型结果连接表输出和分析节点,执行数据流(图2)显示结果。

模块四:

(1)回归方程的拟合优度检验

依据判定系数R2和估计标准差来检验,R2越接近1表明拟合优度越高。进入法使变量进入方程(无论筛选变量与否),R2均为1表明拟合优度高。逐步法进入方程R2为1估计标准差为0.314小于进入法的0.331,显示出逐步法的优越性且拟合优度提高。

(2)回归方程的显著性检验

依据概率p值、残差平方和、残差均方进行检验,p小于0.05表明因变量与所有自变量线性关系显著。进入法使变量进入方程(无论筛选变量与否),p为0线性关系显著。表明筛选变量后方程变精练预测能力未减弱。逐步法建模后残差均方减至0.110小于进入法的0.111,p为0线性关系显著。

(3)回归系数的显著性检验

依据概率p值进行检验,p小于0.05表明自变量与因变量线性关系显著。进入法使全部变量进入方程,仅7个变量p值小于0.05线性关系不显著。进入法使重要影响变量进入方程,较多变量p值大于0.05但值变小。表明筛选变量后线性关系有改善。逐步法建模p最大为0.02表明线性关系显著。

为直观展示预测效果,连接四个回归模型添加分析、评估和输出表节点。全部变量_进入法对应为$E-总成绩,筛选变量_进入法对应$E1-总成绩,全部变量_逐步法对应$E2-总成绩,对应$E3-总成绩。分析节点结果表明测试集的最大/小误差比训练集小,且$E3-总成绩最佳。评估节点结果显示$E3-总成绩增益明显接近最佳线。图3展示了训练集和测试集的预测值与总成绩吻合。综上所述,最优回归模型是筛选变量_逐步法所得的模型。

模块五:结果表达式为

2.2 研究结果

2.2.1 结果分析

结果表明系数不同对总成绩的影响也不同。X24、X23、X25和X26权重较大。论坛中发/回帖数反映学习积极性,得分帖数反映知识掌握程度,论坛参与越积极总成绩越高;在线学习时观看视频次数越多知识掌握越牢固,自主学习能力越强越及时提交作业;见面课是学习者与教师进行互动探讨极大提升积极性;梳理前期知识能显著提高期末成绩。

2.2.2 应用方案

一是学习者进行自我干预;二是教师和管理者对学习者进行人工干预;三是开发者接受学习者的建议后对学习者进行系统干预。

学习者应对重点环节做出自我调整,提高自主学习能力,缩短学习懈怠时间。教师和管理者应精心设计教学视频和题库,激发学习兴趣提高在线成绩;论坛讨论应缩短答疑时间,高质量帖子应加分;见面课是人工干预的好时机,能直观地调动各校学习者的积极性,及时解决疑难点;期末考试题的设计应有区分度。开发者应以改进在线体验和提供优质资源为目标,增加个性化制定学习计划模块,根据学习者设置的自我干预条件及时提醒和系统干预。

3 结束语

笔者宏观上运用多元线性回归分析构建了普适的成绩预测模型,微观上进行实证研究,所得表达式使得教师和学习者可直接定位重点模块,同步提高教和学的效果。预测结果为教师和管理者的决策支持提供了严谨的数据保障,为后续学习行为分析及成绩预测起到借鉴和推动作用。

参考文献

[1]汤敏.慕课革命:互联网如何变革教育[M].北京:中信出版社,2015.

[2]蒋卓轩,张岩,李晓明.基于MOOC数据的学习行为分析与预测[J].计算机研究与发展,2015,03:614-628.

作者单位

中国海洋大学信息科学与工程学院 山东省青岛市 266100

猜你喜欢
回归分析数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于变形监测的金安桥水电站坝体稳定性分析
森林碳汇影响因素的计量模型研究
河北省城镇居民人均可支配收入与消费统计分析
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究