基于大数据的高校学生在线学习平台数据研究

2021-11-04 11:01薛新鹏杨杉
现代信息科技 2021年9期
关键词:可视化分析大数据分析

薛新鹏 杨杉

DOI:10.19850/j.cnki.2096-4706.2021.09.022

摘  要:文章从四川某高校学生在线学习平台的后台分别获取疫情前和疫情后的学习数据,并进行数据分析、数据挖掘以及学生画像这三大主题的分析。其中数据分析采用了频数统计,独立样本T检验分析方法;数据挖掘则以贝叶斯分析为主题;学生画像以学院作为主题,对数据内的两类数据进行了可视化分析。

关键词:大数据分析;可视化分析;SPSS;学习平台后台数据分析

中图分类号:TP391.4       文献标识码:A 文章编号:2096-4706(2021)09-0083-05

Data Research on College StudentsOnline Learning Platform Based on Big Data

XUE Xinpeng,YANG Shan

(School of Computer and Software,Jincheng College of Sichuan University,Chengdu  611731,China)

Abstract:This paper obtains the learning data before and after the epidemic from the background of student online learning platform in a college in Sichuan,and carries out three themes of analysis,namely data analysis,data mining and student portrait. Among them,frequency statistics and independent sample student's T test analysis method are used for data analysis;data mining focuses on Bayesian analysis;takes the college as the theme for student portrait and makes a visual analysis of the two types of data in the data.

Keywords:big data analysis;visual analysis;SPSS;background data analysis of learning platform

0  引  言

互联网所带来的便利就是为我们的学习提供了更多的选择,而大数据的发展也为我们提供了更多的可能性,通过搜集学生的学习行为数据推断其学习的进度和学习的状态以及学习状况,学校对学生的各项信息有更加直观的了解,并对其进行更好的学习提供指导。尤其是疫情以来,网络教学成为各个学校最主要的教学方式,学生的学习数据是高等学校非常重要的一项数据资源,是一个教育机构不可或缺的一部分,对于学生的日常表现,成绩情况,课堂表现以及后勤管理等都有很好的参考作用。并且根据线上的数据对各个学院进行学生画像可视化分析,也能够清晰地看出各学院疫情前和疫情后的在线学习平台的使用情况的变化。

1  研究思路

以四川省某高校在線学习平台疫情前后学习数据为研究对象,进行数据预处理以及数据清洗等数据分析前的基本处理,随后分别对疫情前和疫情后的数据进行数据分析,数据挖掘以及学生画像可视化分析。其中数据分析以及数据挖掘采用了SPSS数据分析软件,使用频数统计,独立样本T检验和贝叶斯等分析方法;学生画像可视化分析采用了Python以及图表秀,以学院为基础,分类对各学院考试完成数以及各学院视频任务点完成数进行了各学院的画像,并对其画像所得出的分布比例进行数据的对比分析。

2  数据说明

2.1  数据来源

以四川省某高校在线学习平台疫情前后学习数据的统计表为基础数据,其中疫情前的数据为43 000条,疫情后的数据为26 000条,包括了观看视频总时长、任务点完成数、考试平均分、章节测验完成数等字段数据。

2.2  数据清洗

我们对Excel数据工作表做了两方面的清洗工作:第一是对与研究问题无关的行列进行删除和简单的整理排序,将无用的或者是信息不完整的列或行进行删除,另外对部分不合理的数据进行筛查,看其数值是否异常,如果存在异常,我们也对其进行删除处理。

3  数据分析

3.1  关于章节学习次数的疫情前后频率统计

如表1、表2所示,根据疫情前后的数据对比,我们不难发现疫情前的学习数据大多在一百到两百次的范围区间内,学习次数为187次的占比达到了32%,而学习次数为0的占比为0.8%。再反观疫情后的统计数据,我们发现大多数的有效次数都在1 000左右,而有效次数为0的占比达到了4.8%,有效次数为1 166次的占比达到了12.3%,且1 000次左右的数据都相对分布较均匀,所以我们分析可以得出在疫情前的时期大家大多数都是在教室上课,并没有太多的时间在学习通上学习,而当发生了疫情后,我们采用的为网络教学的方式,在一定程度上增加了我们对学习通的使用次数。

3.2  疫情前后不同年级学生的作业完成数与考试完成数的独立样本T检验分析

如表3、表4所示,独立样本检验表中作业完成数的显著性为0,小于0.05,说明方差不具有齐次性,所以看第二行,根据显著性(双尾)为0.048,小于0.05,拒绝原假设,即疫情前,高年级学生的作业完成数与低年级存在显著差异,高年级学生的作业完成数平均值高于低年级的作业完成数平均值。独立样本检验表中考试完成数的显著性为0.098,大于0.05,说明方差具有齐次性,所以看第一行,根据显著性(双尾)为0.001,小于0.05,拒绝原假设,即疫情前,高年级学生的考试完成数与低年级存在显著差异,高年级学生的考试完成数平均高于低年级的考试完成数。

如表5、表6所示,独立样本检验表中作业完成数的显著性为0.005,小于0.05,说明方差不具有齐次性,所以看第二行,根据显著性(双尾)为0,小于0.05拒绝原假设,即疫情后,高年级学生的作业完成数与低年级存在显著差异,高年级学生的作业完成数平均低于低年级的作业完成数。独立样本检验表中考试完成数的显著性为0,小于0.05,说明方差不具有齐次性,所以看第二行,根据显著性(双尾)为0.447,大于0.05接受原假设,即疫情后,高年级学生的考试完成数与低年级不存在显著差异。

4  数据挖掘

4.1  对疫情前后作业完成数的数据进行贝叶斯分析

疫情前后的贝叶斯分析如图1所示。

图1(a)中我们可以看到,疫情前的作业完成数对于视频任务点完成数的依赖程度是最高的,其次是考试完成数,对于章节学习次数基本没有依赖,说明疫情前老师和学生们对于在线学习平台的使用基本为视频的学习。

图1(b)中我们可以看到,疫情后的作业完成数对于考试完成数的依赖最大,其次是视频任务点完成数,同样对于章节学习次数的依赖基本沒有,说明疫情期间老师和学生们大多都是进行的网上学习,因此对于网络考试以及网络视频的学习次数增加,学习方式基本都为网络学习,而对于成绩以及学习情况的检查,也只能采取网络考试来进行,因此占比最大。

4.2  疫情前关于学生考试完成数的支持向量机分析

首先在源数据的“类型”选项卡里对字段类型进行设置。将将要预测的学生考试完成数作为目标变量,其余变量作为预测变量,建立支持向量机模型,模式类型对比选择RBF模式和专家模式,并且计算预测变量重要性,从而生成结果。

如图2所示,当内核设置为RBF时,模型正确率为97.01%,且最重要的变量是任务点完成数,重要性是0.37,次要影响的变量为视频任务点完成数为0.27,其他依次是作业完成数、章节测验完成数、课程专题阅读时长、签到完成树、讨论总数、发帖总数、回帖总数和课程积分。

当内核设置为多项式时,模型正确率为97.06%,且最重要的变量是任务点完成数,重要性是0.36,次要影响的变量为视频任务点完成数为0.23,其他依次是作业完成数、章节测验完成数、签到完成数、课程专题阅读时长、讨论总数、发帖总数、回帖总数和课程积分。

通过RBF模型与多项式模型预测正确率的对比,发现多项式的正确更高,显然多项式模型更适合于预测本数据集。

5  学生画像可视化

从图3中我们可以看到疫情后各个学院考试完成数的一个数量分布情况。我们可以清晰地看到在疫情后的考试完成数的一个环形的数量分布图,其中计算机学院所占的比例最大,金融学院第二,建筑学院第三,外语学院第四,电子信息学院第四,艺术学院第五,土木与环境工程学院第六,文学与传媒学院第七,工商管理学院排在最后。但是根据我们前面的频数统计,可以看到各学院的学习平台的考试次数都得到了很大的提升,说明自疫情以来学习方式以及考试等方式都逐渐转为了网络学习平台进行。

从图4中我们可以看到疫情后各个学院视频任务点完成数的一个数量分布情况。其中计算机与软件学院的数量排在第一位,艺术学院排在第二位,金融学院排在第三位,外国语学院排在第四位,土木与环境工程学院排在第五位,文学与传媒学院排在第六位,工商管理学院排在第七位,建筑学院排在第八位,电子信息学院排在最后。这说明了计算机与软件学院对于学生在线学习平台的使用要多于其他学院,并且计算机与软件学院的教学方式可能主要是以观看视频进行学习,并结合课堂上的知识进行学习。

6  结  论

根据对三个主题的分析,我们得出以下结论:首先疫情前同学们对于学生在线学习平台的使用情况没有疫情后那么频繁。其次疫情前对于学生在线学习平台的使用,大多都为视频的观看和章节测验等;而疫情后由于在家网上学习,因此对于考试功能的使用相较于疫情前变得更加频繁。而通过客户画像数据分析我们能够得出,计算机与软件学院对于学生在线学习平台的使用频率以及功能的使用情况远远高于其他学院。

根据对学生线上学习平台的使用情况的分析,我们提出以下建议:首先可以适当加强学生在线学习平台其他功能的使用,如发帖回帖以及讨论,因为一些学生害羞,不会直接当面找老师进行学习以及问问题,就可以在网络上发帖与老师进行学习上的探讨。其次可以删除对于学生在线学习平台直播课的功能,因为疫情期间大家都是使用的腾讯会议,使用学生在线学习平台直播课的功能的时候比较少,且平台使用不稳定,因此可以对这个功能进行删除。最后我们建议可以多使用课堂抢答的功能,这样不仅能促进课堂气氛,也能培养学生的学习以及回答问题的积极性。

参考文献:

[1] 曹玉茹.基于SPSS的多选项问题研究 [J].统计与决策,2020,36(10):55-58.

[2] 吴华斌.大数据的统计分析浅议 [J].经济师,2014(10):277-280.

[3] 贺玲.大数据背景下统计软件在数据分析中的运用 [J].经贸实践,2018(4):328+330.

[4] 文颖.大数据时代数据分析中统计软件的运用研究 [J].信息与电脑(理论版),2017(6):97-98.

[5] 程泽凯,佘星星,谢宁宇.网络教学平台学生学习数据分析 [J].常州工学院学报,2019,32(2):77-80.

作者简介:薛新鹏(2000-),男,汉族,四川成都人,本科在读,研究方向:数据挖掘、大数据。

收稿日期:2021-03-02

猜你喜欢
可视化分析大数据分析
我国职业教育师资研究热点可视化分析
面向大数据远程开放实验平台构建研究
声波吹灰技术在SCR中的应用研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
可视化分析技术在网络舆情研究中的应用
国内外政府信息公开研究的脉络、流派与趋势