基于edX开放数据的学习者学习分析*

2015-06-04 06:37
现代教育技术 2015年4期
关键词:证书学习者分析

王 萍

(上海大学 计算中心,上海 200444)

一 引言

2012年以来,MOOC的发展在不同层面引发着新的研究和思考。从开放数据的角度来看,MOOC大规模课程应用产生的海量数据为学习分析与教育数据挖掘研究提供了基础。Coursera、edX等在创建系统时都已经考虑到大规模的数据收集和分析,并致力于进行教学研究。edX作为非盈利性在线学习平台,在平台数据开放和教学研究方面一直做着重要的推进工作。2014年 1月,哈佛大学和麻省理工学院发布了edX第一学年课程报告[1],2月,两校进一步推出了Insights交互式数据可视化工具[2][3]。2014年 5月,哈佛大学和麻省理工学院联合发布了经过整理的2012-2013学年edX平台16门课程开放数据供全球研究者使用[4]。这也是第一个大规模MOOC开放数据,为研究者深入分析和研究MOOC学习者和课程提供了数据支持。

当前越来越多的中国学习者参与了MOOC课程学习。本文基于edX平台开放数据,对edX平台的学习者进行研究,通过数据分析,探索中外MOOC学习者的学习行为和特征。

二 edX开放数据概况

开放数据源于科学研究和学术创新的要求,edX开放数据集包括2012-2013学年秋季、冬季、春季三个学期哈佛大学和麻省理工学院在edX平台开设的16门课程数据[5]。

1 数据基本情况

数据文件的每行数据描述了一个学习者注册某一门课程的学习记录,每列项为对学习者或学习行为的描述,提供了 20个列项。我们将主要的列项分为了四类,分别为课程信息、学习者基本信息、学习者类型信息、学习者行为信息,如表1所示。

表1 数据集描述

可以发现,此次开放数据集提供的数据信息只是学习者在edX平台学习情况记录的一部分,即主要提供的是对学习者学习状态和行为的描述性信息,也被称为“Person-Course”类型。

2 开放数据的隐私保护

在大数据时代,用户的在线数据包含着大量的隐私信息,隐私保护问题日益突出,隐私保护受到法律法规保护。因此,开放数据必须进行去身份识别(De-identification)过程,通过匿名化隐私保护技术对原始数据进行处理之后再提供共享与对外发布。

哈佛大学和麻省理工学院对edX平台开放数据进行了去身份识别过程,通过一系列数据处理保护平台学习者的隐私信息。在技术层面主要使用了 K—匿名技术,并进行了准标识属性(Quasi-Identifiers)泛化和L—多样化(L-diversity)处理,这也是关系K—匿名隐私保护模型有效性和数据质量的关键因素。edX数据集的匿名化处理过程如图1所示,经过处理后,数量上相对原始数据集有所减少,对部分数据项的统计略有影响,但不影响整体性数据分析[6]。

图1 edX数据集匿名化处理过程

三 数据分析

我们研究的主要目标是基于edX开放数据集,探索中外学习者的MOOC学习情况,从学习者类型、学习者特征、学习者行为三个方面进行分析。

1 学习者类型分析

数据集中共有课程—学习者记录641138人次,根据数据集中的“final_cc_name_DI”项,选取国家信息为“China”的学习者,共有5170人次。在学习者类型分析上,我们采取Ho等对edX学习者的分类方法,将学习者分为四个类别[7],如图2所示。

图2 学习者类型

数据集中给出的registered、viewed、explored、certified数据项给出了学习者的类型信息,并据此可以计算出各个类型学习者的数量和比率,如图3所示。

图3 学习者类型数量和比率

全球edX平台的MOOC学习者获取证书率仅有2.8%1,而中国学习者只有1.2%,并且中国学习者中获取证书的学习者和积极学习者之和的比例为3.6%,远低于全球的6.3%。因此在整体上中国学习者中积极学习者较少,特别是最后能获取证书的学习者比例低,而一般学习者,即注册课程后仅浏览了少量课程内容的学习者占据了大多数。

图4描述了各个国家注册学习者中获取证书学习者比例,中国学习者1.2%的比例基本位于最末,仅仅高于摩洛哥和孟加拉国,而获取证书最高比率的国家是西班牙,为8.4%。

2 学习者特征分析

(1)性别分析

已有 MOOC研究发现,在学习者中,男性学习者占有绝大部分比例。在中国学习者中,女性学习者相对全球其他国家的情况如何?分析发现,中国女性学习者的比例为28%,与全球女性学习者的平均比例27%基本持平。而在希腊(47%),菲律宾(41%)、印度尼西亚(35%),美国学习者(35%)中,女性的比例都超过了1/3。

有研究指出,一个国家女性学习者的情况与该国的性别平等指数有关[8]。我们使用最新的世界经济论坛公布的全球性别差异指数(GGGI)进行了分析。全球性别差异指数从经济、教育、健康、政治四个子项和总体指数分析女性的参与和地位。如图5所示,可以发现女性学习者的比例基本与该国的性别平等指数相关,与该国女性整体的受教育程度相关。而在部分国家,如印尼、埃及、印度、巴基斯坦,女性参与网络学习的情况明显优于该国整体的女性受教育情况。

(2)教育背景

在对MOOC的多项已有研究中,都指出当前MOOC学习者中大多数是已经具有本科学历的学习者。我们分析了中国学习者的教育背景,如图6所示。中国学习者主要集中在本科学历的人群(62.2%),其次是硕士生(19.6%)和中学生人群(16.9%),而博士和低于中学学历的人数很少。与其他国家相比,如英国学习者各个学历分布之间相对较为均衡,在巴西和印度学习者中,中学学习者相对其他国家较多,而法国和西班牙学习者主要集中在硕士以上学历学习者。

为了结合学习者教育背景进一步发现不同国家的特点,我们对已知国家进行了聚类分析(使用层次聚类方法),发现了四个明显的类簇,如图7所示。

图4 各国获取证书者比率

图5 女性学习者比率与性别差异指数

● 类1:哥伦比亚,英国,希腊,墨西哥,摩洛哥

● 类2:加拿大,巴西,印度,孟加拉国,巴基斯坦,澳大利亚,美国

● 类3:菲律宾,埃及,印度尼西亚,日本,中国,尼日利亚

● 类4:波兰,葡萄牙,乌克兰,德国,俄罗斯,法国,西班牙

在类1中,硕士、本科、中学生三类学习者相对比较均衡;类2中本科和中学学习者比例较大,硕士学习者比例较少;在类3中,主要的学习者来自本科学历的学习者,而在类4中,主要的学习者是硕士学习者。

(3)年龄分布

在所有学习者中,学习者的平均年龄是28岁,中国学习者的平均年龄为27岁。我们通过下图对年龄分布进行了描述,如图8所示。

可以发现:中国学习者主要集中在20~30岁之间,占了4/5的人数,其次是30~40岁和20岁以下的学习者,其他年龄段基本上没有学习者。这与学习者的学历分布情况基本吻合。而其他一些国家有50岁以上的学习者选修了MOOC课程,并且30岁以上的学习者还占有相当的比例,说明很多国外学习者为职后学习。

3 学习者行为分析

在数据集中提供了“注册时间,最后登陆时间,课程交互次数,访问天数,播放视频次数,学习章节数,论坛发帖数”等数据项,可对学习者的在线学习行为进行分析。

图6 中国学习者学历分布

图7 基于学历信息的国家聚类

图8 学习者年龄箱图

图9 三门课程的学习者课程注册时间

(1)课程选课情况

全球学习者选课最多的是哈佛大学的《公正》、麻省理工学院的《计算机科学与编程导论 I》和哈佛大学的《计算机科学导论》。整体而言,人文社科类和计算机基础类选课人数最多,而固态化学、结构元素、力学等课程由于专业性较强,选课人数相对较少。

(2)注册课程时间

MOOC课程的注册时间包括:开课前注册、课程中注册,以及课程结束后注册。在课程结束后注册课程只能学习课程,无法再获得课程证书。因此学习者在课程结束后注册课程,并非出于获取证书的目的。我们选择了 3门不同学科的课程:哈佛大学的《公正》、麻省理工学院的《计算机科学与编程导论》和哈佛大学的《人类健康和全球环境变化》,对学习者注册时间进行了分析,如图9所示。发现中国学习者在课程开课前选课的比例较小,而在课程开设期间选课的比例最大,在课程结束后继续选课学习的平均比例也相对其他国家较大。

(3)注册课程数量

在中国学习者中,有2位学习者注册了12门课程,注册10门课程的学习者有3位,我们对注册多门课程的中国学习者进行了分析:高频注册者并没有获得证书,其中注册7门课以上的学习者有16人,都没有获得证书;获取证书的57位学习者中,有34人选修了1门课程,23人选修了2~6门课程,获得证书的学习者平均选修了1.74门课程;有5位学习者在2门课程中都获得了证书,这5位学习者平均注册了3.8门课程。

在全球学习者分析中,我们发现类似现象。即获得证书的学习者的平均选修课程在2门左右,获得多个证书的学习者平均注册约3门课程,而高频选课者的证书率较低。

(4)学习参与

我们对数据集中学习者的访问天数、播放视频次数、学习章节数、论坛发帖数四项学习行为进行了分析,这些项目可以反映出学习者的参与程度,如图 10所示。整体上,中国学习者的学习参与度低,基本在每项参与上都处于较低的位置。

图10 学习者学习参与情况

中国学习者的平均访问天数较少,访问天数>=30天的,只有77人,说明中国学习者在edX平台上活跃性不高。访问天数>50的学习者更少,只有26人。另外所有中国学习者的论坛参与行为都没有记录,同样的情况发生在其他多个国家。讨论区主要活跃着少数参与性较高的学习者,而大部分学习者并不在论坛中发表言论。欧洲学习者学习行为最为活跃,如俄罗斯、西班牙学习者的学习参与度都较高,而亚非学习者学习参与度相对较低,摩洛哥、中国、巴基斯坦的学习者参与度最低。

(5)学习成绩与学习行为

图 11描述了中国学习者成绩与所浏览的课程章节数的关系,大多数学习者只浏览了很少的章节,没有成绩或成绩很低。还有部分学习者浏览了较多的章节但也未获取证书,这些学习者的学习目标不是获取证书,而成绩大于60分获得证书的学习者一般都浏览了较多的课程章节内容,参与度也较高。

在中国学习者视频观看次数与学习成绩的关系分析上,发现大多数学习者都没有观看或观看了极少的课程视频,即使包括一些课程取得满分的学习者,观看视频也是0次1,60分以上的学习者的视频观看次数并没有显著增多加。有三个学习者具有大的视频观看次数,其中两位都取得了95分以上的成绩,而观看次数最多的学习者为课程《生物学导论——生命的秘密》的1名学习者,但该学习者成绩为0,同时该学习者在访问天数、学习章节数等课程参与行为方面都很积极。因此有部分学习者,具有较高的课程参与度,但并未以获取证书为目标。

四 总结与思考

1 主要发现

通过对edX第一年课程开放数据的分析,edX平台上中国学习者主要为具有大学学历的男性,集中在20~30岁,平均年龄为27岁,女性学习者的比例为28%。中国学习者的证书获得率为1.2%,低于全球平均率2.8%,积极学习者数量很少,约1/3的学习者注册后从未学习过任何内容。中国学习者每门课程的平均访问天数为3.3天,平均学习3章内容。获得证书的学习者平均选修了2门课程,而注册超过7门课程的高频注册者都没有获得证书。获得证书的学习者一般浏览了较多的课程章节内容,但在视频观看上,成绩较高的学习者也没有显著的视频访问增加行为。

2 中国学习者学习情况思考

通过数据分析,在中外学习者的比较研究中,发现中国学习者的学习情况不够理想,主要表现在:学习者数量少、学习参与度低、学历和年龄覆盖面窄。

图11 学习成绩与所学章节数的关系散点图

(1)从客观角度分析,中国学习者在语言、网络访问等条件的限制,影响了学习者在 edX平台的学习行为。如edX第一年课程中中国学习者只有1.2%的学习者获得证书,而根据本土化MOOC平台学堂在线的数据,在首批六门课程中有2.89%的学习者获得证书[9],通过率明显提高。在最新的“2014年慕课学习者调查报告”中,“语言困难”和“平台访问障碍”是学习者在“没有学习MOOC的主要原因”中给出的两个重要原因[10]。这些都说明了语言文化和网络资源访问问题确实是影响中国学习者的一个因素。

(2)除了客观原因外,我们面临的挑战更多的是学习理念而非技术性问题。我国学习者对于一个需要高度自主和严格自律的学习系统适应度还不足。学习者也反映“自制力差或拖延症”超过语言网络等客观原因因素,是阻碍学习的更重要原因[11]。而大量MOOC研究和实践都表明:MOOC对学生的学习技巧尤其在信息素养方面有新的、更高的要求[12],选择并坚持完成MOOC学习的学习者一般应具有较强的学习观念、学习行为和自主学习能力。

(3)MOOC作为一种学习方式,当前在我国还主要以本科和硕士学习者为主。而MOOC的特性使其能够作为有效的方式推动终身持续性、全民普遍性、学习自主性、方式弹性化的终身学习。随着学堂在线、中国大学MOOC等本土化MOOC平台的建设,如何充分利用MOOC增强国民学习,扩大 MOOC学习人群,促进我国终身学习社会的发展,还需要进一步的努力。如刘和海等[13]所提出的构建“中国式MOOC”,是一种可操作性和可移植性的设计、管理和运营模式。我们也欣喜地看到,在我国越来越多的中学生正在加入到MOOC学习中[14]。

3 MOOC学习行为的思考

在对 MOOC学习行为的分析中,学习参与行为、选课数量等与学习成绩没有直接的关系,其他研究中也发现了类似的规律。开放教育专家哈格德[15]也指出:相比传统校园的学生,开放远程学习的学生差异更为明显,他们对课程设计决策和授课模式的要求不同。学分也并没有成为MOOC学习者们的主要动力。

MOOC学习行为的差异性受到多个因素的影响,如参与课程的目标、获取证书的渴望度、课程内容的满意度、社交网络的参与技巧、周围环境的影响等。如心理学家Hull[16]将行为趋势描述为:行为趋势=习惯*欲望*激励 3种强度的综合,因此大量学习者退出的现象可能解释为:新的学习模式还不为大众所接受、没有养成习惯、学习的欲望不强以及拿证书的激励价值不高。基于数据的学习分析有助于对学习者学习行为尽量精确的理解和反映,探索课程中影响“教”与“学”活动的多维度指标并分析其效用,用数据和分析来作出更可靠的判断,从而使用新的指标发现和理解MOOC数据中多样的使用模式,提高对学习内容和学习平台设计和改进的针对性和有效性。

4 MOOC数据分析的思考

作为第一个公开发布的MOOC数据集,edX数据集为研究者提供了宝贵的资源。本次数据集存在的问题主要包括:(1)数据集提供了对学习者部分学习情况的描述信息,但还缺乏时间、点击流、作业测试等要素与交互数据,因此还无法对学习者的学习进程、学习交互、学习序列进行深入分析。但edX也已计划在未来开放更多的学习者行为数据[17]。(2)个别信息的不一致性,如通过 IP地址和注册信息对学习者国家信息的获取可能不完全准确。虽然这些个别信息的问题不会影响整体分析得到的结论,但我们应当在分析中对数据的获取来源和准确度有事先的分析。

MOOC应用产生的海量数据为教育领域的大数据分析与学习分析提供了基础。由于本次数据集的特点,我们的分析大多为基础的统计分析,而在将来教育大数据时代,还需要在技术算法和分析上深入探讨。将大数据与小数据(即传统的控制数据集)结合起来,创建对人类行为更深入、更准确的表达[18]。

[1][7]Andrew H, Justin R, Sergiy N, et al. HarvardX and MITx: The first year of open online courses[OL].

[2] HarvardX Insights [OL].

[3] MITx Insights[OL]. < http://odl.mit.edu/insights.>

[4][5] HarvardX-MITx Person-Course Academic Year 2013 De-Identified dataset, version 2.0[OL].

[6] Person-Course De-identification Process[OL].

[8] Emma Pierson, Chuong (Tom) Do. What about the women? [OL].

[9] 孙茂松. 清华大学MOOC实践报告[Z]. 2014中国大学MOOC发展论坛.

[10][11][14]果壳网. 2014年慕课学习者调查报告[OL].

[12][15]斯蒂芬·哈格德.慕课正在成熟[J].教育研究,2014,(5):92-99.

[13]刘和海,李起斌. “中国式 MOOC”概念探讨及平台优化策略研究[J].现代教育技术,2014,(5):81-87.

[16]蒋卓轩,张岩,李晓明. 基于MOOC数据的学习行为分析与预测[J].计算机研究与发展,2015,(3): 614-628.

[17] Phil H.No, I don’t believe that Harvard or MIT are hiding edX data[OL].

[18]David L, Ryan K, Gary K, et al.The parable of Google flu: Traps in big data analysis[J]. Science,2013,(3):1203-1205.

猜你喜欢
证书学习者分析
WJCI 收录证书
CSCD收录证书
收录证书
隐蔽失效适航要求符合性验证分析
你是哪种类型的学习者
十二星座是什么类型的学习者
收录证书
青年干部要当好新思想的学习者、宣讲者、践行者
电力系统不平衡分析
电力系统及其自动化发展趋势分析