钱源,施佺
(南通大学教育科学学院,江苏南通226019)
关联规则在网络学习平台中的应用研究*
钱源,施佺
(南通大学教育科学学院,江苏南通226019)
网络学习的兴起引起了对网络学习过程和网络学习结果如何评价的争论与研究,网络学习平台的大数据分析也是近年来教育研究者关注的热点问题。文章将教育数据挖掘方法中的关联规则分析应用到网络学习平台的数据分析当中,探讨网络学习因素与学习结果等方面的关联,发现了网络学习过程中存在的问题,并为网络学习的教学改进、教学质量的提高提供了丰富的决策支持信息。
网络学习;关联规则;数据离散化;决策支持
2012年3月,教育部颁布了《教育信息化十年发展规划(2011-2020年)》[1],提出要实现优质数字资源建设与共享、学校信息化能力建设与提升等多项内容,推进教育与技术的融合。本质上而言,教育信息化即是运用信息化手段改善教育、优化教育,这里的教育既包括传统意义上的课堂教育,也包括目前兴起的网络教育,同时还包括教育过程、教育主体、教育内容等多个因素。运用信息化手段实现教育的优化、可持续性,提升教育质量,提高师生信息化水平,为教育带来新的变革。
随着计算机技术的发展,网络教育日益兴起,为传统教育增添了新的活力,得到普遍推广与应用。网络教育突破了时间和空间的限制,为学习者带来了诸多便利;但是网络教育存在缺少教师监控、学习者学习过程得不到有效监督等问题,引起了许多教育研究者的关注,特别是网络学习效果以及网络学习质量、网络学习影响因素等,是目前国内外学者集中研究的重点问题。[2]
本文利用教育数据挖掘技术中的关联规则分析,对网络学习过程中产生的学生学习数据进行数据挖掘,探究网络学习效果、网络学习成绩与学生网络学习时间、网络学习模块、性别等因素之间的关联,为网络教学的下一步改进提供决策支持信息,帮助教师了解学生真实的网络学习状况,更好地引导学生进行网络学习,最终达到提高网络学习质量、推进高校教育信息化的目的。
1.教育数据挖掘
大数据时代的到来使人们对于数据挖掘的概念已不再陌生。数据挖掘主要用于对大规模、无序杂乱的、不完全的、有噪声的但是又包含大量为人所不知的、隐藏的有用知识的数据分析方法,它可以对数据进行收集、处理、转化、分析、挖掘,从而得到有用信息,进而为商业决策提供支持。而教育数据挖掘,顾名思义,即数据挖掘在教育领域的应用。随着教育信息化的开展,教育系统中投入使用了大量计算机办公系统、网络学习平台等,这些信息化软件在使用过程中产生大量数据,将这些产生于教育领域的数据 (包括传统课堂的教育数据)称之为教育大数据,对教育大数据进行的数据挖掘则称为教育数据挖掘。关于教育数据挖掘的概念,国际教育数据挖掘工作组网站将其定义为,运用不断发展的方法和技术,探索特定的教育环境中的数据类型,提取有意义的信息,帮助教师更好地理解学生,改善他们所学习的环境,为教育者、学习者、管理者等教育工作者提供服务。[3]
2008年第一届教育数据挖掘国际会议召开,此后教育数据挖掘的研究更是如日中天。Muna等人对2006-2013近7年中谷歌学术上 300余篇教育数据挖掘相关的文章进行了综述,介绍了国外的研究现状,主要阐述了数据收集和处理方式、数据分类方法、常用数据挖掘方法以及目前所存在的问题和挑战。[4]国外的教育数据挖掘实证研究主要用于预测学生学习成果、预测学生辍学率,帮助教师提醒学生、降低学校辍学率等。国内的李婷等人对国内外的教育数据挖掘进行了综述,为了解当前教育数据挖掘发展现状提供了有利的文献资料。[5]
2.关联规则
关联规则是数据挖掘算法中非常经典的挖掘算法之一,其最经典的应用为购物篮分析。该算法通过挖掘频繁项集来发现属性之间的联系,主要包括两个步骤,第一步是计算密集型阶段,挖掘出频繁项集;第二步是基于频繁项集来生成关联规则,一般规则均描述为包含左项集 (条件)和右项集 (结论)的一对,并通过置信度和支持度来衡量规则的重要性和可信度。
最经典的关联规则算法是 Apriori关联规则算法,本文使用基于该算法的Microsoft关联规则算法进行关联分析。挖掘频繁项集是关联规则算法的核心部分,Apriori算法使用逐层搜索的迭代方法来发现频繁项集。首先,找到项集数为1的频繁项集集合,记作L1,用L1再去寻找项集数为2的频繁项集集合,以此类推,直到没有更大项集数的频繁项集集合,最后,在所有的频繁项集中找到强规则,即是用户感兴趣的关联规则。Microsoft关联规则主要通过支持度、概率(置信度)和重要性判断规则的有用性和重要程度。支持度用于度量一个项集的出现频率,A→B的支持度support=P(AB),指的是事件A和事件B同时发生的概率;概率是关联规则的属性,在数据挖掘领域也成为置信度,规则A=>B的概率可以表示为:Probability(A=>B)=Probability(B|A)=Support(A,B)/Support(A);重要性也成为兴趣度分数或者增益,用于度量项集和规则,可以用公式定义为:Importance({A,B})=Probability(A,B)/ (Probability(A)*Probability(B)),重要性为0表示无关联,重要性为正表示正关联,重要性为负表示负关联。
1.问题提出
目前,网络学习并没有非常严格且通用的评价体系和指标,一般直接通过网络学习的最终考试判定网络学习结果;高校内与课堂教学相结合的网络学习,教师主要关注学生的网络学习时间是否达到标准,最终的网络学习效果仍然是通过期末的笔试成绩来考察。[6][7]学生的网络学习到底有没有成效,网络学习过程中有哪些欠缺之处,教师都无法发现。虽然有些网络学习平台会提供简单的数据分析功能,但是远远不能为优化网络学习提供有力依据。
关联规则在网络学习中的应用,能通过对网络学习数据的分析,发现网络学习因素之间的关系,以及与学习成绩之间的关联,根据关联分析所得出的规则,能够帮助教师透彻地了解学生网络学习的真实状况,从而更好地监督学生学习,并为网络学习提供改进和完善的建议,提高网络学习质量。
2.数据搜集
本文所用的数据来自于某校英语网络学习平台,该平台由外研社提供,用于辅助大学英语教学。根据大学英语教学大纲,学生每两周接受一次课堂辅导,每周需自主完成至少4个小时的网络学习任务。在英语网络学习平台中,学生需要自主完成对课本知识的学习,包括读写课程、听说课程、在线测试等,平台还包括学习工具、广播台等辅助工具。学生原始学习数据主要包括网络学习时间、网络学习模块以及在线测试成绩,其中网络学习模块主要涉及平台首页、听说教程、读写教程和在线测试,其他页面浏览人次较少,不纳入分析。
除了网络学习数据,本文所使用的数据还包括学生个人信息、期末英语成绩以及大学英语四级成绩。通过对网络学习因素与英语成绩的关联分析,得到这些因素之间的关系,从而为改进大学英语网络学习提供决策支持。
3.数据处理
除却对缺失、错误数据的删除、完善和修补,本文数据处理最关键的步骤在于如何对数据进行分类。关联规则算法是一个计数引擎,只用于计数离散属性状态的相关性,因此它不接受连续属性,只能对离散属性值进行关联规则分析。本文所获得的数据均为连续值,将这些连续属性进行离散化处理是数据处理的重点工作。
数据离散化方法主要有三类,无监督离散化和有监督离散化,全局离散化和局部离散化,动态离散化和静态离散化,其中无监督离散化又包括等宽分箱法和等频分箱法。本文采用无监督离散化的等频分箱法进行数据分类,预先设定好分类数,将数据按从小到大的顺序排好,按数据量将数据平均分配到每一个分类,并做适当调整。相较于等宽分箱法将变量取值范围分为N个等宽的区间,而各区间数据量分配可能存在很大偏差的数据分类方法,等频分箱法更适合于对进行关联规则分析的数据进行离散化分类。
需要进行离散化分类的属性主要为在线时间、是否进行在线测试、期末英语成绩、大学英语四级成绩,最终得到如表1所示的离散化属性编码表。
表1 各属性离散化编码表
在对属性进行分类时,英语期末成绩低于60分的人数不多,如果作为一个单独分类,会导致分类间数据量的不一致,因此按照等频分箱法分为四个类别;而在线测试分类中,有几乎一半的学生没有在线测试成绩,因此仅分为两个类别;此外,还定义了“学习模块”这一属性,根据学生在各个模块所花时间的多少进行筛选,选出学生所花时间最多的模块作为 “学习模块”,考察学生在网络学习过程中花费时间最多的模块。
对进行了在线测试的学生进行单独分析,考察其网络学习习惯与期末成绩的关联。主要考虑他们在首页、学习页面(听说页面和读写页面)、测试页面所花时间,并重新对在线时间、期末英语成绩进行分类,依然按照等频分箱法对数据进行离散化,新的属性离散化编码表如表2所示。
表2 完成在线测试学生各属性离散化编码表
4.关联分析结果
利用SASS(SQL Server Analysis Services)进行关联规则分析,采用的关联规则算法是基于Apriori算法的Microsoft关联规则,通过计算频繁项集得到关联规则。分两组进行关联分析——全部学生和参与在线测试的学生,最终得到以下规则:
(1)全部学生关联分析结果
全部学生样本包括10086人,挖掘英语网络学习过程中“在线时间”、“学习模块”、“期末英语成绩”、“英语四级成绩”、“是否进行在线测试”之间的关联,得到以下规则:
规则1:学习模块=“首页”,在线时间=“T3”,期末英语成绩=“S1”,英语四级=“未通过”,支持度为0.447,重要性为0.545。在线时间多,但花费时间最多的页面为首页,期末英语成绩差,英语四级未通过。
规则2:学习模块=“在线测试”,期末英语成绩= “S4”,在线时间=“T3”,英语四级=“C3”,支持度为0.624,重要性为0.369。在线时间多,花费时间最多页面为在线测试,期末英语成绩好,英语四级成绩好。
规则3:期末英语成绩=“S4”,英语四级=“C3”,支持度为0.586,重要性为0.465。期末英语成绩好,英语四级成绩好。
规则4:学习模块=“读写页面”,在线时间=“T3”,性别=“女”,在线测试=“是”,支持度为0.571,重要性为0.267。在线时间多,花费时间最多的页面为读写页面,性别为女,进行了在线测试。
规则 5:学习模块=“首页”,在线时间=“T1”,在线测试=“否”,支持度为0.889,重要性为0.534。在线时间少,花费时间最多的页面为首页,未进行在线测试。
规则6:学习模块=“在线测试”,期末英语成绩= “S3”,性别=“女”,在线测试=“是”,支持度为 0.504,重要性为0.478。花费时间最多的页面为在线测试,期末英语成绩好,性别为女,进行了在线测试。
从上述规则可以看出,期末英语成绩好的学生往往英语四级也能取得好的成绩;花费较多时间在学习页面或测试页面,英语成绩较好;没有好好利用网络学习平台即在无学习内容的首页花费时间较多的学生,一般不进行网络在线测试,英语成绩也一般;参与在线测试的女生较多,且女生期末英语成绩往往较好。
(2)参与在线测试学生的关联分析结果
参与在线测试的学生共5211名,对这部分学生的网络学习因素和期末英语成绩进行关联分析,将“学习模块”、“在线时间”、“首页”、“学习页面”、“测试页面”作为输入值,“期末英语成绩”作为输出值,得到以下规则:
规则1:学习模块=“在线测试”,学习页面=“X2”,期末英语成绩=“S3”,支持度为0.833,重要性为0.411。在线测试页面花费最多时间,学习页面所花时间中等,期末英语成绩好。
规则2:在线时间=“T1”,学习页面=“X1”,期末英语成绩=“S1”,支持度为0.547,重要性为0.385。在线时间少,学习页面所花时间少,期末英语成绩差。
规则3:学习模块=“首页即其他”,在线时间=“T1”,期末英语成绩=“S1”,支持度为0.667,重要性为0.305。首页所花时间最多,在线时间少,期末英语成绩差。
规则4:测试页面=“E1”,学习页面=“X1”,期末英语成绩=“S1”,支持度为0.526,重要性为0.267。测试页面所花时间少,学习页面所花时间少,期末英语成绩差。
规则 5:学习页面=“X3”,测试页面=“E3”,期末英语成绩=“S3”,支持度为0.459,重要性为0.222。学习页面所花时间多,测试页面所花时间多,期末英语成绩好。
从以上5条规则可以看出,如果学生的网络学习习惯好,花费较多时间进行在线学习,且在学习模块花费时间较多,则期末英语能取得好成绩;而当学生网络学习行为差,花费较少时间进行网络学习,且在首页花费较多时间时,期末英语成绩往往较差。这表明,良好的网络学习习惯与期末英语成绩有着较大关联。
通过对英语网络学习平台的学习数据等进行关联分析,得到相关规则,发现了英语网络学习过程中存在的诸多问题,对于教师的英语教学、学生的自主学习都有一定的启示和指导作用。传统网络教学过程中,教师通常只布置学习任务,较少进行督促和指导,对于学生网络学习的评判仅限于是否完成规定的学习时间及期末考试成绩,这并不利于网络学习的可持续发展。根据分析结果,为英语网络教学提出以下几条关键信息以及改进意见:
1.网络学习因素与期末成绩有密切关联
根据关联分析结果,学生在线学习时间越多,较好地完成在线测试内容,且在学习页面所花时间较多,期末英语会取得好的成绩;而当学生花过多时间在首页模块“挂时间”,不进行真正的网络学习时,期末英语成绩往往较差。优秀的信息选择能力和自主学习意识是学生进行网络学习必不可少的关键因素,只有当学生有较强的自主学习意识、自我控制力,并能抵抗网络的诱惑,选择对提升自我知识有真正帮助的学习信息时,网络学习才能算是成功并达到预期的效果。为此,学校应该重视培养学生的网络学习素质,改善网络学习板块,增强趣味性和有用性,首先引导学生对网络学习产生兴趣,进而让学生感受到网络学习对提高英语水平切实有用,才能将学生朝着正确的网络学习道路上引导。网络学习与传统学习最大的差别在于缺少教师的监管,教师要加强对网络学习的监管,增强师生交流。网络学习需要教师付出更多的精力,要及时监督学生是否按时完成网络学习要求,还要安排固定时间与学生进行交流,对网络学习过程中遇到的疑难问题进行及时辅导。
2.丰富多样的网络学习内容有助于学生能力的提高
关联分析结果发现,学生的网络学习因素与英语四级成绩关联性不强,说明学生的英语网络学习对大学英语英语四级没有起到促进作用。英语学习平台不应该只是书本知识的学习,更应该是提高学生英语水平的平台,在英语学习平台中增加丰富的大学英语四级辅导知识、真题测试、模拟测试等板块,让学生在基础知识学习完毕的基础上能有所提升。一方面能提高学生网络学习的积极性,另一方面也丰富了英语学习平台的功能性,真正发挥英语学习平台帮助学生学习英语、提高英语水平的初衷和目的。
3.协作与交流是网络学习过程中必不可少的重要环节
该网络学习平台并没有涉及到网络互动与小组协作学习的环节,存在一定的缺陷。网络学习并不是孤立的个人学习,网络学习过程中必要的师生、生生互动交流是必不可少的环节。小组协作学习在一定程度上能促进小组成员的学习,培养学生协作交流能力;师生之间的互动交流更是能让学生感受到教师的存在,教师并没有消失于学习过程,仍然在监督和督促自己的学习,有助于约束学生。
4.教师的监督和引导是网络学习过程中至关重要的部分
网络学习是由学生-计算机构成的人机交互式学习,计算机无法给出及时的反馈信息,也无法监督学生学习态度是否端正,网络学习需要学生有较强的自主学习能力和自制力。在网络学习中,教师看似轻松,不用面授课程;但实质上,网络教学要取得成功,教师必须付出更多的努力。首先,教师应该适时引导学生,教授学生正确进行网络学习的方法;其次,教师要及时监督学生网络学习状况,对未按时完成网络学习任务的学生给予及时反馈;最后,教师要加强与学生的线上交流与互动,让学生感受到网络学习既能随时随地学习,又能保持与教师的沟通互动。高校在开展网络教学初期,应该注重对教师网络教学能力的培养,增强教师网络教学能力,从而顺利开展网络教学活动。
本文将关联规则算法应用于网络学习平台的数据挖掘当中,分析了网络学习因素与学习结果之间的关联,并且找出了网络学习过程中存在的一些问题,对于网络学习的教学改进提供了决策支持,为改善网络教学、提高网络学习质量提供了切实的依据。
[1]教育部.教育信息化十年发展规划(2011-2020年)[DB/OL].http://www.moe.gov.cn/ewebeditor/uploadfile/ 2012/03/29/20120329140800968.doc,2012-04-01.
[2]Ruipérez-Valiente JA,Mu?oz-Merino P J,Leony D,et al.ALAS-KA:A learning analytics extension for better understanding the learning process in the Khan Academy platform[J].Computers in Human Behavior,2014(4):90-101.
[3]Educational Data Mining[DB/OL].http:// www.educationaldatam ining.org
[4]Al-Razgan M,Al-Khalifa A S,Al-Khalifa H S.Educational datam ining:A systematic review of the published literature 2006-2013[C].Proceedings of the First International Conference on Advanced Data and Information Engineering(DaEng-2013).2014:711-719.
[5]李婷,傅钢善.国内外教育数据挖掘研究现状及趋势分析[J].现代教育技术,2010(10):21-25.
[6]肖志明.关联规则在远程教育教学评价中的应用[J].中国远程教育,2012(9):39-42.
[7]吴青,罗儒国,王权于.基于关联规则的网络学习行为实证研究[J].现代教育技术,2015(7):88-94.
(编辑:鲁利瑞)
G434
A
1673-8454(2016)14-0078-05
江苏省普通高校研究生科研创新计划项目“e-Learning环境下学生网络学习行为的数据挖掘与分析”(YKC14023);全国教育信息技术研究“十二五”规划立项重点课题“基于数字化校园的学生上网行为数据挖掘技术研究”(136221504);江苏省现代教育技术研究2014年度重点课题“基于e-Learning的高校教育大数据挖掘分析与研究”(2014-R-30418)阶段性研究成果;江苏省研究生教育教改课题(JGLX 15_102)。