基于COPES 理论预测网络学习中的钻牛角尖*

2024-01-02 14:30龚科刘玉张艺红李俊一
应用心理学 2023年6期
关键词:解释性钻牛角尖元认知

龚科 刘玉 张艺红 李俊一

(四川师范大学心理学院,成都 610066)

1 引言

1.1 钻牛角尖定义

坚持性、尽责性和自我控制通常被认为是优秀学生的必备品质。它们与学生的学业成绩、创造力以及未来收入呈正相关(Credé et al.,2017)。然而,并非所有的坚持都有效,有些学生努力学习却不见成效。Beck 和Gong(2013)最早在智能导学系统(Intelligent Tutor System,ITS)中发现了一种无效的坚持行为,并取名为wheel-spinning。我们将其意译为钻牛角尖,指学生花费大量时间在某个知识点的学习上,但始终达不到掌握,他习惯不假思索地连续答题,既不停下反思,也不寻求帮助。对钻牛角尖的操作定义有很多,如Beck 和Gong(2013)在ASSISTments 平台上,将学生连续答题十次以上却没有掌握该技能的行为标记为钻牛角尖,并发现约38%的学生存在钻牛角尖。对于“达到掌握”的标准,ASSISTments 平台将连续正确回答3 次问题视为“达到掌握”。在一款名为Cognitive Tutor 的ITS 中,通过贝叶斯知识追踪(Bayesian Knowledge Tracing,BKT)对学生的知识掌握情况进行推算,熟练度大于95%则视为“达到掌握”。无论采用哪种操作定义,钻牛角尖都普遍存在,且常伴随学业不良现象。该行为不仅影响学习效果和自我效能感,且学生更难进入大学深造(Adjei et al.,2021)。本研究则将钻牛角尖定义为学生在某个问题集(problem set)上回答十次或以上,仍未达到掌握且不向系统求助。根据本文所用ITS 特性,一个问题集对应十个问题,故将十次设为临界点;该定义也是沿用领域内对钻牛角尖的经典操作定义。

1.2 钻牛角尖预测研究

为帮助学习者达到更好学习效果,提升自学能力,许多人试图实现钻牛角尖的自动预测。Kai 等(2018)运用决策树对学生在ITS 中的答题行为序列进行建模,最终模型的AUC(评价模型效果的主要指标,越接近1 预测效果越好)达到0.684,发现较少使用系统提示功能的学生更可能钻牛角尖。Zhang 等(2019)发现学生的答题速度、注意力与钻牛角尖关联很强,学生不愿停下反思而是不断答题,导致无法掌握知识点。虽然前人运用机器学习预测钻牛角尖的精度和速度逐步提高,但这些研究尚存在诸多问题。首先,前人更加注重模型预测效果,忽略了模型可解释性;导致不清楚钻牛角尖的内在机制,无法开展有针对性的干预。其次,特征工程未充分考虑特征的可操控性(actionable features),无法用于进一步的干预工作。最后,大多数研究是以问题集为水平(problem-set level)进行建模,没有考虑学生的个体特征。

1.3 钻牛角尖潜在心理机制

造成以上问题的重要原因是以往研究通常是数据驱动,缺乏心理学理论指导。Beck 等人(2014)认为钻牛角尖的内在机制可能与学生的认知/元认知有关。在元认知领域,Winne 和Hadwin 提出的COPES模型(1998)得到广泛认可。该理论将学习过程简化为四个阶段:任务定义、目标设定和计划、学习策略使用及元认知适应。每一阶段又包含五个内部过程,即条件(conditions)、认知操作(operations)、产物(products)、评估(evaluations)和标准(standards)。每一阶段都处于元认知监控之下。即元认知监控处于核心地位,并主导着学生的自我调节。

钻牛角尖的学生锲而不舍地投入认知资源,却难以获得更多的学习收益。尽管他们显示出一定程度的自我调节(受挫后继续),但收效甚微。我们认为可能的机制之一是COPES 模型中的认知操作不当导致元认知监控水平降低,在行为上表现为刻板地调用某种学习策略。龚德英等(2008)的研究表明元认知能力较强的学生其迁移能力更强,能更顺利地调用学习策略实现自我调节,并进入元认知适应阶段。

学业水平较高的学生其学习前后的认知评估都能准确预测其成绩,而学业水平较低的学生学习前进行的认知评估对其成绩的预测能力明显低于学习后进行的认知评估(Hacker et al.,2000)。因为学生在认知评估时,是基于COPES 理论中条件形成的任务感知与信念(Greene &Azevedo,2007),这表明COPES 理论中的条件对认知操作有着重要影响。实际上,认知操作过程是SMART 过程(Winne,2022),即当学生接收到外界材料刺激时,他们的脑海中会提取相应的陈述性知识和程序性知识(task conditions),以形成对任务的感知,进而制定目标和学习策略。例如,当项目难度提升时,元认知监控能力明显下降(Kai et al.,2018)。学生可能难以提取或错误提取完成当前项目所需要的条件,这使得他们的元认知监控能力受到显著影响。总体来说,钻牛角尖的潜在机制可能是认知操作不当导致元认知监控下降,条件起到了重要的调节作用。

1.4 Reasoning Mind

虽然COPES 理论已得到问卷调查和实验研究的支持,但来自教育大数据的证据相对较少,其生态效度需进一步提升。我们在一款名为Reasoning Mind 的ITS(如图1)收集实际教学的大数据以开展钻牛角尖预测研究并检验COPES 的生态效度。该系统针对美国小学生的数学教学,每年有超过10 万名学生在学校课堂中使用它进行混合学习并取得良好成效(Slater et al.,2018)。Reasoning Mind 内置多个功能模块,例如:(1)Guided study,主要用于课堂教学的模块;(2)Game room,类似游戏竞赛的速度测验;(3)Mail box,学生与教学代理互动的邮件系统。一般来讲,参与正常教学的学生在整学年中会使用Reasoning Mind 至少84 个小时,每周约2 小时。

1.5 小结

综上所述,前人研究尚存在机器学习模型可解释性差、特征可操控性不强、未充分考虑学生的个体特征以及缺乏理论支撑等问题。对此,本研究以学生为水平对日志数据进行操控性较强的特征工程,提取与认知/元认知有关的特征,以增强模型可解释性。并基于COPES 理论对模型结果进行解释,使未来的干预研究有理论基础且具备较好操控性。

2 方 法

首先,收集并清洗学生在ITS 中的日志数据;其次,根据对钻牛角尖操作定义(见2.2 部分)对学生出现钻牛角尖的次数进行标记;然后,以学生为单位将与认知/元认知监控相关的特征数据化;最后,采用机器学习的回归类算法和交互验证,构建预测学生钻牛角尖次数的模型。

2.1 数据来源

所用日志数据来源于Reasoning Mind。它包含多个学习模块和一个虚拟游戏社区,提供课堂教学、巩固练习、奥数、家庭作业布置和教学代理支持等功能。我们收集了来自229 所学校二至六年级小学生从2016年8 月至2017 年6 月的原始日志数据。数据包含学号、操作行为、时间戳、答题记录、是否使用提示和提示的粒度数等,共包含29483 名学生产生的197530625 条记录。

2.2 数据预处理

首先,根据钻牛角尖的操作性定义,即在一个问题集中回答十次问题仍达不到掌握,剔除回答次数少于十次的无效问题集,剩余26593 名学生的174579250 行记录,包含227 所学校的7876 名二年级生,7105名三年级生,6634 名四年级生,4812 名五年级生和166 名六年级生。其次,通过BKT算法,根据学生在每个知识点的首次作答情况,推算学生“达到掌握”的概率(Corbett&Anderson,1995),便于后续提取与认知/元认知有关的特征。

2.3 特征工程

特征工程优先考虑模型可解释性和特征的可操控性,参考前人研究、理论和系统特性提取了25 个特征(附录1),包括但不限于任务完成时间、提示次数和求助后停留时间等。其中,“二次尝试”“触底提示”“尝试难题”“回避求助且答对”“回避求助且答错”“求助后短停留和长停留且答对”“求助后短停留和长停留且答错”“答错后停留时间”“超50 词邮件”“超过6s 且答错”等特征不仅与元认知监控过程和学习策略使用阶段密切相关,还受到条件和认知操作的影响。例如,学习者根据自身知识水平(条件)判断当前题目难度并选择相应学习策略,根据元认知监测结果调整认知操作,重新制定学习策略(如“二次尝试”“尝试难题”“回避求助”等)。另外,钻牛角尖的重要表现是拒绝反思,我们据此纳入了6 个可能标示学习者进行反思的特征(即“求助后长/短停留且答对/答错”“答错后停留时间”“超50 词邮件”)。此外,答题时间、答题正确率、装饰花费、连续正确回答和电子书花费等特征具备较好可操控性,后期干预可以从这些特征入手。

2.4 建模过程

以往研究通常按钻牛角尖的出现与否对学生进行简单分类,这将偶尔钻牛角尖和经常钻牛角尖行为的学生混淆在一起,容易出现样本不平衡,即绝大部分学生会被判定为钻牛角尖群体,因为钻牛角尖仅1 次的学生也会被归为该群体。这种简单二分法不利于对钻牛角尖的深度理解和干预。因此,我们采用回归法预测学生钻牛角尖的次数。

通过Python 的scikit-learn 进行机器学习建模。为保证模型可解释性,未涉及深度学习,而采用教育数据挖掘常规算法,即线性回归、随机森林回归、梯度提升决策树回归(gradient boosting regressor)、岭回归、Lasso、决策树和极限树预测学生的钻牛角尖次数。用十折交叉验证对模型进行训练和评估,即把数据随机分割为10 份,其中9 份用于训练,剩余1 份用于评估;据此迭代10 次,得到10 份模型的评估指标,随后对这10 份评估指标进行平均,获得模型最终评估指标。最后,选用R2,MSE(均方误差),RMSE(均方根误差)和MAE(平均绝对误差)作为模型评价指标。

3 结果

将元认知监控相关特征和可操控性特征分为两组计算两两相关,图2 和3 呈现了经过False discovery rate 程序校正后的结果。对元认知监控特征,“超过6s 且答错”“求助后长停留且答错”“求助后短停留且答错”“钻牛角尖次数”有高相关。对可操控性特征,系统使用的“总时长”“总操作数”“答题时间总和”“钻牛角尖次数”有高相关。这和钻牛角尖的定义相似。

图2 元认知监控特征之间的相关热力图

图3 可操控性特征之间的相关热力图

另外,将学生在Guided study(课堂教学使用的主要模块)的答题正确率按前后27%分为高低学业成就组,对比两组学生在所有元认知监控特征和钻牛角尖次数上的显著差异(附录2)。结果发现,高成就组的钻牛角尖次数显著少于低成就组,在回避求助和答题后停留等特征上两组也存在显著差异。

表1 呈现了钻牛角尖模型的预测效果,线性回归、随机森林回归、梯度提升决策树回归、岭回归和Lasso 的各项指标表现较好,且较为接近。其中,岭回归的预测效果最好,拥有最大R2和最小RMSE、MSE,而决策树和极限树的预测能力较差。

表1 钻牛角尖预测模型的效果

进一步对排名前五的模型进行性能分析,将钻牛角尖次数的实际值与预测值进行可视化(如图4)。设置散点图的横轴为预测值,纵轴为实际值。散点越接近斜45°线,代表误差越小,预测效果越准确。五种模型预测结果分布类似,误差在可接受范围之内,都可进行有效预测。

图4 回归模型性能可视化

为探究哪些特征对钻牛角尖的影响最大。通过scikit-learn 的内置函数计算了各模型的特征重要性,并列出了表现较好的五个模型中的前五个重要特征(附录3)。重点关注在所有模型均占据重要位置的特征,便于后续对模型解读。

4 讨论

基于26593 名小学生在ITS 中的日志数据,用机器学习对学生在ITS 中的钻牛角尖进行了预测。岭回归的预测效果最佳,但线性回归、梯度提升决策树回归、随机森林和Lasso 的各项指标也表现良好且接近,经交叉验证的R2均值接近0.68~0.7。在多个模型中反复出现的重要特征有“二次尝试”“连续5 次答对(跨问题集)”“超过6s且答错”“超50 词邮件”“尝试难题”。

4.1 模型预测效果与可解释性

以往研究常使用分类模型,达到了很高的预测准确率和速度(Wang et al.,2020),并实现了自动反馈(Mu et al.,2020);但将学生简单贴上“钻牛角尖”和“不钻牛角尖”标签,可能导致教师或学生就接受了模型赋予的标签,产生期望效应;也有把偶尔钻牛角尖的学生认定为“差生”的风险。故本研究选择回归类方法避免上述问题,也达到较好预测效果,最佳模型的R2较高,各误差指标也处于较低水平。

另外,教学实践对模型预测速度和精度有很高要求,但其可解释性难免会被牺牲,这也是领域“重数据轻理论”的现状,钻牛角尖心理机制始终无法明晰。虽然本文未直接运用实验法对钻牛角尖心理机制进行因果关系探究,但从特征工程到建模结果皆注重COPES 理论指导,以提升模型可解释性。不过这也使得我们没能尝试深度学习这类预测精度可能更高的算法,削弱了模型预测效果。总之,如何在理论与应用,或者模型可解释性与预测效果之间取舍权衡值得未来探讨。

4.2 基于COPES 的建模结果解释

以往研究考察了不同情境下学习者的表现,如有时间压力时他们倾向选择容易项目,无时间压力时则学习困难项目(Winne&Jamieson-Noel,2003)。在COPES理论看来,时间压力和项目难度是调节学习行为的条件之一,学习者能在不同条件下选择适当学习策略意味着元认知监控成功。本文则关注元认知监控失败。Almeda等(2017)指出学习者在面对难题时,元认知监控下降,更愿采取不间断学习的策略(Lisa&Son,2004)。这反映困难项目与元认知监控有负向关系。本文结果显示,学习者的“尝试难题”占比越高,越可能钻牛角尖,面临元认知监控失败风险。

答题“超过6s 且答错”可能反映学习者先验知识不足,它正向预测钻牛角尖。前人研究已证实先验知识不同的人在认知加工策略上的差异,如专家使用深层策略、新手使用表面策略(Alexander et al.,2004)。作为COPES 中的认知条件,先验知识影响着学习任务的难度判断,进而干扰认知操作和元认知监控(表现为钻牛角尖)。我们发现,高低学业成就组在“回避求助且答错”和“钻牛角尖次数”等变量上均存在显著差异。同时,“超过6s 且答错”也正向预测钻牛角尖,支持了前人结论(Wan &Beck,2015)。

反思或审视学习过程是COPES 中元认知监控过程和元认知适应阶段的重要功能,也是钻牛角尖学生的短板。“二次尝试”和“超50 词邮件”在所有模型中均占据重要位置,且和钻牛角尖呈负相关,可能反映了反思或审视功能。有学者发现准确进行学习判断(元认知监测指标)的学生更愿意花时间重新学习错题(Robey et al.,2017),记忆信息的重编为元认知监控提供了学习判断的依据(Zawadzka et al.,2018)。再次尝试做错的题也是重新学习,由COPES 中的元认知评估过程负责。我们发现,高成就学生向教学代理写的“超50 词邮件”显著多于低成就学生,可能表明高成就组的反思过程更多。不过,低成就组的“二次尝试”显著多于高成就组,这可能因为我们划分高低成就的依据是学生在课堂中使用Guided study 模块的正确率,正确率低的学生自然就会被教师要求对错题进行二次尝试,可能并不表明低成就学生的反思能力强于高成就组。如果以学生的期末成绩为划分依据的话,可能有不同结果。

给教学代理写邮件是涵盖反思、求助和总结等过程的自发行为。从元认知适应角度,Winne 和Hadwin(1998)认为学习者需要整合学习阶段信息用来调整先前经验下的认知和元认知操作形式,更好应对未来相似的任务。从元认知监控角度,反思帮助学习者有效利用资源(Chen et al.,2017),善于利用资源求助的人自我调节能力通常更强(Ryan&Shin,2011);不善于求助的儿童元认知监控水平通常较低(Nelson &Fyfe,2019)。上述研究表明反思和求助行为与高元认知监控相关。本文结果显示给教学代理写“超50 词邮件”负向预测钻牛角尖,也支持COPES 理论。

4.3 研究局限与贡献

尽管本研究发现与元认知监控有关的特征能够很好地预测钻牛角尖,但存在一些局限:第一,部分特征无法很好地从认知/元认知角度解释为何会对钻牛角尖造成影响。第二,模型效果还有待提高。第三,以学生为水平的建模不能够开展实时监测。第四,元认知可能随年龄发展而提升,但我们未对不同年级学生单独建模,故模型效果可能略有不同。但也有研究表明童年中期已拥有与成年期相当的元认知能力(Liu et al.,2018),且本研究高年级生(五至六年级)占比不足20%,不同年龄群体的元认知差异可能对建模结果影响有限。未来可尝试通过深度学习,实现快速而精准的检测;还可提取更多与元认知监控相关的特征完善模型的可解释性。

虽然存在以上局限,但本文也从以下方面对领域做了贡献:第一,从“理论驱动”视角尝试钻牛角尖的建模与解释,避免以往研究“重数据轻理论”导向。第二,以实际教学生成的教育大数据验证COPES 理论,提升生态效度;第三,以往研究通常以几十至数百人的日志数据建模,而本文数据体量是以往研究的数十倍甚至百倍,提升了建模结果稳健性。第四,不再以二分类模型简单对学生贴上“钻牛角尖”和“不钻牛角尖”标签,而运用回归方法预测钻牛角尖的程度,避免后期让教师和干预实施者对学生产生期望效应。

5 结论与展望

岭回归能最佳预测钻牛角尖,与认知/元认知有关的特征与钻牛角尖密切相关,支持了COPES 理论。

未来研究和设计者应重视学生的元认知监控,目前国内外少有ITS 专门针对学生的元认知能力进行训练。ITS 设计可以增加钻牛角尖的预警和干预模块,实时监测便于及时干预。如通过系统推送和教师干预来引导学习行为。也可针对ITS 的求助提示和答题思路开发教程,避免钻牛角尖。或者当学生钻牛角尖时,系统可以更换当前的习题集,避免学生陷入困难,使其一直处于最近发展区中。

致 谢

宾夕法尼亚大学的Ryan Baker 教授、Jaclyn Ocumpaugh、Stefan Slater 博士以及Reasoning Mind 的Mattthew Labrum 提供了本研究数据,在此表示诚挚的感谢。

猜你喜欢
解释性钻牛角尖元认知
基于元认知的数学焦虑研究
论行政自由裁量的“解释性控权”
英汉互译中的认知隐喻翻译探究
元认知策略在高中英语阅读教学中的应用
破绽百出的叙述
融媒体时代解释性报道的发展之路
潇洒才年轻
非解释性宪法适用论
潇洒才年轻
元认知在大学英语教改中的应用