基于系统性文献综述的多模态学习分析研究进展与前瞻

2022-11-29 06:14尹睿何淑茵

现代远程教育研究 2022年6期

□尹睿何淑茵

一、引言

2021年12月，中央网络安全和信息化委员会印发《“十四五”国家信息化规划》，提出要建立高效利用的数据要素资源体系（中央网络安全和信息化委员会，2021），激发和提升数据要素赋能作用，以创新驱动、高质量供给引领和创造新需求。在教育领域，激发和提升数据的创新驱动作用是深化新时代教育评价改革的新趋向。随着大数据、物联网、移动互联网、人工智能等新一代信息技术的蓬勃发展，教育数据的赋能作用逐渐普及，使得教育研究从“假设驱动”走向“数据驱动”，催生并孕育出“教育大数据研究范式”（赵佳丽等，2020）。在此背景下，多模态学习分析（Multimodal Learning Analytics，MMLA）悄然兴起，并走入人们的视野。它打破了传统评价仅仅以计算机为介导的单一渠道（如在线学习管理系统、社交网络环境）获取单一模态数据的局限，主张通过捕获、融合和分析跨情境、跨空间等更为复杂开放的学习环境中的语音、行为、表情、生理等多源异构数据，解释和预测学习者的行为习惯、认知规律、心理状态与情感变化。这对于构建连接高层学习理论与底层数据的学习者模型，实现科学化、精准化、个性化、全景式的教学评价，以更好地优化学习者的学习体验，助力学习者更加投入、更加有效地开展学习等具有重要价值。

当前，多模态学习分析方兴未艾，日益成为学者们认识、理解学习进而优化、变革学习的重点课题。然而，如何采集数据（Worsley et al.，2015；Spikol et al.，2017）、融合数据（Kadadi et al.，2014；Samuelsen et al.，2019）、建模数据（牟智佳，2020；王一岩等，2021）依然是多模态学习分析从教育实验环境的个案分析走向真实教育场景的全样本透视亟需破解的问题。因此，本研究将聚焦多模态学习分析中的数据采集、融合、建模三大问题进行梳理和阐释，以期为多模态学习分析的应用提供整体性思路。

二、研究方法

本研究采用系统性文献综述法，通过对相关文献进行检索、筛选和评估，最终确定研究文献样本。

1.文献获取途径

为有效检索国内外多模态学习分析的相关研究文献，本研究在Web of Science、Springer Link及Science Direct等权威数据库，及多模态交互国际会议（International Conference on Multimodal Interaction，ICMI）、学习分析与知识国际会议（International Conference on Learning Analytics and Knowledge，LAK）、计算机系统中的人类因素国际会议（ACM International Conference on Human Factors in Computer Systems，ACM CHI）、多媒体国际会议（ACM International Conference on Multimedia，ACM MM）等会议论文集中，以“Multimodal Learning Analytics”“Multimodal Data”“Multimodal Sensory Data”为关键词检索相关外文文献。同时，以“多模态学习分析”“多模态数据”为关键词在CNKI数据库检索相关中文文献。文献发表时间限定为2012年1月—2022年7月，最终检索到外文文献1801篇，中文文献251篇，总计2052篇。

2.文献筛选过程

为确保样本文献纳入的准确性，研究借鉴已有的系统性文献综述筛选标准（如论文可全文获取、研究主题围绕多模态学习分析、采用实证研究或文献综述方法等），并通过“滚雪球”方法检索、阅读和纳入更多符合标准的文献，最终筛选出符合标准的文献共计有68篇。文献筛选过程如图1所示。

图1 文献筛选过程图

三、多模态学习分析的数据采集

多模态数据的采集是多模态学习分析的基础与关键。已有研究将多模态数据按照不同标准进行了分类：陈凯泉等（2019）按照由外及内的层次将学习过程中产生的所有数据归纳为外显数据、心理数据、生理数据和基础数据；牟智佳（2020）基于多模态学习分析的空间结构，将数据分为学习体征数据、人机交互数据、学习资源数据和学习情境数据；汪维富等（2021）进一步将学习体征数据细分为自主可控的动作型数据和伴随生成的生理型数据；穆肃等（2021）根据数据产生的场域，将数据分为数字空间数据、物理空间数据、生理体征数据、环境空间数据和心理测量数据。倘若按照人的感官系统与外界环境相互作用的方式，数据则可划分为文本、语音、动作、表情、眼动和生理等多模态数据。

1.文本数据

文本数据是指学习者在学习过程中产生的以书面语言形式表征的数据，如主题发言、问题评论、反思性报告等。这些数据可借助在线学习管理系统采集获得。随着智能纸笔的兴起，通过文字识别技术，可实现在课堂教学场景中对学习者过程性文本数据的手写同传。通常，文本数据可用于预测学习者的认知状况。有研究者对150名小学教育专业师范生在在线学习管理系统中提交的以“我的教育理念”为题的写作文本进行认知网络分析发现，在成绩水平对比中，优秀组师范生的专业认知网络更为复杂与丰富；在性别对比中，女性师范生能够在同一种认知技能模式下将不同的认知内容有机结合，而男性师范生往往不拘泥于某一种认知技能的习得（吴筱萌等，2021）。

2.语音数据

语音数据是指学习者在对话情境中的言语内容，包括人人对话和人机对话。就前者而言，利用多向麦克风可自动采集在协作学习情境中学习者互动的语音数据，以解释学习者协作知识建构的层次。对于后者来说，智能学习工具是获取这类语音数据的主要工具。例如，在语言学习场景中，借助智能语言学习工具，可自动采集学习者与智能设备进行人机对话的内容，用于解读学习者的知识习得绩效。除了内容性的语音数据，语气、语调、语速等韵律数据也属于语音数据，可用于解释学习者的情感状态。沃斯勒等人（Worsley et al.，2011）利用Praat这一自然语言处理软件，采集大学生在完成电子和机械工程设计任务时的思维复述语音，通过分析语音数据的韵律（包括音高、强度和说话持续时间）、语言流利情况（包括停顿、补充、再次发声）和话语情感，发现新手型学习者更倾向于采用轻描淡写式的语词，而专家型学习者则更喜欢使用确认性的语词表达。

3.动作数据

动作数据是指对学习者身体各部分动作进行识别和表征的数据，如头部移动、手势变化、腿部运动等。这类数据可以借助非接触式记录设备（如摄像机）采集的视频，并应用有关算法从视频中提取而成。随着体感技术的发展，能够捕获到且被用于学习分析的动作数据将越来越精细，如头部移动的角度、手势改变的位置、腿部运动的方位等。一般来说，体感技术有三种感测方式：一是利用重力传感器、加速度计、陀螺仪以及磁传感器等惯性传感器来感测局部肢体动作；二是利用光学传感器获取人体的全身影像；三是联合惯性及光学传感器来感测肢体运动的方向和位移等。动作数据不仅可以判定学习者的行为轨迹和序列，直接反映学习者行为特征，还可以预测学习者与环境的交互状态及其认知状态的发展。例如，安祝德（Andrade，2017）通过采集具身交互学习环境中学习者双手移动的数据，发现学习者的双手移动序列与其对生态系统反馈循环概念的理解密切相关。

4.表情数据

表情数据是指对学习者面部表情特征进行捕捉和识别的数据。这类数据可以借助摄像头与人脸识别系统采集而来，且借助传感技术，还能够追踪和捕捉到细微的表情变化。曼卡莱斯等人（Monkaresi et al.，2017）利用Microsoft Kinect人脸跟踪器抓取学习者在完成结构化写作活动中的所有面部表情，并让学习者在回溯性活动视频中对面部表情标注投入状态的注释，结果发现人脸跟踪器提取的表情数据能很好地度量学习者的学习投入状态。

5.眼动数据

眼动数据是指借助眼球追踪器获取的诸如注视轨迹、注视时间、眼跳方向、瞳孔大小、眨眼频率和扫视频率等的数据。它是衡量注意力的关键指标（Reichle et al.，2009；Sharma et al.，2019）。已有研究者利用眼动数据来判断学习者在复杂学习任务中的决策策略（Renkewitz et al.，2012），还有研究者通过对比专家和新手在查看新地图时的眼睛注视轨迹、注视时间、注视次数等眼动数据，进而判断专家和新手的认知负荷及其差异（Ooms et al.，2012）。由于眼动数据采集设备成本较高，现有研究基本以实验室环境为主，真实环境中的研究仍是少数。

6.生理数据

生理数据是指学习者的体温、血压、心率、呼吸、血流量等基本体征数据和脑电信号（Electroencephalogram，EEG）、皮肤电反应（Galvanic Skin Response，GSR）等神经系统的数据。这些数据的获取通常需要借助特定的设备（如脑电头盔、腕带等）。当前兴起一种无需特殊的硬件设备，只需要一个基于网络摄像头和机器学习算法开发的工具包，即可在互联网环境下实现对生理数据的自动采集，且不受浏览器或编程经验的限制。而且，这种方式逐渐扩展至对眼动数据的采集，极大地降低了多模态数据采集的难度。例如，哈佛大学学习、创新与技术实验室的汉森等人（Hassan et al.，2021）研发的EZ-MMLA工具集便可实现对各种模态数据的自动采集。研究者常用脑电信号预估学习者完成任务时的投入度和认知负荷（Mills et al.，2017；Hassib et al.，2017），用皮肤电反应判断学习者的情绪唤醒状态（Pijeira-Diaz et al.，2019）。当然，皮肤电反应尽管能监测到情绪唤醒，但无法判断唤醒是由积极刺激还是消极刺激引起的，因此要想诊断情绪的正向性或负向性，最好能融合其他模态的数据（如眼动数据、表情数据、脑电信号等）进行综合分析。

四、多模态学习分析的数据融合

教育大数据研究遵循数据和算法共同驱动知识发现的范式（赵佳丽等，2020）。多模态学习数据虽然为我们全面感知学习者的真实学习状态提供了多元的信息支持，但是要想揭示深层次的学习发生机理和规律，还需要利用多模态数据的信息互补机制，根据一定的规则和关系对不同模态的数据集进行重新融合，以充分挖掘多模态数据背后潜藏的信息，客观全面地揭示学习者的认知规律。数据融合的目的就是根据关键特征来关联集成两个及以上的数据集，生成基于多模态数据的连贯性、对齐性与互证性的证据图景（汪维富等，2021），从而带来更稳健的预测，为后续进行个性化干预与自适应反馈提供依据（吴永和等，2021）。目前，研究者主要通过机器学习的方法进行数据融合，以实现对多模态数据内部特性的整合和逐层抽象。按照信息抽象的层次，可以将多模态数据融合策略由低到高分成三个层次：数据层融合、特征层融合和决策层融合。为发挥多模态数据的最大优势，研究者们尝试将不同层次的融合策略加以结合，从而形成混合式融合策略。图2为四种融合策略的示意图。

图2 多模态数据融合策略示意图

1.数据层融合

数据层融合是指将各模态的原始数据（即不处理或经过简单预处理的数据）直接输入到融合中心而完成的融合。这种层次融合的特点是保留了尽可能多的原始信息，但也容易因信息的冗余而降低模型的性能。在运用数据层融合策略时，首先需要找到同一实例在不同模态信息中组件的时间或空间对应关系，进行数据对齐后，再使用基于自适应加权的融合方法、基于相关函数的融合方法等对数据进行训练以得到模型，最后利用准确率（Accurary）、精确率（Precision）、召回率（Recall）、P-R曲线、均方根误差（RMSE）等指标来评估模型的性能。例如，宋丹等人（2020）采集了前两届学生不同课程的成绩，并利用成绩之间的相关性建立了专业课程成绩相互预测模型。又如，帕杜等人（Pardo et al.，2017）让学习者在学习生态系统的概念时，通过手势动作模拟控制计算机界面中捕食者和被捕食者的关系，将手势动作序列与目光注视范围的数据进行融合，从而建立了学习模式与学习效果的融合模型。

2.特征层融合

特征层融合是指对各模态的原始数据先进行特征提取，再对提取后的数据进行关联和归一化处理，然后集成特征完成数据融合。这种层次的融合主要有以下两个特点：

一是需要先对特征进行提取，然后才可通过机器学习算法实现数据融合。特征提取方法主要有两种：一种是通过理论研究与经验假设，确定与学习指标相关的模态特征，然后通过算法或专业软件提取数据的特征。例如，斯皮科尔等人（Spikol et al.，2018）为构建小组项目学习中绩效的预测模型，获取了视频数据、音频数据、编程过程数据等多模态数据，然后结合经验采用Viola-Jones算法、快速傅里叶变换算法等提取了同伴脸部距离、注视屏幕的人脸数量、会话期间的音频频率等特征后，再进行数据融合。另一种是通过深度学习算法同步实现数据融合和特征提取。例如，有研究者利用深度摄像头、可穿戴设备进行数据采集，并通过与硬件设备关联的应用程序初步提取数据后，再运用长短期记忆网络算法进行数据融合，由此实现在融合过程中完成特征提取（Di Mitri et al.，2019）。

二是模态之间相关性较强，数据冗余度较高，难以找到多模态数据之间的互补性。因此，需要对提取后的特征进行选择，得到可用于表征预测指标的关键特征。常见的方法包括：过滤法，即利用主成分分析、相关性分析等方法筛掉无用特征，这是独立于机器学习算法的方法；嵌入法，即由逻辑回归算法、随机森林等算法自身决定应留下哪些特征，这是一种同时进行特征选择与算法训练的方法；包装法，即通过不断修剪特征，直到找到最佳预测模型的数据特征组合，这是一种重复训练模型的方法。在实际应用中，当数据量较大时，应优先通过过滤算法筛掉大量特征，再使用嵌入法或包装法实现特征选择。

运用该策略进行多模态数据融合分两种情况：一是不考虑各模态特征之间的语义联系，直接选用机器学习算法对提取和选择后的特征进行融合处理，这种算法多为监督学习算法。例如，基恩奈克斯等人（Giannakos et al.，2019）从游戏化学习环境中采集了眼动数据、脑电信号数据、面部数据、点击流数据，并从中提取了689个特征，然后利用随机森林算法对这些特征进行融合，最终构建出了最优模态组合与学习绩效的预测模型。二是考虑各模态特征之间的语义联系，选用基于拼接和线性组合等简单融合操作方法、基于注意力机制的融合方法、基于双线性池化的融合方法、基于张量融合的方法等完成特征融合。例如，陈等人（Chen et al.，2019）提取了文本数据和语音数据中的特征，然后利用基于注意力机制的融合方法将这些特征向量进行融合，从而得到了情感状态识别模型。

3.决策层融合

决策层融合是指对不同模态数据进行一系列处理（包括预处理、特征提取、识别等）后，先对不同模态数据进行训练得到多个模型，再对模型进行组合从而完成数据融合。这种层次的融合有两个特点：一是融合结果的有效性与模型的组合有关，由于模型的性能是相互独立的，因而融合后最终形成的模型有较高的容错性能和抗干扰性能。二是各模态之间相关程度不高，因而有助于发挥多模态数据之间的互补性，更能体现数据的互补机制。

在运用决策层融合策略时，可以先对每种模态的数据按照特定的时间间隔进行标注，再通过机器学习算法构建各模态与学习指标间的预测模型，最后通过最大值融合、平均值融合、贝叶斯规则融合以及集成学习等方法对模型进行融合，并在评估模型性能后得到最优模型。其中，集成学习方法包括基于投票思想的多数票机制的集成分类器、基于Bagging思想的套袋集成技术、基于Boosting思想的自适应增强方法、分层模型集成框架Stacking、基于神经网络的集成学习等。例如，阿什温等人（Ashwin et al.，2020）采集了面对面学习环境中的面部表情、手势与身体姿势等图像数据，然后利用卷积神经网络算法训练摆拍单人图像数据和摆拍多人图像数据，分别得到CNN-1模型和CNN-2模型，最后通过神经网络权重矩阵融合这两个模型，从而得到课堂自然情境下的投入、无聊、中立等情感状态的分类器模型。张琪等（2020）采集了在线学习环境下的面部数据和生物信号数据，并进行特征提取，而后分别构建了高兴、厌烦等情感模型和积极情绪与消极情绪模型，再通过隐马尔可夫模型进行时间序列的关联处理，最后使用循环神经网络和长短期记忆网络等算法得到了最优特征组合与情绪状态的融合模型。

4.混合式融合

随着深度学习算法的不断涌现，数据层融合和特征层融合统称为早期融合，决策层融合称为晚期融合。而混合融合便是结合了早期融合和晚期融合的一种新的数据融合策略。它是指对各模态数据进行训练得到多个模型后，再组合其中几个模型形成多模态预测器，最后与单模态预测器进行组合而完成数据融合。例如，罗等人（Luo et al.，2022）采集了在线学习环境下的头部姿态数据、面部表情数据、在线平台交互数据等，其中头部姿态数据和面部表情数据采用决策层融合策略，在线交互数据采用特征层融合策略，最终采用层次分析法得到权重矩阵，由此实现了多模态数据融合，并构建了由认知注意、学习情绪和思维活动三个维度构成的学习兴趣预测模型。虽然这种数据融合策略综合了早期融合和晚期融合的优点，但也增加了模型的结构复杂度和训练难度。

目前，尚未有研究者明确指出哪些算法、哪种融合策略更适用于解决多模态学习分析中的哪类问题。因此，为全面洞悉学习者的学习问题并预测其潜在趋势，应采用多类算法构建多个预测模型，通过对比模型的预测性能后再进行选择。

五、多模态学习分析的数据建模

多模态学习分析强调运用模型来实现数理解释逻辑的教育循证。其中，以学习者模型为主要的学习分析模型。从学习过程看，通过对学习者语言、动作、表情、眼动、生理等多模态数据进行全方位采集和融合分析，可以实现对学习者的知识、认知、情感与交互状态建模，精准刻画学习者的学习特征，并在更深层次上探究和解释学习者的学习规律。

1.知识状态建模

知识状态不仅包括学习者对某一知识领域当前知识掌握水平的描述，也包括对先前知识掌握水平的描述。对学习者知识状态建模，通常以一定学习周期内学习者多次测试的采集数据为主，也可辅以学习者绘制的草图数据或概念图数据，以知识图谱可视化技术描述知识资源及其载体，利用朴素贝叶斯、卷积神经网络等数据融合方法，显示个体的知识发展进程及其相互之间的结构关系，从而为学习者提供个性化的资源推荐和学习路径规划，让数据驱动的“因材施教”成为可能。

2.认知状态建模

认知状态是对学习者内在信息加工过程的描述。对学习者认知状态建模，通常可以借助学习行为数据和文本数据。由于生理数据与人类大脑神经系统的活动高度关联，因此使用生理数据构建认知状态模型日益受到关注。拉尔穆索等人（Larmuseau et al.，2020）为深入了解学习者在线解决复杂问题过程中的认知负荷，测量并采集了学习者完成不同类型任务的绩效、认知操作广度、工作记忆基本水平、自我报告的认知负荷水平等心理数据以及心率、心率变异性、皮肤电反应、皮肤温度等生理数据，并按照认知负荷理论，通过逻辑回归等数据融合方法，构建了由学习者生理体征、认知操作广度和绩效三个维度构成的认知负荷预测模型。结果表明，当学习者在完成操作广度测试时，心率和皮肤温度是预测认知负荷水平的最佳变量，意味着学习者的认知负荷随着问题难度的升高而增大，尽管学习技能得以提升，但认知负荷也并未明显减少。该模型描述了学习者在在线学习环境下解决问题时的内在认知状态变化，可用以解释学习者产生认知负荷的原因，并为教师更好地根据学习者的认知水平设计在线学习任务提供了科学依据。

3.情感状态建模

情感状态建模意在通过自然语言处理、计算机视觉、语音识别等技术和多种智能传感设备对学习者语音、表情、生理等多模态数据进行精准化采集，进而实现对学习者情绪外在表征模式和内在发生机理的全方位建模分析，以构建融合外界刺激、内部生理和心理状态的多层次情感模型，准确评测学习者在学习过程中的情感态度及其变化情况，及时发现影响学习者情感的因素，并为其提供及时的情感激励与支持。面部表情数据和生理数据是情感模型常见的数据来源。雷等人（Ray et al.，2016）设计并开发了多模态学习情感识别系统，利用传感器和摄像头采集了课堂学习中学习者的心率、皮肤电、血压等生理数据和面部表情数据，并以学习者自我报告的情绪状态（包括厌恶、悲伤、快乐、恐惧、愤怒、惊讶）作为输出，利用DTREG工具分别针对生理数据和面部表情数据构建情感矩阵，进而实现决策级水平上的数据融合。结果表明，由生理数据与面部表情数据融合构成的情感模型能够取得比单模态数据预测更高的准确度。无独有偶，范等人（Pham et al.，2018）基于多模态学习分析技术测评学习者利用智能手机进行MOOC移动学习的情绪状态时，通过前摄像头获取学习者学习过程中的面部表情数据和后摄像头获取学习者用手指控制视频播放过程中指尖的光脉冲图像信号（Photo Plethysmo Graphy，PPG），并利用支持向量机方法进行数据融合，也发现生理数据与面部表情数据的融合是预测学业情绪的最佳模型。

此外，有研究者尝试融合其他模态数据构建情感状态模型。亨德森等人（Henderson et al.，2020）通过获取学习者在参与紧急医疗技能训练游戏中的姿态数据、游戏过程数据以及研究者观察得到的情感状态数据，并利用深度神经网络对这些多模态数据进行融合，从而构建了游戏化学习环境下学习者的情感模型。罗等人（Luo et al.，2022）利用摄像机和学习平台采集了学习者头部姿态数据、面部表情和交互学习数据，并利用加权分层融合的方法构建了由三类数据预测的学习兴趣模型，从而为教师实时衡量学习者的学习兴趣并做出及时干预提供了支持。

4.交互状态建模

交互状态是指学习者与教师或同伴之间交流互动的情况。在以往的学习分析中，交互状态模型主要通过对学习者在学习平台的行为数据进行社会网络分析而实现。随着多模态数据采集技术和融合算法的发展，反映交互状态的数据更加多维且精细。斯皮科尔等人（Spikol et al.，2018）通过收集学习者在合作完成STEM项目过程中的互动动作数据、语音数据、Arduino板自动记录的编程所用的硬件和软件类型及其连接信息，以及移动工具中记录的计划、实施与反思阶段的成果数据，并利用深度神经网络构建了交互状态模型。该研究尤其指出学习者在合作完成复杂任务时，同伴之间的手部距离和头部距离可用于预测合作学习的质量。

5.综合状态建模

综合状态建模是指对学习者多个学习状态进行综合分析而建立的整体性模型。这类模型关注学习者在行为、认知、情感、交互等多个方面的整体性表现，如学习投入模型、自我调节学习模型、学业表现预测模型等。例如，帕帕米特西乌等人（Papamitsiou et al.，2020）将自适应学习活动中的学习投入概念化为行为、感受和思想，并采集与这些维度相关的日志记录、眼动数据、生理数据、表情数据和问卷数据，通过模糊集定性比较分析方法（Fuzzy-set Qualitative Comparative Analysis，fsQCA）而得到了解释学业表现的最佳变量组合（如图3所示）。该研究较好地展现了不同学习活动类型与多模态数据之间的复杂映射关系，以及基于混合研究方法的学业表现预测分析，能够为研究者与实践者提供较好的分析框架支撑。

图3 学业表现预测模型与数据类型间的映射关系

除以学习者自身情况为预测变量外，还有研究者考虑了模型的情境依赖性，将学习环境数据、学习活动类型数据也纳入到学业表现的预测变量中。例如，蒙佳洛斯卡等人（Mangaroska et al.，2021）以认知负荷理论和情感动力模型（Model of Affective Dynamics）为理论基础，基于编程平台获取了学习者在理解代码和优化代码两个阶段阅读事件和编码事件中的脑电数据、眼动数据、表情数据和平台日志数据。其中，脑电数据用于表征注意力、聚合思维和记忆负荷，眼动数据用于表征学习者在编程平台区域（编码区、编程问题区、控制台区）的注视时长和认知负荷，表情数据用于表征满意、沮丧、无聊、困惑等情感状态，平台日志数据用于表征阅读事件和编码事件，最后利用线性回归算法构建了学习者在不同学习阶段注视编程平台不同区域时的学业表现预测模型。

六、讨论与展望

多模态学习分析旨在利用“多模态”思想和方法对学习者的内在学习状态、特征与变化进行深度诠释，从而挖掘学习规律、优化学习过程、促进精准教学。在文献梳理中，我们发现尽管多模态学习分析在数据采集、数据融合和数据建模等方面取得了诸多进展，但仍存在数据采集难以跨越场景、数据融合的理论基础薄弱、数据建模缺乏情境依赖等问题。未来多模态学习分析研究可从以下几个方面加以深化：

1.加强情境感知，实现场景数据的混合采集

情境是表征教育数据的重要因素，能够表征学习者在复杂教学环境中的真实学习状态，对构建学习模型起着关键作用。随着物联网和智能传感技术的发展，如何跨越物理和数字世界进行教育情境的精准建模日渐成为一种研究趋势（牟智佳，2020）。基于文献分析，目前多模态学习分析的数据采集存在两大问题：一是采集的数据大多是简单片段式的学习表现数据，较少在时间序列层面捕获连贯性的过程数据，因而难以全面、实时反映学习的动态过程。二是采集到的数据基本是单一时空场域，难以跨越线上、线下不同场景实现对数据的“无缝衔接”，并做到与真实教学情境的紧密耦合。

为此，未来学校需构建融情境感知技术、影像技术、跟踪与评价技术、平台数据采集技术等混合手段的智慧教育环境，从学习空间建设上为多模态学习数据的线上线下场景采集提供支持，进而按照“情境—活动—事件—数据”四层框架实现全过程和全方位的数据采集。教学情境数据可从线上、线下两个时空维度进行分类采集，包括与学习者相关的用户情境、时间情境、任务情境、物理情境、设备情境等信息。由于数据只是用于描述事物的符号记录，其自身并不能提供判断或意义诠释，数据的意义获取需要与具体业务相关联（王冬青等，2018）。因此，可通过对学习任务的信息描述建立起线上、线下跨时空教学场景数据的关联。将学习活动数据融入反映时间序列的学习过程，既可实现对学习者学习全过程的细致刻画，有助于挖掘学习者在整个学习过程中的学习变化规律；又可实现对混合教学场景学习活动的动态描述，有助于构建多元化的混合学习活动路径。学习事件数据是指在学习过程中，学习者完成特定学习任务所产生的动作、语音、眼动、表情、生理等多模态数据集。正如前文所述，为了解学习者的编程学习表现，蒙佳洛斯卡等人（Mangaroska et al.，2021）基于在线编程平台，按照编程活动环节及其活动事件进行实时数据采集，以获得学习者在编程平台不同区域完成不同活动事件时的数据链。这为多模态学习分析中情境性数据采集的深化研究提供了很好的启发。

2.深挖理论基础，促进数据融合的科学精准

数据融合是一个费事费力的复杂过程（Liu et al.，2019）。已有研究表明，数据融合的方式主要有三类（穆肃等，2021）：一是使用多维度、多模态数据测量，用于解释一个学习指标；二是使用多维度、多模态数据测量，用于解释多个学习指标；三是使用多方数据互相印证，用于全面且深度地阐释某一个问题。基于文献分析，数据特征选择是多模态学习分析数据融合的关键。随着每一类数据的测量潜力被逐步挖掘，其蕴含的特征信息对同一学习指标的解释力也逐步增强。尽管通过优化或创新算法可以实现对数据特征的筛选，倘若有明确的学习理论作支撑，那么数据特征的提取将更具合理性。

未来多模态学习分析的数据融合将从支持单一特征聚合的数据层融合逐渐迈向支持高维空间映射的特征层融合，甚至是最优决策支持的决策层融合和混合式融合。因此，亟需挖掘有关行为、认知、情感和交互等基础理论在多模态数据融合研究中的价值意蕴，丰富不同模态数据与学习之间的复杂映射关系，进而为数据融合提供强有力的理论依据。正如上文所述，已有研究者开始关注从认知负荷、情感动力等学习理论的角度，确立数据特征提取的维度，进而构建学习者模型。未来要实现科学精准的数据融合，开展对教育神经科学、脑科学和学习科学的最新理论跟踪也是极其必要的。

3.重视情境依存，强化数据建模的情境适用

时序性和情境化是教育的基本特征。由于受跨场景、时序性数据采集技术的限制，面向学习者个体的特定情境下的全过程、多模态学习数据采集仍较为欠缺，因此，已有研究所构建的学习者模型在某种程度上是去境脉化的，其对具体情境下学习者的认知、情感和交互发展规律与发生机制难以做出精准解析，以致构建的模型难以实现推广普及。

强化情境依存性的数据建模将成为未来多模态学习分析的重点之一。一方面，在时间维度上，可引入时间序列分析方法，对学习者的认知、情感和交互的发展状况进行序列化建模，以消除单一时间数据所表征信息的不确定性，进而纵向深度挖掘学习者周期性的学习规律并预测其发展趋势（黄涛等，2020）。另一方面，在空间维度上，人们已关注到学习者的认知、情感和交互状态会随着学习空间场域的切换而有所不同，如学习者在网络学习空间所表现出来的学习状态，与在智能学习空间、甚至虚实融合空间所表现出来的学习状态是不一样的。因此，有必要对学习发生的空间场域进行量化，构建面向不同空间场域的学习模型。这对分析学习者在不同学习情境中的认知发展、情感变化和交互状况，进而帮助教师做出精准的教学决策和活动设计有着重要意义。此外，在任务维度上，亟待在不同学科的复杂任务情境中，探索学习者的学习规律、认知特征、情感和生理状态、社交偏好等，构建出与任务情境相适应的认知、情感和交互模型，甚至是综合模型，以拓展和丰富多模态数据建模的案例，并为多模态学习分析系统提供面向不同任务情境的学习者模型库，进而促进多模态人机交互发展。