基于深度学习技术的注意力转移模式的挖掘

2019-08-30 04:09严薇薇旷小芳肖云霞郑梦雪刘俊杨娟

电化教育研究 2019年8期

严薇薇旷小芳肖云霞郑梦雪刘俊杨娟

[摘要] 注意力在二語习得领域被认为是将输入转化为吸收的充分必要条件，是影响二语学习的主要认知因素。目前大多数研究集中在注意力分布上，很少有研究涉及二语学习者的注意力转移模式，然而注意力转移具有的时序特征更能准确地反映二语学习者的思维过程。关于注意力模式的发现方法主要有描述统计方法和基于白盒的回归/预测技术，前者能获得具有统计学意义的结论，后者能建构较复杂的因果关系模型，但是均无法直接从高纬度特征空间中获取有意义的指征，因而无法建立较高准确率且可解释的模型。基于此，本研究使用深度学习技术以及可视化技术挖掘二语（英语）学习者处理在线任务时的注意力转移模式。正反例的关键特征热度图显示，低龄二语学习者的线性注意力控制模式与其在线任务表现紧密关联，可直观解释其线性注意力控制能力对在线任务完成度的影响。该模型同时具备较高回归/预测准确率。此结论对我国低龄儿童英语学习的认知干预研究有着重要意义。

[关键词] 二语习得; 注意力控制; 注意力模式; 注意力转移; 深度学习; 卷积神经网络; 眼动追踪

[中图分类号] G434 [文献标志码] A

[作者简介] 严薇薇（1996—），女，四川德阳人。硕士研究生，主要从事基于机器学习的语言认知模式挖掘、基于认知干预的计算机辅助语言学习的研究。E-mail：1844241746@qq.com。

一、引言

注意力控制是影响二语习得的主要认知因素，它包括两种认知模式，即注意力分配和注意力转移。纵观二语习得领域关于注意力的实证研究，不难发现，几乎所有的研究都集中在注意力分配问题上，仅有少量研究涉及注意力转移模式的发现。然而，注意力转移因为具有时序性，比注意力分配更能准确地反映学习者在二语习得中的思维过程。此外，传统认知模式的挖掘大都采用描述统计方法，虽然能揭示由具体指征（特征）带来的具有统计学意义的结论，但是很难直接从高纬度特征空间中发现有意义的指征，因为指征的发现主要还是要依靠人工，这就难免会造成关键指征的缺漏，从而导致获得的思维过程模型均没有满意的回归/预测率。因此，使用机器学习技术挖掘二语学习者的注意力转移模式是研究二语习得过程中认知模式的必然选择。

本文提出了一个使用深度学习技术（卷积神经网络）以及可视化技术（Grad-CAM）来挖掘以英语为二语（English as a Foreign Language，简称EFL）的低龄二语学习者在线处理二语信息任务中的注意力转移模式的方法。该方法基于数据拟合，不仅可以获得较高的回归/预测准确率，也具有高度可解释性。

二、目前已有的注意力模式发现技术

语言学习过程中会受到多种个体认知因素的影响，如语音感知、注意力和记忆力等，这些相关认知因素的差异可能会导致不同的语言学习效果[1]。其中，注意力控制是一个很重要的组成部分，它不仅与多种高阶认知功能，如智商（IQ）[2]等紧密关联，还是影响二语习得的主要认知因素，被认为是将二语输入转化为吸收的充分必要条件[3]。

如前所述，注意力控制模式分为注意力分配和注意力转移两种认知模式。其中，注意力分配是指某一时刻的注意力关于刺激的分布，而注意力转移则是指具有时序特征的注意力分布轨迹。但是无论哪种注意力控制模式，都可以通过眼动数据来反映。眼动追踪技术是评估多媒体动态学习场景以及数字化学习环境中注意力线索的重要手段，既可在短时间内获得大量的实时数据信息，又不会因认知资源从主要任务执行的转移而影响思维过程[4]。由此可见，采用眼动追踪技术去测量注意力是揭示学习者认知行为模式的有效手段。此方法也被广泛应用于二语习得研究中[5]。

斯蒂克勒（Stickler）等人研究二语在线学习平台的学习效率时发现，在线学习中文的实验参与者平均会分配20%的眼动注视在社交信息区域[5]。刘（Liu）在研究语素识别干预对词汇学习的有效性时，使用眼动仪对词汇识别任务进行了记录，利用独立样本T检验对比了实验组和对照组的平均后测成绩以及两个组在三种语素（前缀、词根、后缀）区域里的注视时间[6]。以此证明了强化语素识别有助于提升学生词汇识别的成功概率。

基于描述统计的方法虽然可以构造统计学上有意义的因果规则，但是这种方法只能针对极少量指征进行因果关系构建，且这些指征由人工筛选，一旦指征筛选有误就无法获得有意义的结论。因此，若要在高维度空间中筛选出关键指征并构造复杂因果模型，则必须借助更复杂的回归/预测手段。例如，使用白盒回归模型建立注意力分布因果模型[7-8]。

Dolgunsooz在研究土耳其大学生在二语（英语）阅读过程中注意力与学习收益之间的关系时，使用线性回归方法建立了单词熟悉度与单词总注视时间（Total Fixation Duration）的线性关系，从而推断出学生对单词越熟悉则分配在该单词上的注意力就越少[7]。此结论也说明了学生在阅读过程中会倾向于分配更多的注意力在不熟悉的单词上。为了研究各个眼动参数对单词识别率的影响，以后测作为二分类结果，以各个眼动参数单独作为预测协变量，使用GEE逻辑回归方法分别得出陌生单词在总注视时间、首个注视时间（First Fixation Duration）、持续注视时间以及重读次数（Re-reading Times）上的识别率，结果显示均有统计学上的显著意义。巴拉内斯（Baranes）等人为了研究除了视觉新奇（Visual Novelty）和视觉惊喜（Visual Surprise）之外注意力与认知好奇心（Epistemic Curiosity）的关系，采用眼动追踪技术重点记录不同的认知状态（好奇、自信、惊喜）对实验参与者观看答案出现前后三秒内的眼球运动轨迹[8]。在得出越高的好奇心与越早对答案的预期关注相关，并且所产生的影响不同于自信（Confidence）和惊喜（Surprise）所带来的影响的结论之后，他们又使用机器学习技术里的决策树技术——随机森林算法根据答案出现前注视位置的统计特征构建了注意力与好奇心之间的预测规则，即在高好奇心状态下，注意力集中区和答案框之间的距离范围比低好奇心状态下的距离范围更大。该规则能够从较早的注意力分布来预测读者的好奇心程度[8]。

在注意力轉移模式研究方面，目前已有研究通过频繁序列挖掘技术来获得注意力的时序特征。例如，旷小芳等人在研究二语初学者对视觉刺激到二语映射的关系以及注意力控制能力与语音短时记忆能力的关系时，使用频繁序列挖掘算法SPADE，挖掘出学生的两种关于对象认知到第二语言系统之间的映射模式，即“对象认知→母语系统→第二语言系统”和“对象认知”到“第二语言系统”[9-10]。也挖掘出不同语音短时记忆能力与注意力控制模式之间的关系，即“正常或良好的语音短时记忆能力的学生具有稳定的注意力控制模式，可以保持注意力不受干扰;语音短时记忆能力差的学生注意力容易分散到不匹配的英语单词区域以及空白区域，但是并没有分散到母语区域”[9-10]。

综上所述，无论是描述统计方法还是白盒技术，它们在针对注意力分布和注意力转移时，均需人工构建关键指征。如果指征提取不当，模型是无法获得满意准确率的。黑盒技术能够自动进行关键特征筛选，或许是构建更准确的注意力控制模式的有效方法。

三、眼动数据预处理

（一）数据采集

1. 代表注意力的眼动数据采集

本文中的数据来源于四川师范大学附属小学一年级的19名学生（其中包括10名男生和9名女生，平均年龄6.42，标准差SD=0.507）。本实验使用Tobii T120 进行眼动数据采集。这些参与者在实验中被要求观看一个长约4分钟的英语朗读视频。视频中的词汇均是这些低龄二语学习者从未接触过的，用来排除熟悉词汇带来的注意力干扰，以反映学习者对二语刺激的注意力控制能力。视频播放朗读的同时，会使用高亮方块对学习者进行注意力引导提示，要求学习者一边收听单词所对应的朗读，一边跟随高亮提示进行注意力转移。此外，为了避免其余可能的干扰，视频均采用白色背景、黑色字体的简单设计，如图1所示。视频播放节奏适应实验参与者的注意力水平，音频速度比原始音频速度慢15%，整个视频大概56.65个单词/分钟。19名参与者按照顺序轮流进行实验。该实验共进行了2个月，所有参与者均完成了两轮实验，其中部分参与者又进行了第三轮实验。

2. 眼动数据标记

到目前为止，仅采集到了代表注意力控制能力的眼动轨迹数据，但是并未获得可实现模式挖掘的有效标签。因此，本节将对参与者的注意力控制样本进行正例和反例标记。因为注意力控制与二语学习过程中的在线任务处理密切关联，因此，可通过即时的在线任务处理效果来对眼动数据进行标记。

本实验在19名参与者完成了注意力控制任务后就立刻对其执行长句复述任务。长句摘自英语绘本My Loose Tooth，如图2所示，每句单词数为6～7个。长句复述任务中的语速同注意力控制实验中一样，即音速比原始音频速度慢15%。本次任务中涉及的长句见表1。具体的实验过程：要求参与者先聆听句子的朗读，然后再让他们对句子进行复述。此过程使用电脑自带的录音软件记录参与者的长句复述情况。

（二）眼动数据图像化处理

本实验采集的原始眼动数据包含了注视点坐标、注视点持续时间、注视点先后顺序等信息。对于机器学习来说，只有特征提取准确，才能提高模型的模式识别性能，机器学习的效果才能达到令人满意的精度。作为机器学习领域一个新的研究方向，深度学习和传统的机器学习技术相比，最大的不同在于能够从训练数据里自动抽取学习特征，直接避免了人工特征抽取的时间消耗，提高了计算效率，极大地保留数据的原始特征和内在丰富性。深度学习技术被广泛用于语音识别、计算机视觉以及自然语言处理等领域，尤其在图形图像处理方面更是取得了巨大的成功。

基于此，首先本实验对原始眼动数据进行了预处理，将其转换成图片。为了能够完整地展示眼动轨迹，我们将注视点的坐标作为圆心，注视点持续时间作为半径，以此用大小不同的圆来展现具有不同时长的注视点，即凝视时间越长，则圆就越大。同时，为了展现注视点的时序特征，我们将注视点出现的先后顺序映射为灰度从浅灰色到黑色的渐变过程;此外，为了便于展示每个样本的注意力转移特征，我们将每个样本的24张眼动轨迹图按顺序拼接成一张图片，具体效果如图3、图4所示①。

对眼动数据进行图像化处理后，接下来就要使用图形图像算法对注意力转移模式进行识别和预测。卷积神经网络（Convolutional Neural Networks，CNN）是一种包含卷积且具有深度结构的前馈神经网络，是深度学习的代表算法之一[11]。相比于一般的神经网络，卷积神经网络的网络结构能较好地适应图像的结构，并且能够同时进行特征提取和分类，使得特征提取有助于特征分类。此外，权值共享可以减少网络的训练参数，使得神经网络结构变得更简单、适应性更强[12]。因此，卷积神经网络能很好地解决计算机视觉领域图像识别问题，已成为典型的图形图像处理算法。

近年来随着卷积神经网络研究的深入，已经陆续产生网络结构不同的卷积神经网络模型，其性能也有差异。在选择卷积神经网络时，应该针对图片数据集本身特点以及应用需求去选择合适的卷积神经网络模型。由于本实验的数据量不够巨大，不适合采用VGG（Visual Geometry Group）[13]、GoogLeNet[14]等模型来进行数据处理。由于这些卷积神经网络模型层级较多，结构较复杂，容易对小样本数据产生过拟合。因此，本文采用的卷积神经网络模型来自于Lenet-5模型[15]。它最初是用于手写数字识别和分类的，其网络结构相对简单，非常适合本实验的图像特征的提取。由于此模型只能处理灰度图像，并不支持彩色图像的处理，因此，本实验结合使用文献[16]中的技术对模型里的参数和结构进行了调整，使其最终能够满足本实验的数据处理需求以达到应用目的。本文采用的模型主要包括六层网络结构：两个卷积层，两个下采样层、一个全连接层和一个输出层（如图5所示）。其中，每个卷积层包括卷积、池化和非线性激活三部分，主要用于提取空间特征，而采样层则是实现平均池化。

本实验图像像素数为620×620，然后逐次传入网络模型。本文中的19个被试一共有45个眼动样本，其中，随机选取30个样本作为训练数据进行监督学习，其余15个样本作为测试数据以验证训练后卷积神经网络的准确性。经过多轮的随机采样训练，卷积神经网络的平均收敛效果如图6所示。从图6可以看出，卷积神经网络大约经过30个epoch后错误率收敛。并且，此网络对训练样本的回归性能大约稳定在96%，而对测试样本的预测性能则大概稳定在64%。

五、利用Grad-CAM技术产生注意力

转移模式的解释模型

通过使用卷积神经网络对眼动图像进行特征识别和预测，能够建立起注意力转移模式与二语在线任务处理能力之间的映射关系。但是，黑盒技术的问题在于，虽然可以准确地将输入和输出匹配起来，但是中间的非线性变换很难解释或说明什么输入要素如何对结果产生何种影响。因此，还需要对卷积神经网络添加一個可解释模块，以找出卷积神经网络对图像识别作出决策的关键特征。

本文采用热度图可视化方法，即通过热度图来反映识别这个物体的关键特征。梯度加权的类激活映射（Grad-CAM）[17]作为一种热度图可视化方法，可以对分类结果的决策依据进行解释，直观地对眼动图像识别中的关键特征进行可视化表达。对于卷积神经网络而言，经过多次的卷积和池化后，网络最后一层的卷积层包含了最丰富的空间和语义信息。Grad-CAM取经过最后一层卷积操作后的关键特征图，然后将该特征中的每个通道与该通道相关类的梯度进行加权。

如图所示，可视化关键特征眼动图使用亮度来表示图像分类特征的重要程度。其中，白色表示图像分类最重要的特征，而黑色代表最不重要的特征。因此，从两张图中可看出，在长句复述任务中的表现方面，这些低龄二语（英语）学习者均没有在某个时刻呈现出判断的关键特征（白色标记的部分），反而是亮色点均匀地分布在时间线上（约4分钟）。并且，越是具有较好长句复述表现的学习者，其线性注意力控制也越均匀，不会出现凝视点丢失的情况。在不规则区域（线框内区域）内部，反例比正例中代表凝视点的关键特征则少了很多，而且正例关键特征图中偏白的亮色点比反例关键特征图中的多。如前所述，图7和图8是将所有眼动图按时序联合在一起的关键特征眼动图，所识别的原始图不仅带有时序（由不同颜色标记时序）标记，还带有凝视时长（圆圈的半径）标记。也就是说，反例中无法形成统一特征的原因是没有满足同步的凝视时长，且没有相似的注意力移动序列。而正例中的样本则在这两个指征上完成统一度较高。基于此，可得出以下解释（预测）：

低龄二语学习者若具有较好的注意控制能力，即能够按照注意力控制要求在收听到二语刺激的同时，可以跟随视觉提示进行即时的注意力转移，这些学习者的即时长句复述表现会有64%的概率是优于平均表现的;反之，则可能以相同的概率差于平均表现。

到目前为止，由卷积神经网络和Grad-CAM技术所呈现的二语（英语）学习者注意力控制模式对于有标记指征的均构建了较高准确率的预测。但是，虽然已知对注意力控制不好的学习者无法较好地完成长句复述任务，我们仍然不知注意力控制不好到什么程度会使得一个学习者无法复述出平均句长。从图8的不规则标记区域可看出，具有较差注意力控制的学习者在前4张素材上的注意力表现还基本与注意力控制较好的学习者保持一致，但是第5～7张素材的注意力控制表现则显示出了控制差异，然而8～9张素材又呈现了同步的注意力控制特征，第10～18张素材再次呈现了差异，且差异范围扩大。而第19～20张素材又呈现了保持一致的注意力控制模式，第21～24素材的注意力控制再次分散。这就为二语学习者对二语视听刺激的注意力控制模式提供了更为深入的解释：完成即时在线任务较好的学习者在注意力控制上具有较为一致的趋势，可以保持视听注意力的同步。然而完成即时在线任务较差的学习者虽然努力控制注意力，但仍然会产生视听注意力控制异步的情况。他们基本只能对前4张素材保持较好的注意力控制，注意力分散后，再次集中注意力可维持2张素材的控制模式。

六、研究结论与未来工作

在本文中，提出了一个使用深度学习技术以及可视化技术来挖掘低龄二语（英语）学习者对二语视听信息的注意力控制模式的方法。该方法是基于数据拟合的，不仅可以获得较高的回归/预测准确率，同时在标记和未标记指征上均具有高度可解释性，因为该方法可同时获取时序和时刻的特征信息。在标记指征上，解释了凝视时长与和凝视序列所构成的注意力控制模式;在未标记指征上，则获得了更细致的可影响在线任务整合表现的注意力控制模式。整合了标记指征和未标记指征的解释，我们可获得如下关于低龄二语学习者对二语视听刺激的注意力控制预测模型：

低龄二语（英语）学习者若具有较好的注意控制能力，即能够按照注意力控制要求在收听到二语刺激的同时，可以跟随视觉提示进行即时的注意力转移，并且在注意力控制上可持续维持（约4分钟），那么这些学习者的即时长句复述表现会有64%的概率是优于平均表现的;反之，若学习者在较长时间段内对二语刺激的注意力维持能力平均只能达到2张干预素材（约13秒）的上限，那么就有可能以相同的概率差于平均表现。

这种注意力控制模式上的巨大差异是传统手段和白盒机器学习技术无法获得的，不仅如此，这个结论对低龄二语学习者的认知干预研究有着重大意义。因为这个结论意味着学习者如果没有办法对二语特征的刺激做出正确的注意力控制响应，可能会对学习效果和效率造成灾难性的影响。而我国二语学习者所处的二语匮乏环境则会加剧学习者对二语刺激的感知力退化。随着第一语言习得的发展，二语学习过程中对注意力控制的要求会更高。因此，必须对低龄二语学习者开展有针对性的二语特征感知训练或干预，才能提升其对二语特征的注意力控制能力，进而提升对二语特征的整体感知能力。目前，我们的研究团队正在针对同一实验对象开展以影响学习者注意力分配为基础的二语特征感知和习得的干预实验。

[參考文献]

[1] DORNYEI Z.The psychology of the language learner：individual differences in second language acquisition[M].New York：Routledge， 2005.

[2] UNSWORTH N，ENGLE R W.On the division of short-term and working memory：an examination of simple and complex span and their relation to higher order abilities [J].Psychological bulletin，2007，133（6）：1038-1066.

[3] SCHMIDT R W.The role of consciousness in second language learning [J].Applied linguistics，1990，11（2）：129-158.

[4] 张琪，武法提.学习分析中的生物数据表征——眼动与多模态技术应用前瞻[J].电化教育研究，2016，37（9）：76-81，109.

[5] STICKLER U，SHI L.Eyetracking methodology in SCMC：a tool for empowering learning and teaching [J]. ReCALL，2017，29（2）：160-177.

[6] LIU P L. Using eye tracking to understand the responses of learners to vocabulary learning strategy instruction and use [J].Computer assisted language learning，2014，27（4）：330-343.

[7] DOLGUNSOOZ E. Measuring attention in second language reading using eye-tracking： the case of the noticing hypothesis [J]. Journal of eye movement research，2015，8（5）：1-18.

[8] BARANES A，OUDEYER P Y，GOTTLIEB J.Eye movements reveal epistemic curiosity in human observers[J].Vision research， 2015，117：81-90.

[9] YANG J，QI X F，YAN W W， et al. Attention allocation and transferring pattern mining in Chinese students invoking English [C]// The 19th International CALL Research Conference.Bruges：University of Antwerp，2018：372-376.

[10] 旷小芳，严薇薇，陈玉婷，王青娥，杨娟.小学生二语认知模式发现及认知能力提升研究[J].现代教育技术，2019，29（2）：72-79.

[11] GU J，WANG Z，KUEN J，et al. Recent advances in convolutional neural networks [J]. Pattern recognition，2018，77（5）：354-377.

[12] 常亮，邓小明，周明全，等. 图像理解中的卷积神经网络 [J].自动化学报，2016，42（9）：1300-1312.

[13] SIMONYAN K，ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].（2015-04-10）[2019-05-15]. https：//arxiv.org/abs/1409.1556.

[14] SZEGEDY C，LIU W，JIA Y，et al. Going deeper with convolutions[C]//The 2015 IEEE Conference on Computer Vision and Pattern Recognition CVPR2015.Boston： IEEE，2015.

[15] LECUN Y，BENGIO Y.Convolutional networks for images， speech， and time series[M].USA： MIT Press Cambridge，1998.

[16] KRIZHEVSKY A，SUTSKEVER I，HINTON G E. Imagenet classification with deep convolutional neural networks[J].Communications of the ACM，2017，60（6）：84-90.

[17] SELVARAJU R R，COGSWELL M，DAS A， et al. Grad-CAM： Visual explanations from deep networks via gradient-based localization [C]//The IEEE International Conference on Computer Vision. Italy：Venice，2017：618-626.

[Abstract] Attention in second language acquisition is claimed to be the necessary and sufficient condition for conversing input to intake， and it is one of the main cognitive factors affecting L2 learning. Currently， most studies focus on attention allocation， and few work on the attention transfer pattern of L2 learners. However， the temporal features of attention transfer can reflect the thinking process of L2 learners more accurately. At present， methods used for discovering attention patterns include descriptive statistical methods and white-box-based regression/prediction techniques. Although the former can obtain statistically significant conclusions and the latter can construct causal relationship models， neither method can directly obtain meaningful indicators from high-latitude feature space. Therefore， it is impossible to establish an explainable model with high accuracy. Based on this， this study uses deep learning technology and visualization techniques to explore the attention transfer pattern of second language（English） learners when they are dealing with online tasks. The heat maps of the positive and negative examples show that the linear attention-control patterns of young second language learners is closely related to their online task performance， which can intuitively explain the influence of their linear attention control on online task completion. The model also has high regression/prediction accuracy.This conclusion is of great significance to the cognitive intervention research on English learning of young children in China.

[Keywords] Second Language Acquisition; Attention Control; Attention Pattern; Attention Transfer; Deep Learning; Convolution Neural Network; Eye-tracking