词向量在计算机辅助英语词汇学习系统中的应用

2023-03-02 15:54邓海龙
现代英语 2023年18期
关键词:英语词汇语义向量

邓海龙

(赣南师范大学,江西 赣州 341000)

词汇是英语运用能力的基础,也是占用学习时间和精力较多的部分。 然而,英语词汇学习效率在总体上并不理想。 随着计算机技术的迅速发展,各类计算机辅助词汇学习(Computer Assisted Vocabulary Learning)系统得到开发和应用,给外语学习者词汇识记相关教学提供了诸多便利,有力地提升了英语词汇学习效果。 然而,由于主客观条件限制,现有大多数词汇学习系统并没有充分参考当代词汇教学理论研究成果,鲜少借鉴当代人工智能发展的最新技术,在科学性、智能化和个性化设计方面存在一定发展空间。 词汇学习实证研究表明,语义相似性对英语单词学习存在重要影响[1]。 有研究指出,英语单词记忆是外语学习中最为枯燥乏味、最具挑战性的任务,这主要是由于大多数单词之间缺乏直接的结构或语义关联性[2]。 为改进现有计算机辅助英语词汇教学系统,推动人工智能技术在外语教育中的应用,本研究尝试引入自然语言处理领域的词向量技术,结合学习者心理词汇网络表征理论和二语词汇教学理论,设计构建基于词向量的英语词汇智能教学系统,以进一步增强英语词汇教学效果。

一、 计算机辅助词汇学习

由于智能手机的广泛普及,计算机词汇学习系统得到蓬勃发展,移动终端应用市场上涌现大量单词记忆软件。 相比传统单词识记方法,其有诸多优势。 第一,这些软件界面友好,单词呈现方式丰富多样,其中包含发音实例、图片说明(动画提示)、例句及其译文与朗读等。 第二,词库种类齐全,配有英语四、六级考试词汇、考研英语、雅思托福英语等各类词汇记忆项目可供选择。 有些软件提供特定教材书籍的生词列表进行学习,比如,新概念、许国璋英语等[3]。 第三,单词练习与测试形式较为丰富,其中包括听写、多项选择和例句填空等。 第四,交互性强,系统根据用户操作情况动态调整学习内容。 有些词汇学习系统还融入游戏元素,有助于增强趣味性和提升成就感。 第五,一些软件参考心理学理论,运用抗遗忘单词记忆策略,如根据艾滨浩斯遗忘曲线等算法设计词汇学习周期等。

最新研究表明,移动技术条件下的计算机词汇学习系统对学习者词汇学习具有积极作用。 曹进、邓向姣以“百词斩”应用为例调查了大学生移动词汇学习现状,指出移动学习背景下的计算机辅助词汇教学系统可以提供多样化的学习场景和个性化的学习内容,其便携性特点有利于学生充分利用边角时间进行碎片化学习,对大学生英语单词扩张有积极效果[4]。 此外,移动终端中的计算机词汇教学系统相对容易记录和追踪学习者词汇学习活动,更加有利于设置和推送个性化词汇学习方案。 研究人员通过综合分析2005 至2018 年间33 项移动终端词汇学习试验结果发现,移动技术条件下的计算机辅助词汇教学对学习者单词记忆(Word Retention)有显著且积极的影响。

值得注意的是,虽然计算机辅助词汇学习系统逐渐增多,并在教学实践中日益发挥重要作用,但其科学性、智能化以及个性化程度仍有待提高。 第一,现有词汇学习系统鲜少有明确的二语词汇学习理论支撑。 尽管应用市场上的计算机辅助词汇学习系统类型比较多样,功能也比较齐全,但大多以应考为主要目的,教学内容组织方式往往缺乏科学依据。 第二,现有词汇学习系统较少借鉴当代人工智能技术成果。 从软件开发角度来看,计算机辅助词汇学习系统的研发门槛并不高,但相较于其他信息技术应用领域,其所带来的经济效益往往也较难吸引计算机专业人才。 第三,大多数英语词汇学习系统尚未充分利用学习日志数据为用户制订个性化学习方案。 现有系统在词汇学习计划制订和学习策略运用并不够理想。 用户的词汇基础、学习目标、时间及精力条件等情况各有不同,系统应当参照外语学习规律,分别提供个性化单词训练方案设计,以取得理想效果。

二、 词汇网络与词汇教学

人类语言的词汇组织结构(常称作心理词库,Mental Lexicon)可以类比为一个庞大的词汇网络(Lexical Network 或Word Web),单词之间通过语义相关性相互链接在一起。 词汇知识并非仅仅包括词形与意义之间的简单对应关系,还涉及单词之间的横组合(如反义、近义与上下义)与纵聚合(如搭配)关系。 通常情况下,本族语者的词汇网络密度(Density)比学习者要大;随着语言水平提高,学习者的词汇网络密度也随之增大。 由此可见,词汇教学并不适宜采用孤立记忆方法,应当将相互关联的单词组织起来集中呈现和学习,这样才更加有利于扩张学习者词汇数量和深化二语词汇知识。

词汇网络理论对计算机辅助词汇学习系统设计有重要启示。 词汇学习系统的设计重点在于如何组织和安排不同单词的先后学习顺序。 每个学习批次的单词数量、单词识记难度、相邻学习单词的意义相关度以及学习时间间隔等不同因素都可能对词汇学习产生消极或者积极影响。 一般而言,将单词进行离散化(Spacing)分开学习比聚集化(Massing)更有利于促进显性与刻意词汇识记效果[5]。 离散化是指尽量将存在语义相关性的词汇分散组织学习。 具体来说,学习者同时学习多个形式或意义相近的初次接触单词容易产生一定程度的相互干扰;若从已经掌握的单词出发,学习与之存在关联的其他单词,则往往有利于提高教学效果。

换言之,计算机词汇学习方案设计主要涉及单词分组规划及其先后次序安排,其中应当考虑三个主要因素:重要性、熟悉度与相关性。 重要性主要影响词汇分级,一般常见词要比罕见词重要,需要优先安排。 熟悉度主要关系到词汇分组,熟悉程度较低的单词容易受到其他相似词的干扰,不宜与相关词同时学习。 相关性主要涉及词汇扩张策略,针对具有足够熟悉度的单词,系统通过推送以其为中心的词汇网络相关词,强化学习者的词汇语义网络知识,以此达到高效扩大词汇量的目的。 重要性与熟悉度两个因素的量化方法相对简单,前者一般以大型通用语料库中的词汇频数为标准,后者则通常根据用户词汇学习日志和测试成绩进行评定。 关于词汇相关性的度量,本研究将采用自然语言处理领域中的词向量方法进行计算。

三、 词向量技术

2013 年,谷歌公司推出了开源Word2vec 工具,其中参考了神经概率语言模型的基本思想,但专门用于训练词向量。 2014 年,斯坦福大学自然语言处理小组提出了Glove 模型。 Glove 与Word2vec 在计算方法上有所差异,但两者并无本质区别。 词向量训练属于无监督学习(Unsupervised Learning),只要使用大规模语料进行充分训练,所生成的词向量模型能够准确捕捉语料库文本中的词汇语义特征。 换言之,基于足量合适文本,词向量训练程序无须人工干预,可以准确学习得到语言中的词汇语义特征。

经过大规模语料训练得到的Word2vec 词向量模型能够计算词汇语义相似度。 这一特点可用于相关词查找和词汇语义网络构建。 词向量在词汇语义网络构建上表现出较大优势。 虽然一些人工编制的词汇网络资源如WordNet 也可构建词汇语义网络,但相比词向量方法,其存在诸多缺陷。 首先,WordNet 的编制费时费力,词汇数量有限,可拓展性差。 其次,WordNet 的词汇语义网络相对固定不变,很难反映语言使用的动态性。

四、 系统框架及流程设计

(一)设计原则

为改进现有词汇学习软件设计现状,充分利用当代人工智能技术,本研究的计算机辅助词汇学习系统设计尽量满足以下三个基本原则。 第一,科学性原则。 词汇学习系统是计算机辅助外语教学中的重要应用之一。 由于硬件条件限制,早期词汇学习系统主要关注软件基本功能实现。 随着信息技术的迅速发展,英语词汇教学软件的功能越来越复杂,界面也越来越友好。 随着智能手机的普及,英语词汇教学软件的应用日益广泛。 这种条件下,词汇学习系统应该借助语言学、外语教学、心理学研究的最新成果,在各个细节上朝着科学规范的方向发展。 第二,个性化原则。 由于个体心理特质、语言基础和目标需求等各方面差异,词汇学习方法也因人而异。许多网络服务应用程序开发设计了个性化学习方案,单词学习系统也应该充分考虑用户差异,进行个性化的学习曲线设计,包括单词学习的顺序、数量、形式等各方面细节。 第三,智能化原则。 学生用户的个体差异并非静态的,而是随着时间的推移和学习的进展发生动态变化。 人工智能在计算机辅助外语教学方面将发挥积极作用。 智能化词汇学习系统应该记录和评估学生的历史学习行为,并根据学习发展状况对后续词汇学习计划进行动态调整。

(二)系统框架

根据上述原则,本研究提出基于词向量的计算机辅助词汇学习系统基本框架(如图1)。 如前所述,除了单词信息呈现设计,以识记为主要目标的词汇学习系统关键在于科学合理地进行词汇分组与顺序规划。 词汇学习系统主要分为三大部分:数据、执行和呈现。 数据部分包括分级词表、词向量模型和用户行为日志。 分级词表基于大型通用语料库词频统计数据,一般频数越高的单词,越早学习。 词向量模型通常运用大规模语料库训练得到,用于提取词汇相似度和构建词汇网络。 用户行为日志则源于系统使用记录。 执行部分主要体现为词汇学习方案,其接受词汇教学理论指导,并根据分级词表、词向量模型和用户行为日志等数据信息进行设计和制订。用户界面用于呈现单词学习信息,并提供用户交互功能,同时记录和保存用户学习行为。

图1 系统基本框架

(三)流程设计

执行部分的学习方案是系统运行流程的集中体现,主要涉及不同学习环节中的词汇学习计划设置。系统运行流程包括三个环节:词汇学习环节、词汇巩固环节和词汇扩张环节(如表1)。 词汇学习环节按组别依次呈现单词及其释义或图示以供学习者识记。 依据词汇教学理论,学习者在初次接触生词时应该尽量减少干扰,故本环节采用单词离散化间隔处理,即尽量分散学习存在关联的词汇,避免语义相关单词编入同一分组。 语义相关性检验使用词向量模型进行向量余弦相似度计算,同一分组内单词需要低于预先设置的相似度阈值。 词汇巩固环节是对已经学习过单词进行强化记忆,主要采用回忆辨认等方式进行测试练习。 本环节根据单词记忆规律,遵循艾滨浩斯遗忘曲线,结合学习者测试准确率,采用逐步扩大间隔方式巩固记忆具有初步印象的词汇。 词汇扩张环节是对已经完成前两个环节并达到基本熟识的单词进行以词汇语义网络为基础的关联词汇增长学习。 本环节采用词向量模型提取相似词,构建语义相关词汇语义网络,并结合词汇分级过滤机制,推送目标学习词汇。

表1 系统运行流程各环节一览表

五、 结论

基于词向量的计算机辅助词汇学习系统可以从词汇学习和词汇扩张两个环节对已有系统进行科学化和智能化改进。 在学习环节,系统通过词向量语义相似性计算方法将目标词进行过滤,以达到离散化分组目的,有助于减少记忆干扰。 在扩张环节,系统以目标词为中心,通过词向量相似词查找,构建相关词汇网络,可以提高词汇学习效率。 此外,系统追踪和记录学习者行为,并基于行为日志制订后续学习计划,具有个性化学习特点。 研究表明,由于词向量模型在词汇语义相似性计算和词汇语义网络建构方面的便捷性,词向量技术在计算机辅助英语词汇学习系统中具有较好的应用价值。

猜你喜欢
英语词汇语义向量
向量的分解
聚焦“向量与三角”创新题
语言与语义
“上”与“下”语义的不对称性及其认知阐释
向量垂直在解析几何中的应用
高中英语词汇学习之我见
初中英语词汇教学初探
向量五种“变身” 玩转圆锥曲线
认知范畴模糊与语义模糊
扩大英语词汇量的实践