BERT 跨语言词向量学习研究

2021-08-07 07:42王玉荣李艳玲
计算机与生活 2021年8期
关键词:目标语言语料语义

王玉荣,林 民,李艳玲

内蒙古师范大学 计算机科学技术学院,呼和浩特 010022

随着互联网多语言信息的发展,不同语言的知识共享与联系日益紧密,如何有效地表示不同语言文本所隐含的动态特征信息,已成为当下的研究热点。文本词向量能够表示文本语义、语法和结构等特征信息,跨语言词向量是单语文本词向量在多语言环境下的一种自然扩展。它认为具有相同概念的不同语言的词向量在向量空间中的距离非常接近,使得跨语言词向量可以在不同语言间进行词义推理和特征共享[1]。通过多语言的知识可以构建动态的共享特征空间,使得有利于发现跨语言相关知识的对齐效果,增强相关但不同的分类知识域间的联系。

近年来,跨语言词向量被应用于多个自然语言处理(natural language processing,NLP)任务中,如面向任务的对话系统[2-3]、词性标注[4-6]、命名实体识别[7-8]、信息检索[9]、依存分析[10]和个性化对话代理[11]。与其他跨语言模型相比,如基于多语言本体的跨语言模型[12],跨语言词向量模型有两大优势。第一,跨语言词向量模型能够对跨语言语义信息进行建模,准确计算跨语言词语相似度等信息,是跨语言词典构建[13]、跨语言信息管理[14]、跨语言信息检索[15]等多种跨语言应用的基础[16]。第二,跨语言词向量支持语言之间的模型转移,为迁移学习提供了桥梁。例如,跨语言迁移学习的一个重要研究方向是[17-20],通过提供公共的表示空间,实现资源丰富的语言和资源贫乏的语言之间的模型转移[1]。

大多数跨语言词向量模型都使用单语词向量模型,并将其扩展到双语以及多语言环境中。单语词向量模型成为很多跨语言词向量模型的一个重要的初步工作。

早在Bengio等[21]提出的神经网络语言模型(neural network language model,NNLM)及Mikolov[22]提出的Word2Vec 特征表示学习模型,将文本训练成为用分布式词向量表示的词向量,能有效捕捉隐含在单词上下文的语法、语义信息,在许多需要这些语言特征建模的应用任务中取得了较好的效果,如情感分析[23]、依存分析[24]、机器翻译[25]等任务。但该模型的缺陷是:(1)只考虑固定大小窗口内的单词,在获取句子上下文语义信息方面存在困难;(2)获得的词向量具有聚义现象,将处于不同语境的词汇多种语义综合表示成一个词向量,不能表达一词多义,是一种静态的词向量。为了有效学习词汇的多重含义,Peters等[26]提出基于双向LSTM(long short-term memory)的深度语境化词向量模型ELMo(embedding from language models),对单词的复杂特征,以及单词使用时语境中的变化进行建模。Devlin等[27]提出了BERT(bidirectional encoder representations from transformers)模型。它摒弃了双向LSTM 的循环网络结构,把Transformer[28]编码器当作模型的主体结构,并利用注意力机制对句子进行建模。BERT 模型的突出优势是通过海量语料的训练,得到了一组适用性十分广泛的词向量,同时还能在具体任务中进一步动态优化(fine-tuning),生成上下文语境敏感的动态词向量,解决了以往Word2Vec、Glove(global vectors for word representation)等模型的聚义问题。BERT 预训练模型的出现,使静态的跨语言特征共享空间走向了动态的跨语言特征共享空间,解决了在多语言环境中一词多义的问题。例如,“苹果”这个词的向量在英汉跨语言词向量空间中,可以根据不同的上下文与英文的“fruits”类词汇或“enterprises”类词汇向量接近。

因而本文重点分析基于BERT 的跨语言词向量学习方法,按照训练方式的不同分为有监督学习和无监督学习,并对各类训练方法的原理进行分析和比较。结合阐述的文献,以构建基于BERT 的蒙汉文跨语言词向量进行展望。

1 预训练模型BERT 和跨语言词向量模型相关概念及训练数据需求

BERT 模型通过预训练和微调的方式得到语义更丰富的词向量表示,能够克服传统词向量的聚义现象,通过微调的方法将模型应用到特定的下游任务,提升泛化能力[29]。在预训练方面,通过堆叠Transformer模型的编码器部分构建基础模型,如图1 所示。通过掩蔽语言模型(masked language model,MLM)和预测下一句(next sentence prediction,NSP)两个任务联合训练达到捕获词级和句子级上下文语义向量表示的目的,其中掩蔽语言模型真正实现了双向语言模型的效果[30]。在迁移到下游任务方面,BERT 借鉴了OpenAI 的GPT(generative pre-training)预训练模型的做法,设计了比GPT 更通用的输入层和输出层[30]。

Fig.1 Model structure of BERT图1 BERT 模型结构

Mikolov 等[22]观察发现,不同语言的词向量在向量空间中有着相似的几何排列,如图2 所示,左图为英语,右图为西班牙语。不论是数字词汇还是动物词汇,英语和西班牙语词向量的分布非常相似。基于这一发现,提出一种线性映射的方法实现源语言向量空间到目标语言向量空间的转换。后续,学者们通过双语词典学习该转换[31],又通过自学习减少词典的规模[32],最终通过无监督初始化启发式学习[33-34]和对抗性学习[35-36]实现源语言词向量到目标语言词向量的映射。此外,通过从单语设置转换到双语设置[23]构建共享的双语向量空间,可以在不同语言间进行扩展和概括语义任务[37],例如,语义相似性[38]计算、同义词检测或单词类比计算[39]等。

Ruder 等[1]将跨语言词向量按照语料对齐方式分为基于词对齐、基于句子对齐、基于文档对齐的学习方法。其中基于词对齐的方法是所有方法的核心和基础。为方便理解,图3 分别给出了不同对齐语料的示例,其中图3(a)是词对齐的平行语料示例,图3(b)是句对齐的平行语料示例,图3(c)是类似于文档对齐的语料示例。

Fig.2 English and Spanish word embedding representation图2 英语、西班牙语词向量表示

Fig.3 Examples of alignment of different types of corpus图3 不同类型语料对齐示例

有监督的学习方法一般需要大量的标注数据,对于英文和中文而言,存在各种任务的标注数据集,而对于资源缺乏的语言,获取这样大量的数据比较困难。半监督的学习方法可以缓解这一问题,使用较少的标注数据进行训练。无监督学习不需要任何人工标注的数据。本文将有监督学习方法和半监督学习方法一起进行分析,对所需的语料单独进行归纳总结。下面分别从有监督学习及无监督学习两方面对基于BERT 的跨语言词向量学习方法的主要研究展开详述。

2 基于BERT的有监督跨语言词向量学习方法

2.1 有监督跨语言词向量学习方法

2.1.1 基于共享空间映射的方法

跨语言词向量映射是学习双语词向量的有效方法[22]。其基本思想是利用单语语料库独立训练不同语言的词向量,通过线性变换将它们映射到同一个共享空间。Mikolov 等[22]提出的映射方法包含一个双语词典和对应的向量,其中xi∈X是源语言词向量,yi∈Y是目标语言词向量。学习任务是找到一个变换矩阵W,使Wxi无限接近yi。训练优化公式如式(1)所示:

为提高模型的性能,研究者们在矩阵和向量上加了许多约束。Xing 等[40]提出源语言和目标语言的词向量长度需要先进行归一化操作。Faruqui 等[41]使用典型相关分析(canonical correlation analysis,CCA)将源语言和目标语言的向量映射到共享空间,最大限度地提高两种单语向量空间映射的相关性。之后,在跨语言词向量学习过程中,为了降低种子词典的规模,许多研究者提出采用自学习的策略在迭代中扩充词典。

为了解决不同语言、不同领域的词汇分布差异问题,樊艳[42]提出了基于多个矩阵的软分段映射模型(soft piecewise mapping model,SPMM),其中每个矩阵对源语言向量空间中的每个主题分布进行建模。在SPMM 中,训练集中的每个实例(xi,yi)∈D(双语训练的词典),对应着一组权重值构成的向量,其中每个权重值ai,r>0 是实例(xi,yi)与第r个隐含主题的相关程度。在SPMM 中,目标函数定义为:

其中,W1,W2,…,WR代表R个映射矩阵,每个实例(xi,yi)对应着一个用于学习第r个映射矩阵Wr的权重值ai,r。并提出一种自动词典扩充算法,在迭代中提升词典数量。在每一次迭代中,首先在源语言和目标语言词汇中进行采样,得到集合DS(源语言词汇集)和DT(目标语言词汇集)。DS和DT中的每个词是以概率正比于它在语料库中的频率进行采样得到的。在维基百科的可比语料上相比前人的方法有了一定的提高,在非同一语系英文-中文、低资源的越南语-英语跨语言术语翻译下游任务中有明显的提升。并证明在跨领域知识体系迁移任务中,预训练模型BERT 的效果最好。该方法适用于语言差距较大的跨语言任务中,非同一语系的词汇在向量空间中的分布差异较大,需要多个矩阵进行细粒度的映射。利用源语言向量空间的词向量分布信息,可以学习到每个聚类的权重,使得细粒度的映射可以在跨语言、跨领域中进行知识的迁移。该方法能够缓解双语词典语料缺乏问题,但需要高质量的初始词典,文中主要采用了公开的词典[43],并在维基百科的可比语料上做了自动词典扩充。

用双语词典生成法来学习跨语言词向量,克服了需要大规模语料的问题,但是对种子词典的要求比较高,需要高质量的种子词典。Wang 等[44]提出了基于词对齐的跨语言BERT 映射,在学习上下文跨语言词向量时在单词级别上进行监督而不再是词典级别上。其主要思想是:首先,通过无监督的词对齐工具获得一组包含上下文信息的词对;然后,用预训练好的BERT 模型获得词向量表示;最后,找到一个合适的线性映射矩阵W,使得源语言词向量空间与目标语言词向量空间的距离尽可能接近。在依存分析的下游任务中,该方法远超过了之前使用静态跨语言嵌入的模型,平均增益为2.91%,相比其他跨语言模型,所需的训练数据、计算资源和训练时间要少得多,但实现了极具竞争力的结果。该方法能够在有限的双语语料上较快地获取跨语言上下文相关的词向量。但只是单一地解决了资源稀少语言学习词向量的问题,没有很好地体现跨语言语义融合的词向量。因为该方法只是把目标语言词向量映射到源语言词向量,使得目标语言的词向量尽量与源语言词向量对齐,而对于学习跨语言语义融合词向量模型的贡献还是较少。

2.1.2 基于联合学习方法

Klementiev 等[45]将跨语言表征的学习视为一个多任务学习问题。联合优化源语言和目标语言模型以及跨语言正则化术语,使得在并行语料库中对齐单词的词向量在向量空间中更加相近。Castellucci等[46]提出BERT-Joint 模型,在多语言BERT 模型上设计了一种联合学习方法,应用于多语言联合文本分类和序列标注工作。通过多语言BERT(multilingual BERT,Multi-BERT)模型的[CLS]词项的最终隐状态h0的固定维数序列来实现文本分类,通过词项对应的最终隐状态对该词项进行标注。为实现该目标,作者在模型上添加了句子级分类矩阵,分别实现了文本分类和序列标注功能。该方法在英文基准数据上得到了较好的结果。在跨语言方面,用翻译器实现源语言词汇和目标语言词汇对齐,在有少量标注的意大利语数据集上得到了较好的效果。但该模型的跨语言词向量学习完全依赖Multi-BERT 模型,通过机器翻译源语言的训练数据实现多语言的任务,实质上训练数据的意图标签和语义槽填充值并没有改变,因此并没有实现真正意义上的任务迁移。此外,利用机器翻译会丢失源语言本身的语法等内部信息,翻译结果需花费大量的时间去矫正,这也不利于该方法的训练。

Multi-BERT 虽然能够学习跨语言词向量,但其训练过程仍是一种语言接着另一种语言的训练,源语言和目标语言单独进行编码,二者之间没有交互,产生的句子表示之间关联性差,拟合后得到的分数也会低。陆金梁等[47]提出一种基于Multi-BERT 跨语言联合编码的词向量学习方法。在预训练好的Multi-BERT 模型基础上使用少量的平行语料进行二次训练,将其应用到译文质量估计任务中,并分析了该模型在句子级跨语言任务上的效果,如图4 所示。该模型预训练的任务与BERT 一样,包括掩蔽词汇预测和是否为互译文句的预测两个任务。在预训练过程中与BERT 模型不同的是,源语言句子中没有掩蔽词汇,掩蔽词汇都在目标语言句子中,即在知道源语言句子的情况下预测目标语言句子中掩蔽的词汇。该方法在德语->英语、中文->英文的译文质量估计上都得到了较好的效果。在跨语言词向量学习方面,以中文单词和英文单词为例,用平行语料进行二次训练的Multi-BERT 得到的词向量在向量空间中的相似度远高于用单语语料二次训练的Multi-BERT 得到的词向量。他们通过观察从源语言句子到目标语言句子的注意力权重分配,发现该方法使得在两种语言中具有相似语义的单词注意力分布基本一致。通过联合编码的预训练方法,可以帮助相互注意在不同语言间具有关系的单词,尤其是具有相似语义的单词。

Fig.4 Multi-BERT quadratic training method using parallel corpus图4 使用平行语料的Multi-BERT 二次训练方法

Fig.5 Pre-training cross-lingual models图5 跨语言模型预训练

Lample 等[48]将平行数据的跨语言监督纳入到学习跨语言的语言模型(cross-lingual language model pretraining,XLM)中。结合掩蔽语言模型(masked language modeling,MLM)和翻译语言模型(translation language modeling,TLM)实现半监督的跨语言词向量学习,如图5 所示。掩蔽语言模型基本与Devlin 等[27]提出的想法一样,类似于完形填空任务。与其不同的是,掩蔽语言模型使用由任意数量的句子组成的文本流代替成对的句子。翻译语言模型的输入是平行的翻译句子,并随机掩蔽源语言句子和目标语言句子中的一些词汇。在训练中,预测源语言句子中掩蔽的词汇时,该模型不仅能注意到源语言词汇上下文信息,还能够注意到目标语言的上下文信息。该方法以高出4.9%的准确率刷新了XNLI(cross-lingual natural language inference)[49]的记录。该方法的翻译语言模型,在预测掩蔽词汇的时候不仅捕获了该语言词汇的语义、语法信息,而且捕获了另一种语言的深层次信息。

2.1.3 基于伪双语语料的方法

基于伪双语语料的词向量学习方法使用双语词典,随机替换源语言语料库中的单词来构建伪双语语料库。Xiao 等[50]首次提出该方法,使用初始种子词典,创建一个联合跨语言词汇表,其中每个翻译对占据相同的向量表示。他们通过提供源语言和目标语言语料库的上下文窗口使用最大边界损失(max-margin loss,MML)[51]对这个模型进行训练。Qin 等[52]在该方法的基础上,提出跨语言零样本学习的多语言文本混合(code-switching)数据增强方法(multi-lingual codeswitching data augmentation for zero-shot cross-lingual,CoSDA-ML),实现更好地微调Multi-BERT。该模型通过混合上下文信息来一次性对齐源语言和多目标语言的词表示。如图6 所示,首先使用数据增强的多语言文本混合对Multi-BERT 进行微调,即将“It's a very sincere work”数据,变化成“It's a 非常aufrichtig work”。微调结束后,直接将其应用到零样本迁移测试。其中,数据增强方法包括选句子、选词和替换已选词三个步骤。经过CoSDA-ML 微调后在多语言环境中语义相近词的向量变得更接近并相互重叠。但该方法的局限在于需要高质量的多语言的双语词典,对于资源稀少的语言还是有一定的困难。

Fig.6 Training and zero-shot transfer图6 训练和零样本迁移过程

Table 1 Comparison of supervised cross-lingual word embedding learning methods based on BERT表1 基于BERT 的有监督跨语言词向量学习方法对比

2.2 基于BERT 的有监督跨语言词向量学习方法的分析与比较

基于共享空间映射的跨语言词向量学习方法通过利用丰富的双语词典或词对齐语料实现有效的跨语言词向量学习。但该方法存在一个缺点,一次只考虑一对源语言和目标语言,因此导致每种目标语言要有单独的模型。近年来,随着多语言BERT 的盛行,基于联合学习的跨语言词向量学习方法颇受研究者的青睐。通过预训练和微调,实现多语言词向量的语义对齐,并且克服了共享空间映射方法的缺点,成为目前较为流行的跨语言词向量学习方法。在实际应用中,伪双语语料方法的成本较高,在大型单语语料上从头开始训练。相比之下,基于共享空间映射方法的计算效率高,因为它利用了预训练的单语词向量。基于共享空间映射的方法、基于联合学习的方法和基于伪双语语料的方法看起来非常不同,但它们有时非常相似,事实上,它们是等价的[1],等价性证明这里不做赘述。根据上文的论述,表1 是对基于BERT 的有监督跨语言词向量学习方法的大致归纳总结。

3 基于BERT的无监督跨语言词向量学习方法

3.1 无监督跨语言词向量学习方法

上文介绍的基于BERT 跨语言词向量学习方法需要一些平行语料或双语词典,但这对资源稀缺的语言还是比较难获得。Multi-BERT 在完全无监督的情况下能进行跨语言迁移,改变了跨语言词向量学习方法。通过联合训练Transformer 模型来执行多种语言的掩蔽语言建模,然后在下游任务上进行微调。Wu 和Dredze[53]发现,Multi-BERT 的跨语言泛化能力基于三个因素:(1)种子词典的共享词汇;(2)多种语言语料的联合训练;(3)深度的跨语言表征。Artetxe 等[54]提出单语言的跨语言迁移模型(crosslingual transfer of monolingual model,MONOTRANS),通过将单语种模型迁移到词汇级别的新语言中的方法来反驳此假设。首先,使用L1未标注的语料训练BERT 模型,训练任务为掩蔽的语言模型和下一句话的预测;然后,冻结训练好的BERT模型的Transformer主体结构(embedding 层和softmax 层除外),用L2未标注数据训练新的BERT 模型,训练任务与上一步相同;其次,使用L1的标注数据在下游任务中,微调第一步训练好的模型,微调过程中冻结embedding 层;最后,使用第二步得到的embedding 层替换第三步的embedding 层,得到新的模型,应用于L2中相同的下游任务,如图7 所示。在标准的跨语言分类基准和新的跨语言问答数据集上,该方法与Multi-BERT 有一定的竞争力。该方法中的词汇表是在各自的单语语料库上训练的,没有为每种语言构建单独的词汇表,即没有共享子词汇的概念,成功地反驳了Multi-BERT 跨语言泛化能力的三个因素。他们还发现,在跨语言预训练的模型中贡献较大的是每种语言的有效词汇,而不是有一个联合的词汇表或多种语言的共享词汇表。无需共享词汇只需要单语语料,对资源信息缺乏的语言是个较好的方法,是无监督学习跨语言词向量的一个新台阶。

Fig.7 Zero-shot cross-lingual transfer图7 零样本跨语言迁移

跨语言模型,在大量的跨多种语言的单语或双语资源上进行了预先训练,并对它们进行微调以适应下游的跨语言任务,取得了良好的效果[55]。然而在微调过程中可能会改变模型参数,削弱跨语言的泛化能力。为了缓解这一问题,Liu 等[56]提出一种持续学习的方法,在微调下游的跨语言任务时,能够保持预先训练过模型的原始跨语言能力。假设:模型已经学习了n-1 个任务,并且需要学习第n个任务。梯度情景记忆(gradient episodic memory,GEM)的主要特性是情景记忆Mk,它存储观察到示例的一个子集任务k(k∈[1,n])。第k个任务的内存损失定义为:

为了在学习第n个任务的同时保持模型在前n-1 个任务中的性能,GEM 将前n-1 个任务的损失作为不等式约束。在观察第n个任务的训练样本(x,y) 时,GEM 的作用是最小 化L(fθ(x,n),y),其中,Mk),k

此外,在少数民族语言跨语言词向量学习方面,孔祥鹏等[57]提出了一种基于迁移学习的联合深度神经网络模型,通过共享权重的方法学习跨语言词向量表示,应用于维吾尔语命名实体识别。首先用中文训练BERT 语言模型获得中文的语义词向量表示,将词向量输入到空洞卷积神经网络减少神经元层数和参数,再通过双向门控循环单元进行上下文语义信息提取,最后通过条件随机场(conditional random fields,CRF)得到最优标签序列。中文实体识别模型训练好后,采用共享深度神经网络隐藏层的方法捕捉维吾尔语字符之间的语义依赖关系,从而提高命名实体识别的性能,其准确率为91.39%,召回率为90.11%,F1 值达到了90.75%。该方法中跨语言词向量学习主要依赖于BERT 的语义学习和神经网络权重的共享。模型在中文信息上学到的表示信息迁移到维吾尔语上,实现了从维吾尔语词向量到中文词向量的对齐。

对于资源缺乏的语言来说,获取大量的标注数据进行有监督训练是比较困难的,因此如何从已训练好的高资源语言迁移到一个低资源的语言,并且不需要标注数据成为一个新的挑战。无监督的跨语言学习方法无需人工标注数据且具有领域无关性,适合有大规模开放的无结构化数据的语言,但这种训练方法对硬件的消耗也比较大。表2 是对以上各种基于BERT 的无监督跨语言词向量方法给出的其适用范围和资源消耗情况。

Table 2 Comparison of unsupervised cross lingual word embedding learning methods based on BERT表2 基于BERT的无监督跨语言词向量学习方法对比

3.2 基于BERT 的有监督和无监督的跨语言词向量学习方法的对比与分析

基于BERT 的有监督跨语言词向量学习方法通过丰富的对齐语料,实现从源语言词向量到目标语言词向量的迁移。但需要大量的标注数据或高质量的种子词典。而基于BERT 的无监督的跨语言词向量学习方法不需要任何监督数据,并证明部分无监督方法能获得与有监督方法相媲美的结果,从而得到了许多研究者的青睐。表3 是对基于BERT 的有监督和无监督跨语言词向量学习方法的大致归纳总结,表4 是按照训练语料多少排序的跨语言词向量模型。

Table 3 Comparison of cross-lingual word embedding learning methods based on BERT表3 基于BERT 的跨语言词向量学习方法对比

Table 4 Cross-lingual word embedding model sorted according to the number of training corpus表4 按照训练语料多少排序的跨语言词向量模型

4 跨语言词向量学习的评估方法

跨语言词向量的质量评估,通常分为两类:内在评估方法和外在评估方法[1]。内在评估是度量两种语言词向量的相似性,直接评估词之间的语法、语义关系。其方法是:先用词向量计算两个词对的余弦相似性值,然后计算其与人工标注的相似性值的斯皮尔曼等级相关系数。该方法虽然简单、快速,但是存在几个明显的缺点:(1)人为标注的相似性值过于主观;(2)数据集评估的是语义相似性而不是基于某个任务上的相似性;(3)没有标准的分割;(4)词向量在下游任务上的相关度不高;(5)没有考虑词汇的聚义现象[16]。外在评估是将训练好的跨语言词向量作为NLP 下游任务的输入特征,通过下游任务的表现来评估跨语言词向量的质量。

5 总结与展望

5.1 总结

本文主要对基于BERT 的跨语言词向量学习方法进行了介绍。按照词向量训练方法的不同,将其分为有监督学习和无监督学习两类。在有监督的学习方法中,重点概述了基于词对齐的跨语言词向量学习方法,分为基于映射的学习方法、基于联合学习方法、基于伪双语语料学习方法。在无监督的方法中主要论述基于多语言BERT 的跨语言词向量学习的方法和一些无需共享词典和联合学习的学习方法。在无监督跨语言词向量学习方法中,一个典型的办法是利用对抗性训练[34]映射共享语义空间,但作者并没有找到先用BERT 预训练模型学习单语词向量,再用对抗性训练学习跨语言词向量的方法。此外,跨语言词向量映射的自学习[33]方法也是一种无监督的跨语言词向量学习方法,但学习单语词向量时并没有用到BERT 模型。

跨语言词向量将不同的语言映射到一个共享语言特征低维度稠密的向量空间,在不同语言间进行知识转移,从而在多语言环境中能有效捕捉隐含在单词上下文中的语法、语义信息。对于资源信息缺乏的语言,跨语言词向量模型是一种研究方向,它能很好地学习跨语言词向量表示。

5.2 展望

蒙古文带标注数据资源稀少,属于低资源语言,无法构建成熟的动态蒙古文词向量模型,构建基于BERT 的蒙汉文跨语言词向量模型是一种研究方向,但同时伴随着新的挑战,需要进一步探索和研究,重点有如下问题亟待解决:

(1)一词多义的表达。蒙古文与土耳其文、日文、朝鲜文一样,是一种粘着性语言,具有复杂的形态变化结构。在实际应用中常会有一词多义现象。例 如,“这一句中两个的含义不同,第一个是“顶”的意思,第二个是“头”的意思,这句话的中文意思为“到了山顶后我头疼了”。因而必须要考虑如何构建上下文语境敏感的动态词向量模型和蒙古文复杂的形态变化结构。

(2)子词的融合。BERT 模型的出现,将子词级的信息纳入跨语言词汇表征的学习中,但学习蒙古文词向量需要将这些子词进行融合,需要考虑用什么样的融合方法才能表达单词的真实语义。

(3)多音词。蒙古文有一些多音词,一种形式对应多种拼写、发音、意义,如这个词有“hvta”“hvda”“hqta”“hqda”“hvte”“hvde”“hqte”“hqde”等8种不同拼写方式,其中“hqta”(意思:城市)和“hvda”(意思:亲家)是正确的拼写(微软输入法键盘映射),但输入者往往只关注它的形式而不关心其正确的键盘映射。“”这句话也会因这个的多义性产生歧义句“我来到市里的家了”和“我来到亲家的家里了”两个意思。这些问题在蒙古文中较常见,构建蒙汉文跨语言词向量模型时需考虑进去。

(4)功能词的表述。跨语言词向量模型与其他单语词向量模型一样,对功能词不太敏感,例如“给我一支笔”和“给我这支笔”。这种功能词对跨语言对话系统中尤为重要,需要考虑进去。

(5)数据集的获取。目前大多数跨语言词向量模型都基于双语词典或平行数据,蒙古文属于低资源语言,获取这样的数据集比较困难。一个重要的相关研究方向是在多语言预训练模型的基础上,用少量的平行数据进行微调。

(6)语言差异性。蒙古文和中文不属于同一个语系,差异性较大。将两种语言映射到一个共享语义空间还需要考虑语内翻译和语际翻译。语内翻译多指词对应翻译,比较严谨,准确复现了原文本内容,语际翻译偏向于意译,更加灵活,也能体现出语言文化和语言表达方式的不同。因此模型的约束条件中,既要体现语内翻译中词汇的对应正确性,也要涵盖语际翻译中的文本语义一致性。

猜你喜欢
目标语言语料语义
真实场景水下语义分割方法及数据集
海量标注语料库智能构建系统的设计与实现
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
中国大学生对越南语虚词的误用
教材插图在英语课堂阅读教学中的运用及实例探讨
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴
多媒体英语学习法
英语教学中真实语料的运用