命名实体识别的迁移学习研究综述

2021-02-05 18:10李艳玲
计算机与生活 2021年2期
关键词:源域向量实体

李 猛,李艳玲,林 民

内蒙古师范大学计算机科学技术学院,呼和浩特 010022

命名实体识别(named entity recognition,NER)是自然语言处理(natural language processing,NLP)的一项非常重要的基础任务,旨在自动检测文本中的命名实体并将其分类为预定义实体类型,例如人名、地名、组织机构名等,是人机对话系统、机器翻译、关系抽取等的前置任务[1]。传统以及深度NER[2-6]方法已经取得了非常高的识别精度,但是训练模型需要大规模标注数据,模型性能与标注数据量成正比,在训练语料匮乏的特定领域(如医学、生物等)和小语种(如蒙古语、维吾尔语等)上,性能差强人意。由于训练集和测试集要求独立同分布,因此导致将已有的模型运用到其他领域或者语言上性能差强人意。

迁移学习旨在利用源域中大量标注数据和预训练模型提高目标任务学习性能,凭借其对数据、标注依赖性小和放宽了独立同分布约束条件等优点[7-8],已经成为解决资源匮乏NER 的强大工具。NER 的迁移学习方法早期工作主要集中在基于数据的方法,利用并行语料库、双语词典等作为桥梁将知识(如标注、特征表示等)从高资源语言投影到低资源语言,主要用于跨语言NER 迁移。后来研究者将源模型部分参数或特征表示迁移到目标模型上,不需要额外的对齐信息,实现了跨领域和跨应用NER 迁移并取得了非常好的效果。最近NER 对抗迁移学习受到越来越多研究人员的关注,引入由生成对抗网络(generative adversarial networks,GAN)[9]启发的对抗技术,生成一种“域无关特征”,进而实现源域知识到目标域的迁移,帮助目标任务提高学习性能,同时有效缓解了负迁移问题。

刘浏等人[10]从NER 定义、评测会议、主流研究方法等角度,介绍了NER 任务的发展历程;Li 等人[11]详细地总结和分析了NER 的深度学习方法,以及深度NER任务面临的挑战和未来发展方向。Pan和Yang[12]的综述是一项开创性工作,对迁移学习进行了定义和分类,并回顾了2010 年之前的研究进展;Weiss 等人[13]介绍并总结了许多同构和异构迁移学习方法;Zhuang 等人[8]从数据和模型角度对40 多种具有代表性的迁移学习模型进行了介绍和对比。以上综述都是对NER 或迁移学习单方面的阐述,没有详细地介绍两者结合的方法。本文从基于数据迁移学习、基于模型迁移学习、对抗迁移学习这三方面对目前NER 任务的迁移学习方法进行了研究和调查。

1 命名实体识别

1.1 传统NER 方法

传统的NER 方法大致有三类:基于规则、无监督学习和基于特征的有监督学习[1,12]。基于规则的方法依赖语言学家和领域专家手工制定的语义语法规则,通过规则匹配识别各种类型的命名实体,基于规则的方法虽然能够在特定语料上(字典详尽且大小有限)获得很好的效果,但是构建这些规则不仅耗时,难以覆盖所有规则,而且可扩展性和可移植性比较差。无监督学习方法利用在大型语料库上获得的词汇资源、词汇模型和统计信息,使用聚类[14]推断命名实体类型。基于特征的有监督学习方法通过监督学习,将NER 任务转换为序列标注任务,根据标注数据,将每个训练样本用精心设计的特征表示出来,然后利用机器学习算法训练模型,从看不见的数据中学习相似的模式,其缺点是需要大量人工标注训练数据和人为构造、选择的有效特征[15]。

基于规则的方法主要有LaSIE-Ⅱ[16]、NetOwl[17]、Facile[18]。基于特征的有监督学习算法主要有隐马尔可夫模型(hidden Markov model,HMM)[19]、决策树(decision trees)[20]、最大熵模型(maximum entropy model,MEM)[21]、支持向量机(support vector machines,SVM)[22]、条件随机场(conditional random fields,CRF)[23]等。

1.2 深度NER 方法

近年来,随着深度神经网络的迅猛发展,NER 的深度学习方法已成为主流。深度学习有三个优势:(1)深度神经网络可以进行非线性变换,进而从数据中学习到更复杂的特征;(2)深度学习可以从原始数据中自动学习特征;(3)深度NER 模型属于端到端模型[8]。

NER的深度学习方法一般分为三个阶段[8],如图1所示,分别是分布式表示、特征提取器和标签解码器。分布式表示把单词或字符映射到低维实值密集向量中,其中每个维度代表一个隐藏特征,它可以自动从文本中学习语义和句法特征,分布式表示有三种:词向量(word embedding)[24]、字符向量(character embedding)[15]和混合表示[3]。特征提取器通过接收上一层的向量对上下文特征表示进行学习,常用的特征提取器有卷积神经网络(convolutional neural networks,CNN)[2]、Transformer[25]、循环神经网络(recurrent neural network,RNN)[26]以及它的两种变体门控循环单元(gated recurrent unit,GRU)[27]和长短时记忆网络(long short-term memory,LSTM)[3]。标签解码器是最后一个阶段,以上下文特征为输入,生成标签序列,常见的解码方式有Softmax[24]、CRF、RNN。

Fig.1 Deep learning for NER flowchart图1 NER 深度学习流程图

1.3 深度NER 的难点

(1)资源匮乏。深度学习需要大规模标注数据才能很好地训练模型,但数据标注非常耗时且昂贵,尤其对于许多资源匮乏的语言和特定领域,如蒙古语、医学、军事领域。当标注数据较少时,由于无法充分学习隐藏特征,深度学习的性能会大大降低,而且深度学习模型可移植性很差,无法将已有数据和模型应用到资源匮乏领域[7]。因此,采用半监督学习和无监督学习实现资源的自动构建和补足,以及迁移学习等方法都可作为解决该问题的研究方向[28]。

(2)非正式文本。非正式文本即表达不符合书面语法规范的文本,如人机对话系统用户提问、Twitter 和微博等社交媒体上的文章评论等用户生成文本,由于其语句简短、口语化、内容宽泛、语意含糊、包含谐音字,使NER 变得非常困难,甚至无法识别。例如:“我中奖了”写成“我中了”;“杯具”表示“悲剧”;“xswl”代表“笑死我了”。Li等人使用主动学习将微博文本NER 的F1 值提高到了67.23%,但是仍需要人工标记[29]。可以使用注意力机制和迁移学习结合深度学习完成对非正式文本的识别。

(3)命名实体多样性。随着信息化时代的来临,移动互联网的普及,数据规模海量化,命名实体及其类型趋于多样化,同时也在不断演变[30]。传统的实体类型只有人名、地名和组织机构名,但是现实生活中实体类型复杂多样,不同领域存在不同的实体类型,需要识别更详细的实体类型,例如交通查询领域,需要出发地、目的地、时间、交通工具等实体类型。可以使用迁移学习技术,重复利用已有数据和模型,实现细粒度NER。

(4)命名实体歧义性。自然语言中存在大量歧义问题,这给NER 带来很大挑战。在不同文化、背景、领域下,同一实体可能含有不同的含义,例如:“香格里拉”可能是“香格里拉市”也有可能是“香格里拉酒店”。因此需要充分理解上下文语义关系进行识别,可以使用实体链接、注意力机制、特征融合、图神经网络等方法,挖掘更详细、更深层次的语义信息,从而消除命名实体的歧义性[28]。

(5)实体嵌套。实体嵌套指实体内部有一个或多个其他实体,例如:“中国驻俄罗斯大使馆”这一组织机构名中包含了“中国”和“俄罗斯”两个地名。嵌套实体中包含了实体与实体之间丰富的语义关系,充分利用嵌套实体的嵌套信息,可以帮助人们更详细、更深层次地理解文本。Xu 等人使用SVM 和CNN抽取中文嵌套实体的语义关系[31]。Xia 等人使用MGNER(multi-grained NER)模型,重构了命名实体识别的流程,对嵌套实体进行识别[32]。

2 迁移学习

随着信息化时代的来临,传统机器学习以及深度学习已经取得了巨大的成功,并已经应用到许多实际生活中。但是它们严重依赖于大量具有相同数据分布的标记训练数据,然而实际应用中,收集足够的训练数据是非常困难的。半监督学习、无监督学习可以放宽对大量标注数据的需求进而可以解决部分问题,但是训练的模型性能不尽如人意[8]。迁移学习是机器学习中解决训练数据不足这一基本问题的重要方法,旨在利用来自源域的知识提高目标任务学习性能[8]。它放宽了机器学习中的两个基本假设:(1)用于学习的训练样本与新测试样本满足独立同分布条件;(2)必须有足够可利用的训练样本才能学习得到一个性能不错的模型[33]。在迁移学习中,给定源域DS(含有大量标注数据,如英语、新闻领域等)和源任务TS,目标域DT(只有少量或完全没有标注数据,如蒙古语、社交媒体领域、医学领域等)和目标任务TT,其中DS≠DT或者TS≠TT。迁移学习已经广泛地应用于NLP、计算机视觉等领域,是当前机器学习中的研究热点。

2.1 传统迁移学习方法

传统迁移学习方法分为基于数据和基于模型的方法。基于数据方法主要使用实例加权和特征转换,以减小源域样本和目标域样本之间的分布差异。Dai 等人提出了TrAdaboost[34],将Adaboost 算法扩展到了迁移学习中,提高可用源域实例权重,降低不可用源域实例权重。Huang 等人提出核均值匹配法(kernel mean matching,KMM),通过再生核希尔伯特空间(reproducing kernel Hilbert space,RKHS)中匹配源域和目标域实例之间的均值,估计源域和目标域概率分布,使得带权源域和目标域概率分布尽可能相近[35]。Pan 等人提出迁移成分分析(transfer component analysis,TCA)[36],采用最大均值误差(maximum mean discrepancy,MMD)[37]作为度量准则测量边缘分布差异,以分散矩阵作为约束条件,将源域和目标域之间的分布差异最小化。

基于模型方法是指利用源域和目标域之间的相似性和相关性,将已训练好的部分源域模型或特征表示迁移到目标模型上,以提高目标模型的性能。Duan等人提出领域自适应机(domain adaptation machine,DAM)通用框架,借助在多个源域上分别预先训练的基本分类器,为目标域构造一个鲁棒的分类器[38]。为了解决分类问题,Tommasi 等人提出了一种单模型知识迁移方法(single-model knowledge transfer,SMKL),该方法基于最小二乘SVM,从源域选择一个预先获得的二进制决策函数,然后迁移其参数到目标模型[39]。Yao 等人在TrAdaBoost 的基础上做了多源扩展,提出了TaskTrAdaBoost,首先在每个源域上执行AdaBoost构造一组候选分类器,然后每次迭代挑选出在目标域上具有最低分类误差的候选分类器并为其分配权重,最后将所选分类器组合产生最终预测[40]。

2.2 深度迁移学习方法

深度学习目前是机器学习领域最流行的方法,许多研究者利用深度学习技术构建迁移学习模型,已经成为解决深度学习数据依赖和训练数据不足等问题的重要方法。深度迁移学习分为两类:非对抗方法和对抗方法。

非对抗方法复用在源域中预先训练好的部分深度神经网络,将其迁移至目标模型中。Tzeng 等人提出深度域混淆(deep domain confusion,DDC)解决深度网络的自适应问题,在源域与目标域之间添加了一层适应层和MMD,让深度迁移网络在学习如何分类的同时,减小源域实例与目标域实例之间的分布差异[41]。Long 等人对DDC 进行了扩展,提出了深度自适应网络(deep adaptation network,DAN)[42],在深度神经网络中加入多层适应层和表征能力更好的MK-MMD[43]。Long 等人在DAN 网络的基础上又提出了联合自适应网络(joint adaptation network,JAN),相比于DAN 只考虑边缘分布自适应,JAN 使用效果更好的多层联合分布自适应[44]。

对抗方法引入由GAN 网络启发的对抗技术,使模型无法识别特征来自源域还是目标域,进而完成源域知识到目标域的迁移,同时有效缓解了负迁移问题。Ganin 等人提出了结构简单的领域对抗神经网络(domain-adversarial neural networks,DANN)[45],其由特征提取器、标签预测器和领域分类器组成,特征提取器的作用类似于GAN 网络生成器,其目的是生成“域无关”的特征表示,领域分类器起着类似于判别器的作用,试图检测提取的特征是来自源域还是目标域,通过在领域分类器和特征提取器之间使用对抗技术,学习一种“域无关特征”。Tzeng 等人提出了一种对抗领域自适应的通用框架ADDA(adversarial discriminative domain adaptation)[46],利用判别模型、无条件权重共享和GAN 损失,解决领域之间的数据分布问题。Zhang等人提出了一种部分领域自适应的方法,称为基于重要性加权对抗网络的领域自适应(importance weighted adversarial nets-based domain adaptation,IWANDA)[47],不再使用一个共享特征提取器,而是分别为源域和目标域提供特定域的特征提取器。

3 命名实体识别的迁移学习方法

3.1 基于数据迁移学习

NER 的基于数据迁移学习方法大多利用额外高资源语言标注数据作为迁移学习的弱监督训练,以对齐信息作为桥梁,如双语词典[48]、并行语料库[49]和单词对齐[50]等,将知识(标注、词向量、特征表示等)从高资源语言投影到低资源语言。基于数据方法在跨语言NER 中显示出相当大的优越性,但是对高资源语言标注数据和对齐信息的规模和质量非常敏感,并且仅限于跨语言迁移。

3.1.1 标注和表示投影法

为了提高跨语言NER 的性能以及针对目标语言中没有人工标注,Ni 等人提出两种弱监督跨语言NER 方法[49]标注和表示投影法,以及两种共解码方案基于排除-O 置信度和基于等级的共解码方案。

标注投影法利用并行语料库、翻译等对齐语料,将高资源语言中的标注迁移到对应目标语言上,并开发了一种独立于语言的数据选择方案,可以从嘈杂的数据中选择高质量标注投影数据。给定目标语言句子y,以及质量得分阈值q和实体数量阈值n,其投影质量得分q(y),如式(1)所示:

式中,e代表y中的每个实体,代表e用投影标注l′(e)标记的相对频率,n(y)是y中的实体总数。数据选择方案必须满足q(y)≥q,n(y)≥n。

表示投影法,首先使用以词向量为输入的前馈神经网络模型训练英语NER 系统,然后将目标语言的词向量通过线性映射M f→e投影到英语向量空间中;最后使用训练好的英语NER 系统对目标语言进行标记。可通过加权最小二乘法得到线性映射M f→e,如式(2)所示:

其中,wi表示训练词典中英语目标语言单词对(xi,yi)的权重,ui、vi分别表示英语单词xi和目标语言单词yi的词向量。

共解码方案可以有效地结合两种投影法的输出,提高识别精度。基于排除-O 置信度的共解码方案是选择置信度分数较高的标注投影法或表示投影法生成的标签,优先选择一种方法的非O 标签(即实体标签)。基于等级的共解码方案,给予标注投影法更高优先级,即组合输出包括标注投影法检测到的所有实体,以及与标注投影法不冲突的所有表示投影法检测到的实体。当标注投影法为一段x都生成了O 标签,则表示投影法检测到x的实体标签不会与标注投影冲突。例如:标注投影法的输出标签序列为(B-PER,O,O,O,O),表示投影法的输出标签序列为(B-ORG,I-ORG,O,B-LOC,I-LOC),那么基于等级的共解码方案合并输出为(B-PER,O,O,B-LOC,ILOC)。

Ni 的贡献在于为标注投影法开发了一种语言无关数据选择方案,以及两种共解码方案,有效地提高了NER 的识别精度。两种投影法都具有较高灵活性,但是容易受到双语单词对的对齐准确率和英语NER 系统准确率的影响。

3.1.2 双语词典特征表示迁移法

为了丰富低资源语言的语义表示以及缓解词典外单词问题,Feng 等人提出了双语词典特征表示迁移法,将双语词典特征表示和词级实体类型分布特征作为目标NER 模型的额外输入,并设计一个词典扩展策略估计词典外单词的特征表示[51]。

双语词典特征表示:根据来自高资源语言的翻译,对每个低资源语言单词的所有翻译词向量使用双向长短时记忆网络(bi-directional long short-term memory,BiLSTM)或注意力机制提取特征表示veci。每个翻译项目T都由一个或多个高资源语言单词组成,例如:中文单词“美国”有四个英文翻译“America”“United States”“USA”和“The United States of America”。

词典扩展策略,用于估计词典外单词的双语词典特征表示。给定低资源语言单词xi及其对应词向量wi和双语词典特征表示veci。使用线性映射函数,如式(3)所示,作为两个语义空间之间的转换,最小化式(4)以优化映射矩阵M,在获得M之后,对每个词典外单词oi用式(5)估算其特征表示veoi:

单词实体类型的分布特征是每个单词被标记为每种实体类型的概率。实验中只使用了三种最常见的命名实体类型,即P(人名)、L(地名)、O(组织名)以及随机生成一个表示非实体的类型N,因此构造了四个实体类型向量{EP,EO,EL,EN},Ej∈Rd。然后,使用标准余弦函数计算低资源词向量wi与实体类型向量Ej之间的语义相关性,如式(6)所示。最后,每个低资源和高资源语言单词都分配有一个维数为4 的实体类型分布特征,eij={eP,eO,eL,eN}。

最后,将低资源词向量wi、低资源字符向量ci、双语词典翻译特征veci或veoi以及实体类型分布特征eij的连接词向量Wi={wi,ci,veci,eij}作为BiLSTMCRF 模型的输入。

该方法开创性地使用双语词典特征表示和单词实体类型的分布特征表示,丰富了低资源语言的语义表示,并设计了一种词典扩展策略,有效地缓解了词典外单词问题,在低资源NER 性能上取得很大的提升。该方法具有非常好的可扩展性,可以将高资源语言的其他知识(例如:WordNet、知识图谱等)整合到体系结构中,还可以扩展到其他NLP 任务(例如:意图识别、情感分析)。

3.2 基于模型迁移学习

NER 的基于模型迁移学习不需要额外的高资源语言对齐信息,主要利用源域和目标域之间的相似性和相关性,将源模型部分参数或特征表示迁移到目标模型,并自适应地调整目标模型[52]。例如:Ando和Zhang[53]提出了一种迁移学习框架,该框架在多个任务之间共享结构参数,并提高了包括NER 在内多种任务的性能。Collobert等人[2]提出一个独立于任务的卷积神经网络,并采用联合训练将知识从NER 和词性标注(part-of-speech tagging,POS)任务迁移到组块识别任务。Wang 等人[54]利用标签感知MMD 完成特征迁移,实现了跨医学专业NER 系统。Lin 等人[55]在现有的深度迁移神经网络结构上引入单词和句子适应层,弥合两个输入空间之间的间隙,在LSTM 和CRF 层之间也引入了输出适应层,以捕获两个输出空间中的变化。考虑到目标数据的领域相关性差异,Yang 等人[56]受知识蒸馏(knowledge distillation,KD)的启发,提出了一种用于序列标记领域自适应的细粒度知识融合模型,首先对目标域句子和单词的领域相关性进行建模,然后在句子和单词级别上对源域和目标域进行知识融合,有效平衡了目标模型从目标域数据学习和从源模型学习之间的关系。

3.2.1 基于RNN 的迁移学习

RNN 及其变体已被大量应用于NER 任务,并取得了非常高的识别精度。Yang 等人利用神经网络通用性,提出了一种基于RNN的序列标注迁移学习框架(RNN-based transfer learning,RNN-TL)[52],通过源任务和目标任务之间共享模型参数和特征表示,提高目标任务的学习性能。并利用不同级别的共享方案,在一个统一的模型框架下处理跨域、跨应用和跨语言迁移。

Fig.2 RNN-based transfer learning model图2 基于RNN 的迁移学习模型

该迁移方法在一个统一的RNN-CRF 框架下,在低资源跨域、跨应用和跨语言的序列标注任务上取得了不错的效果,尤其是在跨领域方面。但是还存在一定不足:跨语言迁移只能是字母相似的语言;对于迁移的参数和特征表示没有进行任何筛选工作,这使得负迁移对模型性能产生消极影响。

3.2.2 参数和神经适应器迁移

NER 的实体类型随时间在不断变化,为了解决目标领域出现新的实体类型而导致重新标注数据和训练模型的问题,Chen 等人[57]提出了一种解决方案:在目标模型的输出层添加新的神经元并迁移源模型部分参数,然后在目标数据上进行微调(fine-tuned),此外还设计一种神经适应器学习源数据和目标数据之间的标签分布差异,迁移过程如图3 所示。

Fig.3 Parameters and neural adapter transfer model图3 参数和神经适应器迁移模型

在目标模型输出层扩展nM个神经元用于学习新实体类型,其中n取决于数据集标签格式(例如:如果数据集为BIO 格式,则n=2,因为对于每个命名实体类型,将有两种输出标签B-NE 和I-NE),M是新命名实体类型的数量。迁移源模型参数时,目标模型输出层参数用正态分布X~N(μ,σ2)得出的权重进行初始化;其他参数都用源模型中相对应参数进行初始化。

神经适应器使用BiLSTM 实现,将源模型输出层输出连接到目标模型相应输出上,作为目标CRF 的附加输入。可以为目标模型学习两个任务之间的标签分布差异,以减少数据标签不一致的影响。

该方案使用源模型的参数和神经适应器实现模型迁移,是一种非常简单的迁移方法,解决了目标领域出现新实体类型而导致重新标注数据和训练模型的问题。同时神经适应器可以解决标签不一致,且具有提高迁移模型性能的能力。

3.3 对抗迁移学习

NER 的基于模型迁移学习方法虽然取得了很好的性能,但是还存在以下问题有待解决:(1)没有考虑资源间的差异,强制在语言或领域之间共享模型参数和特征表示;(2)资源数据不平衡,高资源语言或领域的训练集规模通常比低资源训练集规模大得多[58],忽略了领域间的这些差异,导致泛化能力差。因此研究者引入受GAN 网络启发的对抗技术,学习一种“域无关特征”,实现源域知识到目标域的迁移,同时有效缓解了负迁移问题。

NER 的对抗迁移学习流程如图4 所示。对抗鉴别器选择有利于提高目标任务性能的源任务特征,同时防止源任务的特定信息进入共享空间。训练完成之后,对抗鉴别器和共享特征提取器达到平衡:对抗鉴别器无法区分共享特征提取器中的特征表示来自源域还是目标域。但是训练达到这个平衡点需要花费大量时间,还有可能发生模型崩溃。

Fig.4 NER adversarial transfer learning flowchart图4 NER 对抗迁移学习流程图

3.3.1 自注意力机制对抗迁移网络

取96孔板,加入100 μL不同浓度(0.625、1.250、2.500、5.000、10.000、20.000、40.000 mg/mL)的挥发油乙醇溶液,然后再分别加入100 μL新配制的ABTS工作液,室温条件下静置反应10 min后,用酶标仪在波长405 nm下测定其吸光度。分别以无水乙醇和维生素C作为空白和阳性对照,每个挥发油浓度重复3次。

Cao 等人首次将对抗迁移学习应用于NER 任务,提出自注意力机制的中文NER 对抗迁移学习模型[59]。充分利用中文分词(Chinese word segmentation,CWS)任务更加丰富的词边界信息,并通过任务鉴别器和对抗损失函数过滤中文分词任务的特有信息,以提高中文NER 任务性能。同时在BiLSTM 层后加入自注意力机制明确捕获两个字符之间的长距离依赖关系并学习句子内部结构信息。

任务鉴别器,通过Maxpooling 层和softmax 层识别特征来自哪个领域,可以表示为式(7)、式(8):

其中,H表示共享自注意力的输出,θd表示任务鉴别器的参数,Wd∈RK×2dh和bd∈RK是可训练参数,K是任务数。

通过引入对抗损失函数LAdv,如式(9)所示,防止中文分词任务的特定信息进入共享空间。LAdv训练共享特征提取器以产生共享特征,使得任务鉴别器无法可靠地判断特征的领域。通过在softmax 层下方添加一个梯度反转层完成minimax 优化,使共享BiLSTM 生成一个特征表示来误导任务鉴别器。

式中,θs表示共享特征提取器可训练参数,Es表示共享特征提取器,Tk是任务k训练实例的数量,是任务k的第i个实例。

该模型首次将对抗迁移学习应用于NER 任务,在WeiboNER 数据集[60]和SighanNER 数据集[61]上,将F1 值分别从BiLSTM-CRF 模型的51.01%和89.13%提高到了53.08%和90.64%,并通过实验验证了迁移学习、对抗训练、自注意力机制各个方法对于模型的有效性。

3.3.2 双重对抗迁移网络

Zhou 等人提出了双重对抗迁移网络(dual adversarial transfer network,DATNet)[58],在通用深度迁移单元上引入两种对抗学习:一是用广义资源对抗鉴别器(generalized resource-adversarial discriminator,GRAD),解决资源数据不均衡和资源差异问题;二是对抗训练,分别在字符向量和词向量层添加以一个小范数ϵ 为界的扰动,以提高模型的泛化能力和鲁棒性。

DATNet 根据特征提取器的差异,有两种体系结构:一是特征提取器有共享BiLSTM 和资源相关BiLSTM 的DATNet-F;二是特征提取器只有共享BiLSTM 而没有资源相关BiLSTM 的DATNet-P。

GRAD 通过权重α平衡高低资源的训练规模差异较大的影响,使源域和目标域中提取的特征表示更加兼容,共享BiLSTM 的输出与领域无关,并为每个样本提供自适应权重,从而使模型训练的重点放在困难样本上。为了计算GRAD 的损失函数,如式(10)所示,共享BiLSTM 的输出序列首先通过自注意力机制编码为单个向量,然后通过线性变换投影到标量r:

式中,Ii∈DS和Ii∈DT是标识函数,分别表示特征来自源域还是目标域;参数γ衡量困难和简单样本损失贡献对比,通过测量预测值与真实标签之间的差异控制各个样本的损失贡献。权重α和分别减少了高资源样本和简单样本的损失贡献。

对抗训练就是在原始样本的基础上添加以一个小范数ϵ为界的扰动ηx,计算如式(11)所示:

其中,Θ是当前模型参数集。ηx按照文献[62]中的策略,通过如下线性化方法近似估算,g=∇xlogp(y|Θ;x),ϵ可在验证集上确定。在每个训练步骤中,由Θ参数化当前模型找到的扰动ηx,并通过xadv=x+ηx构造一个对抗样本,然后进行原始样本和对抗样本混合训练以提高模型泛化能力。对抗训练损失函数lAT的计算如式(12)所示:

其中,logp(y|Θ;x)、logp(y|Θ;xadv)分别表示原始样本及其对抗样本的损失。DATNet 分别在字符级和词级向量层使用对抗训练,可以根据式(11)计算字符向量扰动ηc、源域词向量扰动ηWS和目标域词向量扰动ηWT。

DATNet 很好地解决了表示差异和数据资源不平衡的问题,提高了模型的泛化能力,并在跨语言和跨域NER 迁移上取得显著改进。通过实验,DATNet-P 架构更适合具有相对更多训练数据的跨语言迁移,而DATNet-F 架构更适合具有极低资源和跨域迁移的跨语言迁移。

4 评价指标及NER 方法比较

4.1 命名实体识别评价指标

目前,NER 最常用的评价标准有精确率(Precision)、召回率(Recall)和F1 值(F1-score)等。

精确率,在给定数据集中,标注正确实体数占所有被标注实体数的比例,如式(13)所示:

召回率,在给定数据集中,标注正确实体数占数据集中所有实体数的比例,如式(14)所示:

Table 1 Statistics of NER datasets表1 NER 数据集统计信息

F1 值,同时考虑精确率和召回率,是平衡精确率和召回率的综合指标,如式(15)所示:

其中,TP(true positive)表示真阳性,识别出的正确实体数;FP(false positive)表示假阳性,识别出的错误实体数;FN(false negative)表示假阴性,未被识别出的实体数。

4.2 迁移学习评价指标

为了验证迁移学习模型的性能,通常是在同一数据集下,将实验模型与深度神经网络模型、其他迁移学习模型的精确率、F1 值等进行比较。

4.3 NER 方法性能比较

为了评估NER 迁移学习方法的性能,本文以CoNLL2003 英语NER 数据集[63]为源域,CoNLL2002西班牙语和荷兰语NER 数据集[64]以及WNUT-2017英语Twitter NER 数据集[65]为目标域进行实验。这些数据集的统计信息如表1 所示,使用官方的训练集、验证集和测试集的划分方法。实验中使用30 维字符向量、50 维词向量,LSTM 隐状态的数量设置为100 维。

表2 是一些NER 方法的F1 值比较,可以看出双语词典特征表示在跨语言迁移方面取得了非常好的效果,相比于LSTM-CRF 在西班牙语和荷兰语上的F1 值分别提升了3.01 个百分点和6.65 个百分点,由于领域之间没有标准的对齐信息,该方法无法进行跨领域迁移;DATNet 的两个变体优于其他方法,在3个数据集上都有很大提升,DATNet-P 更适合跨域迁移,而DATNet-F 在跨语言上更有优势。与多任务学习[66]相比,迁移学习最关心的是目标任务,而不是同时提升所有的源任务和目标任务。

Table 2 NER method performance comparison(F1-score)表2 NER 方法性能比较(F1 值)%

5 总结与展望

本文主要对应用于NER 任务的迁移学习方法从基于数据、基于模型和对抗迁移学习三方面进行了归纳总结。迁移学习对于解决NER 任务的资源匮乏、实体类型多样化等问题,取得了非常好的效果。基于数据迁移学习在跨语言迁移任务中取得很大成功,但也仅限于跨语言迁移。基于模型迁移学习不需要额外的高资源语言表示,将源模型的部分参数和特征迁移到目标模型上。对抗迁移学习以其独特的对抗训练思想,生成一种“域无关特征”,实现源域知识到目标域的迁移,帮助目标任务提高学习性能,同时有效缓解了负迁移问题,是目前发展潜力最大的NER 迁移学习方法,也是今后的研究重点。

随着对NER 迁移学习的深入研究,还有一些新的问题需要解决:

(1)负迁移是迁移学习道路上最大的阻碍,虽然寻找源域和目标域之间相关性衡量标准以及对抗迁移学习可以缓解该问题,但是这些方法都有其自身的局限性。如何更好地解决负迁移问题,有待进一步深入研究。

(2)对于多步传导式迁移学习,如何寻找一个或几个既能照顾到目标域也能照顾到源域的中间领域,帮助相关性不大的两个领域之间实现迁移学习,以达到充分利用已有的大量数据,是迁移学习未来的一个研究方向。

(3)在NER 对抗迁移学习中如何构建更加强大的对抗鉴别器,帮助共享特征提取器和对抗鉴别器之间更快达到平衡点,处理多源域NER 对抗迁移学习任务,以及更好地解决负迁移问题,是下一步研究的主要工作。

猜你喜欢
源域向量实体
向量的分解
知识图谱的候选实体搜索与排序①
聚焦“向量与三角”创新题
实体书店步入复兴期?
2017实体经济领军者
浅析《离骚》中的跨域映射现象
向量垂直在解析几何中的应用
从映射理论视角分析《麦田里的守望者》的成长主题
向量五种“变身” 玩转圆锥曲线
关于推动实体书店经营发展的几点思考