一种基于门控空洞卷积的高效中文命名实体识别方法

2021-03-18 02:53王笑月
中文信息学报 2021年1期
关键词:空洞残差实体

王笑月,李 茹,段 菲

(山西大学 计算机科学与技术学院,山西 太原 030006)

0 引言

作为自然语言处理中的一项基础任务,命名实体识别旨在从一段非结构化文本中抽取出与任务要求相关的实体,例如人名、地名、机构名等。它在机器翻译、信息抽取、问答系统等需要关键内容抽取技术的领域具有广泛的应用价值。

传统命名实体识别主要基于特征工程,即由线性统计模型(如隐马尔可夫(HMM)[1]、支持向量机(SVM)[2]或条件随机场(CRF)[3]等)与人工定义的特征相结合构造模型,但由于自然语言语法结构的多样性,基于特征工程的方法需要针对不同的数据、结合领域知识人工总结特征和定义规则,其缺乏灵活性且无法保证泛化能力。高性能通用并行计算设备(如GPGPU、TPU)的出现与进步使一系列神经网络架构被成功应用于序列标注任务中,Ling等[4]、Ma 等[5]、Lample等[6]提出的基于RNN的神经网络模型虽然取得了优异的结果,但由于其采用循环处理序列的方式,故未能充分利用GPU的并行计算能力。

不同于RNN循环处理输入序列的方式,卷积运算可一次性地并行处理整个输入序列。虽然在并行处理方面卷积神经网络具有先天的优势,但通常用于文本处理的一维卷积感受野受限于输入窗口大小w。在第l层,卷积对于输入文本的感受野大小为r=l(w-1)+1,当输入序列长度增加时,需要堆叠的层数也随之增加。为扩大感受野,同时减少堆叠层数,可以采用池化操作,但池化会导致信息损失,因而不适用于序列标注任务。为在同样的窗口大小下扩大卷积的感受野,Yu 等[7]提出了空洞卷积,其在相同的滤波器上通过更改空洞率D的大小,在不同范围的文本上操作,使其有效感受野随网络深度以指数级增长,且不产生信息损失,也不会增加模型参数;Strubell等[8]首次将空洞卷积用于命名实体识别任务上,但只是简单地将Bi-LSTM替换为空洞卷积,并未进一步对信息流动的方式进行考虑和处理;Dauphin等[9]在普通卷积的基础上引入了门控机制,进一步强化了数据中的有效信息,降低了无效信息的影响,实验结果表明其在语言建模任务上是有效的;Wang等[10]将这种门控机制运用到命名实体识别任务中,首次使用门控卷积结构进行实体识别。

Wang 等[10]所提出的模型易出现梯度消失的问题,本文针对该缺陷进行改进,采用可通过参数调节感受野范围的空洞卷积,并引入了带有残差连接[11]的门控机制(详见2.2节)。

除模型架构外,自然语言处理任务中的另一关键点在于如何更好地表示输入文本。对于输入文本常采用基于字的划分粒度或基于词划分粒度两种方式。在基于字的模型中,每个字通常只有一种表示,无法兼顾一字多义的情况,例如,“京”在“北京”和“京东”中有着不同的意义;而基于词的模型常因为分词错误和误差传递导致实体识别错误,而且在真实应用中构建领域相关的大规模词典代价昂贵,在匹配特征时时间和空间复杂度较高,从而导致模型十分低效;此外,大规模词典中带来的噪声影响难以消除。本文使用Chen等[12]所提出的基于位置的字向量,针对每一个字在所属词中的位置,对于每个字给予了四种预训练的向量,从而在字级别的基础上针对每一个字加入了所属词的位置特征,丰富了文本信息表示,同时也在一定程度上改善了一字多义的问题。Chen等[12]以词为划分粒度结合基于位置的字向量得到文本表示,继而输入模型中,本文考虑到以词为划分粒度易产生OOV(out-of-vocabulary)问题,故以字为划分粒度。

本文的主要贡献可概括为以下两方面:

(1) 首次在中文数据集上使用空洞卷积进行命名实体识别,显著提升了模型训练速度;

(2) 为避免由于网络层数加深而产生的梯度消失现象,并使信息可以在多通道内传输,引入了带有残差连接的门控机制。

1 相关工作

传统模型大多基于手工定义的特征和线性链条件随机场(He等[13],Mao等[14])。基于CNN或者RNN等的神经网络模型效果超过传统的机器学习方法而无需手工定义特征。由于LSTM具有长期记忆的特点,LSTM-CRF架构被广泛运用到命名实体识别的任务中。Huang等[15]使用Bi-LSTM抽取词级别的文本信息;Lample等[6]在其基础上结合了字级别的文本特征;Peng 等[16]基于如何更丰富地表示文本信息问题,使用Chen等[12]的字词嵌入融合方法,提出了一个“字+位置”嵌入和NER任务联合训练的模型;Zhang等[17]构造了一个词格模型,通过使用外部词典,匹配文本中所有可能的分词结果,进而避免了分词错误;Cao等[18]考虑到中文分词任务和中文命名实体识别任务存在共同特性,即实体边界识别,使用对抗学习来联合训练命名实体识别任务和中文分词任务,抽取共享的词边界信息;Tan等[19]通过自注意力机制捕捉输入文本的全局信息,结果表明自注意力机制在命名实体识别任务中的有效性;最近,随着ELMo[20]和BERT[21]等大型预训练语言模型的出现,在自然语言处理的下游任务中,许多工作使用了这类模型并获得了显著的性能提升,但由于其参数量巨大,仅微调需要的时间也较长,本文出于降低资源消耗的考虑,未采用这两种方式。

2 模型架构

本文将实体识别视为序列标注的任务,为文本中的每个字预测对应的标签,并对文本采用BIO[22]的标注方式,即字位于实体开头标注为B,位于实体内部标注为I,非实体的字标注为O。

模型整体架构如图1所示,其中“门控机制空洞卷积”单元为带有门控机制的卷积层,细节将在2.2节中阐述,为张量拼接操作;将输入文本的字向量与所对应的基于位置的字向量拼接,所得到的文本表示输入到若干个堆叠的卷积层中,之后通过CRF解码得到实体识别结果。

图1 模型架构

2.1 空洞卷积

自然语言处理任务中所使用的卷积类型通常为一维卷积。卷积层相当于仿射变换,对每个字,卷积操作如式(1)所示,其中WC表示窗口大小为r的滤波器,ct代表经过卷积变换后的输出,⊕代表向量拼接操作。

空洞卷积(Yu等[7])是卷积的一种变体,与普通卷积不同,其跨越与空洞率d相同的文本片段对输入文本间隔采样,通过堆叠以指数级别增长的空洞率的空洞卷积(例如,本文所采用的空洞率为1,2,4,1,2,4),可以实现以较少的层数覆盖到大多数句子的长度,例如第L层的感受野可达2L+1-1。如果设置卷积核窗口大小为3,堆叠4层空洞卷积,则其有效感受野的宽度为31,而普通的卷积感受野仅为9。

空洞卷积的计算方式如式(2)所示。

其中δ为空洞率 ,⊕为向量拼接操作,Wc为窗口大小为r的滤波器,ct为输出。

2.2 带有残差连接的门控机制

为强化数据中的有效信息,并增加流通渠道的多样性,Dauphin等[9]在卷积的基础上加入了门控机制,提升了语言模型实体识别的效果。本文在其基础上进一步拓展,引入了残差机制,以改善深层网络带来的梯度消失问题,同时使信息可在多通道内传输。本文采用的门控卷积架构如图2所示。

图2 带有残差连接的门控卷积架构

每一个卷积门控单元内的操作可用式(3)表示:

其中X表示输入,Conv1定义为卷积操作1,Conv2定义为卷积操作2,Conv1与Conv2都为空洞卷积,二者所设定的滤波器个数、窗口大小一致,但权值不共享,σ代表sigmoid激活函数,⊗代表张量的Hardamard积,+代表张量相加。

2.3 基于词中位置的字嵌入

采用字向量作为输入,可避免分词错误带来的影响,同时不存在OOV的问题,但其所包含的文本信息较少,而词向量又无法充分利用词中的字间关系,因此本文提出一种融合字向量与词特征的方案,具体介绍如下。

考虑到每一个字在词中的位置有四种情况: ①位于词的开始;②位于词的中间;③位于词的末尾;④单个字表示词。故构建特征矩阵W∈R4×s,其中4表示四种位置情况,s为词特征矩阵的维度。

给定输入序列X={x1,x2,…,xn},其中xi代表输入序列中的字,在经过分词之后,得到输入词序列C={c1,c2,…,cm},其中ci表示序列中索引为i的词。按照划分好的词信息,对每个字赋予位置标签,0表示所属词的开始,1表示所属词的中间,2表示所属词的末尾,3表示单个字为词。基于位置的字向量表示如图3所示。

图3 基于位置的字向量表示

根据所赋予的位置信息标签,对文本序列中的每一个字在特征矩阵W中查找对应的词特征向量,继而得到与输入文本相对应的词特征向量矩阵E2∈Rn×s。

将最终得到的字向量矩阵E1∈Rn×c(其中n表示输入序列长度,c表示字向量矩阵维度)与词特征向量矩阵E2∈Rn×s进行拼接,得到输入向量矩阵E∈Rn×(c+s)。

2.4 解码与训练

通过构造转移矩阵,条件随机场可考虑到相邻标签之间标注的合理性,并输出一个概率值最大的标注序列。本文在模型输出层采用了条件随机场。

给定一个文本X={x1,x2,…,xn},通过CNN层后可得到对应的分数矩阵H∈Rn×L,其中Hi,j表示输入序列中第i个单词对应第j个标记的分数,标签之间的关系可以通过转移矩阵T∈RL×L来刻画,其中L为标签数量。令其可能的标注序列表示为Y={y1,y2,…,yn},定义其得分如式(4)所示。

其标注序列概率计算方式为式(5):

其中U为所有可能的标注序列构成的集合,采用负对数似然作为损失函数,如式(6)所示。

其中Y*为正确的标注序列。在训练阶段,通过反向传播最小化该损失函数;在测试阶段,使用维特比算法将条件概率最大的标注序列作为最终的输出。

3 实验

3.1 数据集

本文在已经公开划分好的Sina Resume数据集[17]和SIGHAN Bakeoff 2006[23]的MSRA数据集上进行实验,两个数据集的规模如表1所示。

Resume数据集包含八种实体,分别是国家(CONT)、教育组织(EDU)、地点(LOC)、人名(PER)、机构(ORG)、职业(PRO)、种族(RACE)、职业名(TITLE)。

表1 实验所采用数据集介绍

MSRA数据集包含三种实体,分别是人名(PER)、机构名(ORG)、地名(LOC)。

3.2 评价指标

实验采用F1值来评估命名实体识别效果,其中F1值由P(准确率)和R(召回率)来决定。计算公式如式(7)~式(9)所示。

3.3 实验设置

模型参数设置如表2所示。

模型中字向量(char-embedding)维度设置为100,词特征向量维度(seg-embedding)设置为20,词特征矩阵采用了随机初始化的方式,字向量使用Word2Vec[24]工具训练,选用了skip-gram[24]模型,上下文扫描窗口设置为5,负采样值设置为8,迭代次数设置为8。采用了BIO标注方式进行文本标注,空洞卷积的窗口大小设置为3,滤波器个数设置为120,采用优化函数为Adam,初始学习率大小为0.001,学习率缩减步长lr_decay设置为0.05,dropout率设置为0.5,batch_size设置为32,epoch设置为100。

表2 模型参数设置

续表

3.4 实验结果与分析

本实验采用准确率、召回率和F1值作为评估指标。

3.4.1 MSRA数据集命名实体识别结果与分析

表3展示了在MSRA数据集中的实验结果,将本文提出的模型同先前的实验结果做了对比。其中baseline为不加门控机制与词特征的普通空洞卷积;Chen等[25]、Zhang等[26]、Zhou等[27]运用了丰富的人工定义特征结合CRF进行命名实体识别;Dong等[28]采用Bi-LSTM-CRF的架构进行中文命名实体识别,并且基于汉字的组合结构构建了radical-level特征, 将其与字向量融合; Zhou 等[29]

表3 MSRA数据集命名实体识别实验结果(%)

使用了基于字符级别的CNN-Bi-LSTM-CRF的架构,通过Bi-LSTM来捕捉文本全局信息,CNN捕捉文本局部信息;Wang等[10]使用完全基于卷积的架构,并在卷积基础上引入了门控机制;Cao等[18]使用了联合学习的方法,提取分词和命名实体识别中的共同词边界信息;Zhang 等[17]提出了一种词格结构,将词典信息加入到神经网络中,避免了分词错误。虽然其模型性能最优,但运用了外部数据,且结果依赖于词典的质量。本文所提出的模型在不引入外部资源的情况下,效果达到了最优。

3.4.2 Resume数据集命名实体识别结果与分析

Resume数据集实体识别结果如表4所示,(1)表示Zhang 等[17]所采用的基于字的LSTM模型,(2)为Zhang 等[17]所采用的基于词的LSTM模型,(3)为Zhang 等[17]所提出的词格模型。Zhang 等[17]使用了词格模型,并且加入了额外的词典信息,可以看到本文提出的模型性能达到了F1值94.98%,显示出本文所提出模型的优越性。

表4 Resume数据集命名实体识别实验结果(%)

通过对比实验结果,发现在MSRA数据集上,本文所提出的模型结果略低于Zhang 等[17],而在Resume数据集上,本文所提出的模型结果高于Zhang 等[17];笔者分析导致该现象的原因之一为,对于MSRA数据集,数据涉及的领域范围较广,在不同文本场景下,同一实体边界粒度不一致,模型无法从数据集中获取足够的信息,准确地区分不同场景下的实体边界,较依赖于外部资源;但对于Resume数据集,数据涉及的范围领域较单一,实体边界划分较准。故在MSRA数据集上本文所提出模型效果低于Zhang 等[17],而在Resume数据集上模型效果略高于Zhang 等[17]。

3.4.3 对比实验

为了验证所提出改进方案的有效性,分别在MSRA和Resume数据集上进行了一系列的对比实验,结果分别如表5和表6所示。为增强结果的直观性,将表5结果可视化于图4中,而将表6结果可视化于图5中。其中baseline设置为普通空洞卷积,baseline+gate为空洞卷积加上门控机制,baseline+seg为空洞卷积加上词特征,dgcnn为本文所提出的模型,dgcnn-residual为本文所提出的模型去除残差结构部分。

表5 MSRA数据集命名实体识别对比实验结果(%)

图4 MSRA数据集命名实体识别对比实验结果

由表5和图4可看出,引入带有残差连接门控机制和词特征的模型(dgcnn),与基于普通空洞卷积的模型(baseline)相比,其准确率和召回率都有所提升,表示出在无效信息的过滤以及文本表示上具有更优的性能。在MSRA数据集上F1值提升2.08%;相比于未引入残差连接门控机制的空洞卷积模型(dgcnn-residual),F1值提升0.34%;相比于未引入词特征的空洞卷积与带有残差连接的门控机制相结合模型(baseline+gate),结合词特征后具有更加丰富的文本信息,改善了实体边界划分不准的现象,F1值提升1.51%,召回率提升了2.04%;相比于未引入带有残差连接的门控机制模型(baseline+seg),F1值提升0.93%。以上结果显示出本文所提出模型架构的有效性。

表6 Resume数据集命名实体识别对比实验结果(%)

续表

图5 Resume数据集命名实体识别对比实验结果

从表6和图5(图5为表6的可视化结果)中可看出,门控机制与词特征是模型性能提升的主要因素,相比于基于普通空洞卷积的模型架构(baseline),引入词特征的模型(baseline+seg)与引入残差连接的门控机制模型(baseline+gate),在Resume数据集上,分别提升F1值0.6%与0.63%;将词特征与带有残差连接的门控机制相结合的模型(dgcnn)学习到了更多的上下文特征,与baseline相比F1值提升1.27%,召回率R与精确率P均得到明显的提升。其中在门控特征部分,本文在Dauphin[9]所提出的方案的基础上加入了残差连接。为了验证残差连接对模型性能的影响,本文还加入了对比实验(dgcnn-residual),与之相比引入残差连接的模型(dgcnn)不仅改善了梯度消失的现象,同时也使得信息可以在多通道内流动,F1值提升0.14%。此结果表明该改进可以进一步提升命名实体识别效果。

3.4.4 MSRA数据集模型训练时间对比及分析

由于Resume数据集规模较小,各模型训练时间未表现出明显差异,故本文选择在规模较大的MSRA数据集上进行训练时长对比,结果示于表7。采用的对比模型基准为Bi-LSTM-CRF架构,并将普通卷积与空洞卷积速度进行对比,由表7可看出,当本文所提出模型“带有门控机制空洞卷积”单元层数设置为4层时, 其在训练阶段速度为基于Bi-LSTM-CRF模型的5倍,并且在拥有与普通卷积相同感受野时,其性能优于普通卷积架构;当感受野范围为15时(空洞卷积堆叠层数为3,普通卷积堆叠层数为7),模型训练速度约提升了3倍,并且F1值也同时提升了1.4%;当感受野范围为31时(空洞卷积堆叠层数为4,普通卷积堆叠层数为15),模型训练速度提升了约5倍,F1值也同时提升了0.09%。以上结果表明了本文所提出模型在速度和性能上的优越性。

表7 MSRA数据集上时间对比

3.4.5 错误案例分析

本文进一步对所提出模型在MSRA数据集上各实体类别的识别效果进行分析,如表8所示。

表8 MSRA数据集各个类别实体识别效果(%)

由表8可以看出,PER(人名)的识别效果准确率与召回率较为一致,而LOC(地名)和ORG(机构名)的实体识别效果准确率高于召回率。

出于研究模型在MSRA数据集中,实体识别结果准确率高于召回率的原因,本文选取了测试集中50条错误数据进行了分析,从表9中列举出的错误案例可以看出,产生误差的主要原因在于机构名同地名容易混淆,由实体边界识别不清所致。例如“特立尼达和多巴哥-中国友好协会”属于机构名,但模型识别结果将“特立尼达”与“多巴哥”判断为地名,“中国友好协会”判断为“机构名”,因此导致准确率较高,召回率偏低。

表9 典型错误案例

Zhang等[17]由于使用了大型外部词典,大大减少了实体边界识别错误的可能性,故表中第三条文本中实体“特立尼达和多巴哥-中国友好协会”可正确识别为机构;对表中第二条文本数据识别出谓词“设立”,该谓词将实体“香港特区”与“终审法院”分隔开,正确划分出两实体边界,从而降低了这种易混淆的噪声数据影响;然而dgcnn于本例中无法正确判断出谓词“设立”,导致实体边界划分错误,将“香港特区设立终审法院”错误地判断为一个实体。故推测通过外部词典匹配,进而大幅度提高实体边界识别准确率,是Zhang等[17]所提出模型效果在MSRA数据集上优于本文所提出模型效果的主要原因。

4 结论

本文提出了一个基于空洞卷积的模型架构,并在此基础上加入了残差门控机制,既保证了信息能够在多通道流通,同时也缓解了梯度消失现象。基于位置的词特征与字向量融合,改善了字向量表示信息有限的问题,丰富了上下文的特征表示。实验结果表明,本文所提出的模型在速度和性能上具有明显优势。

在未来的工作中,我们将继续研究如何在降低模型计算量的同时保持模型的性能,并将该架构拓展到自然语言处理的其他任务上。

猜你喜欢
空洞残差实体
基于双向GRU与残差拟合的车辆跟驰建模
锻造过程中大截面塑料模具钢中空洞缺陷的闭合行为
基于残差学习的自适应无人机目标跟踪算法
前海自贸区:金融服务实体
基于递归残差网络的图像超分辨率重建
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
空洞的眼神
用事实说话胜过空洞的说教——以教育类报道为例