基于RoBERTa和多头注意力的简历命名实体识别方法

2023-06-23 04:37张玉杰李劲华赵俊莉
关键词:字符命名注意力

张玉杰 李劲华 赵俊莉

摘要:针对传统简历实体识别存在一词多义和训练时间长的问题,提出了一种新的简历命名实体识别模型。通过RoBERTa预训练模型获取具有上下文关系的字向量,结合BiGRU和多头注意力机制(Multi-head Attention, MHA)层提取全局信息和局部相关性信息,采用CRF层修正解码确定最终标签,同时裁剪RoBERTa预训练模型。实验表明,该模型在中文电子简历数据集取得95.97%的F1值,高于其他主流模型,且相较于未剪枝的模型提升0.43%,减少1/5训练时间。

关键词:命名实体识别;RoBERTa预训练模型;多头注意力机制;条件随机场

中图分类号:TP391 文献标志码:A

随着信息与科技时代到来,电子简历逐步替代纸质简历,如何从非结构化文本中提取重要信息成为信息抽取领域亟待解决的关键问题[1]。命名实体识别作为自然语言处理的一项基本技术,可从结构化和非结构化数据中提取需要的实体。公司通过命名实体识别技术提取简历中学历、工作单位、职位等个人信息,无需详看简历。命名实体识别相关研究经历了基于规则、机器学习和深度学习三个阶段[2]。基于规则的方法依赖人工制定,可根据特定领域字典和句法—词法模型设计规则[3]。当字典详尽时,基于规则的方法准确率较高,但需要特殊专业领域专家制定规则,不容易迁移至其他专业领域[4]。命名实体识别通过机器学习转换为序列标注任务,常用方法包括隐马尔可夫模型[5]、最大熵模型[6]和条件随机场[7]。机器学习相较于规则方法,前者实体识别效果明显提升,但仍需人工提取特征[3]。随着深度学习兴起,使用神经网络解决命名实体识别问题成为研究热点。深度学习不依赖人工提取特征和专业领域知识,能基于神经网络自主学习和抽取特征。BiLSTM-CRF[8]模型使用双向LSTM提取长远距离信息,采用CRF模型修正解码,成为命名实体识别经典模型之一。由于LSTM不能并行计算,IDCNN[9]改进CNN模型,以跳跃步长方法增大感受野,解决了传统RNN模型不能并行运算,训练时间长的问题。相较于单一基于字符的方法,词汇信息融入基于字符可提升识别效果,如融合LSTM输入层字符和所匹配到的字符信息[10]、基于单词—字符图卷积网络(WC-GCN)[11]。为获取多级信息,可建立具有段级信息和词级信息模块化交互网络模型用于NER[12]。以上神经网络字向量和字符为一一对应,无法解决一词多义问题。大规模语料训练模型如ELMO[13]、BERT[14]、ALBERT[15]、RoBERTa[16]等逐步替代了以Word2vec[17]为主传统预训练模型。预训练模型和深度学习模型相结合,可有效提升命名实体识别准确率[18-20]。针对细粒度实体识别,可基于BERT模型和BiLSTM-CRF模型的结合[21]。但预训练模型参数过大,造成训练时间长。综上,本文基于BiGRU-CRF模型,添加RoBERTa预训练模型建立上下文关系,引入多头注意力机制提取局部相关特征,通过裁剪RoBERTa以减少训练时间,提升识别效果。

1 模型构建

新建模型由RoBERTa嵌入层,BiGRU长远距离特征提取层,MHA局部特征提取层和CRF特征解码层构成(图1)。RoBERTa层通过深层transformer架构获取动态字向量;BiGRU层采用带有重置门和更新门的双向门控单元提取长远距离特征;MHA层通过拼接多个子空间的自注意力提取局部相关特征;CRF层通过计算转移矩阵,增加标签间约束关系,获得最终标签。

1.1 RoBERTa嵌入层

传统Word2vec和GloVe预训练模型所得字向量和字符为一一对应,同一字符无法根据不同语境生成不同字向量。但RoBERTa[16]模型采用深层双向transformer架构能够充分获取输入文本语法和语义信息,根据上下文语境不同,生成动态字向量。RoBERTa是BERT的变体,基于BERT模型做如下改进:

(1)动态掩码。数据预处理过程中,BERT对输入文本中的单词随机掩码,属于静态掩码方式。模型训练阶段中RoBERTa的掩码位置会实时计算,实现动态掩码,提高数据复用效率。

(2)舍弃预测下一个句子(Next Sentence Prediction, NSP)任务。两个句子通过BERT拼接为一个句子对,待输入模型后,通过NSP任务预测两个句子关系。由于该方法对于部分下游任务并无关联,RoBERTa采用“跨文档的整句输入”,舍弃NSP任务。

(3)采用更大的预训练数据、预训练步数和批次,提升模型泛化能力。由于原始RoBERT模型参数量大,训练时间过长,深层transformer架构中不同隐藏层在预训练过程中所学信息不同,对于下游任务影响也不同[15],基于12层RoBERTa-base剪枝RoBERTa,以保证识别准确率同时减少训练时间。

1.2 BiGRU长远距离特征提取层

LSTM能够提取长远距离特征,且不容易出现梯度弥散现象,但模型结构比较复杂,参数量较大。门控制单元[22](GRU)合并LSTM内部状态向量和输出向量,统一为状态向量。由LSTM的输入门、遗忘门和输出门减少为重置门和更新门,降低了模型复杂度(图2)。

重置门通过门控向量gs控制上一个时间戳ht-1进入当前GRU的信息量

其中,sigmoid和tanh为激活函数;Ws和Wh为重置门权重矩阵;bs和bh为偏置项;xt为当前时间戳输入向量。

更新门控制上一个时间戳ht-1和重置门Ht输出对于新状态向量ht的影响

其中,Wr为更新门权重矩阵,br为偏置项。单向GRU只能捕获序列历史信息,而命名實体识别任务中,实体标签和该实体上下文有关。因此,选取双向门控单元(BiGRU)提取上下文信息。

1.3 MHA局部特征提取层

命名实体识别过程中,为识别句子局部相关特征,需加入自注意力机制。自注意力机制通过计算输入文本字符之间关联度,获取字符之间联系

其中,AttentionQ,K,V为计算所得注意力值;Q表示查询向量矩阵;K表示键向量矩阵;V表示值向量矩阵;dk表示词向量维度;由BiGRU的输出分别乘以状态矩阵Wq,Wk,Wv计算得Q,K,V。通过QKT计算查询向量和键向量之间相似度,除dk以防结果过大,添加Softmax归一化处理,乘以值向量得最终注意力值。

为捕捉多个维度特征,采取多头注意力机制。将Q,K,V线性映射,形成多个子空间,拼接计算结果

其中,headj表示第j个注意力头注意力计算结果;Concat表示拼接多個head;W为权重矩阵。

1.4 CRF解码层

命名实体识别中标签之间具有连续关系,如“I-NAME”只能标在“B-NAME”和“I-NAME”之后,而多头注意力层只能对当前状态下最大概率标签完成输出。条件随机场(CRF)通过增加标签间约束关系,有效提高命名实体识别效率。

假设输入序列X=x1,x2,…,xn,其对应预测标签序列Y=y1,y2,…,yn,则预测标签序列得分函数

其中,M表示转移矩阵;P表示BiGRU输出的得分矩阵;Myi,yi+1表示标签i转移为标签i+1分数;Pi,yi表示输入文本第i个字记为yi标签的分数。基于维特比算法计算得分最高标签序列作为最优标签序列

其中,y表示得分最高的标签序列,Yx表示所有可能标签序列,表示真实标签。

2 数据集与评价指标

2.1 数据来源

实验采用Resume[23]中文电子简历数据集,8类实体包括国籍、人名、籍贯、学历、组织名、专业名、民族和职位名(表1)。数据集按照8∶1∶1比例划分为训练集、验证集和测试集(表2)。

3 实验结果与分析

3.1 实验环境及参数设置

实验基于windows11操作系统,处理器为R7-4800H@2.9GHz,显卡为RTX2060(6G),深度学习框架为Pytorch1.5,编译环境为python3.6。采用的预训练模型为RoBERTa-base,输出向量维度为768维;优化器使用Adam,其中学习率为1e-3,Batch_size为64,Dorpout为0.3;最大序列长度为128;MHA头数为10。

3.2 消融实验结果与分析

3.2.1 实验一 为验证所提原始RoBERTa-BiGRU-MHA-CRF模型有效性以及添加RoBERTa层和MHA层对于模型整体性能的影响,设置BiGRU-CRF、BiGRU-MHA-CRF、RoBERTa-BiGRU-CRF和RoBERTa-BiGRU-MHA-CRF四组消融实验(表3)。对比BiGRU-CRF模型和BiGRU-MHA-CRF模型,后者F1值提升0.43%,表明添加多头注意力机制能够在多个子空间提取局部信息,提升模型性能。对比BiGRU-CRF模型和RoBERTa-BiGRU-CRF模型,后者F1值提升2.99%,表明RoBERTa预训练模型作为嵌入层字向量表示可充分提取文本间的语义特征,使预训练所得字向量能够更好表征不同语境中语义和语法信息。RoBERTa-BiGRU-MHA-CRF模型相较于BiGRU-MHA-CRF模型和RoBERTa-BiGRU-CRF模型F1值分别提升3.30%和0.74%,表明同时添加RoBERTa层和MHA层可提升模型的整体性能。

3.2.2 实验二 基于RoBERTa-BiGRU-MHA-CRF模型,裁剪RoBERTa预训练模型,选择1到12层对比实验,评价指标见表4。可知,随着隐藏层数增加,模型识别效果逐步提升,隐藏层数为8时达到最优,其F1值为95.97%。相较于隐藏层数为12时,单轮训练时间减少8秒,F1值提升0.42%。相较于RoBERTa-BiGRU-MHA-CRF模型,裁剪模型既可减少训练时间又能提升性能。由表5可知,国籍、姓名和籍贯这三类实体识别效果最好,P、R和F1值为100%。组织名和职位名识别效果较差,因为这两类实体边界过长且存在实体嵌套问题。

3.3 对比实验

基于Resume数据集,对比新模型和Lattice-lstm、CAN、WC-LSTM等主流模型(表6)。Lattice-lstm模型改进了LSTM模型,可编码输入字符序列以及与词典匹配的所有潜在词,对比实验中表现最差,F1值仅为94.46%。CAN模型包括基于字符的CNN和具有全局自注意力的GRU,F1值为94.94%。WC-LSTM模型通过对词语起始符和结束符添加信息,获取词语边界信息,并编码词语信息为固定大小以实现批量训练,该模型F1值为95.21%。相较于上述模型,本文模型命名实体识别效果最优,F1值为95.97%。

4 结论

本文提出了一种基于RoBERTa和多头注意力的简历命名实体识别方法。RoBERTa模型作为嵌入层,可生成动态字向量,解决一词多义问题;添加多头注意力机制可提取BiGRU丢失的部分局部相关特征,裁剪RoBERTa模型可减少训练时间;采用Resume数据集实验表明,该方法的识别效果高于其他主流模型。由于Resume数据集数据较少,且存在实体嵌套问题,下一步将考虑扩充简历数据集研究嵌套实体,提升命名实体识别效果。

参考文献

[1]王传涛,丁林楷,杨学鑫,等.基于BERT的中文电子简历命名实体识别[J].中国科技论文,2021,16(7):770-775+782.

[2]刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340.

[3]LI J, SUN A X, HAN J L, et al. A survey on deep learning for named entity recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34(1): 50-70.

[4]QUIMBAYA A P, MUNERA A S, RIVERA R A G, et al. Named entity recognition over electronic health records through a combined dictionary-based approach[J]. Procedia Computer Science, 2016, 100: 55-61.

[5]俞鴻魁,张华平,刘群,等.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94.

[6]陆铭,康雨洁,俞能海.简约语法规则和最大熵模型相结合的混合实体识别[J].小型微型计算机系统,2012,33(3):537-541.

[7]燕杨,文敦伟,王云吉,等.基于层叠条件随机场的中文病历命名实体识别[J].吉林大学学报(工学版),2014,44(6):1843-1848.

[8]HUANG Z H,XU W,YU K. Bidirectional LSTM- CRF models for sequence tagging[DB/OL]. (2015-08-09)[2022-02-26]. https://doi.org/10.48550/arXiv.1508.01991.

[9]STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions[C]// 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, 2017: 2670-2680.

[10] MA R T, PENG M L, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER[C]// 58th Annual Meeting of the Association for Computational Linguistics. Online, 2020: 5951-5960.

[11] TANG Z, WAN B Y, YANG L. Word-character graph convolution network for Chinese named entity recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 1520-1532.

[12] LI F, WANG Z, HUI S C, et al. Modularized interaction network for named entity recognition[C]// 59th Annual Meeting of the Association for Computational Linguistics and 11th International Joint Conference on Natural Language Processing. Online, 2021: 200-209.

[13] PETERS M E, NEMANN M, IYYER M, et al. Deep contextualized word representations[C]// 2018 Conference of the North American Chapter of the Association for Computational Linguistics. New Orlean, 2018: 2227-2237.

[14] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-traning of deep bidirectional transformers for language understanding[C]// 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, 2019: 4171-4186.

[15] LAN Z Z, CHEN M D, GOODMAN S, et al. ALBERT: A lite bert for self-supervised learning of language representations[DB/OL]. (2019-09-26)[2022-02-26]. https://doi.org/10.48550/arXiv.1909.11942.

[16] LIU Y H, OTT M, GOYAL N, et al. RoBERTa: A robustly optimized bert pretraining approach[DB/OL]. (2019-07-26)[2022-02-26]. https://doi.org/10.48550/arXiv.1907.11692.

[17] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// 26th International Conference on Neural Information Processing Systems. New York, 2013: 3111-3119.

[18] 李妮,关焕梅,杨飘,等.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报(理学版),2020,55(1):102-109.

[19] 孙弋,梁兵涛.基于BERT和多头注意力的中文命名实体识别方法[J/OL].重庆邮电大学学报(自然科学版),2021:1-10[2022-02-26]. http://kns.cnki.net/kcms/detail/50.1181.N.20211209.2010.004.html.

[20] 李正民,云红艳,王翊臻.基于BERT的多特征融合的医疗命名实体识别[J].青岛大学学报(自然科学版),2021,34(4):23-29.

[21] 任妮,鲍彤,沈耕宇,等.基于深度学习的细粒度命名实体识别研究——以番茄病虫害为例[J].情报科学,2021,39(11):96-102.

[22] CHUNG J Y, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[DB/OL]. (2014-12-11)[2022-02-26].https://doi.org/10.48550/arXiv.1412.3555.

[23] ZHANG Y, YANG J. Chinses NER using lattice LSTM[C]// 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, 2018: 1554-1564.

[24] ZHU Y Y, WANG G X. CAN-NER: Convolutional attention network Chinese named entity recognition[C]// 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, 2019: 3384 -3393.

[25] LIU W, XU T G, XU Q H. et al. An encoding strategy based word-character LSTM for Chinese NER[C]// 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, 2019: 2379-2389.

Resume Name Entity Recognition Method Based on

RoBERTa and Multi-head Attention

ZHANG Yu-jie, LI Jin-hua, ZHAO Jun-li

(School of Computer Science and Technology, Qingdao University, Qingdao 266071, China)

Abstract: A new named entity recognition model for resumes was proposed to address the problems of multiple word meanings and long training time in traditional resume entity recognition. The word vectors with contextual relationships were obtained by RoBERTa pre-training model, the global information and local relevance information were extracted by combining BiGRU and Multi-head Attention (MHA) layers. The final labels were determined by corrective decoding using CRF layer, and the RoBERTa pre-training model was cropped at the same time. The experiment shows that the F1 value of the new model in Chinese electronic resume dataset is 95.97%, which is higher than other mainstream models. Compared with the non pruning model, the F1 value of the new model is increased by 0.43% and the training time is reduced by 1/5.

Keywords: named entity recognition; RoBERTa pre-training model; multi-head attention mechanism; conditional random fields

收稿日期:2022-04-14

基金項目:国家自然科学基金(批准号:62172247)资助;山东省重点研发计划重大科技创新工程(批准号:2019JZZY020101)资助。

通信作者:李劲华,男,博士,教授,主要研究方向为计算机科学、人工智能等。E-mail: lijh@qdu.edu.cn

猜你喜欢
字符命名注意力
让注意力“飞”回来
命名——助力有机化学的学习
字符代表几
一种USB接口字符液晶控制器设计
HBM电子称与西门子S7-200系列PLC自由口通讯
消失的殖民村庄和神秘字符
有一种男人以“暖”命名
为一条河命名——在白河源
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things