基于 BERT?BiLSTM?CRF 的非法出入境笔录文本提取模型

2023-07-17 09:30郭婧婧李俊杰周卫等
计算机应用文摘·触控 2023年13期

郭婧婧 李俊杰 周卫等

摘要:為提高非法出入境笔录信息提取方面的命名实体识别能力,提出了一种融合语言模型的非法出入境笔录信息提取模型。该模型首先利用BERT模型对输入序列中的单词进行编码,得到每个单词的向量表示,然后将这些向量输入到BiLSTM网络中,利用LSTM网络时输入序列进行建模,学习输入序列中的上下文信息和语法结构等。最后,通过一个CRF层对BiLSTM网络的输出进行标注.从而得到最终的输出序列。实验结果表明,该模型能较好地应用于非法出入境笔录文本提取的任务。在与广西边防检查总站的合作项目里,最终将该模型应用于实际生产工作中,为边检警方的笔录提取工作提供便利。

关键词:非法出入境笔录文本;命名实体识别;BERT预训练语言模型;BiLSTM;CRF

中图法分类号:TP391 文献标识码:A

1 引言

广西地处西南边陲,与越南毗邻,是中国对外开放的“桥头堡”,且拥有多个国家级和省级的对外开放口岸。近年来,越南和广西之间的交流日益频繁,但大规模、高频次的跨境流动人口中夹杂大量非法劳工,相关部门在对非法入境人员进行立案时,必须对被收容人的姓名、性别、国籍、民族、户籍、学历、身份证、手机等多项个人信息做详细的记录,而传统的人工采集方式需要消耗大量人力物力,且效率低下。为解决上述问题,本文通过广西出入境边防检查总站提供的原始笔录数据构建非法出入境笔录文本的命名实体识别语料库,提出了基于预训练模型的非法出入境笔录信息提取模型,并取得了较好的效果。

2 相关工作

1996 年,R. Grishman 和B. Sundheim 在MessageUnderstanding Conference(MUC?6) 上提出了“命名实体”的概念,该概念被广泛应用于自然语言处理领域[1] 。早期的命名实体识别主要依赖于规则和词典等手动构建的模板,与被识别的文档进行匹配以抽取实体。之后,基于特征工程和机器学习的方法成为主流,常用的方法包括最大熵[2] 、隐马尔可夫模型[3] 、支持向量机[4] 和条件随机场[5] 等。近年来,命名实体识别中出现了越来越多的神经网络模型[6] ,例如LSTM 模型[7] ,在LSTM 的基础上,研究人员引入条件随机场来增强模型的约束条件,预训练模型也逐渐被广泛应用于命名实体识别领域,提高了中文实体识别的效果。

国内外对于非法出入境笔录信息的命名实体研究较少,且可用的数据集稀缺,该领域的信息抽取问题亟待解决,主要包括:(1)基于机器学习的实体识别方法对人工特征依赖验证,难以捕获长距离上下文信息;(2)目前专门针对笔录信息提取领域的命名实体识别研究还十分稀少,也未构建相应的语料库;(3)笔录信息中常包含特征相似的实体,如越南身份证号码和越南手机号码均为数字组成,且位数相同,对于存在相似特征的实体,会增加实体提取的难度。

3 BERT?BiLSTM?CRF 模型

本文将非法出入境笔录文本作为原始语料,分段清洗后并对其进行标注。这些标注数据被输入到BERT?BiLSTM?CRF 模型中进行实体识别。该模型由3 个部分组成。(1)BERT 预训练模型,用于提取文本的丰富特征,并表示为字向量。(2)BiLSTM 模型,通过双向循环神经网络提取双向文本信息,将上一层输出的字向量输入到BiLSTM 模型中得到双向状态序列,进一步获取数据隐藏层的高级特征。(3)CRF 模型,用于根据相邻标签的概率关系获得最优标注序列。结合CRF 中的状态转移矩阵对BiLSTM 模型的输出序列进行约束处理,根据相邻标签信息得到一个全局最优标签序列。通过将三者结合起来,BERT?BiLSTM?CRF 模型可以获得语义表示和序列信息的最佳结合。BERT?BiLSTM?CRF 模型架构如图1 所示。

3.1 BERT

BERT(Bidirectional Encoder Representations fromTransformers)是一种预训练语言模型,由J. Devlin 等在2018 年提出。其基于Transformer 架构,主要由2个部分组成:编码器和多头注意力机制。BERT 使用大量的文本数据进行预训练,学习了语言中的上下文关系。在实际应用中,BERT 可以将文本数据转换为语义表示,并将这些表示作为上层模型的输入,以解决各种自然语言处理任务。

3.2 BiLSTM

BiLSTM 是双向LSTM 的缩写,意味着该模型同时从正向和反向2 个方向读取序列数据。双向LSTM 的模型结构如下所示:一个正向LSTM 层,读取序列数据从左到右;一个反向LSTM 层,读取序列数据从右到左;两个LSTM 层的输出连接在一起,作为最终的语义表示。

3.3 CRF

CRF(Conditional Random Fields)是一种用于标记序列数据的生成模型。CRF 层利用序列的上下文信息和语法结构,对每个单词的标注结果进行联合建模,使得标注结果不仅取决于当前单词的特征,还考虑了整个序列中标注结果的一致性。

4 数据集及参数指标

4.1 数据集

本文采用的是自建数据集,所用的语料为广西边防检查总站提供的非法出入境笔录文本数据,通过对笔录文本数据进行清洗分类,选取有效文本2 822 个,通过分析笔录文本数据的特点,设置了9 种实体类别,各类实体的统计信息如表1 所列。

4.2 参数指标

本文采用命名实体识别的3 个常用评价指标,即准确率(P)、召回率(R)和F1 值。各项指标的具体计算公式如式(1) ~式(3)所示:

5 实验与分析

5.1 实验环境

实验采用的网络架构为Tensorflo,1.14.0, Python版本为3.7。本文模型参数设置如表2 所列。

5.2 实验结果

本文构建数据集的标注采用的是BIO 的方式,并将其分为训练集、测试集和验证集,占比分别为70%,15%,15%。模型识别结果如表3 所列。

模型对于非法出入境笔录信息中name,gender,birth,nation,education 的识别效果都达到了95% 以上,对country,IDnumber,PNumber,site 的识别效果都达到了80%以上。由于非法出入境的笔录文本中部分被查获人员的IDnumber 和PNumber 有缺失,导致数据量不足,因此实体识别存在一定难度。但在有限的数据样本中,本文的模型结果仍能达到95%左右的识别水平。

6 結束语

本文针对非法出入境笔录文本提取的专业领域分析,采用了BERT?BiLSTM?CRF 模型,并对其进行命名实体识别,提取出笔录文本中被查获人的个人信息。实验结果表明,在自建的非法出入境笔录文本数据集上,采用BERT?BiLSTM?CRF 模型表现良好,这为后续的笔录信息分析提供了基础。在未来的工作中,需要继续完善数据集以提高模型的鲁棒性,同时增加实体类别的划分,以平衡每个实体类别的数量。

参考文献:

[1] GRISHMAN R, SUNDHEIM B M. Message understandingconference?6:A brief history[C] ∥COLING,1996 Volume1: The 16th International Conference on ComputationalLinguistics,1996,1:466?471.

[2] BERGER A,DELLA PIETRA S A,DELLA PIETRA V J.Amaximum entropy approach to natural language processing[J].Computational linguistics,1996,22(1):39?71.

[3] HU W, TIAN G, KANG Y, et al. Dual sticky hierarchicalDirichlet process hidden Markov model and its application tonatural language description of motions[J].IEEE transactionson pattern analysis and machine intelligence,2017,40(10):2355?2373.

[4] CHEN P H,LIN C J,SCH?LKOPF B. A tutorial on ν ‐support vector machines[J]. Applied Stochastic Models inBusiness and Industry,2005,21(2):111?136.

[5] LEE C,HWANG Y G,OH H J,et al. Fine?grained namedentity recognition using conditional random fields for questionanswering[ J]. Lecture notes in computer science, 2006,4182: 581?587.

[6] COLLOBERT R, WESTON J, BOTTOU L, et al. Naturallanguage processing (almost) from scratch[J]. Journal ofmachine learning research, 2011, 12 ( ARTICLE): 2493?2537.

[7] HAMMERTON J. Named entity recognition with long short?term memory[C]∥Proceedings of the seventh conference onNatural language learning at HLT?NAACL 2003,2003: 172?175.

作者简介:

郭婧婧(1996—),硕士,研究方向:自然语言处理。

李俊杰(1984—),本科,研究方向:应用系统研发( 通信作者)。