基于ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ的非法出入境笔录文本提取模型

2023-07-17 09:30郭婧婧李俊杰周卫等

计算机应用文摘·触控 2023年13期

郭婧婧李俊杰周卫等

摘要：為提高非法出入境笔录信息提取方面的命名实体识别能力，提出了一种融合语言模型的非法出入境笔录信息提取模型。该模型首先利用BERT模型对输入序列中的单词进行编码，得到每个单词的向量表示，然后将这些向量输入到BiLSTM网络中，利用LSTM网络时输入序列进行建模，学习输入序列中的上下文信息和语法结构等。最后，通过一个CRF层对BiLSTM网络的输出进行标注．从而得到最终的输出序列。实验结果表明，该模型能较好地应用于非法出入境笔录文本提取的任务。在与广西边防检查总站的合作项目里，最终将该模型应用于实际生产工作中，为边检警方的笔录提取工作提供便利。

关键词：非法出入境笔录文本；命名实体识别；BERT预训练语言模型；BiLSTM；CRF

中图法分类号：TP391 文献标识码：A

１引言

广西地处西南边陲，与越南毗邻，是中国对外开放的“桥头堡”，且拥有多个国家级和省级的对外开放口岸。近年来，越南和广西之间的交流日益频繁，但大规模、高频次的跨境流动人口中夹杂大量非法劳工，相关部门在对非法入境人员进行立案时，必须对被收容人的姓名、性别、国籍、民族、户籍、学历、身份证、手机等多项个人信息做详细的记录，而传统的人工采集方式需要消耗大量人力物力，且效率低下。为解决上述问题，本文通过广西出入境边防检查总站提供的原始笔录数据构建非法出入境笔录文本的命名实体识别语料库，提出了基于预训练模型的非法出入境笔录信息提取模型，并取得了较好的效果。

２相关工作

１９９６年，Ｒ．Ｇｒｉｓｈｍａｎ和Ｂ．Ｓｕｎｄｈｅｉｍ在ＭｅｓｓａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇＣｏｎｆｅｒｅｎｃｅ（ＭＵＣ?６）上提出了“命名实体”的概念，该概念被广泛应用于自然语言处理领域［１］。早期的命名实体识别主要依赖于规则和词典等手动构建的模板，与被识别的文档进行匹配以抽取实体。之后，基于特征工程和机器学习的方法成为主流，常用的方法包括最大熵［２］、隐马尔可夫模型［３］、支持向量机［４］和条件随机场［５］等。近年来，命名实体识别中出现了越来越多的神经网络模型［６］，例如ＬＳＴＭ模型［７］，在ＬＳＴＭ的基础上，研究人员引入条件随机场来增强模型的约束条件，预训练模型也逐渐被广泛应用于命名实体识别领域，提高了中文实体识别的效果。

国内外对于非法出入境笔录信息的命名实体研究较少，且可用的数据集稀缺，该领域的信息抽取问题亟待解决，主要包括：（１）基于机器学习的实体识别方法对人工特征依赖验证，难以捕获长距离上下文信息；（２）目前专门针对笔录信息提取领域的命名实体识别研究还十分稀少，也未构建相应的语料库；（３）笔录信息中常包含特征相似的实体，如越南身份证号码和越南手机号码均为数字组成，且位数相同，对于存在相似特征的实体，会增加实体提取的难度。

３ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型

本文将非法出入境笔录文本作为原始语料，分段清洗后并对其进行标注。这些标注数据被输入到ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型中进行实体识别。该模型由３个部分组成。（１）ＢＥＲＴ预训练模型，用于提取文本的丰富特征，并表示为字向量。（２）ＢｉＬＳＴＭ模型，通过双向循环神经网络提取双向文本信息，将上一层输出的字向量输入到ＢｉＬＳＴＭ模型中得到双向状态序列，进一步获取数据隐藏层的高级特征。（３）ＣＲＦ模型，用于根据相邻标签的概率关系获得最优标注序列。结合ＣＲＦ中的状态转移矩阵对ＢｉＬＳＴＭ模型的输出序列进行约束处理，根据相邻标签信息得到一个全局最优标签序列。通过将三者结合起来，ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型可以获得语义表示和序列信息的最佳结合。ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型架构如图１所示。

３．１ＢＥＲＴ

ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）是一种预训练语言模型，由Ｊ．Ｄｅｖｌｉｎ等在２０１８年提出。其基于Ｔｒａｎｓｆｏｒｍｅｒ架构，主要由２个部分组成：编码器和多头注意力机制。ＢＥＲＴ使用大量的文本数据进行预训练，学习了语言中的上下文关系。在实际应用中，ＢＥＲＴ可以将文本数据转换为语义表示，并将这些表示作为上层模型的输入，以解决各种自然语言处理任务。

３．２ＢｉＬＳＴＭ

ＢｉＬＳＴＭ是双向ＬＳＴＭ的缩写，意味着该模型同时从正向和反向２个方向读取序列数据。双向ＬＳＴＭ的模型结构如下所示：一个正向ＬＳＴＭ层，读取序列数据从左到右；一个反向ＬＳＴＭ层，读取序列数据从右到左；两个ＬＳＴＭ层的输出连接在一起，作为最终的语义表示。

３．３ＣＲＦ

ＣＲＦ（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ）是一种用于标记序列数据的生成模型。ＣＲＦ层利用序列的上下文信息和语法结构，对每个单词的标注结果进行联合建模，使得标注结果不仅取决于当前单词的特征，还考虑了整个序列中标注结果的一致性。

４数据集及参数指标

４．１数据集

本文采用的是自建数据集，所用的语料为广西边防检查总站提供的非法出入境笔录文本数据，通过对笔录文本数据进行清洗分类，选取有效文本２８２２个，通过分析笔录文本数据的特点，设置了９种实体类别，各类实体的统计信息如表１所列。

４．２参数指标

本文采用命名实体识别的３个常用评价指标，即准确率（Ｐ）、召回率（Ｒ）和Ｆ１值。各项指标的具体计算公式如式（１）～式（３）所示：

５实验与分析

５．１实验环境

实验采用的网络架构为Ｔｅｎｓｏｒｆｌｏ，１．１４．０，Ｐｙｔｈｏｎ版本为３．７。本文模型参数设置如表２所列。

５．２实验结果

本文构建数据集的标注采用的是ＢＩＯ的方式，并将其分为训练集、测试集和验证集，占比分别为７０％，１５％，１５％。模型识别结果如表３所列。

模型对于非法出入境笔录信息中ｎａｍｅ，ｇｅｎｄｅｒ，ｂｉｒｔｈ，ｎａｔｉｏｎ，ｅｄｕｃａｔｉｏｎ的识别效果都达到了９５％以上，对ｃｏｕｎｔｒｙ，ＩＤｎｕｍｂｅｒ，ＰＮｕｍｂｅｒ，ｓｉｔｅ的识别效果都达到了８０％以上。由于非法出入境的笔录文本中部分被查获人员的ＩＤｎｕｍｂｅｒ和ＰＮｕｍｂｅｒ有缺失，导致数据量不足，因此实体识别存在一定难度。但在有限的数据样本中，本文的模型结果仍能达到９５％左右的识别水平。

６結束语

本文针对非法出入境笔录文本提取的专业领域分析，采用了ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型，并对其进行命名实体识别，提取出笔录文本中被查获人的个人信息。实验结果表明，在自建的非法出入境笔录文本数据集上，采用ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型表现良好，这为后续的笔录信息分析提供了基础。在未来的工作中，需要继续完善数据集以提高模型的鲁棒性，同时增加实体类别的划分，以平衡每个实体类别的数量。

参考文献：

［１］ＧＲＩＳＨＭＡＮＲ，ＳＵＮＤＨＥＩＭＢＭ．Ｍｅｓｓａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇｃｏｎｆｅｒｅｎｃｅ?６：Ａｂｒｉｅｆｈｉｓｔｏｒｙ［Ｃ］ ∥ＣＯＬＩＮＧ，１９９６Ｖｏｌｕｍｅ１：Ｔｈｅ１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，１９９６，１：４６６?４７１．

［２］ＢＥＲＧＥＲＡ，ＤＥＬＬＡＰＩＥＴＲＡＳＡ，ＤＥＬＬＡＰＩＥＴＲＡＶＪ．Ａｍａｘｉｍｕｍｅｎｔｒｏｐｙａｐｐｒｏａｃｈｔｏｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ［Ｊ］．Ｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓｔｉｃｓ，１９９６，２２（１）：３９?７１．

［３］ＨＵＷ，ＴＩＡＮＧ，ＫＡＮＧＹ，ｅｔａｌ．ＤｕａｌｓｔｉｃｋｙｈｉｅｒａｒｃｈｉｃａｌＤｉｒｉｃｈｌｅｔｐｒｏｃｅｓｓｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｎａｔｕｒａｌｌａｎｇｕａｇｅｄｅｓｃｒｉｐｔｉｏｎｏｆｍｏｔｉｏｎｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２０１７，４０（１０）：２３５５?２３７３．

［４］ＣＨＥＮＰＨ，ＬＩＮＣＪ，ＳＣＨ?ＬＫＯＰＦＢ．Ａｔｕｔｏｒｉａｌｏｎ ν ‐ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ［Ｊ］．ＡｐｐｌｉｅｄＳｔｏｃｈａｓｔｉｃＭｏｄｅｌｓｉｎＢｕｓｉｎｅｓｓａｎｄＩｎｄｕｓｔｒｙ，２００５，２１（２）：１１１?１３６．

［５］ＬＥＥＣ，ＨＷＡＮＧＹＧ，ＯＨＨＪ，ｅｔａｌ．Ｆｉｎｅ?ｇｒａｉｎｅｄｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓｆｏｒｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ［Ｊ］．Ｌｅｃｔｕｒｅｎｏｔｅｓｉｎｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２００６，４１８２：５８１?５８７．

［６］ＣＯＬＬＯＢＥＲＴＲ，ＷＥＳＴＯＮＪ，ＢＯＴＴＯＵＬ，ｅｔａｌ．Ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ（ａｌｍｏｓｔ）ｆｒｏｍｓｃｒａｔｃｈ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２０１１，１２（ＡＲＴＩＣＬＥ）：２４９３?２５３７．

［７］ＨＡＭＭＥＲＴＯＮＪ．Ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｌｏｎｇｓｈｏｒｔ?ｔｅｒｍｍｅｍｏｒｙ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｓｅｖｅｎｔｈｃｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌｌａｎｇｕａｇｅｌｅａｒｎｉｎｇａｔＨＬＴ?ＮＡＡＣＬ２００３，２００３：１７２?１７５．

作者简介：

郭婧婧（１９９６—），硕士，研究方向：自然语言处理。

李俊杰（１９８４—），本科，研究方向：应用系统研发（通信作者）。

计算机应用文摘·触控2023年13期

计算机应用文摘·触控的其它文章: 新工科背景下低代码平台在“大学计算机基础”课程中的应用; 招投标在园林设计类课程中的创新应用; “计算机应用”课程的混合式教学模式研究; 教师在线学习的学习者画像研究; 智慧教育理念下教学云平台促进高校外语有效教学环境的构建与实践; 基于OBE理念的“操作系统原理”一流课程建设的探索与思考

基于 ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ 的非法出入境笔录文本提取模型

基于ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ的非法出入境笔录文本提取模型