基于预训练和多层次信息的中文人物关系抽取模型

2022-01-05 02:32姚博文曾碧卿丁美荣

计算机应用 2021年12期

姚博文，曾碧卿，蔡剑，丁美荣

（华南师范大学软件学院，广东佛山 528225）

（∗通信作者电子邮箱15797680180@163.com）

0 引言

关系抽取（Relation Extraction）是自然语言处理（Natural Language Processing，NLP）的热点研究方向之一，该任务的目的是判断自然语言文本中两个实体之间的潜在语义关系，比如从句子“［华盛顿］是［美国］的首都”中，可以从两个实体［华盛顿］和［美国］抽取出特定关系事实，获得关系三元组〈华盛顿，首都，美国〉。目前的大型知识库Freebase、DBpedia 以及国内的百度百科等，都存储了大量的关系事实三元组，但距离反映现实世界中的所有关系还远远不够。而关系抽取能够从非结构化文本提取关系事实三元组，达到扩充知识库中关系事实数量的目的，对知识图谱的构建与补全起到重要的推动作用。

关系抽取主要包括基于模式匹配、基于传统机器学习和基于深度学习的方法。其中，深度学习方法具有较强的特征学习能力，并且不需要复杂的特征工程，因此是目前关系抽取领域使用最广泛的方法，比如卷积神经网络（Convolutional Neural Network，CNN）、循环神经网络（Recurrent Neural Network，RNN）等被广泛应用于关系抽取。

目前，大部分关系抽取领域的研究都针对英文语料库来开展，由于中文与英文在语言学上具有一定的差异性，因此一些在英文语料库上表现良好的方法对中文语料并不适用。中文语料中存在着更为复杂的语法结构，进行中文关系抽取更具有难度和挑战性，而且由于目前中文自然语言处理研究基础相对薄弱等原因，导致现在针对中文人物关系抽取语料的研究还不够全面和彻底。同时，传统文本表示方法的局限也制约着关系抽取的性能，比如传统的词向量模型Glove、Word2Vec 等为每个词生成固定的静态向量表示，生成的词向量表示不包含语境上下文相关的语义信息。BERT（Bidirectional Encoder Representations from Transformers）［1］、生成式预训练（Generative Pre-Training，GPT）［2］等大规模预训练模型的出现能克服该缺点，解决一词多义的问题，学习到更加丰富的词特征表示，提升模型的性能。

针对中文语料语法结构复杂、传统文本表示方法存在局限性的问题，本文提出了一种基于预训练和多层次信息的中文人物关系抽取模型（Chinese Character Relation Extraction model based on Pre-training and Multi-level Information，CCREPMI），其中选取了BERT 预训练模型，将原始输入数据初步建模成上下文语境相关的向量化表示。面对中文人物关系抽取文本语料中复杂的语法结构，CCREPMI 首先在句子信息提取层使用双向长短时记忆（Bi-directional Long Short-Term Memory，BiLSTM）网络和注意力机制的融合网络捕捉句子的句法结构特征，并且深入考虑句子中实体词与邻近词之间的复杂依赖关系，例如句子“小明雇小红为其提供劳动服务”，“雇”字对关系类型的判断产生较大影响，揭示了两个人物的上下级关系，于是CCREPMI在实体邻近信息提取层捕捉并利用这种依赖关系，同时在实体信息提取层挖掘实体词含义，最后在信息融合层将多个层次的信息融合成更具代表性的样本特征向量，最终使用Softmax函数进行关系的判断。

本文使用CCREPMI模型在中文人物数据集上进行实验，实验结果表明本文提出的CCREPMI 模型相比其他一些Baseline模型在性能上有所提升，验证了所提方法的有效性。

本文的主要工作有：

1）提出了一种结合预训练和多层次信息的中文人物关系抽取模型CCREPMI，将多层次信息和BERT 预训练模型整合到关系抽取的架构中。

2）在中文人物关系数据集上对CCREPMI 模型的有效性进行了测试，并通过与其他现有方法的实验对比，验证了本文CCREPMI 模型在中文关系抽取任务上的先进性。还在SemEval2010-task8 数据集上对CCREPMI 模型在英文语料上的适应性进行了测试，验证了该模型对英文语料也具有一定的泛化能力。

1 相关工作

在当今时代中，面对互联网上海量的数据，如何挖掘并利用其中的有价值信息是一个重要的问题。其中关系抽取任务能从无结构或半结构文本中抽取结构化三元组，促进后续的信息检索和知识图谱构建，因此得到了不少科研工作者的关注。目前的实体关系抽取研究工作主要围绕深度学习方法展开，并且根据语料中的实体关系是人工标注还是对齐知识库自动标注，可以简单分为有监督学习方法和远程监督学习方法两个大类。

有监督的学习方法是目前关系抽取领域应用最为广泛的方法，通过在人工标注样本上训练模型以实现对关系的分类和预测。Socher 等［3］使用一种递归神经网络模型来学习一个用于计算任意类型的多词序列的向量和矩阵表示，并在SemEval2010-task8 数据集上取得了良好的效果。Zeng 等［4］在CNN 的基础网络结构上引入了位置编码信息作为特征，提升了模型的表现。dos Santos 等［5］在此基础上进行改进，提出了基于排序进行分类的卷积神经网络（Convolutional Neural Network that performs Classification by Ranking，CRCNN）模型，并针对关系类型中的other 类做了特殊处理，在针对Semeval-2010 task8 数据集的评价指标中取得领先。Xu 等［6］使用长短时记忆（Long Short-Term Memory，LSTM）网络和最短依赖路径（Shortest Dependency Paths，SDP）进行关系抽取取得了良好效果。Lee等［7］设计了一种新的端到端递归神经模型，能有效地利用实体及其潜在类型作为特征，取得了更高的关系抽取准确率。

由于有监督的方法采用的人工标注需要大量人力物力，Mintz 等［8］提出一个假设，如果文本中的实体对和外部知识库中的实体对一致，就假设它们拥有一样的关系。远程监督（Distant Supervision）便是基于这种假设，通过对齐外部知识库自动获得标注好的训练数据；其缺点在于自动标注会产生很多噪声数据，影响模型性能。Lin 等［9］提出基于选择性注意力机制（Selective Attention）的CNN+ATT和PCNN+ATT模型方法来完成远程监督关系抽取任务，通过选择性注意方法削弱噪声实例的影响，以解决远程监督中的错误标签问题。Peng等［10］对PubMed Central 中约100 万篇医学论文依靠远程监督方法获取训练数据集，并提出了一种基于图LSTM 的关系抽取方法，可以实现跨句子的N元关系提取。Ji 等［11］提出的基于分段卷积神经网络的句子级注意模型（sentencelevel Attention model based on Piecewise Convolutional Neural Network，APCNN）用句子级注意力机制在一个包里选择多个有效实例，并且引入实体描述信息进行远程监督关系抽取。Li 等［12］提出的SeG（Selective Gate）模型克服了选择性注意力机制框架的缺陷，在NYT 数据集上的实验表明，该方法在AUC和Top-n精度指标上都达到了新的水平。

此外，开放域关系抽取是有别于传统领域关系抽取的一种新形式，无需预定义好的关系类型，自动抽取关系三元组。Banko 等［13］首次提出了开放信息抽取的概念，并设计了TEXTRUNNER 系统进而提取更加多样化的关系事实。Akbik等［14］提出一个专门用来捕获N元事实的开放域关系抽取系统KrakeN，并通过实验表明，该系统能达到较高精度，相比现有其他开放域关系抽取方法能捕获更多更具完整性的关系事实。

在中文人物关系抽取方面，王明波等［15］结合双向门控循环单元（Gated Recurrent Unit，GRU）和分段卷积神经网络（Piecewise Convolutional Neural Network，PCNN），分别利用二者处理序列和提取局部特征的优势，在人物关系语料库上取得了较优的效果。刘鉴等［16］提出基于LSTM 和结构化自注意力机制的方法来解决训练数据中存在的噪声问题，能有效提高中文人物关系抽取的准确率与召回率。

上述模型都表现出了出色的性能，但是如RNN、CRCNN等模型使用的是静态词向量，忽略了文本的上下文语境化信息；SeG 和APCNN 等模型虽然深入挖掘了实体信息特征，但对实体词和邻近词的依赖特征考虑得还是不够。为了克服上述模型的缺点，本文提出的CCREPMI 模型通过BERT 预训练模型获取文本的语境化表示，并同时考虑实体词含义、实体词与邻近词依赖关系、句子整体结构三个方面，即从词、局部、整体三个层次提取有效特征信息，取得了较好的效果。

2 基础技术

2.1 数据预处理

本文针对语料库数据的预处理策略共分6 步，如图1所示：

图1 数据预处理流程Fig.1 Process of data pre-processing

1）进行数据的清洗，比如无效字符的删除。

2）提取两个实体词在句子中的位置。

3）进行截取处理。对于输入的原始文本句子S={w1，w2，…，wn}以及实体对e1和e2，根据实体词位置将实体的前c个词以及后c个词组成的序列截取出来，并称之为实体邻近词序列Seqi={wpos(ei)-c，…，wpos(ei)+c}(i∈{1，2})，其中的pos(ei)是指第i个实体在句子中的位置，c为邻近词窗口值，可通过超参数设置。具体截取方式如图2 所示，若邻近词窗口值c=2，对于图中实体e1而言，w2、w3、w4、w5皆为其邻近词，这些邻近词与实体词组成的序列为实体邻近词序列，将该序列截取出来。

图2 句子截取方式示例Fig.2 Example of sentence segmentation

4）若截取后实体邻近词序列没有达到指定长度，则进行Padding处理填充到指定长度。

5）将句子、实体词、实体邻近词序列进行token化处理，预训练模型通过词表将token序列进行向量化。

2.2 BERT预训练模型

BERT模型具备学习到词的上下文相关信息的能力，有力地克服了Word2Vec、FastText、Glove 等密集的分布式词向量表示方法无法解决“一词多义”问题的缺点，在多个方面的NLP任务上都大幅刷新了精度，具备较强的泛化能力。

BERT 是使用多个Transformer 编码器堆叠而成的网络架构，其模型结构如图3 所示。与传统的按照文本序列单向训练的语言模型不同，BERT 通过掩盖语言模型（Mask Language Model，MLM）的预训练任务，随机将部分token 用［MASK］标记掩盖，以完形填空的形式利用上下文来预测被掩盖的token，MLM 任务可以同时利用双向的上下文得到包含单词语境信息的特征表示。此外，BERT 通过下一句预测（Next Sentence Prediction，NSP）任务预测后一个句子是否应该接在前一句之后，从而使得BERT可以学习到句子间的关系。

图3 BERT模型Fig.3 BERT model

2.3 双向长短时记忆网络

RNN 在自然语言处理领域常用于序列化非线性特征的学习，针对RNN 无法捕捉长距离信息和梯度消失的问题，LSTM 网络通过引入记忆单元和门控机制对RNN 作了一定程度的改进，在关系抽取任务中取得了较好的效果。LSTM单元结构如图4 所示，其中包含了遗忘门、输入门和输出门三种门结构，然后通过这种结构来实现长期记忆能力。

图4 LSTM结构Fig.4 LSTM structure

LSTM模型公式如下所示：

其中：Wi、Wf、Wo、Wc和bi、bf、bo、bc分别表示不同的权重矩阵和偏置量；Xt表示在t时刻输入的变量；ht-1表示在t-1 时刻的隐藏状态，ht表示t时刻隐藏层的隐藏状态；ct表示t时刻的细胞状态，表示t时刻候选细胞状态；it、ft、ot分别指输入门、遗忘门、输出门；σ是sigmoid 激活函数；tanh 是双曲正切激活函数。

BiLSTM 网络如图5 所示，它包括正向LSTM 和反向LSTM这两个部分。

图5 双向LSTM层Fig.5 Bidirectional LSTM layer

2.4 注意力机制

注意力机制目前在自然语言处理领域任务中卓有成效，它类似于人类的注意力机制，聚焦目标的关键信息，忽略重要程度较低的信息。为了提升信息捕捉效率，本文使用注意力机制使模型聚焦关键部分，计算得到注意力分布。

其中：H是输入特征矩阵，α是注意力权重，O是注意力机制加权之后的特征表示，W是可训练的权重向量，tanh是双曲正切激活函数。

3 CCREPMI模型

本文CCREPMI 模型总体结构如图6 所示。主要分成以下三个部分：

1）输入层：该层对于每个预定义好实体对的原始句子文本数据，通过预处理操作将其分成三个部分后输入到预训练模型中，编码成分布式向量表示，以初步提取其语义特征。

2）多层次信息提取层：该层结构包括三个并行的单元，单元之间使用不同的网络结构，分别用于提取句子层次、实体层次和实体邻近层次的信息。

3）信息融合层：该层将句子层次、实体层次和实体邻近层次的信息三个方面的深层特征信息合并，获得蕴含关系特点的特征向量表示，经过一个线性全连接层后最终输入到Softmax函数中进行最终关系预测。

3.1 输入层

对于文本序列X={x1，x2，…，xn}，在文本序列的开头加入［CLS］标志，结尾加入［SEP］标志。随后使用BERT 预训练模型将该文本序列转化为相应的BERT 词向量表示，从而获得句子词向量表示V，具体如式（1）所示：

本文使用上述公式将训练数据中样本句子序列S转化为向量化表示Vsen={E1，E2，…，En}，En为序列中第n个单词的词向量表示；同时将样本中两个实体转化为向量化表示，将两个实体邻近词序列转化为向量化表示。

3.2 多层次信息提取层

本文的多层次信息提取层包括句子层次信息提取单元、实体层次信息提取单元、实体邻近层次信息提取单元三个单元，具体如图7 所示。不同的提取单元用于提取不同层次的特征信息，之后输入到模型下一层进行信息的融合。

图7 多层次信息提取层Fig.7 Multi-level information extraction layer

在句子层次信息提取单元，首先将输入层中的词嵌入矩阵Vsen={E1，E2，…，En}送入BiLSTM 模型，经过前向传播和后向传播的特征学习过程后，得到前向隐藏状态和后向隐藏状态，随后将二者合并起来作为BiLSTM 网络层最终输出的特征向量H=Concat(hfw，hbw)。在注意力层对其进行优化，最终得到注意力加权后的特征表示O。

在实体层次信息提取单元，为了更好地利用实体级别语义信息，CCREPMI模型将两个实体的向量化表示输入到两个并行的线性全连接层中进行特征信息学习。

实体邻近层次信息提取单元同样包含两个并行的全连接层网络，将两个实体邻近词序列的向量化表示输入到全连接层进行实体词与邻近词依赖信息的提取。

3.3 信息融合层

在信息融合层，模型将上一层提取得到的三个层次信息合并，得到最终特征表示I：

将包含多层次信息的特征表示I送到一个线性全连接层中，并使用Softmax 函数计算关系预测的概率分布，可以用下列式子表示：

其中：p表示关系预测的概率分布；Nr表示关系类别数量；Mcls是权重矩阵；bcls是偏置量。为了得到模型参数，将训练目标最小化损失函数定义为：

其中：J表示目标函数；Ns是所有样本句子数；θ是模型参数，训练过程中使用Adam 优化器在多次训练后得到参数最优的模型。

4 实验与分析

4.1 数据集与评价指标

4.1.1 中文数据集

中文关系抽取实验数据集目前较为匮乏，本文实验使用的中文数据集是借助互联网资源获得的中文人物关系数据集，其中共包含朋友关系、同事关系等12类人物关系，实验随机选取了人物关系语料中的18 000 个实例作为训练集，3 600个实例作为测试集。

4.1.2 英文数据集

为了充分验证模型效果，实验中也使用了英文SemEval2010-task8数据集，它包含9种带有方向的关系和1种不带方向的关系。该数据集训练集共8 000个样本，测试集共2 717个样本。

4.1.3 评价指标

本文采用精度Pre（Precision）、召回率Rec（Recall）和F1（F1值）作为模型性能的评价指标。具体公式分别如下所示：

其中：TP是真正例数，FP是假正例数，FN是假反例数；F1是将精度和召回率进行加权调和平均的结果。

4.2 实验环境和超参数设置

表1列出了本文实验使用的超参数，实验环境设置如表2所示。

表1 超参数设置Tab.1 Hyperparameter setting

表2 实验环境Tab.2 Experiment environment

4.3 实验结果

4.3.1 不同预训练语言模型的影响

为了探究选择的预训练模型对CCREPMI的影响，本文设计了以下3个变体模型进行对比。

1）CCREPMI-BERT。

在输入层以BERT 预训练语言模型［1］生成词嵌入矩阵，BERT 使用维基百科数据进行训练，通过MLM 训练任务获得上下文相关的双向特征。

2）CCREPMI-BERT-wwm。

在输入层以BERT-wwm预训练语言模型［17］生成词嵌入矩阵，BERT-wwm 面向中文语料，使用中文维基百科数据进行训练，并使用全词掩盖机制对BERT进行改进。

3）CCREPMI-ERNIE。

在输入层以ERNIE 预训练语言模型［18］生成词嵌入矩阵，ERNIE面向中文语料，训练时额外使用了百度百科、百度贴吧等数据，并且将实体向量与文本表示结合。

为了验证哪一种预训练模型的有效性最高，将三种模型进行对比，将模型输出的词嵌入向量维度E都统一设置为768，并采用精度、召回率、F1 值作为模型的评价指标，预训练模型对实验结果的影响如表3所示。

表3 不同预训练模型的结果对比Tab.3 Result comparison of different pre-trained models

由表3 可以看出，CCREPMI-BERT 模型取得了最好的结果，比另外两种模型在F1值上分别高出2.3和2.6个百分点。BERT、ERNIE、BERT-wwm 三个预训练模型各有侧重，本文认为实验中基于ERNIE 的模型和基于BERT-wwm 的模型表现不如基于BERT 的模型的原因可能是不够贴合训练数据样本，并且因为中文分词存在的错误传播问题，BERT-wwm 的全词掩盖和ERNIE 的实体mask 功能可能没有发挥优势。此外ERNIE模型引入的外部知识对微博文本等非正式数据的建模会更加有效，在本文数据集上的表现并不突出。因此本文最终选择了效果最佳的BERT 预训练模型，将其融入到CCREPMI的整体架构中去。

4.3.2 对比模型

本文模型旨在提升中文人物关系数据集的准确程度，因此将所提出方法分别与当前一些较好的方法在本文实验环境进行实验并对比分析。对比方法包括：

1）CNN［4］：使用标准的CNN 模型进行关系抽取，卷积核大小为3，使用了位置编码（Position Encoding）特征。

2）CRCNN［5］：在标准CNN 基础上进行改进，在损失函数部分使用ranking-loss机制，提升了关系抽取的效果。

3）BiLSTM-ATT［19］：基于BiLSTM 网络，同时利用输入序列的正向和反向信息得到隐藏向量，然后再使用注意力机制捕捉关键信息进行关系分类。

4）BERT［1］：基于BERT 预训练模型的方法，将文本转化为BERT词向量，直接输入到分类器中进行关系分类。

5）BERT-LSTM［20］：基于BERT 预训练模型的方法，将经过BERT 层的句子向量送入LSTM 层进行编码，再将隐藏向量送入分类器。

6）RBERT［21］：使用BERT 预训练模型获取文本的向量表示，将句子向量与两个实体的向量表示连接后送入Softmax 分类器。

7）CCREPMI-S：在标准CCREPMI 网络基础上简化了网络结构，对句子建模过程中移除了在模型中的Attention 层，其余结构与标准CCREPMI网络相同。

8）CCREPMI-G：在标准CCREPMI 网络基础上更改网络结构，对句子建模过程中使用BiGRU 网络代替BiLSTM 网络，其余结构与标准CCREPMI网络相同。

通过对比分析表4 中的实验结果可知，本文CCREPMI 模型精度、召回率、F1 值分别为81.5%、82.3%、81.9%，相较于其他模型而言具有更优的表现。该结果表明本文融合预训练模型和多层次信息的CCREPMI 模型对于提升关系抽取任务的性能具有一定的效果。

表4 不同模型的性能对比单位：%Tab.4 Performance comparison of different models unit：%

其中，相比基准模型如CNN、CRCNN、BiLSTM-Att 等模型，BERT-based 模型在精确率、召回率和F1 上均有显著的提升，本文认为原因是基准模型的词向量使用的是随机初始化以及Glove两种形式，所生成的静态词向量无法表征上下文信息，也就难以克服一词多义现象，而BERT 模型在大规模语料库进行预训练，具有更强的文本理解能力，且包含语境上下文信息，能有效解决一词多义的问题，由此可见，使用BERT 生成词向量能更好地提升模型的性能，验证了预训练模型的重要性。

此外，CCREPMI 与BERT-based 的模型如RERT、BERT、BERT-LSTM 对比分别在F1 值上提高了0.7、8.9 和8.2 个百分点。首先，相对而言，BERT模型的表现较差，笔者认为原因在于BERT 模型仅通过微调的方式进行关系类型的判断，提取的特征不够丰富，而BERT-LSTM 模型使用BERT+LSTM 的联合网络，有效地提高了模型提取序列信息的精确程度，相比BERT 的F1 值提升了0.7。但BERT-LSTM 单纯使用LSTM 对句子结构进行粗粒度的整体分析，随后输入分类器进行关系类型判断，没有考虑到句子中粒度更细的信息，限制了性能的进一步提升。而RBERT 虽然深入考虑了实体词的特征信息，但并未有效利用文本中实体词与邻近词的潜在联系，相比之下CCREPMI 模型在深度语义挖掘层提取三个层次关键语义信息，关注句子中实体词本身的含义，并通过捕捉实体对邻近词的依赖关系，得到了相对丰富的特征表示，对提高模型的关系抽取效果起了积极作用，达到81.9%的最佳F1 值，由此可见关注实体词与邻近词的依赖关系可以用于改进关系抽取模型的性能。

最后我们注意到，CCREPMI-G 在F1 值上相比标准CCREPMI 低0.4 个百分点，模型性能表现比较接近。笔者认为BiGRU 网络的特点是参数量较少，计算速度比较有优势，但BiLSTM相比之下具有更多的门控单元，在本次实验中表现出了更加强大的特征学习能力。CCREPMI-S移除了Attention层，结果F1 值比标准CCREPMI 低1.3 个百分点，说明Attention机制对句子层次的信息提取具有良好的增益作用。

4.3.3 模型超参数对性能的影响

本文还探索了批次大小（batch-size）、文本最大长度（maxlength）、BiLSTM 层数（BiLSTM-Layer）以及丢弃率（Dropout）等四个模型超参数对性能的影响，结果如图8所示。

图8 超参数对模型性能的影响Tab.8 Influence of hyperparameters on model performance

由图8 可知，批次大小从8 开始依次增加时，模型效果随之提升，直到大小为32 时模型性能达到最佳，之后可能因陷入局部收敛效果不升反降；文本最大长度设置为85 是最优选择，因为设置过长需要将大量样本填充至该值，设置过短则需要将大量样本截取至该值，均会导致文本语义的丢失；BiLSTM 网络的层数设置为2 最佳，仅1 层会因为网络深度不够，导致特征提取效果不强，而增加网络深度至3 层可能因梯度消失问题的加剧，引起性能的下降；模型使用丢弃率来防止模型的过拟合现象，可以看出丢弃率为0.3 的时候模型拟合程度较好。

4.3.4 模型泛化能力分析

本文主要针对中文数据集的特点设计模型结构，为了测试CCREPMI 在英文数据集上的泛化能力，采用F1 值作为评价指标，在SemEval2010-task8 数据集上进行实验测试模型效果。

根据表5可知，CCREPMI在不借助人工特征的条件下，通过预训练模型和引入多层次信息特征，增强了模型特征学习效果，在英文数据集上与基准模型CNN、MVRNN 和FCM 等对比仍然存在领先的效果，说明CCREPMI在英文语料上具有一定的泛化能力。

表5 不同模型在英文数据集SemEval2010-task8上的实验结果对比单位：%Tab.5 Results comparison of different models on English dataset SemEval2010-task8 unit：%

4.3.5 多层次信息的影响

为了分析本文中多层次信息融合结构对模型性能的影响，设计了在CCREPMI多层次信息提取层中移除实体信息提取单元的CCREPMI-NoE 模型和移除实体邻近层次信息提取单元的CCREPMI-NoEC 模型，以及将超参数邻近词窗口c值设置为2，即采用较长实体邻近词序列作为输入的CCREPMILEC 模型等三种变体模型，并将以上模型与标准的CCREPMI-Standard模型进行对比，结果如图9所示。

图9 变体模型对比结果Fig.9 Comparison results of variant models

图9 是各个变体模型的F1 值和loss 值伴随着训练批次的变化情况，可以看出四个模型最后均收敛到恒定值，其中CCREPMI-Standard 在F1 的最高值和loss 的下降情况上都优于不考虑实体层次信息的CCREPMI-NoE 模型及不考虑实体邻近层次信息的CCREPMI-NoEC 模型，从中可以得出结论：无论是实体层次信息或是实体邻近层次信息都对模型识别关系的准确程度有益。而模型CCREPMI-LEC 中虽然考虑了实体与邻近词的依赖信息，但输入的实体邻近词序列长度较长，造成一些无关的邻近词对关系的判断产生了负面影响，因此该模型的关系抽取效果相对不佳。

5 结语

本文针对中文关系抽取数据集中语法结构复杂的问题，提出了一种使用基于预训练和多层次信息的中文人物关系抽取模型，该模型先使用BERT 预训练模型，再结合句子整体结构、实体含义以及实体词与实体邻近词的依赖关系等特征信息进行关系分类。本文在中文人物数据集上对模型进行了实验，结果表明模型对比基准方法有所提升，并在英文数据集上验证了模型具有一定泛化能力。本文模型虽然取得了较好的效果，但仍然有一些局限性，使用的特征仍然不够丰富，未来可能的工作是尝试引入词性和依存句法等特征提升模型性能。