基于图注意力网络的科技实体关系联合抽取方法

2022-06-27 10:31周义恒陈颢天周向东
预测 2022年3期

周义恒 陈颢天 周向东

摘 要:实体关系抽取在科技文献挖掘、文本知识发现等应用中起着重要作用。本文提出了一种新的实体关系联合抽取模型,利用关系之间存在的关联性来提升实体与关系联合抽取的性能。即将实体二元组(实体对)映射到关系语义子空间,并利用图注意力网络(Graph Attention Network)来探索关系之间相关性,实现了实体关系三元组抽取性能的改进。在两个常用的公开数据集上的实验结果表明本模型达到了目前已知的最好性能指标。

关键词:关系相关性;联合抽取;图注意力网络

中图分类号:TP391文献标识码:A文章编号:2097-0145(2022)03-0039-06doi:10.11847/fj.41.3.39

Joint Extraction of Science Entity and Relation Based on Graph Attention Network

ZHOU Yi-heng1,2, CHEN Hao-tian1,2, ZHOU Xiang-dong1,2

(1.College of Computer Science and Technology, Fudan University, Shanghai 200438, China; 2.Shanghai Key Laboratory of Data Science, Shanghai 200438, China)

Abstract:Entity and relation extraction plays an important role in science text mining and science knowledge and information discovery. In this paper, we propose a novel entity and relation joint extraction model, utilizing the association information between relations to improve model performance. Specifically, we project entity pair vectors to corresponding relation-spaces, and adopt Graph Attention Network (GAT) to adaptively explore the association information between them, thereby improving the model performance. The experimental results on two commonly used datasets show that our proposed model outperforms other existing models and archives the state-of-the-art performance.

Key words:association information between relations; joint extraction; graph attention network

1 引言

随着信息技术的迅速发展,科学研究中累积了大量文本数据。这些数据往往蕴含着丰富的知识,相关的知识抽取与挖掘技术具有重要的应用价值。实体关系三元组是以三元组形式将文本(如科技文献)中提取的人名、地名等为代表的专用名词表示为主、宾实体对象,两个实体之间的联系表示为关系的数据结构。实体关系三元组是当前构建知识库或语义网络最常用的基本数据对象,因此从非结构化的文本数据中自动抽取实体关系三元组具有重要的研究意义。

实体关系三元组通常以(表示为)形式表达。如图1所示的一段文本:“张三出生于上海,一个位于中国东部的城市”,可以从中抽取诸如<张三,出生于,上海>(Z-BornIn-S),<张三,出生于,中国>(Z-BornIn-C)和<张三,家乡是,上海>(Z-Home-S)等三个实体关系三元组。通过进一步的观察可以发现许多句子中蕴含的不同三元组之间存在实体或关系共享情况,称为实体关系重叠问题。本文将这种重叠问题分为两类:单实体重叠Single Entity Overlap(SEO)和实体对重叠Entity Pair Overlap(EPO)。图1中三元组Z-BornIn-S和Z-Home-S属于 SEO问题,而三元组Z-BornIn-S和Z-BornIn-C属于EPO问题。由于实体或关系重叠会产生遮蔽或混淆的情况,往往对三元组自动抽取带来不利的影响。

随着深度学习技术的迅速发展,实体关系三元组抽取技术从早期的流水线模式已经发展到基于各种深度网络的联合抽取方法[1~4]。基于深度網络的抽取方法通常将整个句子编码,利用解码器逐一生成三元组或者先抽取三元的主语部分subject,然后预测其余部分即。而基于图网络的方法在抽取三元组的过程中可以捕获不同节点之间的相关性,从而提升性能。但是前人工作大多忽略了实体关系重叠问题或者缺乏对该问题的深入探索。Fu等[4]提出了GraphRel方法利用关系之间的交互以改善关系抽取模型的性能,为解决和利用实体关系重叠带来了新的启发和思路。该工作使用关系加权图卷积神经网络Graph Convolutional Network(GCN)对命名实体与关系之间的交互进行建模。但是GCN无法自适应地利用关系相关性,三元组抽取性能与一些最新的研究工作相比并不理想。A67D4071-5767-49FE-868D-67CB7CFF2701

本文在前人工作的基础上提出一种新的发掘关系相关性来改进联合抽取模型性能的方法。通过图注意力网络Graph Attention Network(GAT)探索关系之间的相关性来提高三元组抽取性能。具体而言,本文提出关系语义空间的概念用于关系相关性建模。关系语义空间由不同关系子空间组成,每个子空间训练标记器(分类器)fr(s,o)→(yes/no)以预测实体对是否能映射到对应的关系上。与前人工作相比,本文以重叠实体作为桥梁探索关系相关性,利用图模型对不同关系子空间之间的相关性进行建模。基于GAT的自适应学习机制,使得实体特征向量获得不同关系之间的相关性信息,进而提升了三元组抽取的性能。

本文的主要贡献如下:提出了一个新颖的基于GAT的联合实体关系抽取模型:RCRel。将不同的关系子空间组成的关系语义空间与GAT集成,将主宾实体对映射到所有关系子空间中以进行关系预测,从而有效地克服关系重叠问题并提升了抽取性能。分别在公共数据集NYT和WebNLG上进行实验以评估本模型的性能。当使用BERT作为编码层时,F1达到92.5%和93.3%,超过了已知工作的最好指标。

2 文献综述

早期的关系三元组抽取模型大多采用流水线(Pipline)方法[5~7]。首先识别文本中的潜在实体对,接着对每个实体对判断关系类别。该方法容易受到误差累计问题的影响,即实体识别的误差会传递到关系分类中。随后出现了新的实体关系联合学习模型,

包括基于特征的模型[8~11]和基于深度网络的模型[1,4,12~14]。基于深度神经网络的模型将人工构造特征替换为模型自动学习特征,使三元组抽取性能获得了显著提高。在联合抽取模型中,实体识别和关系分类同时进行,两个子任务之间的交互可以减轻模型偏差(也称曝光偏差exposure bias),提高抽取性能。Zheng等[12]提出了一种基于标记策略的端到端实体关系抽取模型,将实体和关系抽取转换为标记(分类)问题。Zeng等[1]提出了一种基于复制机制的端到端学习模型,将重叠的三元组分为三类并从各类句子中进行联合抽取。Dai等[2]提出了一种新的联合标签模型,从N个单词的语句中生成N个标签序列并利用位置注意机制对序列进行建模,最后基于CRF模型抽取关系三元组。Hamilton等[15]提出了 ETL-Span联合标记策略模型,通过标记头实体和不同关系尾实体来消除重叠问题。Wei等[3]提出了一种新的标记策略和解码方法CasRel,该方法首先使用主语标记器标记主语并将每个主语映射到N个<关系-宾语>序列中,然后使用标记器抽取宾语和关系。深度神经网络联合标注表现出较好的性能,但是对于复杂关系和重叠问题的探索仍有待进一步深化。

近年的研究中出现了基于图网络模型的三元组抽取方法。图网络模型是指在图上运行的深度网络,它为每个节点学习一个包含邻域信息的嵌入(节点通过边直接连接到目标节点)。这种嵌入往往用于解决如节点标记、节点预测、边预测等问题。图神经网络领域的经典模型有GCN,Graph Sample and Aggregate(GraphSAGE)[16]和GAT等。图网络模型有助于刻画抽象概念,例如实体之间的关系。在实体关系抽取时,实体和关系重叠是影响抽取效果的重要因素。但是关系重叠较为复杂和难以刻画,因此前人工作往往忽略这类问题。鉴于图网络具备刻画节点之间复杂关系并进行量化计算的能力,Fu等[4]提出了GraphRel来探索关系之间的相互联系并进行加权,以提升三元组抽取的性能。该文使用BILSTM(Bidirectional LSTM)模型抽取实体,使用关系加权GCN对命名实体与关系之间的交互进行建模,最后对实体对进行分类。GraphRel首次在实体和关系抽取任务中提出了实体和关系之间交互的问题。在两个公开数据集上都有较好的实验性能。但是GCN无法自适应地获取关系之间的相关性,与一些最新的非图网络方法相比,整体抽取性能还有待进一步提升。

因此在前人工作的启发下,本文提出了一种新的基于关系相关性建模的关系三元组抽取方法。在新的三元组抽取框架下利用GAT自适应地学习关系语义空间中关系之间的相关性,并获得较好的抽取性能。

3 方法论

本文提出一种新的实体关系联合抽取模型RCRel。从关系注意力和关系相似度的角度出发探索关系语义空间相关性来解决实体关系抽取中的重叠问题。本模型利用关系共现性预训练关系嵌入编码器,构建了一个关系编码器对关系进行编码。在GAT的基础上,引入关系嵌入改善注意力机制以更好地探索实体关系之间的相关性。

RCRel对象关系联合抽取模型的目标方程可以用如下最大似然函数L(D)描述。

假设训练集D包含所有句子和xi∈D。令Ti=s,o,r代表与句子xi对应的一组三元组。则

L(D)=∏|D|i=1[∏(s,o,r)∈Tip((s,o,r)|xi)]=∏|D|i=1[∏(s,o)∈Tip((s,o)|xi)∏r∈Ti|(s,o)p(r|(s,o),xi)]

=∏|D|i=1[∏(s,o)∈Tip((s,o)|xi)∏r∈Ti|(s,o)p(r|(s,o,xi)∏rTi|(s,o)p(r|(s,o,xi))](1)

本文将三元组分为两部分:關系r和(s,o),然后通过使用链式法则对其进行分解。公式(1)描述了一个新的联合抽取框架。它将三元组抽取分为两部分:实体抽取(EE)和关系抽取(RE)。基于该目标函数,本文提出的RCRel抽取方法由三个环节构成:首先,从句子中抽取所有实体。然后,将所有实体向量映射到关系语义空间,并通过图注意力网络建立不同关系子空间之间的相关性。最后,在不同的关系语义子空间中计算所有实体对之间的得分以获得关系三元组。本文模型的总体框架如图2所示:实体抽取过程中,由实体标记器标记并抽取3个候选实体(J:John,S:Sheffield,E:England)。关系语义空间中,候选实体嵌入和关系嵌入被投射到不同的关系语义空间中。然后,通过R-GAT将每个关系语义子空间中的实体向量融合,并分别映射为主语和宾语。最后,根据关系标记器计算得分来确定关系三元组。A67D4071-5767-49FE-868D-67CB7CFF2701

3.1 RCRel联合抽取模型

RCRel模型的整体结构如图2所示。

实体抽取:实体抽取是关系三元组抽取的基础。RCRel模型采用类似于CasRel的二元标记策略,但是一次性抽取所有实体。这样的改变使整个抽取过程更加完整并且避免信息丢失。实体抽取过程描述如下:将BERT获得的所有TOKEN的特征向量通过两个二元线性层,获取实体的头尾位置。标记公式如下

pheadi=σ(Wheadxi+bhead)(2)

ptaili=σ(Wtailxi+btail)(3)

关系语义空间:不同关系语义子空间下的实体之间也往往存在一定的相关性。如“John was born in Sheffield,a city of England.”这句话中,可以直接抽取出诸如(J-BornIn-S)和(J-PartOf-E)之类的三元组。因为一些实体或关系可以被重叠的三元组共享,所以三元组之间是存在某些语义联系的。可以利用这种语义联系做出一些合理的推断。例如,可以通过显式关系J-BornIn-S和J-PartOf-E推断出两个三元组(J-BornIn-E)和(J-Hometown-S)。因為“Sheffield”是“England”的一部分,而“Born in”与“Hometown”两个词关联度很高。

因此,为了探索实体关系之间的关系相关性,本文首先设计了新的实体抽取器和关系编码器来抽取实体并对关系进行嵌入编码。然后将实体嵌入和关系嵌入传入关系语义空间建模,从而捕捉不同实体在关系语义空间的相关性。本文将实体向量v*映射到不同的关系语义子空间

hji=Wivj(4)

其中hji表示第i个关系语义子空间下对应的j个实体的向量,而Wi表示与第i个关系语义子空间相对应的权重矩阵,vj表示与实体集中的第j个实体相对应的向量。

本文采用GAT对不同关系之间的相关性进行建模。GAT将相邻顶点的特征通过聚合运算汇集到中心顶点上,利用图上的邻域信息学习新的顶点特征表达。GAT通过自注意力机制学习到节点之间的权重关系,而无需像其他网络一样进行大规模全图计算或者提前知道邻域信息,使得模型的学习能力和推理能力大幅增强。假设Hj0-N=[hj0,hj1,…,hjN]表示不同关系子空间中第j 个实体的向量序列,其中N表示数据集中的关系数量。受Transformer的自注意力启发,本文在GAT的每一层之后添加了一层前馈神经网络(FFN),以增强模型的性能。此过程可以表示如下

Gj0-N=FNN(GAT(Hj0-n))(5)

其中Gj0-N=[gj0,gj1,…,gjN]表示GAT之后的Hj0-N向量序列。

本文将包含关系信息的实体向量分别映射成主语向量和宾语向量。然后在每个关系语义子空间中对主语向量和宾语向量进行配对。通过使用Sigmoid函数计算其内积来预测对应的关系。如果分数超过阈值,则在该关系语义子空间中找到对应关系三元组。该过程可用公式表示如下

ski=Wsigki+bsi(6)

oli=Woigli+boi(7)

Scorek,li=σ(ski·oli)(8)

其中ski表示第i个关系语义子空间中第k个主语的向量。Wsi是第i个关系的主语映射矩阵的权重,而bsi是偏置。类似地,oli表示第i个关系语义子空间中第l个宾语的向量。Woi和boi是宾语的矩阵权重和偏置。Scorek,li表示第i个关系语义子空间中第k个主语与第l个宾语的关系得分。由于同一实体不能在三元组中同时用作主语和宾语,本文对关系二元标记器中得分矩阵的对角线进行了遮蔽。

模型在处理前文所示例句“John was born in Sheffield, a city of England.” 时,在关系语义子空间Born in下,第0个主语John和第1个宾语Sheffield的关系得分大于阈值,因此可以抽取得到三元组。此处的分数来自Born in关系子空间下John和Sheffield的内积。通过GAT的注意力机制,相似的语义信息之间可以带来更高的权重。换句话说,三元组将改善三元组在关系标记器下的得分,因为它们彼此高度相关。

4 实验

为了验证和评估本文方法的有效性,本文与前人工作中性能较好和最新的多个模型进行了对比实验,并对实验结果进行了分析。按前人工作的惯例在两个常用的数据集NYT和WebNLG上进行了抽取性能准确性对比和本文方法消融实验。针对实体关系重叠问题进行了细分对比实验,验证本文方法在解决重叠问题方面的性能。

实验数据集:为了保证实验对比的公平性,我们使用两个最常用的基准数据集NYT[17]和WebNLG[18]进行实验。NYT数据集是学者使用远程监督方法在NYT-NEWS数据上制作的。它由11800个句子和24个预定义的关系类型组成。WebNLG数据网最初是为自然语言生成(NLG)任务创建的,被前人改编为关系三元组抽取任务的数据集。它包含246个预定义的关系类型。其中NYT包含用于训练的56195个句子,用于验证的5000个句子和用于测试的5000个句子,而WebNLG包含用于训练的5019个句子,用于验证的500个句子和用于测试的703个句子。本文将重叠的问题分为三类:SEO,EPO和Muilt。在NYT和WebNLG中,分别有大约34.1 和67.8 的重叠关系以及34.5 和65.4 的共现关系。这两个数据集包含大量具有相关性的关系三元组,可以用来验证本文的想法。NYT和WebNLG的统计信息,如表1所示。A67D4071-5767-49FE-868D-67CB7CFF2701

实验设置:在编码器部分,使用Bert-base-cased。通过最小化损失函数来优化模型,并使用AdamW随机梯度下降梯度优化算法和shuffle mini-batch方法来训练模型。主要的超参数设置如下:batch-size=16,学习率=1e-5,GAT层数=4,以及λ=N,其中N代表数据集中关系的数量。使用NVIDIA RTX3090作为训练GPU。在NYT和WebNLG数据集上分别训练了15个小时和3.5个小时之后,选择了具有最优的模型参数用于评估测试集。

评估指标:参照前人工作中常用的评估指标和约定。当且仅当主语、关系和宾语都正确时,才认为抽取的三元组是正确的。使用标准的Precision,Recall和F1分数来评估模型的效果,

模型综合预测性能的体现由F1分数反映。

实验结果:表2给出用于比较的基线模型分别为NovelTagging[12], CopyR[1],GraphRel[4],ETL-span[2],CasRel[3]和TPLinker[18]。在NYT数据集及WebNLG数据集上,RCRel优于以前的最优方法。具体来说,在两个数据集的综合表现上,RCRel均分别超过了之前最优模型CasRel和TPLinker。

對实验结果的分析如下:

(1)在每一轮训练中,CasRel一次只能处理一个主语对应的一个随机关系三元组。显然会造成上下文信息丢失。当三元组的数目很大时,抽取句子中信息的操作显著增加,进一步导致性能下降。

(2)当一个句子中有更多的三元组时,实体与关系之间的关联会变得更加复杂,CasRel不能有效的抽取隐式关系。

本文的RCRel框架更加合理,可以一次性处理一个句子中的所有三元组信息,并通过语义推断获得额外信息。因此,即使一个句子里的三元组的数量较多,RCRel的性能也不会下降。

消融实验:为了验证GAT模块的重要性,本文设置了不同的GAT层数进行消融实验。表3显示了消融实验的结果。随着GAT的层数从0增加到4,模型的F1分数从91.5%增加到92.7%。当层数增加到8时,F1分数降低到92.1%。该现象表明当层数增加时,三元组之间可以通过GAT交换更多的信息,从而使模型的性能更好。随着层数不断增加,模型会吸收一些不相关的信息导致模型性能退化。

重叠问题对比实验:为验证RCRel处理重叠问题的能力,本文在NYT和WebNLG数据集上开展进一步实验,将数据集划分为不同的子数据集,用于评估不同的重叠问题:(1)根据句子中包含的三元组类型,将数据集分为三个子数据集:Normal、SEO和EPO。(2)根据句子中包含的三元组数,将数据集分为5个子数据集:分别对应句子中包含1、2、…、5(及以上)个三元组。本文将不同类别的数据集用于测评和对比,实验结果如表4所示。对于此三类问题,RCRel在大多数情况下都优于CasRel。在SEO及EPO的情况下,RCRel在NYT和WebNLG上皆超过了CasRel。根据不同三元组数的实验结果,RCRel在每种情况下也优于以前的模型。通过比较RCRel和其他模型的结果,可以发现本文方法主要在SEO、EPO 和包含较多关系的句子抽取情况下获得了更多的改进。这些实验结果表明,本文提出的RCRel能够更好地处理重叠和复杂句子问题,并表现出更高的抽取性能。

5 结论与启示

本文提出一个新的端到端实体关系三元组联合抽取框架RCRel,通过探索不同关系语义子空间之间的相关性来提高实体关系抽取的性能。该模型将实体对映射到不同的关系语义子空间,利用关系相关来解决重叠问题并获得较好的抽取性能。实验验证显示RCRel在两个公共数据集上达到了最优的抽取效果,进一步证明了三元组关系重叠问题可以加以利用,即通过发掘其相关性来帮助模型改善性能。当然本文提出的模型依然存在一些问题,如缺乏自适应能力,模型结构以及参数量的设计需要根据不同数量的关系作相应的调整。因此在处理大量关系抽取问题时需要进一步改进模型。本文进一步的优化工作可能涉及以下方面:(1)使用模型蒸馏技术,优化模型的参数量与计算量,加速训练和推理。(2)改进模型结构以针对更复杂的关系情况,提升模型的泛化能力和鲁棒性。(3)获取更多的高质量训练数据,提升模型的精度。未来将探索如何引入先验的实体关系语义知识来增强模型的性能。

参 考 文 献:

[1]Zeng X, Zeng D, He S, et al.. Extracting relational facts by an end-to-end neural model with copy mechanism[A]. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Melbourne, 2018. 506-514.

[2]Dai D, Xiao X, Lyu Y, et al.. Joint extraction of entities and overlapping relations using position-attentive sequence labeling[A]. Proceedings of the AAAI Conference on Artificial Intelligence[C]. AAAI Press, Honolulu, 2019. 6300-6308.

[3]Wei Z, Su J, Wang Y, et al.. A novel cascade binary tagging framework for relational triple extraction[A]. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, acl2020.org, 2020.1476-1488.A67D4071-5767-49FE-868D-67CB7CFF2701

[4]Fu T J, Li P H, Ma W Y, et al.. GraphRel: modeling text as relational graphs for joint entity and relation extraction[A]. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Florence, 2019.1409-1418.

[5]Zelenko D, Aone C, Richardella A. Kernel methods for relation extraction[J]. Journal of Machine Learning Research, 2003, 3: 1083-1106.

[6]Zhou G, Su J, Zhang J, et al.. Exploring various knowledge in relation extraction[A]. Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Michigan, 2005.427-434.

[7]Chan Y S, Roth D. Exploiting syntactico-semantic structures for relation extraction[A]. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Portland, 2011.551-560.

[8]Yu X, Lam W. Jointly identifying entities and extracting relations in encyclopedia text via a graphical model approach

[A]. The 23rd International Conference on Computational Linguistics[C]. Tsinghua University Press, Beijing, 2010.1399-1407.

[9]Li Q, Ji H. Incremental joint extraction of entity mentions and relations[A]. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Baltimore, 2014.402-412.

[10]Miwa M, Sasaki Y. Modeling joint entity and relation extraction with table representation[A]. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing[C]. EMNLP Press, Doha, 2014.1858-1869.

[11]Ren X, Wu Z, He W, et al.. CoType: joint extraction of typed entities and relations with knowledge bases[A]. Proceedings of the 26th International Conference on World Wide Web[C]. WWW Press, Perth, 2017.1015-1024.

[12]Zheng S, Wang F, Bao H, et al.. Joint extraction of entities and relations based on a novel tagging scheme[A]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Vancouver, 2017.1227-1236.

[13]Gupta P, Schütze H, Andrassy B, et al.. Table filling multi-task recurrent neural network for joint entity and relation extraction[A]. The 26th International Conference on Computational Linguistics: Technical Papers[C]. COLING Press, Osaka, 2016. 2537-2547.

[14]Katiyar A, Cardie C. Going out on a limb: joint extraction of entity mentions and relations without dependency trees[A]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Vancouver, 2017.917-928.

[15]Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[J]. arXiv: 1706. 02216, 2017.

[16]Riedel S, Yao L, McCallum A, et al.. Modeling relations and their mentions without labeled text[A]. Joint European Conference on Machine Learning and Knowledge Discovery in Databases[C]. KDD Press, Springer, 2010. 148-163.

[17]Gardent C, Shimorina A, Narayan S, et al.. Creating training corpora for nlg micro-planning[A]. The 55th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Vancouver, 2017. 179-188.

[18]Wang Y, Yu B, Zhang Y, et al.. TPLinker: single-stage joint extraction of entities and relations through token pair linking[A]. Proceedings of the 28th International Conference on Computational Linguistics[C]. COLING Press, Barcelona, 2020.1572-1582.A67D4071-5767-49FE-868D-67CB7CFF2701