基于ALBERT+BiLSTM+CRF的事件抽取模型

2022-06-09 00:59张昊洋

黑龙江科技大学学报 2022年3期

韩娜，张昊洋

(黑龙江科技大学计算机与信息工程学院，哈尔滨 150022)

0 引言

目前，事件抽取是自然语言处理研究的热点和难点。事件抽取是从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息并以结构化的形式表示[1]。事件抽取得到的优质结构化知识信息，能指导智能模型进行深层次的事物理解和精准的任务查询及一定的逻辑推理[2]。事件抽取在信息收集、信息检索、文档合成和金融趋势预测[3]等方面有着广泛应用。事件被自动内容抽取(Automatic content extraction, ACE)国际评测会议定义为：发生在某个特定时间点或时间段，某个特定地域范围内，由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变[4]。事件抽取的技术方法可以分为基于模式匹配的方法和基于机器学习方法两大类，前者需要在特定模式指导下进行事件识别和抽取，在特定领域表现出色；而后者将深度学习和神经网络作为主要手段，成为目前的主流研究方向。Feng等[5]提出用双向长短期记忆网络进行事件监测，但没有研究事件元素的抽取方法。Nguyen等[6]利用双向LSTM抽取句子的语义特征，联合句子结构特征同时抽取事件触发词和事件元素。Zeng等[7]使用双向长短期记忆网络和条件随机场抽取句子特征，结合卷积神经网络抽取上下文语义特征完成中文事件抽取，提高了性能。武国亮等[8]提出了基于命名实体识别任务反馈增强的中文突发事件抽取方法，以解决多任务联合学习产生的损失不平衡问题。季忠祥等[9]采用CNN-BiLSTM-CRF模型抽取中文事件。刘辉熊[10]抽取研究了特定的司法数据事件和生物医学事件。上述学者或是仅关注事件抽取的某个子任务，或是针对特定领域事件进行抽取，对通用事件抽取任务的效果无法评价。而针对中文事件的事件抽取模型则未能考虑模型的开销、性能和算力等方面的平衡，且测试数据集(ACE、CEC[9])规模相对较小，在大规模数据集上应用效果不明确。

针对现有研究的不足，笔者提出基于ALBERT+BiLSTM+CRF的事件抽取模型，通过与多种模型进行对比实验，验证其在大规模中文事件抽取中的有效性。

1 ALBERT+BiLSTM+CRF的事件抽取

1.1 事件抽取

事件抽取按照ACE的定义包含事件触发词和事件元素等子任务。事件抽取通常基于事件触发词识别出文本中的事件和事件类型，并进一步从事件中识别出事件元素并确定元素角色，事件抽取依赖于命名实体识别、关系抽取等底层自然语言处理任务的结果，同时，还需要结合上下文的语义分析才能完成。

随着语料数量的增加和机器计算能力的提高，事件抽取越来越多采用深度学习的各类模型，尤其是预训练语言模型BERT[11]、RoBERT[12]和ALBERT[13]的提出推动了事件抽取的研究和发展。事件抽取可以分为由触发词识别，以及由事件类型分类构成的事件识别。事件元素(论元)识别和角色分类组成了角色分类的两个子任务。按照事件抽取子任务，文中拟采取联合标注策略，利用ALBERT作为编码器，同时，识别事件元素及其对应事件类型，并在大规模中文数据集DuEE上进行实验，验证模型的有效性。

1.2 ALBERT+BiLSTM+CRF模型构建

文中提出的ALBERT+BiLSTM+CRF模型结构如图1所示。模型由三个层次构成，ALBERT层将输入的文本经过预训练生成词向量，将得到的词向量作为BiLSTM层的输入。通过BiLSTM层双向训练，提取特征信息，经过CRF层确定全局最优序列。

ALBERT层中使用多层的Transformer Encoder模型(图1中简写为Trm)，通过注意力机制将任意位置的两个单词的距离转换成1。

图1 ALBERT+BiLSTM+CRF模型Fig. 1 ALBERT+BiLSTM+CRF Model

ALBERT预训练模型

2018年，Google团队结合不同语言模型的优点，提出BERT模型[11-12]，该模型在命名实体识别等11个NLP任务上取得了最好效果。该模型基于双向Transformer Encoder神经网络编码器构建，增强了预训练词向量的泛化能力，解决了一词多义的问题。但BERT模型中词嵌入参数E与隐层大小H相等，实际词汇表的大小V很大，导致出现模型训练时间过长，算力要求过高的问题。2019年，Google实验室的Lan等[13]提出了ALBERT(A Lite BERT)预训练语言模型，在维持性能的前提下，获得了更好的模型扩展性。

为控制BERT中参数规模问题，ALBERT从减少模型参数量的角度进行了改进，模型示意如图2所示。

图2 ALBERT模型Fig. 2 ALBERT model

ALBERT模型通过因式分解以达到减少参数的目标，即将嵌入词矩阵的维度先映射到大小为E的低维度空间，然后通过高维映射变换到隐藏层的方式，既保证了与上下文相关的隐层大小H增大，又使整体的复杂度从O(V×H)降低到O(V×E+E×H)的目的。同时，ALBERT实现了全连接层与注意力层之间全部参数的共享策略，即将全连接层和注意力层间的参数减为单头，压缩了参数总量。减少参数的同时，为了保证性能不变甚至更优，ALBERT引入了一个自监督损失函数，提出用SOP取代NSP，保证模型学习时关注句子的连贯性，以实现下一句预测任务更加符合实际情况。

BiLSTM+ CRF 特征提取

H=[h1,h2,…,hn] 。

(1)

由式(1)可知，H中的每一行hi都代表将前向和后向的隐向量拼接得到的句子特征。

由于BiLSTM没有考虑标签间的关联性，所以需要在BiLSTM的输出层加上一个CRF(条件随机场)模型，利用CRF中的转移矩阵表示标签间的相关性。对BiLSTM输出的给定句子x，其标签序列为y的概率为

(2)

s=∑iPE(xi,yi)+PT(yi-1,yi)，

(3)

式中：PE——发射概率，即BiLSTM输出的概率；

PT——对应CRF转移概率，即转移矩阵对应的数值。

2 实验结果与分析

2.1 数据集选择及评价方法

事件抽取模型的验证需要事件抽取数据集的支撑，目前，使用比较广泛的数据集包括ACE 2005、TAC KBP和中文突发事件语料库(CEC)。ACE 2005是多语言语料库，包含英语、阿拉伯语和中文数据，使用最广泛；TAC KBP也提供英语、西班牙语和中文数据。CEC是专门为中文事件抽取设计的涵盖五种突发事件类型的小数据集。上述数据集规模均相对较小，大规模数据集相对匮乏。在此基础上，百度公司推出了由19 640个事件组成的DuEE数据集[16]，该数据集可以映射到121个论元角色，包含41 520个事件论元。该数据集划分了65种事件类型，由人工众包审核的方式完成标注，保证其标注准确率高于95%，数据来源于百度搜索的热门话题，更接近真实世界场景。由于该数据集规模、数据质量和对中文的支持程度都优于常用的数据集，故文中使用DuEE作为实验数据集，该数据集以事件为例，训练集、测试集、验证集的占比分别为69%、22%和9%。具体标注示例如下：

文本实例 8月20日消息，据腾讯新闻《一线》报道，知情人士表示，为了控制成本支出，蔚来计划将美国分公司的人员规模除自动驾驶业务相关人员外，减少至200人左右。截至美国时间8月16日，蔚来位于美国硅谷的分公司已裁减100名员工。

标注结果 [ {

"event_type": "组织关系-裁员",

"trigger": "裁减",

"arguments": [

{ "role": "时间",

"argument": "8月16日"},

{"role": "裁员方",

"argument": "蔚来"},

{ "role": "裁员人数",

"argument": "100名员工"} ]

class": "组织关系"

} ]。

实例标注了事件类型(event_type)、事件触发词(trigger)、事件关系(class)和事件的论元列表(arguments)。事件论元列表中根据事件关系标识出特定事件类型中的论元，如本示例中标识出事件的时间、事件的参与方(裁员方和裁员人数)。

事件抽取的评价方法一般采用正确率P、召回率R和F1值，三者的计算公式为

(4)

(5)

(6)

式中：Tp——正确抽取的事件个数；

Fp——将负例事件预测为正确事件的个数；

Fn——将正确事件预测为负例事件(即未抽取出事件)的个数。

3个评价指标数值越高，代表模型性能越好。

2.2 实验环境和模型参数

本实验环境配置为Ubuntu18.04.5的Linux操作系统，GPU为Tesla K80。实验中batch_size设置为16，epochs为10，采用adam作为优化器，ALBERT模型编码向量为128，隐藏层的大小为1 024，学习率为1×10-3。

2.3 实验结果与对比

实验采用DuEE数据集进行事件抽取的训练，多轮训练后在对应测试集上进行测试。以事件抽取的时间、地点、触发词和论元为评测对象，实验结果如表1所示。

表1 事件抽取模型实验结果Table 1 Experiment results of Event Extraction model

从表1可以看出，事件元素地点F1值最高，其次是触发词和时间。论元的F1值相对较低。通过分析数据集可以发现，地点和触发词在标注集中相对比较完善和具体，出现次数较多，而论元在不同的事件中其语法相对复杂，且种类丰富多样，导致论元的F1值偏低。

目前事件抽取模型主要仍以深度学习和神经网络为主。本模型的预训练模型采用ALBERT，特征抽取采用BiLSTM+CRF完成。为了对比本模型在事件抽取中的有效性，选择RoBERT替换ALBERT，特征提取则用循环神经网络模型变体BiGRU替换BiLSTM，结合CRF完成。对比模型中的RoBERT是BERT到ALBERT发展过程中的改进模型。由于事件抽取过程中对多个时间、地点、触发词和论元进行多要素评价，这里采用个模型的宏平均值进行比较说明。宏平均是对每个模型中所有不同类型评价要素统计其指标，再计算所有类的算术平均值。本模型与其他模型在事件抽取中的实验结果对比如表2所示。

表2 不同事件抽取模型实验结果对比Table 2 Comparison of experimental results of different event extraction models

由表2可知，在事件抽取中，特征提取使用BiGRU+CRF的两个模型(②和③)其F1值均低于使用BiLSTM+CRF的模型；特征提取为BiLSTM+CRF的模型(①和④)效果更好，究其原因是减少了人为干预，同时保证模型输出的标签序列最优，从而增加准确率。在预训练模型RoBERT(①)和ALBERT(④)的模型实验结果中，可以看出模型④的准确率远高于模型①，但召回率则是模型①略高于模型④，最终模型④的F1值比模型①高一个百分点。综合来看，文中采用的模型④仍然是多个不同模型中的最优算法。

3 结论

文中提出以训练语言模型ALBERT作为编码器，通过对事件句子进行标注，使用BiLSTM与CRF结合句子特征提取并获得最优序列的方式完成中文事件抽取模型。文中提出的模型在大规模中文事件抽取数据集DuEE上F1值为85.7%，表明了该方案的有效性。但本模型仅在句子级别的事件抽取中有较好的效果，下一步需要研究如何将其应用到篇章级文本的事件抽取中。