基于多重注意力的金融事件大数据精准画像

2021-07-22 17:02陈剑南杜军平寇菲菲
计算机与生活 2021年7期
关键词:短时记忆向量实体

陈剑南,杜军平,薛 哲,寇菲菲

北京邮电大学 智能通信软件与多媒体北京市重点实验室,计算机学院,北京 100876

随着经济生活的不断发展,金融事件数据开始大量累积,金融事件时刻影响着人们的生活与发展。如何从这些海量的金融事件数据中找到蕴含的潜在规律,并对金融事件大数据信息进行科学分析是一个重要的问题。金融事件大数据的精准画像是解决该问题的有效手段。金融领域交叉现象突出,金融领域与计算机领域的交叉,使得可以利用大数据处理的技术来解决金融领域所出现的大数据难题。随着知识图谱技术的兴起,大数据画像技术有了较大发展。利用知识图谱的技术可以对大数据信息进行数据挖掘,同时利用知识图谱技术构建金融事件的精准画像,从而将金融事件文本数据转换为图结构数据,这样可以通过精准画像来从海量金融数据中获取重要的信息,掌握金融事件的发展规律,为之后处理金融相关的业务提供重要的信息支持。作为知识图谱构建的关键技术,实体的关系提取一直是自然语言处理中的重点。在金融事件大数据中,存在着实体关系种类复杂繁多、中文金融事件大数据特征松散等问题。针对以上问题,本文进行了深入的研究与实验。

基于中文金融事件大数据的特点以及知识图谱构建中的关键技术,本文提出基于多重注意力的金融事件大数据实体关系抽取算法(financial event big data entity relationship extraction algorithm based on multiple attention mechanism,REMA)来进行金融事件大数据实体关系的抽取,并利用所提取的实体关系属性来构建金融事件大数据的知识图谱,从而完成金融事件大数据的精准画像。

本文的主要贡献如下:

(1)充分利用了实体关系抽取任务的特点,加入了文本与实体对之间的位置特征信息,使得特征提取更加充分,提升关系抽取的准确率。

(2)利用字级别的注意力机制与句子级别的注意力机制相结合,通过多重注意力机制来提升实体关系抽取的准确率。

(3)利用实体关系的抽取来对金融事件大数据进行精准画像。

1 相关工作

对于实体关系抽取的研究,国内外学者做了大量的工作。实体关系抽取通常作为分类任务来进行处理,同时实体关系抽取一般被分为有监督、半监督、弱监督和无监督四种类型[1-4]。文献[5]利用Bootstrapping 方法对实体关系进行相应的抽取。文献[6]提出使用弱监督的方法进行实体关系的提取,这样在非结构化数据集上取得了较好的效果。文献[7]利用了基于矩阵分解的无监督算法来进行实体关系抽取,突破了数据格式的束缚。但传统方法对于数据集的依赖比较大,导致误差并不稳定。随着深度学习的迅速发展,实体关系的抽取方法得到极大的改进。文献[8]首次引入了卷积神经网络(convolutional neural network,CNN)利用分类的思想进行实体关系的抽取,借用了卷积网络的优点充分抽取文本数据的特征。文献[9]结合实体关系抽取任务的特点将句子按照实体对进行分割并进行池化操作,从而能够提取更多上下文特征。文献[10]则利用残差网络进行文本信息深度特征提取,从而提升关系抽取的效果。文献[11]则引入注意力机制,并利用双向长短时记忆网络进行联合训练,实验表明这种算法在有监督训练下取得不错效果。文献[12]利用不同尺度的卷积核对文本数据进行特征抽取,从而提升实现实体关系提取的效果。文献[13]则利用双向长短时记忆网络提取文本句子的特征依赖关系。文献[14]则使用了参数共享的方法进行深度特征的提取,在相应数据集上取得不错的效果。文献[15]则是将实体关系抽取问题转换为一个序列标注问题,利用深度神经网络模型进行三元组抽取。

本文提出的基于多重注意力的金融事件大数据实体关系抽取算法在双向长短时记忆网络的基础上,充分利用了实体关系提取任务的特点,通过文本位置特征来增强文本特征向量的深度提取,同时利用了字级别的注意力机制以及句子级别的注意力机制来构建多重注意力机制,从而提取了文本信息的潜在特征。该算法解决了有监督中文实体关系抽取中准确率较低的问题。

2 基于多重注意力的实体关系抽取算法

本章主要介绍基于多重注意力的实体关系抽取算法的结构。

2.1 REMA 算法的结构

实体关系抽取作为自然语言处理的一个重要研究内容,是利用相关的算法从文本数据中抽取出实体对之间的潜在关系。其中实体关系可以表示为一个三元组。其中e1与e2表示文本中的两个实体,r表示两个实体之间的关系,实体关系抽取就是从文本中抽取这样的三元组信息,从而分析文本信息。

本文提出一种基于多重注意力的金融事件大数据中实体关系抽取的算法。如图1 所示,模型的结构分为向量表示层(embedding layer)、双向长短时记忆层(bidirectional long short-term memory layer)与多重注意力机制层(multiple attention layer)。具体而言,向量表示层融合了文本数据的向量特征以及文本中字与相应的两个实体名距离的位置特征,该层作为整个系统结构的输入层。双向长短时记忆层则是利用双向长短时记忆网络来提取文本上下文信息的特征,这种网络结构能够解决长文本信息中出现的长距离依赖的问题。多重注意力机制层则是利用字节别注意力机制以及句子级别注意力机制来更好地提取关键文本的权重特征,这样能够充分考虑到文本信息中对于该文本中实体关系抽取结果的影响因素。下面将详细描述每层的具体功能与实现原理。

Fig.1 Financial events entity relationship extraction with multiple attention mechanism图1 基于多重注意力的金融事件实体关系抽取

2.2 金融事件大数据向量表示层

本层网络中的向量由两部分组成,分别是词嵌入向量与位置信息向量,其向量作为双向长短时记忆网络层的输入向量。对于词嵌入向量,其中一个文本句子由多个汉字组成,这样可以描述为Sen=[w1,w2,…,wn],其中wi表示句子中的第i个汉字,n表示该句子由n个汉字组成。对于每个汉字wi根据初始化结果可以得到其相应的词嵌入向量Word=[v1,v2,…,vm],这样对于金融大数据文本中的句子可以得到一个词嵌入向量矩阵,如式(1)所示。

根据实体关系抽取的特点,可以从文本句子中根据每个汉字与该句子两个实体名的距离来提取该句子的位置信息。其中wi与wj为该句子中两个实体名,则对于该句子中第k个汉字wk其位置信息可以表示为式(2)所示。

其中,posik表示第k个汉字与第i个汉字在该句子中的位置关系。对于一个句子中n个汉字,通过结合式(2)融合位置特征,则得到如式(3)所示的特征向量。

其中,m为句子中汉字的词嵌入向量特征的长度,k为句子中汉字的位置词嵌入向量的特征长度。通过以上方法可以得到相应的双向长短时记忆网络层的输入向量。

2.3 金融事件大数据双向长短时记忆网络层

金融事件大数据双向长短时记忆网络是通过双向长短时记忆网络来处理金融事件大数据文本中出现长时间依赖的问题。其中长短时记忆网络(long short-term memory,LSTM)对于该问题有很好的处理效果,其基本结构如图2 所示。长短时记忆网络模型在隐藏层引入了相应的记忆单元,这样有效解决了数据在长时间范围内的相互依赖。在长短时记忆网络基础上,本文引入双向长短时记忆网络的技术,这也是本文所提出的REMA 方法的重要组成部分,通过前向时序以及后向时序的长短时记忆网络提取金融事件大数据的上下文特征信息。

Fig.2 Structure of long short-term memory network model图2 长短时记忆网络模型结构图

如图2 所示,ht-1为上一个长短时记忆网络单元的隐藏层的输出结果;Ct-1则是上次一个长短时记忆网络单元的状态结果;xt则是本文的字向量输入结果;ft为遗忘门的输出结果,其中σ为sigmoid激活函数;it与则为输入门的输出结果,其中tanh 为激活函数;ot为输出门的输出结果;Ct为当前单元的状态值;ht为当前单元的隐藏层的输出。整个长短时记忆网络输出结果如式(4)所示。

2.4 金融事件大数据多重注意力机制层

注意力机制是一种对于不同区域数据进行权重分配的机制,其特点是通过选择性地对某些信息进行关注,从而更好地进行信息特征的提取。本文利用注意力机制的主要作用是计算不同汉字以及不同句子对于实体关系分类结果的权重值来提升金融大数据实体关系的抽取效果。对于本文所使用的多重注意力机制算法是将字级别的注意力机制与句子级别的注意力机制进行融合,这两种注意力机制均是基于“QKV”模型进行优化,该模型如图3 所示。

Fig.3 Attention mechanism structure diagram图3 注意力机制结构图

对于该模型其中Query 矩阵是一个由均匀分布进行随机采样的向量矩阵queryk×1,其中k为双向长短时记忆网络隐藏层的输出向量维度,而Key 矩阵是一个由句子中的中文分词的词向量所生成的特征矩阵,Value 矩阵则是一个由双向长短时记忆网络隐藏层输出向量组成的矩阵,由此可以得到实体关系抽取中的字级别注意力输出向量,如式(6)、式(7)所示。

其中,softmax 函数是用来进行向量归一化的操作;key_wordn×k为字级别注意力机制的Key 向量矩阵;query_wordk×1为字级别注意力机制中Query 向量矩阵;att_w_wordn×1为句子级别注意力机制的权重值,针对双向长短时记忆网络隐藏层输出的n维向量的权重分布;value_wordn×k为双向长短时记忆网络隐藏层的输出向量矩阵;att_r_wordk×1则是字级别注意力机制的输出向量矩阵。

通过字级别注意力层处理后已经获取了句子中不同汉字对于关系抽取分类结果的权重值,接着利用实体关系抽取的特点——同一个实体对以及实体关系分类结果可能存在于多个句子中。根据这个特点可以对该实体对以及标签在多个句子中进行权重计算,最终确定每个句子对于最终结果标签的分类权重值。同一个实体对以及相应的关系标签存在于m个句子中,句子级别的特征输入向量为valuem×k,即Value 矩阵特征向量。句子级别的注意力机制中的Key 矩阵向量是利用valuem×k进行线性变化得到的,这样直接继承字级别的输出向量的特征,同时根据式(6)、式(7),可以得到句子级别的注意力机制的输出特征,如式(8)、式(9)所示。

其中,sen_ak是用作线性变化的向量矩阵;value_senm×k为字级别注意力机制输出的向量矩阵,同时为句子级别注意力机制的输入向量矩阵;query_senk×1为句子级别注意力机制中的Query矩阵;att_w_senm×1为句子级别注意力机制中的句子权重分类的权值;att_r_senk×1为句子级别注意力机制的输出向量矩阵。

通过多重注意力机制层输出的特征向量经过softmax 网络即得到实体关系分类结果特征。

3 实验与结果

本章详细描述REMA 实验结果以及结果分析情况。

3.1 实验评价指标

本实验使用准确率(precision)、召回率(recall)以及F1 值(F1-score)作为金融大数据实体关系抽取的对比实验的评价指标。其中评价指标的判别情况如表1 所示。

Table 1 Evaluation index discrimination table表1 评价指标判别表

表1 中,TP 表示实际为真,同时预测为真的个数;FP 表示实际为假,但是预测为真的个数(即为误差率);FN 表示实际为真,但预测为假的个数(即为漏报率);TN 表示实际为假,但是预测为假的个数。模型的准确率、召回率和F1 值的计算公式如式(10)、式(11)、式(12)所示。

3.2 实验评价指标REMA 实验数据集

本文从“新浪新闻”“腾讯新闻”“凤凰新闻”“网易新闻”等互联网新闻平台爬取金融版块的金融事件新闻文本数据,并且将新闻文本按事件话题进行分类,分别抽取“中美贸易战”“沙特俄罗斯石油争端”“经济危机”等金融事件,同时将新闻数据文本切分为句子形式。使用的数据集包括训练集与测试集两部分,训练集大小比测试集大小为8∶2,其中训练集包括160 000个金融事件的句子,测试集包括40 000个金融事件句子,对金融事件句子进行相应的标注,每句子包含两个实体名以及一个关系,其中金融事件大数据中实体关系总共分为12 个类别。其数据集的详细分布如表2 所示,金融事件大数据实体关系类别的分布如表3 所示。其中训练集与测试集中标签占比基本一致,保证数据的一致性。

Table 2 Data set corpus structure表2 数据集分布情况

3.3 REMA 实验参数设置

对于REMA 网络框架,其中原始文本的字嵌入向量的长度设置为70 维,第一个位置信息嵌入向量为5 维,第二个位置信息嵌入向量为5 维,字级别注意力机制向量权重维度为128 维,句子级别注意力机制向量权重维度与句子数量相等,而对于双向长短时记忆网络隐藏层的输出维度为128 维。模型训练的batch_size 的大小设置为64,学习率设置为0.001,训练时dropout 设置为0.5。双向长短时记忆网络中隐藏层输出的激活函数使用tanh 函数,优化器选用Adam。

Table 3 Entity relationship classification表3 实体关系分类情况

3.4 REMA 实验和结果

本节使用准确率、召回率以及F1 值等指标对金融事件数据集进行实体关系抽取的效果的评价,详细对不同方法进行实体关系抽取进行对比。本文分别使用CNN、CNN+ATT、BLSTM、BLSTM+ATT 这四种方式进行对比实验,实验结果如表4 所示。

Table 4 Comparative experimental results of REMA on financial event dataset表4 REMA 在金融事件数据集上的对比实验结果

从表4 可以明显看出,本文所提出的REMA 方法在实体关系抽取中的性能要优于其他的对比实验中的方法。CNN 是一种利用卷积神经网络进行关系分类的算法,利用字嵌入矩阵获取句子的特征向量,然后作为输入投入到卷积神经网络进行有监督的分类训练。CNN+ATT 是在利用卷积神经网络的基础上加入注意力机制进行句子文本特征的提取,因此其效果要好于普通的CNN 算法。BLSTM 对于类似于文本序列这种动态的序列问题的处理有着较好的效果,BLSTM 可以从序列的前向与后向获取特征信息,这样能够较好地获取到文本上下文特征。在BLSTM的基础上引入注意力机制,则是增强文本语义提取的效果,提升了模型的整体性能。本文所提出的REMA 算法则是在文本信息中增加了位置信息,同时除了字级别的注意力机制外,还结合了句子级别的注意力机制,故模型整体效果更好,其准确率提升了5.6 个百分点,召回率提升了4.6 个百分点,F1 值提升了5 个百分点。

3.5 REMA参数对于模型性能影响实验与结果

REMA 方法的主要训练参数的一个批次投入训练的句子数量即batch_size的取值以及双向长短时记忆网络隐藏层的输出维度大小即blstm_size 的取值。本文在金融事件数据集下分别进行这两个参数的对比实验,并根据准确率(precision)、召回率(recall)以及F1-score 这三个指标进行比较,实验结果分别如图4 与图5 所示。其中batch_size 的取值分别是32、64、96、128、160,而blstm_size 分别为16、32、64、128、256、512。

Fig.4 Effect of model parameter batch_size on REMA图4 REMA 模型参数batch_size对于模型性能的影响情况

Fig.5 Effect of model parameter blstm_size on REMA图5 REMA 模型参数blstm_size对于模型性能的影响情况

Fig.6 Big data portrait results of Sino-US trade war financial events图6 中美贸易战金融事件大数据画像结果

图4 中,从准确率、召回率以及F1 值这三个指标来看,batch_size 对于整个模型在实体关系抽取的效果的影响并不明显,从batch_size 为32 到batch_size为160 这个过程中的F1 值提升不到1 个百分点。

如图5 从F1 值可以发现,双向长短时记忆网络隐藏层的维度为256 时效果最好。同时,从双向长短时记忆网络隐藏层的维度为16 到双向长短时记忆网络隐藏层的维度为512 的测试过程可以看出,一开始双向长短时记忆网络隐藏层的维度增加时,模型的整体效果也随之提升,但当双向长短时记忆网络隐藏层的维度为256 时效果达到峰值,随着双向长短时记忆网络隐藏层的维度继续增长,模型的效果会有所下降。

3.6 金融事件大数据画像实验和结果

利用基于多重注意力的实体关系抽取算法来获取金融事件大数据的实体关系,并利用Neo4j 图数据库进行金融事件大数据的知识图谱的构建,从而进行金融事件大数据的精准画像,本节选取了数据集中有关“中美贸易战事件”的金融数据集,根据本文所提出的算法提取实体对之间的关系,并最后利用Neo4j 图数据库模型进行知识图谱的构建并完成画像。图6 是“中美贸易战”金融事件大数据精准画像的结果。

4 总结

本文提出了基于多重注意力的金融事件大数据实体关系抽取算法(REMA)。在双向长短时记忆网络的基础上,利用实体关系抽取任务的特点同时结合多重注意力机制思想,引入字级别的注意力机制以及句子级别的注意力机制,其中前者利用了中文文本中不同汉字对于实体关系抽取的结果的权重值,后者则是利用了不同句子对于实体关系抽取结果的权重值。REMA 算法模型分为特征表示层、双向长短时记忆网络层、多重注意力机制层。通过REMA 算法可以对金融事件大数据文本中的实体关系信息进行有效提取,实验表明REMA 算法在金融事件数据集中进行实体关系抽取有着更高的准确率、召回率以及F1 值。利用提取的金融事件实体关系结果结合知识图谱技术可以对金融事件大数据进行精准画像,从而直观详细地了解事件发展的态势以及相关的事件属性关系,并为人们进行金融决策提供良好的数据支撑。

猜你喜欢
短时记忆向量实体
向量的分解
知识图谱的候选实体搜索与排序①
实体书店步入复兴期?
2017实体经济领军者
从认知心理学角度浅谈口译中的短时记忆
吉林大学考古与艺术博物馆观众短时记忆调查报告
英语听力理解与短时记忆
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
初中生认知能力对学业成就的影响