基于注意力双层BiReGU模型的方面术语提取方法

2021-11-26 07:22赵丽华王春立初钰凤
计算机工程与应用 2021年22期
关键词:术语注意力单词

赵丽华,王春立,初钰凤

大连海事大学 信息科学技术学院,辽宁 大连116026

随着社交媒体和在线论坛的发展,以及京东和淘宝等在线交易方式的日益普及,越来越多的消费者开始评论他们通过在线论坛、社交媒体网站和其他渠道所购买的产品。提取评论中的观点和情感词,可以帮助消费者提前了解商家的产品质量或服务,也可以帮助商家准确、客观地获得大量的用户评价,有利于提高产品质量,不断优化经营策略,增强竞争力。在产品评论中,方面代表产品的属性或特征。从人们表达观点的产品或服务的评论文本中提取方面信息被称为方面级情感分析,是细粒度的文本情感分析,而方面术语提取是方面级情感分析的关键问题。

传统的方面术语提取方法主要以语法和规则为主,并以词法分析和句法分析的结果为基础,人工地建立一些词性和句法规则来提取相关的术语。Bloom等[1]采用人工制定规则的方法来提取重要的方面词。Zhao 等[2]采用词法泛化的方法,利用词法信息提取方面词。Qiu等[3]提出一种利用预先制定的规则,通过双重传播(Double Propagation,DP)算法来抽取方面词。这些方法虽然取得了一定的效果,但都需要人工知识和领域知识来标记文本特征,特征的扩展性不强,它们不能利用高水平的领域知识来提取与中性和隐性情感相关的方面词。

深度学习在各个领域都取得了突出的成果,也被应用到方面术语提取领域。Yin等[4]采用词嵌入、线性上下文嵌入和依赖路径嵌入来增强CRF(Conditional Random Field)进行方面术语的提取。Xu等[5]提出了一种采用两种预训练嵌入的模型,该模型将一般通用嵌入和特定域嵌入拼接在一起,然后传递给CNN,不需要任何额外的监督就取得了很好的性能。Ma 等[6]使用序列到序列学习的深度学习方法来提取方面词。Huang 等[7]提出了LSTM-CRF 和BiLSTM-CRF模型。Ma 等[8]提 出 了BiLSTM-CNN-CRF模型,与上述的BiLSTM-CRF相比,BiLSTM-CNN 通过CNN 编码了字符嵌入。Li 和Lam[9]使用两种LSTM(Long Short-Term Memory),通过记忆交互的联合处理方法提取方面和观点词,这些LSTM具有神经记忆和扩展记忆的操作。沈亚田等[10]使用深度长短期记忆模型联合抽取评价词和评价对象。Wu等[11]提出了一种混合的无监督方法,将基于规则的方法和深度学习方法相结合来提取方面术语,在很少的人工标注的情况下就达到了很好的性能。Luo等[12]使用双向依存树表示和BiLSTM-CRF 模型相结合的方法来提高方面术语提取的准确性。

上述深度学习模型大多基于CNN(Convolutional Neural Network)和RNN(Recurrent Neural Network)的网络结构,CNN的池化操作容易造成信息丢失,而当序列的输入长度增加时,RNN 就会出现梯度爆炸和消失的问题。LSTM作为循环神经网络模型的改进,它在简单循环神经网络中减少了长距离的信息丢失问题,能够灵活地捕获方面与其上下文单词之间的语义关系,并且LSTM在序列标注任务中的性能优于CRF,也优于其他神经网络;BiLSTM(Bi-directional Long Short-Term Memory)不仅加入门控机制,而且可以捕获文本的上下文顺序信息。但是文本序列中不同词语对方面术语提取效果有不同的影响,因此有必要区分不同词语的重要程度。

多头注意力机制是Google团队提出的[13],它可以在输入文本序列内部进行注意力操作计算,找到序列内部之间的联系,并自动学习输入文本序列的权重分布。此外,Luo等[14]提出的ReGU(Residual Gated Unit)是一个额外的RNN 单元,该结构由两个门来控制输入和隐藏状态信息的流动,与跳过连接一样,它可以使用一个门将输入传送到输出,能够更深入地训练和获得有用的文本特征。

综上,针对方面术语提取,本文提出基于注意力机制的双层BiReGU(Attention-based Double BiReGU model,AD-BiReGU)模型,该模型在传统BiLSTM 的基础上使用了双嵌入机制和ReGU 作为模型的辅助信息。注意力机制和BiLSTM模型的使用,充分考虑到文本序列中不同单词的重要性和文本特征,更好地对输出序列进行编码,并捕捉标签间的长期依赖关系。为了验证模型的性能,本文在SemEval 2014中的Restaurant和Laptop 两个数据集上分别进行实验,结果表明,本文模型的性能得到了有效提升。

1 相关研究

BiLSTM-CRF 模型是将BiLSTM 网络和CRF 网络结合起来形成的,Huang等首次将该网络模型应用于自然语言处理基准序列标注数据集上,由于BiLSTM网络层的存在,该模型可以同时获取到过去和将来的输入特征;由于CRF网络层的存在,该模型可以使用句子级的标注信息。BiLSTM-CRF模型结构[7]如图1所示。

图1 BiLSTM-CRF模型结构Fig.1 BiLSTM-CRF model structure

1997 年,Hochreiter 等[15]提出一种RNN 改进后的模型,即LSTM,这种模型的作用主要就是为了解决RNN所造成的梯度爆炸或消失问题。后来又被人们进行了多次改进,其中最流行的一个LSTM 网络的结构如图2所示[16]。它将“门”添加到原始的RNN 模型中,在一定程度上避免了梯度爆炸或消失的问题,并充分考虑到当前单词的上下文信息,从而提取出输入文本的全局特征表示。

图2 LSTM网络结构Fig.2 LSTM network structure

LSTM模型的网络结构主要包括遗忘门、输入门和输出门,它们各自的计算公式如下:

其中,ft、it、ot分别是遗忘门、输入门、输出门;x、h、c是输入层、隐藏层、记忆单元;W、b是权重矩阵、偏置;*是点积。

2 基于注意力双层BiReGU的方面术语提取模型

为了区分不同词语的重要程度,本文在传统BiLSTMCRF模型结构基础之上加入注意力机制,同时还引入了双嵌入机制和ReGU作为辅助,构建了基于注意力机制的双层BiReGU 网络模型。该模型的结构如图3 所示。该网络结构把上下文信息输入神经网络模型中,不仅能够更好地捕捉到标签之间的长期依赖关系,而且还能更好地获取文本的特征。它还使用注意力机制来发现文本中的重要信息,自动学习输入文本序列的相对重要的单词。模型的网络结构依次由以下五部分组成:词嵌入层、第一层BiReGU、单词注意力计算层、第二层BiReGU、方面术语标注层。

图3 AD-BiReGU网络结构Fig.3 AD-BiReGU network structure

(1)词嵌入层:利用Glove 预训练的词向量嵌入和特定域预训练的词向量嵌入进行拼接操作,即双嵌入方法,来将所输入的文本序列转化为向量表示的形式。

(2)第一层BiReGU:在BiLSTM的整体模型基础上使用了ReGU 结构来更深入地训练和获得有用的文本特征。

(3)单词注意力计算层:对第一层BiReGU 提取的特征,使用注意力机制来发现文本中的重要信息,自动学习输入文本序列的相对重要的单词。

(4)第二层BiReGU:将单词注意力计算层的输出作为第二层BiReGU 层的输入,来获取更加全局的特征信息。

(5)方面术语标注层:将第二层BiReGU 提取的向量信息输入到CRF中,进行最终的方面术语标注。

2.1 词嵌入层

由于深度学习模型只能接受数值形式的输入,首先将文本数据表示成深度学习模型所能处理的形式,将输入序列表示为W={x1,x2,…,xn},n为输入文本序列的单词个数。该模型没有采用标准的技术通过拼接词嵌入和字符嵌入来生成每个单词xi的嵌入,而是采用Glove 词向量嵌入G(xi)和特定域词向量嵌入D(xi)进行拼接,即双嵌入机制的方法,将每个词进行向量化表示,每个句子就会生成一个词向量矩阵E={e1,e2,…,en},其中ei表示第i个词语的词向量,维度为D=dG⊕dD,e∈Rn×D,充分考虑了嵌入是否与特定领域相关。

2.2 BiReGU层

网络模型中包括双层BiReGU,每一层利用双向的LSTM神经网络对前文信息和后文信息进行处理,充分挖掘输入序列的上下文信息。考虑到ReGU 能够更深入地训练和获得有用的文本特征,则在BiLSTM结构的基础上引入ReGU 结构,将此ReGU 结构直接替换掉原LSTM 结构,拥有像BiLSTM 一样的两个方向的表示。ReGU 由两个门ft和ot来控制输入和隐藏状态信息的流动,其中ot可以控制将上一层信息输入到下一层,更深入地训练和获得有用的文本特征。ReGU 结构图如图4所示。

图4 ReGU结构Fig.4 ReGU structure

给定时间t和前一个记忆单元Ct-1的输入xt,新的记忆单元Ct是通过以下公式计算得到的:

新的隐藏状态计算如下:

其中,ft=σ(Wf·[ht-1,xt]+bf)是遗忘门,是残余门,是xt还是tanh(Wi xt)根据xt大小是否等于ct决定。

与双层BiLSTM 结构一样,构建出的双层BiReGU网络模型的每一层利用双向的ReGU 结构对前文信息和后文信息进行处理,充分挖掘输入序列的上下文信息。将经过词嵌入层形成的词向量表示W={h1,h2,…,ht,…,hn} 输入到第一层BiReGU,记BiReGU 中前向ReGU和后向ReGU在时刻t的输入处理分别为:

2.3 单词注意力计算层

考虑到这种双层BiReGU 网络结构未考虑不同单词的重要性,因此将第一层BiReGU的输出输入到注意力计算层,计算每个单词的重要程度。多头注意力机制的计算方法为:

其中,Q、K、V分别表示Query矩阵、Key矩阵、Value矩阵,注意力操作是从Q到K×V的一个个映射,将它编码成一个新的n×dv的序列,起调节的作用,它的作用是用来控制Q和K的内积不会特别大,并且每个注意力的头都会采用自注意力机制,寻找序列内部之间的一种联系。在方面术语提取工作中,Q、K、V的值是相等的,代表嵌入层的输出E的大小为n×dm,其中dm为BiReGU 输出的维数。h为头的数量,i为第i个注意力头部,每个注意力头部用式(14)计算,然后再从左到右将每个头进行拼接,最终形成注意力矩阵X。

考虑到单层BiReGU 不能获取到更加全局的特征信息,故使用了双层BiReGU,将单词注意力计算层的输出作为第二层BiReGU层的输入,来获取更加全局的特征信息。

2.4 方面术语标注层

为了生成最终的方面术语标记,使用CRF代替softmax分类器作为最后一层可以提高标注之间高度依赖的性能。CRF概率的计算如下:

训练过程中使用最大条件似然估计,计算如下:

最后的标注结果以最高的条件概率生成:

3 实验结果与分析

3.1 实验数据与实验平台

本文采用来自SemEval 2014 的数据集进行实验,数据集概况如表1 所示,Laptop、Restaurant 分别包含笔记本电脑和餐馆领域中的用户评论。评估指标是宏观平均F1,更适合具有不平衡类别的数据集。

表1 数据集概况Table 1 Dataset overview

表1表示数据集的基本信息,#S表示句子的数量,#T表示方面术语的数量。

本文实验平台信息如表2所示。

表2 实验平台设置Table 2 Setup of experimental platform

3.2 实验参数与评价指标

考虑到当提取的文本特征维度太大会容易造成梯度爆炸问题,维度太小又无法充分地提取到特征信息,因此将提取全局和局部特征的维度都设置为300。本文采用Glove 300 维词向量对一般词嵌入向量进行初始化,选择Adam(Adaptive Moment Estimation)作为优化器函数对神经网络进行优化,并将dropout值设置为0.4以防止过拟合现象的出现。所有参数都是通过实验微调得到的。模型的具体参数设置如表3所示。

表3 实验参数设置Table 3 Setup of experimental parameters

采用F1 值作为评估文本模型的指标,F1 值计算公式如下:

3.3 实验结果与分析

为了验证本文所提出模型的有效性,将本文方法与其他先进方法进行比较,如表4 所示,“—”表明该模型未在该数据集上进行评估。

表4 实验结果对比(F1-Score)Table 4 Comparison of experimental result(F1-Score)%

上述结果表明,与传统机器学习方法相比,本文方法不基于特征工程,取得了合理的性能。与一些基准模型相比,本文方法在性能上也有一定程度的提高。在上述深度学习网络中,LSTM-CRF取得了相对较低的提取效果,这是因为它忽略掉了单词的上下文含义和词之间的长期依赖关系,而BiLSTM-CRF 有很好的效果,既能获得长距离的依赖信息,双向结构又能很好地包含每一个单词的上下文信息。本文提出的模型F1 值达到82.45%、85.01%,在Laptop 数据集上,相比于基线模型BiLSTM-CNN 模型提升了3.48 个百分点,在Restaurant数据集上,其F1 值提升了1.14 个百分点。可以看出本文提出的模型结构在两种数据集上的实验结果,较其他基准模型和先进模型均有一定程度的提升,实验结果也证明了本文模型的有效性。

为了验证双嵌入机制和ReGU 在特征提取时展示的优势,设置了DE-BiLSTM-CRF、D-BiLSTM-CRF 和D-BiReGU-CRF对比实验。DE-BiLSTM-CRF是本文的基模型,它是在BiLSTM-CRF基础上增加了双嵌入机制得来的,可以看出实验结果比BiLSTM-CRF相对较好一些。D-BiLSTM-CRF 使用了双层BiLSTM,D-BiReGUCRF 是在D-BiLSTM-CRF 基础上引入了ReGU 结构。实验对比结果如表5所示。

表5 实验结果对比(F1-Score)Table 5 Comparison of experimental result(F1-Score)%

由表5可以看出,双层BiLSTM、引入ReGU与注意力机制均有效提升了效果。

4 结束语

本文提出了一种基于注意力机制的双层BiReGU方面术语提取模型。该模型采用双层BiLSTM模型进行特征表示,然后使用多头注意力机制,为句子中不同单词分配不同权重,更好地学习文本特征表示和捕捉词语间的长期依赖关系。此外,本文还引入了双嵌入机制和ReGU作为辅助。与传统循环神经网络模型相比,本文的注意力机制模型能够有效识别方面词,取得了较好的提取效果。未来的工作可以考虑采用新型的网络结构(Graph Convolutional Network等)来改善模型的性能。

猜你喜欢
术语注意力单词
让注意力“飞”回来
单词连一连
看图填单词
“扬眼”APP:让注意力“变现”
看完这些单词的翻译,整个人都不好了
A Beautiful Way Of Looking At Things
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
单词拾趣