基于循环神经网络的互联网短文本情感要素抽取

2016-12-30 05:40郑秋生
中原工学院学报 2016年6期
关键词:语料短文向量

张 英, 郑秋生

(中原工学院, 郑州 450007)

基于循环神经网络的互联网短文本情感要素抽取

张 英, 郑秋生

(中原工学院, 郑州 450007)

针对大数据互联网短文本信息,比较几种深度循环神经网络(Recurrent Neural Networks,RNN)模型,提出了一种基于双向长短时记忆(Bidirectional Long Short-Term Memory,BLSTM)的循环神经网络模型的互联网短文本情感要素抽取方法。实验结果表明,该方法不仅可以有效完成互联网短文本中情感要素抽取工作,而且明显提高了抽取准确率。

互联网短文本;情感要素抽取;循环神经网络;自然语言处理;深度学习

随着互联网与信息技术的高速发展,互联网的文本信息迅速膨胀。面对互联网海量的文本数据,准确、高效地从这些文本中挖掘观点信息对网络舆情分析具有重要意义。文本情感要素的抽取是指抽取情感词语的评价对象以及评价对象属性。因此,利用抽取的文本情感信息进行分析挖掘,对识别情感词语以及判断文本情感的倾向性等情感分析问题具有重要的意义[1]。

目前,情感分析是自然语言处理领域的研究热点,虽然在情感倾向性分析的研究方面已经取得了不少成果,但通过情感要素抽取来判断情感倾向性方面的研究并不充分[2]。目前,情感要素抽取的方法主要有两类:一类是使用基于机器学习的条件随机场(Conditional Random Field,CRF)方法识别情感对象;另一类是首先依照情感词表抽取情感词,然后通过关联规则抽取情感对象。这些传统方法对现今大量格式随意的互联网文本处理效果并不理想,主要原因是其结果局限于特征模板、情感词典资源以及句法分析器等外部资源[3]。

与传统方法不同,本文针对现今互联网文本格式随意、数据量大、无法使用正规文本的分类方法等问题,提出一种基于循环神经网络(CNNs)模型的中文互联网短文本情感要素抽取方法。

1 情感要素抽取方法

1.1 循环神经网络

近年来,随着深度学习的发展,神经网络应用已在众多自然语言处理领域中取得了不错的成绩。Bengio Y等首先提出了利用神经网络构建语言模型来处理自然语言问题[4]。2010年,Mikolov T等提出使用循环神经网络构建语言模型,充分利用上下文信息进行语言建模[5],但该模型存在梯度爆炸和消失等问题。随后,长短时记忆(Long Short-Term Memory,LSTM)型循环神经网络由Morin F等提出[6],并由Graves A等进行了改进[7]。实验证明,该网络结构在长序列依赖问题中非常有效。因此,LSTM模型的很多优化改进形式被应用于神经语言程序(Neuro-Linguistic Programming,NLP)领域,如Huang Z等使用BLSTM-CRF模型处理序列标注问题[8],Chiu J P C等使用BLSTM-CNNs模型解决命名实体识别问题[9],Wang P等使用基于Word Embedding的BLSTM模型处理标注问题[10]。这些对深度循环神经网络(Recurrent Neural Networks,RNN)模型进行优化应用的方法大都取得了不错的效果。

1.2 情感要素抽取

在情感要素抽取方面,张凌等以情感词为基准,通过计算先验概率建立词性模板库,根据依存规则抽取情感要素[11]。刘鸿宇等使用句法分析结果抽取候选评价对象,再使用基于网络挖掘的PMI算法和名词剪枝方法,对候选评价对象进行过滤筛选[12]。Hu M等按照标签序列规则(Label Sequential Rule,LSR)匹配语料中产品特征的方法[13]针对性强,可以高效地识别结构类似文章中的评价对象,但是该方法需要人工编写相应的模板,通用性不强。这些方法具有一定的应用效果。但是,在中文的文本情感要素抽取方面,传统的抽取方法和现有研究在开放的数据上表现并不令人满意,而且传统的情感要素抽取方法大多是基于大量的标注语料,这些标注语料也都是较规则文本,用这些规则语料训练得到的模型并不能对如今互联网上大量的不规则数据进行有效抽取。

虽然传统方法在情感分析问题中获得了应用,但这些方法对情感特征的选择过于依赖现有情感词典或人工标注的语料库,需要大量人力资源对情感语料库进行不断完善。由于情感特征的选择是情感分析的重要依据,因此,本文提出用基于深度学习的word2vec模型来提取情感特征,处理互联网短文本情感分类问题。

在自然语言处理中,词向量的选择在模型的训练过程中具有重要意义。传统的one-hot representation词向量表示方法要求创建一个词表并给每个词编号,向量的维度是词表的大小,每个词的向量中只有一个维度的值为1,该维度就是词在词表中的位置,并用稀疏矩阵来存储。但这种表达方式容易造成维数灾难,并且这种词向量表示法与词语的语义并没有太大的关系。因此,本文选用Hinton G E[14]提出的Embedding表示法。这种词向量表示法不仅将词表示在低维向量空间中,而且可以反映出词语间潜藏的语义关系,这对词语的情感分析具有重要意义。

1.3 词向量

本文使用word2vec工具训练Embedding词向量,用连续词袋模型(Continuous Bag-Of-Words,CBOW)和Skip-Gram模型实现词向量计算[15]。其中,CBOW模型以围绕目标单词的语境作为输入来预测目标单词;Skip-Gram模型则与其相反,通过当前词来预测语境。本文选择Skip-Gram模型来训练语料,通过调整窗口大小训练出合适的词向量。

2 基于BLSTM的循环神经网络模型

随着神经网络的发展,越来越多的神经网络模型在处理自然语言问题中得到了应用。本文在前人研究的基础上,提出了采用BLSTM-RNN网络模型的互联网短文本要素抽取方案。

2.1 RNN模型

RNN是近年来深度学习领域比较流行的模型,实践证明它应用于NLP领域是非常成功的。与其他人工神经网络不同,循环神经网络是一种序列模型,用来处理序列数据。在传统神经网络模型中,输入层与输出层之间彼此独立,而循环神经网络的输出不仅依据当前的输入而且与上一时刻的输出有关。因此,RNN是具有记忆功能的,能够记住以前的计算信息。典型的RNN网络如图1所示。

图1 RNN网络图

图1展示了一个完整展开的RNN网络。其中:Xt表示t时刻的输入;St为t时刻隐藏层的状态,它是网络的记忆单元,通过循环方式传递到下一层。根据当前层的输出与上一隐藏层的状态进行计算,可得出St=f(UXt-WSt-1)。其中,f是非线性激活函数,如tanh或ReLU;通常,St的初始值为0;Ot表示t时刻的输出,仅与当前时刻的St有关,Ot=softmax(VSt);U、V、W分别为输入、输出、隐藏层权重矩阵。

在传统神经网络中,各个网络层的参数是不能共享的。而在RNN中,由于每步都在做相同的事,只是输入不同,因此,每输入一步,各层都共享参数U、V、W。这样,RNN大大降低了网络中需要学习的参数。在图1所示的网络图中,每个时间步都会有输出,但是,在循环神经网络中,每个时间步并不必有输出。比如,使用循环神经网络来预测一条语句所表达的情绪,仅需要得到输入最后一个单词后的输出,并不需要知道输入每个单词后的输出。同理,每个时间步的输入也不是必需的。RNN的关键之处在于隐藏层,隐藏层能够捕捉序列的信息。

2.2 LSTM型RNN模型

循环神经网络是一个在时间序列上传递的神经网络,在沿时间序列反向传播(Back Propagation Through Time,BPTT)训练时会产生时间序列上梯度消失的问题。为了解决梯度消失问题,Graves A等设计了长短时记忆单元(Long Short Term Memory,LSTM)型RNN[7]。图2为一个LSTM单元。

图2 LSTM单元

在图2中,可以将隐藏层当作一个黑盒子,给定当前输入和先前隐藏状态,然后计算出下一个隐藏状态。LSTM在本质上仍属于循环神经网络,只是用一个记忆单元(Memory Cell,MC)来代替RNN中的隐藏层,并用门开关实现时间序列上的记忆功能,从而避免梯度消失的问题。LSTM网络的隐藏层结构如图3所示。

图3 LSTM网络的隐藏层结构

在图3中:i、f、o分别为输入门、输出门、忘记门单元;c为1个记忆单元,用来描述LSTM的当前状态。输入门、输出门和忘记门是3个控制门,其输出分别连接到1个乘法单元上,用来控制网络的输入、输出以及记忆单元的读、写状态。关于LSTM的计算如下:

it=σ(WiXt+Uiht-1+bi)

(1)

ft=σ(WfXt+Ufht-1+bf)

(2)

ot=σ(WoXt+Uoht-1+bo)

(3)

gt=tanh(WcXt+Ucht-1+bc)

(4)

ct=ftect-1+itegt

(5)

ht=ote tanh(ct)

(6)

式(1)、式(2)、式(3)分别为t时刻输入门、输出门、忘记门的计算式。这些门的计算式由使用不同参数矩阵的相同计算方程构成,并且所有门都具有相同的尺寸,即隐藏状态的大小相等。gt为t时刻候选的隐藏状态,根据当前输入和以前的隐藏状态计算得出。ct为t时刻记忆单元的计算式。ht为t时刻LSTM单元的输出。bi、bf、bo为3个控制门相应的偏置向量。σ表示激活函数。

与传统的RNN网络模型相比,LSTM模型的门控机制使记忆单元在工作中可以保持一段时间的信息记忆,并在训练时保证内部梯度不受不利因素的干扰。因此,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件[16]。

2.3 BLSTM型RNN模型

由于LSTM型RNN模型只能获取单向文本信息,因此,设计了一种BLSTM型RNN模型,以便从两个方向获取上下文信息。图4所示BLSTM模型即为双向LSTM模型。

图4 BLSTM模型

类似于LSTM,BLSTM在隐藏层包含一个正向LSTM和一个反向LSTM。根据LSTM相关公式,可以推导出如下正向LSTM的公式:

F_it=σ(WiXt+UiF_ht-1+bi)

(7)

F_ft=σ(WfXt+UfF_ht-1+bf)

(8)

F_ot=σ(WoXt+UoF_ht-1+bo)

(9)

F_gt=tanh(WcXt+UcF_ht-1+bc)

(10)

F_ct=F_ftect-1+F_iteF_gt

(11)

F_ht=F_ote tanh(F_ct)

(12)

同理,可以推导出反向LSTM的公式。将模型每个时刻的正向、反向记忆单元的状态ct和输出ht连接,即可获得BLSTM层的特征输出。BLSTM可以学习更长距离的上下文特征信息。因此,通常情况下,使用双向LSTM型RNN模型的效果优于单向LSTM型RNN模型。

2.4 基于BLSTM的情感要素抽取模型训练

本文将图5所示基于BLSTM的模型应用于情感要素抽取问题。

图5 BLSTM神经网络模型

对于BLSTM-RNN模型,本文使用随机梯度下降法来训练模型,即先随机初始化参数,然后每次批处理部分样本,参与运算,更新参数值。为加快梯度下降的收敛速度,使用ReLU激活函数,同时在LSTM层的各节点训练中引入Dropout策略,可以有效防止模型的过拟合[10]。该方法不仅能找到最优解,而且训练速度较快。

3 模型验证

3.1 数据集

为了验证模型的有效性,本文将COAE2014评测中任务5提供的40 000条微博数据作为实验数据,并以该评测最终公布的抽取结果中6 479条评价对象为实验的训练语料,并且采用了数据集提供的40 000条数据训练词向量。表1为数据样例。表2为标注语料样例。

表1 数据样例

表2 标注语料样例

注:B-P表示评价对象;B-F表示评价对象属性;O表示其他。

3.2 模型参数

在使用神经网络模型时,参数设定是非常重要的环节,不同的参数训练得到的结果有很大不同。BLSTM-RNN网络模型的参数设置如表3所示。

表3 BLSTM-RNN网络模型参数设置

3.3 对比实验

本文用传统基于机器学习的CRF模型对比采用深度学习的RNN模型和LSTM模型,基于CRF模型,选择词作为特征,并添加词性以及依存关系两种特征组合,使用CRF++工具进行实验,而且,在深度学习模型中,以Word2vec工具训练的词级别的特征向量作为特征。

3.4 实验结果分析

本文采用十折交叉法验证实验结果,并根据COAE2014评测提供的实验结果评价指标计算出了各模型的准确率(见表4)。

表4 不同模型的准确率

从表4可以看出,使用BLSTM模型处理要素抽取任务效果较好,证明该模型是有效的。对比实验结果可以发现,使用BLSTM模型比传统模型在准确率上有明显提升,深度学习模型的结果明显优于传统机器学习模型的结果。对比RNN模型与BLSTM-RNN模型的准确率可以发现,使用BLSTM-RNN模型可以取得更好的效果。

4 结 语

本文针对情感要素抽取问题将模型扩展到双向LSTM型网络,通过实验证明了BLSTM-RNN模型处理情感要素抽取问题的可行性。与传统模型相比,采用该模型能够取得更好的效果。因此,对于互联网短文本,采用基于词向量的BLSTM-RNN模型进行情感要素抽取是可行的。

[1] 刘铭, 昝红英, 原慧斌. 基于SVM与RNN的文本情感关键句判定与抽取[J]. 山东大学学报(理学版), 2014,49(11):68-73.

[2] 刘鸿宇, 赵妍妍, 秦兵,等. 评价对象抽取及其倾向性分析[J]. 中文信息学报, 2010, 24(1):84-88.

[3] 赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21(8):1834-1848.

[4] Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistic Language Model[J]. The Journal of Machine Learning Research, 2003, 3(6): 1137-1155.

[5] Mikolov T, Karafiát M, Burget L, et al. Recurrent Neural Network Based Language Model[C]//The International Speech Communication Association. Makuhari, Chiba: Interspeech, 2010:1045-1048.

[6] Morin F, Bengio Y. Hierarchical Probabilistic Neural Network Language Model[J]. Aistats,2005, 5: 246-252.

[7] Graves A, Mohamed A, Hinton G. Speech Recognition with Deep Recurrent Neural Networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington: IEEE, 2013: 6645-6649.

[8] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J].Computer Science, 2015,9:1508-1519.

[9] Chiu J P C, Nichols E. Named Entity Recognition with Bidirectional LSTM-CNNs[J]. Computer Science, 2015,11:8308-8315.

[10] Huang Z, Xu W, Yu K. A Unified Tagging Solution: Bidirectional LSTM Recurrent Neural Network with Word Embedding[J]. Computer Science,2015,11:511-515.

[11] 张凌, 冯欣. 基于词性模板与依存分析的中文微博情感要素抽取[J]. 计算机科学, 2015,42(6A):474-478.

[12] 刘鸿宇, 赵妍妍, 秦兵,等. 评价对象抽取及其倾向性分析[J]. 中文信息学报, 2010, 24(1):84-88.

[13] Hu M, Liu B. Mining and Summarizing Customer Reviews[C]// Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington:ACM, 2004:168-177.

[14] Hinton G E. Learning Distributed Representations of Concepts[C]//Proceedings of the Eighth Annual Conference of the Cognitive Science Society. Washington: IEEE, 1986: 1-12.

[15] 蔡慧苹,王丽丹,段书凯. 基于word embedding和CNN的情感分类模型[J]. 计算机应用研究,2015(10):1-5.

[16] 梁军,柴玉梅,原慧斌,等. 基于极性转移和LSTM递归网络的情感分析[J]. 中文信息学报, 2015, 29(5): 152-159.

(责任编辑:王长通)

Sentiment Classification of the Short Texts on Internet Based on Convolutional Neural Networks

ZHANG Ying, ZHENG Qiu-sheng

(Zhongyuan University of Technology, Zhengzhou 450007, China)

For the information of big data Internet essay, a deep convolution neural network (convolutional neural networks, CNNs) model of the short text on the Internet is put forward. And first use the Skip-gram in the Word2vec training model of feature vector, then further extracting feature vector into CNNs, finally training the classification model of the depth convolution neural network. The experimental results show that, compared with classification methods of traditional machine learning, this method not only could effectively handle Internet emotion classification in this essay, but also significantly improves the accuracy of emotion classification.

short texts on the Internet; sentiment classification; convolutional neural networks; natural language processing; deep learning

2016-09-08

国家自然科学基金项目 (U1304611);河南省科技攻关项目(132102210186);河南省科技攻关项目(132102310284);河南省教育厅科学技术研究重点项目(14A520015)

张英 (1992-),女,河南洛阳人,硕士生,主要研究方向为机器学习、自然语言处理。

1671-6906(2016)06-0082-05

TP391

A

10.3969/j.issn.1671-6906.2016.06.017

猜你喜欢
语料短文向量
向量的分解
基于归一化点向互信息的低资源平行语料过滤方法*
聚焦“向量与三角”创新题
KEYS
Keys
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
短文改错