基于深度学习的商品评论情感分类

2019-12-19 02:07严鹏
软件 2019年11期
关键词:深度学习

严鹏

摘  要: 近年来,随着互联网技术的进步,我国电子商务也有了快速的发展,越来越多的人选择网络购物,顾客利用互联网平台对所购产品进行文字评价或数字评分已成为一种常态。商品评论的情感分类是获取顾客对该商品直接反馈的一个重要方式。现阶段,在情感分类研究中最常用的是基于机器学习和情感词典的传统方法,但这些方法都存在一些不足之处。因此,本文主要采用深度学习中的LSTM网络对某品牌电视的评论进行模型构建与数据分析,并与基于机器学习的SVM方法进行对比分析。

关键词: 情感分类;商品评论;深度学习;LSTM;Word Embedding

【Abstract】: In recent years, with the progress of Internet technology, China's e-commerce has also had a rapid development, more and more people choose shopping network, customers using the Internet platform to buy products for text evaluation or digital score has become a normal. Emotional classification of product reviews is an important way to obtain customers' direct feedback on the product. At present, the traditional methods based on machine learning and emotion dictionary are most commonly used in the research of emotion classification, but these methods have some shortcomings. Therefore, this paper mainly USES LSTM network in deep learning to conduct model construction and data analysis on the comments of a certain brand of TV, and conducts comparative analysis with SVM method based on machine learning.

【Key words】: Emotional classification; Product reviews; Deep learning; LSTM; Word embedding

0  引言

情感分類又称做观点挖掘,其研究目标就是分析文本中人们对所评论事物(如产品,服务,时事话题等)的情感、观点或者具体态度。情感分类在成为自然语言处理中的一个研究主题后,迅速成为了热点研究领域[1-3]。情感分类作为一种特殊的分类问题,既有一般模式分类的共性问题,也有其特殊性,如情感信息表达的隐蔽性、多义性和极性不明显等。针对这些问题人们做了大量研究,提出了很多分类方法。这些方法主要按机器学习方法归类与按情感词典方法划分[4]。

基于机器学习的方法[5]中,根据所使用训练样本的标注情况,情感文本分类可以大致分为有监督学习方法、半监督学习方法和无监督学习方法三类。基于有监督学习的情感分类方法使用机器学习方法来训练大量标注样本。基于半监督学习的情感分类方法是通过在少量标注样本上训练,并在大量未标注样本上进行学习的方式构建分类模型。基于无监督学习的情感分类方法是指仅使用非标注样本进行情感分类建模。

基于词典的方法[6]主要通过制定一系列的情感词典和规则,对文本进行拆句、分析及匹配词典(一般有词性分析,句法依存分析)来计算情感值,最后通过情感值来作为文本的情感倾向判断的依据。

除了基于机器学习和词典的传统方法,基于深度学习的方法也是近期学者的研究方向,并被广泛应用于情感分类任务中。

电子商务网站的商品评论数据丰富,情感特征较为明显。以商品评论文本为对象,进行情感分类既有现实基础,也有积极的应用前景[7-13]。情感分类应用于商品评论的主要任务是识别出用户的评论文本所流露的情感信息。通过识别出的情感信息,我们能有效判别该商品在顾客心中的喜好,并可以借此推断出该商品的优劣。

根据文本的粒度不同,文本的情感分类可以被分成篇章级别情感分类、句子级别情感分类以及词语级别情感分类三种[14-16]。本文主要针对句子级别情感分类,并且采用基于深度学习的LSTM(Long Short-Term Memory,长短期记忆)方法来进行情感分类。

1  相关工作

1.1  Word Embedding

Word embedding(词嵌入)[17]是NLP(自然语言处理)中一组语言模型(language modeling)和特征学习技术(feature learning techniques)的总称,这些技术会把词汇表中的单词或者短语映射成由实数构成的向量上。

Word embedding具体获取的方式有两种:

(1)在神经网络中添加embedding层去学习word embedding,它是在词向量之间反映出语义关系,将人类自然语言映射到几何空间中。

另一种方式是利用预训练的word embedding,尤其是适用于拥有少量的训练数据的情况下,重利用在复杂问题上学习到的特征应用到自己的任务中,这是一种简单而有效的方法。我们在预训练中采用已有的word embedding预计算的数据库,例如,word2vec[18],Glove。目前,最常用的是Google开源的Word2Vec,用高维的向量来表示词语,并把具有相近意思的词语放在相近的位置,且固定词向量的维度,就可以通过实数向量来训练模型,以此获得词语的词向量表示。具体来说,Word2Vec中涉及到了两种算法,一个是CBOW,一个是Skip- Gram[19-20]。

二者模型如图1、2所示。

1.2  LSTM (Long Short-Term Memory)

由S.Hochreiter等[21]提出的长短时记忆神经网络LSTM是一种时间递归神经网络,可以解决较长的序列数据,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。LSTM解决了RNN[22]的长期依赖问题,其特点是在RNN各层结构单元中添加了输入门、遗忘门和输出门等闸门[23]。LSTM结构如图3所示。

三个控制阀门组成了LSTM的基本单元,称为cell,下图是LSTM神经网络一个单元的基本结构,其中fn表示遗忘门,in表示输入门,on表示输出门,hn表示当前单元状态。

LSTM神经网络cell的基本结构如图4所示。

其中表示函数,作用于三个门上,其输出为[0,1],每个值表示对应的部分信息是否应该通过。0值表示不允许信息通过,1值表示让所有信息通过。而函数用在了状态和输出。为权重,如为遗忘门对应的上一时态输出信息的权重,表示偏置。

2  模型

2.1  文本获取

本文以京东网站上某品牌电视评论作为数据集来进行情感分类[24]。通过从京东网站爬取用户评论文本,并使用人工标注的方法将文本进行初步情感分类。在本模型中,情感分为正面情感和负面情感两类。在标注成功之后将文本分成两部分,一部分为训练数据集,一部分为测试数据集,其中训练数据集用于训练模型,测试数据集用于测试模型。本文共收集4283条评论。样例如表1、2所示。

2.2  文本分析

评论文本标注之后,对文本进行数据分析,研究其情感分布和评论句子长度分布。其中正面情感评论1908条,负面情感评论2375条,由此可看出数据集中正负情感分类数目相差不多。

句子长度及出现频数统计如图5所示。

句子长度累积分布函数如图6所示。

从上图中可以看出,大多数样本的句子长度集中在1-200之间。因此,句子长度累计频率取0.91分位点,则长度为183左右。

2.3  模型构建

Keras提供了一个嵌入层,适用于文本数据的神經网络,这个嵌入层就是embedding层。它是一个灵活的图层,可以以多种方式使用,本文将它用作深度学习模型的一部分,将该层嵌入于模型本身一起学习。数据经过embedding层之后就方便地转换为了可以由LSTM进一步处理的格式,且经过embedding层处理后,数据进行了一定程度的降维,由此加快了模型的数据处理速度。

使用embedding层+LSTM网络+Softmax函数构建模型。

将embedding层添加到模型中进行数据集的词向量生成。

生成词向量后,搭建LSTM网络,将已经得到的词向量通过LSTM网络进行文本的特征提取。

最后将LSTM网络提取出的文本特征使用softmax函数进行预测,得出最终结果。

3  实验与结果分析

我们将数据集分为训练集和测试集,其中训练集和测试集的比例为9∶1。训练集用于训练LSTM模型,测试集用于测试模型的分类效果。使用训练集将LSTM模型训练5次,可以看出,该模型在训练集上的准确率在95%以上。随后,使用训练好的LSTM模型对测试集进行测试。

本次实验还与基于机器学习的SVM方法进行对比。本实验采用的评估分类模型的主要指标为模型分类的准确率,具体计算公式如下:

其中,a表示情感分类模型判断文本类别正确的数目;b表示情感分类模型判断错误将本不属于此类的文本分到本类别的数目。实验结果如表3所示。

上表中可以轻易看出使用Embedding+LSTM的深度学习模型的准确率明显要高于基于传统机器学习的SVM模型。采用基于机器学习的方法由于需要进行特征的选择和降维操作仍需要较大的工作量,由此可以证实本文提出的LSTM模型对商品评论的情感分类具有较好的实用性和较高的准确性。

4  总结

本次实验主要采用将embedding层嵌入LSTM神经网络的方法来构建LSTM模型。该模型较于传统情感词典和机器学习方法有很大优势,克服了传统情感词典方法的领域词典不足的情况,也不用人为的提取特征,在训练结果上也得到了很大的提升,这也证明了该模型的可行性。由于条件限制,本文主要使用LSTM网络进行模型构建,以此对文本情感分类,尚未与其余基于深度学习的神经网络模型进行研究和对比实验。在未来的工作中,可以围绕这一点进行展开研究。

参考文献

[1]王仲远, 程健鹏, 王海勋, 文继荣. 短文本理解研究[J]. 计算机研究与发展, 2016, 53(02): 262-269.

[2]耿斌. 在线评论对用户购买行为的影响研究[D]. 南京: 南京大学, 2019.

[3]左梅, 荆晓远. 基于深度记忆网络的特定目标情感分类[J]. 计算机应用究: 2019-07-3, 1-6.

[4]PANDARACHALILR, SENDHILKUMA RS, MAHALAK SHMI G. Twitter sentiment analysis for large-scale data: an unsupervised approach[J]. Cognitive Computation, 2015, 7(2): 254-262.

[5]PANG B, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techni ques[C]. Proceedings of the 2002 Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2002: 79-86.

[6]Lunwei Ku, Tungho Wu, Liying Lee, et al. Construction of an Evaluation Corpus for Opinion Extraction[C]. NTCIR-5 Japan 2005: 513-520.

[7]張紫琼, 叶强, 李一军. 互联网商品评论情感分析研究综述[J]. 管理科学学报, 2010, 13(06): 84-96.

[8]叶强, 张紫琼, 罗振雄. 面向互联网评论情感分析的中文主观性自动判别方法研究[J]. 信息系统学报, 2007(01): 79-91.

[9]陆文星, 王燕飞. 中文文本情感分析研究综述[J]. 计算机应用研究, 2012, 29(06): 2014-2017.

[10]赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21(08): 1834-1848.

[11]周立柱, 贺宇凯, 王建勇. 情感分析研究综述[J]. 计算机应用, 2008(11): 2725-2728.

[12]谢法举, 刘臣, 唐莉. 在线评论情感分析研究综述[J]. 软件导刊, 2018, 17(02): 1-4+7.

[13]靳文利, 张建. 电子商务对传统企业的影响及对策[J]. 软件, 2015, 36(6): 158-162.

[14]张英. 基于深度神经网络的微博短文本情感分析研究[D]. 郑州: 中原工学院, 2017.

[15]江周峰, 杨俊, 鄂海红. 结合社会化标签的基于内容的推荐算法[J]. 软件, 2015, 36(1): 1-5.

[16]陈磊磊. 不同距离测度的K-Means 文本聚类研究[J]. 软件, 2015, 36(1): 56-61.

[17]Mikolov T, Sutskever I, Chen K, et al. Distributed Repre sentations of Words and Phrases and Their Composi tion ality[C]. Proceedings of the Advances in Neural Information Processing Systems. Currant Associates, 2013: 3111-3119.

[18]王云龙. 基于Word2Vec新词识别的评论情感分析系统的研究与实现[D]. 哈尔滨: 哈尔滨工业大学, 2018.

[19]MIKOLOV T, CHEN Kai, COR RADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013, 2(12): 27-35.

[20]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.

[21]HOCH REITE R S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735.

[22]Jain A, Zamir A R, Savarese S, et al. Structural-RNN: Deep Learning on Spatio-Temporal Graphs[C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016: 5308-5317.

[23]张玉环, 钱江. 基于两种 LSTM 结构的文本情感分析[J]. 软件, 2018, 39(1): 116-120.

[24]王铁刚. 社交媒体数据的获取分析[J]. 软件, 2015, 36(2): 86-91.

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
构建“单元整合、主题牵引”诗歌鉴赏“深度学习”课堂的策略