基于追加评论的情感分析研究

2019-12-12 06:05刘臣谢法举周晓鸣
软件导刊 2019年11期
关键词:情感分析特征提取

刘臣 谢法举 周晓鸣

摘 要:商品评论区存在很多虚假、伪造或者是垃圾形式的内容,往往诱使用户产生购买意愿,而追加评论是用户了解商品真实性、可靠性的重要信息渠道。通过对追加评论进行特征提取,形成特征摘要,方便用户在购物时减少搜索时间与精力,对追加评论进行情感分析,能够判断出用户对商品的总体情感倾向。分析表明,其在准确率与召回率方面都有约10%的提高。追加评论具有很高的研究价值,能够帮助用户快速了解产品信息,目前很多用户会直接锁定追加评论以作出购买决策。

关键词:追加评论;特征提取;情感分析;特征摘要

0 引言

追加评论是购物网站的一种用户评论形式,各大电商平台都有追加评论区域,但每个平台提供的有效时间不同,比如淘宝在原始评论之后3个月内可以进行追加评论,超过期限则无法进行。目前很多用户会直接锁定追加评论形成购买意愿,所以追加评论具有很高的研究价值,主要表现为:①追加评论能够更加客观地反映用户态度;②追加评论往往较少,用户阅读起来会减少很多时间与精力;③追加评论中往往会出现原始评论中没有出现过的商品特征,这些特征能够及时反映当下热点问题。图1为京东平台上的P20手机用户评论文本。

追加评论是用户了解商品真实性、可靠性的重要信息渠道,而对于追加评论的研究很少有人关注。Hearst[1]最早进行情感分析研究,在处理文本问题时主要从情感立场和文本思想两个方面进行,语料库优点在于提供了更加标准化的信息检索系统,不仅能够避免理解文本的复杂性,而且还能减少资源消耗。情感分析概念在2003年正式出现,Nasukawa等[2]利用自然语言处理相关技术判断特定主题的情感倾向,包括语义词典及句法分析等,系统在新闻语料中取得了较高准确率,当然该准确率依据数据集;Yan等[3]利用NodeRank算法提取显式和隐式特征,以识别每个显式特征与意见词之间的关联,并检索了具有相同观点词的所有特征观点对;Yi等[4]是较早研究情感分析的一批学者,随后,情感分析在数据挖掘、Web挖掘和信息检索中被广泛研究,并从计算机科学领域扩展到管理学领域及电子商务领域[5-6];Soo-Min等[7]则手工建立了两个种子集作为极性词典,一个是褒义词词典,另一个是贬义词词典,并分别将其作为正向类和负向类;Park等 [8]提出了另一个从新闻文章中产生观点摘要的方法。

在中文领域,特征提取和情感分析研究也有一定成果。徐林宏等[9]利用知网提供的HowNet词典,用词汇与词库中已标注情感极性近义词之间的语义相似度判断未知极性情感词的情感倾向;孙晓等[10]采用一种基于条件随机场和支持向量机模型的联合模型,从在线商品评述中挖掘商品特征词和情感词;何晶璟[11]主要是从营销角度分析在线评论中相同评论内容放在追加评论位置及放在初始评论位置对购买意愿的影响;汪涛等[12]基于归因理论研究得出不同类型产品评论时间间隔的有用性感知不同,与原始评论具有很大关联性;刘晓云等[13]主要讲述相对于初始评论,追加评论的信息提供参考价值更大,消费者更加倾向于追加评论内容的真实性,认为追加评论更加可靠;王洪伟等[14]对文本进行情感分类,主要考虑句子的情感极性以及贡献度,首先也是采用传统分类算法判断在线评论句子的情感倾向,然后采用等权重、相关度以及情感假设三个方面确定句子对段落的贡献度,最后综合考虑句子的贡献度和情感极性以判断段落的整体情感倾向;唐晓波[15]提出一种基于情感本体和k-近邻算法的评论文本情感分类方法,首先利用情感本体的情感强度及其极性分别对每一条评论的褒義性和贬义性进行计算,并将计算结果作为数据集的特征项,最后采用k-近邻算法对训练集进行训练,然后形成分类模型,并用分类模型对相关评论进行分类研究。

对于隐性特征提取,同样也有不少学者进行过研究。Karthikeyan等[16]提出基于关联规则挖掘的方法,特征词与观点词之间可以共同出现,以找到频繁项之间的关联性;Mankar等[17]从旅游评论中提取了隐性特征,首先在显性特征词与观点词之间构建共生矩阵,以形容词和副词作为观点词,然后基于该共生矩阵创建一组关联规则。这些规则充当对应的隐式特征映射函数,实验同样也获得了一定效果,但是实验仅仅考虑了形容词与副词,并没有考其它词;Lazhar 等[18]利用本体进行隐性特征提取研究,利用本体概念、属性和个体之间的语义关系进行隐性特征提取,其提取的意见表达式与任何显性特征没有相关性,在意见词和相关特征中考虑6种类型依赖关系,然后通过观点表达式对本体进行引航,找出相应的隐性特征词,以识别隐性特征;Santu等[19]采用概率模型方法进行隐性特征提取研究,用生成概率特征模型对相关语料评论进行建模,这些评论被表示为使用隐藏变量的句子与特征之间的关联,最后利用隐藏变量和计算参数值提取隐性特征。

相比较而言,本文创新之处在于:①在原始评论基础上融入追加评论;②考虑追加评论中出现的新特征词以及特征情感;③形成特征摘要,能够帮助用户在购买时快速作出购买决策。

1 追加评论语料获取

追加评论语料同样来源于京东商城,利用爬虫技术爬取京东商城P20手机追加评论语料。获取语料后对语料进行优化,通过样本抽样方式删除一些虚假、伪造信息,即语料降噪处理,经过降噪处理的语料为实验所需语料。对实验语料进行分词处理与词性标注,提取出文本中的特征词,如果没有特征词,则进入下一条评论,如果有特征词,则判断其是否为新的特征词。将新特征词录入特征词库中,没有再出现新的特征词就直接对特征进行检测,依据特征词周边的特征词进行情感判别,并记录判别结果,然后进入下一条评论,直到所有追加评论记录完为止。图2是追加评论处理具体流程。

1.1 追加评论时间特点

追加评论是指用户在购买商品后已经作出原始评论,因发现商品相关属性具备一些特殊性质,再次对购买商品进行评论。图3为爬取数据分析结果显示的追加评论与原始评论时间间隔,通过分析追加评论数量可以发现,用户往往会在原始评论过后10天作出追加评论,这是因为用户在购买之后前10天基本上对物品有了亲身体验,及时追加评论以反映自己的情感。

1.2 追加評论特征

追加评论作为用户购买商品后的二次评论,有几个重要特征:第一,内容较短但是蕴含信息量大;第二,情感比较真实,更能反映出用户态度,相对于原始评论前后情感差异较大;第三,具备不可删除性,很多购物平台的商家会劝说用户删除消极的原始评论,但是追加评论却无法删除;第四,具有滞后性,因为用户通常在使用物品一段时间之后才能够发现商品优缺点(见图3);第五,往往会出现很多原始评论不具备的新特征词(见表1)。

2 追加评论与原始评论比较

追加评论与原始评论存在许多差异,最主要的三个维度分别为:评论数量、评论长度以及情感表达。研究两者之间差异能够让用户更加具体地了解商品。

2.1 评论数量

在评论数量方面,追加评论相对于原始评论数量明显减少。一方面,用户初次购买商品后,通常会及时作出评论,此时评论行为比较积极,而对于追加评论却很少有人及时关注,除非是因为用户体验过商品且该商品具备一些特质,用户才会对原始评论进行补充,追加评论。另一方面,用户初次评论时给出了消极评价,经过客户沟通后删除了消极评论,但是使用商品后非常失望,会再次作出追加评论,而追加评论相较于原始评论,句子中蕴含的信息以及特征词明显减少。

2.2 评论长度

商品评论越长,信息量往往就越大,对商品的介绍就会越完善,包含特征也就越多,其他用户购买时能用的信息量就会越大,购买决策就会越清晰准确。评论长度越长也能反映出用户积极性越高。通过抽样观察发现,追加评论的平均长度明显高于原始评论。对此分析得出以下结论:第一,对于原始评论而言,用户并不是很了解该产品,随意作出评价;对于追加评论而言,用户通过亲身体验,对商品有足够了解,这时就会对商品的大部分已知属性作出评价,因此追加评论的数量虽然减少了,但是长度会明显变长。第二,由于追加评论具有滞后性,当用户在购买商品之后,因各种原因延迟发表追加评论,在这段时间内同类型商品上市,就会给用户提供一个参考物,通过审视几个商品之间的区别,对该商品有更全面了解,从而作出全面评价,因此追加评论就会变长。

2.3 评论质量

相对于原始评论,追加评论与用户使用体验匹配度更高,因为这些评论基本上都是用户的亲身感触,能够直接反映出用户情感,所以提供的信息更加可靠有用。追加评论的客观性更强,通过用户对商品情感的表达更能反映出商品优缺点,以便更加有效地帮助未来用户了解产品。

3 融入追加评论的情感分析

通过分析处理追加评论,一共得到有效句子2 002条,其中显性句子1 483条、隐性句子519条(见表2)。共提取特征词45个,新增特征词8个(信号、后壳、按钮、卡槽、锁屏、镜头、吃鸡、网络),另外37个为原始评论句子中的特征词。产品特征得到肯定的是屏幕、价格、信号以及外观,同时电池和吃鸡两个特征的负面情感较高,其中问题最大的是电池。这些数据统计不仅能够帮助用户快速锁定商品的最大优缺点,而且能够及时帮助商家进行产品调整与优化。

当融入追加评论之后,在原始评论基础上,用户情感会有很大变化,如表3所示。如果原始评论为正向情感,追加评论也为正向情感的仅占9%,追加评论为负向情感的为27%;如果原始评论为负向情感,很少有用户会转变原始评论态度,而用户同样会给出负面情感的比例高达57%。表4为华为手机P20评论融入追加评论后准确率与召回率的变化情况。

4 追加评论与原始评论特征摘要对比分析

4.1 对比结果

4.2 原始评论对购买意愿的影响

为弄清原始评论对购买意愿的影响,进行了问卷调查。调查问卷涉及人群为在校本科生和研究生,共发放问卷100份,回收有效问卷100份。经过整理发现,用户初次对购买商品作出评价时的评论非常庞大,几乎涉及产品所有主要特征,特征摘要对未来用户有很大帮助,使用户能够快速锁定商品属性,并获取基本情感。用户进行购买决策时可以关注原始评论,但是依靠原始评论就作出购买决策的仅为18%,而未作出购买决策的高达59%。图7为原始评论对购买意愿的影响。

4.3 融入追加评论后对购买意愿的影响

用户的购买意愿直接影响产品销量,而追加评论往往会对购买意愿产生较大影响,所以追加评论的研究意义较大,同样也要引起商家足够重视。研究发现,追加评论中大部分评论都是消极评论,消极评论会直接影响消费者购买意愿,进而影响产品销量,追加评论与原始评论共同决定个人对该商品的情感倾向。图8显示,融入追加评论后用户更加倾向于作出购买决策。

5 结语

本文在原始评论基础上融入追加评论进行情感分析。主要从追加评论的数量、长度以及质量3个方面比较分析追加评论与原始评论,最后介绍了追加评论与原始评论的情感文摘分析。通过融入追加评论,能够提高准确率与召回率约10%。今后将重点考虑在此基础上以定量与定性相结合的方式进行研究。

参考文献:

[1] HEARST M A. Direction-based text interpretation as an information access refinement[C]. Text-Based Intelligent Systems,2002: 257-274.

[2] NASUKAWA T, YI J. Sentiment analysis: capturing favorability using natural language processing[C]. International Conference on Knowledge Capture,2003: 70-77.

[3] YAN Z, XING M, ZHANG D, et al. EXPRS: an extended pagerank method for product feature extraction from online consumer reviews[J]. Information & Management,2015, 52(7):850-858.

[4] YI J,NASUKAWA T,BUNESCU,et a1.Sentiment analyzer:extracting sentiments about a given topicusing natural language processing techniques[C]. Third IEEE International Conference,2003:427-434.

[5] HU N,PAVLOU P A,ZHANG J.Can online reviews reveal a product's true quality:empirical findingsand analytical modeling of online word of mouth communication[C]. Proceedings of the 7th ACMconference on Electronic commerce,2006:324-330.

[6] ARCHAIC N,GHOSE A,IPEIROTIS P G. Show me the money:deriving the pricing power of productfeatures by mining consumer reviews[C]. Proceedings of the 13th ACM SIGKDD Intemational Conference on Knowledge Discovery and Data Raining,2007:56-65.

[7] SOO-MIN K,HOVY E. Determining the sentiment of opinions[C]. Proceedings of the 20th International Conference On Computational Linguistics,2004:1367-1373.

[8] PARK S, LEE K S, SONG J. Contrasting opposing views of news articles on contentious issues[J]. Proceedings of the Association for Computational Linguistics, 2011,33(14): 340-349.

[9] 徐琳宏,林鴻飞,杨志豪. 基于语义理解的文本倾向性识别[J]. 中文信息学报,2007,21(1):96-100.

[10] 孙晓,唐陈意. 基于层叠模型细粒度情感要素抽取及倾向分析[J]. 模式识别与人工智能, 2015(6): 531-520.

[11] 何晶璟. 追加评论对消费者购买意愿的影响[J]. 知识经济,2014(9):92-94.

[12] 汪涛,王魁,陈厚. 时间间隔何时能够提高在线评论的有用性感知—基于归因理论的视角[J]. 商业经济与管理,2015(2):46-56.

[13] 刘晓云,章艮凤,徐丽丽. 在线追加评论对消费者网购意愿的影响研究[J].  经营管理者,2015(21):278-279.

[14] 王洪伟, 郑丽娟, 尹裴, 等. 基于句子级情感的中文网络评论的情感极性分类[J]. 管理科学学报, 2013, 16(9): 64-74.

[15] 唐晓波, 朱娟, 杨丰华. 基于情感本体和KNN算法的在线评论情感分类研究[J]. 情报理论与实践, 2016(6): 110-114.

[16] KARTHIKEYAN T, RAVIKUMAR N. A survey on association rule mining[J].  International Journal of Advanced Research in Computer and Communication Engineering,2014,3(1):5223-5227.

[17] MANKAR S A, INGLE M. Implicit sentiment identification using aspect based opinion mining[J].  International Journal on Recent and Innovation Trends in Computing and Communication, 2015, 3(4):2184–2188.

[18] LAZHAR F,YAMINA T-G. Mining explicit and implicit opinions from reviews[J].  International Journal of Data Mining, Modelling and Management, 2016,8(1):75-92.

[19] SANTU K K S, SONDHI P, ZHAI C. Generative feature language models for mining implicit features from customer reviews[C]. Proceedings of the Twenty-Fifth ACM International on Conference on Information and Knowledge Management,2016:929-938.

(责任编辑:何 丽)

猜你喜欢
情感分析特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
基于双向循环神经网络的评价对象抽取研究
一种基于LBP 特征提取和稀疏表示的肝病识别算法
在线评论情感属性的动态变化
基于DSP的直线特征提取算法
基于MED和循环域解调的多故障特征提取
Walsh变换在滚动轴承早期故障特征提取中的应用