中文产品评论细粒度情感分析综述

2017-09-05 04:06胡龙茂
软件导刊 2017年7期

胡龙茂

摘 要:消费者在购物网站上发表的购后评论既包含对产品的总体评价,也包含对产品某些特征的评价,如何从评论文本中挖掘出细粒度情感信息是消费者和企业亟待解决的问题。从中文产品评论的特征识别、观点识别和情感词典构建等方面介绍了相关技术及研究进展,并指出了各自的优势与不足,最后展望了中文产品评论细粒度情感分析未来的研究方向。

关键词:中文产品评论;特征识别;观点识别;情感词典;细粒度情感

DOIDOI:10.11907/rjdk.171944

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2017)007-0213-03

0 引言

近年来,我国电子商务发展迅猛,网购市场交易规模不断增长,消费者发表的购后评论也越来越多。评论中往往既包含对产品的总体评价,也包含对产品某些特征的评价。这些评价一方面可以为其他消费者选购商品提供细粒度信息,另一方面也为企业挖掘不同类别消费者的偏好提供了可能性。

对产品属性的评价也称为细粒度情感分析,一般包含4个任务:①产品特征识别;②与产品特征相关联的观点抽取;③观点的极性及强度判断;④观点排序[1]。国外学者在较早时候即对英文评论的细粒度情感分析开展了卓有成效的研究[1-2],国内学者随之对中文产品评论开展了研究,也取得了较多研究成果。由于中英文在分词、句法等方面的差异,本文主要从中文产品评论的特征识别、特征观点抽取和情感词典建设3方面介绍相关技术及研究进展。

1 产品特征识别

产品特征描述产品的各个方面,Popescu等[1]认为产品特征可细分为5个类别,包括产品的属性、部件、部件特征、产品的相关概念和概念特征。如在评论“电脑不错,显卡也给力,玩游戏电影画质也毫无压力”中,显卡是产品部件,游戏是产品概念。

1.1 基于无监督方法的产品特征识别

无监督方法主要包括基于频繁项的方法和基于主题模型的方法。

1.1.1 基于频繁项的特征识别

该方法通常将评论中频繁出现的名词和名词短语应用某些过滤规则抽取出来作为产品特征。Hu和Liu[2]提取出評论中的所有名词和名词短语,利用关联规则挖掘频繁项, 并把频繁项作为产品特征候选集,最后通过剪枝移除冗余特征;李实等[3]从中文特点出发,拓展了Hu提出的基于关联规则的英文评论产品特征识别方法,在识别中文产品特征时,基本达到了接近于Hu的较好效果;熊壮[4]首先利用名词序列中的互信息识别名词短语,然后利用关联规则从评论语料中挖掘文本模式,并利用此文本模式对名词和名词短语进行聚类,最后利用从网站上直接获取的产品品牌和产品型号作为外部资源,结合人工归纳的“整体-部件”关系文本模式进行产品特征识别。与Hu的方法相比,召回率降低了2%,准确率提高了10%;郝玫和王道平[5]将产品评论面向供应链建立产品评价概念树,然后对此评价树采用关联规则进行频繁项挖掘,将最小支持度为1%的项转换为客户关注特征,查全率达到了90.5%,比仅采用关联规则高出18.1%。

徐叶强等[6]首先通过30组词性规则确定候选评价对象,然后采用特殊词过滤、非完整性过滤及非稳定性过滤规则过滤候选评价对象,最后利用评价短语共现规则及评价对象出现频率进行置信度排序,置信度高的直接认定为评价对象,置信度低的结合扩充规则进行确认。该方法取得了较好效果,F值达到0.681。

高磊等[7]借鉴分类的思想,在产品对比评论集上采用L1-norm 规则化的线性回归方法获取候选特征集,然后通过词频和点互信息剪枝得到最终的产品特征,在4种数据集上,F平均值达到了0.74的良好效果;李俊等[8]首先通过模板及频率剪枝得到候选特征集,然后采用HITS算法对候选集进行排序,从而获得最终的产品特征,在5种评论集上进行测试,F值可以达到77.3%;张建华等[9]首先抽取了评论中的依存句法库,进一步分析得到名词和名词短语主要属于8种依存关系,然后构造二叉树并进行后序遍历得到产品特征。实验结果表明,该方法取得了较好效果。

基于频繁项的识别方式简单高效,但易于将不是产品特征的高频词识别为产品特征,同时容易遗漏低频特征词。

1.1.2 基于主题模型的特征识别

主题模型通常用于发现文本的话题,由于评论者通常围绕产品特征发表意见,学者们开始在产品特征的识别中引入主题模型;马柏樟和颜志军[10]将评论中的名词和名词短语过滤掉专有名词和品牌名词后,采用LDA模型训练得到候选特征集,然后进行同义词词林扩展和遗漏词补缺,得到最终的产品特征,该方法在两个评论集上都明显好于关联规则方法;佘维军等[11]首先提取包含名词、动词或形容词的分句,通过词性模板获得显式特征并进行聚类构成特征语料库,然后构建must-link 和 cannot-link约束,采用LDA进行主题聚类,获得产品特征。实验结果表明,该方法比仅采用句法分析或LDA的方法更有效。

为达到较高的准确率和召回率,基于主题模型的识别方式需要大量评论语料。

1.2 基于半监督方法的产品特征识别

郗亚辉[12]给出观点种子集合,考虑了产品特征和观点之间的直接及间接句法依存关系,利用双向传播算法迭代抽取特征及观点,引入“整体-部分”模式和“没有”模式提高特征抽取的召回率,然后将抽取到的特征集和观点集按照HITS算法排序,最后通过计算领域相关度进行优化,得到产品特征,取得了较好效果;杨晓燕等[13]利用词性模板集得到候选观点评价对象,采用上下文相关的方法计算候选评价对象分值,将分值高的10个对象认定为评价对象,然后从包含初始种子集和评价对象的句子中进一步抽取词性模板,采用上下文相关的方法计算确定合适的模板,反复迭代抽取模板和评价对象。实验结果表明,和上下文无关的方法相比,该方法的性能获得了大幅提高。endprint

基于半监督的方式迭代抽取产品特征,不需要很多评论语料,但确定产品特征的阈值参数需要手工调整。

1.3 基于监督方法的产品特征识别

余传明等[14]针对餐馆评论数据,将其分为服务、口味、环境、价格4个产品属性进行标注,利用多个一对一支持向量机进行分类,平均F值达到87.3,大大高于最大熵方法;吕品等[15]将评价对象分为组成部分、功能及性质,将与之关联的观点分为观点内容及强度,然后将评论中的词用12种标记符号进行标注,最后利用CRF进行挖掘。结果显示,挖掘评价对象的F值接近或超过80%。

基于监督的特征识别准确率和召回率较高,对于每种训练集都要进行人工标注,需要消耗较多人力物力。

2 观点识别

主要包括基于语义的方法和基于机器学习的方法。

2.1 基于语义的观点识别

该方法用形容词和副词的褒贬含义计算产品特征、句子及篇章的情感倾向。史伟等[16]将情感词汇分为评价词语和情感词语两类,在此基础上建立模糊情感本体,然后从HowNet中抽取70个程度词按0.8~1.5的倍数乘以情感词汇分值,同时考虑否定词的作用,构建了从特征层、句子层到文档层的情感计算方法。实验结果表明,该方法具有较高准确性;孙春华和刘业政[17]将评论中的特征句表示为特征词、情感词和修饰词的三元组,通过上下文识别特征的等同、等级和相关关系,对句子和篇章进行倾向性合成。该方法和人工标注的结果存在显著的正相关关系;陈炯等[18]从评价词和评价对象的依存句法出发,在评论语料库中抽取出频率较高的语法模板库,然后利用语法模板库识别评价搭配。实验结果表明,该方法是有效的,F值达到将近70%。

基于语义的观点识别简单易行,无需对评论语料进行标注,但识别效果不太好。

2.2 基于机器学习的观点识别

张磊等[19]总结了中文评论中情感词与特征词的5种依存关系,设计了词的词性、距离及依存关系的结构、路径关系和距离等特征模板,采用最大熵模型抽取了特征-情感对,该方法的平均F值达到75.36%;孙晓和唐陈意等[20]引入词、词性、语义角色及语法树父节点特征,采用CRFs同步抽取情感词和情感对象,然后引入语法、词义等上下文信息,采用最大熵模型进行倾向性判别。实验结果显示,在情感对象-情感詞对的抽取上,F值达到0.831,同时大幅提高了情感分类精度;刘丽等[21]首先采用Tri-train对评论语料进行半自动标注,融合词、词性和依存句法等多种特征,采用CRF抽取评价对象和评价词,然后对评价对象进行语法树剪枝,获得正确的评价单元,并形成可视化报告。该方法在评价对象和正负面评价词的识别上综合准确率均达到89%左右;贾闻俊等[22]首先通过词性模板、依存句法模板抽取出名词实体和评价短语,然后利用分层狄利克雷过程将名词实体聚类成产品属性,然后将评价短语的权重和情感词典作为先验知识,采用LDA计算产品属性的情感倾向,该模型具有较高的情感倾向准确率;彭云等[23]提出了情感词和特征词的三类must-link和cannot-link语义关系,将这三类语义关系进行融合,构建must-link和cannot-link语义图,然后将此语义关系图作为约束,采用LDA进行特征词、情感词和特征词-情感词对的提取。实验结果表明,该方法比AMC的准确率均高出约10%。

基于机器学习的方式大多需要对语料进行标注,然后利用模型进行训练以识别观点。该类方法的准确率较高,但需人工参与程度较高。

3 情感词典构建

目前大部分通用情感词典是通过人工构建的,中文情感词典主要是知网(HowNet)的情感分析词语集,其中包含了中英文的评价词和情感词。由于应用领域的差异及新词的不断出现,基于人工构建的情感词典在实际使用中效果不太理想,学者们开始聚焦于情感词典的自动构建。

黄高峰等[24]将情感词细分为表达情绪的7类细粒度情感词,从知网中筛选出种子词集,利用知网的义原层次树设计义原相似度计算方法,计算情绪语料库中抽取的情绪词和种子词的相似度,得到了具有权重的细粒度情感词库;郗亚辉[25]首先利用双向传播算法获取评论中的特征词和情感词,提出了情感词之间的4种上下文约束关系,将这种约束结合情感词种子融入标签传播算法中,计算出情感词的褒贬,最后利用上下文计算情感冲突,以识别领域相关的情感词。实验结果表明,该方法能有效提高情感倾向计算的效果。

4 结语

本文对中文产品评论细粒度情感分析的3方面研究进行了综述,指出了各自的优势和不足。随着我国电子商务的发展,评论的细粒度情感分析日益成为研究热点,未来需要深入研究的内容主要有:①基于监督的方法识别产品特征及观点的准确率较高,但需要对大量语料进行标注,而少量标注或无需标注的方式识别产品特征及观点的准确率较低,采用半自动方式标注语料有助于节省人力,且达到较好的识别效果;②微博或导购网站(如it168)上也发表了很多产品意见,由于这些评论者和购物网站的卖家没有直接联系,发表的意见会更客观。将这些产品评论和购物网站的产品评论结合起来,有助于提高观点识别的准确率;③现有的评论语料库很少,目前举办了八届的中文倾向性分析评测(Chinese Opinion Analysis Evaluation, COAE)提供的测评语料中虽不少涉及了产品评论,但未进行细致的分类,也没有标注数据,无法满足全方位的细粒度情感分析。研究要素级(产品特征及观点)的标注规范,收集大量评论数据并设置“篇章─句子─要素级”的标注语料将有助于细粒度情感分析的快速发展。

参考文献:

[1]POPESCU A-M, ETZIONI O.Extracting product features and opinions from review[C].Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing,Stroudsburg,USA:Association for Computational Linguistics,2005.endprint

[2]HU M, LIU B. Mining opinionfeatures in customer reviews[C].Proceedings of the 19th National Conference on Artifical Intelligence. AAAI Press, 2004:755-760.

[3]李实,叶强,李一军,等.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报,2009(2):142-152.

[4]熊壮.基于无监督学习的产品特征抽取[J].计算机工程与应用,2012,48(10):160-163.

[5]郝玫,王道平.面向供应链的产品评论中客户关注特征挖掘方法研究[J].现代图书情报技术,2014,30(4):65-70.

[6]徐叶强,朱艳辉,王文华,等.中文产品评论中评价对象的识别研究[J].计算机工程,2012,38(20):140-143.

[7]高磊,戴新宇,黄书剑,等.基于特征选择和点互信息剪枝的产品属性提取方法[J].模式识别与人工智能,2015(2):187-192.

[8]李俊,陈黎,王亚强,等.面向电子商务网站的产品属性提取算法[J].小型微型计算机系统,2013,34(11):2477-2481.

[9]张建华,翁鸣,李晓乐,等.基于依存句法和二叉树模型的评价对象抽取[J].计算机技术与发展,2016(2):52-55,60.

[10]马柏樟,颜志军.基于潜在狄利特雷分布模型的网络评论产品特征抽取方法[J].计算机集成制造系统,2014,20(1):96-103.

[11]佘维军,刘子平,杨卫芳,等.基于改进LDA主题模型的产品特征抽取[J].计算机与现代化,2016(11):1-6,57.

[12]郗亚辉.产品评论特征及观点抽取研究[J].情报学报,2014,33(3):326-336.

[13]杨晓燕,徐戈,廖祥文,等.上下文相关的双向自举观点评价对象抽取方法[J].计算机工程与应用,2015(15):143-147,178.

[14]余传明,陈雷,张小青,等.基于支持向量机的产品属性识别研究[J].情报学报,2010,29(6):1038-1044.

[15]呂品,钟珞,蔡敦波,等.基于CRF的中文评论有效性挖掘产品特征[J].计算机工程与科学,2014,36(2):359-366.

[16]史伟,王洪伟,何绍义,等.基于语义的中文在线评论情感分析[J].情报学报,2013,32(8):860-867.

[17]孙春华,刘业政.基于产品特征词关系识别的评论倾向性合成方法[J].情报学报,2013,32(8):844-852.

[18]陈炯,张虎,曹付元,等.面向中文客户评论的评价搭配识别研究[J].计算机工程与设计,2013,34(3):1073-1077.

[19]张磊,李珊,彭舰,等.基于依存关系和最大熵的特征—情感对分类[J].电子科技大学学报,2014(3):420-425.

[20]孙晓,唐陈意.基于层叠模型细粒度情感要素抽取及倾向分析[J].模式识别与人工智能,2015(6):513-520.

[21]刘丽,王永恒,韦航,等.面向产品评论的细粒度情感分析[J].计算机应用,2015,35(12):3481-3486,3505.

[22]贾闻俊,张晖,杨春明,等.面向产品属性的用户情感模型[J].计算机应用,2016,36(1):175-180.

[23]彭云,万常选,江腾蛟,等.基于语义约束LDA的商品特征和情感词提取[J].软件学报,2017,28(3):676-693.

[24]黄高峰,周学广,李娟,等.具有权重因子的细粒度情感词库构建方法[J].计算机工程,2014(11):211-214.

[25]郗亚辉.产品评论中领域情感词典的构建[J].中文信息学报,2016,30(5):136-144.endprint