基于情感特征向量空间模型的中文商品评论倾向分类算法

2016-09-08 10:41
计算机应用与软件 2016年8期
关键词:特征向量词典类别

董 祥 和

(天津职业技术师范大学经济与管理学院 天津 300222)



基于情感特征向量空间模型的中文商品评论倾向分类算法

董 祥 和

(天津职业技术师范大学经济与管理学院天津 300222)

为了能够快速有效地将中文商品评论识别为好评或差评,提出一种算法。针对不同类别的商品,预先根据其评论语料构建领域情感词典,评论文本与情感词典集匹配提取情感特征,构建情感特征向量空间模型SF-VSM(Sentiment Feature Vector Space Model),解决传统的特征向量空间模型维数较高及特征选择误差问题。然后基于该模型结合改进的多项式朴素贝叶斯方法对评论进行情感倾向分类。实验结果表明,相比分别基于原始特征和基于χ2特征选取的朴素贝叶斯分类算法,该算法分类精度较高且分类速度快。

中文商品评论情感倾向情感词典情感特征向量空间模型朴素贝叶斯分类

0 引 言

国内多数电子商务销售平台的用户可以对商品及服务发表评价。商品评论信息对商家及购物者都很重要,会影响潜在消费者的购买。通过对商品评论文本的采集分析可以得知用户对商品的褒贬程度,有助于商家改进生产及销售策略。随着电商平台用户和商品的不断增长,针对各种商品的评论文本信息数量激增,要求能够根据评论情感倾向及时、准确地自动进行分类,统计好评和差评程度是电商平台需要考虑解决的问题。情感分析语义计算可用于分析商品评论文本的褒贬性。该方法基于情感词典匹配,适用的语料范围较广,无论是手机、电脑这些商品,还是书评、影评都有相应语料。但是词典匹配需要深入到词语、句子、语法这些层面,分类结果会由于语义表达的丰富性而出现较大误差[1]。监督机器学习方法也可用于商品评论文本情感分析。朴素贝叶斯分类算法是常用的统计学习分类方法,需要人工标注训练文本,将训练文本分句分词,如果直接将分词作为原始特征进行分类学习,会大幅度增加分类器的训练时间,而且由于分类效果依赖于训练文本和测试文本之间的相关性,会引入噪声特征,影响分类性能[2]。文献[3,4]研究比较了中文文本分类中文档频率、χ2(Chi-Square, CHI)统计等特征选取方法对分类效果的影响。由于针对选定的训练文本进行训练,可能会筛选掉包含着重要判断信息的情感特征词,或保留一些无法体现情感倾向的特征词,而且待测文本需参与较复杂的特征选择运算,不利于大规模在线评论统计分类。

本文提出语义分析和监督分类相结合的方法,为不同类别商品根据评论语料构建领域情感词典。将评论文本与情感词典集匹配提取情感特征,构建低维数的情感特征向量空间模型SF-VSM,结合改进的多项式朴素贝叶斯分类算法构建分类器。采集国内某电商平台的三份商品评论文本集作为分析样本,分别与基于原始特征、χ2特征选择向量空间模型的朴素贝叶斯分类算法进行了实验对比。

1 相关知识

语义分析算法在分析商品评论文本情感倾向时,首先需读取某条评论文本并进行分句;然后查找分句的情感词并赋予相应分值,查找程度词、否定词和感叹号并赋予相应权重,统计该分句的好评分值p1和差评分值n1,统计所有分句的好评分值和差评分值;最后计算得到该条评论的好评均值pm和方差pv,以及差评均值nm和方差nv,从而可以得到该条评论的褒贬程度[5]。评论文本分词后需要和情感词典比对确定情感倾向,情感词典包括基础情感词典、拓展情感词典。基础情感词典包括了一些被广泛认同的如“好”、“差”等这些情感词,通常把知网提供的正面/负面评价词语、正面/负面情感词语和台湾大学简体中文情感极性词典的positive/negative词典消重之后组合在一起,构成基础积极/消极情感词典,同时需要对知网提供的程度级别词语进行权值的设置。将基础情感词典通过同义词词典找到情感词的同义词,这样就拓展了基础情感词典,称为拓展情感词典[6]。

机器学习方法分类商品评论文本情感时,需先选出一部分表达积极情感的文本和一部分表达消极情感的文本,用概率统计方法进行训练,获得一个情感分类器。通过情感分类器对所有文本进行积极和消极的二分分类[7],最终的分类可以为评论文本给出好评/1或差评/0这样的类别,也可以给出好评或差评的概率值。文本分类最常用的文本特征表示模型是向量空间模型VSM,向量空间模型假设文本中词条对文本类别所起的作用是相互独立的,把文本看作一系列无序词条的集合[8]。如果分类算法直接将训练文本分词作为特征,则特征项空间维数太大,会产生稀疏问题和增加计算复杂度;如果仅限于对分类的训练文本进行特征选择,将可能会保留一些无情感倾向的无用特征或剔除一些在特定领域有情感倾向的有用特征。本文考虑构建不同类型商品的领域情感词典,结合基础和拓展情感词典,分析提取商品评论文本中的立场、情绪等情感特征,构建相应的情感特征向量空间模型,降低特征向量空间维数,以达到改善分类精度和提高分类速度的目的。

2 基于情感特征向量空间模型的中文商品评论情感倾向分类算法

2.1情感特征向量空间模型

在特定的领域,有些并非基础的情感词也有情感倾向,比如“此款手机很耐摔,还防水,挺好!”耐摔、防水是在手机商品这个领域有积极情绪的词。为确保文本情感特征提取的全面准确,需要针对不同类别的商品构建领域情感词典。采用基于领域语料的逐点互信息PMI(Point-wise Mutual Information)[9]计算法构建领域情感词典,在相应的语料库中循环统计特征词、特征词与积极基础情感词和特征词与消极基础情感词分别出现的数量。利用这些数据计算积极互信息和消极互信息,求两个互信息之差,差为正则积极、为负则消极。重复计算不同词的互信息之差,最后选分值高的特征词组成领域情感词,计算方法如下:

(1)

其中word表示被测词,SO-PMI(word)表示积极互信息和消极互信息之差,Pwords和Nwords分别表示基础情感词典中的积极和消极基准词,PMI计算如下式:

(2)

其中p(w1,w2)表示被测词w1与基础情感词w2同时出现的概率,p(wi)表示wi出现的概率。设N为语料库所有文本数,df (wi)为词wi在语料库出现的文本频率,p(wi)计算如下:

(3)

为不同类型商品构建的领域情感词典会有所不同。如通过对手机评论语料库的统计分析,能够获取“流畅、轻薄、模糊”等情感词,而服装类商品则有“合身、得体、褶皱”等情感词。类别不同而具有相似属性的商品,如手机、笔记本电脑等IT商品,分别为它们构建的领域情感词典会出现部分相同的情感词。

基础情感词典、拓展情感词典与领域情感词典组合而成的情感词典(L)用三元组描述[10]:

L={C, N, M}

C={ci}i=1,2,…,IN={nj}j=1,2,…,JM={mk}k=1,2,…,K

(4)

其中C代表情感关键词集,N代表否定词集,M代表修饰词集,这些词汇均可从词典中自动获取。给定一条评论文本R,分词表示为:

R={Rl}l=1,2,…,L

(5)

借助情感词典从R中提取特征词,得到情感特征词集合:

W={wv}={ci,v, nj,v, mk,v}

ci,v∈R∩Cnj,v∈R∩Nmk,v∈R∩M

(6)

每条评论文本被提取的所有情感特征构成一个特征向量,所有评论文本中的全部情感特征构成空间向量模型SF-VSM,其每一维对应一个情感特征,定义如下:

(7)

若为某类商品评论构建的原始特征向量空间维数记为DV,构建的情感特征向量空间SF-VSM维数记为DS,则通过(DV-DS)/DV×100%可以计算得到降维程度。

2.2改进的多项式模型朴素贝叶斯分类算法

需利用分类算法基于SF-VSM模型训练出分类规则,然后根据分类规则判定未知文本的类别。朴素贝叶斯分类是一种常用的文本分类方法,将表示成为向量的待分类文本Di(x1,x2,…,xn)归到类别集合C={C1, C2,…,Cm}中的某一类。其中Di(x1, x2,…, xn)为待分类文本Di的特征向量,C={C1, C2,…,Cm}为给定的文本类别集合,即求解向量Di(x1, x2,…, xn)属于给定类别C1, C2,…, Cm的概率值(p1, p2,…, pm),其中pj为Di(x1, x2,…, xn)属于Cj的概率,则max(p1,p2,…,pm)所对应的类别就是文本Di所属的类别。假设Di为一任意文本,文本Di属于Cj的概率为:

(8)

其中P(x1,x2,…,xn)对应所有类值是相同的,所以只需估算P(Cj)P(x1,x2,…,xn|Cj),式(8)可转化为如下公式:

(9)

朴素贝叶斯分类假设在给定的文本类别下,文本特征项是相互独立的,则有:

(10)

式(9)可简化为:

(11)

根据P(Di|Cj)计算方式的不同,朴素贝叶斯分类主要有多变量伯努利模型MBM(Multivariate Bernoulli Model)、多项式模型MM(Multinomial Model)等模型[11]。由于多项式模型考虑了特征项在文本中出现的次数,该信息决定一个文本的类别时具有重要的价值,所以本文采用了多项式模式朴素贝叶斯分类方法。文本属于类Cj时特征词xi出现一次的概率为P(xi|Cj),出现nk次的概率为P(xi|Cj)nk,假定共有n个词,则n=n1+n2+…+nk,则有:

(12)

P(xi|Cj)采用词频估算:

(13)

为了避免数据稀疏引起的零概率问题,一般会引入laplace平滑因子[12],如下式:

(14)

式中V是训练样本的特征词表。如果训练集中某类别包含的特征词量较大,而其他类别包含的特征词量相对少,利用式(14)计算可能会造成较大的估计偏差。提出采用修正的平滑因子λ,λ取特征项xi在所有类中出现的概率,即λ=P(xi|C),式(14)调整为下式:

(15)

先验概率P(Cj)计算如下:

(16)

对于给定的待测文本Di,通过式(11)、式(15)和式(16)表示的模型计算后验概率分布,将后验概率最大的类作为Di的类输出。

2.3算法描述

提出的中文商品评论文本情感倾向分类算法主要步骤描述如下:

(1) 针对要处理的某类商品,利用2.1节式(1)-式(3)基于相应评论语料库构建领域情感词典;

(2) 将该类中文商品评论集预处理,人工标注文本所属类别,标注每条评论属于好评或差评;

(3) 采用交叉验证方法,将标注文本分为训练文本和测试文本;

(4) 将训练文本分句、分词,去除停用词和高频词,构成初始文本向量;

(5) 将初始文本向量与基础情感词典、拓展情感词典和领域情感词典,提取情感词特征,根据2.1节式(4)-式(7)构建SF-VSM;

(6) 基于SF-VSM和式(15)计算每个情感特征项对类别进行划分的条件概率,记录结果;

(7) 根据式(16)计算好评和差评两个类别在训练文本集中出现的频率,记录结果;

(8) 输入测试文本,依据(4)、(5)步生成测试文本情感特征向量;

(9) 利用式(7)计算测试文本情感特征向量分别属于两个类的概率,将测试文本分配到概率最大的类别中,记录分配结果;

(10) 针对所有测试文本,重复(8)、(9)步,统计所有测试文本分配结果和实际标注的类别一致次数,计算分类准确率;

(11) 重复(3)-(10)步,多次迭代计算分类平均准确率;

(12) 输入待分类评论文本,依据(4)、(5)步生成待分类评论文本情感特征向量;

(13) 利用式(7)计算待分类评论文本情感特征向量分别属于两个类的概率,将待分类评论文本分配到概率最大的类别中,输出结果,算法结束。

算法步骤中(4)-(7)步生成分类器,(8)-(11)步测试分类准确率,(12)、(13)步完成待分类评论文本的分类。

3 实 验

实验比较三种算法对中文商品评论文本情感倾向的分类效果。算法一是文中提出的基于情感特征向量空间模型的改进多项式模型朴素贝叶斯分类算法。算法二是基于原始特征向量空间模型的多项式模型朴素贝叶斯分类算法,该算法直接将评论文本分词作为特征项。算法三是基于χ2特征选择向量空间模型的多项式模型朴素贝叶斯分类算法[13]。χ2统计方法假设词条和文本类别之间符合具有一阶自由度的χ2分布,通过衡量词条与文本类别之间的相关程度选择特征以降低特征空间的维数。

3.1实验数据与评价指标

实验数据采集自国内某电商平台指定型号的数码相机、手机、笔记本的用户评论,其中数码相机评论7067条,手机评论11 125条,笔记本评论23 379条。鉴于评论分类是二分类问题,将三份评论进行剔除保留处理,人工分类标注,得到数码相机评论好评和差评均为2409条,手机评论好评和差评均为4742条,笔记本评论好评和差评均为8653条。

算法一使用的基础情感词典由知网提供的情感词语和台湾大学简体中文情感极性词典消重组合在一起,拓展情感词典采用哈工大信息检索研究中心同义词词林扩展版。从http://www.datatang.com下载关于数码相机、手机、笔记本相应的评论语料库。根据2.1节提出的方法分别构建数码相机、手机、笔记本对应的领域情感词典,其中数码相机领域情感词典中有502个褒义词、170个贬义词,手机领域情感词典中有810个褒义词、352个贬义词,笔记本领域情感词典中有838个褒义词、368个贬义词。

查准率(precision)、召回率(recall)和微平均(F1)作为评价分类效果的指标[14]。查准率是指算法正确分类到某个类别的评论文本数与算法分类到该类别的评论文本数的比率;召回率是算法正确分类到某个类别的评论文本数与人工分类到该类别的评论文本数的比率;F1微平均值综合考虑了查准率和召回率两个指标,计算公式如下:

(17)

3.2实验结果与分析

程序用Java语言实现,采用10折交叉验证法进行训练和测试,每次分配训练文本和测试文本后,交给三种算法运算处理,记录训练时间和测试时间,计算评价指标值,并重复10次取平均值。程序在Intel pentium4 3.2 GHz的CPU,内存4 GB的PC机,Windows 7操作系统上运行测试。

实验中统计对比得到,针对数码相机评论,相比于算法二为其构建的原始特征向量空间,算法一为其构建的情感特征向量空间维数下降了53.4%。而手机评论特征空间维数下降了51.7%,笔记本评论特征空间维数下降了52.3%。三种算法的分类效果如图1所示。

图1 三种算法分类效果

从实验结果可以看出,算法一的分类精度高于算法二和算法三。当对笔记本评论分类时算法二分类效果最差,说明特征向量维数过高造成噪声数据过多,影响了分类精度。当对数码相机评论分类时,由于训练文本较少,算法三保留了过多的低频词,这些低频词并非情感特征,大都是噪音词,不应作为特征,相比于算法二,分类效果提升并不明显。由于实验目的是识别评论属于好评或差评,应主要考虑文本情感特征,而中文商品评论文本的情感特征比较丰富,情感词与评价对象之间的对应关系比较清晰。算法一能够较准确地提取情感特征,空间维数相比算法二和算法三都低,而且在计算条件概率时采用了修正的平滑因子,计算准确率较高。当对笔记本评论分类时精度有所下降,但不是特别明显,说明算法分类性能比较稳定。

鉴于算法需实际运用于电商平台在线评论分类系统,3种算法的训练文本训练时间和测试文本分类时间需要测试,时间开销如表1所示。

表1 三种算法时间开销

算法二将所有分词作为特征项,随着评论文本的增加,词汇增多,特征向量维数远高于算法一和算法三,增加了分类计算复杂度,计算耗时最长。算法三根据χ2分布提取特征的计算复杂度为O(n2),同一类别生成的特征向量维数仍比算法一要高。算法一分词匹配提取情感特征的计算复杂度为O(m×n),生成的SF-VSM维数均低于算法二和算法三,训练时间开销较小,测试文本分类时间短,满足在线评论分类要求。

3.3存在的问题

针对不同类别商品的中文评论文本,提出的算法在情感倾向分类之前,需要完成相关预备工作,即收集整理不同类别商品评论语料库,并通过语义分析方法构建领域情感词典。整理并定期更新完善各类别语料库,是算法能够有效运行的前提条件,并且对在线商品评论情感倾向分类时,需要将情感词典集作为模块集成到分类程序中,同时需要经常更新领域情感词典。

4 结 语

基于SF-VSM模型结合改进的多项式朴素贝叶斯算法,能够快速有效地将中文商品评论文本分类为好评或差评,分类得到的结果可以为推荐系统提供帮助。差评度较高的商品将不会被推荐给用户,也可以为在线广告投放系统提供帮助,好评程度较高的商品相关广告可以被投放。针对差评度较高的商品,需要深入分析挖掘差评评论文本,提取意见较大的商品属性或服务项目,这样有助于生产企业改进商品和销售企业改进服务,这也是进一步的研究方向。

[1] Peter T,Michael L.Measuring Praise and Criticism:Inference of Semantic Orientation from Association[J].ACM Transactions on Information Systems,2003,21(4):315-346.

[2] Bing Liu.Sentiment Analysis and Opinion Mining[M].California:Morgan & Claypool Publishers,2012:24-28.

[3] 张瑾.基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014,33(4):153-155.

[4] 李晓红.中文文本分类中的特征词抽取方法[J].计算机工程与设计,2009,30(17):4127-4129.

[5] 陈晓东.基于情感词典的中文微博情感倾向分析研究[D].武汉:华中科技大学,2012.

[6] 周咏梅,杨佳能.面向文本情感分析的中文情感词典构建方法[J].山东大学学报:工学版,2013,43(6):27-33.

[7] 周杰.基于机器学习的网络新闻评论情感分类研究[J].计算机应用,2010,30(4):1011-1014.

[8] Turney P D.Thumbs up Or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of ACL-02,40th Annual Meeting of the Association for Computational Linguistics.Philadelphia:ACL,2002:417-424.

[9] 王振宇,吴泽衡.基于HowNet和PMI的词语情感极性计算[J].计算机工程,2012,38(15):187-193.

[10] 夏云庆,杨莹,张鹏洲,等.基于情感向量空间模型的歌词情感分析[J].中文信息学报,2010,24(1):99-103.

[11] Barber D.Bayesian Reasoning and Machine Learning[M].Oxford:Cambridge University Press,2012:227-237.

[12] 杜选.基于加权补集的朴素贝叶斯文本分类算法研究[J].计算机应用与软件,2014,31(9):253-255.

[13] 徐明,高翔,许志刚,等.基于改进卡方统计的微博特征提取方法[J].计算机工程与应用,2014,50(19):113-117.

[14] Manning C M.Introduction to Information Retrieval[M].Oxford:Cambridge University Press,2010:151-173.

CLASSIFICATION ALGORITHM FOR CHINESE PRODUCT REVIEWS TENDENCY BASED ON SENTIMENT FEATURES VECTOR SPACE MODEL

Dong Xianghe

(SchoolofEconomicsandManagement,TianjinUniversityofTechnologyandEducation,Tianjin300222,China)

To classify the Chinese product reviews as positive or negative quickly and efficiently, we propose an algorithm. It builds the domain sentiment lexicon in advance according to the review corpus in regard to the products of different categories, and extracts the sentiment features by matching the reviews text with sentiment lexicon set. Then it builds the sentiment feature vector space model (SF-VSM) to solve the problems of traditional vector space model in higher dimensionality and feature selection error. Afterwards, based on SF-VSM and in combination with the improved multinomial naive Bayes method, it classifies the sentiment tendency of reviews. Experimental results show that the proposed algorithm has higher classification accuracy and classification speed than the naive Bayes algorithms based on primitive vector space model or χ2feature selection respectively.

Chinese product reviewsSentiment tendencySentiment lexiconSentiment feature vector space modelNaive Bayes classification

2015-03-03。天津职业技术师范大学科研发展基金项目(SK12-01)。董祥和,副教授,主研领域:Web数据挖掘,智能信息处理。

TP391

A

10.3969/j.issn.1000-386x.2016.08.071

猜你喜欢
特征向量词典类别
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
米兰·昆德拉的A-Z词典(节选)
米沃什词典
壮字喃字同形字的三种类别及简要分析
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
服务类别
多类别复合资源的空间匹配
漫画词典