一种融合词序信息的多粒度文本话题情感联合模型

2014-08-07 12:17赵煜邵必林边根庆
西安交通大学学报 2014年11期
关键词:词序倾向性词汇

赵煜,邵必林,边根庆

(西安建筑科技大学管理学院, 710055, 西安)

一种融合词序信息的多粒度文本话题情感联合模型

赵煜,邵必林,边根庆

(西安建筑科技大学管理学院, 710055, 西安)

针对基本话题模型只能抽取粗粒度上下文信息的问题,通过对潜在狄里克雷分配(LDA)模型进行扩展,建立了一种利用词序信息的多粒度话题情感联合模型(MTSU-Col)。MTSU-Col模型客观表达了词汇、全局/局部话题、情感标签和词序信息之间的关联关系,使模型中话题和情感的建模更加符合文本的语义表达,有效解决了现有话题、情感分析方法存在的领域依赖问题,从而实现了文本多粒度话题信息和情感倾向信息的同步非监督获取。实验表明:利用MTSU-Col模型对文本进行情感倾向性分类,可使综合评价指标F1值达到84%,整体性能与监督分类方法支持向量机(SVM)类似,均优于未采用词序信息的分析方法。由于挖掘话题集合具有层次化、语义相关的特点,因此MTSU-Col模型对观点挖掘是可行、有效的。

话题模型;文本情感分析;联合模型;词序信息

网络评论文本具有海量化、复杂化的特点,促使人们利用自动评论文本挖掘技术[1]进行人工难以完成的深层次、智能化的评论文本分析。评论文本挖掘包括话题挖掘技术、文本情感倾向性分类技术以及观点挖掘技术。话题挖掘技术主要抽取文本中的客观信息[2],但无法抽取情感语义信息。情感倾向性分类技术利用各类文本分类算法判别文本的主客观属性或褒贬倾向属性[3-4],这一类方法只能对整篇评论进行情感分析,缺乏对话题等深层次语义对象的情感分析,因此无法进行细粒度文本情感信息获取。观点挖掘技术在获取客观话题信息和主观情感倾向性信息的基础上,挖掘话题与子话题、话题与情感倾向信息之间的关联信息[5-6],但评价特征集合没有明确的语义关系[6],需要利用领域知识解决评价特征集合的冗余问题[5]。

潜在狄里克雷分配(LDA)模型[7]是一个完全的生成模型,具有良好的数学基础和拓展性,LDA模型及其扩展模型在文本分类、情感分析等领域受到了越来越多的关注[8-12]。Lin等(记为Lin模型)在LDA模型中加入了情感标记节点,模型中文本与多个文本-话题条件分布相关,词汇生成需同时考虑话题和情感信息[10]。利用Lin模型进行篇章级情感分析的整体效果优于监督分类方法,但Lin模型仅面向篇章级分析,无法挖掘评价特征之间的语义关系。Titov等提出了完整的评价特征挖掘方法和情感倾向性预测方法[11],由于需要外部信息来辅助情感倾向性判断,属于监督学习方法。Jo等提出的方法[12]是以假定句子中所有的词来自一致的话题和情感为前提条件,强制性地缩小了词汇之间的主题联系,与客观情况并不相符。

针对上述研究存在的问题,本文提出了一种利用词序信息的多粒度话题情感联合模型(MTSU-Col),用户可以同步进行评价对象挖掘和情感倾向性分类2个任务。该模型将LDA模型进行扩展,同时融入了文本的情感和话题信息,每个句子都采样情感标签,每个词都采样全局/局部主题标签,利用词序信息建模方法[13]使MTSU-Col模型更加贴近文本的真实语义。MTSU-Col模型采用非监督学习方法,不需要任何领域相关的先验知识,具有领域独立性。实验表明,MTSU-Col模型挖掘的评价特征集合具有明确的语义关系,从而大量减少了冗余评价特征,篇章级情感倾向性分类的整体效果优于一般的监督分类方法。

1 MTSU-Col模型的建立

MTSU-Col模型将话题分为全局话题和局部话题,全局话题混合分布固定不变,局部话题混合分布随上下文环境变化。评论文本由短句构成,由于字数较少,短句通常是文本情感表达的基本单元,因此MTSU-Col模型在句子级采样情感标签并引入滑动窗口随机变量中起到了记录局部话题变化的作用。

假设语料库中包含D个文档,共有K1个全局话题,K2个局部话题;共有S种文本情感;文本d由H个句子构成;每个滑动窗口由M个句子构成;每个句子由N个词汇构成。对语料库进行去重操作后,词汇表中的词汇数量为V。利用贝叶斯网络表示MTSU-Col模型如图1所示。

图1 MTSU-Col模型

MTSU-Col模型生成过程的描述如下:当xn=0词汇由话题、情感相关的词汇概率分布采样;当xn=1词汇采样自词汇连接的概率分布。MTSU-Col模型生成过程如下。

2 MTSU-Col模型推理及分析

Gibbs采样算法是MCMC(Markov Chain Monte Carlo)算法的一种,多用于贝叶斯图模型求解中。与变分贝叶斯方法相比较,Gibbs采样方法描述简单且容易实现,是目前LDA及扩展模型最常用的参数估计方法[8,14]。本文采用Gibbs采样算法对MTSU-Col模型进行推理。

为了描述方便,定义wi为词汇记号,表示wi出现在第d个文本的第n个位置,属于文本d的第h个句子;lh表示wi所属句子的情感标注结果;zi表示词汇记号wi所属话题。依据MTSU-Col模型生成过程分为2种情况。

(1)当xi=0时,wi出现在句子h的滑动窗口o中,属于全局话题z,且lh=l时的条件后验分布如下

P(zi=z,ρi=1,oi=o,lh=l|z-i,ρ-i,o-i,l-h,W)

(1)

(2)当xi=1时,wi根据词汇连接的概率分布产生,因此当wi出现在句子的滑动窗口中,属于全局话题,且lh=l的条件后验分布如下

P(zi=z,ρi=1,oi=o,lh=l|z-i,ρ-i,o-i,l-h,W)

(2)

当xi=1时,词汇记号属于局部话题的条件后验分布同理可得。

当xi=1时,xi的条件后验分布如下

P(xi|x-i,W,z,ρ,o,l)=

(3)

利用马尔可夫链收敛状态下的抽样样本,舍弃词汇记号,将w作为唯一性词,估计MTSU-Col模型参数如下

(4)

(5)

(6)

(7)

3 实验验证与分析

MTSU-Col模型主要用于文本情感倾向性分类和全局/局部话题挖掘2个任务,因此本文依据这2个任务对MTSU-Col模型进行验证。

3.1 数据集预处理

本文实验数据集由3部分构成,第1部分来自中科院谭松波研究员收集的中文情感挖掘语料集,选取其中酒店类评价文本,第2和第3部分是搜集于主流电商网站的关于书籍和手机的评价文本。针对短文本的特点,预处理过程还采取3项特殊措施,分别是:①仅选取出现频次高于4次的词汇进行实验;②将“,”号也作为分句的标志;③将包含感情色彩的“?”、“!”号作为词汇对待。

情感词典是提高文本情感倾向性分类效果的有效手段。本文首先采用知网提供的负面和正面评价词语作为基础情感词典,再对实验数据集进行统计,从基础情感词典中筛选出频率高于30的情感词,构成实验情感词典,整个构造过程与领域无关。在MTSU-Col模型推断的初始化阶段,若实验词汇记号出现在情感词典中,则将词汇记号情感倾向性初始化为对应值。

3.2 话题挖掘和情感分类实验

对MTSU-Col模型推断时,超参数赋值依据文献[10-11,13-14]中的经验值;全局话题数的确定通常采用多次实验调整法进行设置[10-11],本文也采用该方法;与文献[11]处理方法一致,实验将局部话题数设置为评价特征数;情感标注类别数设置为2。在LDA模型及其扩展模型的推断过程中,常用实验方法是将Gibbs抽样过程迭代500~2 000次,实验将迭代次数设置为2 000次。

3.2.1 多粒度话题挖掘实验 LDA模型是一种具有代表性的话题模型,实验将LDA模型与MTSU-Col模型的话题挖掘效果进行对比,验证了利用词序信息、层次话题结构扩展LDA模型的有效性。LDA模型中的参数设置与MTSU-Col模型一致,部分褒贬话题挖掘结果如表1所示。

由表1可以看出,褒义全局词汇集是对单词类书籍的评价,贬义局部词汇集是书籍翻译质量的贬义评价。说明MTSU-Col模型挖掘的全局话题与评价对象相对应,局部话题与评价特征相对应。与MTSU-Col模型相比较,LDA模型挖掘的话题没有将评价对象和评价特征区分开,话题1词汇集中既包含对数据库类书籍的整体评价,如“入门”、“基础”等词,也包含用户对书籍内容的评价,如“难”、“懂”等词。话题2词汇集是关于书籍包装的话题,既出现了“新”、“厚”等褒义词,也出现了“破”、“旧”等贬义词,不具有挖掘情感信息的功能。这验证了MTSU-Col模型在多层次话题挖据方面的有效性。

表1 话题挖掘对比实验结果

3.2.2 篇章级情感倾向性分类实验 Pang提出的利用支持向量机(SVM)的篇章级情感倾向性分析方法[3]是目前常用的标准比较系统,其中采用一元文法属性分类的结果最优。本文的实验采用了该比较系统(记为Pang)。为了验证融入词序信息对篇章级情感分类结果的有效性,实验将不包含词序信息的话题情感联合模型(MTSU)作为比较系统,对MTSU模型的超参数赋值以及Gibbs采样设置与本文模型相一致。

针对短文本的特点,本文采用“,”号作为分句标志、引入领域无关情感词典等2项措施,来提高篇章级情感分析的准确率。措施验证实验结果如下。

从表2中可以得到:文本预处理阶段采用“,”号作为分句标志,解决了评价文本书写不规范,“,”号前后的句义表达不同的问题,有效提高了评价文本情感倾向性分类的准确率;情感词典是文本情感分析的重要参考依据,利用语料库词频信息对通用情感词典进行过滤,提高了文本情感倾向性分类的准确率。

表2 文本情感倾向性的预测准确率

对大规模数据集合进行检索和选取时,一般均采用准确率、召回率及综合评价指标F1值作为数据分析结果的衡量指标。3种分析方法的实验结果如图2~图4所示。

图2 文本情感倾向性分类的准确率对比

图3 文本情感倾向性分类的召回率对比

图4 文本情感倾向性分类的F1值对比

由图2~图4可以看出:利用本文模型对实验数据集进行文本情感倾向性分类的平均准确率达到了83%,与Pang方法相比,只降低了1%,与MTSU模型相比,则提高了3%;本文模型的F1值达到了84%,低于Pang方法0.7%,高于MTSU模型3%,验证了将词序信息融入文本情感分析方法的有效性与客观性。

4 结 论

本文针对基本话题模型只能抽取粗粒度上下文信息的问题,利用词汇搭配信息对LDA模型进行扩展,建立了一种融合词序信息的多粒度话题情感联合模型MTSU-Col模型。MTSU-Col模型考虑了词汇生成过程中全局/局部话题、句子情感标签之间的关联关系,对词序信息的建模使MTSU-Col模型更加贴近文本的真实语义,得到的结论如下。

(1)利用MTSU-Col模型进行文本情感倾向性分类的平均准确率达到83%,平均F1值达到84%,整体性能与监督分类方法SVM类似,且均优于未采用词序信息的分析方法,挖掘话题集合具有层次化、语义相关的特点。

(2)MTSU-Col模型更有利于提取文本真实语义,并且既不需要大量人工语料库标注,也不依赖于领域相关的先验知识,是一种整体性能优秀的非监督文本情感信息分析方法。

(3)MTSU-Col模型对LDA模型进行了多粒度话题扩展,并融入了丰富的语言结构信息,进一步提高了文本观点挖掘结果的层次性和语义相关性。

[1] LIU B, ZHANG L.A survey on opinion mining and sentiment analysis [M].Berlin, Germany: Springer, 2012: 415-463.

[2] MEI Q, ZHAI C.Discovering evolutionary theme patterns from text-an exploration of temporal text mining [C]∥Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York, USA: ACM, 2005: 198-207.

[3] PANG B, LEE L.Opinion mining and sentiment analysis [J].Foundations and Trends in Information Retrieval, 2008, 2(1/2): 1-135.

[4] TANG H, TAN S, CHENG X.A survey on sentiment detection of reviews [J].Expert Systems with Applications, 2009, 36(7): 10760-10773.

[5] CARENINI G, NG R, PAULS A.Multi-document summarization of evaluative text [C]∥Proceedings of the 11th European Chapter of the Association for Computational Linguistics.Trento, Italy: ACL, 2006: 3-7.

[6] HU M, LIU B.Mining and summarizing customer reviews [C]∥The 10th ACM SIGKDD Conference on Knowledge Discovery and Data Mining 2004.New York, USA: ACM, 2004: 168-177.

[7] BLEI D M, NG A Y, JORDAN M I.Latent Dirichlet allocation [J].Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.

[8] 徐戈, 王厚峰.自然语言处理中主题模型的发展 [J].计算机学报, 2011, 34(8): 1423-1436.

XU Ge, WANG Houfeng.The development of topics models in natural language processing [J].Chinese Journal of Computers, 2011, 34(8): 1423-1436.

[9] 冯时, 景珊, 杨卓, 等.基于LDA模型的中文微博话题意见领袖挖掘 [J].东北大学学报, 2013, 34(4): 490-494.

FENG Shi, JING Shan, YANG Zhuo, et al.Detecting topical opinion leaders based on LDA model in Chinese microblogs [J].Journal of Northeastern University, 2013, 34(4): 490-494.

[10]LIN C, HE Y.Joint sentiment/topic model for sentiment analysis [C]∥The 18th ACM Conference on Information and Knowledge Management.New York, USA: ACM, 2009: 375-384.

[11]TITOV I, MCDONALD R.Modeling online reviews with multi-grain topic models [C]∥The 17th International World Wide Web Conference 2008.New York, USA: ACM, 2008: 111-120.

[12]JO Y, OH A.Aspect and sentiment unification mode for online review analysis [C]∥The 4th ACM International Conference on Web Search and Data Mining.New York, USA: ACM, 2011: 815-824.

[13]GRIFFITHS T, STEYVERS M, TENENBAUM J B.Topics in semantic representation [J].Psychological Review, 2007, 114(2): 211-244.

[14]GRIFFITHS T, STEYVERS M.Finding scientific topics [C]∥Proceedings of the National Academy of Sciences.New York, USA: United States National Academy of Sciences, 2004: 5228-5235.

(编辑 赵炜)

AJointModelforMulti-GranularityTopicsandSentimentswithFusingWordOrderInformation

ZHAO Yu,SHAO Bilin,BIAN Genqing

(School of Management, Xi’an University of Architecture and Technology, Xi’an 710055, China)

A joint model for multi-granularity topics and sentiments (MTSU-Col model) based on an extension to LDA model by incorporating collocation is proposed to solve the problem that the basic topic model captures only coarse-granularity contextual information.The MTSU-Col model objectively expresses the correlative relationship among words, globallocal topics, sentiment labels and collocation, allows us to infer topics and sentiment information, and provides a closer match to real semantic representation contained in texts.The MTSU-Col model synchronously realizes an unsupervised mining of multi-granularity topics and sentiment information, and effectively solves the domain dependent problem in existing methods.Experimental results show that the proposed model achievesF1of 84% for sentiment classification, and its performance is comparable to the performance of SVM methods.Since the mining collection of topics is hierarchy and semantic related, it is feasible and effective to use the proposed model for opinion mining.

topic model; text sentiment analysis; unification model; collocation

2014-03-26。

赵煜(1981—),男,博士生;邵必林(通信作者),男,教授,博士生导师。

国家自然科学基金资助项目(61272458)。

10.7652/xjtuxb201411018

TP391

:A

:0253-987X(2014)11-0103-06

猜你喜欢
词序倾向性词汇
基于模糊数学法的阿舍勒铜矿深部岩体岩爆倾向性预测
本刊可直接用缩写的常用词汇
一些常用词汇可直接用缩写
修改病句的妙招
本刊可直接用缩写的常用词汇
汉语搭配信息对词汇识别的影响
俄汉语定语对比
关于医患冲突报道的倾向性分析——以“湘潭产妇死亡案”为例
“没准儿”“不一定”“不见得”和“说不定”的语义倾向性和主观性差异
影响词序的“普通重音”规则