网络评论观点挖掘综述

2019-04-12 07:01赵泽青
现代计算机 2019年7期
关键词:极性词典语义

赵泽青

(四川大学计算机学院,成都610065)

0 引言

随着互联网技术的发展,越来越多的人通过网络表达自己对某事件、商品、电影的观点、态度、意见等,因此发现评论中有用的观点,对于个人、企业或者政府机构都是非常有决策价值的参考信息,例如:个人在购买某件商品的时候可能会去看该商品对应的一些评价,有的人会比较关注商品的整体评价,而有的人会比较关注商品某些属性的评价;挖掘到评论的观点,对于企业来说也可以根据用户的需求来调整自己的服务、销售策略等;目前是自媒体时代,对于网络上传播的任何事情,人们都可以自行的转发和评论,挖掘到大众对于热点事件的态度,政府机构可以根据事件的走向做出相应的决策。

目前网络评论观点挖掘主要研究的是商品评论的观点挖掘、豆瓣电影评论的观点挖掘、旅游评论的观点挖掘以及某些热门事件的观点挖掘,对于商品评论而言,内容多样、格式不固定、语句口语化,但是这些评论的观点比较明显;相对商品而言,电影的评论较为正式、比较容易判断所表达的情感。

1 观点挖掘层次

观点挖掘很多研究者又将其称为意见挖掘或者情感分析。主要是识别出观点的持有者、评价对象、观点表达的内容以及其情感倾向性。

1.1 文档级观点挖掘

该层次的观点挖掘主要是将一个文本看作一个统一的单元,对这个整体进行观点的挖掘,然后将其观点所表达的正面、负面、中性情感倾向性作为文档的分类类别。该层次的分析是假设每篇文档只表达出对一个单一的实体的观点。

主要的思想是对于给定的一篇文档,利用相应的分类技术将其分到相应的类别中。该层次的观点挖掘主要是提取文章的主题,然后分析该主题表达的情感倾向性。主要流程是,首先,能够识别出文章适用的情感词或者短语;其次,识别出该情感词的倾向性;最后,判断文章的整体情感倾向性。主要使用的方法分为一下4 个类别:①基于文本分类的情感极性分析方法;②基于语义规则的情感极性分析方法;③基于情感词典的情感极性分析方法;④基于深度学习的情感极性分析方法。

(1)基于文本分类的情感极性分析方法

该方法主要是将文本的情感极性判断看传统的文本分类问题,类似于主题文本分类的方法,在主题模型的文本分类方式下,主题词对于文本的类别影响比较大,而文本的情感词对于文本的情感极性判断影响比较大。使用比较多的算法是朴素贝叶斯方法、最大熵方法以及支持向量机方法。

林江豪等人提出一种基于二次情感特征提取算法,首先使用依存关系书对微博文本提取情感特征,然后再使用情感词典提取情感特征,建立了一个朴素贝叶斯分类器,用于微博文本的情感分类[1]。蒋婉婷等人结合Hadoop 与朴素贝叶斯算法对微博情感分类[2]。谢丽星等人对比了处理微博文本分类的三种方法,实验结果表示基于SVM 的方法效果最好[3]。徐军等人使用朴素贝叶斯共和最大熵方法进行新闻评论的情感分析,实验结果表明基于机器学习的情感文本分类取得不错的效果,他们所选择的特征项是具有情感倾向特征,并且还考虑到了否定词对于情感分析的影响[4]。

(2)基于语义规则的情感极性分析方法

该方法主要是使用语义模式作为文档的特征,通过语义模式可以体现文档的语义信息,常用的语义模式为:

语义模式=<主体><行为><受体>,<语义倾向值>

其中的<主体><行为><受体>称为语义模式的部件,通常对应句子的主语、谓语和宾语;<语义倾向值>表示语义模式的语义倾向权重,使用该方法提取的文本特征是语义模式。

赵天奇等人考虑了微博情感词特征与表情元素的加权处理,语义规则部分基本涵盖了常用的几种句型[5]。赵文清等人结合微博文本的特性,考虑了程度副词、否定词、表情符号等影响情感的因素,将他们加入到情感倾向性判断中[6]。李继东等人通过词典的扩展和语义规则来进行微博情感的分类,主要是构建基础的情感词典,然后通过PMI 算法扩展词典[7]。

(3)基于情感词典的情感极性分析方法

该方法是根据情感词的倾向性来判断文本的情感倾向性,主要的优点是所有主题使用同一个分类器,实现简单,运行速度快,但是局限性是情感词典固定,尤其是对于网络评论而言,经常出现一些网络用语是情感词典中没有包含的。因此有些研究者就提出根据不同的领域构建领域词典,并且监测网络用语,不断更新词典。李继东等人就根据微博评论的特性构建了基础词典、微博表情词典、否定词典、程度词词典、连词词典,并且还通过PMI 算法更新基础词典[7]。朱军等人集成Word2Vec 作为特征提取方法的支持向量机(SVM)分类方法结合基于情感词典的朴素贝叶斯分类方法,该集成方法比其他的机器学习方法的分类效果好[8]。

(4)基于深度学习的情感极性分析方法

深度学习在计算机视觉[9]、语音识别[10]、机器翻译[11]等领域取得了不错的效果。首次提出了使用CNN 进行句子分类[12];之后的研究者有对其进行,提出了动态CNN 模型[13],并且还提出了基于序列分类的CNN 模型。但是基于深度学习的方法用于文本的情感倾向性分类存在的问题是没有加入情感信息,因此文献[14]提出在词向量中加入情感信息,使得文本的词向量表示也有情感信息。

以上四类方法的优缺点总结如表1 所示。

表1 方法优缺点对比

1.2 语句级观点挖掘

该层次的观点挖掘是将每一个句子看作一个基本的单元,首先需要判断句子的主观性,然后再分析句子表达的情感极性,其实很多的评论都是属于句子级的观点挖掘。该层次的观点挖掘相对文档级而言,句子比较短,因此包含的信息比较少,对于情感极性判断比较难实现。并且该层次的观点挖掘也和文档级一样,假设每个句子只对一个实体进行评价,我们也只挖掘句子所表达的观点或情感极性。

该层次的研究主要还是商品的评论方面,分析句子的情感极性,主要是使用依存关系分析句子的关系作为其特征[15]。文献[16]使用一种基于树核函数的句子级别情感分类方法,该方法使用支持向量机作为分类器。文献[17]使用LDA 主题模型和词共现的方法将文档级降到句子级分类,实现酒店和手机评论的句子级情感倾向性分析。Kalchbrenner 等人[18]使用动态卷积神经网络进行句子级的语义建模。

1.3 属性级观点挖掘

该层次的观点挖掘主要是针对实体的某个属性,挖掘出该属性表达出的观点信息。属性级观点挖掘主要的流程是实体属性的提取,基于属性的观点内容的提取,观点的情感极性分析,观点的总结这四个过程,相对而言比较重要的是实体的属性提取和基于属性的观点内容的提取。

(1)实体属性提取

实体的属性指所评价实体的最小单位,该方面的研究主要集中于评论方面,属性的提取方法可以分为带监督的学习方法、无监督的学习方法和半监督的学习方法,Jiang 等人[19]使用树核的方法提取属性,该方法再特征选择的时候比较简单,该模型依赖于树核的定义,但是树核的定义比较困难。Poria 等人[20]使用深度模型的卷积神经网络模型实现属性的提取,结合了CNN、词向量和词性标注,该模式比较适合于处理大量的数据,但是模型参数的敏感性问题是一个难以解决的问题。Chinsha等人结合规则、依存关系和评价词典,实现复杂句的属性提取。刘鸿宇等人[21]等人基于语义的方法实现高频属性、短语以及边界的识别。Wang 等人[22]使用LDA 加种子词的方法能够学习属性信息,降低人为干涉,但是该方法主要是依赖于选择的种子词。

(2)基于属性的观点内容提取

在上一部分提取出属性的前提下,基于该属性提取观点表达的内容,其实质就是提取出一个二元组的模式:<方面,观点>。该内容的观点提取方法主要有:①基于规则的方法;②基于统计模型的方法;③基于深度模型的方法。基于规则的方法主要有基于语料库的方法和基于词典的方法;基于统计模型的方法需要人工进行标注数据集,然后使用该数据集进行模型的训练;基于深度模型的方法主要是使用词向量(Word Em⁃bedding)作为模型的输入来进行模型的训练,不需要特征的提取,不需要具备领域知识,该过程为一个自动化的过程。这三种方法的优缺点对比如表2 所示。

表2

朱嫣岚等人[23]使用知网情感词典和语义相似度以及词频的方法实现观点的挖掘,该方法简单,但是依赖于情感词典和选择的基准词典。Kim 等人[24]实现基于少量数据人工标注,能够实现词典扩充的方法,使用的技术是句法依存树加词典。目前基于统计模型的方法主要使用的技术有LDA 加贝叶斯[25],结合句法分析、LDA、HMM 以及最大熵的技术[26],也有单独使用LDA[27]、CRF[28]等技术实现观点挖掘的研究。而深度模型使用比较多的是DCNN[29]和BLSTM[30],DCNN 比较适合于变长句子的建模,不需要其他的特征,该模型能够理解语义关系。而BLSTM 模型适合于复杂句的分析,能够区分出文本中的重点句子。文献[31]认为DCNN 和BLSTM 模型的词向量仅仅只表示出了语义关系,没有包含情感,因此他们提出一种以Skip-Gram 作为基础框架,将情感信息加入到有监督的情感信息学习中,开发了两个基于Skip-Gram 的神经网络模型,整合了语义和情感信息的词向量表示。

2 不同挖掘层次的优缺点比较与可用资源

前面介绍了三种层次的观点挖掘,每种层次都有相应的研究,句子级别的观点挖掘相对较少;下表是这三个层次观点挖掘的优缺点对比,如表3 所示。

表3 不同层次观点挖掘优缺点比较

总结了目前使用比较的、比较权威的情感词典,如表4 所示。

表4 情感词典总结

3 结语

以上三种粒度的观点挖掘,基本涵盖了网络评论观点挖掘的研究,针对不同的需求,根据观点挖掘的粒度,使用不同的方法实现观点的挖掘,每一种观点挖掘的层次有其自己的优点和缺点,而每一种方法也有其自己的优缺点。接下来的研究是基于属性的观点挖掘实现网络评论细粒度的观点挖掘。

猜你喜欢
极性词典语义
真实场景水下语义分割方法及数据集
有机反应极性机理试剂分类的探索
米兰·昆德拉的A-Z词典(节选)
米沃什词典
跟踪导练(四)
词典引发的政治辩论由来已久 精读
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴
漫画词典
键的极性与分子极性判断的探究