基于情感分析的文本分类方法

2018-02-25 02:39李长镜赵书良池云仙罗燕

电子技术与软件工程 2018年7期

李长镜赵书良池云仙罗燕

摘要文本情感分析是多媒体智能理解的重要问题之一，情感分类是情感分析领域的核心问题，旨在解决评论情感极性的自动判断问题。随着近年来深度学习技术的快速发展，其在大规模文本数据的智能理解上表现出了独特的优势，越来越多的研究人员青睐于使用深度学习技术来解决文本分类问题。

【关键词】文本分类情感分析分类方法

1 引言

文本情感分类可以被看成为一类特殊的文本分类问题，目前的绝大多数研究将文本的情感倾向性按褒义（正向）、贬义（负向）这两种类别来进行极性分类，少数研究也涉及到三类（褒义、贬义和中立）。文本的粒度再被处理后可以在不同的级别上进行分类研究，如文档级和词语级等等，由于其处理的范围不同，根据其研究领域我们可以將情感分类研究再一次进行分类，单领域和跨领域情感以及单语言、跨语言情感是目前比较合适的、科学的分类标准。

2 文本情感分类面临的问题

2.1 数据稀疏性问题

随着智能手机、平板电脑等移动设备的普及，以及微博、在线社区等社会媒体的兴起，人们表达情感的方式也越来越多，实现的途径也更加多样化，同时可以随时随刻发表自己的观点，不再受时间与空间的限制。同时在这个过程中，人们在发表观点或者进行评论时更多的时应用简约化的短文本，进一步加剧了数据稀疏性这个问题。数据稀疏性问题给文本情感分类带来极大困难。

2.2 标注样本获取困难的问题

如果想要有监督学习方法具有用户满意的分类特征，就需要在进行模型的前期训练时，有针对性的标注大量典型样本。而人工标注样本过程主要存在两方面的问题，

（1）许多情况下，人工标注样本需要耗费大量的人力物力，进而增加了巨大的成本。

（2）样本标注的准确度或者标准会随着人的主观意识而发生变化，这一现象直接影响了研究的结果的准确度，直接造成一定的误差，不利于研究的顺利进行。

2.3 情感资源的不平衡性问题

随着当今社会科技的不断进步，互联网信息的呈现出多元化的特点尤其是在语言方面，这直接影响了情感资源的不平衡性，举个例子，英国早年在情感分析问题上进行了一系列的研究，其研究成果也影响了全国各地的研究学者的研究，这成果就包括了标注语料、情感词典等，而相比之下我国的国语标注语料、情感词典等资源也就相对较少，其原因也不仅仅是我国的研究时间较晚，更多的是情感资源在不同语言间具有分布不平衡性，这种不平衡性直接导致了各个国家在此研究方向或者领域的高度。

3 基于情感分析的文本分类方法

3.1 文档级情感分类

3.1.1 基于有监督学习的文档情感分类方法

这类方法中，需要先将文档表示为相应的特征向量，然后在标注样本上训练分类器，再用分类器来对新文档进行分类。Pang等人首先将有监督机器学习方法应用于文档情感分类问题中，比较了朴素贝叶斯、最大熵和支持向量机这几种方法在电影评论数据集上的褒贬分类效果，发现文本情感分类比传统文本分类更具挑战性。

这种分类方法研究深度相对较高，同时也在一些实际应用中得到了比较理想的分类结果。同时，因为任何一个分类器都具有自己的优劣势，针对不同领域，分类器效果也存在差别，每一种分类器都有其最优的应用领域，因此要有效选择分类器，进而发挥其最佳分类效果。

3.1.2 基于无监督学习的文档情感分类方法

无监督学习方法与监督学习方法不同的是在样本标注方面上，这一研究在文档情感分类上直接吸引了一批研究学者的兴趣，这里面就有一些有名的学者，如Turney计算情感短语与种子词间的点对互信息（PMI）值并进行了用形容词和副词的短语来作为情感短语的举措，在此基础上计算情感短语的情感倾向值。

他的这种方法具有独特的优势和先创性，独立性强、应用范围广、便于应用，并且无需使用人工标注样本，但是由于在发展初期，其缺点也是显而易见的，其词汇量有限，情感词汇的领域相关性以及在文章中的逻辑性都不是非常理想，这也导致了分类标准的不是很差强人意。因此，如何突破情感词典资源的各种限制性因素对无监督情感分类方法的影响，也是未来需要值得关注的研究内容。

3.1.3 基于半监督学习的文档情感分类方法

半监督学习的方法是相对于监督学习方法和无监督学习方法而言的，其关键点在于有效利用未标注数据，来进一步提升分类性能，这种方法目前已经广泛应用于文本情感分类，在使用这种方法的同时也需要注意分类模型假设的正确性，并不是未标注数据越多分类效果就越好，有时会得到相反的结果。

3.2 句子级情感分类

3.2.1 句子的主客观分类

在实际评论中，包含了许多对客观事实进行直接描述的句子，比如，“今天我和朋友一起逛了苏果超市，买了苹果、橘子还有香蕉”就是对客观事实直接描述的句子，没人任何的感情以及修饰在里边。

3.2.2 句子的情感倾向性分类

有监督学习方法在句子的情感倾向性分类的研究中具有非常重要的地位，在此基础上多重标记CRF的分级模型、将马尔科夫逻辑网与深度学习相结合、基于表情符号的规则方法、基于情感词典的规则方法、基于SVM的多策略方法也相继被一些研究学者提出来，这些分类方法也在实践中进行了试验，如在中文微博数据集上进行了情感分类。

3.3 词语级情感分类

词语级情感分类研究侧重于对所研究内容的极性判断，基于语义词典的方法和基于语料库的方法是当前社会及科研中经常用的到方法。

3.3.1 基于语义词典的方法

基于语义词典的方法顾名思义是与词语的语义相关，根据目前已有的词典提供的解释以及相反、同义词、相近等意思来进行词语级情感分类。Kim等人是基于此种方法，假设同义词为正向极性，反义词为负向极性，他们通过定义种子词为动词和形容词以及利用这些词汇进行情感词汇的扩充，同时通过对它们词义的意思进行极性判断，这种方法一出随即就有大量的研究学者研究与模仿，其中颇有名气的便是Hassan等人，他们一方面在他们的基础上进行研究，另一方面用WordNet来构建了词的语义关系图，并在图上使用马尔可夫随机游走模型来计算给定词的情感极性。

3.3.2 基于语料库的方法

基于语料库的方法的关键或者核心就在于词语与词语之间的共现关系，利用这种关系来确立情感词的倾向性，最早进行这方面的研究学者有Hatzivassiloglou，他们挖掘出来的形容词主要是来自于华尔街日报语料库，依据的原理就是利用连接词的关系来确定情感词的倾向性。尽管进行了大量研究工作，但是就情感判断而言难度依然很大，特别是很多情况下没有明显的情感倾向性，但应用在一些特定领域或环境中就表现出情感倾向性的的词汇进行识别时，还存在很大的不足。

3.4 跨语言情感分类

单语言环境下的文本情感分类是当前研究的重点，但是随著计算机网络技术的不断发展，网络上出现越来越多的情感词典、情感语料，并且充斥着各种不同的语言，这直接带来了情感基础资源的分布极不均衡，这也是进行跨语言情感分类研究的原因之一。目前跨语言情感分类的研究面临着一系列的难点问题，主要包含语言迁移、情感分析本身两方面的问题，语言迁移主要表现在不同的语言所表达的情感思想差异巨大，再进行语言情感的转换会丢失大部分的信息，而在情感分析方面最大的问题是容易造成情感歧义的干扰，Kevin等人将跨语言情感分类看成为领域适配（ domainadaptation）问题，并认为即使应用非常完美的翻译工具，跨语言情感分类仍然会面临领域适配的挑战，会导致精度退化。

总的来说，跨语言情感分类还存在许多不足之处，仍要进行大量的工作，不断完善当前存在的不足，这也是文本情感分类中一个非常重要的关注方向。

4 总结

文本情感分类研究涉及的领域范围非常广泛，包括自然语言处理、机器智能、大数据处理等，与此同时自然语言处理研究是一个非常复杂的工作，文本情感分类也具有很强的挑战性，该领域的研究工作虽然取得了长足进步，但目前仍然存在一些亟需解决的问题，需要进一步探索创新。

参考文献

[1]宋光鹏，文本的情感倾向分析研究[D].北京邮电大学，2008.

[2]倪茂树，基于语义理解的观点评论挖掘研究[D].大连理工大学，2007.

[3]杨立公，朱俭，汤世平，文本情感分析综述[J].计算机应用，2013 （06）.

[4]王光，邱云飞，史庆伟，集合CHI与IG的特征选择方法[J]，计算机应用研究，2012 （07）.