基于信息融合的情感词典扩建研究

2017-07-15 13:50孙健李超琪
智能计算机与应用 2017年3期
关键词:信息融合

孙健 李超琪

摘要:词语是文本中的情感表达的最小单位,而词语语义的情感倾向性分析是文本情感分类的基础。利用中文情感词构建出一个基础情感词典来判断未知情感词的情感极性。本文即是在HOWNET情感词语集的基礎上,利用义原相似度算法,构建了中文基础情感词典,并提出以信息融合方法,将此词典与同济大学的褒贬词典进行整合,建立了特定情感词与特定情感标注以及相应的情感权值的映射关系,实验结果表明,该方法取得不错的分类效果。

关键词:中文基础情感词典;信息融合;情感权值;情感标注

0引言

随着互联网的飞速发展,尤其Web2.0以及社交媒体的出现,越来越多的互联网用户在博客、微博、论坛里发布主观性文本。这些主观性文本可能是用户对于某个产品或服务的评价,能够提供企业以决策参考。或者是公众对于政府部门的新出台的政策的看法,来帮助有关部门了解社会舆情,及时出台相关调控政策。然而面对每天以指数级的速度增长的Web上的海量的评论信息,单纯依靠人工进行收集分析必将是耗时费力的过程,因此,通过计算机来对这些主观性文本的情感表达设计展开相关研究,即情感分析(亦称意见挖掘),在近些年里逐渐成为自然语言处理研究领域里的一个热点,并得到快速发展。

文本情感分析是指对包含用户表示的观点、喜好、情感等的主观性文本的情感倾向进行数据提取、情感分类以及做出有效的挖掘和分析等过程。其中词语情感倾向性的判别是文本情感分析的基础工作,情感词的极性判别的优劣将直接影响情感分析的结果。常用的情感分析技术主要有基于词典的方法和机器学习的方法。

近年来,研究人员为应对不同的意见挖掘任务,提出相应的词典,使之应用范围较小,格式、词性互不兼容,例如,基于汉语情感词极性表的产品情感分类,通过极值的正负来判断客户产品及其主要特征的喜好或者厌恶。但却无法得知顾客对于产品具体的感受,例如,惊讶、生气还是高兴?而基于汉语情感标签的产品情感分类,虽然能对情感词进行分类,但缺少强度的定量。例如“生气”与“冒犯”都是属于愤怒的一类情感标签,但是两者的强度,却明显呈现出不同,“冒犯”[-0.990]要大于“生气”[-0.303]。这对于句子级情感倾向性分析有重要意义。

在本文中,主要针对现在大部分的词典都有的数据集不完整、数据或格式嘈杂等问题,提出以多源信息融合技术将多个词典进行整合,建立了基于情感权值和情感标注为基础的中文情感词典(Sentiment lexicon based polarity scores and emotion labels,SLPE),以获得单个或单类词典源所无法获得的有价值的综合信息,并最终完成以提高词典的极性的判断和深化情感词的具体情感标注来实现对于产品评论的研究。

1相关工作

目前关于词典的文本情感分类的研究,国内外已可见到诸多探讨,具体论述如下。

中文情感词典的构建的思路主要分为基于语料统计以及语义词典等方法,其中,语料统计主要是通过观察大量语料的特性,找到一些语法模式、语法规则、语义特征和语言学特性,然后抽取出情感词并判断其极性。而语义词典主要是基于HowNet和同义词词林等语义词典展开。朱嫣岚等人提出了2种词汇语义倾向性计算的方法,即基于语义相似度的方法和基于语义相关场的方法。通过计算词语间的相似程度,对基于HowNet的词汇语义相似度及其计算方法,解析表述了2个词语在词语的褒贬倾向将按照一定的计算法则进行赋值。根据所得的语义倾向度量值判别其褒贬倾向。柳位平等以HOWNET情感词语集为基准,构建了中文基础情感词典,并提出情感词库的权值计算方法。

国外方面,Esuli等人研究设计了基于WordNet中的同义词集(svnset)来构建语义情感词典SENTIWORDNET:基于每一个同义词集关联的注释(Gloss)的定量分析和向量化表示,通过8个不同的三元分类器组合,对同义词集进行半监督分类,计算同义词集的正面、中立和负面情感倾向性的评分。3种情感倾向性的评分之和等于1。SENTIWORDNET 3.0是对SENTIWORDNET 1.0的提升.其基于WordNet 3.0版本,并采用随机游走算法(RandomWalk)优化同义词集3个方面的情感评分。

Joshi等人基于4个基础词典开发了一个Twitter情感分类系统,利用信息融合的加权平均法,进行情感值计算。

在已有的研究的基础上,本文提出一种新的基于信息融合的情感词典扩建方法,首先对相关语料库文档进行挖掘获得特征值及其关系,综合使用词形模板和词性模板,采用模糊匹配方法对情感词和情感标注进行模糊建模,最后通过采用支持向量机(SVM)方法分类得出情感词相应的情感标注。

猜你喜欢
信息融合
基于预约诊疗模式下的医院网络安全设计
信息融合方法在水力发电厂状态检修中的应用
基于智能粒子滤波的多传感器信息融合算法
大数据背景下的信号处理分析
多传感器图像融合技术
大数据环境下基于多维信息融合的高校教学评价
一种无人飞艇高度传感器信息融合方法
基于区域信息融合的风电场平均年发电量预测
基于极限学习机的老人防摔倒系统设计
并发故障信息DSmT融合算法的应用研究