基于情感倾向性的意见领袖发现方法

2017-11-01 17:14郎冬冬刘卓然冯旭鹏刘利军黄青松

计算机应用与软件 2017年10期

关键词：回帖领袖影响力

郎冬冬刘卓然冯旭鹏刘利军黄青松,2

1(昆明理工大学信息工程与自动化学院云南昆明 650500)

2(云南省计算机应用重点实验室云南昆明 650500)

基于情感倾向性的意见领袖发现方法

郎冬冬1刘卓然1冯旭鹏1刘利军1黄青松1,2

1(昆明理工大学信息工程与自动化学院云南昆明 650500)

2(云南省计算机应用重点实验室云南昆明 650500)

随着社交网络的迅猛发展,大量的网民参与到话题讨论,积极推动着信息的传播。而意见领袖在信息传播中又起着决定性的作用。因此,如何在网络舆论中准确寻找意见领袖成为研究热点。针对传统的意见领袖研究方法没有将用户节点看作网络或仅仅把网络中的用户节点权重看成是回复次数叠加的问题,综合考虑回帖者的情感倾向,提出基于回帖者情感倾向性的意见领袖发现算法。实验表明,改进的意见领袖发现算法与传统的PR算法、UI-LR算法相比具有更高的识别精度。

意见领袖回帖者情感倾向舆论

0 引言

随着网络的迅速发展,人们利用新兴媒体,如论坛、BBS、博客、微博、贴吧等平台参与到公众话题讨论。在信息传播中,意见领袖对社会舆论的形成发挥着重要作用。而局部意见在意见领袖的引导下演化为舆论,影响力直接渗透到现实社会[1]。因网民与网民的评论和回复之间极易受到影响,而每个用户的影响力不同,人们判断信息的可信度是依据其所发评论文本的内容和质量。所以,意见领袖的挖掘在舆论监测、市场推广等领域有着重要作用[2]。

国内外学者对发掘社交网络中意见领袖的识别方法进行了大量研究,例如: Li[3]、Duan[4]等从用户发表的内容出发,挖掘用户潜在情感,进而找到社区中的意见领袖。Zhang等[5]通过对新浪微博的研究发现,微博系统具有很强的名人效应。Tsai等[6]通过构建社交关系网络并基于用户行为和兴趣领域发现社区中的意见领袖。冯时等[7]采用层次分析法对影响指标进行量化分析,从而对各节点进行排序,最终得到意见领袖。樊兴华等[8]提出了影响力扩散模型(IDPM),引入整合如用户统计信息、帖字倾向性、帖子回复结构网络特性等因素的有效因子,但未给出回复帖子倾向性的判定方法。吴渝等[9]综合了用户自身的影响力和PageRank相似的图模型方法来计算用户的影响力,但忽略了用户之间交互的情感关系。

目前基于PageRank算法识别出网络论坛中意见领袖的方法有:Zhou等[10]分析了意见网络中的情感倾向性问题并提出基于情感分析的OpinionRank算法；Xiao等[11]提出一种基于社区发现和情感挖掘的LeaderRank发现算法；Zhai等[12]发现基于兴趣的PageRank算法最能准确识别方法的准确性,但也未考虑回帖者的主观情感倾向性；吴凯等[13]归纳决定用户影响力的因素,建立了用于用户影响力度量的算法。但在实际网络交互中,一个用户的影响力不仅与被回复数有关,还会与回帖者情感倾向等因素有关,用户的自身影响力越大,回复者受到的影响力也就越大。

因此,本文利用PageRank算法来计算节点影响力值,然后把匿名用户和回复者的情感值纳入计算,提出了基于情感倾向性的意见领袖发现算法。还将回帖的情感倾向纳入计算和匿名用户的回复来计算综合影响力的方式,解决了信息发布者的选取问题。并以论坛的数据进行实验,结果表明本文方法可有效提升意见领袖的识别准确率。

1 用户情感倾向值计算

在信息传播过程中,意见领袖是影响舆论走向的一个关键因素,它有着重要的引导作用。本文利用基于回帖者情感倾向的意见领袖发现方法为舆论引导打下了基础。它主要包含四部分:(1) 网民言论的收集与记录;(2) 用户情感矩阵的构建;(3) 用户节点模型的计算;(4) 将匿名用户回帖的数据纳入计算,综合计算意见领袖值。

1.1 词语的情感倾向值计算

针对用户的观点计算回帖者的情感倾向值e,本文利用情感分析模型对回帖者集合进行情感极性分析方法[14],先对主客观文本分类,有助于提高情感极性分析的效率和准确度。然后利用基于知网和PMI相融合的方式计算词语的情感极性,以及通过上下文计算短语的情感极性。最终通过极性累加的方式得出评论文本的情感极性倾向和强度,得出情感值e。

主客观文本分类:(1) 抽取文本中的情感特征:《知网》中的情感词、建议词、第一第二人称代词、非规范用语等。(2) 通过计算互信息去除表征力不强的词,公式为:

|I(f,C1)-I(f,C2)|>θ

(1)

其中I是文本的特征f对于主观类别C1和客观类别C2的互信息量。当它大于阈值θ时就把该特征f抽取出来。

通过朴素贝叶斯分类算法[15]对文档进行主观和客观文档分类。分别计算每一个类别的后验概率,取后验概率最大的类别为文档的类别。

基于PMI词语情感极性计算:通过计算新词与选取的基准词在语料库中共现的概率得出新词的情感倾向。本文采用吴泽衡等[14]的方法，从知网中选取了40对情感基准词，如表1所示。

表1 情感基准词

任意两个词的PMI值计算公式如下：

(2)

其中W和W′是任意两个词,P(W&W′)为两个词同时出现的概率。褒义基准词记ComWord,贬义基准词记DerWord,对于某新来词NewComeWord,新词的情感倾向值计算公式:

(3)

最后采用知网词语相似度计算方法[16]sim(w,w′)来计算新词基于知网的词语情感倾向值Eneword。计算公式如下:

(4)

其中，NewW是新来词,褒义基准词ComWord和贬义基准词DerWord,是从知网中选取的40对情感基准词。

1.2 构建用户情感倾向值矩阵

在计算用户回帖情感倾向值的过程中,用户所发评论的回帖是由回复其评论用户集的文本组成。本文借鉴了肖宇等[17]情感倾向值的计算方法,得出用户j对用户i所发评论的主观情感倾向值的计算方法:

(5)

其中，∑eij表示用户j对用户i所发评论的主观情感倾向值的系数和,nij表示在同一个话题中用户j对用户i评论回帖的个数。

构造用户关系图模型时,用户回复自己的评论不能作为用户关系图之间的“边”,但可以定义用户i对自己的主观情感倾向值Eii。其为所有匿名用户对用户i发帖的主观情感倾向的平均值。假设某个匿名用户对其回帖个数为m,匿名用户对用户i的主观情感倾向值ei,则匿名用户的主观情感倾向值计算方法为:

(6)

假设一共需要评价n个用户，构造用户情感倾向矩阵E,则应记为:E={Eij}1≤i≤n,1≤j≤n，用户的情感倾向矩阵构建完成。

2 基于情感倾向性的意见领袖识别

2.1 用户间的网络链接图模型

本文在PageRank的基础上加入用户之间的情感倾向值和自身的影响力,提出了基于情感倾向的Emotion LeaderRank(ELeaderRank)图模型。建立用户间的网络链接图模型,首先将社交平台中的所有用户看作“节点”,用户之间的回复关系被看作“边”。具体定义如下：(1) 假设用户对自己发布的评论进行回复,不建立节点到节点之间的“边”。(2) 假设用户所发的内容没有被任何用户回复,删除此节点。(3) 假设此用户是僵尸粉或者是匿名信息,删除节点。(4) 假设用户A节点对用户B节点所发内容进行了回复，建立A节点到B节点的边,边的权值由节点B的回复次数和用户B节点对用户A节点的情感倾向值EAB综合确定。用户间通过话题之间的发帖和回帖建立的图模型如图1所示。

图1 用户关系的图模型图

2.2 基于回帖者情感倾向的意见领袖发现算法

本文引入用户间的情感倾向来综合计算用户之间的链接关系,改进基于用户影响力的意见领袖挖掘算法。通过用户节点的出度和入度计算用户影响力来构建整个ELeaderRank图。

2.2.1 用户节点影响力初值

首先对用户特征进行提取,提取的特征体系如图2所示。

图2 用户特征图

用户影响力主要包含用户的活跃度和被其他用户关注的程度,用户的活跃度主要包括:回复数、发帖子数、在线时长三大特征。在线时长主要代表了用户的等级以及用户所在平台的等级,发帖数和回复数都能反映用户对新信息的观点和看法。它们在一定程度上体现了用户活跃度。被关注度包括:被回复数、被引用数、被浏览数三大特征,它们从侧面反映用户在传播过程中的直接影响力。用户影响力初值I的计算方法如下:

(7)

其中,Ia表示用户节点a的初始影响力值,a属于用户总集合U,wi和Ci分别表示属性(发帖数、在线时长等)和它对应的权值。对用户各属性特征采集的数据用0-1变换计算,把用户各属性的数值确定在范围[0,1]上,再利用丁雪峰等[18]计算舆情帖子权值的方法得出用户各属性的权值。使用satty的10级重要性等级表和判断矩阵计算属性的相对重要性算法,得到各属性的权重如表2所示。

表2 用户属性评价指标权重表

2.2.2 用户影响力的领袖值计算

基于用户影响力的意见领袖发现方法使用了PageRank算法构建图模型,利用式(7)计算出的用户影响力初值I作为节点之间边的权值。再通过用户集合U的元素用户节点u,u∈U之间的多次交互在传递用户自身的影响力值,不停地迭代直到收敛于一个定值。最后计算出各用户在图模型中的影响力值,即用户领袖值,计算公式如下：

(8)

(9)

其中,Inf(x),Inf(y)表示用户x、y的用户领袖值,R(x)和R′(y)表示所有在微博、博客、论坛上回复用户x的用户集合和所有被用户y回复的用户集合,I(x)、I(y)分别表示用户x和用户y的初始影响力值,d是回复一个帖子的概率,一般设置在(0,1)之间。本文利用原PageRank算法的固定设置取值为0.85,wyx、wyr分别表示用户y回复用户x、r的回帖次数。

2.2.3 回帖者情感倾向的领袖值计算

上述算法中把用户之间的多次交互行为构造成类似于PangeRank图中的“边”,将节点之间的权重简单地视为用户之间的回复次数的叠加而未考虑回帖者的情感倾向,最终通过影响力传递迭代计算出用户领袖值。由于回帖者的每一次言论中都有可能会出现情感倾向为正面、负面、中性的评论,对于一个用户,他的用户领袖值越高,那么支持他言论的用户就越多,即用户的回帖者的情感倾向正面值越大。本文改进了上述算法中的不足,使得各用户节点的权重不仅仅由回复次数决定,而是由回帖者的情感倾向、回复次数和用户节点初始影响力三个因素共同决定,提出了基于回帖者情感倾向的意见领袖发现算法LASR(A LeaderRank Algorithm based on sentiment of replies)。假设用户x和y发生过交互行为,LASR算法定义用户x的领袖值的计算公式如下:

(10)

(11)

式(11)中每一次的迭代计算加入了回帖者的情感倾向值E、Eyr、Eyx分别表示作为回帖者的用户y对用户x、r的情感倾向值,由用户情感倾向矩阵计算得来。它的结果类似于PageRank算法过程,一直迭代到收敛为止。

2.2.4 意见领袖值的优化计算

我们将实名用户与匿名用户同时纳入最终意见领袖挖掘的计算,那么用户x的领袖值L(x)就由式(9)和式(10)迭代计算的实名认证用户的用户领袖值Inf(x)和匿名用户领袖值aInf(x)来确定，具体计算方法如下：

L(x)=λInf(x)+(1-λ)aInf(x)

(12)

式(12)中匿名用户领袖值aInf(x)由实名用户领袖值Inf(x)迭代计算出的用户领袖最小值Inf(x)min和匿名用户的主观情感倾向决定。主观情感倾向值取自1.2节中情感倾向值计算得到的用户情感倾向值矩阵,计算公式为：

aInf(x)=Exx·Inf(x)min

(13)

3 实验及结果分析

3.1 实验数据

本文以猫扑贴贴为采集站点来源,选取猫扑贴贴的”五花八门”、“社会广角”、“手机之家”、“青芜校园”板块为实验数据来源。利用网页采集器采集从2015年9月到10月的网民评论数据作为数据集,并按照2.1节的EleaderRank图模型构建用户图模型。爬取的数据集中一共有181 599个帖子,其中从18万帖子集合中过滤出文本字数为100字以上的文本,共约15 000篇主贴,167 000篇回帖,一共有约10万名用户参与讨论。

3.2 实验设置和评价指标

到目前为止,由于在现阶段的国内外研究并不存在一个绝对合理和精确的意见领袖的评估方法,因此本文利用节点影响覆盖率作为意见领袖的评价指标[9]。节点覆盖率表示节点所影响的用户群在所有被影响用户群中所占的比重,节点影响覆盖率的定义如下：

(14)

其中,p(k)表示前k个用户节点的节点覆盖率,L(i)表示在数量为N的用户中,意见领袖值排名为i的影响用户群的个数。

实验中,用户初始影响力权值选取表2的数据,式(11)的阻尼系数d取0.85。

3.3 参数选取

在实验中,由于LASR算法的性能一定程度上取决于匿名用户的影响力取值再计算意见领袖所占权重的大小,考虑公式：L(x)=λInf(x)+(1-λ)aInf(x)。利用节点覆盖率的权重评价指标,观察λ值的变化对LASR算法意见领袖挖掘效果的影响。取前80名用户群来计算节点覆盖率,结果如图3所示。

图3 节点覆盖率图

图3中,纵坐标是节点覆盖率的值,横坐标是λ的值，描述前80名用户节点覆盖率的值随参数λ变化所描绘出的曲线图。可以看出,当λ=0时,意见领袖值L(x)=aInf(x),LASR算法退化为只计算匿名回复领袖值的计算方法;当λ的值很小时(小于0.2),节点覆盖率的值很小,算法的性能很一般。这是由于在计算用户领袖值时过多的考虑了匿名用户对领袖值所产生的影响,减弱了实名用户之间的联系。而LASR算法在建立节点图模型时,是针对于实名用户的,这就使得用户领袖值不能准确地反应用户的影响力,从而导致评价指标节点覆盖率偏低。当参数λ增大时,LASR算法的性能随之提高,后来趋于平缓;当λ=0.7时,LASR算法的性能最佳;当参数λ=1时,意见领袖值L(x)=aInf(x),LASR算法退化为只考虑实名用户的意见领袖挖掘算法。由此,我们在以上和其他算法的对比实验中,令λ的值为0.7代入LASR算法的计算。

3.4 实验结果及分析

为了验证本方法的有效性，本文对比了三种不同意见领袖挖掘算法的节点覆盖率,选取TOP 100的用户作为横坐标,统计节点覆盖率的结果如图4所示。

图4 四种意见领袖挖掘算法比较图

图4中,LASR算法表示本文提出的基于回帖者情感倾向的意见领袖挖掘算法；UI-LR算法[9]是基于用户影响力的意见领袖发现算法;WIR算法[13]是基于微博影响力的意见领袖发现算法;PR算法[12]是基于兴趣的意见领袖发现算法。

在实验评价指标节点覆盖率下,LASR算法的性能在前10名用户节点覆盖率有所落后,但在整体上看都要优于另外三种算法。这表示计算回帖者的情感倾向对意见领袖挖掘的性能确实有比较大的提升。同时,我们可以从图中看出WIR算法的性能最低,这是由于实验数据选取的是以猫扑贴贴论坛为站点来源,而WIR算法主要针对微博数据并不适合处理论坛数据,所以准确性也会受到比较大的影响。

对比四种算法进行实验的结果,选取各自算法排名前10位用户作为对比材料。表格中的字母为论坛中用户的ID名代号,从A到Q的用户ID名为“莉莉用颜色比喻以太”、“CharmmyWong”、“耶耶耶耶耶和华”、“逗猫少年”、“抽烟借火”、“风野子”、“与时尽现”、“少年先疯队丶队长”、“1903de国王”、“苏格拉小底裤”、“宝乐迪小宝”、“王琦家20091101”、“oh_myTJ豌豆种子”、“老丶衲”、“77empty”、“记忆中无法抹去的伤痕”、“该昵称已被注册走你”,结果如表3所示。

表3 四种算法排名前10的用户表

如表3所示，四种算法的主要分歧在于E(只出现两次且排名靠后)、H(只出现一次)、J(只出现两次且排名靠后)、K(只出现一次)、L(只出现一次)、N(只出现两次且排名靠后)、O(只出现一次)、P(只出现一次)、Q(只出现一次),分别观察E、H、J、K、L、N、O、P、Q对应ID的基本数据，如表4所示。

表4 分歧用户的历史数据表

从表4中可以得知,以分析的9个用户历史数据来看,显然N、O、P这三个用户参与话题讨论的次数最多(发帖和回帖数)、粉丝数最多、访问量相对较多,那么他们是相对于其他6个用户成为用户领袖的可能性就越大。而N属于算法UI-LR和WIR;O、P属于算法LASR,那么从这一点可以得出本文LASR算法对意见领袖识别的准确性更佳。

4 结语

在意见领袖挖掘的研究中,回帖者的情感倾向和匿名用户的回复是影响意见领袖识别准确性的两个重要因素。为了提高意见领袖识别的准确性,本文提出了基于回帖者情感倾向的意见领袖挖掘方法。在UI-LR算法构造PageRank图的基础上,将回帖者的情感倾向和匿名回复应用于意见领袖识别的过程中,改善了意见领袖识别的性能。

然而,在计算意见领袖值时,收敛值的取值是一个难题。这个关键数值对算法的性能会有较大的影响。本文通过实验计算出关键数值为0.7最佳,以后的研究需要用更合理的方法来计算关键数值和收敛值。

[1] 陈然.网络论坛舆论领袖筛选方法初探[J].中国网络传播研究,2010(4):133-143.

[2] 吴岘辉,张晖,杨春明,等.一种话题相关的微博意见领袖挖掘算法[J].小型微型计算机系统,2014,38(10):2296-2301.

[3] Li Yanyan,Ma Shaoqian,Zhang Yonghe,et al.An improved mix framework for opinion leader identification in online learning communities[J].Knowledge-Based Systems,2013,43(2):43-51.

[4] Duan Jiangjiao,Zeng Jiangping,Luo Banghui.Identification of Opinion Leaders Based on User Clustering and Sentiment Analysis[C]//IEEE/WIC/ACM International Joint Conferences on Web Intelligence.IEEE,2014:377-383.

[5] Zhang Sai,Xu Ke,Li Haitao.Measurement and Analysis of Information Propagation in Online Social Networks Like Microblog[J].Journal of Xian Jiaotong University,2013,76(1-2):201-207.

[6] Tsai M F,Tzeng C W,Lin Z L,et al.Discovering leaders from social network by action cascade[J].Social Network Analysis and Mining,2014,4(1):1-10.

[7] 冯时,景珊,杨卓,等.基于LDA模型的中文微博话题意见领袖挖掘[J].东北大学学报(自然科版),2013,34(4):490-494.

[8] 樊兴华,赵静,方滨兴,等.影响力扩散概率模型及其用于意见领袖发现研究[J].计算机学报,2013,36(2):360-367.

[9] 吴渝,马璐璐,林茂,等.基于用户影响力的意见领袖发现算法[J].小型微型计算机系统,2015(3):561-565.

[10] Zhou H,Zeng D,Zhang C.Finding leaders from opinion networks[C]//IEEE International Conference on Intelligence and Security Informatics,ISI 2009,Dallas,Texas,USA,June 8-11,2009,Proceedings.DBLP,2009:266-268.

[11] Xiao Yu,Xia Lin.Understanding opinion leaders in bulletin board systems:Structures and algorithms[C]//The 35th Annual IEEE Conference on Local Computer Networks,LCN 2010,10-14 October 2010,Denver,Colorado,USA,Proceedings,2010:1062-1067.

[12] Zhai Z,Xu H,Jia P.Identifying Opinion Leaders in BBS[C]//Ieee/wic/acm International Conference on Web Intelligence and International Conference on Intelligent Agent Technology - Workshops,9-12 December 2008,Sydney,Nsw,Australia.DBLP,2008:398-401.

[13] 吴凯,季新生,郭进时,等.基于微博网络的影响力最大化算法[J].计算机应用,2013,33(8):2091-2094.

[14] Wu Zeheng.Research on internet hotspot analysis and monitoring technologies based on topic detection and sentiment analysis[D].South China University of Technology,2011.

[15] 章栋兵.互联网舆情分析关键技术的研究与实现[D].武汉理工大学,2010.

[16] 刘群,李素建.基于《知网》的词汇语义相似度计算[J].中文计算语言学,2002.

[17] 肖宇,许炜,夏霖.一种基于情感倾向分析的网络团体意见领袖识别算法[J].计算机科学,2012,39(2):34-37.

[18] 丁雪峰,胡勇,赵文,等.网络意见领袖特征研究[J].四川大学学报(工程科学版),2010,42(2):147-150.

DISCOVERYMETHODOFOPINIONLEADERBASEDONEMOTIONALTENDENCY

Lang Dongdong1Liu Zhuoran1Feng Xupeng1Liu Lijun1Huang Qingsong1,2

1(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)2(YunnanKeyLaboratoryofComputerTechnologyApplications,Kunming650500,Yunnan,China)

With the rapid development of social networks, a large number of netizens participate in the discussion of topics, and actively promote the dissemination of information. And opinion leader in the dissemination of information plays a decisive role. Therefore, how to accurately find opinion leaders in the network of public opinion has become a research hotspot. For the traditional research method of opinion leaders does not regard the user node as a network or simply consider the weight of the user node in the network as the problem of the number of replies, taking into account the emotional tendency of the replies, we put forward the opinion leader discovery algorithm. Experiments show that the improved opinion leader discovery algorithm has higher recognition accuracy compared with the traditional PR algorithm and UI-LR algorithm.

Opinion leader Replies Emotional tendency Opinion

TP3

10.3969/j.issn.1000-386x.2017.10.011

2016-10-18。国家自然科学基金项目(81360230，81560296)。郎冬冬，硕士，主研领域：机器学习，自然语言处理。刘卓然，硕士。冯旭鹏，硕士。刘利军，讲师。黄青松，教授。

基于情感倾向性的意见领袖发现方法

0 引 言

1 用户情感倾向值计算

1.1 词语的情感倾向值计算

1.2 构建用户情感倾向值矩阵

2 基于情感倾向性的意见领袖识别

2.1 用户间的网络链接图模型

2.2 基于回帖者情感倾向的意见领袖发现算法

3 实验及结果分析

3.1 实验数据

3.2 实验设置和评价指标

3.3 参数选取

3.4 实验结果及分析

4 结 语

0 引言

4 结语