基于用户能量排序的论坛用户影响力分析

2014-08-07 04:11路远聪
铁路计算机应用 2014年12期
关键词:势能网页影响力

路远聪,刘 云

(北京交通大学 电子信息工程学院,北京 100044)

基于用户能量排序的论坛用户影响力分析

路远聪,刘 云

(北京交通大学 电子信息工程学院,北京 100044)

论坛是具有媒体和社交功能的网络服务。分析论坛的用户行为、舆论走向具有重要的现实意义。本文受广义分子内能理论启发,基于论坛用户的行为、关系、质量,设计了用户能量排序算法,论坛用户影响力分析具有重要现实意义,社会经济效益使该方法具有巨大的应用前景。

论坛; 用户影响力; 能量排序

论坛是网络时代一种的社交网络平台和媒体平台。论坛用户可以方便地获取关注信息,了解领域动态,表达个人想法,交流沟通情感。同时,政府机构、社会团体也通过创建官方论坛大力宣传政治理念、社会风尚以引导主流价值观,大量企业品牌论坛也借此促进营销。论坛社区的热点内容、用户行为和交互方式深刻影响着网络用户生活和网络舆情走向,影响力高的用户对其他用户的网络行为具有更强的驱动力。

各个行业一般都有各自的论坛,其论坛的用户多为该行业员工、科技人员、顾客、爱好者,经常需要对诸多涉密信息和内部资料进行管理、需要对顾客对客服质量的意见予以解决、需要对论坛舆论的真实性进行审核,保持社会舆论的健康稳定,这就需要对注册用户的影响力进行分析,通过关键用户的辐射带动作用引导舆论,因此本文对某论坛用户影响力进行研究,具有重大社会经济意义。

1 相关研究

影响力一般是指以其他人乐于接受的形式改变他人思想和行动的能力。论坛用户的影响力可以理解为驱使其他用户认同某观点或做出某动作的能力。国外较早开始对社交网络的研究,主要是针对twitter,多数算法是基于著名的网页排名算法Pagerank算法[1],多数学者从用户行为的角度分析了用户影响力,但对影响因子的选取仅仅限于转贴、回复、提及,按3种因素进行影响力测量,运用斯比尔曼等级相关系数进行比较后得出排名结果。也有学者提出了主动指标和被动指标的概念。Yuto[2]借鉴ObjectRank[3]的方法提出了TURank(twitter user rank)算法,在网络图中将用户和内容相结合,达到了把粉丝信息和用户行为信息相结合的目的。唐飞龙[4]等借鉴了文献[5]的方法,提高了具有高质量粉丝的用户的影响力,设计了基于用户质量的User Impack Rank(UIR)排序算法。李军[6]总结了当前主要的4中影响力排名方法,并在TURank的基础上进行了改进。

2 User Energy Rank论坛用户影响力评价方法

2.1 论坛用户能量和论坛用户影响力

用户可以发表帖子,内容可以是根据自身生活经历发表自己的心情感受,也可以是转发自己喜欢的别人的帖子;用户也可以回复其它论坛用户的话题;也可以是什么也不做,仅仅关注自己关注的信息。用户间可以互相没有关注、单向关注、互相关注;论坛平台的用户质量有着巨大差异,例如:僵尸粉的存在。僵尸粉指的是注册之后很少有活动的用户。很多用户由于有大量僵尸粉关注,形成了虚假的影响力。各个用户的原创帖子的比例也有不同。论坛上的用户可以认为是在一个引力场作用中的物体, 论坛用户的影响力随着用户行为的活跃程度的提升而提升;随着用户间互相吸引、互相驱使的能力的提升而提升;随着用户质量的优劣和可信程度的提升而提升。论坛的这些现象可以用广义分子内能理论来比拟。在广义分子内能理论中,分子动能、分子势能和分子内部能量构成分子总能量,做分子热运动的分子平均动能与温度正相关,分子间的相互作用与间距正相关(间距大于10倍平衡距离时),分子内部能量与分子质量正相关。在广义分子内能理论的启发之下,本文将用户行为、用户间关系、用户自身质量比拟为分子所具有的分子动能、分子间势能、分子内部能量,形成用户动能、用户间势能、用户内部能量三维的用户能量指标。

(1)用户动能:表达用户行为,用户对帖子施加不同动作,例如:评论、转发等,即论坛上用户的行为;

(2)用户势能:表达用户关系,不同论坛用户间存在的关注关系产生的吸引作用,因而产生的一种潜在能量;

(3)用户内部能量:表达用户质量,不同论坛用户的自身特质不同,具有不同的信用等级和真实程度,因论坛用户本身的质量水平获得自有的能量;

(4)用户总能量:由上述3种能量合成,代表综合影响力。

2.2 Pagerank算法简介

Pagerank算法[1]是一种网页间迭代传递信任的方法,由Larry Page和Sergrey Brin提出。其计算公式为:

其中,m表示一个网页,PR(m)表示网页m的重要性权值,PR(n)表示网页n的重要性权值,I(m)表示从其它网页链接到m的网页集合,L(n)是网页n指向外部网页的链接数,d是阻尼因子,一般取0.15。Pagerank算法实例如图1所示。

图1 Pagerank算法实例

在论坛平台上,用户之间的关注行为类似于网页间的链接,因此可以讲用户作为节点,关注关系作为有向边,每个粉丝对自己的关注都是自身影响力的一条入链,即表达该粉丝对自己的支持,自己对其的影响吸引能力。

2.3 定义与算法主要思想

三维的用户能量指标可以写成{EB, ER, EQ},EB表示用户动能,ER表示用户势能,EQ表示用户内部能量。

图2 三维指标图

上节所述方法的缺点是只使用了关注行为作为评价标准,不能准确的反映用户的真实影响力。本文提出的User Energy Rank方法不是简单地基于链接关系,关注行为产生的链接关系相当于是对用户影响力的投票,同样,对一个帖子评论、转发等也是对该发表帖子用户的支持和信任的表现,所以应该将用户行为、用户关系、用户自身质量均纳入评价的考察范围,实现对用户真实影响力的测评。用户动能反映用户在活跃程度方面产生的动态影响力,其影响因子可通过AHP层次分析法得到各自权重。用户势能反映用户在吸引他人关注方面扩大辐射面而产生的潜在能力,即静态影响力,以用户内部能量反映用户的真实程度、可信程度,来排除僵尸粉和水军用户的干扰,反映由用户自身的质量优劣和帖子的原创率,是用户的基础能量。该方法可描述为如图3所示。

图3 User Energy Rank 方法

2.4 用户动能

用户动能主要通过被转发数、被评论数、被提及数体现。用户动能反映用户的被关注程度和在网络空间中对其他用户的吸引作用。当然,每种表达关注的行为方式应具有不同的权重,例如:评论对用户动能的贡献应高于转发,用户动能计算式如下:

其中,B(v, u)函数用于从用户行为角度调整出链的分配权重,f(u)表示u的入链集合, 计算式如下:

其中,Fu、Cu、Mu分别为论坛被转发数、被评论数、被提及数,N表示v的出链数,由于考虑到影响力是一个论坛用户经过时间累积的效果,因此影响因子选取的不是每个帖子的被转发、评论、提及的数目,而是一定时段的总数值,其系数可经过权重分析由AHP方法给出。

2.5 用户势能

用户势能反映用户在静态状态下,即没有做出动作行为的情况下,由于自身潜在的影响力产生对其他用户的吸引,反映在指标上是粉丝数,粉丝越多则具有越强的吸引力,用户的影响力与粉丝的粉丝数成正相关系,与粉丝的关注数成反相关系,且由于论坛水军通过大量互相关注造成虚假影响力,考虑到水军的关注数往往会大大超过其粉丝数,因此使用两者的比值。另一方面,入链数多不一定意味着具有高影响力,图4显示具有较少高影响力入链的用户具有比入链数多的用户更高的影响力,本节计算的用户势能借鉴了改进的Pagerank方法,并在其基础上继续进行了改进,以提高具有高质量用户的粉丝的权重。

图4 较少高影响力用户

用户势能的计算式如下:

其中,R(v, u)函数用于从用户关系角度调整出链的分配权重, f(u)表示u的入链集合, 计算式如下:

其中,In表示入链数,即他人对己的关注,Out表示出链数,即自己对他人的关注,通过此式增加具有高影响力粉丝的用户的影响力。

2.6 用户内部能量

用户内部能量反映论坛用户的真实可靠程度。用户发帖数越多,发帖越频繁,在其他用户浏览网页时越容易看到其信息,不同于以上2种能量是用户被动的被关注或者相互间作用产生,用户无论是转帖还是自己发帖都是自主决定的,用户内部能量反映了用户的真实可靠程度,同样由于受到网络水军的影响,不能简单的认为发帖数多的就一定比发论坛数少的影响力大。网络水军指的是通过大量发帖转帖造势的用户。这些注册用户常常通过大量互相转帖形成声势,而原创帖子却占比很小,而且僵尸粉一次转发之后甚至自注册之后很少发布论坛,因此上次发论坛距离现在的时间也是影响因子。

用户内部能量的计算式如下:

其中,Q(v, u)函数用于从用户质量角度调整出链的分配权重, f(u)表示u的入链集合,其计算式如下:

其中,OW为原创帖子数,FW为转发帖子数,T为上次发帖时间与当前时间差值(天)。

2.7 合成用户总能量

以上3类能量反映了用户的3种网络关系,E=k1EB+k2ER+k3EQ,其系数利用YAAHP软件计算得到(k1, k2, k3)为(0.3371, 0.3371, 0.3257),使用此用户能量考虑到了用户行为、关系、质量对其影响力的权重贡献,在计算过程中注意到各要素的重要程度和贡献率,也采取有效的方法降低了垃圾用户的干扰,可以较真实地反映论坛用户真实影响力。

3 结束语

影响力研究是重要的社交网络研究领域。每个行业的相关论坛的舆论传播都极大影响着民众对行业发展、客服质量、安全运营的公众意见,因此分析舆论形成过程中的高影响力用户,规范其网络言行并进行舆论导向具有重大的意义。

本文对论坛用户的影响力的分析受到了广义分子能量理论的启发,将论坛注册用户的影响力类比为分子能量,将用户行为、用户关系、用户自身质量分别理解成分子动能、势能、内部能量。根据用户能量的3个维度分别对Pagerank进行改进,使其适应用户影响力计算,本文综合了用户行为、关系、用户质量能多方面因素全面地评价论坛用户的影响力,排除干扰因素的影响,较准确地发现论坛中具有高影响力的用户。对论坛的其他进一步研究有一定的现实意义。对论坛用户影响力的研究,有助于改善行业客服、监督敏感舆论、保障顾客权益、维护社会稳定,具有的经济效益和社会效益,本文中的方法也因此有较大的应用前景。

[1] Page Lawrence, Brin Sergey, etc. The PageRank Citation ranking: Bring Order to the Web[R].technical report, Stanford Digital Library Technologies Project (1998), http://ilpubs. stanford.edu:8090/422/.

[2] Yuto Yamaguchi et al., TURank: Twitter User Ranking Based on User-Tweet Graph Analysis[C]. WISE 2010. 243-246.

[3] Andrey Balmin, et al., Objectrank: Authority-based keyword search in databases[C]. VLDB 2004. 565-569.

[4]唐飞龙,叶施仁,肖 春.基于用户质量的论坛社区博主影响力排序算法[J].计算机工程与应用,2013(6).

[5]陈小飞, 王铁彤, 冯小军.一种基于网页质量的PageRank算法改进[J]. 计算机研究与发展, 2009, 46(4): 381-387.

[6]李 军,陈 震,黄霁崴. 论坛影响力评价研究[J].信息网络安全,2012(3):10-13,27.

责任编辑 徐侃春

Analysis of forum user impact based on User Energy Rank

LU Yuancong, LIU Yun
( School of Electronic and Information Engineering, Beijing Jiaotong University, Beijing 100044, China )

Forum was a network service with function of media and social. To analyze forum, s public user behavior and public opinion was with important realistic meaning. Enlightened by the theory of generalized molecular internal energy, based on the forum’s user behavior, relationship, quality, this article designed the User Energy Rank Algorithm. The analysis of forum user impact had important practical signif i cance. The social and economic benef i ts made this method be with great application foreground.

forum; user impact; energy rank

U285∶TP39

A

1005-8451(2014)12-0001-04

2014-07-11

国家自然科学基金 (61172072 , 61271308);中央高 校基本科研业务费 (2014JBM018)。

路远聪,在读硕士研究生;刘 云,教授。

猜你喜欢
势能网页影响力
作 品:景观设计
——《势能》
“动能和势能”知识巩固
“动能和势能”随堂练
基于HTML5与CSS3的网页设计技术研究
动能势能巧辨析
天才影响力
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
黄艳:最深远的影响力