版主发帖行为实证与聚类研究

2016-05-14 02:09王永忠徐姗姗鱼静
中国管理信息化 2016年5期
关键词:版主发帖实证研究

王永忠 徐姗姗 鱼静

[摘 要] 为揭示论坛版主发帖的行为模式,编写了网络爬虫软件,获取了天涯论坛92名版主发帖相关数据,并对版主进行了聚类研究。对相关参数,采用极大似然估计法和Kolmogorov-Smirnov检验法进行了分析。结果表明:版主发帖的时间间隔分布符合幂律分布;版主幂律指数、阵发性符合Burr分布,xmin、活跃度符合指数分布;版主聚类为三个类别时,数据蕴含着分形的特征。

[关键词] 论坛;版主;发帖;幂律分布;实证研究;分形

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016 . 05. 093

[中图分类号] TP391 [文献标识码] A [文章编号] 1673 - 0194(2016)05- 0175- 03

1 前 言

研究个体舆论传播的基本特征是建立群体舆论传播模型的重要基础。从最早的PC互联网时代到当今的移动互联网时代,论坛一直都是舆论传播的重要阵地。由于论坛形成历史时间长,在不同领域中,都已经形成了一定数量的知名论坛。这些知名论坛拥有巨大的用户群,同时也积累了用户发帖相关的大量数据。挖掘这些数据的内在规律,对于认识用户信息传播特征、建立舆论传播模型具有重要意义。

关于人类信息传播行为、论坛舆论传播的研究目前已经有较多成果。最早以Barabási对人类信件的时间间隔分析为起点,研究发现,人类的信息沟通的时间间隔服从幂律分布,并由此创立了人类动力学这门新学科。Vázquez以Barabási的假设为前提,通过严格的数学证明,认为人类动力学中存在着两个普适类,即幂律分布的指数为1或1.5。从此,引发众多的研究者对于人类行为模式进行实证研究。

对于论坛的研究,Yu等对论坛的回帖进行了实证研究。赵永亮等以天涯论坛帖子为对象重点分析了每天发帖量的分布。Qiang等研究了微博社区的兴趣驱动问题。以上这些研究丰富了论坛领域的人类动力学研究。然而,专门对论坛版主研究的文献并不多。

版主是论坛中重要的用户群体。从舆论传播的角度来说,版主往往起到意见领袖的作用。版主通过发布主帖,表达意见,以达到影响舆论、引导舆论的目的。本文利用自己编写的网络爬虫收集了天涯论坛92名版主发帖的相关数据。通过数据分析发现,个体层面:版主发帖的时间间隔符合幂律分布,验证了人类动力学的预测;群体层面:版主幂律指数、阵发性符合burr分布,、活跃度符合指数分布。采用质心距离法对版主聚类分为三类时,数据具有明显的分形特征。

2 数据来源与说明

本文采用的数据是利用自己编写的网络爬虫,定向收集获取的。收集对象是天涯论坛中92名版主发布的主帖数据。时间跨度为2004年1月1日到2015年6月30日,数据量达到6 500 MB。数据精度为分钟。

天涯论坛于1999年3月1日创立,到现在已经超过16年,注册用户9 000万,每月浏览用户超过2亿。选择天涯论坛版主作为研究对象主要基于以下三点思考:一是版主的责任心强,他们主动发帖的概率高于普通用户,发帖数量大,为统计研究提供了数量的保障;二是版主的自律性高,违反规定发帖的可能性小,因此被删除的概率小,统计的数据完整性高于普通用户;三是版主往往是本版的意见领袖,研究版主的特质,对于研究舆论传播中的意见领袖具有重要作用。

3 论坛版主发帖模式分析

首先通过利用上述的数学方法,采用Matlab 2015a编程,分析每名版主的基本特征,而后再探究版主的群体特征,并对版主群体进行分类研究。计算结果皆满足上述的假设检验。

3.1 论坛版主发帖个体行为实证分析

通过对92名版主的发帖时间间隔的累积分布进行拟合,发现个体行为均满足幂律分布。当x≥xmin时,在双对数坐标下α近似为一条直线。图1为天涯社区了望天涯版块的版主“枕着永远入眠”的发帖时间间隔累积分布。其他91名版主具有同样类似的图形。

由此推断版主论坛发帖的行为,符合幂律分布的特征,验证了Barabási推断,说明版主发帖的模式具有人类动力学的特性,即长时间的静默与短时间内的高频率爆发相结合的特征。

3.2 论坛版主发帖群体特征的实证分析

通过前面分析可知,论坛版主个体发帖的时间间隔,是由α、xmin决定的,采用蒙特卡洛法可对版主个体进行仿真。下面探讨版主群体的α、xmin、活跃度、阵发性的分布,为版主群体的仿真提供基础。

3.2.1 α的分布情况

通过计算,版主α指数介于1.5~2.75之间,这与Vázquez的预测不同。做直方图,发现数据版主群体α具有明显的右偏,不符合正态分布,通过极大似然拟合,发现α更符合Burr分布,如图2所示。

版主幂律指数在之间数量最多,并且向左右呈现阶梯状的变化,说明了版主幂律指数不会出现忽大忽小变化,即不会出现极端值。这种情形的出现,可能是版主本身工作的性质决定的,他们不可能长时间潜水,也不可能在论坛上“一言堂”,工作本身要求每名版主都要适时地发布一些有价值的帖子,以达到活跃气氛、引导用户、完成工作的目的。

3.2.2 xmin的分布情况

经过计算,xmin介于536~50 424之间。 统计表明,xmin在5 000以内的数量最多,达到31名版主。

版主群体xmin符合指数分布:

通过极大似然估计,得到:

这一规律的得出,结合α的分布,为版主群体特征的仿真提供了定量的依据。

3.2.3 活跃度的分布情况

版主活跃度是指版主在一段时间内发表帖子的数量与时间的比值。符合指数分布,同公式(2)。通过极大似然估计,得到:

3.2.4 阵发性的分布情况

阵发性是刻画用户短时期内密集活动和长时间静默的程度。阵发性的公式为:

σx为时间间隔的标准差,mx为时间间隔的均值。计算表明,阵发性介于[0.17,0.86]之间。版主的阵发生符合Burr分布,同公式(1)。通过极大似然估计,得到Burr的3个参数:

版主群体的阵发性相对于普通浏览用户的阵发性相对要弱。这主要是因为,这和前人的研究结论不一致。主要原因是前人研究的是浏览论坛的用户,而版主群体是一类特殊的用户,即,版主既是用户也是管理者。

3.3 版主聚类分析

通过实证分析,获得了版主的相关数据,即幂律指数、xmin、活跃度和阵发性四个指标。通过质心法和欧式距离法,对版主获取数据进行聚类分析。得到谱系图如图3所示。

计算表明,主成分为版主的xmin、活跃度、阵发性。说明在版主分类中,起主要作用的是xmin、活跃度、阵发性。幂律的大小对于版主的分类的影响作用很弱。从前面的实证分析得知,其中的原因可能是,每名版主的发帖皆满足幂律分布,幂律分布属于大同小异一类,而其他的指标则会成为主要因素。这与定性分析相一致。

4 结 语

本文通过网络爬虫获取了92名天涯版主发帖的数据。通过极大似然估计和Kolmogorov-Smirnov检验法进行了分析。结果表明,版主发帖的时间间隔分布符合幂律分布,幂律指数在1.5~2.75之间;xmin介于536~50 424之间;版主幂律指数、阵发性符合Burr分布;xmin、活跃度符合指数分布。

通过实证数据发现,描述版主的指标数据具有一定的分形特征。如何采用分形的理论,对于大数据时代的版主数据进行简化研究,可能是未来研究的重点。

主要参考文献

[1]Barabási A L.The Origin of Bursts and Heavy Tails in Human Dynamics [J].Nature,2005(435):207-211.

[2]A Vázquez,J G Oliveira,Z Dezso,K-I Goh, I Kondor,A-L Barabási.Modeling Bursts and Heavy-Tails in Human Dynamics [J],Phys. Rev. E,2006,73 (3):80-98.

[3]Yu J,Hu Y,Yu M, et al.Analyzing Netizens View and Reply Behaviors on the Forum[J]. Physica A: Statistical Mechanics & its Applications,2010, 389(16):3267–3273.

[4]赵永亮,唐锡晋.基于天涯论坛的BBS在线行为分析[J]. 系统科学与数学, 2015,35(2):129-141.

[5]Qiang Yan, Lanli Yi,Lianren Wu.Human Dynamic Model Co-Driven by Interest and Social Identity in Microblog Community[J]. Fuel & Energy Abstracts,2012,391(4):1540-1545.

猜你喜欢
版主发帖实证研究
英议会掏钱让议员学如何发帖
玉雕专业学生专业认同的实证研究
温州小微企业融资环境及能力分析
认知语言视角下英语词汇多义习得的实证研究
实证分析会计信息对股价的影响
十二星座版主照镜子
利用学校网络平台,培养学生写作兴趣
十二星座版主照镜子
是“呼”还是“应”
“斑竹”,凭什么删我的帖?