兴趣、习惯、交互三重驱动的微博用户动力学模型

2015-04-18 09:43赵金楼成俊会刘家国
哈尔滨工程大学学报 2015年9期
关键词:幂指数幂律间隔

赵金楼,成俊会,2,刘家国

(1.哈尔滨工程大学 经济管理学院,黑龙江 哈尔滨 150001; 2.海南大学 经济与管理学院,海南 海口 570228)

兴趣、习惯、交互三重驱动的微博用户动力学模型

赵金楼1,成俊会1,2,刘家国1

(1.哈尔滨工程大学 经济管理学院,黑龙江 哈尔滨 150001; 2.海南大学 经济与管理学院,海南 海口 570228)

针对微博用户行为问题,采集Sina微博实证数据分析了不同情境下的微博用户行为特征。分析结果表明:微博用户的发布行为存在周期性和阵发性,用户发布微博的时间间隔服从幂律分布,且幂指数与用户活跃性呈正相关关系,同时用户之间的交互能够进一步激发用户的发布行为。在此基础上,构建了兴趣、习惯、交互三重驱动模式下的用户行为动力学模型,通过数学推导可知,该模型能够获得幂指数为参数可调的幂律分布,且模型仿真结果与实证数据分析结果相吻合。

时间间隔分布;兴趣;习惯;交互;行为动力学;微博;动力学模型

人类行为动力学一直是社会学研究中的重要内容。以往的研究中常常将人类行为泛化为一种泊松过程,这种假设的必然推论是人类相邻行为的时间间隔是比较均匀的,较大的时间间隔所占比重很小。然而随着大规模数据采集技术的不断发展,大量实证数据显示人类相邻行为的时间间隔特征呈现出非泊松现象,其中涵盖了电子邮件的发送和回复时间[1-3]、手机通话和短信息接收回复[4-6]、在线电影的点播[7]、网页搜索和网页访问[8-9]、社交网络(博客、微博等)的使用[10-12]等各方面数据。这些实证数据的出现,揭示了人类行为的非泊松特性,并具有短期内频繁发生、长期静默的规律性,研究者们将这种人类行为模式所产生的时间间隔用幂律分布刻画,且伴有衰减缓慢的胖尾特征。

为了解读人类行为的这种非泊松现象,Barabási[1]提出了一种具有优先选择机制的排队论观点。他认为,高优先权的任务被优先选择。文献[13]则认为人们在处理排队中的任务时,会按照已形成的处理习惯执行。排队论和随机过程的引入很好的解释了任务型行为,然而却并不适用网页浏览、游戏、社交网络使用等非任务驱动行为。因此另有学者从用户兴趣和记忆等视角去解释人类行为。文献[14-15]指出人类行为存在周期性的根源在于兴趣的改变,并据此构建了兴趣递减的行为动力学模型。文献[16]则在文献[14]的基础上,研究了兴趣和社会认同双驱动模式下的微博客用户行为。文献[17]则认为人类记忆对行为具有重要影响,并按照记忆中的活动速率对将来的活动进行增速或减速。文献[18-19]则对190多篇不同领域的人类行为时间和空间的特征统计和建模文献进行了综述。

事实上,自2006年“twitter”诞生以来,其方便快捷的个性化信息传播方式就引发了一场新的互联网革命。目前,微博已成为人们生活中必不可少的社交工具和信息交流平台,这就意味着多数微博用户已形成了相对稳定的行为习惯。而现有的模型往往忽略了用户习惯对行为的影响。作为现有研究的补充和延伸,本文在统计分析微博用户行为特征的基础上构建了兴趣、习惯、交互三重驱动下的微博动力学模型,试图更恰当的解释微博用户行为的非泊松特性。

1 实证数据分析

研究数据来源于新浪微博。新浪微博拥有超过5亿的注册用户,月活跃用户数高达1.29亿。本文采集了1 843个用户从2010年1月到2013年11月的微博信息,共计964 728条。其数据格式如表1。

表1 数据格式

对所收集的数据按照工作日和非工作日进行分类,统计各类别中每个时间段内的微博数量得到图1。

图1 微博用户行为的周期性特征Fig. 1 Periodic characteristics of users’ behavior in microblog

由图1可知,微博用户行为存在周期性和阵发性,并以24 h为一周期。从凌晨到6点钟,微博发布数骤减,表明该段时间内发布微博的用户数较少;从早晨7点钟开始,微博数量逐渐攀升,中午12点左右达到最大值;之后出现小幅度的下滑之后,晚上22点钟达到另一个高峰期。这也证实了微博用户的行为时间基本为碎片时间,如上班前(7点)、午休时(12点)、入睡前(晚10点)等。

对所获得数据按照用户ID进行统计,将用户 ID相同的数据项归为一类,去除内容不完整和微博 ID相同的数据,然后求出各个用户 ID的平均日发文量。将用户按照日发文量进行分组,日发文量在20以上的为组1,日发文量在11~20之间的为组2,日发文量在6~10之间的为组3,日发文量在0~5之间的为组4。具体分析结果如表2所示。

表2 分组及幂指数取值情况

由表2知,群体幂律分布的幂指数正相关于日平均发文量,即日平均发文量越高,则群体行为时间间隔分布的幂指数越大,这表明微博发布与文献[7]的电影点播具有类似的行为特征。因为日平均发文量可以看作是用户活跃性的反映性指标,所以可以认为,日平均发文量越大,则用户活跃性越高。而用户的活跃性则受到兴趣、习惯、交互、职业性质等多方面的影响。由于研究对象的特殊性,所以本文中的交互是指用户发布的微博获得评论或转发。

(a) 组1

(b) 组2

(c) 组3

(d)组4图2 各组用户时间间隔分布Fig. 2 The interval distribution of individual group

由图2可知,较高活跃性的用户群体的时间间隔分布下降速度较快;而较低活跃性群体的时间间隔分布下降较缓。因转发微博也作为用户发布的微博呈现在用户界面上,所以文中微博用户行为不严格区分原创和转发行为。同时可以看出,较小的时间间隔在用户发布行为中占有绝对的分量,这与文献[12]的分析结果是一致的,即长时间的静默和短时间内的爆发。且较长的时间间隔所占比例较小,这是由人类动力学的普遍规律所决定的。一方面,人们的活动周期性使得较长的行为时间间隔存在;另一方面,发布微博对于用户而言不是必须要做的任务,其主要是由用户兴趣和习惯等因素决定,在没有形成固定的发布习惯时,用户主要受兴趣和交互的支配,而发布行为的兴趣是复杂多变的。

将数据按照有交互和无交互分成两组,统计整理出两组的时间间隔分布如图3所示。可以看出,有交互的情况下,相邻行为时间间隔分布服从幂指数为1.53的幂律分布;而无交互的情况下,微博用户相邻行为时间间隔则服从幂指数为1.35的幂律分布。这说明在交互的情况下用户相邻行为的时间间隔较小的占有较大比重,也就是说同一时间段内,相比较无交互的情况下,用户行为发生的更为频繁。该图表明用户之间的交互行为,在一定程度上能够刺激用户更积极的发布微博。

(a) 有交互

(b)无交互图3 有无交互情况下微博用户行为时间间隔分布Fig. 3 The interval distribution with and without interactions

2 兴趣、习惯、交互三重驱动下的用户行为建模

以上分析结果表明,用户的活跃程度决定了微博用户的信息发布行为模式。为了便于研究,假定用户的活跃性仅受到兴趣、习惯和交互的影响,其他因素暂且忽略。影响用户活跃性的习惯因素包括两个方面,一方面是习惯的稳定性;另一方面是习惯的强度,即每日习惯行为发生的次数。本文假设用户形成习惯后不会改变。

首先考虑兴趣的驱动,初期兴趣浓厚,随着时间的增加,兴趣逐渐递减,直到时间足够长时(超过一个周期时)兴趣又变为1,采用兴趣递减函数形式为1/(1+α(t-t'))(同文献[14]等),其中α表示兴趣的衰减速度,t-t'表示时间间隔,下文中以τ表示;其次用户习惯的形成对行为具有驱动作用,可以认为用户习惯的形成能够缓解兴趣的衰减,使用参数β表示形成习惯的稳定性,β的取值范围为[0,1],使用参数η表示习惯强度,且η≥0,则兴趣、习惯双驱动下的模型为1/(1+α(t-t')/(1+ηβ));最后考虑交互的驱动影响,由上文可知交互能够进一步激发用户的发布行为,因此可以认为用户之间的交互也能够抑制兴趣的衰减,使用参数φ表示用户交互的程度,取值范围为φ≥0,其中φ=0表示无用户交互,不考虑习惯时,则兴趣和交互的驱动函数为1/(1+α(t-t')/(1+φ)),而在兴趣、习惯、交互三重驱动模式下,还要考虑习惯和交互的关系,本文认为当形成的习惯较稳定时,习惯的影响较大,而形成的习惯较随机时,则认为交互带来的影响更大,使用λ表示用户习惯的影响权重,γ为用户交互的影响权重,且λ+γ=1,则三重驱动下模型为1/(1+ατ/(1+ληβ+γφ)),其中λ与β的取值关系为

根据以上假设,提出引入习惯和交互双重抑制的兴趣驱动模型,模型描述如下:

1)时间离散,单位步长为1min,用户发布微博的概率以用户兴趣来表示。

2)兴趣的改变具有周期性,t=0时兴趣最大,值为1。在一个周期内,用户发布行为的兴趣随着时间的增加呈衰减趋势,当时间间隔超过一个周期时,用户兴趣上升为1。

假设t时刻行为发生,则下个行为发生在t+τ时刻的概率为:

(1)

式(1)又可以变换成如下形式:

(2)

由伽马函数的性质可将式(2)变换为下式:

(3)

(4)

由式(4)可知

由以上推导结果可知,兴趣、习惯、交互三重驱动模式下的微博用户动力学模型能够产生的相邻行为时间间隔服从幂指数为参数可调的((1+ληβ+γφ)/α+1)的幂律分布。

对上述提出的微博用户行为动力学模型进行数值模拟,模拟时间步为100 000,为了验证实证数据的有效性,固定兴趣衰减速度为3;用户习惯稳定性β分别取0.1和0.6,用户习惯强度η分别取0和5;用户交互φ取1;λ则分别取0.1和0.5的情况下进行仿真。在数值模拟中,取P(t)的初始值为1,在仿真的过程中根据P(t)的取值判断行为是否发生,若行为发生则将该时刻的P(t)赋值为1,否则发生行为的概率取值为P(t)=(1+ληβ+γφ)/(1+ληβ+γφ+α(t-t′)),其中t′为上次行为发生的时间。

(a) β=0.1,η=0,λ=0.1,γ=0.9

(b) β=0.6,η=5,λ=0.5,γ=0.5图4 模型数值仿真结果Fig. 4 Simulation results of the model

图4中,(a)为β=0.1、η=0,λ=0.1,γ=0.9模型所产生的相邻行为时间间隔分布图,该参数取值下所产生的幂律分布幂指数为1.59,与数学推导所得幂律1.63比较吻合,且η=0意味着不考虑用户习惯行为,即模型弱化为兴趣、交互双驱动动力学模型;(b)为β=0.6,η=5,λ=0.5,γ=0.5时模型所产生的相邻行为时间间隔分布图,幂律分布指数为2.06,与推导所得幂指数2.0较一致,该参数取值下表示用户形成较稳定的行为习惯,且习惯强度较大,该取值意味着习惯成为兴趣衰减的主要抑制因素,同时,用户之间的交互对用户行为的驱动影响变弱,但不能忽视用户交互的存在,因为用户交互行为变得很频繁时,人们往往能够打破习惯的束缚,进一步刺激用户变得更为活跃。这与实证数据的分析结果是一致的。

3 结束语

本文通过统计分析微博用户每日发文的时间和数量特征,验证了微博用户的发布行为具有周期性和阵发性。同时分析了不同日平均发文量群体用户的微博发布时间间隔特征和有无交互行为的时间间隔分布特征,分析结果表明,不同活跃程度的用户群体的发布时间间隔都近似服从幂律分布,且幂指数与活跃程度之间具有正相关关系;另外交互能够在一定程度上激发用户的发布行为。在实证数据分析结果的基础上,探讨了用户兴趣、习惯和交互之间的关系,并提出一种基于用户兴趣、习惯和交互的行为动力学模型。通过数学推导可以看出,该模型能够生成幂指数为((1+ληβ+γφ)/α+1)的幂律分布。且模型的仿真结果与实证数据分析结果较为一致。

人类行为是高度复杂的,本模型对用户行为的驱动力作了较多简化,因此该模型尚存在一定的不足。未来,可进一步挖掘隐藏在行为背后的更为本质的驱动因素或发布动机,本模型的提出有助于进一步的分析和探讨。

[2]ECKMANN J P, MOSES E, SERGI D. Entropy of dialogues creates coherent structures in e-mail traffic[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(40): 14333-14337.

[3]JOHANSEN A. Probing human response times[J]. Physical A: Statistical Mechanics and its Applications, 2004, 338(1/2): 286-291.

[4]HONG Wei, HAN Xiaopu, ZHOU Tao, et al. Heavy-tailed statistics in short-message communication[J].Chinese Physics Letters, 2009, 26(2): 028902.

[5]ZHAO Zhidan, XIA Hu, SHANG Mingsheng, et al. Empirical analysis on the human dynamics of a large-scale short message communication system[J]. Chinese Physics Letters, 2011, 28(6): 068901.

[6]CANDIA J, GONZLEZ M C, WANG Pu, et al. Uncovering individual and collective human dynamics from mobile phone records[J]. Journal Physics A: Mathematical and Theoretical Email, 2008, 41(22): 224015.

[7]ZHOU Tao, KIET H A T, KIM B J, et al. Role of activity in human dynamics[J]. Europhysics Letters, 2008, 82(2): 28002.

[8]GONÇALVES B, RAMASCO J J. Human dynamics revealed through web analytics[J]. Physical Review E, 2008, 78(2): 026123.

[9]RADICCHI F. Human activity in the web[J]. Physical Review E, 2009, 80(2): 026118.

[10]WANG Peng, LEI Ting, YEUNG C H, et al. Heterogeneous human dynamics in intra-and inter-day time scales[J]. Europhysics Letters, 2011, 94(1): 18005.

[11]GUO Jinli, FAN Chao, GUO Z H. Weblog patterns and human dynamics with decreasing interest[J]. The European Physical Journal B, 2011, 81(3): 341-344.

[12]BAO Yuanyuan, XIN Zhanhong. Human activity pattern on microblogging interaction[C]// Proceedings of the 2011 International Conference on Information Management, Innovation Management and Industrial Engineering (ICIII). Shenzhen, 2011: 303-306.

[13]焦玉, 刘衍珩, 王健, 等. 基于习惯的人类动力学建模[J]. 科学通报, 2010, 55(11): 1070-1076. JIAO Yu, LIU Yanhang, WANG Jian, et al. Model for human dynamics based on habit[J]. Chinese Science Bulletin, 2010, 55(24): 2744-2749.

[14]SHANG Mingsheng, CHEN Guanxiong, DAI Shuangxing, et al. Interest-driven model for human dynamics[J]. Chinese Physics Letters, 2010, 27(4): 48701-48703.

[15]HAN Xiaopu, ZHOU Tao, WANG Binghong. Modeling human dynamics with adaptive interest[J]. New Journal of Physics, 2008, 10: 073010.

[16]YAN Qiang, YI Lanli, WU Lianren. Human dynamic model co-driven by interest and social identity in the microblog community[J]. Physica A: Statistical Mechanics and its Applications, 2012, 391(4): 1540-1545.

[17]VAZQUEZ A. Impact of memory on human dynamics[J]. Physica A: Statistical Mechanics and its Applications, 2007, 373: 747-752.

[18]韩筱璞, 汪秉宏, 周涛. 人类行为动力学研究[J]. 复杂系统与复杂性科学, 2010, 7(2/3): 132-144. HAN Xiaopu, WANG Binghong, ZHOU Tao. Researches of human dynamics[J]. Complex Systems and Complexity Science, 2010, 7(2/3): 132-144.

[19]周涛, 韩筱璞, 闫小勇, 等. 人类行为时空特性的统计力学[J]. 电子科技大学学报, 2013, 42(4): 482-540. ZHOU Tao, HAN Xiaopu, YAN Xiaoyong, et al. Statistical mechanics on temporal and spatial activities of human[J]. Journal of University of Electronic Science and Technology of China, 2013, 42(4): 482-540.

Microblog users' dynamic model driven by interest, habit, and interaction

ZHAO Jinlou1, CHENG Junhui1,2, LIU Jiaguo1

(1. School of Economics and Management, Harbin Engineering University, Harbin 150001, China; 2. School of Economics and Management, Hainan University, Haikou 570228, China)

Aiming at the behavior of microblog users, Sina empirical data were collected to analyze microblog userbehavior characteristics in different circumstances. The results show that the user blog release behavior has periodic and outburst characteristics, the time interval of users releasing microblogs obeys a power-law distribution, and the relation between power exponent and user activity shows positive correlation. In the time between blog entries, the interaction among users can stimulate users to be more active microbloggers. On this basis,we construct a dynamic model driven by interest, habit, and interaction. Mathematical derivation shows that the model is able to obtain a power-law distribution with an adjustable power exponent. The simulation results of the dynamic model are consistent with the analysis results of empirical data.

time interval distribution; interest; habit; interaction; human behavior dynamics;microblog; dynamic model

2014-06-12.

时间:2015-07-15.

国家自然科学基金资助项目(71271062);中央高校基本科研业务费资助项目(HEUCFD1507).

赵金楼(1957-), 男, 教授,博士生导师; 成俊会(1989-), 女,讲师,博士.

成俊会, E-mail:chengjunhui1989@163.com.

10.3969/jheu.201406021

C931

A

1006-7043(2015)09-1292-05

网络出版地址:http://www.cnki.net/kcms/detail/23.1390.U.20150715.1728.009.html

猜你喜欢
幂指数幂律间隔
部分相干幂指数相位涡旋光束的传输特性研究*
《数学通报》2235问题的推广
间隔问题
大数据时代下幂律分布在医学领域中的应用价值
间隔之谜
基于幂律分布的房地产泡沫破裂风险预警研究
基于逼近理想点幂指数评估的防空导弹型谱分析与研究
一类度互质的无标度网络研究
四川地区降水幂律指数研究
幂律流底泥的质量输移和流场