网络热点话题传播的脉冲时序行为动力模型

2015-04-17 02:45郭瑞强郭阿为韩忠明

计算机工程与应用 2015年16期

关键词：热点话题消息时刻

郭瑞强，郭阿为，韩忠明，周萌，张伟

GUO Ruiqiang1，2,GUO Awei1,HAN Zhongming3,ZHOU Meng1,ZHANG Wei1

1.河北师范大学数学与信息科学学院，石家庄050024

2.河北师范大学移动物联网研究院，石家庄050024

3.北京工商大学计算机与信息工程学院，北京100048

1.College of Mathematic and Information Science,Hebei Normal University,Shijiazhuang 050024,China

2.Mobile Internet of Things Institute,Hebei Normal University,Shijiazhuang 050024,China

3.College of Computer Science and Information Engineering, Beijing Technology and Business University, Beijing 100048,China

1 引言

20 世纪90 年代以来，随着互联网和Web2.0 技术的迅猛发展，网络渐渐成为人们日常生活中信息交互的重要平台，并逐渐超越报纸、广播、电视，成为首大媒体。一个话题（Topic）在网络上被疯狂转载，形成热点话题、产生巨大效应之前，大多都在一些交互式网站（例如论坛、博客、微博等）上已经成为热点话题（Hot Topics），因此交互式网站是最早的网络热点话题起源地。随着时间的变化，网络热点话题的发展趋势呈现一定的规律性。有些热点话题缓慢地增长达到峰值，然后慢慢消退；有些热点话题迅速达到高峰后，骤然消退；还有些热点话题则有更复杂的变化规律，如图1 所示，其中时间单位为小时（h）。图1中的六类曲线[1]是对网络热点话题进行聚类后得到的，图中归纳出话题可能的传播模式。

本文以网络热点话题为研究对象，以热点话题从起始到相对长一段时间内的“热度”作为一个时间序列[1]，对该时间序列进行建模，深入刻画热点话题形成与发展的内在机制，达到分析热点话题规律的目的。

Yasuko Matsubara 等人[2]对信息传播的模式进行了建模，提出了SpikeM 模型，该模型可以较好地反映信息传播的模式。但是针对热点话题多次出现高峰的情况，该模型就无法拟合。且该模型假设存在一定的局限性，它是针对某一事件，且每个网络用户只能发布一次消息，这与实际环境中用户就某一话题多次发帖的事实不符。

本文对SpikeM 模型的假设进行了改进，并且在模型中加入了随机脉冲干扰，构建了脉冲时序行为动力模型（Pulse Time Series Dynamic Model，简称PTSDM），并在实际数据集上进行了大量的实验、分析与比较。实验结果表明本文构建的模型能够很好地拟合真实数据，较为准确地刻画了热点话题形成与发展的内在机制。

图1 六类曲线

2 相关工作

M.Nekovee 和Y.Moreno 等人[3]研究了复杂社会网络（Complex social networks）下谣言传播的理论，比较了不同社会网络拓扑结构中谣言的传播机制。Damon Centola 等人[4]研究了在线社会网络实验中行为的传播，针对社会网络对行为传播的影响，得出行为在高聚类网络中比在相应的随机网络中传播的更远、更快。

吴芳等[5]通过对digg.com 网站上100 万用户的集体关注动力学进行分析，建立了一个以新颖因子为特征的动力学模型，并得出结论：关注会在一定的自然时间尺度内消退。赵丽等[6]通过统计和分析中国最大的博客站点（新浪博客）在几个月中若干具有突发性的事件引起的热门话题数据，提出了一个基于节点知名度和活跃度的离散时间话题传播模型。该模型只是博客网络中话题传播规律的初步探索，无法揭示网络中热点话题的形成与发展过程。20 世纪60 年代，Daley 和Kendall[7]对谣言传播现象进行了研究，对谣言传播提出了数学模型。另外，周苗苗等[8]建立了社会网络上的谣言传播模型，研究初始集合对谣言传播的影响，得出了任何节点被谣言传播影响总的表达式，需要进一步研究谣言传播的仿真实验。Andrea Apolloni等[9]研究了现实社会网络模型上的信息传播，仿真检验了在模拟的社会技术网络中个人谈话的信息传播，建立概率模型来判断两个人基于他们之间的相似度与熟悉度是否将谈论某个特殊的话题。

3 话题传播过程

通常，网络用户可以方便地通过交互式网站进行注册，成为一名虚拟用户，并在该网站上浏览消息和通过评论、转发及回复来表达自己的思想和对事件的看法。

在某一时刻T发生了一件事，一些网络用户立即关于此事发消息，成为传播源。其他的用户看到这些消息后，关于此事发消息（评论、转发），随着时间推进，已发过消息的用户或许继续关于此事与其他用户讨论而发消息（评论、转发或回复），且有新的用户关于此事发消息。随着时间变化，该话题的受关注度逐渐消退。据此关于此话题的用户的最终发帖量形成一个时间序列，其反映了该话题受关注度是怎样随着时间的推移而发生变化的。

首先假设封闭世界，也就是在Web2.0 这些交互式网络上，话题从某一网络中产生，并仅在此网络中传播，从而可以定义传播模型。

定义无向图G={V，E}，用于描述某一交互式网络中某一个话题的实际传播网络，其中，V是网络上用户的集合，用户可以发布新话题的消息，也可以评论其他用户发的消息获得话题信息，并发布相关消息供其他用户评论、转发或回复。

E表示将网络用户连接起来的所有边组成的集合，代表话题可能的传播路径。如图2 所示，表达了话题在网络用户间的传播网络。图中空白节点表示对某事件不知情的网络用户，阴影节点表示已经知道此事件，并关于此事件发布消息的用户。在图2 中，T=0 时刻没有事件发生，所有的网络用户都处于未知状态，而在T=t时刻，发生了一件事，某些网络用户得知此消息后即刻在网络上发布相关消息，这样在下一时刻T=t+1 时，与最先发布消息的用户有连接的用户也得知此消息并发布相关消息，而使话题继续这样传播下去。

图2 话题在网络用户间的传播网络

由于交互式网络（Web2.0）相对于其他网络有自己的特点，不同于互联网等物理网络，交互式网络是一种关系网络。交互式网络（Web2.0）注重用户的交互作用，用户既可以浏览网站内容，也可以“制造”网站内容。这里“制造”网站内容是指互联网上的每一个用户不再仅仅是互联网的读者（reader），同时也成为互联网的作者（writer）。即用户不再被动地接收互联网信息而是主动地创造互联网信息。网络上的用户就可以方便地结识并互相访问，这就使其区别于电子邮件网络等一般的关系网络。因此本文认为交互式网络中任意两个用户之间都可以互相访问，从而此网络是一个全连通的无向图。

4 模型描述

本文中模型构建的思想源于传染病的传播模型SI模型、SIS 模型和SIR 模型[10]。SI 模型中的节点有两种状态：易感染状态（Susceptible，S）和感染状态（Infected，I）。每个感染节点以概率β来感染它的邻居节点（概率β反映了病毒的感染力）。一旦易感者被感染，此节点永远保持被感染状态。即易感染个体被感染后，不能被治愈。SI模型的基本形式如公式（1）所示：

而SIS 模型的原理是易感染个体被感染后，可以被治愈但无免疫力（即还可以被再次感染）（如感冒等）。SIR 模型的原理是易感染节点被感染后，可以被治愈且具有终身免疫力（这些节点不会被感染，同时也不会感染其他节点，相当于已经从传播网络中被清除了）（如天花等）。

若将传染病模型的思想用于网络中话题的传播，则可将网络中用户分为两种状态：发布消息的用户（Spreaders）和未发布消息的用户（Ignorants）。用户发布的消息以概率β感染尚未发布消息的用户，发过一次消息的用户不会重复发消息（或者全部用户都重复发消息），但其所发的消息永远保持一定的感染力，这与现实的交互式网络中话题的传播不符合。事实上，在社交网络中发过消息的网络用户可能会多次重复发布消息，也就是发过消息的用户中有一部分会重复发布消息，而另一部分则发过一次消息后就不再发布消息。

基于上面的分析，本文根据话题的特征及用户的行为模式，建立热点话题传播的模型，来描述随着时间的推进，交互式网络中用户群体对热点话题发表言论数的变化趋势。因此，需建立单位时间内所发消息数与时间之间的动态关系。

简单来说，本文要解决的问题就是已知在某一交互式网络中，在时刻t0发生了一件事，有r(t0)个人关于此事发布消息，要研究此话题将怎样随时间演化。

文中假设：

（1）在时刻t0时，发生一个新闻事件。

（2）r(t0)个人立刻关于此事件发布消息，消息总数为r(t0)。

（3）该网站上其他的用户看到r(t0)个人发的消息后，也立刻关于此事件发布消息（评论，转发或回复）。不考虑那些知道该话题但不发帖的用户或不知道该话题的用户，因为这些用户对话题的传播不起作用。

（4）网站上的所有用户都可以多次发布消息。

（5）期间没有其他的相关事件发生。

假设在某一交互式网络上有用户数N，尚没有任何人关于某一话题发布过消息，在时刻t0，关于此话题的一件事发生了，有r(t0)个人立刻关于此话题发布消息。此话题的感染力，用流行病学中病毒感染力的标准符号β来表示。如果β等于零，表示无人关心此话题；β值越高，表示有越多的用户关注此话题。另外，有参数β·N，此参数与流行病学上的基本传染数R0相对应，表示在没有外部力量介入且所有人都可以被感染的情况下，在下一时刻，一个感染源会感染多少个目标的平均数。则tn时刻关于此话题的所有帖子，具有一定的感染力并以此感染力去影响tn时刻有可能发帖的用户，那么就有tn+1时刻新发的帖子数。用数学符号表示如公式（2），（3）：

其中，r(tn+1)表示(tn，tn+1]时间段内用户所发的消息数，U(tn)表示tn时刻可以被感染的目标数，也就是有可能发帖的用户（包括第一次得知此话题的用户和已发过消息但可能会再次发消息的用户），R(tn)表示tn时刻网站上关于此话题的所有帖子数，R(tn)·β表示tn时刻关于此话题的所有帖子所具有的感染力。

Jure Leskove 等人[11]研究了博客系统中人们的级联行为，他们指出：博客中帖子的“热度”是按照幂律降低的，而不是指数规律，幂律的指数是-1.5，非常符合Barabasi[12]针对人类行为提出的长尾理论。另外，A.L.Barabasi[13]研究的人们对邮件的响应也服从指数为-1.5的幂律分布。最近的一些研究表明用户在使用在线虚拟社区中的行为[14]、计算机指令的使用行为[15]等都具有长尾幂率分布特征。因此，本文假设所研究的交互式网络上用户发布的消息的感染力是随着时间成幂律下降的，即假设帖子发布t时间后的感染力大小为f(t)，则有：

那么tn+1时刻新发的帖子数为：

其中，求和表示从话题开始时刻到tn时刻，所有帖子的总的感染力。

另外，话题在传播过程中，总会受到一些无法去除又无法估计的情况的影响。故在上式中加入噪声ε，一般情况下，ε近似等于0。

至此得到了话题传播的基本模型，如公式（6）。其中U(tn)表示tn时刻可被感染的用户数。由于有些用户可能会重复发消息，而有些用户发过一次消息后就不再参与讨论（不再关注或只是关注但不发言），因此本文假设发过消息的用户不再参与话题讨论的概率服从幂律分布。则tn+1时刻可被感染的用户数等于tn时刻可被感染的用户数减去已经发过消息但tn+1时刻后不再发消息的用户数。

其中：

由于本文在构建PTSDM 模型时是基于人类行为动力学的理论框架，根据热点话题的特性而进行的。则我们考虑人类行为在社会活动中的规律性——参与网络话题讨论的用户活动存在一定的周期性（日周期、周周期、月周期或年周期）。本文只考虑用户行为的日周期，模型如公式（9）所示：

其中：

C(tn)表示周期，考虑到参与讨论的用户的活动以天为周期，因此乘以一个周期因子。即U(tn)表示可被感染的目标数，而求和部分表示感染源。正常情况下，只有当目标与感染源成功接触时，才会感染目标，从而产生新的感染力量；如果目标正处于休息或睡眠状态，没有关注感染源，则就会感染失败，故用周期函数来表示。Cc表示周期时长（24 小时）；Cs表示相位移，如果活动高峰期在晚上6 点，周期为24，则Cs=12；Ca表示振幅，也就是周期波的幅度，如果Ca=0，表示没有周期波动。

根据本文对话题特征的分析，话题在发展过程中存在一定的波动性，故在上述所构建的模型上加入随机脉冲干扰，来表示在话题发展过程中，作者或者一部分用户不断地在一个话题中发表具有新内容的回帖，或者发表一些带有很大刺激性的回帖，来吸引其他用户的回帖。可用如下函数式来表示该干扰：

其中A表示脉冲的峰值幅度，w1，w2表示脉冲的宽度参数，tr1表示首次脉冲峰值出现的时间，tr2表示两个脉冲峰值间的时间间隔。

则本文要构建的PTSDM 模型为：

其中：

C(tn)，S(tn)，f(t)，P的定义分别如式（10）（11）（4）（8）所示。

模型中各参数的定义可参照表1。

表1 参数列表

5 实验分析

为了验证本文构建模型的有效性，实验中共使用了两个数据集，第一个数据集是来自天涯和百度贴吧的热点话题（简记为ChinDt），以单位时间（小时）内的帖子数作为热度，经聚类而成的6 个不同的类；第二个数据集是来自Stanford 大学，选自Twitter 上的热门帖子和新闻（简记为Twhtag），以每小时的评论数作为热度，经聚类而成的6 个不同的类。

（1）在ChinDt数据集上的实验

为了说明本文所构建模型的有效性，将SpikeM[2]模型与PTSDM 模型进行了对比分析。

SpikeM 模型假定，在话题传播过程中，每个网络用户最多参与一次话题讨论，而这与客观实际不符。因此本文构建的PTSDM 模型对其进行了改进，假设网络用户可以多次参与话题讨论，且服从幂律分布。并且在对话题建模时，引入了随机脉冲信号作为干扰，使模型更具随机性，更符合客观实际。

本文采用SpikeM 模型和PTSDM 模型对数据集ChinDt 的6 个中心曲线进行仿真模拟，图3 和图4 分别给出了两个模型的仿真结果，其中时间单位为小时（h）。

在图3 和图4 中，黑色的圈线表示实际数据，红色的加号线表示模型的仿真数据。对于实际数据，横坐标表示话题传播时间，纵坐标表示6 类中心曲线归约后的每小时的新消息数。对于仿真曲线，横坐标表示离散的点，纵坐标表示在相应时间点上用户（包括首次发帖的用户和重复发帖的用户）新发帖子数与总帖子数的比值。

通过对图3 的观察与分析，可以发现SpikeM 模型对ChinDt 数据的拟合不理想，没有体现出网络热点话题形成与发展过程中的上升与下降的过程，难以刻画话题的发展趋势。

通过对比图3 和图4 的仿真结果可以看出，PTSDM模型抓住了网络热点话题的本质特征，很好地拟合了实际数据，特别是实际数据的波动性和重尾现象，真实的反映了时序网络热点话题的发展趋势。

表2 和表3 分别给出了PTSDM 模型在对数据集ChinDt 的六类曲线进行拟合时的参数值和均方根误差（Root-Mean-Square Error，RMSE，也称为标准误差）。均方根误差的计算如公式（14）所示。

通过对图4、表2 和表3 的分析可以看出：

①类C3 和C4 都有一个明显的尖峰，并且迅速达到尖峰后又迅速衰减，但是C3 在话题传播的尾部又有明显的提升，说明C3 类话题在以后时刻又受到某些因素的影响，从而引起网络用户的再次关注。

②C1、C5 和C6 类都有两个波峰，且都是迅速达到高峰值后，然后又骤然下降，经过一段时间后又缓慢地提升而达到第二次高峰，提升到平稳阶段后又以幂律的形式衰减，而最终消退；在C1、C5 和C6 中，在第二次达到高峰时，C6 的间歇时间最长，长达3 天时间，而C5 的间歇时间最短，在首次高峰衰减后即开始缓慢提升。

③对于C2 类，与其他类都不同，C2 类迅速达到首次峰值后，在衰减的过程中，又有一个小的提升，之后以幂律的形式衰减至最低值，直至用户对话题的关注消失。

图3 采用SpikeM 模型拟合ChinDt的6 个中心曲线

④话题在传播过程中有一定的日周期，与实际中人类的日周期行为相符；在所有话题的传播过程中都有一定的小的波动，呈锯齿状，这些都是由于一些不可估计且无法消除的噪音所造成的，这与网络热点话题的实际传播过程很相符。

⑤模型对六类曲线拟合的均方根误差都很小，说明本文构建的模型对数据拟合的精确度很高。

从图4 中还可以看出C4 只有一个波峰，且形成过程快，较少有其他波动，属于自组织的行为模式，说明其属于一般热点话题——由主帖提出问题，然后有大量的用户进行回复生成热点，回复主要针对的对象是主帖。而C1、C2、C3、C5 和C6 有两个波峰，形成过程是一个反复的过程，是一种外力驱动的行为模式，说明其属于诱导性热点话题——主帖提出一个话题，而后吸引回复，在回帖中又有一些帖子（可能是主帖用户，也可能是其他用户提交的帖子）吸引了其他的用户对其进行大量回复，形成一个波浪形的发展过程。

（2）在数据集Twhtag 上的实验

本文根据PTSDM 模型，采用Matlab 编写程序，以Twhtag 的6 个中心曲线为数据源，对模型中的参数进行调整与估计，进行了仿真实验，拟合结果如图5 所示，其中时间单位为小时（h）。

图4 采用PTSDM 模型拟合ChinDt的6 个中心曲线

表2 参数值列表

表3 标准误差列表

在图5 中，黑色的圈线表示实际数据，红色的加号线表示模型的仿真数据。对于实际数据，横坐标表示话题传播时间，纵坐标表示6 类中心曲线归约后的每小时的新贴数。对于仿真数据，横坐标表示离散的点，纵坐标表示在该时刻话题被提及的次数的归约。

通过对图5 的分析，可以看出PTSDM 模型可以很好地仿真来自交互式网络Twitter上的热点话题的数据，能够刻画话题发展的趋势。

图5 采用PTSDM 模型拟合Twhtag 热点话题的6 个中心曲线

通过将PTSDM 模型与SpikeM 模型的对比以及在两个数据集上的实验，可以得出结论：本文所构建的PTSDM 模型能够很好地刻画网络热点话题形成与发展的内在机制，达到了分析热点话题规律的目的。

6 结论

本文对交互式网站上的热点话题建模开展了一系列研究与实验，对已有的建模方法以及模型进行了分析与总结，分析了热点话题在网络上的传播过程，并根据网络用户的行为特征，对网络热点话题进行了建模与分析。本文在构建模型时，与实际情况更为接近——假设用户针对某一事件可以多次发布消息，并且在模型中加入随机脉冲信号作为干扰，从而使模型可以更好的拟合真实话题的传播模式。

本文提出的PTSDM 模型作为网络中话题传播规律的初步探索，进一步的工作有：利用本文构建的PTSDM模型对话题的传播趋势进行预测。

[1] 韩忠明，陈妮，乐嘉锦，等.面向热点话题时间序列的有效聚类算法研究[J].计算机学报，2012，35（11）：2337-2347.

[2] Matsubara Y，Sakurai Y，Prakash B A，et al.Rise and fall patterns of information diffusion：model and implications[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，Beijing，China，2012：6-14.

[3] Nekovee M，Moreno Y，Bianconi G，et al.Theory of rumour spreading in complex social networks[J].Physica A：Statistical Mechanics and its Applications，2007，374（1）：457-470.

[4] Centola D.The spread of behavior in an online social network experiment[J].Science，2010，329（5996）：1194-1197.

[5] Wu F，Huberman B A.Novelty and collective attention[J].Proceedings of the National Academy of Sciences，2007，104（45）：17599-17601.

[6] 赵丽，袁睿翕，管晓宏，等.博客网络中具有突发性的话题传播模型[J].软件学报，2009，24（5）：1384-1392.

[7] Daley D J，Kendall D G.Epidemics and rumours[J].Nature Science，1964，204.

[8] 周苗苗，许成，刘晓波.社会网络上的谣言传播模[J].青岛大学学报：自然科学版，2010，24（4）：28-36.

[9] Apolloni A，Channakeshava K，Durbeck L，et al.A study of information diffusion over a realistic social network model[C]//International Conference on Computational Science and Engineering.IEEE，2009，4：675-682.

[10] Anderson R M，May R M，Anderson B.Infectious diseases of humans：dynamics and control[M].Oxford：Oxford University Press，1992.

[11] Leskovec J，McGlohon M，Faloutsos C，et al.Cascading behavior in large blog graphs[J].arXiv preprint arXiv：0704.2803，2007.

[12] Barabasi A L.The origin of bursts and heavy tails in human dynamics[J].Nature，2005，435（7039）：207-211.

[13] Oliveira J G，Barabási A L.Human dynamics：Darwin and Einstein correspondence patterns[J].Nature，2005，437（7063）.

[14] Grabowski A，Kruszewska N，Kosiński R A.Dynamic phenomena and human activity in an artificial society[J].Physical Review E，2008，78（6）：066110.

[15] Baek S K，Kim T Y，Kim B J.Testing a priority-based queue model with Linux command histories[J].Physica A：Statistical Mechanics and its Applications，2008，387（14）：3660-3668.