社会网络中信息的扩散机理及其定量建模

2018-01-25 00:55付虹蛟徐志明
中国管理科学 2017年12期
关键词:级联概率节点

王 怡,梁 循,付虹蛟,徐志明

(中国人民大学信息学院,北京 100872)

1 引言

随着社会网络的发展和普及,普通大众主导网络信息的扩散活动,扩散主体具有私人化、平民化、普泛化、自主化等特性。博客、微博、微信、论坛等网络社区都是自媒体的表现平台,普通用户在信息扩散过程中既是接收者也是扩散者,大大增加了信息扩散的广度和速度。社交网络上的信息量十分巨大,虽然大部分信息会在短时间内被其它信息覆盖,但有一部分信息会有很长的生命周期,由于其自身所含的信息量和网络中用户的推动,会在短时间内迅速扩散到很大的范围,带来巨大的影响。这种网络舆论由于其范围之广,速度之快,可能还伴随着用户的情绪波动和观点态度,应该引起极大的重视。尤其是对于一些虚假信息或是极端观点的扩散,更加需要及时有效地加以控制,避免引起社会恐慌或是危害人们的财产。在线社交网络中的信息扩散问题也因此成为了网络舆论监控的研究热点。对舆情的整体态势分析有助于预估事件影响力,信息扩散路径中的关键环节也对控制舆论扩散有重要参考价值。

从微观角度对信息扩散进行分析时,我们发现现有研究模型存在以下不足:首先,用户是否在线是用户获取信息的前提,而已有的研究并没有考虑用户接收到信息的概率;其次,准确评价用户之间的影响力是信息扩散过程的基础,现有文献并没有在利用模型进行模拟之前分析节点对之间的影响值;另外,已有研究更多从级联层次上来分析信息扩散过程,所得结果对于时效性更强的社会网络中信息的扩散来说适应度不高,实际指导意义不大。针对现有研究的不足,本文在独立级联模型的基础上,补充了节点的在线状态,将信息的独立级联模型扩展为基于离散时间的双概率独立级联扩散模型;同时本文改进了现有的有关求解网络中边的权重的最大期望算法,利用实际数据分析节点之间的扩散概率,并将所得结果代入所建模型。针对特定的突发型社会事件的信息扩散,本文对实际数据集中节点之间的影响概率进行分析,以所得结果为基础进行实验。为弥补微观模型在网络结构和信息质量上表述的不足,本文进一步从宏观角度对信息扩散过程进行分析,并对其动态变化定量建模。结合微观模拟和现有研究,本文提取重要的影响因素,并以此为基础构建信息扩散方程,从宏观角度对网络舆情扩散的过程进行模拟和分析。

本文第2节根据不同的研究目的对现有的研究进行了阐述。第3节分别从微观和宏观角度对信息扩散的过程进行分析和模型刻画。第4节则根据本文所提模型进行实验模拟,并对实验结果进行分析。第5节对本文的工作进行总结。

2 社会网络中信息扩散相关研究

2.1 扩散机理研究

独立级联(Independent Cascade, IC)模型和线性阈值(Linear Threshold, LT)模型[1]是最为经典的两个用来描述社交网络中影响力扩散的模型,分别从概率和阈值的角度对信息扩散机制进行刻画,自提出后被广泛应用并扩展。独立级联模型源于市场影响模型研究,在此模型中,网络中的节点有激活和未激活两种状态,且节点只存在由未激活状态转化为激活状态这一种变化形式。在第t步扩散时,某一节点v的邻居节点u处于激活状态,此时u有使处在未激活状态的节点v变成活跃状态的可能,且成功的概率是pu,v;若节点v有多个被激活的邻居节点,则邻居们对节点v的影响顺序是任意的。独立级联模型能够较好地反应网络中的影响力扩散过程,适用性较强,后续对于该模型也有更为深入的研究。Sauti等[2]则首次提出了异步级联(Asynchronous Independent Cascadel, AsIC)模型,强调时间对于信息扩散的影响,并设计了迭代更新参数的算法,使结果更合理。Saito等[3]对IC模型、LT模型和AsIC模型对于不同主题的信息的适用性进行了分析,用实际扩散数据进行验证,发现大部分信息扩散符合AsIC模型。万圣贤等[4]还采用最大熵的方法对IC模型中涉及的阈值进行了定义和分析,发现与Logistic Regression模型相比,此方法具有更好的稳定性。Chen Wei等[5]则提出了加权级联(Weighted Cascade)模型,其中节点成功激活后继节点的概率是后继节点的入度的倒数,其它规则与IC模型一致。朱湘等[6]则在已有模型的基础上,提出了一种结合用户去重、垃圾用户滤除和概率阅读的扩散模型。

以往的研究表明,独立级联模型能够很好地匹配在线社交网络的结构特性;但由于社交网络的自身特性,传统的模型在时间和概率上存在明显的不足。首先,在线社交网络中的用户会以一定的概率停留在线上并接收网络中的信息,即用户是否在线是用户能否阅读到已有信息的前提,传统的IC模型没有考虑节点的状态是否有效。其次,信息在网络中的扩散速度很快,时效性是舆论监控中的关键要素之一。既有的信息扩散模型更多地从扩散层级出发,考虑的是每一步的扩散结果,无法体现时间的特性。网络中不同的信息在自身属性上差异很大,包括信息的内容、信息的展现形式和信息本身所含的信息量等方面,将不同主题的信息一概而论是粗糙且不合理的。

以上的模型都需要有一个先验知识,即节点之间的扩散概率,在网络中也称为边的权重,一般研究扩散模型的文章中,都将这一知识看作是已知的,仅部分学者就这一关键问题进行了独立研究。Saito等[6]第一次系统提出了如何求解扩散概率的问题并给出了解答,他们的研究基于独立级联模型,对扩散过程的概率进行分析,在求解似然函数最大值的时候采用的是最大期望(Expectation Maximum, EM)算法。Goyal等[8]则分别从静态和动态的角度分析了扩散概率,并为这两种扩散模式中的概率获取设计了相应的算法。他们的研究从大量的日志数据入手,优化算法的扫描次数,使得所需参数能够在两遍以内的扫描中求得,而且能够预测用户会在什么时刻进行转发。这一算法适用于大规模的网络,在性能和时间上都有所提高。郭静等[9]在线性阈值模型的框架下,以社交网络中用户的历史行为日志为基础,利用最大似然估计的思想对用户间的影响力进行学习,同样能够对网络中边的权重进行求解。

线性阈值模型则源于节点的特异性研究,它与独立级联模型的不同之处在于,当一个激活节点u尝试去激活它的处于未激活状态的邻居节点v时,其影响力pu,v不会失效,而是积累下来。此模型也被广泛改进和应用,典型的包括从多层级级联扩散[10]、竞争性[11]、动态性[12]、网络结构[13]等方面对其进行扩展。除此以外,传染病模型从另一角度对信息扩散进行描述,经典的传染病模型将人的状态分为易感S(susceptible)、感染I(infected)、治愈R(recovered)三种状态,根据状态转换定义出SIR模型,后续还调整出SIS、SIRS模型等,是扩散动力学的主要分支之一。其它的模型包括连续时间模型、博弈论模型和多实体扩散模型等。

2.2 扩散整体态势的研究

在对信息扩散过程从宏观角度进行研究时,部分文献从统计结果出发,通过对实际数据集的分析,得出信息随时间扩散的特性,或是用数值方程进行拟合。也有一些动态方程模型,在假设信息扩散过程的基础上,用函数进行刻画,都取得了较大的认可。此外,Yang等[14]则没有关注网络结构或者预测哪些节点会被影响,而是从宏观上构建了一个线性影响(Linear Influence)模型,通过最小方差法来得到参数的值,取得了较好的数值模拟结果。刘德海[15]等综合考虑群体性突发实践中不同利益方同时存在信息过剩、信息匮乏和虚假信息等多样化的信息特征,建立信息传播的演化博弈模型,分析信息特征对震荡型群体性突发事件的演化影响。Boyd等[16]以Twitter为研究对象,对用户Retweet(类似于国内微博的“转发”)的方式、动机以及信息的内容主题倾向进行了分析。廖为民等[17]则从具体的事件出发,通过对整个事件过程中信息的扩散数据进行整理和分析,定量和定性相结合,准确而形象地对事件的发展过程进行了刻画。刘樑[18]等考虑政府、网民、媒体和非常规突发事件等agent,建立行为特征模型、因果关联图等,并通过防火怎计算提出在线信息的预警策略。王秀利[19]等利用无标度网络模型具有的增长、择优连接特性,加入社会舆论因素,提出微博平台下的商业舆论传播模型。这些研究主要研究的是最终的扩散效果,但是对于时间方面的特性则没有考虑。曹学艳[20]等把突发事件应对等级引入网络舆情热度指标中,进一步丰富和完善了舆情热度指标。

本文在认识信息扩散的微观机理的基础上,对整个事件的扩散进行梳理,并建立对应的方程,以方程的形态特征来描述事件扩散的特点。

3 社会网络中的信息扩散模型

在本节,我们为社会网络中的信息扩散建立相关的模型以描述其扩散机理,并参考已有资料对信息扩散过程建立数值化模型。模型涉及到的变量及其含义如表1所示。

3.1 信息的微观扩散模型

这一部分构建了双概率独立级联扩散模型,从微观角度刻画社会网络中信息随时间变化的扩散过程。

表1 方程组中变量及其含义

将社会网络中的用户看成是图中的节点,用户之间的关注关系看成图中的边。本文中节点和用户代表的是同一实体,可以相互替换。对于一个有向网络G= (V,E), 其中V代表节点的集合;∀v,w∈V,v≠w,e= (v,w)表示存在从节点w指向节点v的边,信息可沿着边e从v传向w;网络中所有的边构成集合E。对于G中的每个节点v,其子节点的集合用F(v) = {w: (v,w)∈E}表示,而它的父节点集合则用B(v) = {u: (u,v)∈E}表示。每个节点的状态从两个维度来考虑:一方面,根据是否转发特定的信息可以分为激活(Active)和未激活(Inactive)状态。即对于一条特定信息,若用户已经转发,则属于激活状态;反之,所用户没有转发,则处于未激活状态。另一方面,根据用户是否在线可以分为在线(Online)和离线(Offline)两种状态,且用户v在时间段[ti,ti+1)(i=1, 2, 3, …)内在线的概率为kv。用户处于离线状态时无法获取信息,也就不可能出现激活的过程。用户在线时则意味着用户能够获取相关新信息,并有可能被激活。用户一旦处于激活状态,则无需再考虑用户的在线状态。对于图G中的每一条有向边e= (v,w),我们用实数pv,w来表示e的权重,其中0

图1为信息在给定节点网络中的扩散示意图,其中橙色表示节点处于激活状态,绿色表示节点尚未被激活且处于在线状态,灰色表示节点未被激活且处于离线状态。信息在时间段[ti,ti+1)内的级联层次并不固定,在图中用sij来表示[ti,ti+1)内的第j层传播,比如图1中,[t1,t2)内扩散了2层,[t2,t3)内扩散了3层。每层激活过程中,活跃节点的子节点中处于在线状态的节点组成待激活节点集合,接着活跃节点会尝试影响待激活节点。例如图中初始时刻t1只有一个初始活跃节点,在[t1,t2)的s11阶段,它的子节点中处于在线状态的两个节点形成了待激活节点集合,进而它尝试激活这两个节点,最终成功和失败各一个,此激活结果作为s12的初始状态。在s12阶段,活跃节点的子节点中满足在线状态的有两个,但其中一个曾经激活失败且并无新的活跃父节点,所以不能加入待激活节点集合。唯一符合要求的节点也最终激活失败,因此进入[t2,t3)时依然只有两个活跃节点。该时间段会重复第一个时间段内的过程。由于观测时刻只到t2,图示中的信息扩散过程结束。

图1 信息的级联扩散随时间变化的过程示意图

图1中某一时间段内的信息扩散过程可以由图2表示。信息在每个时间段[ti,ti+1) 中可能会扩散多层,设为step(i) (i=1, 2, 3, …)。用sij表示信息在[ti,ti+1)内的第j层传播,集合C(ti,sij)表示时间段[ti,ti+1)的第sij层级联中,所有处于活跃状态的节点集合。

图2 节点网络中信息扩散的过程示意图

给定初始的活跃节点集合C(t1,s11),在时间段[ti,ti+1]中第sij层,任意v(C(ti,sij)有机会来激活它的子节点集合中处于不活跃状态的节点。对于w∈F(v), 当w处于不活跃状态且在线时,若之前v没有尝试激活过w,则本轮可以进行激活,且激活成功的概率为pv,w。如果v成功了,则w在下一次扩散时处于活跃状态,即:

(1)

若v没有激活成功,则之后无法再次激活。也就是说,v最多只有一次机会来激活w。对于处于未激活状态的节点w来说,若在这一时间段内处于在线状态,且最近一次处于在线状态的时间为t’,而在(t’,ti)中有多个父节点新被激活,则将这些节点随机排序,依次判断是否能够激活w,一旦被激活则停止判断。

当没有新的节点存在被激活的可能性,或是时间已经超过我们设定的考虑范围,则信息的级联扩散过程停止。

以上模型总结如下:

模型I.

(1)给定一个初始活跃节点集合C(t1,s11),其中C(ti,sij)表示时间段[ti,ti+1)内第j层的活跃节点集合,且i= 1, 2, 3….。

(2)在每个时间段[ti,ti+1)中,信息会发生step(i)级扩散。

(3)对于每一级的扩散,当结点v处于激活状态时,它的每个非激活状态且在线的邻接点w都有可能变成激活状态。若w有多个新的激活邻接点,影响顺序可以是任意的。如果w被激活,则它会加入活跃节点集合,具体方式如公式(1)。

(4)一旦v尝试激活过w,就不能再次激活。

(5)当超过有效追踪时间,或是不在产生新的激活点,该过程结束。

模型I能够较好地描述社会网络中信息在用户群体间的扩散过程,且可以体现出信息的扩散随时间变化的数量变化。

3.2 事件扩散的数值模型

模型I从微观角度对信息的扩散过程进行了刻画和分析。但事情发生后,其扩散过程还会受传播平台、用户网络、时间、前期传播等诸多不确定性因素的影响,需要从宏观的角度对其进行分析。我们在模型II中梳理了信息扩散过程中主要因素的反馈和发展机制,并定量化分析网络中事件信息的扩散情况。

假设网络中有N个节点,且对于相关的话题没有明显的倾向性。在时刻nb发生了一件突发事件,此时有Sb个用户及时地对其进行了扩散。我们将这一外部的突发事件看成是一个信息刺激。用(来表示事件本身的影响力即信息的质量,包括它的内容、来源、争议性、信息量等本身的性质,这一特征会对信息的扩散速度、广度和深度产生重要的影响。若(为0,则没有人会对这一刺激产生兴趣,也不会有人对其进行发布或转发、评论等。但(越大,则会有更多用户参与到舆情的扩散中来。根据已有的研究,信息的影响力会随着时间的变化而衰减,并服从幂律(power law)衰减的规律。本文用函数f(n)表示信息的影响力随扩散阶段n的衰减过程。对事件扩散的模型描述如下:

模型II.

(1)某一事件发生后,一批初始结点会迅速扩散相关消息,进而影响到网络中大量的未被激活结点。

(2)在时间段[ti-1,ti),i= 1, 2, 3…,活跃结点以一定的概率影响非活跃结点。此概率同时与信息质量和结点的活跃程度有关。

(3)其它平台会对信息的扩散产生外部刺激,且该刺激与上一时刻信息的扩散量正相关。

(4)扩散过程中会因为不可控的随机因素而产生不可避免的噪声。

(5)超过有效追踪时间时,信息扩散结束。

模型II假设:(1)每一个用户只会在相关事件的扩散中参与一次。(2)假设信息的刺激源头是单一的,即在事情的扩散过程中,没有相关的事件发生对信息的扩散产生二次影响。

假设节点有两种状态:U(un-informed of the rumor)代表未被感染状态,I(informed of the rumor)代表已被感染状态。用△B(n)表示在时刻n被感染的用户数,并且一旦被感染,则会立即改变状态。用U(n)表示在时刻n未被感染的用户数目,则:

(2)

U(n+1)=U(n)-ΔB(n+1)

(3)

其中,f(τ)=βτ-1.5,且△B(0) = 0,U(0) =N。ρ为用户关联的紧密程度,用来刻画用户关注网络中用户的连接概率。由于现在信息的多元化,不同平台上的信息之间彼此会存在影响,因此,我们会增加一个外部的刺激S(n),代表时刻n产生的影响。数值上可以表示为:

(4)

在上述模型中,

a)△B(t) +S(t)这一项代表了在时刻t新增的受影响用户数目和外部来源的影响;他们的感染率可以用函数f来表述,而且我们认为影响因子随着时间呈现幂率降低。从初始时刻nb开始后的所有项进行累积就可以得到所有的影响力。

b)影响因子函数f完全符合幂函数形式,且从以往基于真实数据集的研究得知,其常数为-1.5。

c)外部影响函数S是自适应的项,在初始时刻,即n=nb时,外部影响就是初始感染的用户集数目。但在以后的时刻中,我们假设外部影响会与信息的扩散情况相关,存在一定的滞后性。即在上一个时间段中,若信息的扩散量很大,则说明信息的扩散能力很强,更容易受到外部平台中的影响。相反,若扩散量较小,外部的影响也会降低。为避免信息扩散数量的绝对值影响,本文先对其取对数,并加上常数a对其进行调节。同时为避免信息没有扩散△B(t-1)=0而可能出现的错误,我们给其加上常数1。

d)将从初始时刻开始到时刻n的所有新增项进行加和,得到的是所有的刺激因素;而有效的激活目标是尚未被感染的用户U(n),它们的乘积与当前的信息影响力f(n+ 1 -t)相乘时时可以得到新的感染用户数目。

e)用随机项ε来对一些特殊情况进行建模,比如信息加上了一些话题时,就会产生一定的影响。一般情况下,0<ε< 1。

同时,信息的扩散与用户的行为息息相关,考虑到用户的生活周期性,我们将周期性这一特性也加入到信息扩散的数值方程中,则:

(5)

(6)

其中,A(n)是周期性调节因子,代表用户在网络中的活跃程度;A为振幅,表示用户活跃程度的变化程度;T为周期,本文以小时为单位进行分析,所以T为24。根据用户的日常活动,在白天的时候,会存在一个峰值,而到了晚上,则会降低对事件的关注度。As是相位调节因子,由事件发生的初始时刻与用户活跃极大值的时刻共同决定,若事件发生在上午8点,而用户最活跃的时间为中午12点,则As= 2。

4 实验

在这一部分,我们对上文中的模型进行实验模拟,并对实验结果进行分析。

4.1 面向单条信息的扩散实验

(1) 用户之间扩散概率的分析

这一部分根据模型I所述的扩散机制,从扩散概率的角度出发,对信息扩散的结果进行概率推导,进而分析得到节点对v,w之间权重pv,w的求解方法。为使分析过程更为清晰,我们只考虑到时间段这一层次,而不进入到里面具体的级联层数,时间也用t进行简化表示。

用rw(t)代表节点w在t时刻被激活的概率,则t+1时刻节点w被激活的概率表示如公式(7)所示:

(7)

这里,节点w在t时刻没有被激活包含两种可能性,一是w没有在线,一是虽然w在线,但是其父节点集合中的节点均未能成功激活w。

集合D(t)表示在时间段t内新被激活成功的节点集合,则整个扩散过程D可以表示为各个时间段内新增集合的并集,即D=D(0) ∪D(1) ∪ … ∪D(T),其中T表示有效的观察时间长度。用C(t)表示截至时间段t所有的被激活节点集合,Rw(t)代表截至时间段t时已经尝试过激活w的节点集合,则C(t) 〗Rw(t)是在时间段t中可以尝试激活w的有效节点集合,记作Aw(t)。当出现(a)v∈Aw(t)且w∈C(t), 或是(b)v∈C(t)这两种情况时,我们无法获得关于连接e = (v, w)的有效信息。因此,对于一条信息的扩散过程D,我们可以用θ = { pv,w}来表示某一已知的扩散结果出现的概率:

(8)

用{Ds:s= 1, 2, …,S}表示S个独立的信息扩散过程的集合,则对于整个数据集中的信息扩散概率,我们可以得到总的目标函数,如公式(9)所示:

(9)

(10)

接下来,需要得到所有的扩散概率使得(9)的值最大。由于(9)的偏导数十分复杂,难以直接分析或采用梯度上升算法进行求解,所以在本文中我们采用的是最大期望算法,最后得到网络中所有边的扩散概率分布θ。

(11)

需要注意的是,虽然实际情况下kw在不同的时刻是不一致的,不同用户在线的概率也有差别,但为了使求解结构简单,本文在求解时将其设置为一个固定的常数值P即所有节点在任何时刻处于有效状态的概率均相同;同时本文在后续的实验中分析P的不同取值对概率的影响。为了求得最优解,令偏导数∂θ/∂pv,w=0,则:

(12)

(2)实验数据

为排除信息内容和信息来源对网络信息扩散的影响,本文从新浪微博平台上获取2015年8月13日到2015年8月22日之间由头条新闻发布的有关天津港爆炸事件的微博,其转发量最小为68,最大超过15万。为了排除偶然的超级爆炸性新闻对转发关系的影响,本文选择了转发量在1500以下的120条微博,并获取这些微博的所有转发路径以及相关的用户信息。这些数据中,共包括41783名用户,分析得到他们之间的好友关系,并将其投射到社会网络中。

根据4.1中方法,我们获取存在好友关系的节点对(v,w)之间的扩散概率pv,w。为简化问题,本文将用户在线概率为设定为常数P,图4所示即为不同概率值下得到的用户之间影响值的结果。

图3 P取不同值下节点对之间的权重分布情况

图3中,横轴表示节点之间的影响值的大小,纵轴表示累积概率。P越大,说明用户对微博平台的粘性越大,花费在该平台上的时间越长。从上图中可以看出,只有当P处于极值(P的最小值0.2和最大值1)时,概率值分布才会出现相对明显的差异。而当P取中间值时,所得的结果差异十分微小,几乎可以忽略不计。在极端情况之外,我们发现80%左右的节点对之间的影响力小于0.1,基本无明显影响,而有近10%的节点对影响值超过了0.9,近乎完全影响。这一结果符合社会网络中的用户结构特性:微博平台中用户的密度和关联度整体不高,网络相对稀疏,大部分节点之间进行信息扩散的概率很低;同时平台上存在关联密切的局部网络,彼此之间影响很大,信息渗透深入。

(3) 实验结果

在这一部分,我们利用上面所得的节点之间的影响概率,根据基于离散时刻的独立级联模型,从特定的节点出发,利用蒙特卡罗方法追踪单条信息在24小时内的扩散情况变化过程,实验共模拟5000次,所得结果如图4所示。

图4 蒙特卡罗方法所得的信息扩散情况示意图

从图中可以看出,前10个小时中,每个时刻都有可能产生巨大数量的扩散,也可能极少扩散甚至不扩散。而当扩散时间超过10小时后,产生巨量扩散的可能性会急剧减少。中间的短横代表的是5000次模拟实验的中位数,它们会在短时间内迅速降低。此外,从整体来看,我们对其平均值的情况进行了分析,在这一部分的实验中,经过曲线拟合,发现其拟合函数为y= 448.61e- 0.54x,R2= 0.986,有较强的可信度证明其符合指数函数衰减的特征。与平均值相类似,模拟实验数据的上四分位点也符合指数衰减的特性。因此对舆论进行控制时应该在有效的时间段内采取行动;若不够及时则扩散已经基本完成,再采取的行动已经滞后。

Yang等[14]设计了K-SC聚类算法,对在线媒体中信息的扩散模式进行分析,共得出6种扩散模式。Matsubara等[21]则提出了SPIKEM模型,通过参数的调节,可以拟合出不同的扩散模式,且具有统一性、实证性、简约性和有效性。以上的模型划分主要在波峰数量、下降速度、峰值出现的时间上有所区别。因此,本文对上面的因素进行了简化,主要根据波峰数量和峰值出现的时刻,将信息的扩散模式分为延时多峰波动型、延时单峰衰减型、即时多峰波动型和即时单峰衰减型,其特征和数量如表2所示。

表2 不同扩散模式的信息所占比例

从它可以看出超过80%的信息会很快形成扩散巅峰。另外,单峰模式的数量比多峰模式略少,说明信息在整个扩散周期中很容易形成回弹。

图5 信息随时间变化的扩散情况示意图(h为小时)

图5展示了四种典型的扩散模式与总体的扩散平均值,发现即时单峰衰减型与总体平均扩散模型最为相近,在初始是拥有很大的扩散量,但扩散量随时间迅速衰减。可以发现,虽然多峰出现的概率也比较大,但是后续的峰值产生的波动较小,但其强度主要取决于第一个峰值,反映了控制首次爆发的重要性。

接下来,我们设置了三组对比试验,以验证初始节点对于信息扩散的影响。所得结果表3所示。从表中可以看出,对于入度很大的初始节点,其发布的信息的扩散数量会远远超过一般节点的扩散;而对于链入较少的节点来说,其扩散的可能性会很小,在社会类事件中基本不会扩散。因此对于突发的社会事件,用户更倾向于从权威人士或机构处获取信息并加以扩散,有一定的判别性行为存在;而对于一般的用户来说,其影响力相对较小。

从平均覆盖率来看,中等节点的平均覆盖率最大,强节点的覆盖率次之,而弱节点的覆盖率最小。如上面所分析的那样,强节点的链入节点中只有一部分属于强联系,另外一部分的权重很小,所以能够有效影响的概率也很小;加上基数很大,所以整体的覆盖率就会降低。而对于中等节点,它是一簇联系较强的小网络,彼此之间的影响很大,信息流通比较高效,所以它的覆盖率也最高。而对于弱节点,它自身的低活跃度、较小的受众规模和较弱的影响力,使得其很难将信息扩散出去。因此在对信息扩散进行监控时,应该重点关注强节点以及它的强联系关注节点,同时对于小规模的强联系网络也应该加以重视。

表3 信息从不同节点发布所得的结果

(4) 小结

从以上的实验模拟结果中,我们分析得到了如下结论:在社交网络中,基于离散时间的双概率独立级联扩散模型能够较好地模拟现实中信息随时间的扩散过程。网络中的信息要在前10个小时内加以控制,超过有效时间,则基本扩散结束,滞后性太强。对舆论监控过程中,要重点监控两类群体:一是具有高度链入度的节点以及其关注节点中关联性很强的群体;二是链入度较高,且关系密切的小网络。单条信息的扩散过程会呈现多种形态,但是当扩散源一定时,其扩散总体影响会有一定的规律,比如总体来看符合指数分布,总体的影响规模基本相同等。

4.2 面向事件的数值扩散方程

本节根据模型II对信息的扩散进行模拟,主要从用户网络规模、消息质量和用户连接程度这三个方面进行分析,以便从宏观角度得出信息在本身质量和受众群体不同时扩散的情况。

图6展示了用户连接强度对信息扩散的影响,其中x轴表示时间,y轴表示当前时刻下消息扩散的数目。从图中可以发现,连接强度越大,传播的最大速度越大,峰值出现的时间越早。即在用户关联越紧密的网络中,信息的扩散会更迅猛,也需要更及时地对信息扩散进行干预。

图6 信息在不同用户连接强度下的扩散情况

在用户活跃程度和连接程度相同的情况下,信息在不同的信息质量和用户规模下,也会体现出不同的特性,实验结果如图7所示。

图7中x轴表示时间,y轴表示当前时刻下消息扩散的数目。整体来看,在扩散之初,受到初始用户规模的限制,扩散量会以较缓慢的速度逐渐增长,对应于信息扩散的潜伏期和成长期;当积累了一定量数目的用户后,扩散量会爆炸式增长,所达用户数目迅速增加,对应于信息扩散的爆发期;之后由于事件影响力的衰减和未达用户数量的减少,扩散数量会迅速减弱,对应于衰退期。在传播过程中,消息扩散呈现出单峰、双峰、多峰等不同的形态;波峰的强度差异性很大,但是波峰出现的时刻基本与用户的活跃程度一致。

图7 当用户连接程度、用户活跃度等因素相同时,不同信息质量和网络规模下信息的扩散速度对比

对比图7中的每一列可以发现,信息质量一定时,用户数量越大,信息越容易获得较大的传播速度,峰值出现的时刻越早。这一发现说明,具备相同质量的信息在小规模用户网络中扩散会比较平缓;但用户数量达到一定规模后,信息则容易在短时间内爆发。因此大规模用户网络理应成为舆情干预的重要监控对象,并需在短时间内及时干预。

对比每一行则可以发现,当用户数量一定时,信息质量会对信息扩散特征产生较大影响。图(a)中,信息在初期的传播的速度随着消息质量β的增大而增大,传播越来越集中在前面一段时间内。图(b)中,信息在第一个传播周期内都会爆发,随着信息质量β的增大,信息扩散到所有用户的时间进一步缩短。当β小于0.1时,信息在第2个和第3个传播周期内依然有较明显的扩散,但当β超过0.1时,信息基本在第一个周期内扩散完成。图(c)中,较大的用户数目使得信息在传播初期就有较多的用户传播,并形成“羊群效应”,因此整体都只有一个较明显的波峰;随着消息质量β的增大,消息爆发的时刻也会提前。

以上的试验说明,用户的关联强度、用户规模和消息质量对于信息的扩散速度和爆发时间有很大影响,对舆论进行监控时,对于大规模用户网络或联系紧密的用户网络需要进行重点监控。对于信息质量很高的舆情,更需要在信息爆发前做出反应,控制或者引导舆论。

5 结语

针对自媒体时代下社会网络中信息的扩散,本文从微观和宏观两个角度对信息扩散的过程和特点进行刻画。微观部分主要结合用户个体之间的影响设计了基于离散时刻的扩散机制,并利用蒙特卡洛方法多次模拟,实验结果发现了一些重要的影响因素和其它规律。宏观部分则在考虑用户活跃特性、外部平台的影响、信息本身和受众特征的基础上对信息扩散过程进行数量建模,并主要针对信息质量、用户规模和用户连接程度这三个因素进行对比分析。微观模型可以更细致描述出特定用户网络中的信息扩散,而宏观模型则能丰富信息扩散的场景,展现出更多的传播特性。两个模型之间的结论相互补充,为社会网络中的舆情监控提供帮助。

本文发现,在信息扩散过程中,信息扩散量都会有一个剧烈增长的过程,随后会迅速衰减。在信息爆发前进行管理才可以有效控制舆情造成的影响。用户规模越大、关联越紧密以及信息质量越高时,爆发所需的时间越短。当用户数量超过1万时,信息会在 10小时中完成大部分的扩散,因此10小时是舆情控制的有效时间。当网络组成成分较为清晰时,可以对网络的特征进行分析,重点监控强节点及其关系密切的节点以及关联密度很大的小网络,从而对信息的扩散进行更为有效的控制。同时,信息在扩散过程中会呈现出不同的形态,在波峰个数、波峰强度和波峰出现时间上各不相同,在监控过程中要对不同阶段进行分析,针对性引导。

我们会在未来的研究中加强对信息质量的分析,并在定量分析关键因素影响的基础上,研究出预判方法以便提前预警并加以管控。

[1] Kempe D, Kleinberg J, Tardos E. Maximizing the spread of influence through a social network[C] // Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining,Washington D C,August,24-27,2003.

[2] Saito K, Kimura M, Ohara K, et al. Learning continuous-time information diffusion model for social behavioral data analysis[M] // Advances in Machine Learning. Springer Berlin Heidelberg, 2009: 322-337.

[3] Saito K, Kimura M, Ohara K, et al. Selecting information diffusion models over social networks for behavioral analysis[M] //Zhou Zhihua,Washio T.Machine learning and knowledge discovery in databases. Berlin-Heidelberg:Springer,2010:180-195.

[4] 万圣贤, 郭嘉丰, 兰艳艳, 等. 基于传播模拟的消息流行度预测[J]. 中文信息学报, 2014,28(3):68-74.

[5] Chen Wei, Wang Yajun, & Yang Siyu. Efficient influence maximization in social networks[C]//proceedings of the 15th ACM SIGKDD International Conference on Knowledge discovery and Data Mining,Paris,France,June 28-July 1,2009.

[6] 朱湘, 贾焰, 聂原平. 基于微博的事件扩散分析[J]. 计算机研究与发展, 2015, 52(2):437-444.

[7] Saito K, Nakano R, Kimura M. Prediction of information diffusion probabilities for independent cascade model[M]//Lovrek I, Howlett R J,Jian L C.Knowledge-based intelligent information and engineering systems. Berlin-Heidelberg:Springer, 2008:67-75.

[8] Goyal A, Bonchi F, Lakshmanan L V S. Learning influence probabilities in social networks[C] // Proceedings of the third ACM international conference on Web search and data mining,New York,us,February 04-06,2010.

[9] 郭静, 曹亚男, 周川. 基于线性阈值模型的影响力扩散权重学习[J]. 电子与信息学报, 2014, 36(8): 1804-1809.

[10] Srivastava J,Pathak N, Banerjee A. A generalized linear threshold model for multiple cascades[C]//Proceedings of the 13th International Conference on Data Ming,December13-17,2010.

[11] He Xinran, Songuojie G, Chen Wei, et al. Influence blocking maximization in social networks under the competitive linear threshold model[J]//Compting Science,2011.

[12] Litou I, Kalogeraki V, Katakis I. Real-time and cost-effective limitation of misinformation propagation[C]//Proceedings of the 17th TEEE Internation Confernce on Mobile Data Management,Porto,Portugal,June 13-16,2016.

[13] 田家堂,王轶彤,冯小军. 一种新型的社会网络影响最大化算法[J]. 计算机学报,2011,34(10):1956-1965.

[14] Yang J, Leskovec J. Patterns of temporal variation in online media[C] // Proceedings of the fourth ACM international conference on Web search and data mining,Hong kong,China,February 09-11,2011.

[15] 刘德海, 苏烨, 王维国. 振荡型群体性突发事件中信息特征的演化博弈分析[J].中国管理科学,2012,20(S1):172-178.

[16] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C] // the 43rd Hawaii International Conference on System Sciences (HICSS),Honolulu,HI,USA,January5-8,2010.

[17] 廖卫民, 柯伟. 网络舆论波研究——基于波浪力学及杭州两起舆论事件的理论思考[J]. 新闻记者, 2010,(4):12-16.

[18] 刘樑, 戴伟, 李仕明. 基于多Agent的非常规突发事件在线信息预警策略研究[J]. 中国管理科学, 2014,22(S1):180-187.

[19] 王秀利, 朱建明. 社会舆论方向影响下的微博商业言论传播模型[J]. 中国管理科学, 2012,20(S2):691-695.

[20] 曹学艳, 张仙, 刘樑,等. 基于应对等级的突发事件网络舆情热度分析[J]. 中国管理科学, 2014, 22(3):82-89.

[21] Matsubara Y, Sakurai Y, Prakash B A, et al. Rise and fall patterns of information diffusion: model and implications[C] // Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. Beijing,August 12-16,2012.

猜你喜欢
级联概率节点
Formation of advanced glycation end products in raw and subsequently boiled broiler muscle: biological variation and effects of postmortem ageing and storage
CM节点控制在船舶上的应用
铀浓缩厂级联系统核安全分析
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
概念格的一种并行构造算法
结合概率路由的机会网络自私节点检测算法
能量—频率选择表面级联复合设计与仿真