基于用户行为属性的微博热点事件演化仿真

2021-11-17 03:12张勤学
计算机仿真 2021年3期
关键词:热点个体节点

叶 鸿,张勤学

(华南理工大学,广东 广州 510641)

1 引言

在线网络的普及和网络技术的发展,促进了线下网络和线上网络的融合,微博热点事件特点的显著性越来越大[1]。微博中热点事件的演化会引发群体性事件,对社会的稳定产生一定的影响[2]。热点事件在现实社会中不仅通过人们口述相传,也在BBS论坛、微信、微博等互联网平台中进行演化和传播。因为社会结构与网络结构不同,因此在不同传播领域中微博热点事件的特点之间存在差异[3]。在上述背景下,研究微博热点事件的演化过程具有重要意义[4]。

康伟等[5]提出基于SD模型的微博热点事件演化方法,该方法以调研数据、网络数据和文献分析为基础,提炼影响微博热点事件演化的因素,通过系统动力学方法建立SD模型,利用SD模型对微博热点事件的演化过程进行模拟,该方法没有分析微博信息在网络中的传播特点,在热点事件传播过程中获得的反对人数变化趋势误差较大,存在演化精准度低的问题。孙冰[6]提出基于科学知识图谱视角的微博热点事件演化方法,该方法将Web of Science核心集数据库中的文献作为样本数据,在CiteSpace软件中对样本数据进行知识图谱分析,获得关键词被引和时空分布等知识图谱,实现微博热点事件演化的分析,该方法没有构建信息传播模型,无法准确的获取支持人数在微博热点事件演化过程中的变化情况,导致演化精准度较低。朱立龙等[7]运用系统动态演化路径图和Matlab 2016软件分析不同策略选择的演变趋势,求解了不同情况下演化博弈的稳定均衡解,讨论对两个行为主体演化策略的影响,但是其忽略了信息传播机制。

为了解决上述方法中存在的问题,提出基于用户行为属性的微博热点事件演化仿真,其关键在于通过分析热点事件信息在微博中的传播特点,分析用户行为属性,对微博热点事件的演化过程进行模拟,以图提高演化结果的精准度。

2 信息采集与建模

2.1 基于Python的信息获取方法

基于用户行为属性的微博热点事件演化仿真方法以Python为主要工具利用网络爬虫获取微博信息。

在数据挖掘中,信息获取涉及到人工智能、计算机网络、决策分析、文本处理等多个领域,是一项重要技术。微博文本信息获取包括微博文本拓扑获取、结构获取和内容获取等。在微博网络中非结构化信息的采集和处理过程中,将统一格式的数据文件存储在本地数据库中,涉及正则表达式、数据结构和网络爬虫等关键技术。

网络爬虫根据设定的规则遍历微博信息,自动获取微博信息的脚本或程序。通常情况下网络爬虫分为以下两种:

1)在互联网上,搜索引擎提供商设计的网络爬虫可以利用网页中的链接来实现跳转,并收集不同微博页面的信息。网络搜索引擎利用网络爬虫获得的信息建立相关引擎,用户在通过已建立的搜索引擎搜索相关信息时将获得所需的信息和数据[8]。

2)抓取指定网站中存在的数据,采集用户所需的信息。

基于Python的网络爬虫采集信息的过程为:在种子采集中,微博页面内容和页面中的链接都是通过网络获取的。网络爬虫利用网页中的链接获取下层子网页中存在的信息,并对收集到的信息进行分类整理。基于Python的网络爬虫信息采集结构如图1所示。

图1 基于Python的网络爬虫信息采集结构

2.2 信息传播模型

基于用户行为属性的微博热点事件演化仿真方法利用上述结构采集的信息构建信息传播模型,模型假设条件为:当网络处于全端可用度的情况,此时的传播规则是在网络中所确认的传播节点感染的可识别性。

设s(k,t)表示无知节点在t时刻的密度;c(k,t)表示接触节点在t时刻的密度;i(k,t)表示感染节点在t时刻的密度;r(k,t)表示免疫节点在t时刻的密度;psi(k,t)表示在时间间隔[t,t+Δt]内无知节点被感染的概率;pci(k,t)表示在时间间隔[t,t+Δt]内接触节点被感染的概率。无知节点在网络中通过传播节点感染,因此度k节点在网络中平均感染邻居的密度P1可通过下述公式计算得到

(1)

式中,P(k′|k)表示节点度在网络G中的相关性。

在网络内指定源S的可用度AG为:

(2)

式中,表示节点度子参数反衍系数,P表示微博信息规则遍历次数。

定义网络内处于维修状态下,G网络的随意一个节点间维持连通概率,即为网络全端的可用度,标记成AG全端。在链路、节点故障率以及修复率都相等时,具体网络的全端可用度AG全端公式为

(3)

在网络G处于维修的状态下,通信网络G内规定两个节点s-t间最少具有一条通路概率fi,即为网络端对端的可用度,标记成AG端稳,在保证网络可用度最高即AG端稳最大的情况下,密度的变换量如下

(4)

在上式的基础上获得感染节点密度i(k,t)的变化率

(5)

同理获得t时刻无知节点密度s(k,t)、接触节点密度c(k,t)和免疫节点密度r(k,t)的变化率

(6)

∂tr(k,t)=δ×c(k,t)

(7)

对上述公式进行积分处理,获得下式

s(k,t)=s(k,0)exp[-kφ(t)]

(8)

其中,参数φ(t)的计算公式如下

(9)

通过上述分析,构建信息传播模型

(10)

式中,δ为狄拉克函数下的密度分布系数,λ为密度比不变的调节因子。

3 微博热点事件演化仿真

3.1 用户行为属性分析

基于用户行为属性的微博热点事件演化仿真方法,在信息传播模型的基础上分析用户在微博热点事件演化过程中的行为属性。

设A表示采纳或支持事件;B为拒绝或反对事件。个体对事件的认可程度可以通过个体的内在观点进行反映,设pA表示个体对A的内在观点;pB表示个体对B的内在观点,两者之间符合下式

(11)

设p表示个体对事件A的内在观点,当p的值为1时,表明针对事件A,个体持完全同意的观点;当p的值为0时,表明针对事件A,个体持完全反对的观点。设置对数偏好Odd,在区间-∞

(12)

个体的观点倾向也可以通过外在行为σ进行反映,外在行为σ的表达式如下

(13)

在n时间步长内,节点i的外在行为、对数偏好、对事件A的支持观点分别用σi(n)、Oddi(n)和pi(n)进行表示。

社会作用描述的是想象的、隐含的或真实的其它个体的行为或表现,对个体事件能够改变其行为、认知和感受的作用效果[11-12]。由社会作用理论可知,在社会环境中社会作用力是由作用群体、作用直接性和作用源强度一起决定的,设i表示目标个体在社会环境中受到的社会作用,其表达式如下

i=f(SIN)

(14)

式中,f描述的是社会作用函数;N描述的是作用群体对应的规模、数量;I表示作用对应的直接性,用来描述在空间或时间上作用个体与作用源之间的亲疏度。

信息在传统网络中接触的方式较为单一,可用统一的常量描述作用直接性,为了反映目标个体受各个作用源的影响,用下式描述社会作用关系i

i=Nts

(15)

式中,指数t的作用是对个体数量增多产生的作用增益衰减现象进行反映,在区间(0,1)内取值,且相关实证数据分析研究表明,t取值在0.5附近波动;s表示社会作用力和相关常量特征在具体情境下缩放比例的综合。

3.2 微博热点事件演化仿真

基于用户行为属性的微博热点事件演化仿真方法在用户行为属性的基础上实现微博热点事件的演化,具体步骤如下:

1)设时间步长n=0为微博热点事件演化的初始状态。

2)节点i在第n时间步中观察到其它个体在总数为N的群体中的外在行为,其中反对者和支持者的数量分别为Nn,-、Nn,+,两者之间满足下式

Nn,++Nn,-=N

(16)

设impacti,+(n)表示支持者在微博热点事件中施加的社会作用大小;impacti,-(n)表示反对者在微博热点事件中施加的社会作用大小

(17)

式中,dij表示节点i与节点j之间存在的距离。接受个体的距离、影响力强度、作用源和观点强度都会对个体对应的社会作用分量产生影响,基于用户行为属性的微博热点事件演化仿真方法设定作用分量函数|σj(n)|=1。因此,在社会作用中个体的异质性主要受到传播距离和影响力的影响。

3)降低随机因素产生的干扰。根据灰色系统理论定义参考数列C0与比较数列Ci之间存在的关联系数ξi(j)

(18)

其中,xi(j)为随机因素影响量,即

(19)

其中

(20)

式中,j=1,2,…,m,Cj表示微博热点事件间的关联系数,当关联系数越高,随机因素影响量的影响程度越小,降低之间存在的差异显著性,进一步降低随机因素产生的干扰。

4)劝说人群在本次观点一次更新成功时,获得相应的影响力反馈增益。劝说人群在影响力反馈机制的基础上获得一定影响力的增加量。

影响力反馈机制可通过下述公式进行描述

(21)

式中,fk(n)描述的是指示函数,当判断条件属于真实值时指示函数的值为1;当判断条件属于反之值时,指示函数的值为0。

5)重复上述步骤2)-步骤4),当系统稳定或观点收敛时停止迭代,完成微博热点事件的演化。

4 实验结果与分析

为了验证基于用户行为属性的微博热点事件演化仿真方法的整体有效性,需要对基于用户行为属性的微博热点事件演化仿真方法进行测试,本次测试所用的实验软件为MyEclipse,实验来源为data.gov(https:∥www.data.gov/)数据集,从中随机选取350个有关微博热点事件演化趋势的样本集,从中选出最优实验价值的某微博热点,本次研究中将其称为热点1,因该热点参与人数众多,因此,从中选取社会作用关系i相同的演化趋势数据10000个,在操作系统为 JDK 1.7,内存为64G的实验环境中进行对比实验。

分别采用基于用户行为属性的微博热点事件演化仿真方法(方法1)、基于SD模型的微博热点事件演化方法(方法2)和基于科学知识图谱视角的微博热点事件演化方法(方法3)对微博热点事件演化过程进行模拟,模拟微博热点事件中支持人数和反对人数的变化,模拟结果如图2所示。

图2 不同方法的模拟结果

分析图2中的数据可知,随着微博热点事件演化时间的不断增加,方法1在演化模拟过程中获得的支持人数和反对人数变化曲线与实际人数变化曲线基本相似,方法2和方法3在演化模拟过程中获得的支持人数和反对人数变化曲线与实际人数变化曲线之间的误差较大,通过分析可知,方法1在微博热点事件中可准确的模拟支持和反对人数的变化情况,表明方法1的演化精准度较高,高达96%,因为方法1利用采集的微博信息构建信息传播模型,分析信息在微博中的传播特点,根据分析结果建立信息传播模型,分析用户在微博热点事件中的行为属性,根据分析结果模拟微博热点事件的演化,提高了演化精准度。

5 结束语

1)互联网的发展成为人们进行信息交流的重要平台,而微博独特的组织模式促进了观点传播的碎片化和网络生态的复杂化,对此,提出了基于用户行为属性的微博热点事件演化仿真。

2)针对微博热点事件演化精准度低的问题,构建信息传播模型并分析用户在微博热点事件中的行为属性,其支持人数和反对人数的实际变化模拟程度与实际拟合度较高,达到96%和95%。

3)分析用户行为属性,根据分析结果在信息传播模型的基础上准确的模拟微博热点事件的演化过程,为网络舆论的应用和研究工作提供了重要依据。

猜你喜欢
热点个体节点
基于RSSI测距的最大似然估计的节点定位算法
分区域的树型多链的无线传感器网络路由算法
基于图连通支配集的子图匹配优化算法
关注个体防护装备
基于点权的混合K-shell关键节点识别方法
明确“因材施教” 促进个体发展
4月高考热点关注
How Cats See the World