基于微博签到数据的出行行为分析

2018-01-03 09:45聂琦
山东科学 2017年6期
关键词:聚类距离流量

聂琦

(北京交通大学交通运输学院,北京 100044)

基于微博签到数据的出行行为分析

聂琦

(北京交通大学交通运输学院,北京 100044)

应用Python爬虫程序,通过新浪API端口爬取了新浪微博2012年的地点签到数据,共计5 028 980条。将这些数据按城市划分,共分为340个地级以上的城市或地区。通过统计发现,签到次数最多的3个城市为北京、上海和广州,说明微博用户更多地活跃在这三个城市。进一步通过相关性分析发现,这些城市的微博用户签到流量和当地GDP呈一定的相关性,说明经济发展水平会影响用户的旅行行为。此外,本文还按照用户的出行流量对各大城市进行了聚类划分,进一步印证了经济发达城市对微博用户签到的吸引会高于其他经济欠发达的城市。

微博签到;经济水平;聚类划分;相关性

随着互联网的高速发展,中国的网民数量持续增长。尤其是最近几年智能手机的普及,更促进了网民数量的激增。据中国互联网络信息中心发布的报告,中国网民规模逾七亿,其中手机网民占比达95.1%。网民在利用网络的同时,其活动也会被记录,尤其是其出行行为。这些用户出行数据,已在国外得到有效的利用。例如,Mok等[1]使用Twitter的数据,研究了社交和用户空间位置的相互关系。Goldenberg等[2]利用Facebook的用户签到数据,研究了社交和空间移动行为之间的相互影响。Dhar等[3]利用Gowalla和Brightkite的用户签到数据,研究了用户的社交关系对用户出行距离的影响。这些研究充分说明了社交签到数据的重要性,同时深化了人们对于人类出行行为的理解。

除了对签到数据的处理和运用,研究人员也使用了其他类型的数据,并做出了不少有价值的研究。Jiang等[4]利用出租车的GPS定位数据,研究了人类整体流量分布的影响因素。González等[5]利用手机通讯数据,研究了个人移动模式下基于位置跟踪的时间分辨方式,并描述了一个普遍的流动模式,这对城市规划和交通预测具有十分重要的理论意义。Ni等[6]利用SIR传染病模型模拟了人类旅行行为在时空上的标度律分布。这些研究均对人类出行行为做出了扎实的基础理论验证。韩华瑞等[7]利用微博签到数据研究了湖北省各地区的空间差异,发现武汉市的签到占比超过七成。王明等[8]提出了一种根据签到属性显著度差异来提取城市分层地标的方法,并以北京市的位置签到数据为例对该方法进行了进一步的论证。除了对实际出行位置的研究之外,也有人站在传播学的角度对微博进行了分析,例如,曹玖新等[9]分析了新浪微博的信息转发与传播特征。目前,对微博位置数据的使用多局限于小区域内的移动研究,微博用户在全国范围内的移动行为研究相对较少。本文在中国大陆这一空间尺度上,对微博用户在不同城市之间的出行行为进行了研究。

1 数据处理

本文使用Python爬虫程序,通过新浪提供的API中微博地理位置信息接口[10],爬取新浪微博用户2012年1月—12月的签到数据。该数据包含用户出行的起讫点位置编号和经纬度等信息,如表1所示。经过匿名化处理,提取出本文所需的OD量及地点信息。再利用百度地图提供的API,将各用户的签到地点按照不同的城市地区(地级及以上)进行划分,于是得到不同城市间的OD量数据。

表1 数据样本

2 微博签到数据的空间分布

由于微博的用户量较大,且签到数据带有位置信息,所以使用微博数据来反映人的空间出行行为是比较可靠的。图1显示的是微博用户在340个城市里有签到记录的OD出行图,图中连线表示OD的迁移,连线的粗细表示OD量的多少。由图1可以看出,北京、上海、广州三地之间的出行流量巨大,可以形成一个明显的三角形。另外,成都和重庆对于这三地的出行流量贡献也很大。考虑到以上几个城市的人口和经济量,本文猜测用户在远距离出行行为中的地点选择可能与当地的人口和经济有关。

为了更好地说明用户迁移的OD量分布密度,本文将用户出行某地的OD量相加,然后以密度圆的形式标度在地图上,如图2所示,图中圆圈的大小和颜色代表该地的流量多少。可以很明显地看出,用户出行多集中于北京、上海、广州这些大型城市之中。另外,各省省会城市的用户出行流量一般多于其他城市的出行流量。

图1 微博用户出行行为OD图Fig.1 OD diagram of Weibo users' travel behavior

图2 微博用户出行OD密度图Fig.2 OD density map of Weibo users

图3 微博用户出行双对数分布Fig.3 Log-log distribution of Weibo users

3 数据分析

3.1 统计分析

本文将微博用户的出行量数据放到双对数坐标上,横轴表示流量,纵轴表示概率。可以很明显地看到,用户出行量在双对数坐标系下存在肥尾分布(图3),这说明大多数的用户都集中出没于少数几个地点,而剩余的大多数地点都只吸引了小部分人的出行。实际上,经过统计可以发现,北京、上海、广州等大城市对微博用户的吸引明显更大一些,所以短时的旅行行为发生在这些大城市里也不足为奇。

3.2 贡献度分析

贡献度分析又称为帕累托分析,其原理是帕累托法则(Pareto principle),由意大利经济学家维弗雷多·帕累托(Vilfredo Pareto)于1897年在观察19世纪英国人财富收益模式时发现。这一法则又称二八定律(The 80/20 Rule),揭示了生活中的不平衡现象。本文将不同的地点表示在横轴上,将不同区域的流入量及其累计概率表示在纵轴上,作出微博用户出行行为的流量吸引帕累托图,如图4所示。可以看到,在人类出行行为中,这种不平衡关系依然存在。具体地说,前十几个省份地区吸引了百分之八十以上的微博用户,其中广东、北京、上海、江苏和浙江位于微博用户吸引量前五的省市,这几个省市除了是GDP比较靠前的省市外,同时也是网络普及率较高的几个省市。于是,有理由考虑网络普及率(微博签到率)和GDP之间的相关关系是否为正相关的关系。

图中长条表示流入量的频数,圆点表示累积概率图4 微博用户出行行为的帕累托图Fig.4 Pareto diagram of Weibo users' travel behavior

3.3 聚类分析

聚类分析是在没有给定任何划分类别的条件下,按照数据相似度对样本分组的一种方法,是一种无监督学习方法[11-12]。K-means聚类是一种典型的空间聚类方法,是将研究对象的空间距离指标依照某种相似性准则划分到若干组中去,然后使组内的距离最小化,同时使组间的距离最大化。通常来说,空间聚类算法是建立在各种距离上的,如欧几里得距离、曼哈顿距离、闵可夫斯基距离等。

其中,闵可夫斯基距离为:

(1)

式中,i=(xi1,xi2,…,xin)和j=(xj1,xj2,…,xjn)为两个n维的数据对象;q为正整数,q=1时d(i,j)即为曼哈顿距离,q=2时d(i,j)则是欧几里得距离。

簇Ei的聚类中心ei计算公式为:

(2)

式中,Ei表示第i个簇;x表示样本;ei为第i个簇的聚类中心;ni为第i个簇中样本的个数。

目标函数为:

(3)

式中,K表示聚类簇的个数。

算法流程:

(1)首先从N个样本数据中随机抽取K个对象作为初始聚类的中心;

(2)依次计算样本到各聚类中心的距离(由于涉及与经纬度相关的实际坐标,故本文采用欧几里得距离进行计算),然后使各个对象划分至欧氏距离最近的聚类当中;

(3)当所有的对象完成之后,再次计算K个聚类的中心;

(4)和上一次计算得到的K个聚类中心作比较,若聚类中心发生变化,则返回(2)步,否则进入(5)步;

(5)当质心不再发生移动时,停止迭代,然后输出聚类的结果。

K-means算法最核心的思想就是通过迭代,将数据对象划分到不同的簇中,以期目标函数(3)最小化。

本文以各城市的吸引量为聚类指标,将新浪微博用户在各城市的签到地点进行聚类分析。考虑到分类数(如果分类太少则无法区分开来,如果分类太多则会无意义),所以最终决定按照各城市的吸引量将各城市分为五类。其中,第I类和第II类表示了微博签到中绝大多数吸引力较小的城市,对微博用户吸引力较大的城市都集中在第V类。如图5所示,这五类城市正好区分了对出行用户的吸引力大小。图中可以看出,北京、上海、广州等地被划为同一类,和图1中直观的出行流量相呼应,同时也验证了签到用户流量很大一部分集中在这三地之间流动。

图5 微博用户出行数据聚类结果Fig.5 Clustering results of Weibo users' travel data

3.4 轮廓系数

轮廓系数是用来评价聚类效果好坏的参数。对于任意数据对象i,其轮廓指标s(i)定义为

(4)

式中,a(i)是同一簇中数据对象i的平均差异,即向量i到同簇内所有其他点的“距离”(不相似程度)的平均;b(i)是i对其他簇的最小平均差异,即向量i到其他簇中所有点平均“距离”的最小值。

(4)式也可以更直观地写成

(5)

从上面的定义式可以清楚地看到,轮廓系数s(i)的值是-1~1之间的某个数,即s(i)∈[-1,1]。s(i)越大,说明聚类效果越好,反之越差。s(i)的值越趋近于1,则说明内聚度和分离度都相对比较好;当s(i)的值小于0时,说明与其簇内元素的平均距离间隔小于最近其余的簇,这说明此时的聚类效果还有待提高。

根据以上定义,本文将上面聚类的结果带入进行计算,求得此类情况下的轮廓系数值为0.879 158 192 628。该值较为接近1,这说明内聚度、分离度都相对比较好,也就是说聚类效果良好。

3.5 相关性分析

相关性分析是对两个或两个以上的变量元素进行分析计算,最后得出衡量这两个变量因素的相关密切程度,从而对这些变量进行评价分析的方法。由上述的聚类分析结果可以看出,大多数经济较为发达的城市被聚为了一类,而经济量较低的一些城市也被聚成一类。于是,本文推断经济量可能是影响城市吸引量的重要因素。

本文利用微博用户迁入数据,对各城市的用户流入量与该地的GDP做了相关性分析。相关系数的绝对值越大,相关性越强。通常认为,相关系数越接近于1或-1,相关度越强;相关系数越接近于0,相关度越弱。

如表2所示,本文将微博用户的签到数据和各城市GDP数据导入SPSS软件进行皮尔森相关性检验,在0.01的置信水平下算出其Pearson相关系数为0.79。通常情况下,Pearson相关系数取值区间在0~0.2之间时,可认为变量之间极弱相关或无相关;当取值在0.2~0.4之间时,可认为变量之间弱相关;当取值在0.4~0.6之间时,可认为变量之间中等程度相关;当取值在0.6~0.8之间时,可认为变量之间强相关;当取值在0.8~1.0之间时,可认为变量之间极强相关。综上,本文认为GDP和微博用户的流入量具有强相关性,即目的地的经济水平能够影响用户的出行。

表2 微博用户流入量和GDP的皮尔森相关性分析

注:**表示在0.01水平(双侧)上显著相关。

4 结论

本文利用微博用户2012年的签到数据,先进行初步的统计分析,发现大部分移动的流量集中于少数几个特定的城市之间,这说明微博用户的旅行行为在空间上呈现出一定的聚集性,表明这几个特定的城市比其他城市的吸引力要大。实际上,在中国三十多个省级地区中,微博用户的旅行行为基本集中在广东、北京、上海、江苏等省市地区内。为了更直观地观察,本文按照吸引量对各城市进行K-means聚类,发现北京、上海、广州、深圳等地被划分到同一类型当中,这进一步印证了微博用户的这种空间聚集性跟城市的发展有一定联系。通过进一步对各城市的GDP和吸引量做相关性分析,发现这两个变量的Pearson相关性系数为0.79,在强相关的范围内,因而可以认为城市的吸引量和当地的经济发展存在着强相关关系。之前已有的研究多是在较小的空间尺度下进行的,且都是基于距离的出行行为分析,本文重点分析经济量对人类移动行为的影响,发现在大空间尺度下的旅行行为中,人们的出行所受到的吸引和经济水平具有强相关关系。一般来说,城市的吸引力除了经济因素之外,还有其他很多的影响因素。由于数据来源的局限,同时也为了简便,本文单独选择了经济量进行分析。未来如果能够获取更多样化的数据集,可以结合经济水平、教育水平、基础设施水平等指标进行更全面的分析。

[1]MOK D, WELLMAN B, CARRASCO J. Does distance matter in the age of theInternet?[J]. Urban Studies, 2010, 47(13):17-20.

[2]GOLDENBERG J, LEVY M. Distance is not dead: Social interaction and geographical distance in the Internet Era[EB/OL]. [2017-03-02].http://api.ning.com/files/4SGMTw61ZJMWGCZrfDfIcbVhygzhq1TMfCWF2-IuyyK2svuoxwOk9P8zY8eTi8MGpXkwBwuTOCagp3jP1OCHanpbC0cpA8-E/0906.3202.pdf.

[3]DHAR S, VARSHNEY U. Challenges and business models for mobile location-based services and advertising[J]. Communications of the ACM, 2011, 54(5):121-128.

[4]JIANG B, YIN J, ZHAO S. Characterizing the human mobility pattern in a large street network[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2009, 80(2):021136.

[6]NI S, WENG W. Impact of travel patterns on epidemic dynamics in heterogeneous spatialmetapopulation networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2009, 79(1):016111.

[7]韩华瑞, 代侦勇. 湖北省微博签到活动空间差异分析——以新浪微博为例[J]. 测绘与空间地理信息, 2016,39(10):159-162.

[8]王明, 胡庆武, 李清泉,等. 基于位置签到数据的城市分层地标提取[J]. 计算机学报, 2016, 39(2):405-413.

[9]曹玖新, 吴江林, 石伟,等. 新浪微博网信息传播分析与预测[J]. 计算机学报, 2014,37(4):779-790.

[10]张晶. 网络地理信息应用中用户行为数据获取与分析研究[D]. 郑州:解放军信息工程大学, 2015.

[11]王骏, 王士同, 邓赵红. 聚类分析研究中的若干问题[J]. 控制与决策, 2012, 27(3):321-328.

[12]白雪. 聚类分析中的相似性度量及其应用研究[D]. 北京:北京交通大学, 2012.

TravelbehavioranalysisbasedonWeibocheck-indata

NIEQi

(SchoolofTrafficandTransportation,BeijingJiaotongUniversity,Beijing100044,China)

∶Using Python crawler, the location check-in data of Sina Weibo in the year of 2012 were crawled through the Sina API port. The data set consisted of 5,028,980 records. These data were divided into 340 cities or regions above prefecture level. Data statistics showed that there was the largest number of check-in in 3 cities: Beijing, Shanghai and Guangzhou, which revealed that Weibo users were more active there. Furthermore, through correlation analysis, it was found that the Weibo users′ attendance flow in these cities was related to the local GDP, indicating that the level of city economic development would affect the users′ travel behavior. In addition, this paper also divided the major cities into clusters according to the users' trip volume, further confirming that the developed cities were more attractive to Weibo users than other economically underdeveloped cities.

∶Weibo check-in; economic level; clustering; correlation

10.3976/j.issn.1002-4026.2017.06.014

2017-05-17

国家自然科学基金(71525002)

聂琦(1992—),男,硕士研究生,研究方向为交通运输系统科学、人类移动性。E-mail: nie_qi@bjtu.edu.cn

U491

A

1002-4026(2017)06-0087-07

猜你喜欢
聚类距离流量
冰墩墩背后的流量密码
张晓明:流量决定胜负!三大流量高地裂变无限可能!
寻找书业新流量
基于K-means聚类的车-地无线通信场强研究
算距离
基于高斯混合聚类的阵列干涉SAR三维成像
每次失败都会距离成功更近一步
爱的距离
一种层次初始的聚类个数自适应的聚类方法研究
五位一体流量平稳控制系统