郭 伟, 顾基发, 徐山鹰, 张 毅, 李 力
(1.清华大学自动化系,北京100084;2.中国科学院数学与系统科学研究院,北京 100190)
基于消除趋势波动分析的上海世博会场馆排队分析
郭 伟1, 顾基发2, 徐山鹰2, 张 毅1, 李 力1
(1.清华大学自动化系,北京100084;2.中国科学院数学与系统科学研究院,北京 100190)
2010年,上海市举办了第41届世界博览会,愈7 300万的参观人次也创下了历届之最.如此巨大的参观人次势必造成大量场馆特别是热门场馆的排队和等待现象。研究排队和等待现象的时间关联性,有助于引导参观人群合理选择场馆、提高参观效率,同时避免过度拥挤酿成事故.为此,引入消除趋势波动分析法,利用各场馆日平均排队长度和日平均等待时间数据,分析其长时程关联性.测试表明,大部分场馆的排队和等待现象呈现长时程正相关性,部分热门场馆呈现长时程反相关性.
上海世博会;消除趋势波动分析法;长时程关联性
2010年5月1日到10月31日,上海市举办了第41届世界博览会,共有240个国家和地区组织参与,总投资约450亿元人民币,建造了占地面积约为5.28 km2的世博园区.在世博会举办的184天中,总共迎来了7 308.44万人参观,也创下了历届世博会之最[1].如此庞大数量的参观人数,势必造成参观各场馆时的排队现象.根据统计,沙特馆、石油馆、中国馆等热门场馆的平均等待时间达到5 h之久,节假日可能达到6~7 h.因此,研究世博会各场馆排队长度和排队等待时间的长时程相关性就显得尤为重要[2].
分析采集到的排队长度和排队等待时间序列的一个重要难点在于其非平稳性.为此,引入消除趋势波动分析法(detrended fluctuation analysis,DFA),将各个场馆每日的平均排队长度、平均等待时间以及每日入园总人数作为非稳定时间序列,通过研究其长时程相关性,分析不同特性的场馆(热门场馆、一般场馆和冷门场馆)每日排队和等待状况,希望对大型活动参观时人群的路径选择提供参考.
DFA方法[3]是一种研究时间序列长期相关性的常用方法,在非平稳时间序列的分形和多重分形特性、长时程关联性识别等方面已成为一项广泛使用的技术[4-5],并在DNA序列[3,6]、心律动态[7,8]、神经元尖峰[9]、人体步态[10]、长期天气记录[11]、云结构[12]、地质学[13]、人类学[14]、经济学[15]中得到了成功应用.相比于传统的功率谱和关联性分析方法,DFA的最大优势在于可以消除因为时间序列不稳定而造成的伪相关性的干扰.
DFA方法不仅可以用于研究非平稳时间序列的长时程幂律相关性,也有助于识别同一系统在不同尺度行为下的不同状态.例如,在心率动态检测中,心跳间隔对应的不同幂律指数可以用来区分健康状态和患病状态[16-18].在交通系统中,出行者的路径选择相关性一直是该领域研究的十分重要的问题,Wu等[19]引入DFA方法对城市轨道交通系统中乘客的路径选择行为进行分析,从路径交通流量演化过程入手,探究在路网到达均衡状态之前的路径选择行为的相关性.
本文对DFA方法进行数学描述,指出不同取值区间的赫斯特指数H所代表的不同含义.以石油馆平均排队长度和平均等待时间的序列为例,逐步计算配置序列、均方根值、局部趋势、波动函数,并最终求取每个场馆的H;然后把所有场馆的H进行聚类分析,挖掘热门场馆和冷门场馆H的内在联系,并解释了序列中零值对H的影响,最终给出了相应的结论.
DFA方法通常用以下5个步骤进行描述,首先假定一个长度为N的时间序列xk.
步骤1 定义配置序列Y
其中〈x〉为序列xk的平均值.
步骤2 将配置序列Y划分为等长度为l的Nl非重叠数据段,其中Nl≡int(N/l).通常情况下,数据序列长度N并不是数据段长度l的整数倍,因配置序列会有少量数据被遗漏,为了避免该情况,再从尾至首重复步骤2,总共获取2Nl个数据段.
步骤3 利用最小二乘拟合方法计算出步骤2中获取的2Nl个数据段的局部趋势(local trend).然后计算每一个数据段的方差.
其中,v=1,…,Nl.且
其中,v=Nl+1,…,2Nl.这里,yv(i)是数据段v的拟合多项式.除了线性拟合之外,还可使用二阶、三阶甚至高阶拟合.
步骤4 计算所有数据段的q阶波动函数.
其中,q可以去任何非零实数.若q=2,则为标准DFA算法.
步骤5 计算波动函数的广义赫斯特指数值.
其中当q=2时,H=h(2)为赫斯特指数(Hurst exponent).同时把h(q)称为广义赫斯特指数(generalized Hurst exponent).
赫斯特指数H是用来衡量时间序列长时程记忆性的重要指标.表1给出了不同H值所代表的不同含义[20].
表1 不同取值区间的赫斯特指数含义表Tab.1 Illustration of Hurst exponent among different intervals
按照描述的DFA方法,将每个场馆的日平均等待时间、日平均排队长度两个非稳定的时间序列应用DFA方法,并将相关结果绘制成图.本试验所使用的数据集时间跨度为2010年8月1日至2010年10月31日共92天.涉及到总共134个场馆的日平均排队长度(单位:人)、日平均等待时间(单位:min).
2.1 DFA方法的直接应用
一般而言,可以将按照描述的DFA方法中的5个步骤,依次得到配置序列Y、均方根值(root mean square,RMS)、局部趋势(local trend)、波动函数(fluctuation function)以及赫斯特指数(Hurst exponent).
以石油馆的排队长度和等待时间数据为例,绘制每一步骤得到的结果.
步骤1 根据时间序列X求取配置序列Y,见图1.
图1 石油馆排队长度和等待时间的配置序列YFig.1 Profile Y for queuing length and waiting time about the Oil Exhibition Hall
步骤2 计算时间序列X的均方根值,见图2, 为下一步的局部趋势拟合做准备.
图2 石油馆排队长度和等待时间序列的均方根值Fig.2 RMS values for queuing length and waiting time about the Oil Exhibition Hall
步骤3 采用线性、二阶和三阶拟合计算各数据段的局部趋势,见下页图3.
步骤4 计算不同数据段长度l情况下的局部波动,见下页图4.
步骤5 通过得到的局部波动函数,计算其广义赫斯特指数,见下页图5.
通过以上步骤,得到了每一个场馆平均排队长度和平均等待时间的广义赫斯特指数,并可根据表1得出每一个场馆的长时程关联性.
2.2 去除异常零值的DFA方法应用
图3 石油馆排队长度序列的局部趋势示意图Fig.3 Computation of local trend based on queuing length about the Oil Exhibition Hall
图4 石油馆不同数据段长度下的局部波动示意图Fig.4 Local fluctuations for segments with multiple sizes about the Oil Exhibition Hall
图5 石油馆的局部波动函数和广义赫斯特指数Fig.5 Local fluctuation function and generalized Hurst exponent for the Oil Exhibition Hall
但是如果时间序列中出现大量异常零值,则会对Hurst指数的计算产生偏差.通过石油馆中的异常零值数据来说明以上结论.根据上述步骤算出的结果,沙特馆和石油馆都是呈长时程反相关性,图6给出了沙特馆和石油馆时间序列的对比示意图.从图中可以看出,沙特馆的平均等待时间为锯齿状,呈现明显的长时程反相关性.而石油馆第44,78,80,82天出现异常零值或者异常峰值,有可能是检测设备失灵或者异常情况闭馆造成的.
将这些零值做最简单的线性插值,令xa=(xa-1+xa+1)/2,其中a为代表出现异常的日期.将石油馆平均排队长度去除零值之后重新计算Hurst指数,得到H值由原来的0.34修正为0.57,其长时程关联性也由反相关性修正为正相关性.可见,零值的存在会使得计算出的Hurst指数存在偏差.
通常情况下,冷门场馆存在大量零值,即在大部分时间里,参观冷门场馆是不需要排队和等待的.用大量存在零值的时间序列计算出的Hurst指数势必存在较大误差.因此在校正之后,这部分存在零值的冷门场馆在分析长时程关联性的时候不予考虑.
图6 沙特馆和石油馆的时间序列对比示意图Fig.6 Comparison between the time series of the Saudi Arabia and Oil Exhibition Hall
2.3 去除异常零值后的DFA结果分析
根据之前的计算,每个场馆的排队长度和等待时间序列都得到一个H值.不妨令第i个场馆的H值为Hi=(Hqueue,i,Hwait,i),其中i=1,2,…,L,L为总场馆数.将所有场馆的H值绘制出来,如图7所示.
下面按照聚类的结果对每一类H值的特性进行分析:
a.青色点:Hqueue,i∈(0.5,1),Hwait,i∈(0.5,1).绝大部分场馆的平均排队长度和平均等待时间呈现长时程正相关性(long-range correlation).
b.红色点:Hqueue,i∈(0,0.5),Hwait,i∈(0,0.5).这部分场馆的平均排队长度和平均等待时间呈现短时程反相关性(long-range anti-correlation).主要有以下12个场馆:沙特馆、荷兰馆、城市人馆、石油馆、中南美洲联合馆、城市人馆、古巴馆、加共体联合馆、立陶宛馆、尼日利亚馆、亚洲联合馆2、宁波案例馆.其中沙特馆和石油馆是非常热门的场馆,沙特馆平均排队长度为4 237人,平均等待时间为254 min;石油馆的平均排队长度是2 639人,平均等待时间为240 min.剩余场馆均为时间序列中存在大量零值的冷门场馆.
c.蓝色点:Hqueue,i∈(0,0.5),Hwait,i∈(0.5,1).这部分场馆主要有:土耳其馆、瑞典馆、芬兰馆、民营企业联合馆和中国企业联合馆.通过绘制其排队长度和等待时间的时间序列,发现这些时间序列的相关性并不明显,其H值可近似认为是0.5,即呈现高斯白噪声特性.
d.绿色点:Hqueue,i∈(0.5,1),Hwait,i∈(0,0.5).这部分场馆为日本馆、韩国馆、伊朗馆、台湾馆、朝鲜馆和万科馆.其中日本馆和韩国馆为热门场馆.日本馆的平均排队长度3 510人,平均等待时间为237 min;韩国馆平均排队长度2 444人,平均等待时间173 min.朝鲜馆为存在大量零值的冷门场馆.
e.黄色点:Hqueue,i∈(1,1.5),Hwait,i∈(1,1.5).这部分的场馆主要有以下5个:分别为澳门馆、欧洲联合馆1、欧洲联合馆2、生命阳光馆、世博会博物馆.其中欧洲联合馆1和欧洲联合馆2、生命阳光馆为存在大量零值的非常冷门的场馆.
图7 所有场馆的H值聚类示意图Fig.7 Cluster analysis of Hurst exponent for all exhibition halls
本文通过将DFA方法引入上海世博会场馆的排队和等待数据的测试和分析中,通过计算不同场馆之间的Hurst指数,分析各场馆的长时程相关性,得到以下结论:
a.时间序列中零值的存在会对长时程关联性产生影响,需要进行合理的补偿之后再进行计算.
b.大部分场馆呈现长时程正相关性.
c.部分非常热门的场馆呈现长时程反相关性,代表场馆为沙特馆、日本馆和韩国馆,其具体原因尚有待考察.
[1] 2010上海世博会概况[EB/OL].(2010-12-18)[2013-07-01].http:∥www.expo2010.cn/.
[2] 顾基发,徐山鹰,房勇,等.世博会排队集群行为研究[J].上海理工大学学报,2011,33(4):312-320.
[3] Peng C K,Buldyrev S V,Havlin S,et al.Mosaic organization of DNA nucleotides[J].Physical Review E,1994,49(2):1685-1689.
[4] Taqqu M S,Teverovsky V,Willinger W.Estimators for long-range dependence:an empirical study[J]. Fractals,1995,3(4):785-798.
[5] Kantelhardt J W,Zschiegner S A,Koscielny-Bunde E,et al.Multifractal detrended fluctuation analysis of nonstationary time series[J].Physica A:Statistical Mechanics and Its Applications,2002,316(1):87 -114.
[6] Buldyrev S V,Goldberger A L,Havlin S,et al.Longrange correlation properties of coding and noncoding DNAsequences:GenBank analysis[J].Physical Review E,1995,51(5):5084-5091.
[7] Viswanathan G M,Buldyrev S V,Havlin S,et al. Optimizing the success of random searches[J]. Nature,1999,401(6756):911-914.
[8] Bunde A,Havlin S,Kantelhardt J W,et al.Correlated and uncorrelated regions in heart-rate fluctuations during sleep[J].Physical Review Letters,2000,85(17):3736.
[9] BlesiéS,MiloševiéS,Stratimirovic′D,et al.Detrended fluctuation analysis of time series of a firing fusimotor neuron[J].Physica A:Statistical Mechanics and Its Applications,1999,268(3):275-282.
[10] Hausdorff J M,Edelberg H K,Mitchell S L,et al. Increased gait unsteadiness in community-dwelling elderly fallers[J].Archives of Physical Medicine and Rehabilitation,1997,78(3):278-283.
[11] Koscielny-Bunde E,Bunde A,Havlin S,et al.Indication of a universal persistence law governing atmospheric variability[J].Physical Review Letters,1998,81(3):729-732.
[12] Ivanova K,Ausloos M,Clothiaux EE,et al.Break-up of stratus cloud structure predicted from non-Brownian motion liquid water and brightness temperature fluctuations[J].EPL,2000,52(1):40-46.
[13] Malamud B D,Turcotte D L.Self-affine time series:measures of weak and strong persistence[J].Journal of Statistical Planning and Inference,1999,80(1):173 -196.
[14] Alados C L,Huffman M A.Fractal long-range correlations in behavioural sequences of wild chimpanzees:a non-invasive analytical tool for the evaluation of health[J].Ethology,2000,106(2):105 -116.
[15] Liu Y,Gopikrishnan P,Stanley H E.Statistical properties of the volatility of price fluctuations[J]. Physical Review E,1999,60(2):1390-1400.
[16] Ashkenazy Y.The use of generalized information dimension in measuring fractal dimension of time series[J].Physica A:Statistical Mechanics and Its Applications,1999,271(3):427-447.
[17] Peng C K,Havlin S,Stanley H E,et al.Quantification of scaling exponents and crossover phenomena in nonstationary heartbeat time series[J].Chaos:An Interdisciplinary Journal of Nonlinear Science,1995,5(1):82-87.
[18] Havlin S,Buldyrev S V,Goldberger A L,et al.Fractals in biology and medicine[J].Chaos,Solitons&Fractals,1995,6:171-201.
[19] Wu J,Sun H,Wang D Z W,et al.Bounded-rationality based day-to-day evolution model for travel behavior analysis of urban railway network[J].Transportation Research Part C:Emerging Technologies,2013,31:73-82.
[20] Ihlen E A F.Introduction to multifractal detrended fluctuation analysis in Matlab[J].Frontiers in Physiology,2012,3:141.
(编辑:董 伟)
Analysis on Queuing Behaviors in Shanghai World Expo Based on Detrended Fluctuation Analysis
GUOWei1, GUJi-fa1, XUShan-ying1, ZHANGYi1, LILi1
(1.Department of Automation,Tsinghua University,Beijing 100084,China;2.Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China)
In 2010,the 41stWorld Expo was held in Shanghai.More than 73 million visitors visited the Expo and created a new record.Such a huge number of visitors cause queuing and waiting phenomena around popular pavilions.Noticing that the time correlation of queuing length and waiting time helps visitors better choose their desired pavilions,a detrended fluctuation analysis(DFA)method to analyze the potential long-range dependence of queuing behaviors.The results show that the queuing length time series of most pavilions yield the long-range correlations;while some of popular pavilions yield the long-range anti-correlation.
Shanghai World Expo;detrended fluctuation analysis;long-range correlation
O 226
A
1007-6735(2013)04-0307-06
2013-07-10
国家重点基础研究发展计划(973)资助项目(2010CB731400)
郭 伟(1988-),男,博士研究生.研究方向:智能交通.E-mail:guo-w11@mails.tsinghua.edu.cn
顾基发(1935-),男,研究员.研究方向:运筹学、系统科学.E-mail:ifgu@amss.ac.cn