面向源-目的地流的多元时空数据可视分析

2024-03-21 02:24周思艺李天瑞
计算机应用 2024年2期
关键词:视图时空站点

周思艺,李天瑞,2,3,4*

(1.西南交通大学 计算机与人工智能学院,成都 611756;2.可持续城市交通智能化教育部工程研究中心,成都 611756;3.综合交通大数据应用技术国家工程实验室(西南交通大学),成都 611756;4.四川省制造业产业链协同与信息化支撑技术重点实验室(西南交通大学),成都 611756)

0 引言

随着城市化和现代化的快速发展,城市形态正发生演变[1],关乎居民出行的交通站点也变得更加重要。要发展智慧城市,如何有效分析交通站点的人流时空特性和多元环境因素的影响是未来城市规划的关键。

交通智能(Integrated Circuit,IC)卡的使用已经积累了大量的乘客出行信息,每日的刷卡记录数都是百万级,为分析站点的流时空特性提供了可能。IC 卡的数据包括旅客身份类型、源-目的地(Origin Destination,OD)[2]名称、时间。通过对乘客OD 数据的分析,可以得到站点间人流的流动规律,但现有工作更多关注居民的移动模式和城市功能区的划分等,缺少更全面地展示交通站点的流时空特性和多元环境因素的研究。IC 卡的数据规模大,直接在地图上绘制OD 数据的空间分布容易出现遮挡,不易于用户分析流传输的空间特性,若多元数据类型多,更难以结合对比分析,因此,如何从海量IC 卡数据提取交通站点的OD 流时空模式,并提出一种抽象的多元时间序列数据可视化方法展示是需要解决的问题。

为此,本文设计一个面向OD 流的支持多元数据探索的交互式分层可视分析系统。针对直接可视化大规模刷卡数据的空间分布容易视觉遮挡的问题,提出基于正交非负矩阵分解(Orthogonal Nonnegative Matrix Decomposition,ONMF)的OD 流聚类方法,对大规模交通站点聚类。随后,设计了地图视图和流传输演化视图,分别对流空间特征和流传输时序演化分析,使用户能结合时间序列从聚类社区层和站点层两个不同层级的细节快速分析和对比站点的流时空模式。针对元数据类型多更难以结合对比分析的问题,设计了站点多元时序数据视图对比分析多种时序数据的变化,开发了一个可视框架来可视化和探索交通站点的流时空特性和多元环境因素,并提供了易用的交互操作,帮助用户高效率地探索和对比分析。最后,本文基于真实世界数据集利用聚类评估指标轮廓系数(Silhouette Coefficient,SC)对OD 流聚类方法定量评估,并通过案例研究对系统的有效性定性评估。

本文的主要工作如下:

1)提出基于ONMF 对OD 流聚类的方法,有利于后续从宏观和微观角度分析OD 流的时空模式。对大规模站点聚类后再结合可视化过滤方法,避免大规模OD 流在地图上造成视觉遮挡的问题。

2)设计了流空间特征可视化视图分层展示聚类层和站点层,并设计了一系列交互操作,辅助用户通过多视图联动,从聚类层级和站点层级了解流传递的时空特性和异常。

3)设计了交通流传递视图,辅助分析OD 流的时间模式。本文改进传统的桑基图,并展示站点聚类簇间在时间序列上的流传递,有利于用户从简洁、直观的聚类社区层角度分析站点间的流传递模式,进而发现潜在调查社区。

4)设计站点多元时序数据对比视图,辅助用户更全面地分析站点的流时序变化和空气质量、空气温度、相对湿度和降雨量这4 类多元环境数据的时序变化情况。

1 相关工作

1.1 数据流演化可视化

桑基图是一种特定类型的流程图,能很好地展示数据属性从某个状态到另一种状态的变化过程。EcoLens[3]基于桑基图,利用KM(Kuhn-Munkres)算法优化布局,通过不同时间片区域的转换条表示区域演变,直观地展示空间簇的演化特征。时间线(Timeline)也是一种有效的可视化设计,例如,基于聚类和叠加的可视化方法TimeRadar[4],通过一个抽象的时间线视图,使分析人员对多个事件序列的演化有一个整体的概述。ACSeeker[5]将多因素数据分别编码在以年份为单位的Timeline 上,以揭示和比较多个因素在学术生涯的不同阶段如何变化。故事线(Storyline)是一种特殊的Timeline,可以让用户跟踪各个数据项的时间模式。Liu 等[6]提出了一个有效的优化方法产生实时可交互的、美观的故事情节可视化;Tanahashi 等[7]提出了一种提高可视化可读性的布局优化算法,应用于故事情节流数据分析的新框架;Zhou 等[8]将Storyline 应用于空气质量数据集,描述不同尺度的空气质量监测站点随时间的聚类演化事件。一些研究工作针对个性化任务需求,从具体应用的角度作可视化分析。杨欢欢等[9]针对铁路OD 行程线路这类阶段性时间序列数据类型提出了基于螺旋图的可视化模型;考虑到可视化需要相关技能和知识提供开发支持,如D(3Data-Driven Document)[10]、Vega[11]等、赵韦鑫等[12]提出了一种面向交通轨迹的数据流可视化方法,开发了推荐向导可视化工具引导用户构建数据流图。

以上方法都能有效辅助用户了解数据流在时间上的变化趋势;但随着分析对象数据量的增大,容易造成视觉遮挡或者需要更大的视图,不利于用户分析。针对如何展示大规模站点间人流的流动在时间序列上变化,本文设计一种基于聚类结果的交通流演化视图,通过聚类将分析对象转换成聚类簇的宏观层级。在结果可视化上,改进桑基图视觉编码,利用KM 算法优化布局,并提供过滤交互操作,尽可能减少不必要的视觉遮挡,辅助用户更快发现潜在调查区域。

1.2 OD数据可视化应用

许多领域都有OD 时空数据产生,为了用简明扼要的图表说明复杂的数据关系,隐喻[13]和交互式可视化方法[14]经常被学者使用。在带有地理标签的社交媒体数据中,Chen等[15]设计了一种多个属性空间聚合和过滤的交互式分析方法,辅助用户探索运动的语义,包括运输方法、频繁访问序列和关键字描述;R-Map[16]基于地图隐喻,用地图上不同的元素编码社交媒体转发信息的不同特征。在网络安全领域,VisAware[17]作为一种简洁、可缩放的态势感知交互式可视化方法,帮助分析网络入侵的时空分布。在移动通信领域,Jiang 等[18]提出了基于地图的可视分析工具Aureole,用于在空间和时间方面交互式探索和分析蜂窝网络;Zhou 等[19]基于自适应蓝噪声采样方法,增强了简化流图的空间分布和网络拓扑特征,并设计了一个交互式流量环状图突出显示感兴趣的局部区域,并可视化其比较指标。在足球领域,Wang等[20]在ForVizor 可视分析系统中设计了一个新颖的队形变化的时空可视化表示多变量特征,允许分析师可视分析队形的演变,并跟踪球员在队形内随时间的空间流动。在交通数据中,Jin 等[3]设计了特定可视化字形针对单个区域的流量展示和具有相同模式的区域的流量整体展示;Liu 等[21]基于时空OD 数据和兴趣点(Points Of Interest,POI)数据设计了交互式可视化分析系统,通过地图和其他视图联动解释城市功能区划分的结果;Deng 等[22]设计了一组有效的可视化来支持位置导航、影响检查和级联探索,并促进深入地级联分析交通拥堵情况。

以上方法都采用可视化字形组合表示多变量属性,取得了较好的时空对比分析效果;但现有交通站点可视分析工作较少考虑除POI 以外的多元数据影响。为此,本文设计站点多元时序数据对比视图,可实现对流时间模式、空气质量、环境温度、相对湿度、降雨量在时间序列的对比,有利于用户更全面地分析站点的多元信息,并提供与地图的交互操作,可以时空联动分析。

2 系统设计和概述

针对数据规模大多会影响OD 流的空间模式分析,如图1 所示,本文基于ONMF 方法对站点聚类,引入空间平滑和多元因素的影响优化结果,并设计社区自画像视图分析聚类簇的统计属性,站点时间序列视图分析聚类簇的流传输的时间模式和地图视图分析流传输的空间模式。针对多元时序数据,设计了站点时间序列视图,用户可直观对比分析多元数据,从而完成系统分析任务。

图1 系统分析流程Fig.1 System analysis flow

2.1 系统分析任务

本文为更全面展示交通站点的流时空特性和外部多元环境因素,将所需完成的分析任务分成如下3 点:

1)交通流传输模式。确定站点社区之间的人流传输模式和站点与站点之间的人流传输模式,并发现潜在的调查区域。

2)交通流时间模式。分析单个站点的小时级别和天级别的交通流演化模式。

3)交通流对比分析。实现对比分析不同站点流在时间序列上的差异,同一站点在不同日期的流量模式差异对比,同一站点在不同日期、同一时刻的差异对比,同一站点在一天内的流变化趋势分析,以及多元数据之间的对比。

2.2 数据介绍

系统使用的数据包括IC 卡数据、公交站点数据、城市POI 数据、温度、湿度、降雨量和空气中SO2、NO2、PM2.5含量,数据如表1 所示。

表1 数据描述Tab.1 Data description

IC 卡数据包括脱敏后的乘客编号id,成年人、小孩、老人和学生这4 种乘客类型type,上下车的时间up_date 和down_date,上下车的公交站点up_id 和down_id。公交站点数据包括站点的id、名称name 和经纬度lng 和lat。POI 数据包括POI 的名称name、类别type 和经纬度lng 和lat。温度、相对湿度、降雨量和空气中SO2、NO2、PM2.5的含量数据中,date 都是以小时为时间粒度,并包含每类数据对应的监测站点id、名称name、经纬度信息lng、lat 和监测值value。

2.3 多元数据处理

2.3.1 热量指数计算

温度超过27℃,相对湿度高会降低汗液的蒸发速率,导致身体散热的速度降低,也会产生过热的感觉,因此只用温度衡量天气的热度较为局限。热量指数(Heat Index,HI)是一个结合空气温度和相对湿度的指数,考虑到高温(温度大于等于27℃)时,当相对湿度增加,人体真正感受到的温度会超过实际温度,可以更全面地衡量身体消除多余热量的能力。计算如式(1)[23]所示:

其中:T为环境干球温度(单位℃),R为相对湿度(百分比值),c1为-8.784 694 755 56,c2为 1.611 394 11,c3为2.338 548 838 89,c4为-0.146 116 05,c5为-0.012 308 094,c6为 -0.016 248 227 777 8,c7为 0.002 211 732,c8为0.000 725 46,c9为-0.000 003 582。

HI 对应热度影响类别E,分为凉爽(Cool)、温暖(Warm)、注意过热而疲劳(Caution)、小心热痉挛(Extreme Caution)、有热痉挛和热衰竭的危险(Danger)和极度炎热(Extreme Danger)这6 类逐渐递增的热度级别,如式(2)所示:

2.3.2 空气质量指数计算

空气质量指数(Air Quality Index,AQI)可以定量描述空气质量状况。通过计算,将多类描述AQI 的监测值转换成AQI 的等级,便于用户快速感知当前的空气情况。利用式(3)计算多种污染物的AQI 值,并依据表2 判断AQI 属于优(Good)、良(Moderate)、轻度污染(Unhealthy for Sensitive Groups)、污染(Unhealthy)、严重污染(Very Unhealthy)这5 个类别中哪一类空气质量类别。

表2 AQI等级判断边界值Tab.2 AQI level judgment boundary values

其中:I为空气质量指数,C为当前类别的污染物浓度,Clow和Chigh分别是断点浓度的最小边界值和大边界值,Ilow和Ihigh分别是表2 中断点浓度最小和最大的边界值对应的空气质量指数。

2.4 基于ONMF的OD流聚类方法

2.4.1 流特征提取

以N个站点为调查对象,以时间粒度t计算每个站点在t内的流入流出的人数。每个站点由一个2N维的特征向量P描述。向量中前N个字段表示从站点i出发到其余N-1个站点下车的人流量;后N个字段表示从其余站点出发到i站点下车的人流量。这样,如图2所示,在时间间隔t内,可以得到一个特征矩阵DOD,t,利用它捕获t时间内的类模式。不同时间的矩阵形成了特征矩阵时间序列,这个矩阵序列表征了每个区域随时间变化的移动性模式,并用于后面的聚类分析。

图2 特征提取方法Fig.2 Feature extraction method

2.4.2 流特征聚类

ONMF 相对非负矩阵分解(Nonnegative Matrix Factorization,NMF)方法[24],多了正交的优点,可以保证解的唯一性,有利于对严格聚类解释。因此,本文提出一种适应流特征矩阵的ONMF 算法分析上述特征矩阵时间序列中捕获的站点相关性。该方法基于原始的ONMF 方法新增了空间平滑正则化项和多元数据平滑正则化项两个正则化约束项,如式(4)所示:

式(4)的第一项是从原始数据中提取潜在流移动模式,利用ONMF 分解特征矩阵到两个非负矩阵Ht和Wt,分别捕获潜在模式的空间分布和模式语义。其中,Ht表示K个模式发生在N个站点的可能性,Wt表示潜在模式具有一定特征的概率。K是在分析中要找到所期望的潜在模式数,本文取使得损失最小时的K。

式(4)的第二项是空间平滑正则化项,利用λ1控制平滑度,引入邻接矩阵A,其中Ai,j∈{0,1}表示两个站点i和j是否功能区相同,确保一个站点与其相似站点共享相似的移动模式,满足共识中类似功能区(例如学校区域)的站点有相似的移动模式。

式(4)的第三项是多元数据平滑正则化项,利用λ2控制平滑度,引入邻接矩阵B,其中Bi,j∈{0,1}表示站点i和j是否多元数据相同。

最后利用梯度下降求解更新矩阵,并将结果应用于可视化视图。

3 多元数据分层可视分析系统

针对前文提出3 个分析任务,本文设计了基于OD 流和多元数据的分层可视分析系统,从聚类社区层角度分析交通流传递模式,从站点层分析交通流时间模式和外部多元环境对交通流的影响。如图3 所示,系统由4 个视图组成。

图3 基于OD流和多元数据的分层可视分析系统界面Fig.3 Hierarchical visual analysis system interface based on OD flow and multivariate data

3.1 流空间特征可视化

地图视图基于Mapbox.gl 地图开发框架和城市的矢量地图对站点的空间特征可视化。为了满足不同细节需求的交通流信息在地图上的展示,本系统针对分析对象,设置了两种不同的可视化社区层和站点层。

社区层分为3 个部分,如图4 所示。最外层用于编码分层社区信息,弧的长度编码表示该社区所包含的站点数,包含站点数越多,弧越长;反之越短。内置的5 个环用于编码各类POI(兴趣点)的分布情况,环上的柱状图编码社区每个站点对应的该类型设施数,柱状图越高,则表示该站点一定区域内包含该类型设施数多;反之越少。内置环内的空白则是地图,即站点层,并以点的形式编码站点,点的位置编码站点的空间分布。

图4 分层社区的POI分布可视化设计Fig.4 Visual design of POI distribution in hierarchical communities

3.2 流传输演化可视化

流传输演化视图基于桑基图的表现形式,辅助用户分析分层社区间的交通流传播模式,如图3(d)所示。视图按时间顺序水平排列成一组时间窗口,借鉴BicaVis[25]将相邻时间窗口的背景颜色设置为不同亮度级别以增强可区分性。用桑基图的节点编码分层社区,用连线编码社区间存在交通流传递,连线的透明度编码传递的流值大小,透明度参数值越高,传递的流值越大;反之,越小。此外,系统提供过滤交互方法,用户通过设定过滤系数过滤掉不需要分析的流传递信息。

3.3 站点多元时序数据可视化

在地图视图中点击选择要分析的站点后,图3(b)所示的站点视图将显示该站点的多元数据在时间序列上的变化。为了实现2.1 节的系统分析任务3,站点视图提供展开和折叠模式,以供用户对比分析。

折叠模式 上方是河流图,横轴代表以小时为单位的时间,纵轴上对应的阴影宽度代表对应时段的流量值,展示了同一站点一天的流量变化趋势。下方是柱状图,横轴代表以天为单位的时间,纵轴代表对应日期的流量值,展示了同一站点不同日期的天流量,同时可以横向对比。针对查看具体日期的小时流量变化趋势的需求,系统提供一种选择关联的交互方法。用户点击选择对应日期的柱状图,柱状图将高亮显示,同时上方的河流图也会更新,并显示为所选日期对应的小时级别的流量。

展开模式 每个圆圈表示一个分析的时段点,第一层外圈是一个圆环,以弧度表示当前时段的流量占所有日期该时段的最大流量值的占比,以便于用户对比分析同一时刻不同日期的流量;圆环内以4 种纹理分别表示4 个等级的空气质量指数。第二层外圈是一个环形饼状图,展示当前时间段的乘客类型,其中粉色代表成年人,紫色代表小孩,黄色代表老人,蓝色代表学生。最外侧采用棒棒糖图(Lollipop Chart)展示对应时刻的多元数据降雨量值和热度值HI。它是一种特殊形式的柱形图,不仅能像柱形图一样对数值型数据可视化,而且柱形变成线条减少了展示空间,视觉上更简洁和美观。本系统基于Lollipop Chart 用点的饱和度编码HI 值的6个级别,并用棍的高度编码降雨量值的大小,棍越高降雨量值越大;反之,越小。

3.4 社区统计属性可视化

社区自画像视图以列表的形式展示了社区聚类簇的周围兴趣点分布、平均流入流量、平均流出流量和平均乘车时长这4 种详细信息,每一行对应一个聚类簇。基于径向柱状图,展示周围兴趣点分布,包括旅游、医疗、教育、住宅、娱乐兴趣点的总和。基于横向柱状图,分别将平均流入流量和平均流出流量值映射到矩形的宽度,方便用户横向对比流入流出值,同时也可以纵向对比不同社区簇的某一类流量值。基于箱线图,通过可视化上四分位数、中位数、下四分位数、上下边界值等统计量,展示该社区簇的平均乘车时长分布。

4 实验与结果分析

本文系统数据集时间范围在2017 年1 月1 日至2017 年2月28 日每天5 点至23 点的数据,其中新加坡公交车的IC 卡数据共计4 228 个公交站点,每天百万级刷卡数据。

4.1 OD流聚类方法评估

本文以2017 年2 月1 日的OD 流特征矩阵作为OD 流聚类方法的实验数据,其中时间间隔t为1 d,N为4 228。

由于本文的聚类方法针对OD 数据的应用场景,所以采用聚类的内部评估指标轮廓系数SC 定量评估相同原始数据的聚类效果。第i个站点的SC 计算如式(5)所示:

该评估指标通过每个站点的平均簇内距离a和到其他簇的平均距离b来衡量,其值介于-1 和1 之间,越接近1 聚类效果越好。对所有站点的SC 求平均,就是该聚类方法的定量评估值。

基于ONMF 的OD 流聚类方法,聚类得到8 个聚类簇,聚类结果在可视化方法中的应用在4.2.1 节时空传输模式案例中分析。

4.1.1 参数对比实验

如2.4.2 节所述,基于ONMF 的OD 流聚类方法在实现过程中需要确定模式数量值K、加权系数λ1和λ2。本文通过参数对比实验确定各参数的值。

模式数量值K是要分解的低秩矩阵的维度,也是在分析中要找到的所期望的潜在模式数。设置参数对实验,取K={2,3,4,5,6,7,8,9}中最能恢复原始流特征矩阵能力的值,即损失最小时的值。通过如图5 所示的实验结果分析,确定K值为8 时,误差最小。

图5 模式数量值K的敏感性分析实验Fig.5 Sensitivity analysis experiments for mode quantity value K

加权系数λ1和λ2分别控制空间平滑度和多元数据平滑度。设置参数对比实验,从0.000 1、0.000 5、0.001、0.005、0.01、0.05、0.1 和0.5 中选择使得两个加权参数,独立约束聚类中效果最优时的参数的值,即SC 值取得最大时对应的值。通过如图6 所示的实验结果分析,确定加权系数λ1为0.1 时聚类效果最好,λ2为0.000 1 时聚类效果最好。

图6 加权参数的确定Fig.6 Determination of weighting coefficient

4.1.2 方法对比实验

将本文的聚类方法与NMF、MEP-ONMF(Maximum-Entropy-Principle based ONMF)[26]、ONMF-A[27]、EM-ONMF(EM-like algorithm for ONMF)[28]、ONMFS[29]这5 个方法在相同数据上分别聚类,并从聚类的定量评估指标SC 和运行时间两方面作聚类性能对比。

设置的方法对比实验,将每个方法分解的低秩矩阵H作为K-means 的输入进行聚类,并计算对应的SC 值和运行时间。每个方法独立运行7 次,设置实验中的低秩矩阵维度值和K-means 聚类数均为8,并取中位数作为结果。

聚类效果定量评估结果显示,本文方法在聚类评价指标SC 值为0.941,聚类效果较好。如图7(a)所示,本文方法比直接用OD 流特征矩阵作K-means 聚类效果提升了0.253,且SC 值均高于NMF、ONMF-A、EM-ONMF 和MEP-ONMF 四个方法,但是比ONMFS 差一点,低0.009。

图7 方法对比实验结果Fig.7 Experiment results of method comparison

运行时间定量评估结果显示,本文方法的运行时间为40.79 s,和运行较快的MEP-ONMF 和NMF 方法相比,在时间消耗上相差在1 s 内,时间效率较高。如图7(b)所示,聚类效果最好的ONMFS 方法的运行时间较长,为295 s。

因此,从聚类效果和运行时间综合分析,本文提出的OD流聚类方法相较于其他方法在OD 数据应用场景中更有效。

4.1.3 消融实验

设置消融实验对比原始方法、只加了空间平滑约束矩阵A、只加了多元数据平滑约束矩阵B、两个约束矩阵都加了的本文方法这4 种情况在聚类效果上的差异。

通过比较聚类评价指标SC 的提升值,验证了本文聚类方法的两个约束矩阵能有效提取OD 流的特征并聚类。消融实验结果如表3 所示,添加空间平滑约束矩阵A比原始方法在聚类效果上提升了0.024,添加多元数据平滑约束矩阵B比原始方法在聚类效果上提升了0.023,两个约束矩阵都加的方法(本文方法)相较于原始方法,聚类效果提升了0.028。

表3 消融实验结果Tab.3 Ablation experimental results

4.2 案例分析与系统评估

案例将运用新加坡数据集从流的时空传输模式、流的时间模式对比和多元时序数据对比三个方面分析,并通过与相关工作能解决的任务比较评估系统应用能力。

4.2.1 时空传输模式

从流传输演化视图可以分析站点簇的传输时间模式,结合地图视图可以分析传输的空间模式。如图8 所示,选择聚类簇3,结合时间序列和节点连接线的透明度,发现该聚类簇的流量主要发生在7 点至9 点和17 点至19 点。

图8 站点聚类簇3交通流传输的时空模式分析Fig.8 Spaio-temporal pattern analysis of traffic flow transmission in cluster 3 of bus stops

选择要分析的7 点至9 点流传输连线a,地图显示聚类簇3 流向聚类簇4 空间主要分布在5 个区域。本文以直径300 m 分析周围POI 属性。a1 为44009 站点,周围有1 个图书馆和1 个社区联络所;a2 为28009 站点,周围有2 个医院、1 个银行和1 个图书馆;a3 为52009 站点,周围有1 个学校、2 个幼儿园、2 个银行分别为马来亚银行支行和华侨银行支行;a4为84009 站点,周围有1 个学校、1 个幼儿园和1 个图书馆;a5为75009 站点,周围有1 个大华银行支行、1 个图书馆、1 个音乐培训学校和3 个医疗相关地点。

选择要分析的17 至19 点流传输线b,地图显示聚类簇3流向聚类簇7 空间主要分布在2 个区域,仍以直径300 m 分析周围POI 属性。b1 为44699 站点和44779 站点,周围是多个住宅社区;b2 为53231 站点,周围有1 个地铁站、1 个图书馆、3 个社区中心、3 个学前学校、3 个银行分别为大华银行支行、华侨银行支行和星展银行支行。

4.2.2 时间模式对比

在地图站点选择中a1~a5 这5 个站点,站点视图可以分析对比这些站点在时间序列上的流情况和周围多元环境因素,如图9 所示。

图9 站点多元时序数据对比分析Fig.9 Comparative analysis of multivariate time series data of bus stops

通过分析发现,5 个站点(a1~a5)在天流量级别上均没有明显的周期规律,但2017 年1 月28 日至1 月30 日(实线框部分)的天流量均小于周围的天流量,结合新加坡公共假期发现,这几日是中国新年,居民休假。通过3.3 节提到的视图折叠模式可以只显示某个站点流的时间序列变化。故选择44009站点(a1)对应这几日折叠模式下的流量,分析发现这几日的小时流量没有工作日2 月1 日相同的早高峰。1 月28 日处于中国新年的周六和1月21日正常周末的周六显示的小时流量存在区别,假期居民都在9点以后才开始大量出行。

展开模式可以分析小时流量级别的详细信息。从站点人员类别分析,6 点至7 点公交站点附近都存在一大部分学生,这也与站点附近都存在教育相关地点相符。

4.2.3 多元时序数据对比

查看a1~a5 展开模式,对比分析站点时序热度值的差异。如图9 所示,Lollipop Chart 中可视化编码的热度值,发现5 个站点晚上热度值均比白天高,和新加坡2017 年年度气候报告中指出的热岛效应相一致。44009 站点(a1)和28009 站点(a2)一天的环境热度模式相似,均属于10 点之后热度值上升,到22 点之后开始转成适宜温度。52009 站点(a3)、84009 站点(a4)和75009 站点(a5)一天的环境热度模式相似,均是早晨和下午凉爽,晚上开始变热,区别在于a3 和a4站点炎热时间从10 点至13 点,夜晚也不能转凉爽,a5 站点是从10 点至11 点,炎热的时间缩短了2 h,并且夜晚21 点能转凉爽。这个差异是由于新加坡各区受日光照射不同造成的。

展开模式对比分析降雨量对居民乘坐公共交通工具的影响。17101 站点(c1)在2017 年2 月23 日的多元数据变化,15 时出现大暴雨(实线框),根据内层环的弧度占比发现对人们出行并没有造成过大的影响,但纹理编码的AQI 等级加重了一级,结束后2 h 周围环境逐渐升温,并且AQI 值也回到好的状态。

4.2.4 系统评估

为了更好地发现系统的优点和不足,将系统功能与近几年的其他工作根据群体移动模式,挖掘时空异常和隐藏关系、探索分析各种统计属性、多尺度时空分析、个体多元数据分析(需要有除POI 以外的多元数据)这6 个OD 数据可视分析的典型应用作对比。对比结果如表4 所示。

表4 系统应用对比结果Tab.4 Comparison results of system application

从表4 可以看出,所提系统在群体移动时空模式分析、宏观层面的群体的统计属性和微观层面的个体多元信息都能有对应的功能支撑;但在空间异常分析方面显示出不足。

5 结语

基于OD 流数据、POI 数据和多元环境数据,本文构建一个基于OD 流的多元数据分层可视分析系统,设计了4 种可视化字形完成流时空模式分析和多元数据可视化。基于流传输演化视图分析站点聚类社区簇间的流传输;基于地图视图分析交通流的空间特征;基于站点视图分析交通流的时间模式和外部多元因素的相互影响;基于社区自画像视图分析聚类社区的周围POI 情况和统计属性,包括流入流量、流出流量、平均出行时间。在新加坡公交车IC 卡的数据集上验证,实验证实该系统可以全面地探索分析交通站点的流时空特性和外部多元环境因素的影响。

本系统目前还存在一些不足之处,因IC 卡的数据规模庞大,直接将所有原始数据导入系统中需要较高的存储资源和计算资源,所以系统目前不能支持探索分析实时数据。

猜你喜欢
视图时空站点
跨越时空的相遇
镜中的时空穿梭
基于Web站点的SQL注入分析与防范
2017~2018年冬季西北地区某站点流感流行特征分析
玩一次时空大“穿越”
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
首届欧洲自行车共享站点协商会召开