基于云计算的城市轨道交通数据可视化方法及案例研究

2021-02-25 07:48曹惠茹成海秀刘永鑫陈凤宜詹锡隆
计算机应用与软件 2021年2期
关键词:客流量预处理客流

曹惠茹 成海秀 刘永鑫 陈凤宜 詹锡隆

1(广州工程技术职业学院信息工程学院 广东 广州 510075)2(华南理工大学计算机科学与工程学院 广东 广州 510006)3(深圳大学计算机与软件学院 广东 深圳 518060)4(中山大学南方学院 广东 广州 510970)

0 引 言

随着城市规模的不断增加,城市轨道交通成为越来越多城市居民出行的首选[1-3]。运用云计算、大数据等信息技术对城市轨道交通客流量的数据进行分析,研究城市轨道交通客流量变化态势成为当前研究的热点。以此为依据对规划城市轨道交通进行建设与运营,不仅会降低城市轨道交通建设与运维成本,而且为城市居民的出行带来更多便利[4-6]。城市轨道交通客流的数据可视化,成为上述工作的关键步骤之一。因此,对城市轨道交通客流进行可视化研究是城市轨道交通数据分析的重要环节,具有重要意义。

针对城市交通数据可视化问题,国内外从不同的层面展开相关研究。文献[7]设计了一种基于GPS的出租车轨迹数据的三维动态可视化方法,建立了基于时空双重控制的粒子系统,构建了城市大尺度三维场景中GPS轨迹的模拟移动模型。文献[8]为解决公共自行车数据可视化系统的性能问题,整合Web服务器集群、数据库集群、缓存框架服务器的集群架构,构建基于该架构的公共自行车数据可视化系统。文献[9]先后采用数据预处理、匹配技术、聚集计算等将车辆运行状态转化为道路通行信息,实现公路交通的数据可视化。文献[10]分析了珠三角地区公交系统位置数据丢失的空间分布特征,然后采用数据可视化技术对目标城市的交通数据进行了数据可视化,证明所提方法可以有效地提高数据质量。文献[11]使用快速增量模型树漂移检测方法来分析和预测英国交通人流量,同时在所开发的预测系统的基础上,将生成的传感器点内的交通流状态预测在真实的地图仿真中可视化。上述文献对交通层面的数据可视化进行了研究,然而针对城市轨道交通票卡数据流可视化研究偏少。同时城市轨道交通数据存在数据量巨大、种类繁多、数据实时性高等特点,对数据可视化提出新的挑战与要求[12-13]。

针对城市轨道交通数据的特点和城市轨道交通客流量新挑战,本文提出基于云计算的城市轨道交通客流量数据可视化解决方案。将城市轨道交通客流数据按时间段进行分表处理、建立索引数据集合;删除冗余、错误数据实现对数据筛选和清洗处理;对城市轨道交通客流数据进行了可视化设计;以目标城市为例,对可视化系统进行了验证,并对客流规律进行了分析。

1 基于云计算的城市轨道交通数据系统框架

云计算采用简化接口,将海量计算任务通过通信网络分发到多个并行计算机上进行处理,以提高数据处理的实时性[3,14-15]。用户访问分布式服务器可以减小延时,增强访问的实时性。为此,本文设计了如图1所示的基于云计算与数据存储的城市轨道交通客流数据系统框架。该框架主要包括用户端、云服务器、管理中心三个模块。用户端是指访问城市轨道交通数据库移动端,主要以出行的客流人群为主体。云服务器用于处理、存储城市轨道交通数据,具体分为客户、中心数据存储和计算三种类型的服务器。管理中心主要负责对整个系统的管理和运维。首先,为降低网络安全风险,保护核心数据,采用中心服务器和客户服务器模式完成用户端的数据访问。其次,以用户提供高效的数据访问服务为目标,在城市不同位置部署客户服务器,采用高速网络与中心数据服务器建立高效连接,进而构建高效的分布式客户服务器集群。

图1 基于云计算服务器的城市轨道交通数据系统框架

(1)

从数据流的角度,基于云服务器城市轨道交通数据系统总的工作过程,可以从数据上传和下发进行描述。首先,城市轨道交通系统通过相应的装置,收集用户出行信息,并通过通信网络将数据上传至本地客户服务器。本地服务器周期性地将数据传输给中心数据存储服务器,进而完成数据上传。其次,当用户需要访问相关交通数据时,客户服务器从中心数据服务器访问相关数据,并在本地进行数据备份存储,然后将用户需要数据下发至用户端,进而完成数据的下发。

2 轨道交通数据处理与可视化设计

2.1 系统概述

本系统主要用于对城市轨道交通客流量的可视化,方便对城市轨道交通客流量的各类数据进行分析,直观地分析出数据蕴含的规律。图2为城市轨道交通数据可视化总体设计过程。总体上来讲,该过程分为原始数据读取、数据预处理、数据可视化三个主要步骤。

图2 系统设计过程

2.2 数据预处理

数据预处理与数据可视化是该系统重要模块。从数据存储服务器中读取的原始数据,为不同人群(ID)的刷卡时间(h)和进出站点记录(data),其数据字段包括站点信息、消费人群、出入站点时间、乘车次数等关键性数据信息。在数据预处理阶段要对原始数据进行数据清洗,并且转换成JSON格式进而实现数据的可视化。根据数据特性,从多层次、多角度分析设计最终以Web页面形式进行效果展示。

在数据预处理层面,针对城市交通原始数据会存在缺失值、重复值等问题,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对任务和数据集属性的不同而不同。数据预处理的常用流程为:去除唯一属性,处理缺失值,属性编码,数据标准化正则化,特征选择,主成分分析。如图3所示,针对城市城轨交通数据的特点,采用如下所述的步骤进行数据预处理。

图3 数据预处理过程

不失一般性,记数据集合为D={d1,d2,…,dn},数据di={ID,datai,hi}。首先删除缺失值、重复值的数据,数学描述如下:

(2)

式中:i≠j∈n。然后,按照读取数据ID,按时间为单位对数据进行分表处理,并建立索引。记datai={ds1,ds2,…,dsm}即数据di信息datai包含m个字段,DS为所需信息字段。将需要用到的DS包含在索引中,查询时只返回所需的字段,将不需要字段进行查询并且删除,从而实现对数据预处理。其数学描述如下:

datai=datai-dsjdsj∈DS,i∈m

(3)

2.3 数据可视化设计

城市轨道交通数据可视化是该系统的最后环节,直接面对用户端。通过对数据不同角度的分析和展示,以数据可视化形式展示了各种客流信息,进而为用户出行、城市轨道交通管理等提供参考依据。

图4为城市轨道交通数据可视化过程示意图。总体来讲,该过程可以分为数据检索、数据统计、数据图形内核调用、数据展示等步骤。具体来说,其关键步骤描述如下:

图4 数据可视化过程

Step1计算服务器根据可视化目标的具体要求,从数据存储服务器中读取与该目标相关,并通过预处理后的完整数据集。

Step2以可视化目标为出发点,采用数据ID为关键字对统计数据关键信息进行检索。

Step3完成上述步骤,建立检索结果表,并进行结果存储。

Step4基于数学统计方法,调用ECharts统计模块内核,完成对客流关键信息的数据统计。

Step5根据Step4的统计结果,建立统计客流数据与可视化图形之间的映射关系。

Step6调用ECharts中相应图形的内核模块,按照不同统计结果,最终完成城市轨道交通数据可视化。

3 应用案例与分析

3.1 城市轨道交通数据案例实现

以南方某城市轨道交通数据为案例,采用第2节所述方案进行了数据可视化实现。数据集为该城市2015年1月至2月的9条地铁线路乘客上下站点共计750 000条数据。对该数据集合进行清洗后以小时为单位对数据进行分表处理,进而建立客流小时统计表。然后对处理后的表进行格式转化,形成适合ECharts的JSON数据格式。最后,以客流站点热力图和统计客流量为目标进行可视化。

该案例的城市轨道交通数据可视化系统提供总览、线路对比和单线统计三种模式。总览模式采用地理数据可视化的热力图形式呈现所有站点的客流信息。首先以时间单位统计各个线路、站点客流量,利用不同的明亮程度表示各个站点不同路段拥堵程度(稀疏/正常/拥挤),如图5所示。在多线路对比模式下,在单位时间内对多条城市轨道交通线路的数据进行统计,然后采用柱状图的形式呈现不同线路的客流量。单线统计模式下,分别呈现选中线路各种客流量信息,其中包括该线路客流类型、各换乘站点日客流量、早晚高峰Top5出站点、一周内客流量变化等方面的信息。

图5 城市轨道交通客流量可视化系统界面

3.2 基于数据可视化的城市轨道客流分析

图6展示了城市轨道交通客流量在各个站点分布情况。用热力图来展示不同站点在一段时间内的总体客流量,从暗到亮来表示客流量密集程度,灰色表示客流量较小,亮的区域表示客流量较大。同时可将地图进行放大和缩小,从整体到局部了解不同站点的客流量的分布情况。可以看出,分布在商业密集区或居民区站点的客流较大。

图6 城市轨道交通客流量热力图

客流量高峰期的计算定义:早高峰时间为上午7点至9点,晚高峰时间为下午5点至7点半。因此将客流量数据按小时进行分类,提取各换乘站点与早、晚高峰热门站点数据并转换成JSON格式,进而以图形化形式展示出来,如图7所示。从早、晚高峰客流量饼形图可以看出,早高峰站点1、3、4为前三,晚高峰时站点1、站点3客流量依然较大,而第三热门站点则由站点5替代早高峰的站点4;而从换乘站点日客流量情况可以看出,左上方柱状表示日客流量在60 000以下的站点,而左下方柱状则为日客流量60 000以上的站点,且站点R和站点S为日流量最大的两个站点。因此,根据早、晚高峰以及各换乘站点日客流量情况分析,可合理调配相关工作人员以应对突发事故的处理。

图7 城市轨道交通热门换乘站点和早晚高峰热门出站点

图8为一号线各站点平时客流与高峰期客流的对比,可以看出,同一线路时高峰期的客流量明显高于平时的客流量,尤其突出表现在站点9、站点14、站点15、站点16。通过图中右上角下拉三角位置还可以选择查看不同线路的平时客流量与高峰期客流量的对比图。而上述站点均为换乘站点,说明换乘站点的客流量较大。

图8 城市轨道交通同一线路不同站点对比图

4 结 语

本文以大数据环境下的城市轨道交通票卡数据流实时客流态势图的可视化为研究对象,基于云计算平台提供了一种城市轨道交通大数据可视化分析方法,搭建了实用化的应用平台并提供南方某城市应用案例。首先,基于云计算构建了城市轨道交通数据系统框架。其次,将城市轨道交通客流数据按时间段进行分表处理、建立索引数据集合,删除冗余、错误数据,实现对数据筛选和清洗处理。最后,以目标城市为案例构建了城市轨道交通数据可视化终端,同时分析了城市轨道交通客流规律。实验结果表明,该数据可视化方法的可行性高,同时表明分布在商业密集区或居民区站点、换乘站点、早晚高峰的客流较大。该研究为城市轨道交通的规划和列车运营提供了可靠的依据,通过交通状态的判别, 减缓交通压力,均衡交通量分布, 从而提高城市轨道交通路网的利用效率和安全性。

猜你喜欢
客流量预处理客流
预处理对医用外科口罩用熔喷布颗粒过滤性能的影响
手术器械预处理在手术室的应用
污泥预处理-厌氧消化体系的能源经济性评价
基于数据挖掘的景区客流量预测模型研究
城市轨道交通节假日期间大客流行车组织思考与实践
基于大小交路套跑对地铁不均衡客流的可靠性分析
污泥预处理及其在硅酸盐制品中的运用
地铁开,玩起来
基于灰色预测理论在交通枢纽客流量的实际应用
基于灰色预测理论在交通枢纽客流量的实际应用