基于AFC数据的南昌轨道交通车站精细化分类

2024-01-02 11:24石俊刚席苏路包佳瑶
都市快轨交通 2023年6期
关键词:工作日客流量下层

王 晨,石俊刚,2,席苏路,包佳瑶

(1.华东交通大学交通运输工程学院,南昌 330013;2.同济大学交通运输工程学院,上海 201804;3.南昌轨道交通集团有限公司运营分公司,南昌 330038)

城市轨道交通是公共交通的重要组成部分,为保障车站客运组织工作的顺利开展和安全运营,有必要对车站客流特征进行科学分析。城市轨道交通自动售检票系统(auto fare collection,AFC)记录着轨道交通乘客每日出行的进出车站时刻等大量数据。车站的客运组织基于海量乘客刷卡数据,对车站客流进行统计分析及特征研究。地铁车站作为客流聚集的重要节点,不同车站其客流特征不同。明晰车站客流特征,并对其进行科学归类,能够为车站制定常态化客运组织方案及应对突发大客流情况下的应急组织预案提供重要参考。

目前,国内外关于AFC 数据的研究主要包括客流特征分析和车站分类两方面。客流特征分析方面,姚振康等[1]从时间、空间和结构3 重维度对车站客流分类特征进行分析,通过谱聚类方法压缩搜索空间让划分类型更精准。Zhang 等[2]将客流量构建为时间序列曲线,以站点客流量的波动为特征进行分类。Ratrout等[3]通过构建路口各方向流量时段的特征向量,将交通时段进行聚类划分。陈维亚等[4]在分析客流特征的基础上,提出了基于K-means 聚类算法的短时客流组合预测模型。陈东洋等[5]基于地铁线路不同客流变化构建各时段的特征向量,通过K-means 算法进行聚类,划分地铁合理的运营时间。车站分类方面,杨静等[6]结合车站的职住效用及车站周边用地特征,考虑精细化用地性质和客流特征的车站功能分类方法,并通过无监督学习K-Means++算法求解。Li 等[7]依据客流量波动中高低峰数量及偏度等相关特征数据,将车站聚集分成6 大类。蒋阳升等[8]将AFC 的进站客流处理为时间序列数据,并基于该数据通过K-Means++算法进行聚类,分析不同类别站点的客流变化与用地特征的关系,精细化描述具体站点的类型。傅搏峰等[9]考虑地铁站点周边建筑的土地利用特征情况,采用定性与定量相结合的方式提出面对郊区轨道交通站点的分类方案。黎庆等[10]考虑用地、客流等因素,结合分类指标及聚类算法,建立基于多重因素的聚类换乘车站分类方法以应对车站分类不精准问题。

综上,目前的车站聚类分析大都基于进出站客流总量进行特征提取,缺乏对于进出站客流的时变特性的考虑,无法把握车站的高峰分布规律。本文则从客流总量和客流时变趋势双维度,对车站客流进行特征提取,并考虑到周末客流特征对各车站的属性影响,将其作为特征指标共同组成聚类因子。将数据结构化后提取这两个维度的聚类指标,提出利用双层聚类方法对车站进行归类分析。其中上层聚类主要对车站总客流量特征进行提取并分类,下层聚类则进一步对车站客流的时变特征进行提取并做分类,聚类后的车站在客流规模和时序分布上具有相同特性,能够为实际车站客运组织的分类管理提供参考。

1 AFC 数据处理及聚类客流特征选取

1.1 进出站客流数据归一化处理

聚类的核心思想是对数据集的特征进行提取再划分,因此对数据集的质量和准确性要求较高。为满足聚类需求,对AFC 数据做规范化处理:首先选取在轨道交通运营时段内的数据,删除无关、冗余数据后按照线路站点进行统计归类。为保证聚类效果,对各车站进出站客流数据使用min-max 归一化处理,减少因为客流量差异巨大而造成断层,同时也可将波动客流的影响降到最小,即

1.2 客流特征选取

车站的客流特征可以从多个维度提取,本文从客流总量和客流时变趋势2 个层面进行特征提取。选取进出站客流总量能区分不同车站的客运规模,而工作日和周末所承担的客流量存在明显差异。因此,选取车站分别在工作日、周末的进站客流总量和出站客流总量作为第一类客流特征提取的指标。表1 选取了南昌轨道交通部分车站在归一化后的客流特征指标,包括工作日总进站客流(WY_IN)和总出站客流(WY_OUT)、周末总进站客流(WD_IN)和总出站客流(WD_OUT)4 个指标,共同刻画车站客流的总体规模特征。

表1 部分车站客流规模特征指标Table 1 Passenger flow size characteristics indicators for selected stations

其次,再对各车站每日进出站客流以小时为间隔,进行客流时序分布特征的提取,即各车站均提取出如表1 中的各小时进出站客流特征指标。

2 基于双层K-means 算法的车站聚类

根据对南昌市轨道交通客流的时空特征进行分析可知,在无重大节假日及大型活动影响时,客流量呈以周为单位的规律性分布特性,其中工作日客流规律相似,周末客流规律相似,而工作日和周末之间客流差异明显。不同车站之间的客流特性差异明显,但部分车站之间也存在一定的相似性规律,主要表现在客流规模和高峰分布特征上。考虑这两方面特性,对车站进行合理归类,有利于把握车站的进出站客流规模和分布特性,可以预先制定好相应的客运组织方案,从而保障车站运营安全。

2.1 选取的聚类算法及评估方案

K-means聚类算法是处理时间序列问题中常用的方法,常规车站聚类考虑选取工作日全天客流量或各小时客流量百分比进行特征提取。单一使用以上任意指标进行聚类不能准确定位车站的规模和效用。为准确刻画客流总量和时变趋势两个特征,本文提出双层K-means 方法,上层根据总客流量的聚类因子向量F=[WY_IN,WY_OUT,WD_IN,WD_OUT]对车站进行聚类,得到具有相同客运规模特征的大类车站;再对各大类车站分别基于时序性数据的平均小时客流量(含工作日和周末)指标进行聚类得到下层聚类结果,同一下层类别车站客运规模和客流时变特性具有相似的特征。

此外,对时间序列聚类的效果评估选取了肘部法,成本函数选取不同聚类数量的簇内误差平方和。随着聚类数量的增加,误差平方和不断减小,数据集与簇内中心点的距离越近,每个类别包含的数量也会越少,导致分类效果变差。肘部法在聚类数量增多的过程中,寻找到一个平衡点,即找到簇内误差平方和下降速率平缓的位置作为肘部,并选取为聚类数量。

2.2 构建双层K-means 车站聚类模型

模型中采用的是欧式距离,地铁车站聚类模型构建过程如下。

步骤1:将车站进出站总客流特征指标矩阵F放置于欧式空间Rn中,作为客流规模特征进行站点判别,由此得到上层聚类车站。表达式为

式中,fsi为第s个车站(s=1,2,…,94)的第i个特征对应的值;在特征指标矩阵F中挑选一个车站作为聚类中心ck,初始化k=1,并置于聚类中心集C,其中,k是当前聚类中心数量。

通过式(2)得到的特征指标矩阵进行K-means 聚类,并进行初始化聚类中心。损失函数在不断迭代的过程中收敛在局部最小值,并通过损失函数的下降量找到合适的聚类数量。损失函数Loss 及其下降量ΔLos 分别为

式中,Fsi为车站样本集;nk为每个类别中的车站数目。

步骤2:步骤1 完成后会得到k个上层大类,将每个上层类别车站转化为车站划定时段的平均进出站客流,转化式为

式中,Inst、Outst分别为第s个车站的第t个时段的平均进站及出站客流量(含工作日及周末)。

每个时段的值就是时序性数据的一个特征,将所有特征按照式(2)组成一个新的特征集进行二次聚类。

判断剩余车站在聚类中心中的距离D(f)为

式中,K为期望类别数量,当存在不止一个聚类中心时,选择所有聚类中心中距离的最小值。根据车站与聚类中心的距离,计算其他车站被选为下一个聚类中心的概率ps,即

式中,C是聚类中心集的补集。

在当前聚类中心集中选择ps最大的车站,将其作为新聚类中心置于聚类中心集ck∈C,进行不断迭代至最终收敛。

3 双层K-means 车站聚类情况分析

3.1 聚类结果

为避免节假日、极端天气的影响,本文选取南昌市轨道交通2022 年6 月6—26 日连续3 周的进出站客流量对4 条运营线路共94 个车站进行双层K-means聚类。首先在上层设定进出站客流总量(分工作日和周末)为基础特征,初步聚类得到具有相似客流规模的车站。聚类前需先根据肘部法得到聚类数量,客流量聚类误差如图1 所示。由图1 可知,当聚类数量大于3时,损失值的下降量逐步减少并趋于平稳。根据肘部法的判别规则,选取3 为曲线的拐点较合适,故设定上层聚类数目为3。在上层聚类后得到了3 大类总客流量相似的车站大类,其中在3 大类中分布最少的一类仅有2 个车站,即卫东站和八一馆站,基于客流总量特征生成的上层类站点如表2 所示,以权重最大的两个主成分为横、纵坐标进行上层聚类可视化,结果如图2 所示。

图1 客流总量聚类误差Figure 1 Elbow chart of total passenger flow

图2 上层聚类可视化Figure 2 Visualization of upper-layer clustering

表2 上层聚类结果Table 2 Upper-layer clustering results

根据上层聚类结果可知,通过总量特征将客流量极端大小的特殊站点初步筛选出来。第1 类车站位于南昌市CBD,是区域位置和用地性质综合性极高的站点,客流规模远大于其他车站。与之对比的是第3 类车站,该类车站坐落或临近郊区,周围用地并未得到充分开发,因此此类站点客流量极少。

第2 类车站是数量最大的类别,这类车站所处区域有显著的用地性质,以办公或居住为主,因用地性质不同,吸引乘客的类别也不同,体现在客流时变特征上也会存在差异。因此对第2 类客流总量相似的车站,总量特征只能在初步筛选中起作用。客流量的实际意义需考虑两个方面,一是各车站时变的客流量波形特征,二是工作日与周末不同客流特征的综合提取。

由于第1 类车站和第3 类车站数目过少无需再进行下层聚类,仅对客流总量特征无法直接区分类别的第2 类车站进行下层聚类,按照时变特征进行聚类得到聚类误差如图3 所示。第2 类车站的损失值在聚类数目为6处下降量趋于平稳,因此基于时变特征的下层聚类得到的大类为6 种,下层聚类结果如表3 所示。

图3 第2 类时序特征聚类误差Figure 3 Elbow diagram of Class 2 temporal characteristics

表3 下层聚类结果Table 3 Lower-layer clustering results

3.2 车站分类情况及分析

从客流规模上看,上层聚类得到的第1 类车站客流指标为0.7~1,高峰时段平均进出站量达到了640 人次/15min;上层聚类得到的第3 类客流指标为0~0.02,高峰时段平均进出站量仅为6 人次/15min。如图4 所示,正数为进站客流,负数为出站客流。从客流特征看,第1 类车站客流全天规模都较大,没有明显的高峰特性,表现为客流从7 时开始聚集,一直持续到晚上22:30 后才逐渐消散。根据对南昌市用地的实际调查可知,该类车站位于南昌市中心,用地功能兼具商业、教育、住宅、文娱,是重要的交通枢纽,为“中心区域型车站”。第3 类车站客流规模很小,没有显著的时变性规律,根据实际用地调查,该类车站主要位于郊区,投入使用的住宅办公等设施较少,为“近郊待开发车站”。

图4 上层类别1 和3 进出站客流分析Figure 4 Upper-layer category 1 and 3 inbound and outbound flow analysis

第2 类车站客流规模相对适中,包含的车站数较多。根据工作日、周末的车站进出站客流的时变特征,对第2 类车站进行下层聚类,得到6 个子类车站,如表4 所示。

表4 下层大类站客流特性Table 4 Passenger flow characteristics at lower-layer broad-category stations

A、B、C 类车站的主要客流属性都是通勤客流,具有明显的潮汐现象,工作日存在明显的高峰出行特征,而周末客流则无明显高峰特性。但这3 类车站的客流峰值特征存在一定差异,如图5 所示,A 类车站进出站客流均表现为双峰特性,即均存在早、晚高峰;B 类车站进出站均呈现单峰特性,其中进站仅存在晚高峰,出站仅存在早高峰;C 类车站进出站同样均呈现单峰特性,但特征与B 类相反,即进站仅存在早高峰,出站仅存在晚高峰。图6 展示了进出站量各时段占比分布情况,由图6 可知,A 类进出站早晚高峰时段进出站百分比都较为均衡;B 类车站进站左低右高,出站右高左低;C 类车站刚好相反。根据实际用地调查,3 种类型车站的周边用地无大型商圈和景点,用地性质较为单一,以功能性效用为主。不同处在于职住结合型车站周边住宅区和办公区数量较为均衡;就业主导型车站以写字楼、办公用地为主,配有少许住宅区;居住主导型车站周边住宅区密集,有少许办公用地。

图5 下层类别A、B、C 类车站客流特征对比Figure 5 Comparison of ABC passenger flow characteristics for the lower-layer category

图6 下层类别A、B、C 分时进出站客流与全天的比值Figure 6 Ratio of lower-layer category ABC time-sharing inbound and outbound passenger flows to the whole day

D、E 类车站的主要客流属性为通勤休闲客流,工作日早晚高峰均呈现双峰特性,但平峰客流相对于A、B、C 类车站更多,而周末客流量波动性较明显(见图7~8)。工作日期间,D 类车站进站客流早高峰占主导地位,而出站客流晚高峰占主导地位;E 类车站进站客流晚高峰占主导地位,而出站客流早高峰占主导地位。周末期间,D 类车站白天进站客流量大,而夜间出站量较大;E 类车站白天出站量大,而夜间进站量较大。根据实际用地调查,D 类车站周边主要是学校和居民住宅区,主要客流为工作日通勤客流,周末会产生一定的休闲娱乐出行;E 类车站周边以商业为核心,配置了开发完善的办公区,同时也有较为密集的住宅区,因此,工作日同样会产生通勤类客流,而周末会吸引大量休闲娱乐客流。

图7 下层类别D、E 类车站客流特征对比Figure 7 Comparison of DE passenger flow characteristics for the lower-layer category

图8 下层类别D、E 分时进出站客流与全天的比值Figure 8 Lower-layer category DE inbound and outbound flow analysis

F 类车站主要客流属性为休闲、就医、外出客流,工作日和周末的客流都处于较高水平,周末客流大于工作日客流,其客流呈现多峰波状,客流特征如图9(a)所示。选取F 类的代表车站生成的进出站占比如图9(b)所示,由图9(b)可知,进出站客流百分比较为均匀。根据实际用地调查,医旅文娱型车站周边以公园、医院、车站为主,少有住宅办公用地。

图9 下层类别F 客流特征及分时进出站客流与全天的比值Figure 9 Lower-layer category F passenger flow characteristics and the ratio of time-sharing inbound and outbound passenger flows to the whole day

综上所述,所有车站的类型可以归纳为8 种,如表5 所示。

表5 车站类别编号及类别名称Table 5 Station category numbers and category names

本文采用双层K-means 算法。在上层分类中,分类指标是车站在工作日、周末的进出站总量,聚类结果分为3 大类。其中第1 类车站客流规模最大,且远大于其他车站。此类车站仅包含2 个,分别为卫东站和八一馆站,均处于城市CBD 核心区,综合性较强,包括通勤、休闲、娱乐、旅游等性质。由于全天客流都处于较高水平,是南昌市轨道交通最容易拥堵的车站,是实际客运组织需要重点关注的车站。第3 类车站客流量很小,仅包含5 个,均坐落于偏远郊区,周边用地尚待进一步开发。此类车站由于客流规模很小,通常情况下不易发生拥堵,客运组织安全性较好,待后续商业、办公或住宅项目开发后需投入适当关注。第2 类车站客流相对适中,包含的车站数量较多,分布较广,需要进一步细分。从分类结果来看,上层分类很好地给出了不同客运规模的车站类型,与实际匹配度较好,有助于运营管理人员把握车站的总体客运规模,对于其制定不同等级的客运组织方案和应急预案具有借鉴意义。

针对第2 类车站,进一步根据车站工作日、周末的进出站客流的时变特性进行下层聚类分析,聚类出6 个子类车站。根据分析发现,这6 类车站在工作日、周末其时变特性存在明显差异,而各子类的客流分布相似度较好。可见,该分类对于客流在不同日期类型捕捉的时变特征较好,有助于运营管理人员根据类型把握客流高峰,制定合理的客运组织方案和应急预案。

4 结论

本文以南昌市轨道交通的AFC 数据为基础,通过双层K-means 聚类算法对南昌轨道交通94 个车站进行分类,其中上层根据客运规模进行聚类,下层则根据不同日期的客流时变特性进行聚类。研究结论如下:

1) 上层聚类得到3 大类不同客运规模车站,其中第1 类为南昌地铁大客流车站,均处于城市CBD 核心区域,全天客流规模较大,高峰极易形成拥堵,是日常客运组织需要重点关注的车站。第3 类车站为小客流车站,均位于偏远郊区,周边用地开发水平低,不易引发客流拥堵。

2) 第2 类车站客流规模适中,包含车站多,根据工作日、周末的进出站客流时变特征进一步进行下层聚类,得到6 个子类车站。各子类车站在工作日、周末的进出站客流高峰分布特征差异明显,对于实际制定分类的客运组织方案和应急预案提供了较好的依据。

3) 通过双层K-means 聚类算法,把握客运规模和客流时变特征,并结合实际用地调查将站点分为中心区域型车站、近郊待开发车站、职住结合型车站、就业主导型车站、居住主导型车站、教育居住型车站、商业办公型车站、医旅文娱型车站等8 大类,各类车站分类特征明显,能够为实际客运组织提供借鉴,为其他城市的车站聚类提供参考。

猜你喜欢
工作日客流量下层
基于嵌入式系统的商场客流量统计算法
关于休闲的量的问题的考察
一类多个下层的双层规划问题
积雪
陕西横山罗圪台村元代壁画墓发掘简报
基于AFC数据的城轨站间客流量分布预测
有借有还
从客流量推算公交出行PA矩阵的方法
新建旅游项目客流量分析方法初探
对《资本论》中工作日问题的哲学思考