基于时空图神经网络的高速铁路车站短期客流预测方法

2022-10-14 02:48何必胜朱永俊陈路锋闻克宇
铁道学报 2022年9期
关键词:服务网络客流卷积

何必胜,朱永俊,陈路锋,闻克宇

(1.西南交通大学 交通运输与物流学院,四川 成都 611756;2.综合运输四川省重点实验室,四川 成都 611756;3.综合交通运输智能化国家地方联合工程实验室,四川 成都 611756;4.电子科技大学 自动化工程学院,四川 成都 611756;5.中国铁路经济规划研究院有限公司, 北京 100038;6.西南交通大学 经济管理学院,四川 成都 611756)

随着我国国民经济的快速发展,铁路旅客对出行服务水平、运输产品的精细化和多样化要求越来越高,为有效适应客流变化,满足“一日一图”以及灵活编组和动态客票分配等客运工作需求,需要获取准确的铁路短期客流数据。但在高速铁路(以下简称“高铁”)网络化、公交化开行模式下,旅客出行行为变化极大,从原来提前数天购票指定出行计划变为更加灵活随机的方式。报告显示旅客出行当日购票比例达到50%[1],无法直接根据客票系统数据统计未来客流的变化趋势。铁路短期客流预测通过预测未来数日内每天客流需求量,成为运力资源与运输需求高度匹配的关键。高铁车站短期客流预测是提升服务水平,提供精细化客运服务[2]的关键,是铁路运输部门亟待解决的问题。

铁路车站短期客流预测[3]是典型的时间序列预测问题,已经形成丰富的预测方法,如历史平均(Historical Average, HA)模型、自回归(Autoregressive, AR)模型和差分整合移动平均自回归(Autoregressive Integrated Moving Average, ARIMA)[4]模型等参数预测方法和支持向量回归(Support Vector Regression, SVR)模型[5]、随机森林(Random Forest, RF)[6]等非参数方法。此外,以上模型也能与迁移学习方法[7-8]结合,应用于铁路客流预测中。随着深度学习技术在各领域应用中性能不断提升,其在交通预测领域中也取得了飞速发展,目前广泛应用的基于时间序列的深度学习包括以下3类:①基于循环神经网络(Recurrent Neural Network, RNN)的时序预测模型,如长短期记忆人工神经网络(LSTM)[9-10]和门控循环神经网络(Gated Recurrent Unit, GRU)[11];②基于时间序列卷积的预测模型(Temporal Convolutional Network, TCN);③结合注意力机制的预测模型,如Qin等[12]提出的基于注意力的双阶段递归神经网络(Dual-stage Attention-based Recurrent Neural Network, DA-RNN)。

以上3类方法都以挖掘时间序列特征为主,忽略交通预测问题中的空间关联性。图卷积网络(Graph Convolutional Network, GCN)作为一种新兴的模型,可以同时学习节点特征信息与图结构信息,能很好的把握空间拓扑结构,预测复杂路网。Zhao等[13]提出的TGCN模型、Yu等[14]提出的STGCN模型和Guo等[15]提出的ASTGCN模型,均是用GCN捕捉空间拓扑结构,用RNN或卷积实现时间序列的预测。目前GCN在交通领域一般应用于道路网络。铁路运输与道路运输不同,铁路是在物理网路的基础上,通过提供不同类型列车服务实现旅客出行。铁路开行方案的特性会很大程度上影响旅客出行。同时,铁路路网中不同车站之间的相互关联性也会影响客流变化。因此,当GCN运用到铁路运输领域时,需要在考虑物理网络节点之间的连接结构基础上,引用更多的节点间关系矩阵,充分体现空间和时间的关联性。

本文以铁路服务为抓手,引入关系图卷积网络(Relational Graph Convolutional Network, R-GCN)[16]以更好的抓取节点之间空间关联性,并运用注意力机制,挖掘时间关联性,综合以上技术提出STGNN模型对铁路车站短期客流进行预测。采用京沪高铁实际数据作为测试对象,通过与相关方法对比,证明模型的预测精度存在提升,预测方法有效。

1 基于STGNN的高铁车站短期客流预测方法

首先分析铁路路网中的空间关系,在此基础上,定义基于STGNN的高铁车站短期客流预测问题,从网络结构、空间卷积和时间注意力3方面,详细介绍STGNN。

1.1 铁路路网空间关系分析

铁路运输与道路交通在实际运输组织中存在区别。道路交通具备流体特征,可描述为连续网络,相邻道路之间的交通流量相关度高,可采用物理道路的邻接矩阵表示不同道路之间的联系。而铁路旅客出行受到列车开行方案(也就是铁路旅客服务产品)的起讫点、停站方案、编组和开行频率等因素的影响。同时,道路交通的流量分散到道路系统沿线,而铁路的客流都汇聚于车站,车站之间的客流存在着相关性和相似性。单纯的物理邻接矩阵网络无法描述以上特性,本文借鉴图神经网络中的R-GCN方法,充分挖掘铁路服务网络[17]和车站相关性等特征,分析铁路路网中的3种关系:物理网络关系、服务网络关系和车站关系。铁路物理网络与服务网络对比见图1。

图1 铁路物理网络与服务网络对比

(1)铁路物理网络关系

G为铁路物理网络,G=(S,E);S为车站集合,i、j为车站,i、j∈S={0,1,2,…,∣S∣};E为区间集合,e为区间,e=(i,j)∈E。网络连接关系定义为

( 1 )

式中:ei,j为物理网络的边。

据此构建图1(a)邻接矩阵为

( 2 )

(2)铁路服务网络关系

对比图1(a)物理网络和图1(b)服务网络,通过列车停站方案,部分车站在物理上并不直接连接,但在服务网络上直接连接。由图1(b)可知,车站A与E在物理网络中,距离最远,相关性最差。而在服务网络中,由于存在直达服务,车站A与E变为邻接。铁路车站客流量的相关性并不完全取决于空间距离,还取决于列车开行方案,物理距离较远的两站之间依然可能存在较强的关联性。因此,在物理网络基础上,综合考虑铁路历史列车开行方案,将开行线路分解为服务弧,为描述物理网络上所缺失的空间相关性,基于服务弧构建铁路服务网络关系矩阵Rs。服务弧可定义为

( 3 )

式中:A为服务弧集;ai,j为服务弧,a=(i,j)∈A。

根据式(3),图1(b)中服务网络对应矩阵为

( 4 )

(3)车站关系

( 5 )

( 6 )

1.2 基于STGNN的高铁车站短期客流预测定义

预测时间粒度为一天,预测模型Y为

Y=f(Rp,Rs,Rst;X)

( 7 )

路网客流量为

X=(X1,X2,…,Xt,…,XT)

( 8 )

( 9 )

(10)

(11)

Y= (YT+1,YT+2,…,YT+τ)

(12)

式中:τ为预测步长(未来天数);Yt′为某一步t′ ∈ (T,T+τ]的到发客流预测结果。Y为步长τ以内的预测时间序列结果矩阵。

通过式(7)中映射关系f将所有车站历史时间序列X和铁路空间关系网络结合起来,实现对预测时间序列Y的预测工作。

1.3 STGNN模型

本文在DA-RNN基础上,提出STGNN模型,结构框架见图2。构造空间卷积模块(Spatial Convolution Module)以更好的抓取节点之间空间关联性,并在空间卷积层引入R-GCN实现多图融合。在时间注意力模块(Temporal Attention Module)中使用多层LSTM,以此进行客流短周期预测,将历史时间序列X通过图中的结构,也就是映射关系转化为预测时间序列Y。

(1)空间卷积模块

本文所提出的空间卷积操作参考R-GCN,综合考虑车站之间不同类型的连接关系,在物理网络基础上,增加服务网络和车站关系矩阵,通过这3种类型的图卷积,把握空间特征。空间卷积层的结构见图3。

图2 STGNN结构框架

图3 空间卷积层及其卷积计算过程

当历史数据X=(X1,X2,…,XT)输入网络后。将某一时刻的客流量Xt分配到相应的∣S∣个车站节点上,分别进行3个网络关系的图卷积过程,再对结果进行融合,得到ht。

图3描述的空间卷积过程为

(13)

(14)

(15)

(16)

(2)时间注意力模块

因为多步预测会放大误差导致结果恶化,所以通过编码器得到空间卷积输出的h=(h1,h2,…,hT)后,需要利用一个多层LSTM进行时间注意力的处理。

将空间卷积输出值和隐藏状态拼接,经过激活函数tanh计算出初始重要度数值,即

(17)

将初始重要度数值经过Softmax处理,得到时间重要度,即

(18)

将得到的重要度与ht相乘,得到h内所有时间段的重要度,用上下文向量表示,即

(19)

得到上下文向量ct′后,就可以将其与上一层LSTM的输出结合,得到具有时间重要度的新输入,即

(20)

得到具有时间重要度的输入后,将其输入到LSTM单元中,LSTM的结构见图4,逐层得到多步预测结果,LSTM的一次更新过程为

(21)

(22)

(23)

dt′=o′t′⊙tanh(s′t′)

(25)

式中:Wf′ 、Wi′ 、Wo′、Ws′ 为需要学习的权重;bf′ 、bi′ 、bo′、bs′为需要学习的偏置值;σ为激活函数。

LSTM的输出值dt′经过全连接层后,得到了此时刻的预测值Yt′为

Yt′=Linear(dt′)

(26)

经过多层LSTM的处理,最终得到每一步的预测值,即

Y={Yt′|t′∈(T,T+τ]}

(27)

图4 时间注意力模块LSTM结构

2 实验验证与评估

2.1 数据准备

选取京沪高铁网络2016年1月1日到2019年3月25日的客流数据,首先获取站间客流数据,构建车站关系,经处理后的共计1 180条数据,每条数据包含当天日期以及24个车站的日到发客流量。并通过查找此时间段内京沪高铁的列车开行方案,构建服务网络关系。截取原始数据的前70%为训练集,后30%为测试集,可以用两年以上的数据预测余下数据,有效抓取铁路的客流量以年为单位呈现周期性波动的情况。由于客流量波动较大,且各站的客流量大小不均衡,所以在实验中的数据均需经过归一化处理,使其在(-1,1)范围内,以消除数据的不均衡性,加快收敛速度,缩短训练时间。

以Python语言和Pytorch为开发平台,使用Numpy、Pandas和Sklearn等库。综合考虑各车站客流序列的自相关系数和模型训练时间,取时间窗口T=10,预测步长τ=1、5、10 d分析方案在多步预测下的表现。

2.2 参照模型(baselines)

为了直观展现STGNN模型的实际效果,需选取常见的预测模型作为对比。

(1)RF。对最重要的两个参数:决策树个数和最大深度进行网格搜索,确定最佳参数。

(2)SVR。对于算法中的内核类型(Kernel)和不敏感区间(Epsilon)进行网格搜索,确定最佳参数。

(3)LSTM。隐藏神经元个数取50,损失函数选择Mse,优化器选择Adam,Epochs值为100。

(4)GRU。各项参数同LSTM的设置。

(5)DA-RNN。同类参数同STGNN的设置。

(6)STGNN-p。与STGNN采用相同的结构和参数,区别在于其在空间卷积模块中仅考虑物理网络。

2.3 评价指标

评价指标能直观展示模型预测结果的好坏,单一的指标可能无法对模型进行全面评估,因此选择两种不同的指标,分别从数值偏移量和预测准确程度两个层面评估预测结果。

(1)均方根误差RMSE:预测值与真实值偏差的平方与检验样本数k比值的平方根,能很好的衡量观测值同真实值之间的偏差,越小则模型越优。

(2)平均绝对百分比误差MAPE:能很好的衡量预测值与真实值的偏离程度与模型的精度,一般不超过15%,如果超过则认为预测效果不佳。

2.4 实验结果与评价

首先运用参数对比法,分析不同参数下的模型表现。通过实验确定,在时间注意力模块中,LSTM的隐藏层数取128。模型的优化器为Adam,损失函数为mse,激活函数为tanh。为了提高训练效率,batchsize取值为128,学习率为0.001,Epochs取100。为了证明在该参数下模型训练结果较好,针对单步预测过程,保持其他参数不变,分别修改学习率为0.01,优化器为RMSProp、激活函数为Sigmoid,对模型进行训练,以上训练过程中损失函数的变化见图5。由图5可知,所选参数训练出的模型在训练集和测试集上都取得较好收敛,测试集损失函数大概在前50个Epochs处于欠拟合状态(黄色曲线),大概在后50个Epochs处于收敛状态(绿色曲线)。对比不同参数下损失函数的变化情况,证明所选参数是较优的,损失函数下降平稳,而且在Epochs达到50左右能收敛,没有出现测试集损失函数上升的过拟合现象。

图5 STGNN模型一步预测过程不同参数的损失函数变化对比

下面进一步对比模型分析结果,京沪高铁沿线全部24个车站的预测结果见表1。对比可知,随机森林和SVR这类传统的机器学习方法结果优于LSTM和GRU这类基于RNN的序列预测的方法,但是,在加入时间注意力后的DA-RNN将预测精度明显提升,特别是在五步和十步的预测中,都明显好于以上方法,说明时间关联度的作用。

表1 全网车站客流量预测结果

而图神经网络的方法进一步加入了空间关联度,在单步预测中,STGNN依然取得了较好的效果,较DA-RNN的MAPE减少1.10%,在五步预测和十步预测中,相较DA-RNN的MAPE分别下降了1.04%和0.73%。在单步和五步预测中,STGNN的预测结果均优于STGNN-p,在十步预测中,STGNN-p的预测结果最优。

京沪24个车站在一、五和十步预测下的MAPE及每天平均到发量见图6。

图6 京沪车站一、五、十步长预测结果对比

由图6可知,在一步预测时,北京南、济南西、南京南和上海虹桥等高等级的车站的MAPE都达到8%以下,表明其预测精度很高。天津南、廊坊、丹阳北等日均人数在50 000以下的车站,在五步和十步预测中,预测精度均出现下降,但是仍呈现出车站等级引起的预测结果差异。高等级车站的客流需求更多,工作内容更复杂,还需要与其他运输方式协调,因此,该类型车站的精度较高意义更高。

上海虹桥站客流预测结果见表2。

表2 上海虹桥客流量预测结果

对比表1和表2的数据,各种方法都有明显提升,但是方法的对比表现上与整体路网的表现是一致的。而且,STGNN在单步、五步和十步的预测中,预测精度都是最高的,单步预测的MAPE更是达到6.38%,十步的预测也控制在10.0%。进一步,上海虹桥客运站在测试集上,LSTM、DA-RNN和STGNN的一步预测对比效果见图7,从变化趋势上,更好的体现出STGNN的优势性。

图7 上海虹桥站客流预测结果

3 结论

本文引入R-GCN与时间注意力机制,建立STGNN预测模型。在空间卷积模块中利用关系图卷积提取物理网络关系、服务网络关系和车站关系等空间特征,再利用时间注意力模块中的多层LSTM获取时间依赖。对京沪高铁沿途车站的到发客流进行预测后,与其他模型对比的结果表明,在路网层面,与LSTM结合能大大改善预测效果,空间卷积模块的加入更是明显提升预测精度,显示本文关系图卷积与时间注意力机制的作用。单站的预测结果分析表明,本文方法对于客流更高的车站的预测效果更高,特别是在虹桥取得单步MAPE达到6.48%,多步也都在10%以下的优异表现。下一步研究可以考虑铁路客流以周为单元的时间特性,以及路网空间动态性特征等,以进一步提升预测效果,更好服务精细化的高速铁路运输组织工作。

猜你喜欢
服务网络客流卷积
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
城市轨道交通节假日期间大客流行车组织思考与实践
基于系统动力学的城市轨道交通车站客流控制仿真与优化
从滤波器理解卷积
浅谈新形势下县级图书馆如何做好阅读推广工作
构建江门地区公共图书馆服务网络模式的思考
地铁换乘客流预警及应对
服务网络协作模式下中小物流企业间利益分配研究