基于系统关联性的高速公路大中型货车到达量多尺度预测

2022-03-25 04:28林培群何伙华林旭坤
关键词:收费站关联性货车

林培群,何伙华,林旭坤

(1.华南理工大学 土木与交通学院,广东 广州 510641;2.广东省交通运输厅 综合规划处,广东 广州 510101)

城市交通拥堵和交通安全问题仍然是现代城市主要的交通问题,近年来交通流中大中型货车流量占比的增加是加剧以上交通问题的重要因素。首先,交通流中大中型货车流量占比值过高,将对道路通行能力产生一定的消极影响。《道路通行能力手册》[1]指出,在混合交通流中,由于大中型车辆惯性较大,变速不灵活,导致大中型车辆难以适应速度多变的交通流,在交通流中形成的大间隙很难由超车来填补,造成无法避免的道路空间的低效利用。其次,大中型货车存在视野盲区较大、转弯半径较大等问题,在繁忙的城市交通中,造成了一定的交通安全隐患。此外,超重超载货车也使得城市道路使用年限降低。随着现代技术的不断提高、交通管控水平的不断提升,交通行业管理人员对交通拥堵问题、交通安全问题的认识不断加强,大中型货车对城市交通的影响越来越受到交通管理人员的重视,准确、及时的大中型货车到达量预测,可以为交通管理人员实施实时交通管控提供数据依据。

交通量预测是智能交通系统重要的研究内容之一,历经多年的研究与发展,取得了大量的研究结果[2-4]。按照不同的研究思路可将交通量预测方法分为:基于周期性的预测方法、基于自回归的预测方法、基于系统关联的预测方法。基于周期性的预测方法将历史同期流量值作为未来预测值的参考信息,如K最近邻算法(KNN)[5-8];基于自回归的预测方法考虑交通流自身历史序列在未来短时间的延续,从而拟合自身历史序列与预测值的关系,如求和自回归移动平均模型(ARIMA)[9-11]、支持向量机(SVM)[12-14]等;基于系统关联的预测方法考虑目标交通量不仅与自身历史时序存在关联,还与周边一定路网范围内其他因素存在关联,基于系统关联的方法多利用机器学习模型求解,如LSTM[15-16]、GRU[17-18]等对时间维度特征学习、GNN[19-21]在空间维度进行信息的聚合等。

基于周期性的预测方法的准确性取决于交通量序列自身的周期性强弱,基于自回归的预测方法仅使用交通量序列自身历史数据,以上2种方法具有一定局限性,所能达到的精度有限。基于系统关联的预测方法充分考虑路网的系统关联性,采用神经网络方法提取有效的系统关联特征,往往可以获得非常理想的预测精度和鲁棒性。

考虑系统关联性的神经网络方法国内外学者进行了较多的研究,但由于神经网络方法的理论基础尚不完善,神经网络模型的可解释性往往较差,在高速公路交通流中,未能充分挖掘交通流序列的时空关联性,预测精度仍有提升空间。此外,在现有对道路交通量的研究中,研究对象基本为全样本交通流,大中型货车由于样本量较少,预测难度较大,相关研究较少。

高速公路交通量的时空关联性是高速公路网系统关联性的重要特征,本文提出的考虑系统关联性的高速公路大中型货车到达量多尺度预测方法,在充分挖掘高速公路收费站进、出口大中型货车流量时空关联性的基础上,构建空间权重、时间权重学习高速公路收费站进、出口大中型货车流量的时空关联性,提高本文神经网络模型的可解释性,并以京港澳高速北兴收费站一定范围内的区域为例进行大中型货车到达量预测的实例分析。

1 高速公路交通流数据分析

1.1 数据来源

本文数据来源于广东省高速公路收费系统产生的高速公路出口收费站流水表,由广东省交通运输厅提供,源数据暂未公开,本文模型所用训练数据已公开于https:∥github.com/SCUTWason/STNN.git。

源数据包含出入口路段编号、出入口站编号、出入口日期及时间、车型、车种、行驶里程等信息,部分字段的出口流水表数据结构如表 1所示。

入口路段编号、入口站编号确定具体入口收费站;出口路段编号、出口站编号确定具体出口收费站;入口、出口日期及时间为车辆进出高速公路的时间;车型分为1、2、3、4、5型车,是交通部统一标准的一至五类车;车种仅包含:0客车、1货车;行驶里程一般为入口收费站到出口收费站的最短距离;源数据实例(部分字段)如表 2所示。本文所研究大中型货车交通量为交通部统一标准的三至五类货车(车型标识为3~5,即核载为5 t及以上货车)交通量。

本文以京港澳高速北兴收费站25 km行程范围内的高速公路收费站所在区域作为目标区域进行研究,包含14个高速公路收费站,图 1所示虚线范围内区域为目标区域,圆点标记点为目标区域内包含的14个高速公路收费站,目标区域位于广州核心市区北部——广东省高速公路网密度最高的区域内部,区内有较多物流仓库,收费站出入流量在省内所有收费站中处于中等偏高水平[22]。

表1 数据集说明

表2 源数据实例

图1 实验目标区域及区域内高速公路收费站Fig. 1 Experimental target area and expressway stations in the area

1.2 高速公路入口收费站的选择——流量来源分布

高速公路收费站在某段时间内出口流量来源于此前一定时段内从一定空间范围内的入口收费站驶入高速路网的车辆[22]。在出口收费站流量来源分布中,入口收费站流量占出口收费站流量比例越高,说明两者之间关联性越大。

为了方便分析,本文对高速公路收费站进行编号:

1)出口收费站:编号仅为区分收费站,无编号规律。

2)入口收费站:按高速公路出口收费站大中型货车流量来源比例对相应的入口收费站进行逆序排序并编号。

首先,分析全省范围内高速公路出口收费站大中型货车流量来源分布,对高速公路收费站进行抽样分析。随机抽取120个出口收费站,对所有出口收费站作大中型货车流量来源累计比例散点图(如图 2所示),前50个入口收费站流量累计比例基本达到70%以上,前100个入口收费站流量累计比例基本达到80%以上,前150个入口收费站流量累计比例基本达到90%以上,而广东有超过1 000个高速公路收费站,说明高速公路出口收费站大中型货车流量主要来源于其中少部分入口收费站。

进一步地,分析到达图 1所示目标区域的大中型货车流量来源分布。如图 3所示,可以发现目标区域的高速公路出口收费站大中型货车流量来源较为集中。在来源入口收费站中,流量占比最高达8.1%,随后急剧降低,到第50个入口收费站流量仅占比0.4%,此后流量占比下降趋于缓和。目标区域大中型货车流量来源累计比例增长幅度先快后慢,且流量来源分布最高的前50个入口收费站总流量占目标区域出口收费站流量的72.3%,因此可选择到达目标区域的大中型货车流量最高的前50个入口收费站大中型货车流量作为模型的输入,不仅保证了模型输入与输出的关联性,且控制了输入的数据量,避免输入数据过多而产生的数据噪声影响。

图2 广东省部分高速公路出口收费站大中型货车流量来源累计比例Fig. 2 Accumulative proportion of exit volume sources of large and medium-sized trucks at some expressway stations in Guangdong Province

图3 目标区域出口收费站大中型货车流量来源累计比例Fig. 3 Accumulative proportion of exit volume sources of large and medium-sized trucks in the target area

图2、图3中,“入口收费站流量比例”表示“从入口收费站前往出口收费站(或目标区域)的大中型货车流量占出口收费站(或目标区域)大中型货车总流量的比例”,x轴为入口收费站编号,y轴中P(x)为出口收费站流量来源比例、∑P(x)为出口收费站流量来源累计比例。

1.3 系统关联性分析——空间关联

对图 1所示目标区域大中型货车流量来源比例最高的前50个入口收费站大中型货车流量进行统计,入口流量中以目标区域收费站为出口的流量平均占比如图 4所示,x轴为入口收费站编号。大部分入口收费站大中型货车流量前往目标区域的比例不超15%,50个入口收费站中仅有4个收费站比例超30%,表明多数入口收费站大中型货车流量中仅有较小比例流量对目标区域高速公路大中型货车到达量产生影响。

道路交通流变化趋势具有周期性,随机抽取某入口收费站进行分析,该入口收费站大中型货车前往目标区域的流量平均占比为22.8%。选取该站一周内各小时大中型货车前往目标区域流量占比进行分析,如图5所示,x轴为2019年8月7日0时—2019年8月13日23时各小时。由图可以看出,入口收费站前往目标区域的大中型货车流量占比呈现周期性特征。

图4 入口收费站大中型货车流量前往目标区域比例Fig. 4 Proportion of entrance volume of large and medium-sized trucks to the target area

图5 某入口收费站一周内各小时大中型货车前往目标区域流量占比Fig. 5 Proportion of an entrance station’s volume of large and medium-sized trucks to the target area in each hour in a week

1.4 系统关联性分析——时间关联

不同收费站到目标区域收费站所需时间与路程、实时道路交通流状态和外界环境因素有关。如果仅考虑路程、不考虑道路交通流状态和外界环境因素,从某入口收费站(标记为Si)到达某出口收费站(标记为So)的行程时间满足独立同分布条件,根据伯努利大数定律,车辆在tj时间段内到达的频率近似于其发生的概率,通过统计得到某入口收费站Si到达某出口收费站So的行程时间频率分布如图6所示,可知固定2个收费站出入口之间行程时间分布满足一定规律;如果同时考虑路程、道路交通流状态,若忽略外界环境因素且道路交通无突发事件(如车祸、节假日等),道路交通流基本呈周期性的、稳定的渐进态势不断演变,那么车辆从入口收费站Si到出口收费站So的行程时间仍可视为满足一定分布规律,该分布规律随时间变化呈周期性变化。

图6为某一入口收费站大中型货车到目标区域某一出口站行程时间分布曲线及分布直方图,并拟合F分布以观察行程时间分布与F分布的关系。从图中可见,固定2个收费站出入口之间行程时间分布满足一定规律,该分布一定程度上符合F分布。

2 模型构建

图6 某一入口收费站大中型货车到目标区域某一出口站行程时间分布Fig. 6 Travel time distribution of large and medium-sized trucks from an entrance station to an exit station in the target area

由于目标区域出口收费站流量与各入口收费站流量的时空关联性随时间的推移而发生变化,为学习此变化,将神经网络设置为时间维度的循环网络。

2.1 空间关联性学习

输入与输出的空间关联性体现在各入口收费站仅有一定比例流量前往目标区域,因此构建模型学习该比例,各入口收费站流量序列乘上相应的比例权重后,才进行下一步的时间关联性学习。

各入口收费站流量空间权重构建步骤如下:

步骤1 对于每一时间步t,将输入X、所在小时φt、所在星期天数ψt通过广播机制进行融合后的融合向量分别经线性层[23]、Tanh层[24]、线性层进行非线性变换,得到空间调整向量S。

步骤2 利用Tanh激活函数将向量S映射到[-1, 1]区间,并除以超参数0<σ<1,将值域调整至[-σ,σ]区间。

步骤3 各入口收费站前往目标区域流量的历史平均空间权重Sh,加上缩小值域范围的空间调整向量S′,所得向量经ReLU[25]层得到各入口收费站流量空间权重向量S″。

S1=Ws1[X;φt;ψt]+bs1,

(1)

S2=Tanh(S1),

(2)

S=Ws2S2+bs2,

(3)

S′=σTanh(S),

(4)

S″=ReLU (Sh+S′)。

(5)

式中:Ws1、Ws2是线性层的权重矩阵,bs1、bs2是线性层的偏置项,以上为需要学习的参数;Sh是各入口收费站前往目标区域流量的历史平均空间权重,σ是控制空间权重调整范围的超参数。

此后,将t时间步的输入xt与空间权重S″融合后的x′t进行时间关联性的学习,

x′t=xt⊙S″,

(6)

式中⊙表示哈达玛积。

2.2 时间关联性学习

各入口收费站流量时间权重构建步骤如下:

步骤1 对于每一时间步t,将输入X、所在小时φt、所在星期天数ψt通过广播机制进行融合后的融合向量分别经线性层、Tanh层、线性层进行非线性变换,得到的时间权重矩阵E;

步骤2 时间权重矩阵E经Softmax[26]归一化处理,得到归一化时间权重矩阵E′。

E1=We1[X;φt;ψt]+be1,

(7)

E2=Tanh(E1),

(8)

E=We2E2+be2,

(9)

(10)

式中:We1、We2是线性层的权重矩阵,be1、be2是线性层的偏置项,以上为需要学习的参数;Eij、E′ij分别表示时间权重矩阵E、归一化时间权重矩阵E′中的元素。

此后,将t时间步的输入x′t与时间权重矩阵E′融合,得到t时间步输出向量Yt,

Yt=x′tE′。

(11)

2.3 偏置项学习

由于目标区域流量不仅与输入的入口收费站流量有关,还与其他入口收费站流量有关,且交通流具有随机性、波动性特征,因此在模型中设置偏置项学习,对t时间步输出进行修正。

考虑交通流的时变特征和总体趋势的延续性,在每一时间步中,将输入X、所在小时φt、所在星期天数ψt、目标区域收费站自身历史出口流量向量y,通过广播机制进行融合后再进行线性变换,得到的向量作为偏置项。公式为

b=W′[X;φt;ψt;y]+b′,

(12)

式中W′、b′为需要学习的参数。

t时间步的修正输出为

Y′t=Yt+b。

(13)

2.4 预测结果

t时间步的输出向量Y′t为t时间步后M个时间段内的预测结果,因此各时间步预测结果需要变换为相同时间段内的预测结果:

(14)

(15)

3 实例验证

3.1 数据说明与实验设置

3.1.1 数据说明

以京港澳高速北兴收费站25 km行程范围内收费站所在区域作为目标区域,包含14个高速公路收费站,如图1所示,以目标区域出口收费站大中型货车总流量作为输出,以到达目标区域的大中型货车流量最高的前50个入口收费站大中型货车流量作为输入。

实验采用2019年5月—2019年9月的高速公路收费站收费流水数据,其中2019年5月—2019年8月数据作为训练集,2019年9月数据作为测试集。实验采用过去120 min作为历史时段,未来60 min作为预测时段,输入数据时间尺度取5 min,预测时间尺度分别采用15、30、60 min进行对比。

实验采用Min-Max归一化公式[27]分别将输入、输出数据映射到[0,1]区间,归一化公式为

(16)

式中:z为归一化后数据,x为原始数据,xmin、xmax分别为x的最小值、最大值。

3.1.2 评价指标

为了评价模型的预测性能,本文采用均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)[28]作为评价指标。

(17)

(18)

(19)

3.1.3 实验设置

实验中模型批处理大小为256,学习率采用梯级下降的动态学习率,初始值为0.001,每迭代1 000次衰减5%[22]:

(20)

模型损失函数采用均方误差(MSE)[28],计算公式为

(21)

此外,为减小模型的过拟合,实验中添加值为0.000 1的权重衰减(weight decay)。

3.2 实验结果

3.2.1 实验结果分析

本文所提出模型在15、30、60 min预测时间尺度下预测值与实际值对比结果如图7所示。在3个时间尺度下,模型预测结果均能较好贴合实际值,且贴合效果随时间尺度增大而更优。

3.2.2 模型对比分析

实验采用GRU、LSTM、STGCN[29]、AGCRN[30]模型与本文提出的模型进行比较,以验证模型性能的优劣。

1)GRU:门控循环单元,隐藏层单元数为128。

2)LSTM:长短期记忆网络,隐藏层单元数为128。

3)STGCN:时空图卷积神经网络,取所有入口收费站及出口收费站作为节点构建图,邻接矩阵采用依距离衰减的Dijkstra矩阵,图卷积操作采用1阶切比雪夫多项式进行求解。

4)AGCRN:自适应图卷积递归网络,一种基于图卷积网络设计节点自适应参数学习模块和自适应图生成模块、并结合递归网络自动捕获交通流序列时空关联性的图神经网络,取所有入口收费站及出口收费站作为节点构建图。

为保证公平,所有模型都在相同环境下运行,基于Python 3.7开发,调用Pytorch 1.6.0深度学习函数库,并使用GPU加速。实验结果如表 3所示。

从表3中可以看出,在15、30、60 min预测时间尺度下,本文提出的模型均达到了较好的预测结果,平均百分比误差(MAPE)分别降到9.08%、7.52%、5.67%,MAPE随时间尺度的增大而降低。这是因为随着时间尺度的增大,大中型货车到达量的随机性、波动性越小,数据噪声越小,预测精度越高。

对比各个模型实验结果,GRU和LSTM能够学习交通流序列时间维度特征,但未能捕捉空间维度关系,在5个实验模型中效果最差;STGCN采用图卷积操作提取空间维度特征、采用普通卷积操作提取时间维度特征,预测结果优于GRU和LSTM;AGCRN基于图卷积网络设计节点自适应参数学习模块和自适应图生成模块,并结合递归网络自动捕获交通流序列时空关联性,预测结果更优于STGCN。相比于其他模型,本文提出的模型实验结果均达到了最好:当时间尺度为15 min时,本文提出的模型RMSE、MAE、MAPE精度分别比AGCRN提高6.21%、7.07%、9.33%;当时间尺度为30 min时,RMSE、MAE、MAPE精度分别比AGCRN提高6.68%、7.57%、8.48%;当时间尺度为60 min时,RMSE、MAE、MAPE精度分别比AGCRN提高12.14%、14.04%、16.13%。

图7 目标区域高速公路大中型货车到达量预测值与实际值对比Fig. 7 Comparison of predicted and true values of large and medium-sized trucks arriving on expressways in target areas

表3 不同模型的均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)值

4 结语

本文通过分析目标区域高速公路大中型货车到达量与高速公路入口收费站大中型货车流量的时空关联性,提出考虑系统关联性的高速公路大中型货车到达量多尺度预测模型,并设置实验对模型进行验证,本文主要研究结论:

1)目标区域大中型货车主要来源于其中较少一部分入口收费站,即这较少部分入口收费站大中型货车流量对目标区域大中型货车流量产生较大影响,因此可以选择到达目标区域的大中型货车流量最高的前n个(本文实例n=50)入口收费站流量作为预测模型的输入。

2)多数入口收费站大中型货车流量中仅有较小比例流量对目标区域高速公路大中型货车到达量产生影响,该比例随时间变化呈现周期性特征。

3)某入口收费站大中型货车到达目标区域出口收费站的行程时间满足一定分布规律,该分布规律随时间变化呈周期性变化。

4)根据高速公路收费站出入口大中型货车流量的时空关联性,构建考虑时空关联性的神经网络预测模型对目标区域大中型货车到达量进行预测,实验结果表明,在15、30、60 min的时间尺度上,本文模型均达到了较高的预测精度,优于GRU、LSTM等基准模型和STGCN、AGRCN等前沿模型,证明考虑高速公路收费站出入口大中型货车流量的时空关联性、提升神经网络模型的可解释性,模型的预测精度得到了提高。

本文虽然在高速公路大中型货车到达量多尺度预测方面取得了一定成果,预测效果相比对比模型有明显提升,但本文选择到达目标区域的大中型货车流量最高的前50个(n=50)入口收费站流量作为预测模型的输入,并未深入探究n的取值(或前n个入口收费站流量累计占目标区域高速公路出口收费站大中型货车流量比例)对预测结果的影响,后续可对该问题进行研究,以获得最佳n值(或入口收费站流量累计占目标区域高速公路出口收费站大中型货车流量比例),提高预测精度和模型的实用价值。

猜你喜欢
收费站关联性货车
江苏20个高速收费站实施“准自由流”改造
浙江首个“云收费站”投用
基于Spark的高速收费站大数据系统的设计与实现
智能OBU在货车ETC上的应用
一种收费站排队模型的模拟实现
货车也便捷之ETC新时代!——看高速公路货车ETC如何实现
四物汤有效成分的关联性分析
推货车里的爱
如何准确认定排污行为和环境损害之间的关联性
治超新规实施在即 深究货车非法改装乱象