基于轨迹数据的短时交通流预测技术研究

2021-12-30 09:01王红霞宇文晓硕
沈阳理工大学学报 2021年6期
关键词:交通流路网路段

王红霞,宇文晓硕

(沈阳理工大学 信息科学与工程学院,沈阳 110159)

交通流预测是智能交通网络管理系统的重要组成部分[1],其研究方法经历了多个不同的发展阶段。最初是基于线性理论的方法,如典型的差分整合移动平均自回归(Autoregressive Integrated Moving Average,ARIMA)模型,将当前的交通流数据与历史数据建立关系,从而达到预测的目的,但其无法捕获到交通流的突变。还有学者提出了以机器学习为理论依据的预测方法,如K最近邻算法、贝叶斯推理方法和支持向量机(Support Vector Machine,SVM)算法等,这些模型虽然可以拟合较为复杂的交通流特征,但其对非线性特征(如交通流的周期性)的捕获能力有限。近年来,深度神经网络模型成为交通流预测的主要研究方法,研究人员使用循环神经网络(Recurrent Neural Networks,RNNs)来对交通流数据的时间依赖性特征进行提取。文献[2]首次将长短期记忆(Long-Short Term Memory,LSTM)网络用于交通预测,有效解决了传统RNNs在处理时间序列长期依赖中的梯度消失和梯度爆炸的问题,提高了交通速度预测的准确度,但该模型只使用了一层LSTM网络,仍有很大的优化空间。文献[3]提出了基于卷积神经网络(Convolutional Neural Networks,CNNs)的交通预测方法,利用二维时空矩阵将时空交通状态转化为描述交通流时空关系的图像,结果表明,在可接受的执行时间内,该方法的平均精度比其他算法提高了42.91%。然而CNNs对于处理交通路网这样的非欧几里得空间拓扑结构的数据存在局限性。研究人员又使用新兴的图卷积神经网络(Graph Convolutional Neural Networks,GCNs)来处理非欧几里得空间数据,其能够更好地提取到交通流数据的空间特征,如文献[4]提出的时间图卷积网络(Temporal Graph Convolutional Network,T-GCN)模型。然而,交通流预测不仅依赖于历史交通流信息和路网的空间关系,还会受到天气条件等多种外部因素的影响。现有研究方法大多是以交通流数据的时空特征为主要研究对象,只有少部分考虑到了外部因素,而这部分研究方法也大多是将外部因素通过全连接层直接融入到预测模型中,没有很好地捕获其特征。

综上所述,本文提出一种多因素融合的图卷积交通流预测模型(Multi Factor Integration-GCN,MFI-GCN),该模型先将交通流的时间特征和外部因素的天气属性融合,再与交通流的空间特征一起输入到模型中,不仅考虑到交通流数据的时空特征,还全面地捕获到天气因素对于交通流的影响,从而提高预测模型的准确率。

1 交通流定义

在城市交通路网中,一定时间内通过某路段浮动车的数量,称为该路段的交通流,表达式为

f=N/T

(1)

式中:f为交通流;N为采样时间间隔内路段通过的浮动车数量;T为采样时间长度。式(1)反映了路段上的实际交通路况,当T在5~15min时,称f为短时交通流。

交通流是一种典型的时空数据[5],具有以下显著特征。

(1)空间相关性:城市路网的拓扑结构在空间上有密切关系,所以任意一条路段的交通流都会影响其相邻路段的交通流。

(2)时间相关性:交通流会随时间变化表现出邻近性和周期性。邻近性指未来时间间隔内的交通流会受到历史时间交通流的影响;周期性指在一定时间间隔内,交通流具有相似的变化规律。

(3)不确定性:交通流会受到自然因素和人为因素的影响,可能出现大规模拥堵或稀疏车流。其中,天气对交通流有较大的影响,如雨雪天气会影响居民的出行规律,从而导致交通流的变化。

2 基础模型

2.1 GCNs模型

GCNs是一种神经网络结构,可以有效处理非欧几里得空间数据,在图像分类、文档分类、无监督学习等领域取得了很大进展[6]。GCNs的卷积方式分为基于谱域和基于空间域两种,本文采用前者。基于谱域的图卷积可以定义为信号s与滤波器gθ(L)的乘积,在傅里叶域中表达为

gθ(L)·s=Ugθ(UTs)

(2)

GCNs在给定邻接矩阵A和特征矩阵X的情况下,可以通过计算图中各节点的一阶或多阶邻域来进行频谱卷积运算,从而捕获图结构数据的空间特征。此外,可以将分层传播规则应用于多个网络的叠加,则多层GCNs模型可表达为

(3)

一般双层GCNs模型可表达为

(4)

GCNs可通过确定中心路段与周边路段的拓扑关系,将整个路网的拓扑结构和各路段属性进行编码,在此基础上来捕获空间的依赖性,模型架构图如图1所示。本文通过使用GCNs模型来提取交通流数据的空间特征。

图1 GCNs模型架构图

2.2 GRUs模型

对交通流的预测,时间依赖性是其面临的另一个关键性问题。RNNs是处理顺序结构数据的神经网络模型,其变体模型门控循环单元(Gated Recurrent Units,GRUs)不仅可以解决梯度消失和爆炸的缺点,而且还具有结构简单、参数较少、训练能力快的优点,是当前十分流行的RNNs模型[7-8],其模型架构如图2所示。

图2 GRUs模型架构图

GRUs模型的计算过程可表达为

ut=σ(Wu·[Xt,ht-1]+bu)

(5)

rt=σ(Wr·[Xt,ht-1]+br)

(6)

ct=tanh(Wc·[Xt,(rt·ht-1)]+bc)

(7)

ht=ut·ht-1+(1-ut)·ct

(8)

式中:ht-1为t-1时刻的隐藏状态;xt为当前时刻t的交通流;rt为复位门,用于将之前的交通状态ht-1与当前时刻t的交通流信息相结合,从而得到隐藏状态ct,如果rt输出0,则忽略前一时刻的交通流信息,如果rt输出1,则将前一时刻的交通流信息完全带入下一时刻;ut为更新门,用来确定要丢弃多少前一时刻的交通状态ht-1,以及要合并隐藏状态ct的哪些交通流信息,进而得到最终的隐藏交通状态ht,并将ht作为输出;Wu、Wr、Wc分别为权值矩阵;bu、br、bc分别为偏置矩阵;σ(·)和tanh(·)分别为非线性激活函数。

GRUs以前一个时刻的隐藏状态和当前时刻的交通信息作为输入,确定当前时刻的交通状态;在捕捉当前交通信息时,由于门控机制,保留了历史交通信息的变化趋势,因此,该模型能够从交通流数据中捕捉到动态的时间变化特征。所以,本文采用GRUs模型来提取交通流数据的时间特征。

3 MFI-GCN预测模型

为有效地解决交通拥堵问题,本文同时考虑交通流数据的时空特征和外部天气因素,提出MFI-GCN模型,其框架如图3所示。

图3主要分为三个部分,分别是数据预处理、时空建模和预测。数据预处理部分一方面基于原始数据集计算并得到路网拓扑结构G、交通流特征矩阵X和天气属性矩阵K;另一方面将交通流特征矩阵X和天气属性矩阵K按时间序列进行合并,得到融合矩阵E。时空建模部分将路网拓扑结构G和融合矩阵E作为输入,先用GCNs模型提取交通流数据的空间特征,再用GRUs模型提取交通流数据的时间特征,最后将空间和时间特征作为输出。预测部分采用历史交通流信息来预测未来时间段内的交通流,并将预测结果输出。

图3 短时交通流预测模型架构图

对MFI-GCN模型中各参数的定义为

定义1:路网G。用一个无权图G=(V,E)来描述城市路网的拓扑结构,将每一条路作为一个节点,其中V={v1,v2,…,vN}为路网中各路段节点的集合;N为当前路网中节点的总个数;E={e1,e2,…,eM}为任意两个路段是否连通的边的集合,M为边的个数。在一般情况下,将整个路网的连通度信息存储在邻接矩阵A∈RN×N中,其中行、列按路段标号索引,每一个元素的值表示相应路段间的连通度,且邻接矩阵只包含0和1的元素,1表示相应路段连通,0表示相应路段不连通。

综上所述,交通预测建模的时空相关性可以通过学习路网的基本拓扑结构G、特征矩阵X和属性矩阵K的函数f来理解,未来L时刻的交通流计算方式为

[Xt+1,…,Xt+L]=f(G,X|K;(Xt-n,…,Xt))

(9)

式中:n为历史时间序列的长度;L为需要预测的时间序列的长度。

4 实验与分析

4.1 数据集

(1)本文使用的轨迹数据集来自滴滴出行“盖亚”数据开放计划[9]。该数据集为2016年10月西安市二环局部区域轨迹数据,轨迹点的采集间隔为2~4s;数据集包含国庆节假日数据,体现了数据的多样性,有利于更好地泛化。

(2)天气数据集包含研究区域对应时间的天气情况,该数据集将天气属性分为五类:晴、阴天、小雨、中雨和大雨,将其进行数据预处理,构造为属性矩阵。

4.2 实验环境

实验通过使用大数据开源组件Hadoop和Hive对原始数据集进行数据预处理,选取34条主要路段,采用邻接矩阵对其连通性进行建模;并按15min为时间间隔计算选定路段的交通流时间序列并形成特征矩阵,其中行按路段索引,列按时间间隔段索引。在模型阶段,使用Pytorch实现模型的构造。实验环境如表1所示。

表1 实验环境配置详情表

4.3 评价指标

为评估本文所提模型的预测性能,使用以下指标来评估预测结果[10]。

(1)均方根误差(RMSE)

(10)

(2)平均绝对误差(MAE)

(11)

MAE描述的是预测结果和真实值间的绝对差之和的平均值,用于预测误差的评估,其值越小表示模型性能越好。

(3)准确率(Accuracy)

(12)

式中‖·‖F表示Frobenius范数,该值越接近1,模型的性能越好。

4.4 实验结果

4.4.1 数据特征分析

交通流数据具有空间相关性、时间相关性和不确定性的显著特征,以下是对其特征的验证实验及其可视化结果。

空间相关性:图4为10月4日上午9点到中午12点间第28号路段及其相邻路段的交通流变化趋势图。从图4中可以看出,作为主干道路的28号路段(较粗)极易受到其相邻路段17、22、23、32和33(较细)的影响,影响方式主要分为直行和左右转弯。如10:15左右,28号路段的上游32和33号路段的交通流变化较小;而其下游存在17号路段的直行、22号路段的左转和23号路段的右转情况,且这三条下游路段的交通流明显增大,所以导致28号路段的交通流出现突变减小的情况;随后17号路段的车流汇入28号路段,使其交通流快速增大并逐渐趋于平稳,其他时刻路段突变情况的原因类似。所以交通流在路网拓扑的空间结构上存在相关性。

图4 交通流空间相关性示意图

时间相关性:图5为10月3日到9日上午6点到上午9点第28号路段一周的交通流变化图。从图5中可以看出,对于每一天的交通流都会出现一段时间的早高峰;从一周的时间来看,基本上每一天的交通流都有相似的变化趋势,且在周末时会达到一个最高峰,说明节假日对交通流有一定影响。所以交通流在时间序列上存在相关性。

图5 交通流时间相关性示意图

不确定性:图6为10月27日到29日上午6点到晚上18点第28号路段的交通流变化图,其中,27日为中雨,28日和29日分别为阴天和晴天。从图6中可以看出,因为天气因素,27日该路段的交通流总体上明显低于其他日期。所以天气因素的不确定性对交通流的影响较大。

图6 交通流受天气影响示意图

4.4.2 实验结果分析

为验证MFI-GCN模型在交通流预测中的有效性,将其与GRUs模型、GCNs模型和T-GCN模型的评价指标进行对比,结果如表2所示。

表2 评价指标对比实验结果表

由表2可以看出,从时空角度看,与只关注时空关系中一方面的GRUs和GCNs相比,同时考虑二者的T-GCN模型的RMSE分别降低了约19.17%和26.62%,其他评价指标也有显著提高;考虑外部天气因素的MFI-GCN模型与只考虑时空特征的T-GCN模型相比,RMSE和MAE分别降低了2.67%和4.28%,准确度提高了1.46%。对比结果验证了本文所提MFI-GCN模型的有效性。

5 结论

提出了一种多因素融合的图卷积预测模型,并成功地应用于交通流预测。该模型同时考虑了交通流的时空特征和天气因素,在由滴滴出行“盖亚”数据开放计划提供的公开数据集上评估了该模型的性能,并将其与GRUs、GCNs和T-GCN三个模型进行了比较,实验结果表明,该模型的性能优于其他模型。

猜你喜欢
交通流路网路段
基于LSTM的沪渝高速公路短时交通流预测研究
云南智慧高速路网综合运营管控平台建设实践
多中心、多路段、协同应急指挥系统探析
基于GM跟驰模型的内河限制性航道船舶交通流基本图
基于浮动车数据的城市区域路网关键路段识别
基于元胞自动机下的交通事故路段仿真
基于元胞自动机下的交通事故路段仿真
广州港大濠水道定线制引航要领
跟驰模型适用范围与交通流混沌现象的研究