基于GAT-GRU模型的交通流预测方法

2022-07-16 08:11静,李
关键词:交通流卷积注意力

赵 静,李 昕

基于GAT-GRU模型的交通流预测方法

赵 静,李 昕

(辽宁工业大学 电子与信息工程学院,辽宁 锦州 121001)

提出了一种新的深度学习框架——图注意力网络(GAT)与门控循环单元(GRU)组合的时空交通流量预测模型。图注意力网络用来学习复杂的拓扑结构来捕获空间依赖,门控循环单元学习交通数据的动态变化来捕获时间依赖。利用加利福尼亚高速公路数据进行模型验证,实验结果表明,该模型相对于其他主流预测模型进一步降低了预测误差,在交通流预测问题中适用性更强。

交通流预测;深度学习;图注意力网络;门控循环单元;时空相关性

在当今汽车保有量迅速增加的时代,城市的交通拥堵问题越发严重。为了使出行者和交通机构能够得到及时的、准确的、可靠的交通信息,需要进行交通预测。交通预测可以使智能交通系统变得更稳定,道路变得更畅通。提前了解交通信息(交通拥堵情况、交通量和人流)可使有关部门实施更好的交通管理策略,旅客可以制定更好的路线规划。因此,实时获取准确的交通信息对出行者和有关部门具有重大意义。但由于交通流的随机性,交通预测是一个非常具有挑战性的问题。近年来,研究者提出了许多提高交通流的预测精度的方法。可以分为2类:模型驱动方法和数据驱动方法[1]。

模型驱动的方法是根据固定数量的参数组成的,所以也称为参数方法,模型结构是根据一定的理论假设来预定,模型参数根据经验数据来计算,主要有2个方法:时间序列模型[2]和卡尔曼滤波模型[3]。而数据驱动方法更具有灵活性,能够处理一些存在不确定因素的问题。可以分为机器学习方法和深度学习方法2大类。

传统机器学习方法中用于交通流预测的方法有支持向量机[4]、贝叶斯模型[5]、K最近邻模型等。虽然机器学习方法可以在通过学习大量的数据的过程中得到一定的规律,但是传统的机器学习方法缺乏处理高维数据的能力,难以描述交通数据中复杂的非线性变化。除此之外,传统机器学习的预测性能在很大程度上依赖于手工特征,而手工特征对问题的依赖程度很高,依赖于专家经验。因此,这种方法的通用性较弱。

近年来,深度学习模型对多维度和非线性数据的处理能力显著增强,与其他传统机器学习方法相比,深度结构神经网络比浅层神经网络有更好的学习效率,所以深度学习的方法在预测交通流方面提供了更高的性能,促使越来越多的研究者将其应用于交通数据挖掘中。

Huang等[6]采用深度信念网络(DBN)学习有效的特征,以无监督的方式进行交通流预测。Jia等[7]提出DBN和多层感知器(MLP)混合模型的速度预测。Lv等[8]应用堆叠自动编码器(Stacked Autoencoder,SAE)提取交通特征用于交通流预测。上述深度学习方法均取得了较好的效果。然而,单一模型在处理复杂数据时仍有局限性。为了整合单一模型的优点,实现更准确的交通流预测,各种组合模型应运而生。Ma等[9]提出了一种基于图像的方法,将交通网络作为图像。Yao等[10]提出了一种融合CNN和长短期记忆(LSTM)的交通预测方法,联合建模空间和时间依赖关系。然而传统的卷积方法只能应用于标准网格数据。而现实的研究中还有大量的数据从非欧几里德结构中采样,所以,近年来研究者们用图卷积网络(GCN)[11]将传统的卷积推广到图结构数据。GCN将交通网络视为能够充分利用交通空间信息的图,Yu等[12]提出了一种时空图卷积网络(STGCN),该网络在空间和时间轴上都采用了卷积结构。Zhao等[13]提出了时间图卷积网络(T-GCN)模型,一种基于神经网络的流量预测新方法,该模型结合了图卷积网络和门控循环单元。其中,图卷积网络用于学习复杂拓扑结构,捕获空间相关性;门控递归单元用于学习交通数据的动态变化,捕获时间相关性。然后,采用T-GCN模型进行基于城市道路网络的交通预测。Guo等[14]在时空卷积网络中加入了注意力机制,注意力的时空图卷积网络模型主要由3个独立的组件组成,分别对交通流的最近依赖、日周期依赖和周周期依赖3种时间属性进行建模。

目前,如何挖掘交通流数据的时间特征和空间特征是交通流的研究方向之一。本文提出了一种新的深度学习框架,即GAT-GRU模型。GAT-GRU是一个融合了空间相关性提取块和时间特征提取块的混合模型。采用图注意力网络提取交通网络中的空间依赖关系,GRU网络来学习时间序列特征。并通过加利福尼亚州运输部收集的真实数据集PeMSD4对模型进行训练与预测。

1 问题描述和定义

在交通流预测中,目标是在给定历史交通流的静态路网上预测未来交通流。

定义2 交通流数据。交通流数据具有3个重要参数,分别是交通流量、行车速度以及车流密度。它们之间关系如式(1)所示:

=(1)

其中,表示交通流量,表示行车速度,表示车流密度。当道路上车流密度小时,交通流量也小,行车速度高;当车流密度增加时,交通流量也随之增加,行车速度减小;当车流密度超过最佳密度时,交通流量减小,行车速度下降,直至行车速度接近零,道路出现阻塞现象。

定义3 时空相关性。在道路网络中,各个路段存在直接或间接相连的状况,所以各路段的交通流存在明显的相关性。例如,在某一路段发生的交通挤塞使得该路段几分钟内一直拥堵,甚至可能几分钟后会蔓延到其他路段,导致区域拥堵。路段之间的连接和交通网络中交通实体的相互作用,使得相邻路段的交通流呈现出时空相关性。

交通流预测问题可以表述为在通过对大量的交通流样本学习的过程中得出一个映射函数,先将道路网络上′周期内的历史交通流数据作为函数的输入,然后对道路网络上未来周期内的交通信息进行预测。如式(2)和图1所示。图1表示在一个节点上检测交通流量、车流密度、行车速度测量值,并以未来的流量为预测目标。这里,所有的测量值都归一化为[0,1]。在实际交通流预测问题中,3个参数数据都是结构相似的时空数据,本文选择了交通流量预测作为应用场景。

其中,Xt+1, Xt+T是时间区间t+1, t+T的预测值,是函数f的参数。

2 图注意力网络

图注意力网络(graph attention network)[15]是一种基于图的网络模型,利用隐藏的自我注意层来解决以前基于图卷积或其近似方法的缺点。通过叠加层,节点能够参与其邻域的特征,该方法允许在不做任何操作或者不提前了解图结构的情况下给邻域的不同节点赋予不同的权重。通过这种方式,GAT同时解决了基于频谱的图神经网络的几个关键挑战,并使模型易于适用于归纳和转导问题。GAT和GCN的关键区别在于如何收集和积累距离为1的相邻节点的特征表示。在GCN中,一个标准卷积包括对相邻节点特征的标准化求和,表达式如下:

2.1 图注意力层

GAT引入注意机制代替了图卷积的上述卷积运算,为了更好地说明层的节点特征是如何更新到+1层的,首先引入GAT的组成成分,即图注意力层。

一个图注意力层的输入是一组节点的特征值,即:

其中是节点的个数,是节点特征的个数。一个图注意力层的输出是其产生的一组新的节点特征值,即:

其中′通常比更大。

上式描述了节点的特征对于节点的重要性。利用函数将注意系数归一化成易于比较的形式,表达式如下:

因此,这些系数被用来利用GCN卷积规则更新模型特征,表达式如下:

2.2 多头注意力机制

多头注意力机制神似卷积神经网络里的多通道。GAT引入了多头注意力来丰富模型的能力和稳定训练过程。每一个注意力的头都有它自己的参数。对于个注意力又可以使用2种方法对邻居节点进行聚合。一种方法是横向拼接的方式,这样聚合到的特征维度就是原来的倍,表达式如下:

另一种方法是把个注意力机制得到的结果取平均值,表达式如下:

3 基于GAT-GRU的交通流预测模型

本文提出一种混合交通流预测器GAT-GRU。如图2所示,GAT-GRU包括用于学习空间特征的GAT块,用于学习时间特征和时间序列预测的GRU块,以及用于产生序列输出的输出层。具体而言,在空间GAT块中,采用了前述的多头注意机制,使模型能够通过多个独立的注意块共同学习空间依赖性,从而有利于学习过程。在GRU块中,采用了一个1层GRU网络来提取时间序列特征。最终的预测由最终输出层的全连接神经网络产生。

图2 GAT-GRU模型总览

3.1 空间相关模型

GAT利用节点特性来计算表示图的空间依赖性的注意系数。空间GAT块的最后一步是更新隐藏特征。为了实现这一点,引入了注意邻接矩阵,将之前学习到的注意系数映射到一个邻接矩阵。

注意邻接矩阵体现了GAT的设计原则,即更好的可解释性。通过采用注意邻接矩阵,用学习到的注意系数来表示边缘权值,可以直观地表示空间相关性。通过注意邻接矩阵的演化,也可以观察到动态的空间依赖性。

3.2 时间相关模型

交通流数据不仅存在着空间性,在时间上也存在着相关属性。目前,循环神经网络广泛应用于处理序列数据,但是存在梯度消失和梯度爆炸的局限性。门控循环单元神经网络(GRU)是基于RNN模型的改进,是长期短期记忆(LSTM)神经网络的变种。GRU通过增加门结构和存储单元来缓解RNN中的梯度消失或梯度爆炸问题。GRU有重置门和更新门2个门。简单地说,它们决定了信息的去留状态。更新门越大,记住上一时刻的内容就愈多。重置门越大,舍弃上一时刻的内容就愈少。GRU单个细胞原理如图3所示,计算原理表达式如下:

图3 GRU模型原理图

4 实验结果与分析

4.1 数据集来源及预处理

利用加利福尼亚州的高速公路交通数据集PeMSD4验证了提出的模型。数据集由Caltrans性能测量系统(PeMS)每30 s时收集一次。该系统在加州主要城市的高速公路上部署了超过39 000个探测器。

PeMSD4数据集包含了PeMSD4.csv文件和PeMSD4.npz文件,时间跨度为2018年1月—2月,包括29条道路上的3 848个检测器。PeMSD4.csv文件的部分数据如图4所示,from和to表示的是节点,cost表示的是2个节点之间的直线距离(表示权重)。PeMSD4.npz文件数据为每个节点的速度、流量、占有率3个特征。本文选取流量特征进行预测。其中,80%的数据作为训练集,20%的数据作为测试集。

图4 PeMSD4.csv文件的部分数据

根据数据集的信息,建立节点之间的邻接矩阵。基于阈值高斯核法将计算的权值替换为1,生成邻接矩阵。

4.2 评价指标

使用均方根误差(RMSE),平均绝对误差(MAE)来评估GAT-GRU的预测性能,数值越小,预测效果越好,RMSE和MAE的计算方法如下:

4.3 模型参数设置

实验基于深度学习框架Pytorch-GPU开发,使用Adam优化器对模型进行优化;学习率设置为0.001;每次训练样本数batch_size设置为64;迭代次数设置为1 000;GRU隐藏层单元数设置为32;图注意力机制的多头注意力头数对模型的性能影响很大,但是如果值过大,模型计算量庞大,效率反而会降低,经过实验对比,如图5所示,为8时,RMSE误差最小,所以将多头注意力的头数设置为8。

图5 K取值对实验的影响

4.4 模型训练过程

本文将数据集以8∶2的比例划分训练集和测试集,模型的训练过程如下。

步骤1 读取交通流量数据和邻接矩阵A。

步骤2 将输入数据构造成特征矩阵,定义为:

步骤3 将特征矩阵进行归一化处理。

步骤4 将归一化后的矩阵作为GAT网络的输入,根据公式(6)提取空间特征到序列特征向量。

步骤5 将特征向量作为GRU网络的输入,根据公式(9)~(11)计算提取时间特征。

步骤6 搭建好模型之后,以MSE作为损失函数,Adam作为优化器。

步骤7 模型训练完成后进行测试,输出预测的交通流量序列。

4.5 性能对比

为了验证模型的优越性,本文将GAT-GRU模型与以下7种基准模型方法进行了比较。表1显示未来1 h交通流量预测性能的平均结果。图6是GAT-GRU模型在PeMSD4数据集上预测结果与真实值比较。

表1 PeMSD4不同方法的平均性能比较

ModelRMSEMAE HA54.1436.76 ARIMA68.1332.11 VAR51.7333.76 LSTM45.8229.45 GRU45.1128.65 GAT42.2028.19 STGCN38.2925.15 GAT-GRU37.4323.41

图6 GAT-GRU模型预测结果与真实值比较

(1)HA[16]:历史平均方法,本文使用最后12个时间片的平均值来预测下一个值。

(2)ARIMA:自回归综合移动平均法,是一种著名的预测未来值的时间序列分析方法。拟合观测时间序列的参数模型来预测未来的交通数据。

(3)VAR[17]:向量自回归,是一种较先进的时间序列模型,利用历史数据对模型进行训练,得到输入和输出之间的关系,然后利用训练后的模型预测未来的交通数据。本文在这个模型中使用的核函数是一个线性核。

(4)LSTM[18]:长短期记忆网络,一种特殊的RNN模型。是为了解决反向传播过程中存在梯度消失和梯度爆炸现象,引入门机制,解决RNN模型不具备的长记忆性问题。

(5)GRU[19]:门控循环单元网络,一种特殊的RNN模型。优化了LSTM,简便了计算方法,避免了梯度消失。

(6)GAT[15]:图注意力网络,是一种基于图结构数据的新型神经网络结构。图注意力网络的作用原理是在学习节点特征的过程中,将注意力机制作用于确定节点的不同邻域权重值。

(7)STGCN[20]:一种基于空间方法的时空图卷积模型。STGCN有2个时空卷积块,每个时空卷积块有2个时空门控卷积层和1个空间图卷积层,实现输入并行化,提取最有用的时空特征。

从表1可以看出,GAT-GRU模型在数据集中所有评价指标上都取得了最好的性能。可以看到,传统的时间序列分析方法的预测结果往往不理想,说明这些方法在建模非线性和复杂的交通数据方面能力有限。通过对比,基于深度学习的方法通常比传统的时间序列分析方法获得更好的预测结果。其中,同时考虑时间和空间相关性的模型,包括STGCN、GAT-GRU模型,优于传统的LSTM和GRU等深度学习模型。此外,GAT-GRU的性能优于STGCN,说明GAT-GRU采用的多头注意机制在捕获交通数据的动态变化方面是有效的,进一步降低了预测误差。

5 结语

本文研究开发了一种基于神经网络的交通预测新方法GAT-GRU,该方法结合了GAT和GRU。使用图网络对高速公路路网进行建模,图上的节点表示道路,边表示道路之间的连接关系,道路上交通信息被描述为图上节点的属性。一方面,利用GAT捕获图的空间拓扑结构,获得图的空间依赖性;另一方面,引入GRU模型捕获节点属性的动态变化,获得节点属性的时间依赖性。最后利用GAT-GRU模型处理时空交通预测任务。在2个真实交通数据集上进行评估,并与HA模型、ARIMA模型、SVR模型、LSTM模型GRU模型和STGCN模型进行比较,发现GAT-GRU模型在不同的预测层下都取得了更好的性能。事实上,公路交通流受到天气、社会事件等多种外部因素的影响。未来,将考虑一些外部影响因素,进一步提高预测精度。

[1] ZHANG J, WANG F-Y, WANG K, et al. Data-Driven Intelligent Transportation Systems: A Survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2011, 12: 1624-39.

[2] 陈航, 陈玉敏, 吴钱娇, 等. 基于周相似性的短时交通流预测方法研究[J]. 测绘通报, 2015(S2): 27-31.

[3] KUMAR S V. Traffic Flow Prediction using Kalman Filtering Technique[J]. Procedia Engineering, 2017, 187: 582-587.

[4] FENG X, LING X, ZHENG H, et al. Adaptive Multi-Kernel SVM With Spatial Temporal Correlation for Short-Term Traffic Flow Prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20: 2001-2013.

[5] 陈丹, 胡明华, 张洪海, 等. 基于贝叶斯估计的短时空域扇区交通流量预测[J]. 西南交通大学学报, 2016, 51(4): 807-814.

[6] HUANG W, SONG G, HONG H, et al. Deep Architecture for Traffic Flow Prediction: Deep Belief Networks With Multitask Learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15: 2191-201.

[7] JIA Y, WU J, DU Y. Traffic speed prediction using deep learning method[C]. 2016 IEEE 19th International Conference on Intelligent Transportation Systems (ITSC), 2016: 1217-1222.

[8] LV Y, DUAN Y, KANG W, et al. Traffic Flow Prediction With Big Data: A Deep Learning Approach [J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16: 865-873.

[9] MA X, DAI Z, HE Z, et al. Learning Traffic as Images: A Deep Convolutional Neural Network for Large-Scale Transportation Network Speed Prediction[J]. Sensors (Basel, Switzerland), 2017, 17: 818.

[10] YAO H, TANG X, WEI H, et al. Modeling Spatial-Temporal Dynamics for Traffic Prediction[J]. ArXiv, 2018, abs/1803.01254: 922-929.

[11] OU Y, XUE Y, YUAN Y, et al. Semi-Supervised Cervical Dysplasia Classification with Learnable Graph Convolutional Network[C]. 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI), 2020: 1720-1724.

[12] YU H, WU Z, WANG S, et al. Spatiotemporal Recurrent Convolutional Networks for Traffic Prediction in Transportation Networks[J]. Sensors (Basel, Switzerland), 2017, 17: 1501.

[13] ZHAO L, SONG Y, ZHANG C, et al. T-GCN: A Temporal Graph Convolutional Network for Traffic Prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21: 3848-3858.

[14] GUO S, LIN Y, FENG N, et al. Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting[C]. Proceedings of the AAAI, F, 2019.

[15] VELICKOVIC P, CUCURULL G, CASANOVA A, et al. Graph Attention Networks[J]. ArXiv, 2018, abs/1710.10903.

[16] 刘静, 关伟. 交通流预测方法综述[J]. 公路交通科技, 2004(3): 82-85.

[17] SMOLA A, SCHöLKOPF B. A tutorial on support vector regression[J]. Statistics and Computing, 2004, 14: 199-222.

[18] HOCHREITER S, SCHMIDHUBER J. Long Short-Term Memory[J]. Neural Computation, 1997, 9: 1735-1780.

[19] CHUNG J, GüLçEHRE Ç, CHO K, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. ArXiv, 2014, abs/1412.3555.

[20] LI C, CUI Z, ZHENG W, et al. Spatio-Temporal Graph Convolution for Skeleton Based Action Recognition[C]. Proceedings of the AAAI, F, 2018.

Traffic Flow Prediction Method Based on the GAT-GRU Mode

ZHAO Jing, LI Xin

(School of Electronics and Information Engineering, Liaoning University of Technology, Jinzhou 121001, China)

A new deep learning framework, a spatiotemporal traffic flow prediction model combined with Graph Attention Network (GAT) and Gated Recurrent Unit (GRU), is proposed. Graph attention networks are used to learn complex topologies to capture spatial dependencies, and gated recurrent units are used to learn the dynamics of traffic data to capture temporal dependencies. The model is verified by using California highway data. The experimental results show that the model further reduces the prediction error compared with other mainstream prediction models, and is more applicable to traffic flow prediction problems.

traffic flow prediction; deep learning; graph attention network; gated recurrent unit; spatial-temporal correlation

10.15916/j.issn1674-3261.2022.03.007

TP183

A

1674-3261(2022)03-0170-07

2021-04-14

辽宁省教育厅高校科研基金项目(LJKZ0625)

赵静(1997-),女,江苏盐城人,硕士生。

李昕(1966-),男,辽宁锦州人,教授,博士。

责任编辑:孙 林

猜你喜欢
交通流卷积注意力
基于LSTM的沪渝高速公路短时交通流预测研究
基于全卷积神经网络的猪背膘厚快速准确测定
基于GM跟驰模型的内河限制性航道船舶交通流基本图
让注意力“飞”回来
基于轨迹数据的短时交通流预测技术研究
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
A Beautiful Way Of Looking At Things
跟驰模型适用范围与交通流混沌现象的研究