基于3D卷积深度强化学习的交通灯配时优化技术研究

2021-12-25 19:23沈国庆

科学与信息化 2021年3期

关键词：交通信号交通灯交叉口

沈国庆

沈阳理工大学辽宁沈阳 110000

1 基于时间和空间序列的交通配时模型设计

（1）交叉口和路网模型。我们考虑使用的由两车道组成的交叉口模型，交叉口的车辆在交通信号的控制下行驶：绿灯表示车辆可以穿过交叉口；红灯表示车辆必须停车。

路网主要由多个交叉口和连接交叉口的道路组成，路网中所有的道路方向都不是规则的正北正南，道路也不规定为固定的长短，这样的设定更贴合实际的路网。在当前的信号时长结束后，通过调整路网中所有交叉口下一信号时长的相位，处理不同的交通状况。

（2）将路网状态数据规范化。一般的CNN（卷积神经网络）应用于图像处理中[1]，图像是二维的空间结构，感受也可以在空间维度上进行卷积来获取特征。而本文提出的3D CNN在对路网中的车辆数据进行预处理时需要提取出路网状态的时间和空间特征的能力，由于路网中的车辆数据不同于图像这种本身就自带自然的时间和空间结构，因此需要将路网状态数据规范化，使得不同拓扑结构的节点可以获取相同大小的感受野，为之后输入卷积神经网络计算提供了保障。我们在路网中建立的感受野相互之间都有重叠的部分，这样既能保证了相邻道路之间数据的相关性，又保证了整体道路感知的全局性。

（3）构建3DCNN模型。本课题虽采用卷积神经网络对路网进行特征提取，但基本CNN网络的输出无法满足本课题路网中多个交叉点同时决策和提取时间特征的要求，所以通过阅读文献与学习在深度学习领域的新技术，3DCNN模型[2]的初步设计如下：已知路网中有80个交叉口，有51个交通灯。输入路网的三维车辆密度矩阵，先经过三层卷积层后将第三层平均分成51份后进行扁平化处理，再经过一层全连接层后输出102个Q值，每个交叉口的交通灯对应两个动作值0或1，选择Q值较大的动作值，完成对相应交叉口的动作决策。

（4）采用深度强化学习算法模型。在本课题的算法中，将控制问题建模为强化学习问题，如果把由交通信号控制系统当成一个智能体（Agent），将与交通信号所影响的路网和车辆当成“环境”，通过如下方式就可以构造深度强化学习交通信号控制系统进行配时优化。首先从环境里获取观测状态（例如：路网中车辆密度），传递给智能体，智能体中采用的深度强化学习算法选择动作来执行（例如：当前相位保持绿灯或者切换成红灯），并对执行效果进行回馈（例如：采用车辆平均行驶时长作为回报函数），系统根据回报结果，调整系统的参数。这样就形成一个循环的过程，就能实现不断地学习与改进。

2 结果讨论

通过对车辆滞留时间、路网车辆数量的仿真，将我们提出的基于3D卷积深度强化学习的交通灯配时优化的方法与基于2D卷积的深度强化学习的交通灯配时优化的方法进行比较，分析本文提出的表现。

首先，我们对通过仿真器实验得出的结果进行了验证，证明我们的智能体确实学到了有效地减少车辆滞留时间、减少路网中车辆数量并缓解交通压力的良好行动策略（即交通信号控制策略），并且我们的算法在做出控制决策时是稳定的，即不会使结果数据在好的和坏的行动策略之间摇摆，甚至转向不良行为政策。

本次实验是在不同流量下进行的结果对比，在80个结点的路网以及表1中的3个流量等级下，对于本文提出方法的结果进行分析，一级流量下的路网拥挤度较低，发现在拥挤度较低的路网中本文提出的方法的车辆平均滞留时间比基于2DCNN减少了0.3%。在路网车辆数量上比2DCNN减少了11.6%，从中我们发现在路网车辆用极度较低的情况下，本文提出的方法在路网车辆数量上前期展现出了巨大的优势。虽然随着路网车辆拥挤度逐渐上升，本文提出的方法的效果有所下降，但是，还是保有明显的优势。

3 结束语

本文采用深度学习提取城市路网空间和时间上的特征，通过与强化学习相结合，一同实现对城市路网交叉口交通灯的控制决策。通过引入聚类对路网进行预处理，既能实现对感受野的划分保证感受野之间存在联系，又能实现在聚类的基础上对路网规范化实现对卷积神经网络的输入。因为3D卷积神经网络结构在空间和时间上信息提取特征的优越性能，我们利用3D卷积神经网络提取路网拥挤度特征和时间序列特征并作出动作决策。我们通过实验结果可以看到，我们提出的方法对比前人提出基于2DCNN的控制策略有所提升。