基于多Agent技术的地铁轨道交通信号智能控制方法

2023-10-16 08:50孙剑

中国新技术新产品 2023年17期

孙剑

（北京地铁通号分公司，北京 100082）

我国城市化和汽车化进程加速，导致交通拥堵、交通事故、环境污染和能源短缺等问题日趋严重。在地铁轨道交通体系中，需要对各种信号进行控制，以保障列车安全、高效地行驶[1]。地铁轨道交通信号智能控制是利用先进的信息技术手段对地铁列车进行精细化运行控制和调度，以提高地铁运行效率、安全性和服务质量[2]。其目标是通过合理地调整地铁轨道交通信号来优化交通流量分配、缓解交通拥堵、提高交通运行效率、降低发生交通事故的概率以及提高交通安全性[3]。

为了进一步实现对地铁轨道交通信号的智能化控制，该文结合多Agent技术对地铁轨道交通信号智能控制方法进行研究。Agent技术可以对交通流量、路况以及车速等数据进行实时监测和分析，快速响应交通状况的变化。该技术还可以根据不同环境和条件进行自我调整和优化，以适应不同的交通流量和路况，从而提高控制效率和精度。该技术具有快速响应和实时处理的特点，可以实现对地铁轨道交通信号控制的实时监测和控制功能，从而提高运行效率和安全性[4]。

1 设置地铁轨道交通信号控制器

在地铁轨道交通信号智能控制中，需要根据列车的位置、速度和状态等信息实时监测路段的情况，以便控制信号机的开关。同时，还需要设置适当的信号间距和信号灯颜色等参数，以保障列车行驶的安全性和高效性。

在地铁轨道交通中，信号控制器通常被安装在信号机箱内（该机箱通常被安装在路轨附近或者站台的下方）。信号控制器的安装位置需要考虑信号控制器与信号机之间的距离、信号控制器所需的电力和通信设施等因素。信号控制器会分布在轨道线路的各个关键位置，例如车站、隧道入口以及信号区间等位置（这些位置通常是列车行驶的关键节点）。交通信号控制器示意图如图1所示。

图1 交通信号控制器示意图

在控制器中，各个模块的基本功能如下：1）感知模块。感知模块负责获取并监测列车的实时位置、速度和状态等关键信息，并将其传输给控制模块进行处理和分析。2）控制模块。控制模块是信号控制器的核心部分，会根据实时的列车位置和路段情况计算最优的信号控制方案，并给信号机发送控制命令。3）通信模块。通信模块负责与其他设备或者控制中心进行通信，以实现信息交换和下发控制命令等功能，确保实时共享和协调数据。4）存储模块。存储模块可以存储历史数据和控制参数等信息，以便后续的分析和优化[5]。该模块会持久存储感知模块获取的数据、控制模块计算的控制方案和其他相关信息。

由于地铁轨道交通流的动态时变性较强且具有一定的随机性和不确定性，因此应用的控制器不仅需要具备对状态的识别功能，而且需要具备自寻优的控制策略和对外界环境的适应能力[6]。控制器在应用过程中需要不断学习，其实现过程如下：假设决策时间步长为k，地铁轨道交通环境状态为sk。通常情况下，地铁轨道交通状态包括的交通信息为绿灯已经持续的时间Tr、绿灯相位的交通流量F以及各个红灯相位当中排队长度最大值L。根据上述假设，确定地铁轨道交通环境的状态集合如公式（1）所示。

式中：Trk为决策时间步长k下交通信息为绿灯已经持续的时间；Fk为决策时间步长k下绿灯相位的交通流量；Lk为决策时间步长k下各个红灯相位当中排队长度最大值。

再假设控制器针对状态sk所选择的行为为ak，ak的设定分为2 种：1）将通行权切换为下一个相位。2）保持当前的相位通行权到下一个时刻。为了防止某个阶段发生意外或者某个阶段的通行权限无限扩大，该文提出了一种基于经验的方法，针对各个阶段分别设定最短的绿灯时间和最长的绿灯时间。在控制器学习的过程中，惩罚函数是修改策略的基础条件，惩罚函数的选择如公式（2）所示。

式中：r（s，a）为控制器的惩罚函数；Pr和Pg为2 个权重因子；La为等待时间的警戒值；Lr为等待时间的最大值；Lg为等待时间。

在控制器学习的过程中，每个Agent 会根据当前的环境状态和感知的信息选择最优的行为来控制信号机。控制器学习过程中的策略更新依赖于奖励和惩罚信号，通过与环境的交互不断调整和优化控制策略。这样，控制器可以逐渐学习最优的控制策略，以缩短车辆等待时间、提高交通效率。

2 基于Agent技术的地铁轨道交通信号控制算法计算

在完成对地铁轨道交通信号控制器的设置工作后，结合Agent技术对地铁轨道交通信号控制算法进行计算。在地铁轨道交通系统中，信号控制算法的计算至关重要，控制算法的设计和优化直接影响地铁运行的安全性、效率和乘客的出行体验。对控制算法进行计算，可以实现智能化的信号控制功能，达到提高交通系统运行效率、缓解交通拥堵以及优化列车行进速度和间隔的目标。对控制算法进行计算还可以帮助确定最优的信号控制策略。通过分析和建模地铁轨道交通系统的特点和需求，结合实时的交通数据和列车状态信息，可以利用计算方法来推导最佳的信号控制方案。这些方案可以基于多Agent技术使各个信号机之间相互协调、协同工作，以最大程度地提高交通系统的整体效能。

首先，需要对车辆的信号状态进行描述，假设第k个相位的信号所显示的状态为ψk，针对不同状态设置不同的ψk取值，如公式（3）所示。

当第k相位为绿灯时，ψk取值为0；当第k相位为红灯时，ψk取值为1；当第k相位为黄灯时，ψk取值为2。

其次，将信号显示状态与车辆到达时的状态组合并将其作为交通状态，如公式（4）所示。

式中：pi为地铁轨道交通状态；si为状态类别，i=ψ，1，2，…，m。

在该基础上，提出了一种基于经验的方法，并将其与实际情况相结合，具有很强的主观性。结合实际情况，进一步提出了地铁轨道交通交通信号控制规则体系[7]。针对不同的地铁轨道交通状况，应该生成n个相应的规则。综上所述，该文提出了一种基于时间序列的地铁轨道交通信号控制方法。为了在控制过程中实现对停车延迟的统计功能，假设考察的时间由Γ个长度为Δs的时间段所构成，在第i个时间段中，Δs内一直处于静止状态的车辆为Csi，从静止状态转变为行驶状态的车辆为Cmi，从行驶状态转变为静止状态的车辆为Cni，那么在Δs内总停车延迟Ti如公式（5）所示。

其中，Csi、Cmi和Cni的取值均为自然数。

对地铁轨道交通信号的控制目标是通过调整信号尽可能地缩短停车延误和等待延误的时间，属于延误最小化问题，因此，确定地铁轨道交通信号控制算法函数如公式（6）所示。

式中：minT为延误最小化目标函数值。

在控制的过程中，每间隔Δs的时间就需要对地铁轨道交通状态进行1 次判定。根据状态和相应的控制规则采取控制行为。在地铁轨道交通信号控制算法中，引入强化学习，Agent 可以感知其环境的不同状态，并且可以执行不同的动作。Agent 学习寻优的过程可以通过马尔科夫决策过程最优策略问题描述，Agent 获得的状态转换评价值即为回报值。当回报值最大时，停止Agent 学习，并将此时得到的函数作为地铁轨道交通信号控制函数。

3 多Agent 的交通信号智能协调控制

在确定地铁轨道交通信号控制算法后，为了协调多个Agent，需要确保各个Agent 之间可以进行信息传递。在交通信号控制Agent 控制的轨道上，因某种原因（例如发生设备故障，导致轨道拥堵）需要对轨道进行协调，以实现快速疏导的目标。该协同要求是根据一个特定的邻近的交通控制智能体提出的，是一种直接的一对一通信。当交通控制智能体控制的信号灯颜色发生变化时，需要向其附近的所有地铁轨道交通信号智能控制器发出相应的信息，从而使其做出相应的决策[8]。由于各个Agent 感知到的状态是有限的，因此可以采用概率统计的方式协调多个Agent。根据公式（7）计算某一个Agent 对另一个Agent 处于某种状态时所采取的动作信任度。

式中：Beli（x，j，ak j）为第i个Agent 对第j个Agent 在x状态下所采取的动作aj的信任度；Nk j为Dirichlet 分布的参数。

根据相邻信号智能控制器控制Agent 在当前状态下将要采取的动作信任度，从而给出最优的反应策略。

在多个Agent 的交通信号智能协调控制中，除了确保各个Agent 之间的信息传递和动作协调外，还需要考虑地铁轨道交通网的整体利益，使其稳定地运行。为了实现这一目标，在控制过程中引入了博弈论和经验知识相结合的方法。

博弈论是一种分析决策制约条件和结果的数学工具，可以解决多个Agent 之间的冲突和协调问题。在地铁轨道交通信号智能控制中，当各个信号智能控制Agent 处于相邻位置时，它们的决策会相互影响。通过博弈论的方法可以确定各个Agent 在不同状态下采取的最佳动作，使整体的控制效果达到最佳。通过计算某一个Agent 对另一个Agent 处于某种状态时所采取的动作的信任度，可以给出最优的反应策略。这种基于博弈论的协调方法能够有效平衡各个Agent 之间的利益，提高整体交通系统的效率和稳定性。

除了博弈论外，经验知识也被融入多个Agent 的交通信号智能协调控制中。经验知识是基于历史数据和实践经验总结出的规则和策略，可以调节协调过程中发生的状况。例如在地铁轨道交通信号智能控制过程中，当控制区域内的线路都处在交通高峰时，交通信号控制Agent 就不会再以博弈论为基础进行协调，而是改为以管理Agent 为基础，通过管理Agent 的人机界面进行协调控制。综上所述，通过多个Agent 相互之间的协调控制确保最终控制效果为最理想状态下的控制效果，同时也可以确保实现等待时间最短的控制效果。该方法可以有效提高交通系统的效率，缓解交通拥堵和延误情况，为乘客提供更便捷、更舒适的出行体验。

4 对比试验

该文结合多Agent技术提出了一种全新的地铁轨道交通信号智能控制方法，为了验证该控制方法的可行性，选择将基于有序样本聚类的控制方法作为对照I 组，将基于电子信息技术的控制方法作为对照II 组，将该文提出的基于多Agent技术的控制方法作为试验组。利用3 种控制方法对相同试验对象进行地铁轨道交通信号控制。以某城市范围内的某一地铁轨道交通作为试验研究对象，为了对比3 种方法的控制效果，选择将平均车辆等待时间作为评价指标。在试验过程中，按照以下内容设置相同的试验条件：将信号的转换周期设置为120 s，将黄灯亮起的持续时间设置为5 s。在50 次控制中，记录每种控制方法应用下的平均车辆等待时间，结果记录见表1。

表1 3 种控制方法控制效果对比表

对表1 中的试验数据进行分析可知，试验组每10 次控制中平均等待时间均控制在65.00 s～70.00 s，当控制次数从0 次～10 次增至40 次～50 次时，试验组的平均等待时间逐渐缩短（68.25 s～65.63 s）。表明试验组的控制方法在缩短车辆等待时间方面具有一定效果。对照I 组和对照II 组在整个试验过程中的平均等待时间都较长，并且没有明显缩短的趋势。对照I 组的平均等待时间为125.26 s～131.24 s，对照II 组的平均等待时间为124.25 s～135.26 s，平均等待时间均超过120.00 s，当控制次数为30 次～40 次时，对照组II 的平均等待时间达到135.26 s，这表明对照I 组和对照II 组在缩短车辆等待时间方面效果比试验组差。对照I 组和对照II 组控制方法不合理，延长了车辆等待时间，对地铁轨道交通运行效率有一定负面影响，而该文提出的基于多Agent技术的控制方法能够有效缩短等待时间，提高地铁轨道交通运行效率，从而有效控制地铁轨道交通信号。

5 结语

综上所述，该文将多Agent技术应用到对地铁轨道交通信号的控制中，提出了一种全新的智能控制方法。通过对比试验验证了该控制方法的有效性。通过对比得出，该文提出的控制方法可以有效缩短等待时间，从而提高地铁轨道交通的运行效率。