基于动态博弈算法的切入场景下自动驾驶车辆运动规划研究*

2023-02-13 01:37兰凤崇刘迎节陈吉清刘照麟
汽车工程 2023年1期
关键词:轨迹决策状态

兰凤崇,刘迎节,陈吉清,刘照麟

(1.华南理工大学机械与汽车工程学院,广州 510640;2.华南理工大学,广东省汽车工程重点实验室,广州 510640)

前言

旁车切入(cut-in)是车辆道路行驶中的常见场景,例如:旁车变道加塞、匝道进主路汇流、道路施工引起的并道等。根据美国交通部下属机构美国国家公路交通安全管理局提出的37 种预碰撞情况的分类,切入场景是最危险的预碰撞情况之一[1]。如何提高车辆在此类场景中的行车安全性和舒适性是智能车辆决策规划功能开发中的重要问题。

面向切入场景的智能驾驶车辆的决策规划研究主要集中在车辆根据旁车切入状态所产生的碰撞风险进行主动避撞。Graham 等[2]根据主车与旁车的位置计算安全距离,将其作为参考值,建立了碰撞危险预警系统。Minderhoud 等[3]提出了基于碰撞安全时距的主动避撞控制策略。Jansson 等[4]考虑驾驶员操作特性和测量误差,对碰撞危险评估模型进行优化。主动避撞式的切入场景决策规划具有较强的单一性,即使主车拥有绝对的路权,在行为决策上也只能进行减速避让,虽能最大程度地保证车辆行驶的安全性,但存在频繁误减速和逼停等问题,舒适性较差,且在一定程度上影响了主车的通行效率。因此已有研究将博弈理论运用到多车参与场景的决策规划中,以期得到更加丰富的车辆交互行为。

自动驾驶汽车在道路上的行为会影响到其他车辆驾驶员的行为,同样也会受到其他车辆驾驶员行为的影响,尤其是在多车参与的车辆交互场景中。动态博弈理论最能体现这种相互依赖关系。它在车辆的规划和对其他驾驶员行为的预测之间构建一种强烈的耦合关系[5],通过求解耦合关系下的车辆运动模型,来获得更多的交互可能性。胡益恺等[6]基于主从博弈构建结合路权的车辆博弈模型,提高车辆在高车流密度环境中的决策稳健性。Cleac′h等[7-8]建立基于车辆运动学的控制模型,提出博弈论规划框架,在线估计其他所谓智能体的目标函数参数,研究复杂自动驾驶场景下的多车交互决策规划。Fridovich-keil 等[9]在迭代线性二次调节器(ILQR)的基础上,计算局部纳什均衡解,通过动态规划求解离散时间耦合的黎卡提方程,解决重复的线性二次博弈问题,算法可以在3 个智能体参与的路口决策规划场景进行避撞规划;Fisac 等[10]提出一种分层博弈的自动驾驶轨迹规划算法,将动态博弈进行层次分解,上层具有简化动力学的长期战略博弈,下层具有完整动态及简化信息结构的短距离战术博弈,从而达到实时控制的效果。

将博弈理论运用到自动驾驶车辆的决策规划中,能够提高车辆在复杂场景下的交互能力,使车辆拥有更多的行为选择,但多数基于博弈理论的决策规划算法通过实时输出车辆的控制信号来改变车身姿态,对于计算平台的要求较高。重点追求多车之间运动行为的交互性,对车辆的行驶场景特点关注不够,缺少对车辆可行域的合理性限制,车辆的行为决策被扩展到一个过于广泛的范围,且未考虑车辆运动学的限制,车辆可能会产生幅度过大的偏驶和转向等动作。这在切入场景下可能会导致主车运动不稳定,产生难以预料的危险行为。因此,迫切需要对自动驾驶车辆的切入场景进行深入研究,建立切入场景下主旁车博弈决策规划模型,保证合理可靠的轨迹规划,提高通行能力、安全性、类人性和舒适性。

本文中通过分析主旁车的运动关系,建立切入场景下主旁车运动状态联合模型,确定切入场景中存在交互冲突的车辆状态;使用分层动态博弈决策与避障轨迹规划框架,设计基于危险预判的安全性收益函数和考虑驾驶行为的舒适性收益函数,使得到的行为决策解既保证自动驾驶车辆避免与切入车辆发生碰撞,同时具有类人性和舒适性;搭建博弈决策规划联合仿真平台,实现智能驾驶车辆在切入场景中更具合理、丰富的交互行为。

1 切入场景的主旁车运动状态联合模型

旁车切入是指主车在正常行驶中,相邻车道的旁车与主车产生行为交互,并变换至主车所在车道,对主车的行驶产生影响的行为。它区别与在旁车的换道过程中理论上不会对主车产生影响的简单换道动作,如旁车在主车前方距离很远且速度较快的换道,此类场景下主车无须针对旁车改变运动策略即可满足规划要求。切入涉及到主、旁车的运动状态的相互改变和影响,建立切入场景下车辆的运动状态形式和车辆之间的交互关系是解决智能车辆决策规划问题的重要前提。本文中以存在潜在冲突的切入场景为研究对象,对主-旁车不同状态下的切入场景进行分类,建立主-旁车运动模型,探究切入场景下主、旁车之间的行为交互对各自运动状态的影响。

1.1 切入场景下车辆交互形式

切入场景下的旁车换道行为会导致主车与旁车之间的碰撞风险,主车须依据规划要求更新运动策略。按照不同的主、旁车初始位置关系,旁车的切入场景可细分为旁车从主车后方进行加速超车而后切入和旁车在主车前方以较近距离进行切入两种类型,如图1 所示。场景中的主车和旁车存在明显的冲突关系,主车和旁车之间的决策行为影响各自车辆的状态,具有很强的交互性。主车原有的运动状态和方式会因为旁车的切入动作而发生变化,双方会根据对方的行为选择而改变自身的决策,从而实现一种新的平衡方式。

图1 切入场景下的双车状态

1.2 主-旁车运动学表达

为分析切入场景下的主旁车运动关系,确定旁车的运动状态,选择半车模型对场景内的主旁车辆运动进行描述,如图2 所示。其中取车辆沿车道线的行驶方向为X轴,与之垂直的方向为Y轴,建立地面全局坐标系X-O-Y。以车辆质心G为中心,行进方向为x轴,与之垂直的方向为y轴,建立车身坐标系x-G-y,车辆的横摆角为φ,考虑到切入过程中的速度较低,可以忽略车辆的侧向滑动,认为横摆角近似等于车辆航向角。根据车辆在场景内的运动特性和交互关系,将其视为一个整体系统,以主车在本车道的变速运动和旁车的切入变道为运动状态形式,建立系统的运动状态方程为

图2 以地面固定坐标系表示的车辆运动

式中:下标e、s 分别代表主车和旁车;m为车辆总质量;I为车辆绕质心的转动惯量;L为车辆轴距;X、Y、φ分别表示车辆在地面固定坐标系下的坐标和横摆角;θ为车辆航向角;δ为前轮转向角;Cf,s、Cr,s分别为旁车前轮和后轮的侧偏刚度;lf,s、lr,s分别为旁车质心到前后轮的纵向距离。

由于切入场景多发生在道路曲率变化不大的路段,考虑到交规限制与行车安全,主车可设定为在本车道内的纵向变速运动,用速度函数ve(t)来描述主车的运动状态。旁车的动作是一个换道切入行为,根据主旁车双方的冲突关系,旁车的运动轨迹会受主车的运动状态改变而发生变化,其状态较为复杂,涉及到车辆的横向和纵向的位置姿态和速度变化,选择用速度vs(t)和车辆横摆角φs进行描述。

2 博弈切入场景的决策规划

车辆切入场景中的旁车作为切入的行为主体,其运动状态发生变化势必会影响主车的行为决策,同时主车状态的改变又会反作用到旁车,此场景中车辆天然的存在运动行为的冲突性和耦合性[11],在此过程中既存在对立面也需要相互之间的妥协,是一个交互博弈的过程。这种交互特性与非合作博弈游戏相似,主、旁车需要进行“友好”的竞争来决定切入场景下的通行顺序。将博弈理论运用于自动驾驶车辆的切入场景决策规划中,会使系统更具类人性,行为决策更加合理。在保证主车和旁车行驶意图的前提下,自动驾驶车辆对切入场景的决策规划以尽可能减少二者相互影响为目标。通过分析主、旁车在场景下的行为策略,得到博弈均衡解。将切入场景下的动态博弈规划分两层进行。首先行为决策层通过求解最大化收益函数进行战略级的行为决策博弈。而在轨迹规划层,以给定的驾驶行为为边界条件,基于车辆间距构建避障约束条件,以参数化轨迹的空间曲率和切向矢量的时间分量辅助构建车辆动力学约束,建立轨迹规划的数学模型。

2.1 切入场景下车辆交互博弈模型

以非合作博弈模型为基础建立切入场景下的主、旁车交互博弈模型:

式中:N代表参与者数量,包含主车和旁车两个智能体;Ai为智能体i的策略所构成的集合;Ri为智能体i的回报/收益函数。

分别定义ae和as为主车和旁车的切入行为决策,Ae和As分别为主车和旁车的决策集合。分别为Ae={减速,加速}和As={切入,避让},两车博弈的所有可能策略结果如表1所示。

表1 双方博弈的策略结果

在博弈过程中,智能体通过选择合适的策略,使收益函数最大化,得到纳什均衡解[12-14]。系统处于某一时刻下的纳什均衡解对于双方来说,都是当前状态下的最优策略解,即双方分别在对方给定的策略下不愿调整自己的策略。在纳什均衡中,每一个理性的参与者都不会有单独改变策略的冲动。对于切入场景下的动态博弈问题,如果主车和旁车都选择快速完成各自的动作,造成的结果是两车存在碰撞的风险;如果主车和旁车都选择谦让对方,主-旁车将会处于一个僵持的状态,影响通行性能降低交通流效率;如果主车选择减速,旁车选择切入,主-旁车到达了一个协商下的平衡,这种情况就是切入博弈系统的一个纳什均衡解;同样地,主车选择加速脱离切入场景,旁车选择避让,这种情况也是一个纳什均衡解。非合作切入博弈的车辆i纳什均衡解满足条件:

意味着如果旁车使用纳什均衡解下的,主车的最优选择是,这对旁车同样成立,构成了纳什均衡[15]。求解这个模型的目标是获得一组策略,从而最大化每个智能体的收益,得到非合作博弈的纳什均衡解。

2.2 切入动态博弈形式

借助于建立的博弈系统运动学模型,用模型预测的思想,对切入场景下系统未来一段时间内的收益进行预测,求解得到博弈模型的纳什均衡解,输出系统当前状态下的最优决策解。

具有完全理性行为的车辆博弈问题,博弈系统的纳什均衡解由系统收益函数所决定。为了得到更具类人合理性和安全性的切入场景下的行为决策解,须对主、旁车的收益函数进行优化。连续非线性的状态方程增大了问题求解难度,为此对上述系统运动学方程进行离散化,得到系统在t时刻的状态为

式中:f(·)表示对切入系统连续状态微分方程的离散化映射关系;ut-Δt表示(t-Δt)时刻车辆的控制输入{a,δ},即车辆加速度和前轮转角。根据系统的动力学模型计算未来帧的预测收益,得到当前状态下博弈系统的纳什均衡解,根据决策结果进行主车和旁车的轨迹规划。车辆完成循迹后进行下一状态的博弈规划,自动驾驶车辆在M个时间段内的总收益为

2.3 收益函数设计

解决潜在的动态博弈问题并不意味着自动驾驶车辆会变得更有攻击性,其驾驶行为最终将取决于设计者指定的优化目标。以自动驾驶车辆在行驶过程中避免与切入车辆发生碰撞的安全性收益和车辆行驶舒适性收益作为车辆在切入场景中的具有类人性的决策目标。

2.3.1 考虑危险预判的安全性收益

人类驾驶员无法像车载传感器一样拥有精确的感知能力,对危险碰撞区域进行准确的计算,影响人类驾驶员进行切入博弈决策更多来源于心理对危险的预判,这种预判通常通过观察车辆车速、加速度和航向角来分析。定义安全性收益RA为

式中:ve和vs分别表示切入博弈开始主车和旁车某个时刻下的车速;anext和φnext分别表示主车在下一时刻所采取的加速度策略和方向转角策略;d为两车的相对距离。

2.3.2 基于驾驶行为的舒适性收益

对正常驾驶汽车来说,大幅改变当前车辆行驶状态的行为动作会降低舒适性,因此在切入场景的博弈中,应尽可能地保持车辆当前的行驶状态。切入博弈系统的状态可以由系统整体速度和系统的姿态两个状态量进行描述,将系统速度函数的方差JD=De+Ds作为舒适性收益的第1项:

式中:De、Ds分别表示主、旁车的速度方差;t0为开始规划时刻;tf为旁车完成换道动作横摆角减为0的时刻;ve(t)、vs(t)、ve(0)、vs(0)分别表示主、旁车的速度函数及其初速度。

同时,考虑到主车在车道内做直线运动,选择旁车实际切入角与当前速度下的理想切入角差值Jθ作为舒适性收益的第2项:

式中:tm为旁车经过车道线的时刻;θr为理想切入角;θs为实际切入角。旁车的理想切入角是关于速度的函数:

切入博弈场景的舒适性收益RC为系统状态量在当前时刻到tf时刻的改变量之和:

2.4 限定驾驶行为的轨迹规划

通过切入博弈所得到的行为策略,对车辆的运动轨迹进行局部路径规划和速度规划。从整体上看,切入车轨迹是一个固定形式的换道轨迹,使用参数化曲线方程能有效地描述切入轨迹,同时还可以提高博弈决策与规划的速度。但在切入博弈过程中,切入车的运动轨迹会因为两车的行为交互而频繁变化,因此使用带有可变曲率参数的Sigmoid 函数来近似表达旁车切入时的局部路径轨迹:

式中:W为车道宽度;k为旁车切入轨迹曲线中点处的切入角控制系数,控制旁车的切入角变化,切入轨迹中点定义为(xm,0)。

主旁车的运动状态关系影响k值的变化,引起切入轨迹的曲率发生变化。旁车的切入角度φs(xm)=arctan是Sigmoid 曲线在其变道轨迹中点(xm,0)处切线的倾斜角,因此可以通过对车辆切入角的控制来反映旁车切入时的决策博弈变化,如图3所示。

图3 不同切入角下的Sigmoid曲线轨迹

切入场景下的主、旁车行为决策的博弈解,在长期范围内可以看作给定的驾驶行为。在进行主、旁车的轨迹规划时,以此为边界条件。对旁车的换道曲线轨迹方程,即式(11)的S(x)求导得

S′(x)表示不同k值对应的切入角度的正弦,也即切入轨迹的斜率,如图4 所示。则切入车辆在任意一段区间[x1,x2]上的曲线(路径)长度S12为

图4 车辆切入过程参数

由于无积分项解析解,以旁车的换道轨迹中点xm为界限分段,用指数函数y=peqx拟合S′(x),p和q均为k的函数,则可表达为

将式(15)和式(16)代入式(14)可得

通过拟合参数识别得到参数p、q与变曲率Sigmoid参数k的关系为

为保证规划轨迹的安全性和可跟踪性,须对主、旁车的运动轨迹关系进行约束限制,主、旁车相对运动关系如图5 所示。t0表示切入博弈规划的开始时刻,tm表示旁车切入换道动作完成一半的时刻,t0到tm对于主车来说是变速运动的过程,对于旁车来说是合理进行切入的过程。dc为旁车准备切入前的变速过程的位移,主车和旁车的运动轨迹已通过参数化方程进行了行为边界条件的限制,在整个过程中的轨迹规划须保证两车的安全性,且能用统一的表达式来描述不同决策行为下的车辆规划。

图5 旁车切入过程两车相对运动关系

以tm时刻车辆系统的状态作为切入博弈规划的约束条件,主、旁车在换道中点时刻tm的位置关系与速度关系为

式中:下标m 表示旁车切入至两车道中心线的时刻;d表示车辆的纵向位移;dε为不同速度下的安全距离;l表示车长。

博弈理论的基本假设要求参与者是个人理性的,即参与者会根据自己的下一步动作行为所产生的价值大小进行决策。在真实切入场景下对于理性驾驶员的假设存在一定的风险性,考虑到无法对旁车的行为决策做出绝对准确的判断,本文采用对旁车几何外形轮廓进行膨胀化处理的方法,扩大主车在进行轨迹规划时碰撞检测的范围,规避决策误差风险[16],如图6所示。

图6 旁车几何外形膨胀化

2.5 博弈规划求解

将切入场景下博弈轨迹规划方法分为战略级的决策求解和战术级的轨迹规划。首先根据主车当前的环境观测建立主、旁车的切入博弈整体系统模型,根据所建立的目标函数,从当前时刻向前推演系统的博弈参与者的整体收益,求解收益最大化,得到切入博弈系统的纳什均衡解:

式中:a*为切入博弈场景下的均衡解;Ae为主车的决策结果;As为旁车的决策结果。决策的值为车辆的加速度和前轮转角,ai=ui∈{ai,δi},根据决策值进行两车的轨迹规划,同时考虑车辆的碰撞约束条件和车辆的动力学约束条件。

从t0时刻开始进行切入场景的博弈轨迹规划,系统根据当前主车和旁车的状态,在每个时间步长j下都面临选择收益值R最高的行为决策的博弈优化问题,所提出的博弈决策规划算法如表2所示。

表2 博弈算法流程

3 方法实现与验证

为探讨动态博弈切入场景规划算法的有效性和实时性,借助于Carsim 和Simulink 搭建两车博弈的仿真切入场景。图7 为联合仿真模型结构示意图,通过联合两个Carsim模型获得主车和旁车的运动状态信息,切入博弈规划模块根据两辆车的初始状态信息进行战略决策的求解,根据当前博弈模型的纳什均衡解进行战术级的运动轨迹规划,发送给两车的控制模块进行循迹。

图7 两车切入博弈场景联合仿真模型

3.1 场景描述与参数设置

在Carsim 中搭建两车道的仿真场景,考虑到控制精度对于实时性要求较高,规划的频率设定为10 Hz,控制的频率设定为100 Hz,保证车辆控制能够对规划轨迹进行跟踪。切入场景中的车辆做小转角运动,且横向位置的控制精度要比纵向位置精度更高,以保证安全性。本文选择精度较高的LQR 算法进行横向控制,鲁棒性较好的PID 算法进行纵向控制,具体的车辆参数配置信息如表3所示。

表3 参数配置

通过不断调整主车与旁车的初始状态,能够得到4 种切入场景下主、旁车交互博弈的不同结果,如图8 所示。切入博弈决策规划算法增加了自动驾驶车辆在切入场景下与旁车的交互能力,拥有更多的行为选择。

主、旁车初始状态的不同会影响切入场景下的最终博弈结果。图8(a)设定的初始条件为主车落后旁车3 m,旁车以18 km/h 的速度进行切入,主车以25 km/h的速度保持匀速行驶,博弈规划算法所得到的最终结果为:主车进行加速摆脱,旁车进行减速切入。由于主车的初始速度较高,主车在旁车准备切入时会尝试加速摆脱,旁车继续切入的收益已经小于取消切入的收益。图8(b)中的初始条件为主车以18 km/h 的速度在旁车后方8 m 匀速行驶,旁车以15 km/h 的速度进行切入,博弈规划算法得到的最终结果为:主车进行减速避让,旁车加速切入。主车由于旁车的相对速度快,在旁车准备切入时选择避让。图8(c)中两车相距3 m,主车在前设定以15 km/h 的速度行驶,旁车以29 km/h 的速度准备进行超车切入,博弈规划算法得到的最终结果为:主车减速避让,旁车进行切入。主车在旁车加速超车的过程中,没有选择大幅提高车速进行摆脱。图8(d)中两车相距6 m,主车以15 km/h 的速度在旁车前方6 m 匀速行驶,旁车以18 km/h 的速度进行超车切入,博弈规划算法得到的最终结果为:主车加速摆脱,旁车在主车后方完成切入动作。从博弈规划的结果可以看出,所有条件下的切入博弈决策解都是当前状态下的最优解,能够保证车辆安全地进行交互。主车在处理旁车的切入行为中,不同于常规自动驾驶车辆的减速避让,其决策行为更具有类人性,会根据自身的状态对切入旁车进行加速摆脱或减速避让,这更符合人类驾驶员的驾驶习惯和风格。

图8 4种切入博弈规划结果

3.2 仿真结果与分析

选择上述博弈规划中的主车摆脱切入旁车场景(a)和主车避让切入旁车场景(b)进行博弈规划算法的实时性验证。针对两种切入博弈场景,在Carsim中关联主、旁车的车辆物理模型,联合Simulink 建立了切入场景下主、旁车博弈规划与运动控制模型。

主车摆脱旁车切入过程中二者运动状态关系如图9 所示。当旁车准备切入时,主车的初始速度相对较高,未选择减速来避让切入的旁车,而是通过短时间的加速,驶离了旁车的切入区域。在整个过程中二者未发生碰撞,主车作为此场景的先行者,安全且高效地通过,如图10所示。

图9 主车摆脱切入旁车

图10 主车摆脱旁车切入过程

主车避让旁车切入场景中,主车的起始位置位于旁车的后方,当旁车进行切入时,主车受制于旁车的速度和二者之间的距离,为避免碰撞,选择减速避让旁车。主车进行小幅度减速,没有因为旁车近距离的切入发生急减速,如图11(a)所示。主车减速避让切入旁车过程展示出主车面临旁车切入时与旁车的博弈交互,减速是此状态下的最优选择,两车始终保持安全的横向距离,如图11(b)所示。主车的行为决策逻辑符合人类驾驶员在切入场景的主观判断,规划的空间轨迹能够保证两车之间不发生碰撞,如图12所示。

图11 主车避让切入旁车

图12 主车避让旁车近距离切入过程

仿真测试结果证明了切入博弈规划算法能满足车辆运动控制的实时性要求,在多种条件下都能决策规划出最优的解决方案。与传统自动驾驶车辆处理旁车切入单一行为决策的逻辑不同,切入博弈规划更具有类人性,在保证安全性的前提下,车辆的通行效率因为不同切入场景下的行为选择增多而提高。

在切入博弈过程中主车的行驶舒适性主要通过车辆的纵/侧向加速度来衡量。以常用取值范围内的车辆纵、侧向加速度任意占比定义一个加速度状态,将主车每个加速度状态的持续时间进行累加,绘制加速度作用时间密度图[17],作为车辆舒适度的衡量标准,如图13 所示。高亮区域为主车的纵向加速度与侧向加速度的范围以及各自的作用时间,图中的矩形框为“舒适矩形”,两个仿真场景下的车辆加速度被控制在-0.8~0.8 m/s2之间,根据ISO 2631—1国际标准[18],这个范围内的加速度属于较舒适,且加速度的分布较为集中,没有出现大范围的变动。

图13 场景仿真过程中主车的加速度密度图

综上所述,以动态博弈为模型进行的决策规划可使车辆在纵向和横向上都有一个较好的舒适性,有效降低了车辆出现异常减速和逼停的发生几率。

4 结论

(1)将切入场景视为一个两车博弈模型,对存在博弈的切入场景进行了精细化的划分,基于车辆的运动学模型,建立主-旁车博弈规划模型,模型求解通过分层的方法,使用战略决策和战术路径规划两个层面进行切入场景下车辆之间的博弈交互规划,加快模型的求解速率。

(2)在博弈系统模型的基础上,根据车辆切入时的交互特征,采用Sigmoid 函数作为旁车切入轨迹曲线方程,通过单一参数描述两车切入博弈的交互影响,简化了轨迹规划流程。

(3)通过Carsim-Simulink 的联合仿真表明,切入博弈规划算法能够使车辆在面对切入场景时,根据两车的初始状态的不同,进行多样的舒适性决策与规划,且能达到控制的实时性要求。本文中模型的提出对于提高辅助驾驶系统或自动驾驶系统在强交互场景下的安全性和舒适性具有重要意义。

猜你喜欢
轨迹决策状态
为可持续决策提供依据
轨迹
轨迹
状态联想
决策为什么失误了
轨迹
生命的另一种状态
进化的轨迹(一)——进化,无尽的适应
坚持是成功前的状态
关于抗美援朝出兵决策的几点认识