基于深度强化学习的无人机栖落机动控制策略设计

2023-01-03 10:34仇靖雯

导航定位与授时 2022年6期

黄赞，何真，仇靖雯

(南京航空航天大学自动化学院, 南京 211106)

0 引言

降落是固定翼无人机飞行性能的关键阶段，固定翼飞行器的降落通常需要一定的滑跑距离，才能保证安全着陆。鸟类的降落方式有着飞行器无法达到的优势。文献[1]观察到鸽子可以从空中直接降落到栖木上，降落过程中翅膀和身体存在40°～90°之间的较大俯仰角。研究者借鉴鸟类的降落方式，提出了无人机栖落机动的概念。无人机在栖落机动过程中，通过大迎角过失速的机动，产生很大的空气阻力，实现快速减速，并最终以较低的速度准确降落在预定落点[2]。栖落机动飞行的过程不再需要滑行跑道，能够拓宽固定翼无人机的应用场合。

文献[3-4]研究了无人机栖落机动的空气动力学模型，文献[5]研究了无人机栖落机动过程的轨迹优化，并设计了变体无人机用于改善栖落机动的性能。文献[6]研究了基于扰动观测器的无人机栖落机动控制方法，并建立了由高度非线性的纵向动力学转化而成的分段线性模型。目前，栖落机动控制方面的研究思路大多是给定参考轨迹，基于近似线性化的模型设计轨迹跟踪控制器[7-8]。这类方法有一个共同的特点，即所设计的控制器依赖于参考轨迹，只在参考轨迹附近有效。而栖落机动中的无人机是一个高度非线性快时变的系统，同时栖落机动需要满足许多约束(尤其是落点处的位置和速度约束)，这使得不同条件下的参考轨迹偏差很大，且不容易计算获得。针对这个问题，本文研究了一种无需给定参考轨迹的栖落机动控制策略设计方法。

强化学习通过与环境之间的交互，更新控制策略。一些专家学者提出了基于强化学习的飞行控制方法，可以根据当前的飞行状态直接得到控制量，具有良好的适应性。文献[9]针对无人机自主飞行到热上升气流的问题，设计了基于强化学习的飞行器导航控制器。文献[10]利用强化学习训练无人机在野外自主导航到热上升气流，学习并验证了局部垂直风加速度和滚转力矩对于导航的重要性。文献[11]将深度强化学习应用到无人机自动特技飞行领域，能够显著地缩短学习时间。但在现实环境中，希望无人机从学习开始就具有良好的在线性能，如果先利用良好的历史数据进行预训练，将会增加深度强化学习在真实环境中的应用场景。文献[12]利用专家数据进行预训练，加快深度Q学习的学习过程。文献[13]基于演示数据中的深层确定性策略梯度算法，解决了机器人将柔性对象插入刚性对象的搬运问题。在学习的前期阶段，加入少量的专家演示数据可以帮助智能体的探索和学习。

针对具有高非线性、多约束特性的无人机栖落机动过程，本文基于深度强化学习，提出了一种无需给定参考轨迹的栖落机动控制策略设计方法。本文第一章介绍了固定翼无人机栖落机动的纵向动力学建模；第二章设计了固定翼无人机栖落机动的强化学习模型；第三章设计了能从专家经验数据中学习的基于深度强化学习中近端策略优化(Proximal Policy Optimization，PPO)的栖落机动控制策略设计方法；第四章进行了仿真实验，验证了本文设计方法的有效性；第五章总结了本文的工作。

1 无人机栖落机动动力学建模

本文研究的对象为固定翼无人机，为了简化研究模型，仅针对固定翼无人机栖落机动的纵向动力学建模，假设横向运动对纵向运动方程无影响，方程如下[5]

(1)

式中，V为固定翼无人机的飞行速度；μ为航迹倾斜角；α为迎角；q为俯仰角速度；x为无人机的水平位置；h为垂直高度；m为无人机的质量；T为发动机推力；M为空气动力矩；Iy为俯仰转动惯量；L和D分别为无人机所受的升力和阻力。

固定翼无人机纵向运动的空气动力方程如下

(2)

式中，ρ为空气密度；S为固定翼无人机的空气动力面积；CL、CD和CM分别为升力、阻力和力矩系数，其中CL和CD可由平板模型方法[14-15]得到与α之间的表达式

(3)

假设固定翼无人机装有全动水平尾翼，能够帮助无人机在低速飞行的状态下获得较大的控制力矩，则空气动力矩系数的表达式为

1.4sinαsin2(α+δe)+0.1sinα)

(4)

式中，Se为升降舵的表面积；le为升降舵空气动力重心到无人机质心的距离；δe为升降舵偏转角。

2 栖落机动的强化学习模型

2.1 基本模型与价值函数

本文采用标准马尔可夫决策过程(Markov Decision Process，MDP)形式对无人机的栖落机动控制过程进行阐述。MDP由状态S、动作A、收益R、概率分布P以及折扣因子γ构成。

在每一个时间步t，无人机与环境进行交互，返回一个观测值st∈S，观测值包括无人机的速度V、航迹倾斜角μ、迎角α、俯仰角速率q、水平位移x以及纵向位移h，在这个观测值的基础上选择并执行动作at∈A，动作包括推力T以及升降舵偏转角δe。下一时刻，作为执行动作的结果，获得一个数值化的收益rt+1∈R(奖励函数的设计将在2.2节中给出)，根据当前无人机的状态和所执行的动作结合概率分布P(st+1|st,at)，确定下一时刻无人机的状态st+1。每一幕轨迹在无人机抵达目标点并成功栖落或达到时间上限值时终止。

在基于策略的强化学习方法中，无人机在每个状态下所采取的动作都遵循策略π，优化的目标是在策略π下的收益累加和

(5)

式中，τ={(s0,a0,r1),(s1,a1,r2)…}是无人机在策略π下的运动轨迹。

采取带参数θ的神经网络近似描述策略π，记为π(a|s,θ)。

本文采用策略梯度法学习策略参数θ，其目标是最大化目标函数J(θ)

J(θ)=Et[logπ(at|st,θ)At]

(6)

式中，At为优势函数，是动作价值函数Q(s,a)和价值函数V(s)的差值

At=Q(st,at)-V(st)

(7)

策略参数θ的更新近似于J(θ)的梯度上升

(8)

2.2 奖励函数塑造

在强化学习中，根据控制任务设计适当的奖励函数非常重要。奖励函数选取是否恰当，对学习过程的收敛性以及可行性有着重大影响，它的选取与任务的目标、控制对象所受的约束条件，以及所希望达到的性能指标密切相关。根据无人机无跑道降落的需求，要求栖落机动的无人机在规定的时间内到达预设栖落点完成栖落机动，并希望终点时刻的速度、俯仰角以及与目标值的误差越小越好。因此，无人机栖落机动强化学习算法的奖励函数如下所示:

(9)

式中，xf为终点位置；xmax为允许的最大水平位移。无人机栖落机动的最终目的是降落到预设地点，算法鼓励无人机越接近预设栖落点越好。

(10)

式中，vf为终点速度；vmax为过程中允许的最大速度。无人机栖落机动在终点时刻时，速度越小越好，算法鼓励无人机接近预设降落速度。

(11)

即无人机离终点位置的距离和终点时刻的速度变小，算法鼓励无人机朝着栖落点接近。

(12)

≤σx&&|ht-hf|≤σh

(13)

式中，σv、σx和σh分别是终点速度、终点位置和终点高度的允许误差；hf为终点高度；符号&&表示逻辑运算符与。

(14)

(15)

3 栖落机动的控制策略优化算法

3.1 模仿强化学习框架

本文利用模仿强化学习(Imitation Reinforcement Learning，IRL)对无人机的栖落机动进行轨迹优化。该学习通过从人类专家的演示数据中学习，并促进深度强化学习。对无人机栖落机动的轨迹优化设计分为两个阶段，一个是模仿学习阶段，另一个是使用PPO算法的强化学习阶段。整体架构如图1所示。

图1 从模仿中进行强化学习的框架图Fig.1 Architecture of reinforcement learning from demonstration

IRL基于PPO算法学习实现，但传统的PPO算法会在大的动作空间中进行过多的失败探索，往往会陷入局部最优。IRL则通过为行动器网络的动作空间搜索提供更好的探索方向，以解决陷入局部最优的问题[16]。

3.2 模仿学习

在第一阶段，本文使用模仿学习的方法对网络进行预训练，并在训练结束后，将学习到的神经网络权重共享到下一阶段的行动器网络中。该阶段首先使用广义伪谱GPOPS(General Pseudospectral Optimization Software)工具包生成学习所需的轨迹，得到N个参考轨迹序列τ。利用生成的轨迹通过模仿学习来训练策略网络，以模仿专家数据。策略π的网络结构如图2所示。策略网络中的输入为无人机栖落机动的状态量，即飞行时的速度、航迹倾斜角、迎角、俯仰角速率、水平位移以及纵向位移，输出为升降舵偏转角的变化量。

通过模仿学习训练无人机栖落机动飞行策略时，需要大量的演示数据，但过多相似的数据反而会影响训练的效率。参考优先经验回放，对训练的输入样本进行非均匀抽样，这样既能让收敛更快，也能让收敛时的平均回报更高。先对所有的样本根据重要度降序排列，每个样本抽取的概率为

pj∝1/rank(j)

(16)

其中，rank(j)为样本的序号。

由于演示的数据必然只会覆盖状态空间的一部分，也没有采取所有可能的动作，因此有很多状态动作从未被采取过，所以对模仿学习时的损失函数增加了一个监督损失

(17)

式中，ae为演示数据中所采取的动作，当a=ae时，l(ae,a)=0，否则为正。增加的监督损失能够诱导无人机智能体的行为靠近演示数据。

3.3 策略梯度优化

在第二阶段，本文使用PPO算法训练策略网络，以提高无人机栖落机动策略的泛化能力。该策略通过与仿真环境的互动获得收益，并使用反馈回来的奖励函数优化策略网络。在从第一阶段得到的策略网络的基础上学习，能够提高该阶段的强化学习样本利用率以及学习效率，从而获得更加通用的策略。由于无人机栖落飞行系统需要连续的预测动作，因此采用行动器-评判器的框架更新策略。用带参数ω的神经网络近似价值函数，记为V(s,ω)。则策略参数和价值函数参数的更新公式如下

(18)

(19)

式中，δt为t时刻的回报和以价值函数作为基准线的差值

δt=rt+1+γV(st+1,ω)-V(st,ω)

(20)

采用PPO算法优化此策略网络，可以实现多次的小批量更新，并且能够更好地应对复杂的环境情况。将经过模仿学习预先训练好的θI加载到θ中，代替随机初始化策略网络参数，有助于减少PPO在早期阶段探索所耗费的时间。

为了更好地利用更新策略时所得到的轨迹数据，可以使用重要性采样构建目标函数[17]

(21)

式中，θold是更新之前的策略参数。

为了防止前后更新的策略差异较大，PPO算法通过使用超参数裁剪目标函数的形式来解决这类问题。

Jclip(θ)=E[min(pt(θ)At,clip(pt(θ),

1-ε,1+ε)At)]

(22)

At=δt+γλδt+1+…+(γλ)T-t+1δT-1

(23)

式中，λ为广义优势估计的平滑系数。

4 仿真结果与分析

4.1 仿真实验参数

为验证提出的轨迹规划算法的有效性，本节进行了仿真实验研究。仿真中所采用的无人机动力学方程如式(1)，气动参数如式(2)～式(4)，无人机的物理参数如表1所示。初始时间为t0=0s，离散化采样时间为Δt=0.01s，栖落机动轨迹优化最大完成时间为tf=2s。

表1 无人机的各项物理参数

在仿真过程中，无人机的理想初始状态为s0=[10,0,0.2544,0,0,0]，初始控制量a0=[3.7698,-0.15]。为了检验算法在初始状态不确定的情况下的轨迹优化效果，设定初始情况下的水平位置与理想状态的偏差范围在0.5m以内。无人机在栖落机动飞行过程中以及终点位置的约束参数如表2所示，并且希望终点的速度、俯仰角、水平以及纵向位移的偏差越小越好。IRL算法的超参数设置如表3所示。

表2 状态以及控制量约束参数

表3 算法超参数

4.2 基于IRL的仿真实验

IRL在训练无人机过程中的奖励变化曲线如图3所示。其中，蓝色曲线为没有经过模仿学习，直接用策略梯度优化算法的奖励变化曲线；红色曲线为经过模仿学习再用策略梯度优化(即IRL)的奖励变化曲线；黄色曲线则为不包含迎角奖励模块的IRL奖励变化曲线。

图3 训练时的奖励曲线Fig.3 Reward curves during training

由图3可知， RL的方法需要在早期对状态动作空间进行大量的探索，而IRL则利用专家演示数据对神经网络进行预训练，并与行动器网络共享网络权重，大大加快了学习的进程，并且IRL在训练到8万幕时，平均的奖励函数值就已达到了预期的目标。在IRL方法的奖励函数中加入迎角奖励模块，则能够进一步加快早期学习的过程，并能够减少无人机在中期对不确定状态的试探。

在采用IRL对无人机的栖落飞行训练完后，进行仿真测试，测试集为1000幕。在训练达到14万幕时，仿真测试成功率达到可接受的范围。在训练幕数达到20万幕时，仿真测试的成功率能够达到97.5%。图4给出了100幕不同初始条件下成功和失败案例的降落点分布图。图5则分别给出了不同初始条件下无人机在栖落机动飞行过程中的不同状态量变化曲线，且无人机栖落机动飞行过程中的状态量满足设定的过程约束和终点约束。

图4 降落点分布图Fig.4 The distribution of landing

(a)水平位置变化曲线

5 结论

1)基于IRL的控制策略设计方法，只在模仿学习阶段需要专家经验轨迹(可以离线生成)，在强化学习阶段和在线运行中都不需要参考轨迹。利用该方法得到的控制器不依赖于参考轨迹，可以根据当前的飞行状态直接得到控制量，具有良好的适应性。

2)栖落机动轨迹规划的仿真结果表明，采用IRL设计的控制器不仅能够实现无人机的栖落机动，同时经过离线学习后，能够根据不同的状态实时在线调整轨迹，保证轨迹满足预先给定的要求。

本文针对固定翼无人机栖落运动的非线性问题，在深度强化学习的基础上考虑了模仿控制策略。后续工作中，将会考虑根据自身条件做出决策的无人机个体性的学习方案。今后也将进一步研究在各种外部风扰动情况下无人机的栖落机动飞行，以增强面对各种复杂环境的适应能力。