基于PPO算法的无人机近距空战自主引导方法

2023-02-13 03:45赵宝奇刘仲凯
电光与控制 2023年1期
关键词:敌我空战坐标系

邱 妍, 赵宝奇, 邹 杰, 刘仲凯

(1.光电控制技术重点实验室,河南 洛阳 471000; 2.中国航空工业集团公司洛阳电光设备研究所,河南 洛阳 471000;3.空装驻洛阳地区第二军事代表室,河南 洛阳 471000)

0 引言

在近距空战中,战场环境复杂多变,机动决策存在高度实时性和不确定性,这些现象分散了飞行员做出关键决策的注意力,可能导致飞行员无法做出正确机动。相比于有人机,无人机具有尺寸小、隐身性能好、制造成本低、可以在危险环境下作战等优点,因此,装备自主空战决策系统的无人机将逐渐登上空战的“舞台”。

国内外学者对智能空战决策方法已进行了一定的研究。文献[1]建立了无人机六自由度的简化模型,采用微分对策法对无人机的追逃模型进行了研究;文献[2]提出了随机机动决策模型和基于影响图博弈的机动决策模型,给出了模型的求解方案,验证了影响图博弈法可用于解决一对一空战机动决策的问题,但微分对策、影响图博弈等博弈论方法难以解析求解且无法适用于复杂空战环境;文献[3]采用变权重自适应并行遗传算法并结合滚动时域的思想将空战过程分时段离散化,小规模地求解最优值,解决了敌我双机空战的问题;文献[4]对近似动态规划算法进行改进,提出了惩罚因子,解决了一对一空战中自主攻击占位问题。但遗传算法、动态规划等优化理论方法不具有仿真实时性。文献[5]采用滚动时域与专家系统结合的方法,保证了在专家系统方法失效的情况下我机仍能快速做出机动决策,但专家系统依赖于飞行员提供的空战经验,难以训练出决策能力超越飞行员的模型,因此,很难解决态势变化剧烈的近距格斗问题,由于深度强化学习不需要依靠飞行员空战经验以及大量的态势数据支撑,因此该方法被越来越多地应用于智能空战项目;文献[6]使用深度确定性策略梯度(DDPG)算法实现了二维空间下无人机在不同初始状态下向固定目标点的自主飞行;文献[7]基于深度Q学习(DQN)算法构建了无人机近距空战的机动决策模型,将训练过程分为基础训练和对抗训练,此方法提高了模型训练的速度;文献[8]结合了长短时记忆(LSTM)网络和基于竞争网络的深度强化学习(Dueling DQN)算法,加强了智能体的记忆功能,加快了智能体的收敛速度,实现了无人机一对一的对抗;文献[9]提出了奖励重塑PPO算法,将飞行器从任一点引导至移动目标位置。

本文以无人机近距空战为背景,采用标准PPO算法和改进PPO算法构建无人机自主引导模型,并设计合理的奖励函数,仿真实现了地球坐标系下无人机向机动目标区域的引导,验证了本文所提的改进PPO算法解决近距空战中无人机自主引导问题的可行性。

1 无人机机动模型建立

1.1 坐标系及其转换关系

本文建立了3个坐标系,分别为地球坐标系Oexeyeze、地理坐标系Ogxgygzg和速度坐标系Ovxvyvzv。其中:地球坐标系用来求解无人机的运动方程;速度坐标系用来构建深度强化学习中的状态和动作;地理坐标系则是二者之间的转换途径。

地球坐标系原点Oe在地心,Oexe轴指向北极,Oeye轴指向北纬0°东经0°,Oeze轴按右手定则确定;地理坐标系原点Og在无人机处,Ogxg轴指向北极,Ogyg轴指向天,Ogzg轴指向东,地理坐标系由地球坐标系按照X-Z-Y旋转L-(-B)-0得到,其中,L和B分别为无人机的经度和纬度,地球坐标系到地理坐标系的转换矩阵记为Tg,e;速度坐标系原点Ov在无人机处,Ovzv轴指向无人机速度矢量VvU的方向,速度坐标系的3个坐标轴由地理坐标系Ogxgygzg按照Y-X-Z方式旋转φ-(-θ)-0得到,其中,φ为Ogzg轴到速度矢量VvU在Ogxgzg平面上的投影的角度,即速度偏转角,而θ为该投影到速度矢量VvU的角度,即速度倾斜角,地理坐标系到速度坐标系的转换矩阵记为Tv,g。

1.2 无人机的运动模型

本文研究重点是无人机的机动决策方式,可以忽略无人机姿态的变化,因此构建无人机三自由度运动模型。

图1所示为速度坐标系下敌我双方的相对状态。

图1 速度坐标系下敌我双方相对状态Fig.1 Relative state of two sides in the velocity coordinate system

如图 1所示,无人机的控制指令a=[φ,ny,nz]T,其中,φ为滚转角,即无人机机翼与Ovxv轴的夹角,ny为法向过载,垂直于机背方向,nz为切向过载,沿着速度方向。在速度坐标系下,控制指令a产生的加速度矢量坐标av与控制指令的关系为

av=[-gnysinφ,gnycosφ,gnz]T

(1)

无人机在地球坐标系下的运动方程为

(2)

1.3 双机相对态势模型

在空战决策过程中,需要知道敌我双方的相对态势,图1则表示了速度坐标系下敌我双方相对位置、速度及角度关系,其中,VvU,VvT分别为无人机和目标的速度矢量,PvTU为目标相对无人机的位置矢量,φU为无人机的方位角,即无人机速度VvU与相对位置PvTU的夹角,qT为目标的进入角,即目标速度VvT与相对位置PvTU的夹角。另外,记VvTU为目标相对无人机的速度矢量。

PvTU,VvTU,φU,qT的表达式分别为

PvTU=PvT-PvU

(3)

VvTU=VvT-VvU

(4)

(5)

(6)

式中:PvU,PvT分别为无人机和目标在速度坐标系下的位置矢量;|PvTU|,|VvU|,|VvT|分别为矢量PvTU,VvU,VvT的模长。

2 PPO算法介绍

2.1 基本概念

令S为决策的输入,称作状态,令A为决策的输出,称作动作。通过与环境互动,在t=0时刻的状态S0上采取动作A0,会生成下一个状态S1,同时获得单步奖励r0,通过不断与环境交互,生成的状态和动作可形成如下的序列,称作轨道,记作τ,即

τ={S0,A0,r0,S1,A1,r1,…,St,At,rt,…}。

记Gt为轨道τ的累积回报,其表达式为

(7)

式中,γ为折扣因子,表示越往后的奖励对当前时刻的Gt所产生的影响越小。

从状态S出发的所有轨道累积回报的期望称作状态S的价值,记作V(S),即

V(S)=E[Gt|St=S]=E[rt+γrt+1+…|St=S]=
E[rt+γGt+1|St=S]

(8)

由式(8)可得前后两个状态的价值有如下的关系,称作贝尔曼方程,即

V(St)=rt+γV(St+1)。

(9)

2.2 Critic网络

在实际应用中,通过式(8)计算价值V(S)是不现实的,通常构建一个状态S和价值V(S)之间的神经网络,称作Critic网络,用于对价值V(S)进行预测,将预测价值记为Vpred(S)。

而在强化学习中,价值的“真实值”即样本值,是通过与环境互动后递推计算出来的。设τ={S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1}为一段长度为T的轨道片段,将此片段上的最后一个状态ST-1输入Critic网络获得预测价值Vpred(ST-1),可根据

(10)

递推出该片段上每个状态的价值。

图2所示为全连接Critic/Actor网络结构。

图2 全连接Critic/Actor网络结构

如图2所示,Critic网络的构建方式为

(11)

式中:li为第i层神经网络的输出矢量;FC表示网络的连接方式为全连接(Fully Connected);Nli为第i层网络的节点数;ReLU为激活函数;n为该Critic网络的层数。

Critic网络的训练方向就是让预测值Vpred(S)尽量接近样本值Vsamp(S),因此其损失函数定义为

(12)

2.3 Actor网络

状态S和动作A之间也构建了一个神经网络,称作Actor网络,该网络输出一个概率分布,称作策略π,然后依照π进行随机采样,生成A。本文中的策略采用多元正态分布,并假设各元之间独立,记μ和σ分别为π的均值向量和标准差向量。而A的生成方式为A~π(S)=Ν(μ,σ2),即A服从正态分布。

如图2所示,Actor网络的构建方式为

(13)

Actor网络的训练方向就是使得状态价值V(S)尽可能增大,则Actor网络的损失函数可定义为

LA=-V(St)=-E[Gτ|S=S0]。

(14)

在实际应用中,使用了近似表达式,若从S0出发,按照策略不断生成动作,得到如下的轨道片段τ={S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1},则损失函数为

(15)

另外,为了避免因某些动作未被采样而导致的该动作概率下降的情况出现,对Actor网络的损失函数做一些改进,即

(16)

记FAdv=Vsamp(St)-Vpred(St),称作优势函数。

2.4 标准PPO算法

PPO算法训练上述两个网络时采用的优化器是AdaDelta,相比于传统的梯度下降方法,该优化器能够自适应地调节学习率。两个网络的目标函数LC和LA分别代表各自的损失函数。

Actor网络训练过程中通过与环境互动采样生成一条轨道片段(即样本),计算损失函数,更新网络参数,再按照新的网络参数重复如上步骤,完成网络训练。可见,网络采集的样本只能使用一次。为了重复利用这些样本,采用重要性采样的方法,引入策略πold和πnew,πold用来采样,采集的样本用来训练πnew,结合重要性采样方法后的Actor网络的损失函数LA可表示为

(17)

为了保证决策过程平稳进行,网络更新前后的策略πold和πnew不能相差太大,因此需要对策略πnew做一些限幅处理,此算法称作近端策略优化,即PPO算法[10]。

PPO算法中策略限幅的方法为

(18)

式中,ε决定限幅的程度,一般取值为0.2。

2.5 改进PPO算法

标准的PPO算法采用全连接神经网络,随着网络规模的增大,训练时极易发生梯度爆炸和梯度消失的情况,导致训练崩溃或无效。另外,全连接神经网络只能处理单个时间点上的输入,前后两个时间点上的输入是完全没有关系的,如图3所示,但是在空战中,态势数据有强烈的时序相关性。

图3 标准PPO算法下的Critic/Actor网络结构Fig.3 Critic/Actor network structure based onstandard PPO algorithm

文献[11]提出的长短时记忆(LSTM)网络可以解决梯度爆炸和梯度消失的现象,而且对于处理这种与时间序列高度相关的任务十分有效。LSTM由一个输入门、一个遗忘门和一个输出门组成,如图4所示。

图4 LSTM的基本结构Fig.4 Basic structure of LSTM

图4中,xt为当前时刻的输入,ct-1,ht-1分别为上一时刻的细胞状态和输出,ct,ht分别代表当前时刻的细胞状态和输出,sig为Sigmoid激活函数,tanh为tanh激活函数。特殊的门结构使其输出不仅与当前时刻的输入和上一时刻的输出有关,还与上一时刻的细胞状态有关。

本文将Critic和Actor网络的全连接神经网络替换成LSTM神经网络,改进后的Critic和Actor网络如图5所示,横向按照空间维度展开,n代表LSTM的隐藏层数,纵向按照时间维度展开。

图5 改进PPO算法下的Critic/Actor网络结构Fig.5 Critic/Actor network structure based on the improved PPO algorithm

3 无人机自主引导模型建立

3.1 状态和动作

在本文中,状态S为速度坐标系下敌我双方当前时刻位置、速度、角度等相对态势,其表达式为

S=[PvTU,VvTU,φU,qT]T

(19)

状态S包含8个变量。

动作A为滚转角、法向过载、切向过载3个控制指令,即

A=a=[φ,ny,nz]T

(20)

动作A包含3个变量。

3.2 下一时刻状态

在地球坐标系下,利用式(2)求解无人机的运动方程,计算出无人机下一时刻位置P′eU和速度V′eU,采用匀速直线运动公式求解目标下一时刻位置P′eT和速度VP′eT。同时计算无人机的经纬度,即L,B,以及地球坐标系下目标下一时刻相对无人机的位置P′eTU和速度V′eTU。

通过坐标系转换,将P′eU,V′eU,P′eT,VP′eT,P′eTU,V′eTU投影到速度坐标系上,并利用式(5)、式(6)计算出下一时刻的φ′U,q′U,获得下一时刻的状态S′。

3.3 奖励函数

1) 距离奖励函数。

为使无人机尽快靠近目标,应使下一时刻的敌我距离小于当前时刻的距离,则设置距离奖励为

(21)

式中:vmax为本机最大速度;vmaxΔt用于将距离奖励归一化。

2) 速度奖励函数。

为使无人机尽快到达目标区域,目标相对无人机速度在目标相对位置矢量上的投影应当尽可能为负值,则设置速度奖励为

(22)

vmax用于将速度奖励归一化。

3)角度奖励函数。

引导过程中,当无人机的方位角φU及目标的进入角qT趋近于0°时,无人机在目标尾后,无人机处于优势,当无人机的方位角φU趋近于180°时,无人机与目标背向飞行或在目标尾后,此时无人机处于劣势,设置角度奖励为

(23)

4) 任务约束奖励函数。

当敌我距离小于完成任务的最小距离dmin时,引导成功,获得正奖励,而当敌我距离超出空战范围dmax时,引导失败,获得负奖励,则设置任务约束奖励为

(24)

5) 综合单步奖励。

综上,本文建立的训练模型总奖励函数为各个奖励函数的加权和,即

r=ω1r1+ω2r2+ω3r3+r4

(25)

式中,ω1,ω2,ω3分别为距离、速度、角度奖励函数的权重,ω1+ω2+ω3=1。考虑到不同态势下几种因素产生的影响不同,应合理地分配各个权重,当敌我距离较大时,我机应适量提高速度、缩短距离以接近敌机,此时应增大距离权重ω1和速度权重ω2;当敌我距离较小时,应着重考虑角度奖励函数,使无人机方位角φU和目标的进入角qT尽可能小,从而使敌机落入我机正前方区域,此时应增大角度权重ω3;任务约束奖励r4与上述3个奖励不同,不受敌我态势的影响,因此权重设置为1。

3.4 无人机自主引导模型训练流程

无人机自主引导模型涉及两个模块,如图6所示,一个是PPO算法单元,与仿真环境交互生成决策指令,一个是仿真训练环境,负责响应决策指令,生成战场态势数据。

图6 无人机自主引导模型训练流程Fig.6 Flow chart of UAV autonomous guidance model training

训练流程如下所述:在仿真环境中,首先初始化敌我的运动参数,在一定范围内随机生成我机和敌机的经纬度及速度坐标系下的速度,计算出敌我相对位置、速度、角度,经过一系列坐标转换获得当前时刻速度坐标系下敌我相对状态S,将状态输入至PPO算法单元,PPO算法单元输出无人机控制指令A并反馈给仿真训练环境,无人机通过控制指令A控制无人机机动,得到无人机下一时刻在地球坐标系下的位置和速度,同时,敌机根据初始化的速度更新运动参数,进而计算出下一时刻敌我相对状态S′以及即时奖励r,并将S′和r反馈给PPO算法单元,然后重复上述步骤;当PPO算法单元存储一定长度的轨道片段{S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1}时,分别计算Actor和Critic网络的损失函数,并对网络参数进行更新,利用更新后的网络继续与仿真环境交互,更新敌我的运动参数;直至满足或破坏任务约束条件时,即引导成功或超出空战范围,此次训练结束。

4 仿真验证

假设敌我双方的空战在10 km×10 km×10 km的三维空域内进行,训练回合数Pmax=30 000,无人机决策周期Δt=0.05 s,单回合内最大决策次数PLen=3000。将切向过载nz和法向过载ny的取值范围设置为[-9g,9g],将滚转角φ的取值范围设置为[-180°,180°],以保证无人机机动模型的机动方式更接近真实无人机的机动方式。

本文完成了标准PPO算法和改进PPO算法模型的训练。训练过程中记录每个回合的总奖励,分别生成了两种算法模型的奖励函数曲线,如图7所示。

图7 奖励函数曲线对比图Fig.7 Comparison of reward function curves

由图7可以看出,经过一定回合的训练,两种算法模型均能从环境中获得正奖励,决策能力逐渐增强,标准PPO算法模型大约经过16 000次的训练之后,奖励函数的值开始收敛并稳定在4左右;改进PPO算法模型大约经过11 000次的训练之后,奖励函数的值开始收敛并稳定在6左右。由此可见,结合了LSTM网络的PPO算法模型学习能力更强,收敛速度较快。

训练完成后分别对两种算法模型进行了测试,测试结果如下。

1) 标准PPO算法模型仿真测试。

本次测试的敌我双方初始化态势:无人机在地球坐标系下初始坐标为(3 185 500.21 m,4 504 977.22 m,3 185 499.98 m),速度坐标系下的初始速度大小为135.27 m/s。目标在地球坐标系下的初始坐标为(3 185 621.32 m,4 505 988.49 m,3 185 852.52 m),速度坐标系下的初始速度大小为104.32 m/s。

该态势下仿真测试结果如图8(a)所示,标准PPO算法下的智能体成功地将无人机引导至匀速运动的目标区域。回合开始时,无人机的高度低于目标高度,其采取盘旋加爬升的方式追踪目标,但此次引导过程中无人机也做了一些无用的动作,经历了多次盘旋,而且其运动轨迹不够平滑。

图8 敌我双方运动轨迹Fig.8 Trajectories of two sides

2) 改进PPO算法模型仿真测试。

本次测试的敌我双方初始化态势:无人机在地球坐标系下初始坐标为(3 185 500.00 m,4 504 977.14 m,3 185 499.83 m),速度坐标系下的初始速度为194.27 m/s。目标在地球坐标系下的初始坐标为(3 185 350.11 m,4 504 389.25 m,3 186 907.54 m),速度坐标系下的初始速度为125.46 m/s。

该态势下仿真测试结果如图8(b)所示,当无人机航向偏离目标,智能体从仿真环境中获取距离负奖励,然后及时选择合适的机动动作来改变无人机的航向,无人机采取右转弯加俯冲的方式向靠近目标的方向飞行,直至从目标尾后追上目标,完成了作战任务,可见,该算法下的智能体经过训练之后学会了选择合理有效的机动动作。

5 结论

本文提出了基于改进PPO算法的无人机自主引导方法,并针对敌我距离、角度、速度以及任务约束等因素设计了合适的奖励函数。通过仿真测试结果可得:1)该方法决策一次动作的时间为0.05 s,可以进行实时有效的机动决策;2)对于任何初始状态的无人机和目标,该方法均可实现无人机向机动目标区域的引导,具有泛化性;3)该方法结合了LSTM与强化学习,相比于标准PPO算法,提升了模型的收敛速度,增强了无人机机动的灵活性,提高了无人机的运动轨迹平滑度。

本文的研究对无人机自主近距空战具有重要意义,但与实际空战仍有一定差距,下一步的工作将针对实现导弹攻击条件的问题进行研究。

猜你喜欢
敌我空战坐标系
挪威军方将接收升级版敌我识别系统
最强空战王
独立坐标系椭球变换与坐标换算
解密坐标系中的平移变换
坐标系背后的故事
空战之城
意大利的“台风”战机演示模式—5反向敌我识别系统的空地识别能力
“85:0”的叙以空战
极坐标系下移动机器人的点镇定
漫36计 走为上