基于GRU 的敌方拦截弹制导律快速辨识方法

2022-03-29 07:49王因翰范世鹏吴广王江何绍溟

航空学报 2022年2期

王因翰,范世鹏,*,吴广,王江,何绍溟

1.北京理工大学宇航学院,北京 100081

2.北京航天自动控制研究所,北京 100854

近几十年来,防御体系不断完善,我方飞行器在飞行过程中所面临的生存压力不断增大,如何有效避开敌方拦截弹的攻击是飞行器研发过程中的一项重要课题。目前飞行器规避拦截的主要策略有基于微分对策的规避策略和随机机动规避策略。无论采用哪种博弈策略,为更好地规避拦截,都需要利用我方飞行器探测到的与敌方拦截弹相对运动信息,对其所用制导律及制导参数进行在线辨识。与单纯基于运动学的传统轨迹预测及规避策略相比,基于制导律辨识的规避策略能够更准确地预测敌方拦截弹飞行路线,制定针对性更强的规避方案。

然而,研究制导律辨识的文献数量较少。拦截弹制导律辨识是一个复杂动态问题,若对拦截弹制导律辨识仅依靠某一时刻运动学信息,则辨识结果具有片面性。传统辨识方法以卡尔曼滤波器为基础,通过将所测到的敌方导弹运动信息与卡尔曼滤波器的预测信息进行对比,不断调整卡尔曼滤波器输出数值直至测量值与真实值相近。文献[13-14]设计了基于非线性多模自适应卡尔曼滤波器的制导律辨识方法,设置多个卡尔曼滤波器并行运行,每个滤波器代表一种可能的敌方拦截弹制导律；文献[15]在海战防空拦截背景下对交互卡尔曼滤波进行了改进,利用改进交互卡尔曼滤波器对敌方反舰导弹所用制导律进行辨识。基于卡尔曼滤波器的制导律辨识方法通常通过与其他方法相结合来增强模型的适应性和准确度,这类辨识方法存在以下问题：对获取信息的连续性要求高,使工程应用价值大打折扣,同时,也限制了我方飞行器的机动性；辨识过渡过程较长,在1 s以上,不能满足强对抗条件下的快速性要求。

神经网络因其强大的自主学习能力,可从大量数据中提炼基本规律,在诸多问题上都得到了广泛的应用。其中,长短时记忆神经网络(LSTM)因其可模拟人类长期和短期记忆筛选能力,在解决动态问题上大放异彩。文献[24]使用LSTM 网络提出了一种时变结构振动观测模型,建立了时变结构动力特性与振动间关系,能够实现对时变结构模型的在线分析。文献[25]针对空间机器人系统惯性张量测量问题,利用LSTM 神经网络建立了惯性张量在轨辨识模型。文献[26]建立了基于LSTM 的战场意图识别模型,通过综合分析战场传感器获得的多源信息,实现对敌方目标粗粒度战术意图的识别。文献[27]应用门循环单元(GRU)神经网络对航空发动机的剩余寿命进行预测,辨识依据为航空发动机内部多个位置处的速度、维度和压力。LSTM 网络初步实现了动态问题数据快速分析,然而,由于其规模庞大,导致训练时间过长,为此,GRU 网络在LSTM 网络结构上进行了简化,在几乎不影响网络性能的条件下,有效地提升了网络的训练速度。

针对强对抗条件下的敌方拦截弹制导律辨识问题,考虑到GRU 网络的优势,本文提出了一种基于GRU 网络的制导律快速辨识方法。建立相对运动学模型,以一段时间内的敌我运动学信息作为样本输入,将所使用的拦截弹制导律参数作为类型标签,为该网络构建大量的多样化样本库；其次,给定损失参数,采用Adam 算法对GRU 网络进行训练,使网络参数达到最优,利用完成训练的GRU 网络,即可实现对敌方拦截弹制导律的在线快速辨识,在噪声较大的条件下,辨识准确度仍保持较高的水准。

1 问题描述

1.1 运动学模型

在惯性坐标系下建立我方飞行器与敌方拦截弹(导弹)的运动学模型。导弹初始位置位于坐标系原点,竖直向上,垂直于指向目标,按照右手定则确定,如图1所示。

图1 敌方拦截弹拦截我方飞行器示意图Fig.1 Schematic view of an aircraft intercepted by an enemy missile

敌方拦截弹运动学可描述为

式中：、、为拦截弹在惯性系中的坐标；、为拦截弹速度倾角和速度偏角；()为拦截弹质量；()为导弹推力；为拦截弹所受阻力；n 、n 分别为的拦截弹俯仰和偏航加速度。

比例导引(PN)制导律是目前应用最为广泛的制导律,在攻击目标过程中,导弹需用过载与相对速度和弹目视线角的乘积成正比；增强比例导引(APN)在PN 基础上增加了目标机动补偿项,从而降低在命中点附近的弹道需用法向过载。2种制导律生成的加速度指令分别为

式中：为制导参数；为目标加速度。

在我方飞行器攻击末段,可近似认为敌方拦截弹速度大小是不变的,即

我方飞行器在三维空间中按照一定规律进行机动,敌方可精确制导的拦截弹对我方飞行器进行拦截。在飞行过程中,我方飞行器可通过机载或弹载雷达实时获取敌方拦截弹运动学信息,包括相对距离、弹目视线倾角q 和弹目视线偏角q 。在敌我相对运动模型中,其各自计算表达式为

1.2 制导律辨识问题

敌方拦截弹以我方飞行器为目标,采用不同的制导律或制导参数,都会控制拦截弹产生不同的加速度,进而使其沿着不同运动路线飞行,如图2所示。

图2 使用不同制导律导弹沿不同轨迹接近飞行器Fig.2 Missiles with different guidance laws approaching aircraft along different trajectories

图3 信息获取及辨识过程Fig.3 Process of information acquisition and guidance law identification

2 制导律辨识模型

LSTM网络是循环神经网络(RNN)的一种,其通过“门”的设计实现对长期记忆的保留,解决了原始RNN 网络在模型训练过程中存在的“梯度爆炸”或“梯度消失”问题。GRU 网络将LSTM 神经元结构合并简化,在保证准确率的同时,加快训练速度,并减少存储空间。

2.1 GRU 神经元

神经网络由大量神经元组成,GRU 神经元内部结构如图4所示。

图4 GRU 神经元内部结构Fig.4 Inner structure of GRU

GRU 神经元由以下几部分组成：

1)两个输入：上一时刻的神经元输出h 和上一层的神经元输出x ,用来传承上一时刻神经元的输出和接收上一层神经元的输出。

2)两个门：重置门r ,用于计算之前的记忆需要保留多少；更新门z ,用于计算当前时刻的更新内容,计算方法为

4)一个输出：最终输出h ,根据当前的输入和内部状态计算输出,计算方法为

式(5)～式(7)中：表示sigmoid函数；表示权重矩阵；表示偏置量；计算符号·表示矩阵乘,计算符号⊙表示按元素乘。

2.2 基于GRU 的制导律辨识模型

GRU 网络输入端为

式中：size(input)表示输入端矩阵大小；表示输入维度；表示输入步长。输入数据为二维矩阵形式,相比于一维输入的BP 网络,GRU 网络可快速识别发现不同特征量在不同时间点变化。

使用GRU 网络建立制导律辨识模型如图5所示,包含输入层、3个隐含层、输出层,其中为隐含层神经元数量。

图5 基于GRU 制导律辨识模型Fig.5 Guidance law identification model based on GRU

输入层输入数据为敌我双方运动学信息,采用tanh函数作为激活函数,将时刻的输入加权并压缩到[-1,1]区间内,计算公式为

式中：h 为输入层传递到隐含层的信息；w 为权重矩阵；x 为时刻输入信息。

假设制导律及制导参数属于给定集合,输出层输出为不同制导律的概率,输出层计算公式为

输出层激活函数为softmax,使GRU 网络的输出结果满足：

3 模型训练

本文采用监督学习的方式对网络进行训练,基于前述运动学模型进行数学仿真提取数据建立样本库,对网络进行训练。

3.1 样本建立

网络训练是指网络不断调整各参数值以适应训练样本输入输出的过程,用于训练的样本对网络的优化效果至关重要。为了尽可能覆盖样本空间,本文通过不同的敌我双方初始状态、我方目标运动轨迹等方式使训练样本多样化。

样本输入形式为

式中：a 表示第时刻的输入向量,上标T 表示我方飞行器运动学信息,上标M 表示敌方拦截弹运动学信息,上标TM 表示敌我双方相对运动学信息；为输入步数。

为加快模型收敛,在输入数据前需将原始数据转化为区间相同的、无量纲的数值,即对其进行标准化和归一化处理,消除不同指标之间因属性不同而带来的影响。当前广泛应用的处理方法有最大最小线性变化、Logistics/Softmax 变化、反正切函数变化、Z-score规范化和对数变换等。本文采用的是最大最小线性变化,将数据缩放到[0,1]区间内,计算公式为

采用one-hot方法为样本添加标签,标签与制导律映射关系如图6所示。

图6 标签与制导律映射关系Fig.6 Mapping relationship between tags and guidance laws

采用滑动时窗方式生成样本以最大限度利用数据,如图7所示。为保证网络适应性及广泛性,在从敌我双方相对运动模型提取数据过程中。

图7 样本生成方法Fig.7 Method of sample generation

3.2 基于Adam 的训练过程

基于Adam 算法对GRU 网络进行训练,该算法将Momentum 算法与RMSprop算法相结合,加入动量并使参数自适应训练。与BP 算法相比,Adam 算法能够有效避免网络陷入局部最优点,加速网络收敛,提高算法鲁棒性。

选取交叉熵函数作为损失函数,其计算公式为

首先,计算各参数对目标函数的梯度：

式中：为损失函数；为所需训练参数,包括权重和偏置。权重与偏置训练方式相同,下面推导以权重w 为例进行。

根据GRU 基本神经元内部结构,式(15)可化为

对于其他层之前时刻神经元,其神经元内部误差传递项均为

1)沿时间反向传播

2)沿层反向传播

由此式(21)可化为

由式(16)、式(18)、式(20)、式(23),可计算得要训练的参数,∈{,}目标函数的梯度g 。

对于和中的某一具体元素,基于Adam算法的参数更新公式为

式中：θ为更新前参数；θ为更新后参数；k为所训练参数在梯度矩阵g 中对应梯度元素；为学习率；为平滑项,防止被零除；m'为一阶矩估计,v'为二阶矩估计；m为梯度一阶矩；v 为梯度二阶矩。

网络流程如图8 所示。建立好样本库及GRU 网络后,分批次从训练样本库中抽取样本输入GRU 网络中,计算训练集准确度、损失函数值及训练时间；而后对网络进行训练,训练完成后将测试样本集输入网络进行测试,得到测试集准确度和损失函数值；不断重复直至训练次数或损失函数达到预设值。

图8 神经网络训练流程Fig.8 Training process of neural network

4 实验验证

为验证所提方法准确度和有效性,进行了三部分对比实验。神经网络类型直接影响模型辨识准确度,为了验证GRU 神经网络相较其他网络的优势,首先进行噪声影响下不同类型网络辨识准确度对比仿真验证；采用不同输入步长对制导律辨识的效果不同,第2部分实验对比输入步长对模型的影响；神经网络通过隐含层来学习数据中信息,第3部分实验探究隐含层神经元数量对最终结果的影响。

设置相对运动学模型仿真步长为0.001 s,我方飞行器对拦截弹运动学信息测量更新频率为50 Hz,输入步长包括10、15、20、25、30五种情况,对应的时间跨度分别为0.2 s、0.3 s、0.4 s、0.5 s、0.6 s。最终提取到训练样本160 000个,每种时间跨度样本各占20%,10种不同制导律各所占比例均为10%,提取到的样本中随机抽取10%用于测试,其余用于训练。在网络训练参数中,dropout失效率为5%,批处理数量为3 000,每次实验迭代次数为2 000次,网络初始学习率为0.000 25,每100次迭代学习率衰减率为0.85。

4.1 不同类型神经网络对比

选取输入步长为15,隐含层数为3,每个隐含层神经元数量=81时不同类型神经网络作为对比,不同类型网络的训练效果、辨识准确率如图9和图10所示。

图9 不同类型神经网络类型损失函数Fig.9 Loss of different types of neural network

图10 不同类型神经网络类型准确度Fig.10 Accuracy of different types of neural network

LSTM 网络与GRU 网络识别准确率分别为92.78%和95.88%,较RNN 网络89.33%提升3.45%和6.55%,较BP 网络提升1.44%和4.547 2%。证明LSTM 与GRU 与BP 相比,在处理与时序有关问题时具有较大优势。

我方飞行器在对敌方拦截弹运动学信息进行测量时会存在误差,相对运动模型构建与真实模型之间也会存在偏差,这两者对模型输入量的影响均可视为高斯白噪声。设定各输入参数噪声标准差如表1所示,其中,噪声水平一表示我方飞行器上传感器正常工作且构建模型与实际情况偏差较小,噪声水平二表示传感器因环境或构建模型与实际情形而存在较大测量偏差,辨识准确率变化如图11所示。

表1 输入参数高斯白噪声标准差Table 1 Standard deviation of white Gaussian noise of input parameters

图11 噪声对不同类型网络影响Fig.11 Influence of noise on different types of neural network

各类型网络受噪声水平一影响后准确度变为88.15% (BP)、85.26% (RNN)、92.37%(LSTM)和95.44% (GRU),分别下降3.19%(BP)、4.06% (RNN)、0.41% (LSTM)和0.44%(GRU),证明较低噪声水平对除RNN 网络外网络的影响都较小。随着噪声的增大,各类型网络准确度都有所下降,BP网络准确率受噪声影响最大,准确度从无噪声时91.34%下降到76.57%,GRU 网络受噪声影响最小,准确度从无噪声时95.88%下降到86.32%。

4.2 不同输入步长对比

输入片段时间跨度影响辨识效果。图12和图13对比了隐含层数量为3、每个隐含层神经元数量=81和=100两种情况下采用不同时间跨度对制导律进行辨识时网络训练效果及辨识准确度。

图12 不同输入步长下神经网络的损失函数Fig.12 Loss of neural network with different input steps

图13 不同输入步长下神经网络的辨识准确度Fig.13 Accuracy of neural network with different input steps

由图12和图13中可得,网络损失度随迭代次数增加不断下降,最终损失度最大值为0.330 9,所有模型最后均能够收敛。时间跨度为0.3 s和0.5 s时识别效果较好,但时间跨度为0.3 s时输入步长更少,所需计算量更小。

传统基于滤波器的制导律辨识方法辨识所用时间在1 s以上,而基于GRU 网络的制导律辨识网络在完成训练后,实际使用中仅需将设定时间跨度内的运动学信息片段输入到网络中即可,辨识所用时间在0.5 s内,相比于前者所用时间缩短50%以上。且前者要求我方飞行器满足实时对拦截弹进行测量,限制了飞行器机动行,后者对测量连续性要求更低,在整个飞行过程中只需有一段时间片段满足时间跨度要求即可。

4.3 不同神经元数量对比

每个隐含层都是在上一隐含层学习到特征基础上继续进行学习,隐含层神经元数量越多,该隐含层所能提取到的信息越充分。但神经元数量增多会使训练参数数量增多,导致训练速度下降。图14和图15为时间跨度为0.3 s时,不同隐含层神经元数量的GRU 网络训练及辨识效果。

图14 不同神经元数量下神经网络的损失函数Fig.14 Loss of neural network with different number of neurons

图15 不同神经元数量下神经网络的准确度Fig.15 Accuracy of neural network with different number of neurons

当神经元数量较少时,网络对样本学习不充分,辨识准确率较低；随着神经元数量增加,网络辨识准确度整体呈现上升趋势。但神经元数量越多,对我方飞行器上计算机计算能力要求越高。当神经元数量=81时,准确度为95.88%,能够较好地平衡辨识准确率和计算量。

与对意图进行识别相比,对制导律进行辨识所需神经网络结构更复杂。前者偏向定性计算,不同意图间输入差异性强；后者偏向定量计算,不同制导律对应各输入参数间差异性不明显,对网络的数据挖掘能力要求更高。

5 结论

1)本文将神经网络应用到制导律辨识上,提出了一种基于GRU 的导弹制导律辨识方法。首先建立导弹-目标运动学模型,从中提取数据建立训练样本集和测试样本集,对神经网络模型进行训练和测试。

2)对比了不同条件下不同隐含层神经元数量、不同类型模型的制导律辨识效果。结果表明,本文所提方法相比于其他方法具有更快的辨识速度和更高的准确度。

3)探究了噪声对神经网络辨识效果的影响。仿真显示,噪声较小时对网络辨识准确度影响不大,噪声较高时,网络辨识准确度有所下降,但GRU 网络模型相对于其他类型模型具有更好的抗干扰能力。

然而,由于未考虑敌我飞行器的动力学,将影响本文所提出方法辨识的准确性,后续将开展敌方拦截弹制导律与动力学环节一体化辨识方面的理论研究。