拦截主动防御目标的微分对策制导律

2021-05-06 09:32张奕群张鹏飞

系统工程与电子技术 2021年5期

张浩, 张奕群, 张鹏飞

(北京电子工程总体研究所, 北京 100854)

0 引言

为了进一步提高自己的生存能力,目标飞行器尤其是高价值目标飞行器,在意识到自己被攻击导弹(简称攻击弹)追踪时,可以发射一枚防御导弹(简称防御弹)对攻击弹进行反拦截,同时执行逃逸机动[1]。这种目标飞行器(简称目标)对攻击弹进行主动防御的交战问题,称之为“三体对抗”问题。不同于传统的“一对一”的交战场景,这里有3个不同的角色进行对抗,除了攻击弹、目标之外,还有一个防御弹。这里防御弹是从目标平台(或者其他友方平台,如僚机)上发射,对攻击弹进行反拦截,目标则是在防御弹的掩护下实施逃逸,两者可以相互配合,而对于攻击弹来说,必须发挥双重作用,既要躲避防御弹的拦截,又要保证最终能命中目标。

文献[2-4]最早提出了这种交战场景,并从几何的角度对该场景进行了静态的分析。这些研究工作是开创性的,但是基于攻击弹、目标和防御弹始终处于平行接近的航向,而不做任何机动的假设是很不现实的。

文献[5]设计了一种三角拦截制导律,可使攻击弹、目标和防御弹构成的三角形退化成一条直线,但在防御弹刚从目标平台上发射出去时,过载指令容易出现较大的振荡,必须采取相应的措施进行抑制。文献[6-7]分析了防御弹维持在目标和攻击弹连线上的期望横向速度,采用与比例导引类似的思想,提出一种机载视线指令制导律。文献[8]分析了机动发射平台下视线指令制导的运动学关系,结果显示,防御弹对速度和加速度的需求都要低于攻击弹。在此基础上,文献[8]设计了防御弹的闭环视线指令制导律,但这种制导律只适用于近距离交战的场合,对于中距或者远距的情形性能会受到较大的限制。文献[9-10]将迭代计算与经典制导律相结合,基于预测制导思想提出了一种三维主动防御预测制导律。该制导律可对预期拦截点进行实时预测,从而提高了拦截性能。

文献[11]建立了三体对抗场景的线性化运动学模型,并假设攻击弹采用某种已知的线性制导律,以防御弹拦截攻击弹的脱靶量作为性能指标,在防御弹和目标的控制量均有界的条件下,基于最优控制理论求解了目标和防御弹的最优协同追逐-逃逸策略。文献[12]根据目标和防御弹之间信息传输方式的不同,设计了3种不同的协同拦截制导律:目标单向协同制导律、防御弹单向协同制导律以及目标-防御弹双向协同制导律。在目标和防御弹协同作战的过程中,由于目标会对攻击弹进行引诱,虽然可以使得防御弹能更轻松地命中攻击弹,但此时目标并未执行最优的逃逸机动策略,一旦防御弹脱靶,目标的处境将更加危险。文献[13]设定了脱靶量应满足的约束条件,并把能量消耗作为最优化的性能指标来处理,分别设计了防御弹的最小能量制导律以及目标的最小能量逃逸策略。文献[13]中防御弹制导律和目标逃逸策略是分开独立设计的,文献[14]在此基础上考虑两者之间的配合,在攻击弹的制导律已知的情况下,设计了防御弹与目标协同的最小能量控制策略。文献[15]针对大前置角偏差的问题,设计了防御弹的单向协同滑模制导律以及防御弹和目标的双向协同滑模制导律。文献[16]研究了基于多模型自适应滤波器的拦截弹制导律辨识方法。文献[17]将三维主动防御制导律设计问题转化为两个相互约束的二维平面制导律设计问题,实现了协同制导律从二维向三维的扩展。文献[18]把防御弹的最优发射时机以及目标在发射前后的最优控制策略转换为一个切换系统的优化问题,并用深度强化学习的方法求解,仿真表明,基于强化学习的方法能够获得接近最优的性能。

文献[19]基于线性二次微分对策理论研究了任意阶动力学特性下的三方博弈问题,为了简化推导过程,采用终端投影的方法对原始的状态方程进行降阶。对于理想动力学特性的情形,给出了各方控制策略的闭环解析表达式,包括连续的形式和离散的形式。文献[20]将线性二次型微分对策和切换控制的方式结合起来,研究了攻击弹的最优制导律。由于采用了切换控制的策略,攻击弹的控制量存在颤振现象,通过选择合适的参数可以减轻这一问题但无法消除。考虑到线性二次型微分对策制导律的控制量有可能超出边界的问题,文献[21]采用边界型微分对策的方法分析了攻击弹可以实现规避防御弹以及拦截目标的零控脱靶量边界,设计了攻击弹首先机动到可以规避防御弹的零控脱靶量边界上,然后切换控制策略对目标进行追击的制导律。为了能更精确地反映实际的交战场景,文献[22]将上述方法推广到了三维空间,并对剩余飞行时间的估计做了进一步讨论。文献[23-24]分析了攻击弹采用不同制导策略时命中目标的条件,以及目标实现逃逸和防御弹能够完成拦截的条件。文献[25-26]针对任意交战几何,建立了三体对抗问题的非线性模型,求解了当初始状态位于逃逸区时,该微分对策问题的解。文献[27-28]利用几何方法研究了当初始状态位于捕获区时,各方的控制策略,但没有对解的最优性进行证明。文献[29]利用极大值原理对各方的最优控制策略进行了严格的推导,与文献[27-28]中的结果一致。虽然文献[25-29]考虑了模型中的非线性因素,但是各方的控制方式是按简单运动(速度大小不变,方向可以瞬间发生改变)考虑的,显然这种简化的运动方式跟实际情况有很大的差距。

综上,多数文献是从目标的角度考虑,设计防御弹拦截攻击弹的制导律,或是目标和防御弹的协同控制策略。本文则从攻击弹的角度考虑,在防御弹采用某种已知线性制导律的情形下,研究攻击弹与目标、防御弹的博弈问题,给出攻击弹以某一特定脱靶量避开防御弹,并对目标实现直接碰撞的微分对策制导律。

1 系统建模

本节首先建立主动防御交战场景的非线性运动学模型,然后对非线性模型进行线性化,再基于线性化模型推导相应的制导律。

1.1 非线性的运动学模型

平面上的攻击弹-目标-防御弹的交战几何关系如图1所示。

图1 平面交战几何关系

图1中，XIOIYI为惯性参考坐标系,攻击弹、目标和防御弹分别记为A,T,D，各自的速度、法向加速度以及弹道倾角分别记为Vi，ai，γi,i∈{A,T,D};rAT和rAD分别为攻击弹和目标之间以及攻击弹和防御弹之间的相对距离;λAT和λAD分别为攻击弹-目标视线(LOSAT)以及攻击弹-防御弹视线(LOSAD)相对于XI轴的视线角。

忽略重力因素,极坐标系下攻击弹和目标的运动学关系为

(1)

(2)

同样,防御弹和攻击弹的运动学关系为

(3)

(4)

攻击弹、目标和防御弹弹道倾角变化规律为

(5)

假设攻击弹、目标和防御弹均具有任意阶的动力学特性,写成一般的状态空间的形式为

(6)

1.2 线性化的运动学模型

在主动防御的交战场景中存在两个碰撞三角形,一个是攻击弹与目标之间的碰撞三角形,一个是攻击弹与防御弹之间的碰撞三角形。假设交战过程处于末制导阶段,攻击弹、目标和防御弹的速度大小基本保持不变,且始终位于碰撞三角形附近,则可以初始视线为基准对原始的非线性模型进行线性化。

图1中,yAT为攻击弹和目标在垂直于初始视线LOSAT0方向上的相对距离;yAD为攻击弹和防御弹在垂直于初始视线LOSAD0方向上的相对距离。把攻击弹和目标在垂直于初始视线LOSAT0方向上的加速度分别记为aAN1和aTN;把攻击弹和防御弹在垂直于初始视线LOSAD0方向的加速度分别记为aAN2和aDN,满足如下关系:

aAN1=aAcos(γA0+λAT0)=cAxAcos(γA0+λAT0)+dAuA

(7)

aAN2=aAcos(γA0+λAD0)=cAxAcos(γA0+λAD0)+kdAuA

(8)

aTN=aTcos(γT0-λAT0)=cTxTcos(γT0-λAT0)+dTuT

(9)

aDN=aDcos(γD0-λAD0)=cDxDcos(γD0-λAD0)+dDuD

(10)

式中,k=cos(γA0+λAD0)/cos(γA0+λAT0);uA,uT,uD为各方在垂直于相应视线方向上的控制量,满足:

(11)

(12)

(13)

线性化模型的状态变量为

(14)

式中,

(15)

(16)

状态方程为

(17)

将式(7)～式(10)代入式(17)中,得最终的状态方程,写成矢量表示的形式为

(18)

式中,

系统的输出变量为

y=[yAT，yAD]T

(19)

输出方程为

y=Cx

(20)

1.3 飞行时间

设攻击弹和目标的初始距离为rAT0,攻击弹和防御弹的初始距离为rAD0。在碰撞三角形附近线性化的假设条件下,攻击弹和目标的接近速度以及攻击弹和防御弹的的接近速度近似为常值,所以相应的交战时间是固定的,其中攻击弹和目标的交战时间为

tfAT=rAT0/VcAT

(21)

式中,

VcAT=VAcos(γA0+λAT0)+VTcos(γT0-λAT0)

(22)

攻击弹和防御弹的交战时间为

tfAD=rAD0/VcAD

(23)

式中,

VcAD=VAcos(γA0+λAD0)+VDcos(γD0-λAD0)

(24)

由于防御弹要在攻击弹追上目标前对其进行拦截,所以攻击弹与防御弹的交战时间要小于攻击弹与目标的交战时间,即tfAD

攻击弹和目标交战以及攻击弹和防御弹交战的剩余飞行时间分别为

tgAT=tfAT-t

(25)

tgAD=tfAD-t

(26)

2 问题描述

攻击弹和目标之间的攻防对抗问题可以用微分对策来描述。对于目标来说,它要在防御弹的掩护下实施逃逸,希望攻击弹的脱靶量尽可能大,而攻击弹则希望在避开防御弹的前提下,脱靶量达到最小,同时双方也希望各自的能量消耗尽可能小。

假设防御弹采用某种已知的线性制导律,那么其控制量可以写成如下形式:

uD=FD(t)x

(27)

系统线性化模型的状态方程(18)可进一步写成

(28)

式中,AFD(t)=A+BDFD(t)。

选取如下的线性二次型的性能指标函数进行优化:

(29)

式中,权值b和γ均为正值,γ反映了目标相对于攻击弹的机动能力,一般攻击弹的机动性要比目标要强,所以γ>1。显然,攻击弹要使J达到最小,而目标要使其达到最大。

由于攻击弹在拦截目标的过程中会受到防御弹的威胁,因此为了能够成功拦截目标,攻击弹还要满足如下的约束条件：

|yAD(tfAD)|≥LAD

(30)

式中,LAD为防御弹战斗部的杀伤半径。

另外,系统状态的初始条件为

x(t0)=x0

(31)

那么,式(28)～式(32)就构成了一个带不等式约束的线性二次型微分对策问题。

3 制导律设计

3.1 任意阶动力学的情形

为使这个对策问题的求解过程得以简化,采用终端投影的方法对原系统进行降阶[30],对原状态x(t)做终端投影变换:

(32)

式中,ΦFD(·,·)为系统矩阵AFD(t)对应的状态转移矩阵;ZAT(t)和ZAD(t)为新的状态变量,其物理含义分别为攻击弹拦截目标的零控脱靶量以及防御弹拦截攻击弹的零控脱靶量。

对ZAT(t)和ZAD(t)求导,得新的状态方程：

(33)

式中,

(34)

在防御弹和攻击弹的交战结束时,如果防御弹没能命中攻击弹,那么其出局,之后就变成攻击弹与目标之间的“一对一”的对抗,为了方便处理,令

ZAD(t)≡ZAD(tfAD),tfAD

(35)

式(35)也意味着

βA(t)≡0,tfAD

(36)

ZAT(t)和ZAD(t)的初值分别为

(37)

ZAD(t)需满足的终端不等式约束条件为

|ZAD(tfAD)|≥LAD

(38)

ZAT(t)的终值记为

ZAT(tfAT)zT

(39)

式(29)的性能指标写成关于零控脱靶量的形式为

(40)

为了得到该问题的解,令

ZAD(tfAD)=zD

(41)

式中,zD是某一固定值,可以任意选取。

写出哈密顿函数

(42)

协态方程:

(43)

横截条件:

λ1(tfAT)=bzT

(44)

根据双方极值原理,可以得到攻击弹和目标的最优控制策略为

(45)

对式(33)两边积分得

(46)

将式(45)代入式(46)得

(47)

(48)

式中,

当γ满足

(49)

则E(t0)一定可逆,那么

(50)

式(46)变为

(51)

(52)

式(40)的第1部分可以表示为

(53)

同样,式(40)的第2部分可以表示为

(54)

将式(53)和式(54)相加得

(55)

式中,

可见,J是关于zD的二次函数,在满足|ZAD(tfAD)|≥LAD这个约束条件下最小值点为

(56)

(57)

式中,

(58)

(59)

(60)

为实现对目标的直接碰撞,令b→∞,强迫yAT(tfAT)=0,此时

(61)

(62)

将E11(t0)和E12(t0)代入到式(61)～式(62)得

(63)

(64)

进一步写成闭环的形式为

(65)

(66)

3.2 一阶动力学的情形

式(65)给出了攻击弹制导律的一般形式,显然,为实现该制导律,首先需要求出αA(t),αT(t),βA(t),ZAT(t),ZAD(t)的表达式。定义:

(67)

(68)

那么,

(69)

(70)

(71)

(72)

(73)

由状态转移矩阵的性质可得XT(t),XD(t)所满足的微分方程以及初始条件如下:

(74)

(75)

注意这里是对剩余飞行时间求导,初始时刻是剩余飞行时间为0的时刻。

为了求出制导律的具体形式,假设攻击弹、目标和防御弹均具有一阶动力学特性,即

(76)

防御弹采用比例导引制导律,即

(77)

此时系统的状态空间表达式为

(78)

y=Cx

(79)

式中,

cAT=[1，0，0，0，0，0，0]

cAD=[0，0，0，1，0，0，0]

式(74)给出了XT(t)所满足的微分方程和初始条件,解得

(80)

根据式(69)～式(70)可得

(81)

(82)

根据式(72)可得

(83)

(84)

那么零控脱靶量ZAT(t)也可进一步写成

(85)

(86)

式中,

(87)

根据式(71)可得

(88)

根据式(73)可得

(89)

(90)

需要注意的是,本文提出的制导律是基于完美信息假设的,即系统的状态和参数都是精确已知的,这个假设对于获得制导律的闭环解析表达式是必要的,但在实际的交战场景中又是不现实的,比如ZAT(t)中包含有目标的加速度和时间常数,ZAD(t)中包含防御弹的加速度和时间常数,对于攻击弹来说,这些都是未知的信息。所以,为了实现这一制导律,往往需要在制导回路中增加滤波器,对系统未知的状态和参数进行实时估计。

4 仿真验证

为了验证本文提出的制导律的性能,设定一个交战场景进行数值仿真。假设初始时刻,攻击弹、目标和防御弹均位于碰撞三角形上,即初始航向误差为0,交战各方均沿着初始视线方向相互接近,之所以这样设置是因为在这种态势下,攻击弹可能会命中目标,但同时也可能会被防御弹所拦截,对于交战各方是一个相对均衡的初始状态。相关的仿真参数如表1所示。

表1 仿真参数

由以上仿真参数可知,攻击弹和防御弹的交战时间为9 s,攻击弹和目标的交战时间为12 s,即攻击弹在与防御弹的交战过程结束后,还剩余3 s的时间继续追逐目标。

图2是LAD=50 m时,采用本文提出的制导律的情形下攻击弹、目标和防御弹的运动轨迹,其中,防御弹和攻击弹的脱靶量分别为50.17 m和1.4×10-9m。从图2中可以看出,攻击弹的弹道经过了一个整形处理。在整个交战过程中,攻击弹并没有始终保持追逐目标的态势,而是故意做出一些机动,进而摆脱防御弹的拦截。当攻击弹和防御弹的交战过程结束时,攻击弹开始全力追逐目标,并且最终实现了对目标的直接碰撞。

图2 攻击弹、目标和防御弹的运动轨迹

攻击弹的这种行为可以从其过载指令变化曲线上体现出来,如图3所示。

图3 攻击弹的过载指令曲线

从图3中可以看出攻击弹与防御弹交战前后的两个阶段,其过载指令有很明显的变化。在第1阶段,攻击弹的首要目标是要以某一特定的脱靶量避开防御弹,这需要攻击弹提供很大的加速度以及加加速度。在第2阶段,由于防御弹已经不存在了,这时的交战场景就是一个标准的“一对一”的交战场景,攻击弹的过载需求比第1阶段要小的多,且呈线性递减的趋势。同时还可以看出,攻击弹的过载需求主要是第1阶段的过载需求,受LAD的影响较大,LAD越大,过载需求也越大。

从图4中ZAD(t)以及图5中ZAT(t)的变化曲线可以看出,这种制导律确实能够以某一特定的脱靶量避开防御弹的拦截,并最终实现对目标的直接碰撞。

图4 ZAD的变化曲线

通过调整仿真参数中目标(防御弹)的初始位置,可得到不同的交战时间tfAT和tfAD。图6和图7分别为LAD=50 m时,攻击弹的最大过载和能量消耗随tfAT的变化曲线。可见,攻击弹的最大过载和能量消耗均随tfAT的增加而减小,尤其是在tfAT较小时这种关系最为明显,但当tfAT较大时,攻击弹的最大过载和能量消耗逐渐趋于稳定。实际作战中可综合考虑导引头的作用距离等因素来合理规划交战时间,以优化攻击弹的性能指标。

图5 ZAT的变化曲线

图6 攻击弹的最大过载的变化曲线

图7 攻击弹的能量消耗变化曲线

5 结论

本文针对目标可以对攻击弹进行主动防御的交战场景,设计了攻击弹拦截主动防御目标的微分对策制导律。为了保证攻击弹不被防御弹拦截,在一般的线性二次型微分对策的基础上,增加了一个不等式约束条件。所得到的制导律在形式上包括两项,第1项与攻击弹拦截目标的零控脱靶量成线性关系,第2项则是攻击弹拦截目标的零控脱靶量以及防御弹拦截攻击弹的零控脱靶量的非线性函数。该制导律可使攻击弹以某一特定的脱靶量避开防御弹,并对目标实现直接碰撞。通过数值仿真验证了该制导律的性能,仿真结果与理论分析的结果高度吻合。