攻防对抗中指数射击策略最优性分析

2015-11-16 05:23李龙跃刘付显赵麟锋王东旭
兵工学报 2015年5期
关键词:蓝方红方射击

李龙跃,刘付显,赵麟锋,王东旭

(空军工程大学防空反导学院,陕西西安710051)

攻防对抗中指数射击策略最优性分析

李龙跃,刘付显,赵麟锋,王东旭

(空军工程大学防空反导学院,陕西西安710051)

研究了红蓝攻防对抗中的射击策略优化问题,即研究红方面对多个蓝方目标,如何射击能获得最大收益的问题。基于以往研究的局限性,为平衡红方射击收益和自身存活概率,引入和拓展Gittins指数应用于射击决策问题,考虑了蓝方目标退出战斗的可能性,以红方在自身被摧毁之前最大化杀伤蓝方目标的收益(或数量)为目标,对指数射击策略的最优性进行了讨论,拓展了定理1、定理2,给出推论1.为进行比较,引入近视策略、完全策略和循环策略3种截然不同的射击策略,并给出近视策略最优性定理3.实例设置了两个射击场景,在4种射击策略下计算红方的收益情况、杀伤目标情况和自身被摧毁情况,验证了指数射击策略的最优性。

兵器科学与技术;射击决策;Gittins指数;指数策略;近视策略

0 引言

很多军事作战问题可以抽象为我方(防御方,称为红方)防御多个敌方(进攻方,称为蓝方)的射击战斗问题。典型如地空导弹射击多个空气动力目标或反辐射导弹的防空作战场景,蓝方目标可能有多个类型,红方不能完全确定蓝方目标的类型,而且红方也可能被蓝方摧毁而丧失战斗能力;再如高炮对空射击、陆军坦克交战和水面舰艇编队防空等都是攻防对抗过程[1-2]。Gittins首先提出了最优Gittins指数用于解决特定类型的多臂bandit问题,赋予每一个bandit收益指数,并建立bandit状态函数,基于指数最大化来研究决策问题[3]。近年来,Anderson[4]、Gu等[5]、Sonin[6]、Kumar[7]、Si等[8]对Gittins指数理论研究及在资源调度、任务分配和随机决策等领域的应用进行了极大的拓展。Glazebrook等结合Gittins指数讨论了多臂bandit框架下的军事射击优化问题[9],而后Barkdoll等和Glazebrook等一起对该问题进行了一系列深入研究[10-11]。红蓝双方攻防射击对抗过程本质上是分配红方可用射击资源,去射击固定集合的蓝方来袭目标的过程,红方射击策略的优劣对射击收益、杀伤蓝方目标数量和红方生存概率都有影响,因此,红方制定和选用最优射击策略对于获取最大射击收益至关重要。

1 问题分析

Barkdoll等[12]描述的非对称攻防对抗射击场景中(如地面防空袭作战),蓝方具有一定优势,如果红方不能成功射击蓝方目标,则自己将会置于可能被蓝方(反辐射导弹)摧毁的境地,因此红方需对每一个蓝方目标赋予一个“值”。这个值一般用来体现蓝方目标突防后对红方造成的损失,也可称为威胁值。红方射击作战目标为在自己未被摧毁的情况下,最大化杀伤蓝方目标的期望收益或最小化蓝方目标突防造成的损失。但Barkdoll等[12]对这种情况考虑还不完全,其研究存在局限性:1)红方赋予蓝方目标的威胁“值”并非恒定不变的。如随着战斗进行,红方获得更充分的目标指示后或得知目标受损等情况都会导致目标威胁值的变化,因此威胁值应该是动态变化的;2)红方被摧毁的概率与其选择射击的蓝方目标息息相关,如地空导弹射击距离较远的目标时,需辐射更远、更强的雷达波去导引拦截弹射击目标,增加了被反辐射弹道发现和锁定的概率,从而将自己置于较危险的境地。因此红方需考虑射击特定蓝方目标时给自己带来的风险;3)红方所需射击的蓝方目标会随着时间发生变化,新的目标可能会不断到达,旧的目标可能会退出或突防出红方射击范围。此外,红方有可能无法得知目标所处状态,如以往射击对蓝方目标的杀伤效果等信息。基于以上问题,本文通过引入和拓展指数策略应用于攻防对抗中射击策略选择问题,以红方在自身被摧毁之前最大化杀伤蓝方目标的收益(或数量)为目标,对指数射击策略的最优性进行了讨论,并给出定理2、推论1和定理3(近视策略),旨在最大化红方作战收益,对于辅助红方射击决策和建设作战指挥信息系统具有一定借鉴意义。

2 攻防对抗射击的马尔可夫决策过程

考虑一个红方火力单元射击N个蓝方目标的问题,规定“一次战斗”至少包括红方对蓝方进行一次射击(期间红方有可能被蓝方摧毁),也可能包括红方对蓝方目标杀伤效果的观察过程。假设红方射击弹药数量不受限制,此时红方的核心决策问题在于如何根据以往的射击战斗情况,选择下一个需要射击的目标,从而最大化射击过程中的期望收益。红方射击蓝方目标的决策问题可描述为马尔可夫决策过程{(Ωj,ωj,Pj,Rj,Qj,β),1≤j≤N}[13].具体为:

1)X(t)={X1(t),X2(t),…,XN(t)}表示在时刻蓝方的状态(t+1时刻之前)。Xj(t)表示蓝方目标j(1≤j≤N)的状态。

2)Xj(t)∈Ωj∪{ωj}.Ωj为红方对蓝方目标j所有可能状态的认知空间(可数);Xj(t)=ωj表示在t时刻,红方射击蓝方目标j时被摧毁。

3)XN+1(t)的值为0表示在时刻t红方选择退出战斗或被摧毁,否则其值为1,假设XN+1(0)=1.

6)标记函数Qj满足

标记Qj(x)表明,如果红方被摧毁,则收益为0,下一时刻停止射击或目标飞出射击时间窗口收益也为0,即

7)如果红方在t时刻执行射击行动aj,蓝方目标由Xj(t)变为Xj(t+1)的概率由马尔可夫定律Pj决定:

注意到状态空间Ωj包含红方得知蓝方目标j被杀伤状态,因此和ωj都是Pj下的吸收状态。为描述射击行动的期望收益,引入有界函数Rj,Qj,.令Xj(t)=x,Rj(x)为在t时刻红方执行行动aj的期望收益。令,则红方在t时刻执行行动aj的期望收益可写成

由(4)式的Qk乘积项可知,如果红方在射击过程中被摧毁,则收益为0,β的取值一般由决策者自行设定[14]。通过引入折扣因子β∈(0,1)来更加准确描述实际战斗和增强模型的通用性,此外如果红方面临的威胁不仅仅是蓝方来袭目标,则β可看成是红方单位时间内在所有外在威胁下的生存概率,在时刻红方执行行动aN+1的收益为βtRd,Rd为红方终止射击时的收益。

3 指数射击策略

红方射击策略本质是基于历史射击效果,决策每一时刻射击蓝方目标行动的一种规则。如射击策略用v表示,v(t)表示t时刻红方选择的行动,则策略v下总的射击过程期望收益可表示为

本文研究射击策略的目的在于找到最优射击策略v*,使得红方射击期望收益最大。广义bandits决策过程是马尔可夫决策过程的一种,其在不同决策行为之间引入了相互独立的决策收益,可作为研究射击问题的框架。对于广义bandits决策过程存在最优射击策略,有定理1.

定理1[15]存在函数,假设在t时刻红方未被摧毁,

1)红方的最优策略是射击蓝方目标j*,当蓝方目标j*满足(6)式时成立:

2)红方的最优策略是终止射击,满足(7)式时成立:

式中:Gj(x),x∈Ωj为Gittins指数。令τ为红方射击过程结束时刻,表示在[0,τ)时间段红方的射击期望收益,则

当红方被摧毁时,则红方收益也被终止,其收益率[15]为

令指数Gj(x)为最大值,即

考虑第1节提到的以往研究的局限性,对红方射击N个蓝方目标问题,假设蓝方目标有B种类型(类型是指随着射击战斗进行,可决定射击结果的蓝方目标特征的总称,需要依据具体问题分析)。通常情况下,红方不能确定N个蓝方目标的类型,这种对目标类型的不确定性由N个独立先验分布∏1,∏2,…,∏N表示,其中,表示红方判定蓝方目标j属于b类型的概率。设在1次战斗中,蓝方目标的类型不会改变,所有射击结果相互独立,红方对蓝方b类型目标的杀伤概率为rb,被其摧毁的概率为θb,红方对蓝方b类型目标的杀伤失败,目标退出战斗的概率为φb.红方在第t次射击杀伤一个蓝方b类型目标的收益为βtRb,红方的战斗目标是在被摧毁前最大化杀伤蓝方目标所获得的收益。当β=1,Rb=1时,红方的战斗目标是在被摧毁前最大化杀伤蓝方目标的数量。基于贝叶斯理论,在经历n次战斗后,如果红方和蓝方目标j均存活,则此时红方判定蓝方目标j属于b类型的概率可由后验分布来表示:

由第2节分析显然有

(11)式的4个公式分别表示红方和蓝方目标j均存活、红方存活蓝方目标j被杀伤、红方被摧毁和红方和蓝方目标j均存活且蓝方目标j退出战斗。4种情况下射击行动的期望收益(不带折扣因子)为联立(9)式、(10)式、(13)式和(14)式可得定理2.

由(8)式知,射击战斗还需一个终止时刻,即过程{Xj(t),t≥0}有一个固定的终止集合。令τr(r为正整数,Xj(0)=n)为红方射击的终止时刻,红方对蓝方目标j能射击r次,直到二者之间有一个被摧毁时停止射击。随机变量τr表示当前红方射击次数,则红方所有射击行动的期望收益为

定理2 假设在t时刻红方未被摧毁,红方射击蓝方目标j*是最优策略,当j*满足(15)式时成立:

令(15)式中r=1,则可将Gj(n)化为Hj(n)(即仅当前考虑射击收益,不考虑后续射击收益):

式中:Hj(n)本质上可被理解为红方射击蓝方b类型目标(服从后验概率分布)的加权平均收益指数Rbrb(1-β+βθb)-1.当Rb和rb较大、θb较小时,收益指数较高,即目标价值和红方杀伤概率较大,被其摧毁概率较小时收益指数较高,较适合射击;反之,对于Rb和rb较小、θb较大的目标,即目标价值和红方杀伤概率较小,被其摧毁概率较大时收益指数较低,不适合射击,上述分析与实际作战认知也较为相符。此外需注意,概率θb可能会随着红方干扰和机动措施的实施而减小。

定理2给出了红蓝双方射击对抗采用指数策略的计算公式,如果Hj(n)是单调递减的,则当r=1时,对于所有n,(16)式取得最大值,此时Gj(n)= Hj(n),n∈ℕ,这种极端情况表示红方最优策略是不断转换射击的蓝方目标,选择射击指数最高的目标射击;如果函数Hj(n)是单调递增的,则当r→∞时,对于所有n,(16)式取得最大值,此时

这种极端情况表示红方最优策略是对每一个蓝方目标持续射击直至目标被杀伤。

当蓝方目标只有两种类型时(B=2),可得推论1.

推论 对所有n,当B=2时Hj(n)必然是单调递减(单调递增)函数。

证明 当B=2时,存在

(18)式的成立显然不依赖j、n,则对于所有j、n∈ℕ必有

此时Hj(n)是单调递减函数。同理,可证Hj(n)也可是单调递增函数,推论成立。

推论是一种特殊情况,当蓝方目标类型有两种时,红方总是由射击类型1目标转向射击类型两目标或由射击类型2目标转向射击类型1目标,这是随着射击指数递增或递减时的最优决策,其本质上是基于类型1或类型2谁拥有更高的射击指数而选择对谁进行射击。

4 近视策略、完全策略和循环策略

4.1 近视策略

如果指数策略选择射击目标是考虑射击战斗的长远期望收益,那么近视策略选择射击目标则是考虑即时最优收益,因此近视策略又可称为即时最优策略。近视策略指导红方决策者按“眼前”最优收益进行射击。如果蓝方目标j为b类型的先验概率分布为,采用近视射击策略,进行n次射击战斗后收益为

近视策略并不一定是最优策略[16],如某次射击战斗,有两枚射击弹,射击两个目标,两枚射击弹对两个目标的杀伤概率为[1,0.9;0.9,0],R1= R2=1.采用近视策略,则用第1枚选择目标1,不会使用第2枚射击弹,总收益是1;而最优的射击策略则是用第2枚射击目标1,如果失败再用第1枚射击目标1,或第1枚射击目标2,总收益是0.9×(1+0.9)+0.1×(0+1)=1.81,显然这个例子说明了近视策略并非最优策略。对本文研究来说,近视策略以红方当前时刻收益最大为目标,计算量小,实时性强,但未考虑下一时刻目标类型的变化对射击收益的影响,适用常规目标无差别射击。很多情况下相比指数策略,近视策略可以称之为一种次优策略。

定理3 如果红方采用近视射击策略,可以最大化对蓝方目标的期望杀伤数量。

证明 由(11)式可知,对目标进行射击后会出现红方和蓝方目标j均存活、红方存活而蓝方目标j被杀伤、红方被摧毁及红方和蓝方目标j均存活且蓝方目标j退出战斗4种情况。4种情况期望收益Rj(n)和红方所有射击行动的期望收益分别为

令β=1,Rb=1,r=1,可得

(19)式结合近视策略的定义,看出对于每个类型蓝方目标来说,在目标价值不变的情况下,近视策略不考虑后续射击收益,总是选择当前“最容易杀伤”的蓝方目标进行拦截,显然可以最大化对蓝方目标的期望杀伤数量,定理3成立。

4.2 完全策略

完全射击策略就是红方对每一个蓝方目标持续射击,直至目标被杀伤或自己被摧毁[17]。这种射击策略需要对目标进行简单排序,也可转化为多臂bandit问题。如N=10时,红方射击蓝方目标的次序可按照(20)式从高到低排序:

4.3 循环策略

循环射击策略就是对存活待射击的蓝方目标,红方按某种顺序循环射击(如目标编号从小到达),第1个射击目标随机选择。

5 实例分析

参数设置:设计两个射击战斗场景,均含有10个待射击蓝方目标,蓝方目标有5种类型,具体参数如表1所示。

由表1可见,基本上蓝方价值越高的目标就越难被杀伤,且红方被摧毁的概率越大。已知N=10,B=5,每次计算将目标分成5组,设置组内第i类型目标先验概率为0.75,组间设相互独立,并服从U(0,1)分布,满足,折扣率β设为0.95.

实验过程:作为比较,采用4种射击策略对两个问题进行求解。针对4种射击策略分别计算10000次。

实验结果:实验记录了两个场景红方的收益,包括最小收益、平均收益、最大收益、收益的下四分位数、中位数、上四分位数、平均杀伤数量、红方被摧毁概率等数据。四分位数是指将所有收益数值按大小顺序排列并分成4等分,处于3个分割点的位置就是四分位数,最小的四分位数称为下四分位数,以此类推。如表2所示为两个场景下针对4种射击策略红蓝双方对抗红方收益的数据汇总。如表3所示为两个场景下针对4种射击策略红方杀伤蓝方目标数量的数据汇总。如表4所示为4种射击策略下红方被摧毁的概率。如图1所示为两个场景下4种射击策略射击收益和平均杀伤数量对比。

表1 红蓝双方参数值Tab.1 Parameter values of red and blue sides

6 结论

一般认为,射击战斗过程中较好射击策略是根据红蓝双方当时状态确定的,应当是即时最优策略(近视策略);较差策略是完全策略和循环策略,因为这两种策略不太考虑射击收益,而通过实例和计算结果分析发现并非如此。4种射击策略中指数策略要优于其他3种射击策略,尤其是平均射击总收益和平均杀伤蓝方目标数量上具有优势,与定理1和定理2的论述相符。近视策略比预想表现要差,其根本原因在于对红方自身被摧毁的概率考虑较少,导致红方较早被摧毁而结束战斗,获得的射击总收益也较少。实例中,近视策略甚至还不如完全策略或循环策略,其原因值得下一步进行研究。

表2 红方收益数据汇总Tab.2 Red's return

表3 红方杀伤蓝方目标数量数据汇总Tab.3 Summary of killed blue targets

表4 红方被摧毁的概率Tab.4 Probability of the red being destroyed

图1 两个场景下4种射击策略射击收益和平均杀伤数量对比Fig.1 Shooting returns and mean killing numbers of 4 shooting policies in 2 scenes

[1]滕克难,盛安冬.舰艇编队协同反导作战网络效果度量方法研究[J].兵工学报,2010,31(9):1247-1253. TENG Ke-nan,SHENG An-dong.Research on metric of network effect in ship formation cooperation anti-missile operation[J].Acta Armamentarii,2010,31(9):1247-1253.(in Chinese)

[2]符小卫,李金亮,高晓光.防空威胁联网建模与分析[J].兵工学报,2013,34(7):904-909. FU Xiao-wei,LI Jin-liang,GAO Xiao-guang.Modeling and analy-zing of air-defense threat netting[J].Acta Armamentarii,2013,34(7):904-909.(in Chinese)

[3]Gittins J C.Multi-armed bandit allocation indices[M].Chichester:Wiley,1989.

[4]Anderson C M.Ambiguity aversion in multi-armed bandit problems[J].Theory and Decision,2012,72(1):15-33.

[5]Gu M Z,Lu X W.The expected asymptotical ratio for preemptive stochastic online problem[J].Theoretical Computer Science,2013,495:96-112.

[6]Sonin I M.A generalized Gittins index for a Markov chain and its recursive calculation[J].Statistics and Probability Letters,2008,78(12):1526-1553.

[7]Kumar U D,Saranga H.Optimal selection of obsolescence mitigation strategies using a restless bandit model[J].European Journal of Operational Research,2010,200(1):170-180.

[8]Si P B,Ji H,Yu F R.Optimal network selection in heterogeneous wireless multimedia networks[J].Wireless Networks,2010,16(5):1277-1288.

[9]Glazebrook K D,Gaver D P,Jacobs P A.On a military scheduling problem[R].Monterey CA:Naval Postgraduate School,2001.

[10]Barkdoll T C,Gaver D P,Glazebrook K D,et al.Suppression of enemy air defense(SEAD)as an information duel[D].Monterey:Naval Postgraduate School,2001.

[11]Glazebrook K D,Washburn A.Shoot-look-shoot:a review and extension[J].Operations Research,2004,52(3):454-463.

[12]Barkdoll T C,Gaver D P.Suppression of enemy air defences(SEAD)as an information duel[J].Naval Research Logistics,2002,49(8):723-742.

[13]Glazebrook K D,Mitchell H M,Gaver D P,et al.The analysis of shooting problems via generalized bandits[R].Monterey CA:Naval Postgraduate School,2004.

[14]Glazebrook K D,Kirkbride C,Mitchell H M,et al.Index policies for shooting problems[R].Monterey CA:Naval Postgraduate School,2006.

[15]Nash P.A generalized bandit problem[J].Journal of the Royal Statistical Society:Series B,1980,42(2):165-169.

[16]Glazebrook K D,Greatrix S.On transforming an index for generalized bandit problems[J].Journal of Applied Probability,1995,32(1):168-182.

[17]Xu N X.Optimal policy for a dynamic,non-stationary,stochastic inventory problem with capacity commitment[J].European Journal of Operational Research,2009,199(2):400-408.

Optimality Analysis of Index Policy for Offense-defense Shooting Process

LI Long-yue,LIU Fu-xian,ZHAO Lin-feng,WANG Dong-xu
(Air and Missile Defense College,Air Force Engineering University,Xi'an 710051,Shaanxi,China)

The index policy for offense-defense shooting process,namely,how a single red shoots at a collection of blue targets to maximize the return obtained from killed blue targets,is discussed.In consideration of the limitations of previous research and the balance of the red's excepted return and survival probability,Gittins index is introduced and expanded to solve the shooting problems.The optimality of index shooting policy is discussed.Theorem 1 and 2 are extended,and Lemma 1 is presented.Three different shooting policies,such as myopic policy,exhaustive policy and round-robin policy,are introduced for comparison,and the optimality theorem 3 of myopic policy is proposed.2 shooting scenes are set in numerical study.The red's mean return,mean numbers of killed blue targets and red's death rate are calculated for 4 policies.Simulation study outcome verified the optimality of index policy.

ordnance science and technology;shooting policy;Gittins index;index policy;myopic policy

E917

A

1000-1093(2015)05-0953-08

10.3969/j.issn.1000-1093.2015.05.028

2014-06-05

全军军事学研究生课题项目(2014年)

李龙跃(1988—),男,博士研究生。E-mail:lilong_yue@126.com;刘付显(1962—),男,教授,博士生导师。E-mail:liuxqh@126.com

猜你喜欢
蓝方红方射击
画与理
为什么射击最高的成绩是10.9环,而不是11环
机枪射击十八式
暗号
实战化近距离快速射击方法初探
暗号
暗号
试论棋例裁决难点
试论棋例裁决难点
提示棋例的盲点