基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划

2015-11-11 01:33万开方高晓光李波梅军峰
兵工学报 2015年4期
关键词:被动信念协同

万开方, 高晓光, 李波, 梅军峰

(西北工业大学 电子信息学院, 陕西 西安 710072)



基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划

万开方, 高晓光, 李波, 梅军峰

(西北工业大学 电子信息学院, 陕西 西安 710072)

针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控制系统结构,提出了基于无迹卡尔曼滤波(UKF)的信念状态更新方法和基于蒙特卡洛Rollout采样(MCRS)的Q值估计方法,并设计了CCSP基本策略。仿真结果表明,所建立的模型能够实现多被动传感器的高效管理调度,能够控制多被动传感器对隐身目标进行有效探测跟踪,即模型有效性得到了验证。

控制科学与技术; 传感器技术; 反隐身; 多传感器组网; 部分可观察马尔可夫决策过程; 信念状态; 任务规划

0 引言

隐身技术,又称低可探测技术,是一种通过改变武器装备的目标反射特性以最大限度地降低被对方雷达探测可能性的综合性技术。隐身技术在作战飞机上的成熟应用,从根本上改变了攻防战略平衡,隐身飞机也成为防空系统的巨大威胁[1]。为了有效应对隐身威胁,尽管困难重重,各军事大国依然在积极发展反隐身技术,以求在未来可能的隐身与反隐身对抗中占据优势[2]。

隐身平台最主要的特点是难以被发现和跟踪,因此反隐身探测是针对隐身目标作战首先要解决的问题。反隐身探测一般包括技术和战术两种途径,前者通过采用一些新技术以提升雷达探测性能,如频率捷变、扩频、大时宽脉冲压缩等技术,可提高雷达的作用距离和抗干扰能力[3];后者则通过一些非常规传感器的战术运用来进行反隐身探测,如多基地雷达探测[4]、无源传感器探测[5]、多传感器组网探测[6]等。本文从反隐身探测出发,试图采用多被动传感器组网协同战术实现空域反隐身。在多被动传感器组网协同反隐身探测过程中,为实现资源的高效利用,提升对隐身目标的探测跟踪效果,需要对有限的传感器资源进行动态管理调度和协同规划控制。

多传感器协同控制策略存在短视和非短视之分[7]。短视策略在进行策略优选时仅以最大化当前立即收益为目标,而忽略当前行动下的远期收益。这类方法目标函数简单,规划效率较高,在算法理论上不断推陈出新[8-9],如信息论[10-12]、博弈论[13-14]、模糊逻辑[15-16]、智能优化算法[17-18]、数学规划[19]等,但在综合效能上却难有大的突破。非短视策略在进行策略优选时,既考虑了当前立即收益,又包括了未来远期收益,任务规划中会对未来状态进行预测,以最大化全任务过程中的整体收益为目标,因此是一类综合效能更高的方法[20]。非短视方法以马尔可夫决策过程(MDP)理论为基础,对于不确定性规划问题,则建模成部分可观察马尔可夫决策过程(POMDP)形式。在基于POMDP的传感器管理应用方面,国内目前鲜有相关文献,而国外近些年则陆续开展了一些研究。文献[21]基于POMDP对传感器目标探测和目标识别管理进行了建模;文献[22]在POMDP模型下以量测损耗最小为目标进行了传感器调度管理研究;文献[23]基于POMDP进行了相控阵雷达参数优化设计;文献[24]以POMDP建模进行了雷达目标分配决策研究;文献[25-26]基于POMDP开展了目标跟踪下的雷达自适应调度研究等。不同于以上任何一种传感器管理问题,本文以POMDP理论为基础,研究了多传感器组网协同控制,旨在建立起一个多被动传感器组网协同反隐身探测任务规划模型,通过对多被动传感器的高效管理调度,以实现对多隐身目标的有效探测与精确跟踪。

POMDP模型下的任务规划效能明显高于传统短视方法。但实际应用中,POMDP模型的未来远期收益计算复杂度会随着问题规模呈指数增长,要实现精确求解难度较大。为此,许多近似算法相继被提出,试图以次优解代替最优解来换取计算效率的提升,如文献[27-28]采用了最大可能状态(MLS)和行动投票(AV)启发式算法对远期收益进行近似;文献[29-31]提出利用贝叶斯增强学习算法解决大规模连续POMDP问题;文献[32]设计了遗传算法用于近似求解分布式部分可观察马尔可夫决策过程(DEC-POMDP)问题;文献[25-26,33-35]借鉴随机动态规划问题中的Rollout算法对POMDP模型进行了近似求解尝试。本文所建立的多被动传感器组网协同反隐身探测任务规划POMDP模型,属于连续状态空间问题,且状态转移存在不确定性,在进行近似求解时,本文结合了Rollout算法和蒙特卡洛仿真方法,并对Rollout中的基本策略进行了重新设计,提出了一种蒙特卡洛Rollout采样(MCRS)近似算法,仿真结果验证了该算法的有效性。

1 任务规划问题建模

1.1任务规划问题描述

考虑如下作战想定(如图1):蓝方以隐身战机组成突防编队,企图突破红方防线以对其后方高价值目标进行毁灭性打击;借助于地面长波雷达和高空预警机组成的远程预警网络,红方在较远距离上发现来犯目标,随即组织己方战机编队前往拦截。考虑到蓝方战机隐身能力突出,在以雷达为探测设备的传统战术下,其先敌发现距离将远超红方战机,交战优势明显,因此,红方在拦截力量编成上包括了常规战机(遂行火力任务)、电子战飞机(遂行干扰任务)和无人机(遂行侦察任务),相互之间以数据链形成协同交战网络。为了实现静默攻击,蓝方隐身战机在作战中依赖于随行的预警机进行目标指示。由于红方的通信干扰,蓝方隐身战机与其后方预警机之间的通讯链路被一定程度的破坏,为了尽快扫清前方障碍,蓝方隐身战机将被迫开启主动雷达进行扫描,并试图利用其隐身优势(对方火控雷达无法锁定自己)在超视距范围内快速解决战斗,以为后续任务赢得时间。部署于战场前方的红方无人机携带有电子支援措施(ESM)或者红外搜索与跟踪(IRST)等被动传感器载荷,并与其后方空域的有人飞机保持通讯链接,当蓝方隐身战机雷达开机时,由ESM被动侦测电磁辐射进行反隐身探测,当蓝方战机雷达间歇关机时,由IRST被动侦测红外辐射进行辅助反隐身探测。由于ESM对电磁辐射的被动侦测距离远大于雷达辐射源的探测距离,因此红方战机将能够在被蓝方隐身战机探测到之前的很久一段时间内,依靠无人机群对来袭隐身目标进行被动定位与跟踪,并以此支持其后续的反隐身攻击。

图1 多被动传感器组网协同反隐身探测示意图Fig.1 Schematic diagram of cooperative anti-stealth detection of passive networked sensors

在利用无人机群进行反隐身探测过程中,在体系对抗下,为了提升系统整体跟踪效果,应充分利用部署于战场的多个被动传感器组网,以对来袭的多个隐身目标进行协同探测。尽管被动传感器具有较好的隐身性能,理论上传感器数量越多,量测信息越丰富,跟踪情况越好。但实际作战中,由于通讯带宽有限,且后方有人机数据处理能力有限,一次通常只能有一定数量的传感器同时工作。因此,在红蓝双方攻防对抗过程中,在每个任务周期,都需要动态优选出最佳的传感器组合对隐身目标进行探测跟踪,这样就产生了一个多被动传感器组网协同反隐身探测的任务规划问题。

1.2任务规划POMDP要素

由于目标隐身带来许多不确定性因素,且被动传感器为不完全观测,就决定了本文的多被动传感器组网协同反隐身探测任务规划问题是一个不确定环境下、不完全信息下的序贯决策问题,而POMDP模型是研究随机环境下多阶段决策的理论工具,为本文的任务规划问题提供了一个完整的描述框架[36],模型要素用一个六元组表示。

1.2.1状态空间S

1.2.2行动空间A

(1)

1.2.3观测值集Z

(2)

1.2.4状态转移函数T

(3)

sk+1=f(sk,wk)=Fksk+wk,

(4)

1.2.5观测函数Ω

系统的观测律Ω(zk|sk,ak)定义为zk=h(sk,ak,vk). 由于各个传感器独立观测,记k时刻传感器s对目标t的量测方程为

(5)

(6)

(7)

1.2.6收益函数R

(8)

式中:Jk表示系统的FIM;[Jk]-1即为系统的PCRLB,PCRLB给出了状态估计与真值的误差协方差阵的下界。Jk由两部分组成:

Jk=Js,k+Jz,k,

(9)

式中:Js,k为状态先验信息阵;Jz,k为量测更新信息阵。Js,k可由下式迭代求解:

(10)

(11)

Jz,k为量测更新信息阵,由于各个传感器独立观测,则有

(12)

(13)

(14)

将(10)式~(14)式带入(9)式,并整理得

(15)

为了便于对多被动传感器组网协同反隐身探测的行动优劣进行评估,同时避免矩阵求逆带来额外计算负担,本文以Jk(FIM)代替[Jk]-1(PCRLB),并最终以Jk的迹作为POMDP任务规划模型的当前一步立即收益,即

(16)

式中:Jk(i,i)表示矩阵Jk的第i行、第i列。

1.3任务规划POMDP框架

针对多被动传感器组网协同反隐身探测任务规划问题,本文的POMDP模型采用了在线规划方案。不同于离线规划中将整个任务过程分为离线策略规划和在线策略执行阶段,在线规划将整个任务过程划分成若干个小的规划和执行,每个任务周期都会根据现有信息进行一次决策,随后由各个传感器执行所选最优策略。图2给出了在线规划和离线规划对比。

图2 离线规划与在线规划对比Fig.2 Comparison of online planning and offline planning

由于攻防对抗持续进行,POMDP任务规划将贯穿于整个作战过程。规划中由于系统状态sk不完全可观测,POMDP模型引入信念状态bk对系统状态的后验分布进行描述,以保证过程的马尔可夫性。信念状态bk是对系统状态的后验估计,是依据历史观察及行动信息γk={b0,a1,z1,a2,z2,…,ak-1,zk-1}利用贝叶斯准则计算得到的一个当前状态对所有系统状态的后验概率密度。若整个作战过程有M个任务周期,每个任务周期进行l次采样,则一个完整的POMDP任务规划开始于初始信念b0,并按照如下过程推进:在任务周期m,基于信念状态bml,以全任务过程综合收益最优为原则,动态决策出本周期的最佳行动策略aml+1=aml+2=,…,=a(m+1)l;随后在策略执行阶段,被选中的传感器组将被激活,进行l次采样并获得量测zml+1,zml+2,…,z(m+1)l,经过l次信念状态更新得到b(m+1)l,随即进行第m+1次规划,如此循环。如图3所示(其中TC指任务周期),基于POMDP的多被动传感器组网协同反隐身探测任务规划是一个“依观测更新信念,依信念选择行动,以行动产生观测”的不断完善的序贯决策过程。

图3 基于POMDP的多被动传感器组网协同任务规划过程Fig.3 Process of cooperative mission planning of passive networked sensors

1.4任务规划POMDP模型

定义策略π:B→A为信念空间B到动作集A的一个映射,π={π1,π2,…,πH},则ak=πk(bk),其中H为任务时域长度。

定义值函数Vπ:B→R为信念空间B到收益R的一个映射。Vπ(b0)为在初始信念状态b0下采用策略π时的期望总收益,即

(17)

基于POMDP的多被动传感器组网协同反隐身探测任务规划的最终目标就是确定全时域的最优策略π*(b0):

(18)

在线规划模式下,整个任务时域被划分成了M个任务周期[1,l],…,[ml+1,(m+1)l],…,[(M-1)l+1,Ml],每个任务周期包含策略搜索和策略执行,即每个任务周期都需要进行一次规划决策,然后在该周期之内,传感器根据决策结果进行执行,则整个任务过程需要进行M次规划决策。进行任务周期划分之后,最优值函数可以化简为

(19)

由Bellman最优准则,对任意任务周期m(0≤m

(20)

(21)

这样,针对任务周期m的规划决策模型为

(22)

(23)

随着作战的进行,m将依次取值0,1,2,…,M-1,每个任务周期开始时,都按照(22)式进行一次规划决策,然后由传感器按照决策结果执行策略,依次循环直至任务结束。

2 任务规划模型求解

本文的多传感器协同反隐身探测任务规划问题,是一个连续状态空间问题,精确值迭代算法需要在整个信念空间内求解高维的线性方程组,以得到对应的梯度向量集合,具有非常高的时间复杂度,显然无法满足本文的在线规划需求,因此,本文主要考虑POMDP的近似解法。基于采样信念点的算法是一种典型的近似算法,其基本思想是对信念空间的有限子集进行迭代,求解梯度向量集合来描述整个信念空间上的最优值函数。由于是从信念空间中选择一个有限的集合进行求解,因此梯度向量的数量会降低,从而降低了问题的复杂性。典型的基于信念点的算法主要有PBVI算法和Perseus算法。本文在 PBVI和Perseus算法基础上,结合多被动传感器协同反隐身探测任务规划的特点,针对性的设计了信念状态更新方法和Q值估计方法,以实现对本文任务规划问题的在线近似求解。

2.1多传感器协同控制结构

在集中式的管理架构下,多被动传感器组网协同任务控制器由两大组成部分,即目标跟踪器和行动选择器,前者接收观测信息,输出信念状态;后者接收信念状态,输出行动策略;二者相互配合共同完成任务规划。具体来说就是在每个任务周期首先由任务控制器规划决策出传感器调度策略,然后将决策结果转化成控制指令下达给各个传感器,各传感器接受指令并执行策略。图4给出了多被传感器组网协同控制系统结构。

图4 多被动传感器组网协同控制系统结构Fig.4 Framework of cooperative control system of passive networked sensors

目标跟踪器主要用于在不确定环境下实现信念状态更新,其基本思想利用跟踪滤波算法更新系统状态的后验概率分布。目前常用的滤波算法主要有卡尔曼滤波(KF),扩展卡尔曼滤波(EKF),无迹卡尔曼滤波(UKF),粒子滤波(PF). 其中,KF仅适用于线性高斯系统;PF适用于任意非线性系统,但其本质是一种蒙特卡洛方法,计算开销大;EKF计算量较小,却仅适用于弱非线性高斯系统,对本文所研究问题的适应能力有限;UKF是一种介于EKF和PF之间的滤波算法,计算量适中,且适用于非线性高斯系统,因此,本文选择UKF算法对作为信念状态更新方法。

行动选择器主要用于进行策略筛选。由(22)式可知,某时刻选择最优行动的原则为最大化Q值,因此,行动选择的首要任务是Q值计算。对于目标跟踪这类复杂连续状态问题,无法解析求解期望值,因此无法精确计算Q值。一种可选方案是利用蒙特卡洛方法进行近似估计。在进行Q值近似计算时,远期期望收益的计算尤为复杂,传统的迭代算法在面临连续状态问题时显得无能为力,借鉴文献[38]在解决随机调度问题时的思路,本文针对所研究的具体问题采用了Rollout方法,并设计了基本策略,提出了基于MCRS的Q值近似估计方法。表1给出了任务规划算法伪代码。

表1 任务规划算法伪代码

2.2基于UKF的信念状态更新

1) 从信念中提取初始均值和方差

(24)

2) Sigma点生成

(25)

3) 参数估计

(26)

(27)

4) 时间更新

(28)

(29)

(30)

5) 量测更新

(31)

(32)

(33)

(34)

6) 滤波更新

(35)

(36)

(37)

7) 信念状态更新

(38)

表2给出基于UKF的信念状态更新算法伪代码。

表2 信念状态更新算法伪代码

2.3基于MCRS的Q值估计与行动选择

2.3.1Rollout基本思想

(39)

2.3.2基本策略设计

基本策略πb的设计没有固定章法可循,一般只能根据研究问题的特点进行启发式设计。如文献[26] 针对单目标跟踪问题所设计的最近点策略(CPA);文献[25] 针对多目标跟踪问题所设计的最近传感器策略(CSP)等。本文所研究的多被动传感器组网协同反隐身探测任务规划问题,由于是被动观测,传感器进行测量的前提是必须处于目标电磁辐射范围之内,且距离目标越近,跟踪效果越好。因此,本文在CSP的基础上,设计了覆盖CSP(CCSP)基本策略:

(40)

2.3.3蒙特卡洛近似估计

(41)

3 仿真分析

3.1仿真初始设定

表3 Q值估计和行动选择算法伪代码

3.2仿真结果分析

3.2.1模型适应性分析

本文在Eclipse环境下采用Java语言编写了仿真程序。选取了4种典型策略进行仿真对比分析,即Myopic策略、CCSP策略、Random策略、Rollout策略。其中Myopic策略,以最大化当前一步立即收益Rk为目标函数进行决策;CCSP策略,即本文所设计的基本策略,按照(40)式进行决策;随机策略,在决策时随机选择任务方案;Rollout策略,即本文MCRS算法下的非Myopic策略,按照(22)式进行决策。仿真时间H=100 s,则任务规划次数为H/Tc=10,信念状态更新次数H/Ts=50. 在100 s的仿真时间内,4种策略下的10次任务规划结果如图5所示,其中图5(a)、图5(b)、图5(c)、图5(d)分别为Myopic策略、CCSP策略、Random策略、Rollout策略下的规划结果。

图5 4种典型策略下的传感器协同任务方案序列对比图Fig.5 Comparison of sensor schemes of four typical strategies

图6给出了4种典型策略下的综合收益对比。从图中结果可以看出,在进行的10次任务规划中,POMDP模型下的Rollout策略收益始终高于CCSP策略、Random策略和Myopic策略,是综合收益最高的策略。Rollout策略、CCSP策略、Random策略下的综合收益均远高于Myopic策略,这是因为Myopic策略仅仅考虑当前一步立即收益Rk,其他3种策略则是考虑了当前周期和未来远期的综合收益。从图中同时可以看出,Rollout策略下的综合收益,较之于CCSP策略和Random策略,在数值上的优势并不明显,这主要是由于本文所选择目标函数的特殊性,且三者在计算综合收益时都包含了未来远期收益,数值上较为接近。事实上,在本文的问题模型下,综合收益数值上微小的优势,反映到对目标的跟踪效果上,将会是较为明显的优势,下文将结合图7对7种策略下的跟踪效果进行对比分析。同时,Rollout策略、CCSP策略以及Random策略收益随时间呈现递减趋势,这是因为3种策略均为非Myopic策略,随着时间的推进,其后续决策在进行未来远期收益计算时需要向后预测的时间越来越短,远期收益越来越小,故而综合收益也越来越小。

图6 4种典型策略下的综合收益值对比图Fig.6 Comparison of total rewards of four typical strategies

每次规划完成,则之后的一个周期之内,多传感器按照规划结果进行协同反隐身探测,被选中的传感器组每2 s进行一次采样,并据量测信息进行信念状态更新。图7给出了100 s仿真时间内,50次采样下,4种典型策略下的多传感器协同跟踪效果,其中图7(a)、图7(b)、图7(c)分别为多传感器对目标T1、T2、T3协同跟踪时的位置估计误差协方差RMS随时间变化规律,从图中可以看出,在整个跟踪过程中,POMDP模型下的Rollout策略对T1、T2、T3的跟踪位置误差RMS要明显小于其他三者一种策略,对隐身目标的长期跟踪效果最好,这与图6的综合收益对比结论一致。图6、图7结果充分证明了在POMDP模型下所规划出的传感器协同控制策略能够获得更好的目标跟踪效果,即模型有效性得到了验证。

图7 4种典型策略下的多传感器多目标协同跟踪效果Fig.7 Accumulated tracking errors of multi-sensors for multiple targets for four typical strategies

3.2.2算法性能分析

本文在求解基于POMDP的传感器协同反隐身探测任务规划模型时,设计了MCRS近似算法。为了对该算法性能进行分析,本文在Eclipse环境下采用Java语言编写了仿真程序,同时选取了PBVI和Perseus算法作为对比,其中PBVI和Perseus算法使用了Guy Shani开发的开源工具包POMDPSolver(Java语言编写)[39]。实验在Intel Core i3-2100、主频3.10 GHz、四核CPU的计算机上进行。为了降低随机性对实验结果的影响,采用了多次仿真取均值的方法。

图8 3种典型算法计算性能与优化效能对比Fig.8 Comparison of total rewards and calculated performances of three typical algorithms

图8分别给出了100 s仿真时间内所进行的10次任务规划决策中,利用3种典型算法求解本文的多被动传感器组网协同反隐身任务规划问题时的计算性能和优化效能对比。从图8(b)可以看出,在优化效能上,PBVI算法要优于Perseus和MCRS算法,但这种优势是以牺牲计算性能为代价的。从图8(a)可以看出,PBVI的计算耗时与Perseus和MCRS相比,存在数量级的差别,这显然无法满足本文在线规划的任务要求。本文所提出的MCRS近似算法虽然在优化效能上无法与PBVI和Perseus相比,但在计算性能上却优势明显,在解决实际问题时时效性更强,满足在线规划要求,即算法有效性得到了验证。

4 结论

本文从反隐身作战背景与需求出发,提出了实现空域反隐身探测的多被动传感器组网协同战术;针对组网协同中存在的多传感器规划调度问题,引入POMDP理论,基于POMDP的多被动传感器组网协同反隐身探测任务规划模型。较之于传统的以一步收益为优化目标的Myopic方案,POMDP模型的每次规划决策都是建立在长期收益最优原则之上,因此具有更好的长期跟踪效能。为实现模型求解,本文设计了多被动传感器协同控制系统结构,将规划过程分解为目标跟踪和行动选择两大子过程,提出了基于UKF的信念状态更新方法和基于MCRS的Q值估计算法,设计了CCSP基本策略,给出了相关算法的详细实现伪代码。仿真结果验证了本文所建立的多被动传感器组网协同反隐身探测任务规划POMDP模型的有效性。

References)

[1]卢盈齐, 祝长英. 雷达组网反隐身的一种优化布站方法[J]. 系统工程理论与实践,2007(6): 166-169.

LU Ying-qi, ZHU Chang-ying. An optimal deploy method of netted radar for detecting stealth target[J]. Systems Engineering-Theory & Practice, 2007(6): 166-169. (in Chinese)

[2]刘尚富, 甘怀锦. 雷达隐身与反隐身技术浅析[J]. 舰船电子工程,2010, 30(9): 28-30.

LIU Shang-fu, GAN Huai-jin. Brief review on stealth and anti-stealth techniques of radar[J]. Ship Electronic Engineering, 2010, 30(9): 28-30. (in Chinese)

[3]凌晓曙. 雷达隐身和反隐身技术[J]. 舰船电子对抗, 2007, 30(3): 40-42.

LING Xiao-shu. Stealth and anti-stealth techniques of radar[J]. Shipboard Electronic Countermeasure, 2007, 30(3): 40-42. (in Chinese)

[4]沈阳, 陈永光, 李修和,等. 多基地雷达反隐身分布式检测融合算法研究[J]. 电子学报, 2007, 35(3): 506-510.

SHEN Yang, CHEN Yong-guang, LI Xiu-he,et al. Study on fusion arithmetic of multi radar distributed detection system against stealthy targets [J]. Acta Electronica Sinica, 2007,35(3): 506-510. (in Chinese)

[5]Kuschel H, Heckenbach J, Muller S, et al. On the potentials of passive, multistatic, low frequency radars to counter stealth and detect low flying targets[C]∥2008 IEEE Radar Conference. Rome, Italy : IEEE Computer Society, 2008: 1-6.

[6]李伟, 柯涛. 雷达组网反隐身可行性仿真分析[J]. 舰船电子对抗,2010(5): 83-87.

LI Wei, KE Tao. Simulation analysis of anti-stealth feasibility of radar netting[J]. Shipboard Electronic Countermeasure,2010(5): 83-87. (in Chinese)

[7]Kreucher C, Blatt D, Hero A, et al. Adaptive multi-modality sensor scheduling for detection and tracking of smart targets[J]. Digital Signal Processing, 2006, 16(5): 546-567.

[8]刘先省, 申石磊, 潘泉. 传感器管理及方法综述[J]. 电子学报,2002,30(3): 394-398.

LIU Xian-xing , SHEN Shi-lei, PAN Quan. A survey of sensor management and methods[J]. Acta Electronica Sinica, 2002,30(3): 394-398. (in Chinese)

[9]罗开平, 姜维, 李一军. 传感器管理述评[J]. 电子学报,2010,38(8): 1900-1907.

LUO Kai-ping, JIANG Wei, LI Yi-jun. Review of sensor management[J]. Acta Electronica Sinica, 2010,38(8): 1900-1907. (in Chinese)

[10]李彬彬, 冯新喜, 王朝英,等. 基于信息增量的多被动传感器资源分配算法[J]. 系统工程与电子技术, 2012(3): 502-507.

LI Bin-bin, FENG Xin-xi, WANG Chao-ying, et al. Multi-passive sensors resource allocation algorithm based on information gain[J]. Systems Engineering and Electronics, 2012(3): 502-507. (in Chinese)

[11]Williams J L. Information theoretic sensor management[D]. Massachusetts: Massachusetts Institute of Technology, 2007.

[12]Jenkins K L, Castanon D A. Information-based adaptive sensor management for sensor networks[C]∥2011 American Control Conference. San Francisco, CA, US: AACC, 2011:4934-4940.

[13]Wei M, Chen G, Blasch E. Game theoretic multiple mobile sensor management under adversarial environments[C]∥11th International Conference on Information Fusion Cologne. Germany: Air Force Research Laboratory, 2008:645-652.

[14]Li X, Chen G, Blasch E. A geometric feature-aided game theoretic approach to sensor management[C]∥12th International Conference on Information Fusion. Seattle, WA, US: ISIF, 2009:1155-1162.

[15]Lopez J M M, Rodriguez F J J, Corredera J R C. Fuzzy reasoning for multisensor management[C]∥IEEE International Conference on SMC. US: IEEE, 1995: 1398-1403.

[16]Smith J F, Rhyne R D. A fuzzy logic algorithm for optimal allocation of distributed resources[C]∥Proceedings of the Second International Conference on Information Fusion. Mountain View, CA: International Society for Infonmation Fusion, 1999: 402-409.

[17]王博, 周一宇, 鲁建华,等. 基于实值粒子群优化的STSS系统传感器管理算法研究[J]. 系统仿真学报,2009,21(22): 7287-7292.

WANG Bo, ZHOU Yi-yu, LU Jian-hua, et al. Research on sensor management algorithm of STSS based on real-number particle swarm optimization[J]. Journal of System Simulation, 2009,21(22): 7287-7292. (in Chinese)

[18]杨博, 王向华, 邵利平,等. 基于群集智能的传感器管理方法研究[J]. 兵工学报,2012, 33(2): 155-161.

YANG Bo, WANG Xiang-hua, SHAO Li-ping, et al. Research on sensor management based on collective intelligence[J]. Acta Armamentarii, 2012, 33(2): 155-161. (in Chinese)

[19]Williams J L, Fisher J W, Willsky A S. Approximate dynamic programming for communication-constrained sensor network management[J]. IEEE Transactions on Signal Processing, 2007, 55(8): 4300-4311.

[20]Karmokar A K, Senthuran S, Anpalagan A. POMDP-based cross-layer power adaptation techniques in cognitive radio networks[C]∥Global Communications Conference. Anaheim, California, US:IEEE,2012: 1380-1385.

[21]Hitchings D, Castanon D A. Receding horizon stochastic control algorithms for sensor management[C]∥American Control Conference. MD, US: AACC, 2010:6809-6815.

[22]Krishnamurthy V. Algorithms for optimal scheduling and management of hidden Markov model sensors[J]. IEEE Transactions on Signal Processing, 2002, 50(6): 1382-1397.

[23]Brehard T, Coquelin P A, Duflos E, et al. Optimal policies search for sensor management: application to the AESA radar[C]∥11th International Conference on Information Fusion. Cologne, Germany: Cologne, Germany: International Society for Information Fusion, 2008: 1-8.

[24]Krishnamurthy V, Djonin D V. Optimal threshold policies for multivariate POMDPs in radar resource Management[J]. IEEE Transactions on Signal Processing, 2009, 57(10): 3954-3969.

[25]Li Y, Krakow L W, Chong E K, et al. Approximate stochastic dynamic programming for sensor scheduling to track multiple targets[J]. Digital Signal Processing,2009, 19(6): 978-989.

[26]He Y, Chong E K. Sensor scheduling for target tracking: a Monte Carlo sampling approach[J]. Digital Signal Processing, 2006, 16(5): 533-545.

[27]Nourbakhsh I, Powers R, Birchfield S. DERVISH an office-navigating robot[J]. AI Magazine, 1995, 16(2): 53-60.

[28]Simmons R, Koenig S. Probabilistic robot navigation in partially observable environments[C]∥Proceedings of the International Joint Conference on Artificial Intelligence.Canberra, Australia:World Scientific Publishing Co Pte Ltd, 1995.

[29]Dallaire P, Besse C, Ross S, et al. Bayesian reinforcement learning in continuous POMDPs with Gaussian processes[C]∥International Conference on Intelligent Robots and Systems. St Louis, MO, US:IEEE, 2009: 2604-2609.

[30]Martinez-Cantin R, De Freitas N, Brochu E, et al. A Bayesian exploration-exploitation approach for optimal online sensing and planning with a visually guided mobile robot[J]. Autonomous Robots,2009, 27(2): 93-103.

[31]Pyeatt L D, Howe A E. Integrating POMDP and reinforcement learning for a two layer simulated robot architecture[C]∥The Third Annual Conference on Autonomous Agents. New York, US: ACM, 1999: 168-174.

[32]Eker B I C S, Ak I N H L. Solving decentralized POMDP problems using genetic algorithms[J]. Autonomous Agents and Multi-Agent Systems, 2013, 27(1): 161-196.

[33]Chong E K P, Kreucher C M, Hero A O. Monte-Carlo-based partially observable Markov decision process approximations for adaptive sensing[C]∥9th International Workshop on Discrete Event Systems . Goteborg, Sweden:IEEE,2008: 173-180.

[34]Chong E K, Kreucher C M, Hero Iii A O. Foundations and Applications of Sensor Management[M]. NY: Springer, 2008: 95-119.

[35]Li Y, Krakow L W, Chong E K P, et al. Dynamic sensor management for multisensor multitarget tracking[C]∥40th Annual Conference on Information Sciences and Systems. Princeton, NJ: IEEE,2006: 1397-1402

[36]慈元卓. 面向移动目标搜索的多星任务规划问题研究[D]. 长沙:国防科学技术大学, 2008.

CI Yuan-zhuo. Multi-satellite mission planning for moveing target search[D]. Changsha: National University of Defence Technology,2008. (in Chinese)

[37]Tharmarasa R, Kirubarajan T. Sensor management for large-scale multisensor-multitarget tracking [D]. Canada: McMaster University,2007.

[38]Bertsekas D P, Castanon D A. Rollout algorithms for stochastic scheduling problems[J]. Journal of Heuristics, 1999,5(1): 89-108.

[39]Guy Shani. POMDP solver-a Java implementation arranged as an Eclipse package of most of the point-based algorithms for solving POMDPs [EB/OL]. [2013-06-01]. http:∥www.bgu.ac.il/~ shanigu/.

Mission Planning of Passive Networked Sensors for Cooperative Anti-stealth Detection Based on POMDP

WAN Kai-fang, GAO Xiao-guang, LI Bo, MEI Jun-feng

(School of Electronics and Information, Northwestern Polytechnical University, Xi’an 710072, Shaanxi, China)

A cooperative strategy for multiple passive networked sensors to satisfy the requirements of anti-stealth is proposed. A POMDP model for the multiple passive networked sensors is established to improve the effectiveness of the anti-stealth detection. The elements of POMDP model are analyzed comprehensively based on the POMDP theory. A cooperative control system of multi-passive-sensors is put forward, and a UKF method for belief state updating together with a MCRS-based (Monte-Carlo Rollout sampling) algorithm forQ-value estimation is presented. A basic policy of CCSP is designed. Experiments show that the proposed model can be used for the efficient management and scheduling of multi-passive-sensors, as well as the effective detection and tracking of the stealth targets by deploying these sensors. The validity of the proposed algorithm is demonstrated.

control science and technology; sensor technology; anti-stealth; multiple sensors networking; POMDP; belief state; mission planning

2013-08-20

全国高等院校博士学科点专项科研基金项目(20116102110026); 空军装备预先研究项目(402040103); 西北工业大学基础研究基金项目(JC201144); 西北工业大学科研启动基金项目(GAKY300701)

万开方(1987—), 男, 博士研究生。 E-mail: yibai_2003@126.com;

高晓光(1957—), 女, 教授, 博士生导师。 E-mail: cxg2012@nwpu.edu.cn

TP212

A

1000-1093(2015)04-0731-13

10.3969/j.issn.1000-1093.2015.04.023

猜你喜欢
被动信念协同
输入受限下多无人机三维协同路径跟踪控制
家校社协同育人 共赢美好未来
为了信念
新闻语篇中被动化的认知话语分析
蜀道难:车与路的协同进化
冠军赛鸽的信念(上)
蔓延
发光的信念
“四化”协同才有出路
信念的传承