面向鲁棒决策的战场态势评估人机共识形成方法

2022-12-01 12:38陈刚姚丽亚王国新商曦文陈旺阎艳明振军
兵工学报 2022年11期
关键词:鲁棒敌方乘员

陈刚, 姚丽亚, 王国新, 商曦文, 陈旺, 阎艳, 明振军

(1.北京理工大学 机械与车辆学院, 北京 100081; 2.中国北方车辆研究所, 北京 100072)

0 引言

未来智能化战争的核心是以决策为中心作战,科学合理的态势认知是智能决策的基础,是实现观察- 判断- 决策- 执行(OODA)高效循环的关键。在信息复杂多样且多变的现代战争背景下,不仅军用仿真技术是未来战争的重要环节,战场信息融合更成为了决定胜负的关键因素[1]。只有依靠完备的信息融合有效感知战场态势,才能及时准确地判断战场动态、敌方威胁以及作战效能等关键信息,最大程度支撑作战决策。

地面突击装备的作战环境具有复杂性、隐蔽性、欺骗性和信息不确定的特点,仅靠乘员主观判断或机器辅助决策进行态势评估的方法在效率和准确性上存在不足,亟需融合人的“人类智能”以及机器的“人工智能”实现综合态势评估。复杂、高强度对抗环境下实现综合态势评估人机智能融合的关键是人机共识的形成,面临着人机认知方式存在差异、不确定性因素多和人机交互效率低、灵活性差等两大挑战。

战场综合态势评估中的人机混合鲁棒决策是一种尽可能在已有信息的基础上消除不确定性因素,并最终做出一个对不确定性不敏感的稳健决策的过程。指挥员在海量、多源、复杂、异构且快速增长的战场态势数据和人机认知过程不确定性的干扰下做出决策的正确性和及时性将直接影响到战争的成败,因此,实现态势评估人机智能融合从而辅助指挥员做出鲁棒决策显得尤为重要,也是未来智能化战争的客观需求。

目前,国内外主要围绕基于规则知识、贝叶斯网络、深度神经网络以及数据挖掘等的态势评估方法进行了技术探索和系统构建,周献中等[2]建立了基于知识的海战场态势评估辅助决策系统,孟光磊等[3]建立了基于混合动态贝叶斯网络的无人机空战态势评估模型,张宏鹏等[4]建立了基于深度神经网络的无人作战飞机自主空战决策模型;霍士伟等[5]提出了基于自训练半监督学习的战场态势评估模型,较大程度提高了评估准确率;Yu等[6]研究了编队指挥决策的关键技术——目标威胁评估技术,Yu等[7]基于数据挖掘技术构建了海战态势数据集,提取出海战态势评估最优规则。在军事应用领域,主要集中于空军和海军,陆军应用相对较少;同时缺乏对其认知原理的研究,无法有效支撑地面突击装备战术级、高动态、分布式、强实时作战。对于人机智能融合形成人机共识的研究局限于给定人机偏好下的“人主机辅”、“机主人辅”和“人机协同”三种策略[8],不能适应于信息复杂多样且瞬息万变的未来智能化战争,并且对战场环境和人机认知过程不确定性下的鲁棒决策问题研究还很少。

本文通过采集乘员(专家)态势评估数据的行为实验样本,模拟乘员(专家)态势评估认知过程,构建战场态势评估两级智能代理;针对综合态势评估人机智能融合,提出对人机偏好不敏感的决策鲁棒指数,为高强度对抗下的车辆乘员快速判断形成人机共识做出鲁棒决策提供依据。

1 战场综合态势评估

1.1 战场态势

战场态势是指战场环境中敌方、我方和中立方各作战要素的当前状态及其变化趋势[9]。战场态势中的“态”强调当前的状态,是对作战单元实体属性、状态信息和战场环境的描述;战场态势中的“势”主要指战场的发展趋势,即战场中作战单元实体的能力变化、动态关系和行为趋势[10]。

地面突击装备典型作战要素包括敌我双方的兵力部署、武器装备等军事要素;参与作战的空中和地面作战实体的属性状态等动态目标要素;地理、气候、电磁等环境要素;以及政治、经济、文化等社会要素。未来智能化战争中,地面战场环境态势具有复杂性、实时性、动态性和不确定性等特征,给战场综合态势评估带来了巨大挑战。

1.2 态势评估

态势评估是分析战场态势从而辅助指挥员决策的过程,其来源于美国空军首席科学家Endsley在1988年提出的一个更宽的概念——态势感知[11]。态势感知被定义为在一定的时间和空间范围内感知环境中的要素,理解它们的意义并预测它们在未来的状态。Endsley于1995年提出了一个通用的态势感知三级模型,如图1所示[12]。第一级是感知层,感知环境中的要素信息;第二级是理解层,综合集成并理解环境的当前态势;第三级是预测层,预测环境的未来状态和趋势。

图1 动态决策环境中的态势感知三级模型

战场综合态势评估是在多源信息融合基础上,对战场态势的判读、理解和预测,实现对作战区域战场形势优劣研判的定量化分析,以支持快速高效的战术指挥决策。典型地面突击装备作战环境的综合态势评估通常考虑敌方作战意图识别、敌方目标威胁评估以及敌我力量对比分析等三个维度,本文重点研究如何对敌方作战意图进行识别。具体通过基于智能代理和人机共识的方法进行敌方作战意图识别,即构建敌方作战意图识别智能代理,将车辆乘员与智能代理在判别敌方作战意图时的冲突转化为共识,从而辅助指挥员做出鲁棒决策。

2 态势评估智能代理构建

针对战场态势评估中的敌方作战意图识别问题,采集乘员(专家)的行为实验样本并训练得到能够自动识别敌方意图的两级智能代理模型,如图2所示。构建两级代理模型的目的是模仿乘员(专家)识别敌方作战意图的认知和思维过程,将认知过程“白盒化”,建立从战场环境信息提取到敌方意图识别的逻辑链条,形成用于机器判断的智能代理。

图2 敌方作战意图识别智能代理构建

2.1 一级代理模型

一级代理模型模仿乘员(专家)从复杂多变的战场环境中提取态势信息并进行初步分析的过程。作战意图识别作为战场态势评估的关键问题,按战场环境可分为海战、陆战、空战作战意图识别,按战场规模可分为战略级、战役级和战术级作战意图识别[13]。本文主要针对地面突击装备典型作战(陆战)场景,对敌方战术级意图进行识别,将敌方作战意图分为进攻、侦察、佯攻、撤退。通过对历史战例、演习训练的战场态势数据和信息进行分析总结,结合地面突击装备典型作战的特点和乘员(专家)的宝贵经验可知:敌军数量的多少、行军速度的快慢、与我军距离的远近、敌军的行军方向、毁伤状况以及武器装备的优良程度会直接影响我方对敌方作战意图的判断[14]。因此,本文选取敌方作战意图识别的主要影响因素为敌方数量、敌方速度、敌方距离、敌方朝向、毁伤状况、武器装备等六个维度。运用如下相关公式[15-17]对作战意图识别的影响因素进行量化并进行表1所示的隶属度等级划分。

表1 态势信息隶属度等级划分

(1)

式中:Tv为敌方速度威胁度;vm为我方作战单元速度;vt为敌方作战单元速度。

(2)

式中:Td为敌方距离威胁度;x为双方作战单元的距离;xRmax为雷达最大探测距离;xMmax为导弹最大攻击距离;xMkmax和xMkmin分别为不可逃逸最大和最小距离。

TA=(|φ|+|q|)/360°

(3)

式中:TA为敌方朝向威胁度;φ为目标方位角,0≤φ≤180°;q为目标进入角,0≤q≤180°。

VW=(IR+ID)P, 0

(4)

式中:VW为武器杀伤能力;IR=Si/Smax;Si为被评估目标武器装备的有效射程值,Smax为整个敌方陆战分队所有装备中,最远的有效射程值;ID为导弹或子弹击中目标后的破坏能力;P为武器装备的毁伤概率。

2.2 二级代理模型

二级代理模型模仿乘员(专家)在态势信息初步分析的基础上做出最终判断的过程。例如在敌方作战意图识别中,乘员(专家)综合敌方数量、敌方速度、敌方距离、敌方朝向、毁伤状况、武器装备等六个维度的分析结果,判断敌方作战意图为进攻、侦察、佯攻或撤退。本文运用贝叶斯网络来完成二级智能代理的构建。

贝叶斯网络,又称信念网络,或有向无环图模型,是一种模拟人类推理过程中处理因果关系不确定性的模型,其网络拓扑结构是一个有向无环图(DAG)[18]。本文综合乘员(专家)对战场态势信息的分析过程和敌方四种作战意图:进攻、侦察、佯攻、撤退,将贝叶斯网络构建为如图3所示的拓扑结构。

图3 敌方作战意图识别贝叶斯网络拓扑结构

敌方作战意图识别贝叶斯网络具体表示为B=〈G,P〉,其中G=(L,E)表示有向无环图模型,L={x1,x2,x3,…,xn}是图形中所有节点的集合,对应模型中的随机变量,即敌方意图和意图识别的六个影响因素;E是图形中单向箭头的集合,对应节点间的相互依赖关系,即各个随机变量间的因果关系,若有一个单向箭头由Xi指向Xj,则称Xi是Xj的父节点,在敌方作战意图识别贝叶斯网络中表示Xi对敌方意图Xj有影响;P表示模型中的条件概率表(CPT),用于量化各随机变量间的相互依赖程度。因此,根据概率的链式规则,贝叶斯网络的联合概率分布[19]表示为:

(5)

由马尔可夫理论可知,在给定其父节点集的条件下,任意节点都独立于其所有非后继节点,即

P(Xi|X1,X2,…,Xi-1)=P(Xi|π(Xi))

(6)

根据(5)式和(6)式,可以得到如下公式

(7)

式中:π(Xi)表示节点Xi的父节点集。

确定了贝叶斯网络的拓扑结构之后,需要结合某仿真系统中采集的乘员(专家)训练样本(部分训练样本见表2)进行参数训练,以获得各节点的条件概率。本文采用EM算法进行参数训练。在敌方作战意图识别贝叶斯网络的样本数据中,Z={z(1),z(2),…,z(n)}为已知观测数据,Y={y(1),y(2),…,y(n)}为未知数据集,EM算法是由E步和M步交替完成的参数估计算法[20],其算法原理为:

初始化参数θ,即各个节点的条件概率,这个值可以是随机的;

E步:根据参数θ计算联合分布的条件概率期望

(8)

式中:y(i),z(i)分别表示未知数据样本和已知数据样本,Qi(y(i))=p(y(i)|z(i),θ)表示在当前参数θ下未知数据样本y(i)的条件概率分布。

EM算法可以对各节点的条件概率进行计算推理,是一种具有较好鲁棒性的数值计算方法。

本文借助Netica软件来构造贝叶斯网络,在确定了敌方作战意图识别贝叶斯网络的拓扑结构的基础上,依据乘员(专家)样本数据进行参数训练,确定各节点的条件概率。通过Netica软件可以构建贝叶斯网络并确定各节点的条件概率,最终形成敌方作战意图识别贝叶斯网络,如图4所示。

图4 敌方作战意图识别贝叶斯网络

3 人机共识形成方法——决策鲁棒指数

在信息多源融合、环境复杂多变的地面突击装备典型作战场景下,车辆乘员与智能代理在战场态势信息提取和分析方面可能会存在差异。本文针对“人类智能”和“人工智能”在战场态势评估中的共识形成问题,即如何将“人类智能”和“人工智能”的认知冲突转化为共识的问题,提出一种对人机权重不敏感的决策鲁棒指数,基于该指数进行人机混合敌方作战意图识别的流程如图5所示。首先,车辆乘员和智能代理分别观察或输入战场态势信息,对敌方数量、敌方速度、敌方距离、敌方朝向、毁伤状况、武器装备等六个维度的隶属度等级做出判断,找到双方对这六个维度隶属度等级判断的共识与冲突(经过简单的比对即可得到,因此不作为一个技术点);然后,针对双方发生冲突的维度,基于贝叶斯网络计算不同人机权重下的敌方作战意图;最后,基于决策鲁棒指数将冲突转化为共识,分别计算经人机融合后判断敌方意图为进攻、侦察、佯攻、撤退时的决策鲁棒指数DnS、DnA、DnF、DnR,并根据其大小进行排序,获得对人机权重最不敏感的结果作为最终的敌方意图识别结果,即人机融合后的共识结果。

图5 人机共识形成方法

3.1 人机认知冲突

在基于人机协同的敌方作战意图识别过程中,由于车辆乘员和智能代理在战场多源复杂的原始数据的提取和分析方面存在差异,可能导致两者在敌方数量、敌方速度、敌方距离、敌方朝向、毁伤状况、武器装备等维度上产生认知冲突。

在地面突击装备典型作战场景中,考虑两种冲突识别的方式:一种是车辆乘员与智能代理对战场态势信息进行独立分析并在六个维度上分别判断,消除两者之间的相互干扰,然后对人机的判断进行比对和冲突识别;另一种是为了减轻车辆乘员的工作负荷,智能代理在六个维度形成判断后车辆乘员根据自身观察的态势信息进行冲突识别。这两种识别方式如图6所示。

图6 人机认知冲突识别方式

两种认知冲突识别方式分别考虑车辆乘员和智能代理分析战场态势信息的独立性和减轻车辆乘员的工作负荷。本文重点研究人机混合战场综合态势评估的共识形成问题,更注重人机认知冲突的独立性,因此采用第一种识别方式。

3.2 决策鲁棒指数

“人类智能”和“人工智能”的认知冲突向共识转化本质上是一个“听人听多少”和“听机器听多少”的问题,即“人类智能”和“人工智能”分别占多少权重。本文提出的决策鲁棒指数是指车辆乘员与智能代理产生认知冲突并进行人机融合时,融合后的决策对人机权重的不敏感程度。具体而言,在敌方作战意图识别中,判断敌方作战意图为进攻、侦察、佯攻、撤退的四个决策分别对应了四个不同的决策鲁棒指数。决策鲁棒指数越大表示对人机权重的不敏感程度越高,由此做出的决策具有更高的鲁棒性。决策鲁棒指数的计算公式为

(9)

式中:n代表车辆乘员与智能代理产生冲突的维数,式中第一项表示决策鲁棒性的鲁棒项,第二项为针对人机权重差异的惩罚项。为计算判断敌方作战意图分别为进攻、侦察、佯攻、撤退时的决策鲁棒指数,需要输入人机认知冲突矩阵L和鲁棒性系数矩阵M,其表达式分别为

(10)

(11)

人机认知冲突矩阵L中,Ci1,Ci2分别表示划分隶属度等级区间时的两个区间临界点,在结合军事专家知识经验对态势信息隶属度等级区间进行划分后获得(如本文第4章案例分析部分表3),Ci0,Ci3分别表示车辆乘员和智能代理的实际认知值,由两者在某作战仿真系统中观察或输入战场态势信息后获得。例如,两者在敌方数量维度的认知发生冲突,C10,C11,C12,C13表示将敌方数量划分为少、适中、多三个等级的对应隶属度区间为[0-C11]、(C11-C12]、(C12-1],车辆乘员与智能代理对于敌方数量的认知值分别为C10、C13。

鲁棒性系数矩阵M中,αi,βi分别表示某个维度上鲁棒项和惩罚项所占权重,鲁棒项用于表征评估结果对人机权重的不敏感程度,鲁棒性数值越大表示对人机权重不敏感程度越高,由此做出的决策更有鲁棒性;惩罚项用于表征人机权重的差异性,某个维度上人机权重差异越大,由此做出的决策则更极端,惩罚项数值越大,人机权重差异越小,由此做出的决策更大程度的融合了人机信息,惩罚项数值越小。

在决策鲁棒指数的计算中,鲁棒项和惩罚项分别针对人机权重的不敏感程度和人机权重的差异性。决策鲁棒指数表征人机融合后做出判断的鲁棒程度,相较于人机权重差异而言更注重人机权重的不敏感程度,因此鲁棒项系数αi的取值大于惩罚项系数βi的取值。鲁棒项系数αi与惩罚项系数βi的设置可以具有一定的灵活性,以适应不同的作战环境。作为示例,本文取αi=0.8,βi=0.2。

结合构建的敌方作战意图识别贝叶斯网络与决策鲁棒指数,分别计算判断敌方作战意图为进攻、侦察、佯攻、撤退时的决策鲁棒指数DnA、DnS、DnF、DnR,比较其大小并进行排序,决策鲁棒指数最大值表示该意图判断对人机权重不敏感程度最高,由此做出的决策具有最大的鲁棒性。

3.3 共识形成方法示例

假设车辆乘员与智能代理对观察或输入的战场态势信息进行独立分析,分别对敌方数量、敌方速度、敌方距离、敌方朝向、毁伤状况、武器装备等六个维度的隶属度等级做出判断,并由此识别敌方作战意图。对车辆乘员与智能代理在六个维度的共识与冲突进行识别:在敌方速度、敌方距离、敌方朝向、毁伤状况四个维度已经形成共识,而在敌方数量与武器装备两个维度的认知发生冲突。

图7 不同人机权重敌方作战意图分析

车辆乘员与智能代理在两个维度发生冲突时,鲁棒项表示的是敌方作战意图分别为进攻、侦察、佯攻、撤退时所对应的人机权重范围的面积之和,惩罚项为每一个矩形中心点与点P*(0.5,0.5)之间的欧氏距离平方。分别计算敌方作战意图为进攻、侦察、佯攻、撤退时的决策鲁棒指数为:D2A=0.32、D2S=0.032、D2F=0.032、D2R=0.032,判断敌方作战意图为进攻对人机权重的不敏感程度最高,指挥员做出敌方作战意图为进攻的决策具有最大的鲁棒性。

4 案例分析

4.1 想定设置

以某型地面突击装备典型作战场景为例,在某作战仿真系统中,设定蓝方(敌方)对红方(我方)进行侦察任务,蓝方(敌方)派遣装备精良的小股侦察部队快速向红方(我方)靠近,同时后方大部队缓慢向红方(我方)靠近,做出进攻假势,为侦察行动进行掩护。红方(我方)车辆乘员和智能代理分别根据观察或输入的战场态势信息,对蓝方(敌方)作战意图进行识别。想定示意如图8所示。

图8 想定示意

4.2 敌方作战意图识别分析

对敌方数量、敌方速度、敌方距离、敌方朝向、毁伤状况、武器装备等六个维度态势信息的隶属度等级区间进行归一化处理后如表3所示。

表3 态势信息隶属度等级区间

车辆乘员观察战场态势信息,对敌方数量、敌方速度、敌方距离、敌方朝向、毁伤状况、武器装备等六个维度的认知分别为:0.85-多、0.90-快、0.15-威胁、0.23-靠近、0.95-完好、0.93-优良;智能代理根据输入的战场态势信息,从原始数据中分析得到六个维度态势信息的认知分别为:0.93-多、0.25-慢、0.80-友好、0.15-靠近、0.92-完好、0.94-优良。将车辆乘员与智能代理对六个维度的认知序列输入构建的敌方作战意图识别贝叶斯网络,推理得到两者对敌方作战意图的判断如图9所示。

图9 敌方作战意图判断

由图9可知,根据车辆乘员对战场态势的认知,敌方作战意图有88.9%的概率为进攻;而根据智能代理对于战场态势的认知,敌方作战意图有80.6%的概率为佯攻。此时,车辆乘员与智能代理在敌方数量、敌方朝向、毁伤状况、武器装备等四个维度已经形成共识,而在敌方速度与敌方距离两个维度的认知发生冲突,导致双方对蓝方(敌方)作战意图的判断发生冲突。因此,为使人机形成最终共识,应对双方在敌方速度与敌方距离两个维度的认知进行人机融合,并将人机融合后的结果作为最终的敌方作战意图识别结果。

图10 不同人机权重敌方作战意图分析

分别计算蓝方(敌方)作战意图为进攻、侦察、佯攻、撤退时的决策鲁棒指数为:D2A=0.045 797、D2S=0.285 445、D2F=0.139 869、D2R=0.096 037,大小排序为D2S>D2F>D2R>D2A,即判断蓝方(敌方)作战意图为侦察对人机权重的不敏感程度最高,我方(红方)指挥员可由此判断蓝方(敌方)的作战意图为侦察,与蓝方(敌方)的真实作战意图相符。

本文基于决策鲁棒指数将“人类智能”和“人工智能”的认知冲突转化为共识,现将人机认知冲突矩阵L与鲁棒性系数矩阵M的参数取值对共识形成结果的影响说明如下:

人机认知冲突矩阵L=[Ci0Ci1Ci2Ci3]中,Ci0,Ci3分别表示车辆乘员与智能代理在两者发生冲突维度的认知值,其取值对共识形成结果有直接影响;Ci1,Ci2分别表示对发生冲突维度划分隶属度等级区间时的两个区间临界点,其数值来源于表3(结合军事专家知识经验对态势信息隶属度等级区间进行划分,为减轻认知或计算负担,划分为3个等级),Ci1,Ci2的取值带有主观性,对不同人机权重下的敌方作战意图分析(如图10所示)会带来一定程度的影响,进而影响共识形成结果。这种影响是无法避免的,影响的好坏取决于军事专家的知识经验水平。

鲁棒性系数矩阵M=[αiβi]中,αi,βi分别表示发生冲突维度上鲁棒项和惩罚项所占权重,为探究共识形成结果与鲁棒项系数αi与惩罚项系数βi取值的关系,本文对鲁棒项系数与惩罚项系数在不同取值(αi+βi=1)下人机融合后四种敌方作战意图的决策鲁棒指数进行计算,如图11所示。可知:鲁棒项系数αi与惩罚项系数βi取不同值时,各结果的鲁棒程度排序不变(图中各曲线并未出现交叉),均为:侦察>佯攻>撤退>进攻,即鲁棒项系数αi与惩罚项系数βi取不同值时,人机融合后对敌方作战意图最鲁棒的结果均为侦察。因此,本文提出的基于决策鲁棒指数的共识形成方法并不依赖于鲁棒项系数αi与惩罚项系数βi的取值,即αi与βi的取值未影响共识形成结果。

图11 鲁棒项系数与惩罚项系数不同取值下四种作战意图的决策鲁棒指数

案例中车辆乘员与智能代理在敌方速度与敌方距离两个维度的认知值出现较大差异,本文进一步对案例中出现反差很大的数据的原因及其与L和M参数取值的关系说明如下:

在某型地面突击装备典型作战场景中,态势信息复杂多变且具有高度不确定性,造成车辆乘员与智能代理对战场态势信息的提取和分析存在差异,导致两者在六个维度上的认知发生冲突。此外,智能代理对于态势信息的认知是基于输入的所有态势信息,在处理大量数据、高速计算和响应既定事件等方面具有优势;而车辆乘员对态势信息的处理有一定的选择性与倾向性,在主观推理、处理突发事件和临机决策等方面具有优势。车辆乘员和智能代理在以上多个方面的差异,导致了两者在对敌方数量、敌方速度、敌方距离、敌方朝向、毁伤状况、武器装备等六个维度态势信息的隶属度等级判断时发生冲突,相应的认知值数据出现较大反差。本文案例中,由于地面作战环境存在地形复杂、障碍物多、区域阻隔、通视性差、通信受限、甚至电子压制等特征,给精确认知理解从而判断局域战场态势带来困难。在高动态、强实时作战过程中,智能代理对具有复杂性、隐蔽性、欺骗性和不确定性的全局态势信息进行高速计算从而判断隶属度等级,而车辆乘员更多关注局部小股部队的快速靠近这一突发事件,导致两者在敌方速度和敌方距离两个维度的判断出现巨大反差。

出现反差很大的数据直接决定人机认知冲突矩阵L中Ci0和Ci3的参数取值,案例中车辆乘员与智能代理对敌方速度与敌方距离两个维度的判断发生冲突,其认知值反差很大,由此选择Ci0,Ci3的参数为C10=0.90、C13=0.25、C20=0.15、C23=0.80。另外,出现反差很大的数据也对鲁棒性系数矩阵M=[αiβi]的取值有一定影响。数据反差越大说明车辆乘员与智能代理的冲突越大,两者对于战场态势信息的认知差异越大,在将冲突化为共识时,更加需要考虑共识形成结果的鲁棒性,同时也需要更大程度融合两者信息。因此,当“出现反差很大的数据”时可以考虑选择更大的鲁棒项系数αi、更小的惩罚项系数βi。

通过案例分析验证了本文提出的决策鲁棒指数的有效性,可以融合车辆乘员和智能代理观察到的战场态势信息,化解两者在提取和分析战场态势信息时的冲突并形成人机共识,在此基础上准确识别敌方作战意图,从而对地面突击装备典型作战场景进行高效准确的态势评估。

5 结论

本文针对地面突击装备战术级、高动态、分布式、强实时作战综合态势评估亟需融合人的“人类智能”和机器的“人工智能”,以及人机智能融合的关键——人机共识形成问题,提出一种面向鲁棒决策的人机共识形成方法,得出主要结论如下:

1)围绕战场态势评估中的敌方作战意图识别问题,采集乘员(专家)态势评估数据的行为实验样本,构建战场态势评估两级智能代理模型,模仿乘员(专家)战场态势信息中分析得到敌方数量、敌方速度、敌方距离、敌方朝向、毁伤状况、武器装备等六个维度的认知,进一步对敌方作战意图为进攻、侦察、佯攻、撤退做出判断的过程;

2)围绕人机混合战场综合态势评估的共识形成问题,提出一种对人机偏好不敏感的决策鲁棒指数,将车辆乘员与智能代理在对战场态势信息分析中产生的冲突转化为共识,辅助指挥员进行鲁棒决策。通过案例验证了所提方法能够正确识别敌方作战意图,进行高效准确的战场态势评估。

本文所提出的面向鲁棒决策的战场态势评估人机共识形成方法,输入的是某作战仿真系统中的仿真数据,存在信息相对完备的基本假设。然而从更实际的应用角度来看,战场态势评估主要是不完全信息的博弈问题。本文采用的贝叶斯网络是一种解决不确定性知识推理和预测的工具,在参数训练时采用的EM算法是一种具有较好鲁棒性的数值计算方法,一定程度上可处理数据缺失的问题,因此本文所提方法具备一定的不完全信息处理能力。

对于实际作战场景中由于态势信息难以完全获取导致的不完全信息问题,本文所提方法存在一定的局限性。在未来的研究中将考虑解决不完全信息问题,具体思路如下:

第一层态势数据的缺失和模糊很大程度上来源于战场中的各种噪声、电子对抗和电磁干扰,这导致了传感器探测到的战场数据与实际情况存在一定偏差。针对这一问题拟采取数据补齐的思路,通过最小二乘法、多项式拟合、极大似然估计和贝叶斯等方法,利用连续数据前后数值之间的关联对缺失数据进行修补。针对第二层态势数据的缺失和模糊问题,拟采取模型扩展的思路,在不破坏原始不完备信息系统中任何信息的前提下对经典粗糙集进行扩展,直接处理不完全信息。利用数据特征量之间的关联,通过贝叶斯、随机森林和决策树等方法,在已知特征量的基础上直接推理出结果。

猜你喜欢
鲁棒敌方乘员
观光车乘员乘坐的安全隐患分析
少林韦陀十八手
4打5,敌方还剩几个人?
基于高阶LADRC的V/STOL飞机悬停/平移模式鲁棒协调解耦控制
基于学习的鲁棒自适应评判控制研究进展
水果大作战
基于MADYMO的轻型客车前排乘员约束系统优化
人工智能有助于处置敌方炸弹
目标鲁棒识别的抗旋转HDO 局部特征描述
两厢车后排乘员保护机制研究