联合全域作战智能博弈优化一体化决策问题

2023-05-19 03:17吕铁鑫潘艳辉
火力与指挥控制 2023年3期
关键词:博弈论全域决策

李 智,吕铁鑫,潘艳辉

(航天器在轨故障诊断与维修重点实验室,西安 710043)

0 引言

美军为应对军事优势的不断削弱,在美参联会副主席约翰·海顿提出的“全域战”的基础上,提出了“联合全域作战”的概念[1],其主要目的是对其所有作战域的作战力量进行充分整合、融合,以实现美军的持续军事优势。2020 年3 月5 日,美空军发布了《空军条令注解1-20:美国空军在联合全域作战中的作用》文件,其中,对JADO 作出了明确定义:“为了获取战争优势并能够保证完成作战任务,多军兵种组成的联合部队在所有作战域内,经过作战指挥官的全面筹划,开展的联合协同作战行动”[2]。联合全域指挥控制是由美军联合参谋部指挥、控制、通信、计算机和网络部门(J6)于2019 年提出,关于其内涵定义或者实现目标,美军不同部门有着基本近似的界定,大致定义为:在美军所有部队之间,在美军所有作战域之间,将所有作战要素进行无缝连接,以实现所有作战力量的融合,构建智能化作战网络体系[3-5]。作为美军提出的最新作战理念愿景,JADO 具有很强的创新性和操作性,对我国国防安全提出了不小的挑战。本文认为,联合全域作战是在多域协同作战的基础上,更进一步实现所有作战域的跨域融合,真正实现战争复杂体系的体系作战。一方面,利用复杂体系的适应性、涌现性等优势特性,实现己方所有作战域作战能力的融合、聚合,提升并保证作战效果;另一方面,利用复杂体系的不确定性、非线性等劣势特性,对地方作战OODA环形成战争迷雾干扰,建立己方的态势优势、决策优势和行动优势。

关于智能指挥决策的相关理论和技术问题,胡晓峰在智能指挥决策的不同层面上,论述了游戏博弈与作战对抗在指挥决策上的差别,对目前人工智能技术运用到作战中的不足和局限进行了分析总结,同时也给出了解决问题的思路[6];张婷婷等从决策与控制的相互作用关系为视角,设计马赛克作战模式的递归拼图计算体系,实现组合作战资源自主执行和自动化控制,减少指挥决策人员在行动层次的工作负载[7];金欣等从知识学习和博弈学习两条技术路线出发,提出了基于人机混合智能方式,来对作战指挥领域智能进行培育的思路,并指出了其中的关键技术[8];陈晓轩等针对当前基于兵棋研究的空战编组对抗方法主要使用规则或运筹等手段,存在假设不够合理、建模不准确、应变性差等缺陷,提出了一种知识数据和强化学习相结合的空战编组对抗智能决策方法[9]。

本文针对联合全域指挥控制下的智能指挥决策问题,从定性定量分析研究的角度出发,提出了指挥决策所包含的两大主要内容为任务筹划和任务规划,并在此基础上从引入人工智能方法技术入手,提出了一种基于人工智能和博弈论、多目标优化相结合的指挥辅助决策方法,即智能-博弈-优化一体化指挥决策方法,并给出了此方法的理论框架和功能设计。

1 联合全域指挥控制智能化决策概述

1.1 JADC2 发展推进

联合全域指挥控制自提出之日起,美军联合参谋部、国防部、国防高级研究计划局、各军兵种、军工企业等多个部门,从政策部门、技术开发、作战试验等各个方面,持续大力推进开发相关技术及概念,推动联合全域指挥控制概念和系统加速发展实现。其主要工作如下页表1 所示。

表1 美军推进JADC2 发展主要工作Table 1 Main work of the U.S.military to promote the development of JADC2

1.2 JADC2 智能化决策

联合全域作战作为所有作战域的复杂战争体系作战,战场态势的复杂性、快变性、非线性等战争不确定因素,对指挥决策的快速性和正确性提出了非常高的要求,这就要求必须要把人工智能引入指挥决策,利用深度强化学习、多智能体博弈等人工智能技术,加深对不可预测和不确定战场环境的理解,实现智能化决策。

美军联合参谋部J6 首席信息官表示,人工智能和机器学习对于实现JADC2 至关重要[4]。美国北方司令部前任司令Terrence J.O’Shaughnessy,提出JADC2 是数字时代的指挥控制[8],与以前指挥控制结构不同,JADC2 架构基于大量数据,将利用机器增强决策能力,生成机器使能的见解,从而识别异常事件、预测将来发生的事情,并形成包括相关影响和风险说明的方案。2021 年11 月2 日,美国战略与国际问题研究中心(CSIS)发布报告《作战网络和未来部队,第2 部分:作战挑战和获取机会》,提出人工智能在未来JADC2 的担负重要角色[13]:使用人工智能和机器学习算法的鲁棒且有弹性的战斗网络,可以加快决策制定和流程自动化,从而在战术和操作层面实现算法战。此外,国内学者也同样认为,联合全域指挥控制需要“人在回路上”的高效智能决策,通过使用人工智能、机器学习等技术,在连续的信息共享优势下,借助于任务式指挥,能够摆脱在对抗环境中高级指挥官无法精确指挥的困境,同时保证人工智能决策的可靠、可控[3]。

从上述联合全域指挥控制智能化决策的发展相关情况来看,其主要技术手段是人工智能、机器学习、深度学习等,主要实现途径基本有两条:利用人工智能对大数据进行学习,实现异常识别和事件预测,从而实现辅助指挥决策;或者利用人工智能对大数据进行分析,构建公用作战图(作战态势图),通过实现态势优势、信息优势,从而为指挥决策提供支持。

2 智能化指挥决策分析

2.1 指挥决策主要内容

周献中认为,指挥决策是指指挥员在对敌我双方情况进行综合分析判断后[14],对作战意图和行动策略作出决定(定下决心)的过程,指挥决策问题的决策模型可统一表示为:

式中,U(·)为综合效能;F(·)为准则函数;u(·)为准则到效能的映射;X 为备选方案集;Y 为敌情要素集;Z 为我情要素集;Θ 为环境状态变量集。

胡晓峰等认为,指挥决策可基本分为指挥层、控制层和技术层3 个层次,3 个层次在技术性和艺术性上的分布比重各不相同[6,15]。智能决策研究的重点应该放在指挥层和控制层上,而不是技术层上。本文认为,指挥决策从定性定量分析研究的角度出发,可以大致分为两大部分:任务筹划和任务规划。任务筹划是指根据作战任务和作战目标,综合考虑敌情、我情和作战环境的作战约束,重点考虑战争复杂体系强对抗条件下敌我双方的战术战法对抗,利用博弈论对抗策略可在复杂强度对抗条件下实现纳什平衡的特点,制定作战任务对抗策略,这是宏观上的定性决策;任务规划是指根据任务筹划的结果,进一步细化分解,产生一系列的作战行动序列,制定出任务实施方案,并采用军事建模、推演仿真、多目标优化等传统运筹学的技术方法和手段,根据作战效果最好(实现任务目标程度最高)、己方损失最小、毁伤效果最大等任务目标,得出最优化的作战方案。此外,任务筹划和任务规划两大部分,还存在循环反馈修正的过程。

下面分别对任务筹划所应用的博弈论、任务规划所应用的多目标优化两种方法进行简要介绍。

2.1.1 任务筹划——博弈论

博弈论(game theory,也称为对策论),是研究两名或多名理性决策者之间,进行战略互动的数学模型,很适合应用于具有对抗性质的问题[16]。博弈论主要可分为:合作/非合作、对称/非对称、零和/ 非零和、同时/ 序贯、完美信息与非完美信息等多种形式。在指挥决策中,由于敌我双方处于对抗状态,用到的基本是非合作博弈。非合作博弈,不允许博弈参与者进行结盟,也不允许参与者之间对支付进行再分配[16]。纳什提出的n 人非合作有限博弈,证明了存在平衡点,在平衡点处所有参与者共同形成一种策略组合,任何参与者对自身策略作出单独改变时,也不会再得到更多的收益,即“纳什均衡”。

下面对非合作有限博弈进行介绍。每个参与者的纯策略集都是有限集且都考虑混合策略集,则有:

2.1.2 任务规划——多目标优化

任务规划的研究方法通常分为两步:首先建立任务规划问题的数学模型,包括目标函数和约束条件等;其次通过设计采用各种优化算法,对模型进行求解得出问题的结果。对于战争复杂体系的指挥决策来说,作战行动的目标必然是追求多个效果达到最优,只能采用多目标优化方法进行模型求解,达到任务规划的目的。当优化目标数多于3 个时,就被称为高维多目标优化问题[17],多目标优化问题的解由Pareto 最优解来表示。对于m 个最小化目标的多目标优化问题,可以表示为[17]:

多目标优化算法,是在遗传算法、粒子群算法等经典优化算法的基础上发展而来[17],经典常用的高维多目标优化算法,主要为非占优排序的遗传算法(NSGA-Ⅲ)。NSGA-Ⅲ使用一种快速非占优排序方法,对求得的Pareto 最优解进行比较排序,并使用基于参考点的选择策略保持种群多样性。

2.2 智能化指挥决策

2.2.1 智能化指挥决策

联合全域指挥控制,面对着现代战争复杂体系的所有作战域的联合指挥控制,指挥决策者对于敌情我情、作战环境、备选方案的掌握程度不可能是比较明确的,并且敌情我情和作战环境不断发生变化,双方的战争对抗具有环境约束复杂、信息迷雾很大、高强度博弈和自主无人化等突出特征。因此,必然要求实现智能化决策,通过使用人工智能的方法技术来实现更智能化的指挥决策辅助,以达到决策的快速性和正确性。

联合全域指挥控制下的辅助决策问题必然是非结构化问题,建立的问题模型也必然是复杂模型,其中,主要包括基于Agent 模型、基于多智能体系统模型、基于贝叶斯网络模型、基于神经网络模型、基于复杂适应系统(CAS)模型、基于面向对象模型、基于图论模型等等[18]。对应的求解技术主要为人工智能或者人工智能与传统运筹学相结合,目前流行的人工智能技术主要是机器学习[19],强化学习作为主流的机器学习技术,AlphaGo 及其升级版AlphaZero 都是应用强化学习的很好例证。近年来,结合深度学习和强化学习两者优点而形成的深度强化学习(DRL),成为了人工智能技术主流中的主流。

国外对于军事智能辅助决策的研究,以DA-RPA开展研究的“深绿”项目为主要典型[20],其主要目的是对战场态势进行预判,同时对指挥员分析判断提供帮助,并提供决策和行动策略方案。此外,美国还积极推进了Alpha AI 空战模拟系统、指挥官虚拟参谋、适应性项目框架等项目,都利用人工智能相关技术来缩短OODA 环时间为发展目标。AlphaGo、AlphaZero 更是进了一步,表明深度强化学习技术,很大可能会在战争对抗指挥决策方面得以应用。

国内的中科院自动化所采用了深度学习等人工智能技术,研发出AI 系统“CASIA—先知V1.0”,并在2017 年举行的全国兵棋推演大赛中首次战胜了人类选手[20]。胡晓峰等认为,自主智能决策有3个环节:态势理解、行动决策和综合控制[6],即自主对复杂态势作出判断(目标识别、威胁估计等),并作出科学决策(局部方案生成),根据总目标对所有OODA 环实施全局优化(选择)。

本文认为,智能决策可理解为:在传统指挥决策的理论框架下,对于任务筹划和任务规划两大主体部分,在已有的博弈论和多目标优化两种对应的技术方法基础上,针对约束复杂多变、建模难度上升、求解维度较高等难点重点,把深度学习、强化学习、深度强化学习、多智能体博弈等人工智能方法技术引入进来,利用人工智能来改进提升传统决策的效率效果。

2.2.2 人工智能技术

近年来,以深度学习、强化学习、深度强化学习为代表的人工智能技术取得了突破性进展[21],在态势感知、信息处理、指挥控制、辅助决策、无人作战系统等领域发挥越来越重要的作用。当前,人工智能领域主要由四大要素构成:强大算力、智能算法、海量数据和应用场景[22-23],通过“算力+ 算法+数据+场景”的叠加效应,有效促进了人工智能领域的进步。能够应用到智能化指挥决策中的人工智能技术,主要包括深度强化学习和多智能体博弈。

1)深度强化学习

强化学习的基本思想是,通过对智能体从环境中获得的累积奖励值进行最大化,以学习完成目标的最优策略,侧重于学习解决问题的策略[24-25]。总体来说,强化学习是一个探索和利用的平衡游戏,前者是个体充分遍历环境中的各种可能性,从而有机会找到最优解;后者利用学到的经验指导个体作出更合理的选择,常见的强化学习类算法包含:Q 学习、状态-行动-奖励-状态-行动(SARSA)、DQN(Deep Q Network)、策略梯度算法(policy gradients)、基于模型强化学习(model based RL)、时序差分学习(temporal different learning)等。深度学习的基本思想是,利用很多层次的网络结构以及非线性变换,对较低层次的特征进行重组,从而生成比较抽象的,并且容易进行区别的较高层次表达,侧重于对事物的感知和表达[25]。常见的深度学习类算法包含:深度卷积神经网络、深度递归神经网络、生成对抗网络等[20,24]。

深度强化学习,是深度学习和强化学习的有机结合[25],是一种端到端的感知与决策控制系统,其学习过程可以描述为:在每个具体时刻,智能体与周边环境进行交互,从而生成一个高维度的观察,同时通过深度学习方法来对这个高维度观察进行感知,从而得到一个比较具体的状态特征表达;同时用预期回报作为标准,来对各个行为的价值函数进行评价,并通过使用某种策略,将前面得到的状态特征表达映射为相应的动作;周边环境对智能体的行为进行反应,以此得到下一个观察,后面开始上述的过程循环,从而求得问题的最优策略。深度强化学习的主要方法包括:基于值函数的DRL、基于策略梯度的DRL 和基于搜索与监督的DRL。

2)多智能体博弈

战争对抗是一个典型的面向不完美信息的序贯决策过程,而多智能体博弈对抗技术是其核心技术之一[25]。多智能体博弈对抗技术将可以基于多智能体即时对抗策略生成技术,在整个策略空间中不断探索和学习,根据战场实时态势生成最佳最优的行动方案。胡晓峰也认为,作战指挥决策是涉及到多种专业领域的复杂智能行为[6],而复杂智能只能靠复杂体系中所包含的各种过程的非线性作用才会表现出来,需要很多具有任务规划功能的多智能体共同完成。

多智能体博弈问题属于完全合作任务[25],多个智能体之间相互协作和配合完成共同的作战任务,本质上是一个零和随机博弈过程。在混合竞争与合作任务中,每个智能体独立获得自己的奖励,但是每个智能体只考虑最大化自己的奖励,在这种任务中,纳什均衡策略是一种保守的策略,更好的策略是希望在学习中尝试与其他竞争智能体合作,达成共赢。而多智能体博弈对抗[26],可通过采用深度强化学习技术,使得智能体之间能够不断学习,进而不断调整自身策略,将相互之间的学习互经验体现在策略模型中,从而最终实现累计回报最大化。

美国相关部门等开展的空战演进、雅典娜、罗盘等项目,基本都使用了机器智能来建立作战行动模型,通过博弈对抗提高作战实体的快速决策能力[26-27]。此外,从2016 年开始,以深度学习和深度强化学习为主的多智能体技术开始应用于多智能体博弈即时策略游戏[28],Deepmind 和暴雪联合开发的SC2LE,主要采用了基于规则、经典机器学习、深度学习、强化学习四大类方法技术。值得一提的是,还用到了博弈论,让智能体在非对称博弈中找纳什均衡,或许可以从更高水平的视野找到解决办法。

3 智能-博弈-优化一体化指挥决策

如前面两章所述,根据指挥决策的两大内容任务筹划和任务规划,把深度强化学习和多智能体博弈两大人工智能技术,与博弈论和多目标优化相结合,构建智能-博弈-优化一体化指挥决策方法。

3.1 智能-博弈决策

智能- 博弈决策,即人工智能+ 博弈论,把深度强化学习和多智能体博弈两大人工智能技术与博弈论相结合,主要为任务筹划提供支持。此决策方法的中心思想是:以博弈论模型求解平衡点为主题中心,以人工智能技术加速求解过程为辅助。主要原理为:首先建立任务筹划问题的博弈论模型,一般为非合作有限博弈模型(如前面2.1.1 节内容所述);接着对博弈论模型求解,以找到纳什平衡点;在求解过程中利用人工智能技术,如Q-learning、深度卷积神经网络、多智能体博弈等(主要为强化学习方法,因为强化学习在做序列决策方面具有明显优势),提供新的高效求解算法,加速寻找平衡点的过程;最后得到平衡点,再转化为任务筹划结果——对抗策略。其原理框图如图1 所示。

图1 智能-博弈决策方法原理框图Fig.1 Principle block diagram of intelligent-game decision-making method

3.2 智能-优化决策

智能-优化决策,即人工智能+多目标优化,把深度强化学习和多智能体博弈两大人工智能技术与多目标优化相结合,主要为任务规划提供支持。此决策方法的中心思想是:以多目标优化模型求解找出最优解为主题中心,以人工智能技术加速求解收敛和提高求解精度为辅助。主要原理为:首先建立任务规划问题的多目标优化模型,一般为高维多目标优化问题模型(如2.1.2 节内容所述);接着对多目标优化模型求解,以找到Pareto 最优解;在求解过程中利用人工智能技术,如DQN、DDPG、多智能体博弈等(主要为深度强化学习方法,因为深度强化学习能够提供快速的搜索策略,在解空间快速遍历搜索的功能强大),提供新的高效求解算法,加速寻找Pareto 最优解的过程;最后得到Pareto 最优解,再转化为任务规划结果——最优作战方案。其原理框图如图2 所示。

图2 智能-优化决策方法原理框图Fig.2 Principle block diagram of intelligent optimization decision-making method

此外,也可以考虑用多智能体博弈的方法技术来辅助多目标优化问题求解。因为多目标优化问题中,目标之间除了存在默认的竞争关系外,有时还存在单纯合作、混合竞争与合作、约束、相似等关系,现在的多目标优化算法一般主要集中在目标为竞争关系的问题上,对于单纯合作、混合竞争与合作等目标关系问题还缺少相对应的求解算法。而多智能体博弈,除了固有的完全合作任务属性外,还可以解决混合竞争与合作任务。所以可以考虑采用多智能体博弈方法,针对目标关系设计多目标优化算法的搜索策略,或者是引导搜索过程,以实现更好的求解速度和求解精度。

3.3 智能-博弈-优化一体化决策

智能-博弈-优化一体化决策,即人工智能+博弈论、人工智能+多目标优化、人工智能+ 博弈论+多目标优化,把深度强化学习和多智能体博弈两大人工智能技术,分别或同时与博弈论和多目标优化互相结合,同时为任务筹划和任务规划提供支持,以最终实现智能化指挥决策。此决策方法的中心思想是:分别以博弈论模型求解平衡点、多目标优化模型求解最优解为主题中心,以人工智能技术加速求解收敛和提高求解精度为辅助。其主要原理在3.1 和3.2 两节已经基本描述清楚,以智能-博弈决策、智能- 优化决策两种方法为主,同时可以考虑把人工智能、博弈论、多目标优化3 种理论方法同时结合在一起,实现真正一体化智能决策。其原理框图如下页图3 所示。

图3 智能-博弈-优化一体化决策方法原理框图Fig.3 Principle block diagram of intelligent-game-optimization integrated decision-making method

除此之外,还可以考虑博弈论、多目标优化两种理论方法对人工智能的反向影响。比如把博弈论引入到多智能体博弈中,可以使得让智能体在传统的与其他智能体和环境进行交换和协作的基础上,能够通过博弈平衡策略的选择,与对抗目标(可以是人或机器)进行博弈,找到最优策略。又比如把多目标优化引入深度学习中,可以利用进化算法,不需要梯度就能跳出局部最优的特性,来解决深度学习基于梯度算法易陷入局部最优的问题,从而实现帮助深度学习更好地优化策略。

4 结论

本文针对联合全域指挥控制下的智能决策问题,对联合全域作战、联合全域指挥控制的发展历程进行了梳理分析,把指挥决策划分为任务筹划和任务规划两大部分进行分析研究,并对智能化指挥决策进行了理解界定,讨论了能够应用于智能指挥决策的两大人工智能技术流派,根据博弈论、多目标优化和人工智能技术的特点、优点,提出了一种基于人工智能和博弈论、多目标优化相结合的指挥辅助决策方法,即智能-博弈-优化一体化指挥决策方法,并给出了此方法的理论框架,为实现联合全域作战智能化指挥决策提供技术支撑。后续可以进一步细化此方法的功能设计和系统开发,推动智能化决策真正落地。

猜你喜欢
博弈论全域决策
为可持续决策提供依据
用一粒米撬动全域旅游
决策为什么失误了
“全域人人游”火爆周宁
谋全域 图四时 大连金普新区的全域“旅游+”
全域旅游向更广更深发展
博弈论视角下的自首行为分析
无知之幕与博弈:从“黄灯规则”看博弈论的一种实践方案
樊畿不等式及其在博弈论中的应用
博弈论视角下医疗纠纷解决方式选择