基于课程强化学习的联合海空博弈决策模型训练方法*

2023-05-19 03:17林泽阳陈希亮
火力与指挥控制 2023年3期
关键词:战场战术决策

林泽阳,赖 俊,陈希亮,王 军

(陆军工程大学指挥控制工程学院,南京 210007)

0 引言

近年来,战争中的智能性逐渐凸显,尤其以数字化和无人系统为主要代表,军事决策的灵活性和机动性效能迫切需要得到提升[1]。指挥员面临海量的作战态势数据,难以充分根据专家经验进行科学决策,容易导致战场信息过载和指挥控制失灵。

现代战争的复杂态势需要指挥员能够对于各种战场资源进行协调支配以完成作战行动,其中核心过程就是进行博弈决策模型的挑选[2]。博弈决策模型本质上就是在一定约束条件下进行作战目标的优化实现,主要目标是将有限的作战资源合理配置给作战实体并执行适当的作战行动。

智能博弈决策模型的评估和解决方法,如采用陆战贝叶斯网络模型(bayesian network model,BNM)[3]、基于证据网络的威胁估计方法(threat estimation method based on evidence network,TEM-EN)[4]、人工势场模型(artificial potential field model,APFM)[5]、非参量法模型(nonparametric model,NM)[6]等,大多需要借助专家经验和贝叶斯网络进行思维推理,并建立大型数据库,缺点包括:1)对输入信息的要求比较高,需要事先知道事件的先验概率和条件概率等先决条件;2)设计过程复杂,且随着战场中作战实体数量增加,其设计结构的复杂程度呈几何倍数增长;3)在设计过程中对于人类经验的依赖性较强,需要人为对环境进行建模,主观判断的准确性直接影响模型的实际效果。

其中的根本原因在于,现代战场充满了“战争迷雾”[7]:战场环境具有不确定性、局面状态具有高复杂性、对抗目标呈现非零和性、行动进程具有强动态性、行为规则具有不确定性。工程技术人员和指挥控制人员在进行战场环境建模的过程中,对于复杂多变的战场态势,无法合理地利用已有的专家经验和规则进行态势评估,描述战争系统的推演过程。这就需要从指挥控制系统的顶层设计入手,改革传统的模型式指挥控制方式,通过人机混合智能来融合指挥人员的决策经验能力和推理判断能力[9],从而辅助指挥人员准确理解战场态势和科学理性决策。

近年来,由谷歌公司的DeepMind 团队提出的深度强化学习(deep reinforcement learning,DRL)方法在人工智能领域受到了广泛关注。深度强化学习将深度学习(deep learning,DL)的感知能力和强化学习(reinforcement learning,RL)的决策能力相结合[11],通过多层神经网络(neural network,NN)来近似逼近强化学习的值函数[12],可以避免传统迭代方法在处理高维动作空间和状态空间中失效的缺点,成为当前突破认知智能的代表性机器学习方法。由于深度强化学习在不完整信息博弈领域能够契合指挥人员的决策思维方式,因此,构建以深度强化学习为基础的军事智能博弈对抗决策模型,为指挥人员提供决策参考和指挥辅助,是信息化战争向智能化战争迈进的关键之一。

端到端的深度强化学习方法在棋类游戏、即时战略游戏和智能空战等应用中取得了突破性进展。然而,在实际作战决策问题中,面临通信受限、部分可观测、决策要素不确定等诸多难题:1)信度分配问题,对于其中一个作战智能体来说,其获得的奖励值很可能是其他作战智能体采取动作后获得的。此外当部分智能体学习到了较好的作战策略时,团队中的其他智能体就可能放弃探索并获得相应奖励值,即成为“惰性智能体”;2)泛化能力提升问题,兵力、环境等作战要素的变化是作战决策面临的最基本问题,端到端的深度强化学习在解决此类问题时通常需要重新训练,难以利用之前的学习经验,训练难度大,甚至在复杂度高的环境中不能在可预期的时间内训练出可行解。

针对信度分配问题,本文采用值分解网络算法[13](value-decomposition networks,VDN)进行策略模型训练,VDN 算法通过反向传播将总奖励值分解到各个智能体本身,可以对智能体进行集中训练,而后分散执行相应的策略,从而避免出现惰性智能体,共同提升智能体训练的总奖励值。同时该方法可以缓解动作空间爆炸问题;针对泛化能力提升问题,采用课程学习(curriculum learning,CL)方法对VDN 算法进行改进,提出了基于课程值分解网络的多智能体强化学习训练方法,并提出了一种基于复杂度指数函数的任务复杂性度量方法,对多智能体深度强化学习训练任务进行度量,以支持训练任务的自动化选择。

基于以上改进,本文将课程学习框架嵌入深度强化学习的智能体建模过程中,将复杂战争任务进行分难度归类、分阶段学习,在简单战场环境下对同一类别的战争实体(智能体)进行强化学习,生成训练模型,而后根据战场实际需要进行组合,并在复杂战场环境下进行学习,从而加快模型收敛速度和加强模型的泛化能力,实现在复杂战场环境下快速建模、快速决策的目的。

1 深度课程强化学习在联合海空作战智能博弈决策问题中的适用性分析

1.1 联合海空作战智能博弈决策问题分析

20 世纪70 年代末期,美军针对未来作战对象的特点提出了空地一体战的理论,并在伊拉克战争中取得巨大成功,为阻止敌对国在亚太地区的军事活动,美军在空地一体战的基础上,以海空军为主体,配合己方的信息化优势,提出了空海一体战。航母战斗群作为空海一体战的基石,是战斗目标实现的重要保证,也是典型的联合海空作战,本文以单航母战斗群作战作为案例,讲解联合海空作战智能博弈决策问题。

航空母舰承担航母战斗群的总指挥,搭载主要作战武器-舰载机,配备一定数量的舰艇和潜艇以保障自身安全。由图1 可知,以航空母舰为中心,距离航母185 km~400 km 的距离为外防区,在这个区域内预警机指挥舰载战斗机夺取制空权、攻击敌军舰艇和航母等。距离航母45 km~185 km 的距离为中防区,在这个区域内舰载预警机和侦察机负责引导舰艇执行反导任务。距离航母0~45 km 的距离为内防区,也是护卫航母的最后一道防线。

图1 单航母战斗群作战区域划分示意图Fig.1 Schematic diagram of the combat area division of a single aircraft carrier battle group

航空母舰的指控中心是联合海空作战所有指控系统的核心,包括协调和指挥功能,分为战略层指挥控制系统和战术层指挥控制系统,其命令下达框架如图2 所示。

图2 指挥系统命令下达框架Fig.2 Issuing order framework of the command system

其中,战略层由战争指挥中心构成,负责制定战略任务目标,战术层指挥控制系统负责具体的指挥控制,直接下达作战命令。由于作战任务的高度复杂性,不同兵力种类的联合作战部队将会进行协调配合,通过不同作战任务的小组进行战斗力量的攻防对抗。

以航母为中心的指挥控制系统的流程可以分为3 个环节:信息环节、控制环节和执行环节。首先由侦察预警系统进行情报获取和处理,而后传递给指挥控制中心,指控中心根据情报下达作战决策,作战单元执行命令后,侦察预警系统根据作战环境的变化进行作战效能评估,指控中心根据评估结果调整作战决策。指挥控制系统的指控流程如图3 所示。

图3 指挥控制系统的指控流程示意图Fig.3 Schematic diagram of C2 flow of command and control system

1.2 深度课程强化学习的适用性分析

强化学习作为机器学习的重要分支,采用“试错-调整”的方式与环境进行数据交互,通过正/负奖励信号来选择下一个动作,从而生成总奖励值最大的动作策略模型。强化学习模型如图4 所示。深度学习作为机器学习中的新兴研究方向,主要分为训练阶段和预测阶段,通过多层深度神经网络将原始数据直接作为输入值,不需要提取特征,并基于大量数据样本集进行神经网络参数拟合,从而逼近非复杂线性函数,最终得到数据的分类标签。

图4 基于MDP 的强化学习基本模型Fig.4 Basic model of reinforcement learning based on MDP

国内研究人员在应用深度强化学习进行指挥决策方面取得了很多成果。崔文华等将作战指挥分层原则同即时策略游戏中的模块化和分层架构相结合[15],提出层次化和模块化深度强化学习方法框架,用于决策智能体与战场交互以产生对抗策略。吴志强等通过研究Actor-Critic 深度强化学习模型,提出基于深度强化学习的自动态势估计技术实现框架[16]。张振等针对大地图和稀疏奖励的兵棋推演对抗环境,提出基于近端策略优化(proximal policy optimization,PPO)的对抗算法,提升了智能体对抗胜率[17]。

在作战博弈对抗中,基于深度强化学习的作战实体(智能体)在博弈过程中通过不断探索和试错,与环境交互奖励值,从而循环调整策略神经网络中的参数,最终通过行动探索学习经验。在战争模拟红蓝对抗中,强化学习模型不仅可以作为蓝方(对手方)进行作战模拟推演,帮助红方指挥人员验证作战策略的有效性,也可以作为红方的下级(智囊团),为红方作战提供意见参考,从而提升红方指挥人员的决策水平。

然而,强化学习智能体在与战场环境的交互中,由于标准强化学习的初始设定都是随机策略,在简单环境中通过随机探索和试错,能够达成较好的训练效果。但在不确定性战场环境中,由于战场任务之间存在难易程度的差别,有些战场任务很容易被智能体学习从而完成,有些战场任务则很难被训练完成,例如联合海空作战任务。其任务本身涉及到多种类、大数量的作战实体,训练中容易出现训练时间过长甚至无法收敛的问题。如果将这些任务不加区分直接进行强化学习,则会出现模型在简单任务中训练过度,在困难任务中训练量不足,从而导致模型难以训练,难以取得更好的效果。而人类在学习过程中基本都是从易到难进行学习,即先学简单任务,后学困难任务,这称之为课程学习。

通过深度课程强化学习方法来解决智能博弈对抗过程中的策略生成问题,契合了战略指挥官在战略设计过程中从易到难、逐个击破的决策思维方式。在面对多个战场任务时,首先对简单战场任务进行学习以生成战场任务课程,而后在困难战场任务的学习过程中,利用简单战场任务课程进行模型重载,可以提升新的博弈任务的策略生成质量和优化效率,从而突破困难决策任务的训练“瓶颈”,缩短总任务训练时间,夺取作战指挥的胜利。联合海空作战战术决策框架如图5 所示。

图5 基于深度强化学习的联合海空作战战术决策框架Fig.5 Tactical decision-making framework of joint air-sea operations based on deep reinforcement learning

2 基于深度课程强化学习的联合海空作战战术决策模型

2.1 基于MDP 的联合海空作战战术决策过程描述

联合海空作战MDP 问题的求解就是要找到最优策略使得未来奖励(作战效益)最大化,求解过程可分为两步:1)预测:给定作战策略,根据战场态势评估相应的状态价值函数和状态-动作价值函数。2)行动:根据所得的值函数反推得到当前状态对应的最优动作(action)。

联合海空作战贝尔曼方程中,状态价值函数与状态-动作价值函数之间的关系如下:

其中,式(1)为状态价值函数,式(2)为动作价值函数。

状态价值函数vπ(s)描述的是智能体在战场状态下的长期价值,即在这个状态下考虑所有后续动作,并进行挑选执行后所获得的奖励值,即状态价值,状态-动作价值函数qπ(s,a)描述的是在当前战场状态下执行某个动作后获得的长期价值,即在执行动作后考虑后续状态并执行动作所获得的长期价值,即状态-动作价值。

2.2 基于深度课程强化学习的联合海空作战战术决策模型改进

在联合海空作战的实际推演过程中,由于战场中的智能体数量规模较大、种类较多,直接应用强化学习不可避免会出现维度爆炸、收敛困难的问题。同时由于战场任务本身的属性多样化、训练难度不一,直接按照任务排序依次进行训练,可能会对智能体训练速度带来影响。事实上,对于计算机来说,直接对联合海空作战困难任务进行学习的时间代价和算力需求可能是不可估计的。因此,将联合海空作战任务根据任务的学习难度,将训练数据集分为不同的部分,一开始只用学习难度较低的数据来训练强化学习算法,之后算法逐步学习越来越难的样本数据,最后,所有训练数据集都用来对算法进行微调。这种借鉴人类课程学习思维的算法学习过程,就是深度课程强化学习要解决的任务排序和迁移学习的问题。多年来,联合海空作战实战化训练战例数据的积累,和以深度学习为代表的监督学习的高速发展,为通过深度神经网络来拟合作战指挥员作战思维的判断过程提供了技术支撑。

在课程学习中,如果将通过训练数据集进行学习的智能体和通过课程进行学习的学生进行同类对比,那么从回放存储中获取战场状态样本与从设定的课程计划中学习课程是类似的。为了将回放存储转化为课程序列,需要应用复杂度指数函数(complexity index function,CI)来对战场状态样本进行排序。

定义:复杂度指数函数

基于深度课程强化学习的联合海空作战战术决策过程可以分为两个阶段:作战课程评估阶段和算法训练阶段。在作战课程评估阶段,战场智能体根据课程评估函数选择难度合适的战例样本数据;在算法训练阶段,由战例样本数据组成训练集对算法进行训练并更新参数。可得数学模型如下:

3 智能仿真推演算法建模与设计

3.1 仿真环境设计

近年来,美军为应对我国提出的“反进入”和“区域拒止”战略,提出空海一体战的反制措施[18],强调以海空力量为主体,整合太空、网络力量,构建新型的多维一体作战力量体系。为应对海上方向的挑战,我军海上新型作战力量的运用,尤其是航母战斗群的指挥控制,需要积极拓展作战行动规划的新型组成方式。

以菲海战事红蓝对抗行动为基本战术想定,构设联合海空对抗任务场景,红方以菲律宾海东部海域为航母编队活动区域,区域大小约150 n mile*100 n mile,区域中心距离某岛南部430 n mile,距离某国东海岸235 n mile,航母编队为单航母编队标准配置。蓝方兵力由某岛航空兵组成,设置两个机场。蓝方为进攻方,作战目的为摧毁红方水面舰艇、航空兵部队;红方为防守方,作战目的为保护己方水面舰艇、航空兵部队,并尽可能摧毁蓝方航空兵部队,方案推演中以红方作为推演主体,通过强化学习进行智能体训练和方案推演,以蓝方作为对手方,以任务规划形式进行规则训练,击毁对方作战兵力可以为己方获取相应分数,分数高者胜出。红方和蓝方作战兵力如下页表1、表2 所示,击毁对方兵力得分如表3、表4 所示。

表1 红方作战兵力表Table 1 Combat forces of the Red side

表2 蓝方作战兵力表Table 2 Combat forces of the Blue side

表3 红方评分标准Table 3 Grading standard of the red side

表4 蓝方评分标准Table 4 Grading scoring standard of the blue side

联合海空作战仿真环境是智能决策模型进行模拟实验的基础。模拟推演环境应当包括战场地形(经纬度坐标、边境线+海岸线)、双方兵力分布、战场设施组成、装备属性(武器射程、载弹量、飞行时速、雷达扫描半径)、作战条令与交战规则(电磁管控、武器使用规则)。在环境中可以添加事件、动作、条件、触发器等脚本编辑。该战术决策问题的状态空间由红蓝双方的兵力组成,单个作战实体(智能体)的状态属性包括经纬度坐标、战损程度、剩余载弹量等,动作空间由红方作战实体的动作构成,单个作战实体的动作包括移动、射击、雷达监测等。

本联合海空对抗智能博弈决策模型依托墨子联合作战实验环境进行仿真实验。墨子联合作战智能体开发平台以作战决策人工智能研究为需求,以Python 作为开发语言,兼容TensorFlow、PyTorch 等框架算法库,能够支撑作战模拟推演和战法研究。墨子联合作战实验环境如图6 所示。

图6 墨子联合作战推演系统Fig.6 Mozi joint operation deduction system

以联合海空作战战术决策问题作为研究对象,可以将问题抽象为:在一个2D 战场地图里,红方通过操控预警直升机前出侦察、战斗机定向歼灭、航母编队雷达干扰,在战斗机前出时通过队形变化、包抄围堵等战术动作选择,最终以己方最小伤亡代价完成阻击对方进攻的战术行动。

在模拟推演环境中,红方指挥员处于不完全信息中,对于蓝方兵力组成和位置只能通过预警机侦察和战斗机探测可知,其智能决策模型的强化学习目标是:在与模拟战场环境的持续交互中,不断积累完成联合海空作战战术任务的作战经验,最终通过不断调整智能体探索策略,获取最大化的奖励值,并习得最优联合海空作战行动策略。

3.2 方案推演中基于VDN 的联合海空战术决策过程

本文基于值分解网络算法(value-decomposition networks,VDN)实现对联合海空作战战术决策模型进行强化学习,VDN 算法通过反向传播将总奖励值分解到各个智能体本身,可以对智能体进行集中训练,然后分散执行相应的策略,从而避免出现惰性智能体,共同提升智能体训练的总奖励值。通过课程学习对强化学习训练过程进行加速收敛和提高训练性能,联合海空战术决策过程的强化学习基本思路是:利用复杂度指数函数将联合海空战术决策过程划分为3 种难度的任务。任务1(难度等级1)为少量战斗机集群直接对抗任务,任务2(难度等级2)为预警侦察条件下战斗机集群对抗任务,任务3(难度等级3)为预警侦察——干扰机干扰条件下联合海空战术对抗任务。联合海空作战战术决策任务阶段分布如表5、表6 所示。

表5 联合海空作战战术决策红方任务阶段分布Table 5 Distribution of Red side task stages in tactical decision-making of joint air-sea operations

在VDN 算法中,总奖励值——联合动作函数可以被分解为跨智能体的价值函数。

式中,γ 为奖励折扣因子;S 为智能体状态;a 为智能体动作值;π 为策略。

利用VDN 算法对简单任务进行学习,生成简单任务课程,应用到适中难度任务中,生成适中难度任务课程,应用到困难难度任务中进行学习。强化学习过程中,通过构造值分解神经网络,反向传播拟合联合作战指挥决策环境中的策略函数,在迭代过程中通过奖励函数最大化,可以获得最优联合海空作战战术决策模型的策略函数。

VDN 算法在DQN 智能体基础上,通过反向传播将战斗机集群(团队智能体)的奖励信号传播到各个单架战斗机(智能体),来克服多智能体强化学习在合作过程中存在的“虚假奖励”问题。VDN 算法中的联合动作值函数由各个智能体的值函数累加得到:

使用target Q-network 来更新target。由于强化学习中观测数据是有序而分开的,因此,使用经验回放来存储历史数据,每次从经验库中提取数据进行参数更新,从而连接数据。

图7 联合海空作战环境下课程学习示意图Fig.7 Schematic diagram of curriculum learning under joint air-sea operations environment

首先对联合作战战术决策数据进行分析处理,构建战术决策的数据文件,并导入深度学习平台进行神经网络的拟合训练,然后基于VDN 算法和课程学习算法获得相应回报函数,最后,在仿真环境中实现对联合海空作战战术决策策略的优化选择。联合海空作战战术决策策略形成过程如图8 所示,基于复杂度指数函数的课程强化学习算法伪代码见表7。

图8 基于课程强化学习的联合海空作战战术决策策略形成过程Fig.8 Formation process of joint air-sea combat tactical decision-making strategy based on curriculum reinforcement learning

表7 基于复杂度指数函数的课程强化学习算法伪代码Table 7 Pseudo code of curriculum reinforcement learning algorithm based on complexity exponential function

3.3 仿真实验结果分析

本文分3 组模型进行仿真实验,实验推演方为红方,采用强化学习算法进行作战单元控制,蓝方作为对手方,采用人工规则进行任务规划和作战控制。第1 组模型为基于VDN 算法的普通策略训练模型,第2 组模型为课程学习+VDN 算法的策略训练模型,第3 组模型为基于复杂度指数函数的课程强化学习的策略训练模型。模型1 直接应用到任务3 的训练中,模型2 和模型3 在经过任务1 和任务2 的训练和课程生成后,分别将策略训练模型应用到任务难度3 的训练中,最后比较3 种模型在任务3 的训练效果(奖励值),3 种模型在任务3 条件下得到的奖励值如图9 所示。

图9 3 种模型在任务3 环境下的累积奖励值Fig.9 Cumulative reward values of three kinds of models in the Task 3 environment

从实验所得3 种模型奖励值分析可得,3 种模型在经过3 000 个回合的训练后,均能在实验环境中取得较好的训练效果。其中,经过预先课程学习改进的模型2 和模型3,能够比模型1 取得更好的起始奖励值和更高的最终训练所得奖励值,证明课程学习能够提升强化学习算法在难度较高任务的初始训练效果和最终训练效果。

从仿真环境实际训练效果看,模型2 和模型3在经过训练后,均能够学会3 路进攻包围战术和航母舰队反“鱼叉”反舰导弹战术,模型3 在基本战术的基础上能够掌握搜寻并击毁预警机战术,从而提升在防守进攻过程中的战斗性能。

图10 3 路进攻包围战术Fig.10 Three-way attack encircling tactics

图11 搜寻并击毁预警机战术Fig.11 Search and destroy early warning aircraft tactics

4 结论

本文着眼联合海空作战战术决策问题研究,描述了战术决策问题的MDP 模型,给出了课程学习与深度强化学习相结合的技术解决方案,和基于VDN的联合海空作战战术决策问题技术框架,并在兵棋推演仿真平台上,对算法模型的可行性和有效性进行了验证。该方法既可以作为作战仿真系统的内置算法进行演习对抗来提升现有作战仿真系统的能力,也可以对接联合作战指挥控制训练系统,通过对作战方案的智能推演来评估现有作战方案,从而提升指挥员的决策效率。在课程学习与深度强化学习的结合过程中,如何自动创建任务课程、选择最优课程进入下一阶段的学习,以及在应用过程如何更好实现与仿真环境的交互,是下一步联合作战战术决策问题在智能化指挥控制方面的研究方向。

猜你喜欢
战场战术决策
战场上的神来之笔
为可持续决策提供依据
C-130:战场多面手
贴秋膘还有三秒到达战场
中间战术
决策为什么失误了
如何对抗毛球!全方位战术考察
也门,西方反恐的第三战场
关于抗美援朝出兵决策的几点认识
湘赣边秋收起义的决策经过