深度强化学习在军事领域的应用研究

2022-11-25 00:04文东日

军事运筹与系统工程 2022年2期

关键词：军事决策深度

文东日

（1.国防大学研究生院，北京100091；2.中国人民解放军63936 部队，北京102202）

1 引言

2 深度强化学习军事应用研究现状

深度强化学习具有突出的决策规划能力，拥有广阔的军事应用前景，受到研究人员的广泛关注。近年来，深度强化学习军事应用研究的相关文献逐年增多，在态势感知、指挥决策、装备控制、空战博弈、兵棋推演等诸多领域均有成果。

2.1 应用深度强化学习于态势感知

态势感知是实施作战行动的逻辑起点，核心是综合处理战场环境、情报侦察、兵力部署、力量对比等各种信息，做出综合判断，为采取作战行动提供决策依据。吴志强等构建了基于Actor-Critic 的态势估计模型，提出基于深度强化学习的自动态势分析技术框架［1］。Actor-Critic 架构既有决策功能（Actor）又有评估功能（Critic），文献［1］仅利用Critic 进行态势估计，却舍弃了Actor 的决策功能。冷鹏飞等提出一种基于深度强化学习的雷达辐射源个体识别方法［2］，以雷达辐射源信号包络前沿作为深度神经网络的输入状态，以辐射源类别作为输入状态的可选动作，通过拟合当前状态动作对的Q 值完成雷达辐射源个体识别任务。利用深度强化学习进行目标识别是深度强化学习的一种特殊应用，此种情况下的马尔可夫决策过程仅有一个决策步。李银通等提出利用逆强化学习进行空战态势评估［3］。在态势评估或目标识别领域应用深度强化学习，未充分发挥其技术优势，相关应用研究也较少。

2.2 应用深度强化学习于指挥决策

深度强化学习具有突出的决策规划能力，发挥深度强化学习这一技术特点，提升指挥控制能力、获取决策优势，是深度强化学习在军事领域的主要应用方向。曹雷提出将深度强化学习应用于作战辅助决策（或作战任务规划、智能博弈对抗）的基本构想［4］，建立基于马尔可夫决策过程的作战指挥控制模型，探讨获得最优策略的基本逻辑。针对不同领域、不同规模、不同阶段的指挥决策问题，诸多学者进行了具体探索。如陈希亮等针对陆军分队战术决策问题，提出有限指挥决策范例数据条件下的逆向强化学习方法，给出方案推演中基于深度Q网络的陆军分队战术决策技术求解框架［5］。冯利设计了基于深度Q 网络的炮兵连智能决策系统［6］，为解决炮兵战术决策问题提供了借鉴。笔者曾提出基于深度强化学习的装备组合运用方法［7］，发挥深度强化学习解决组合优化问题的优势，进行装备运用方案筹划。于彤彤等提出基于深度强化学习的舰载机在线调度方法［8］。此外，一些学者围绕利用深度强化学习解决防空反导［9］、网电攻防［10］、低轨卫星路由策略［11］中的辅助决策问题进行了研究。

2.3 应用深度强化学习于装备控制

利用深度强化学习实现装备智能控制，是深度强化学习军事应用的又一重要方向。如付佳龙研究利用深度强化学习实现舰载机的自动着舰［12］，张耀、相晓嘉、赵明皓等分别研究利用深度强化学习实现无人战车［13］、无人机［14］、无人艇［15］等无人平台的自主控制，南英、马子杰、高昂等分别研究利用深度强化学习进行弹道导弹［16］、巡航导弹［17］、巡飞弹［18］等制导导弹的突防控制以及航迹规划。Gaudet 等研究基于强化学习的自主高超声速打击武器末端自适应制导方法［19］。可以说，武器装备智能化是军事智能化的物质基础，是深度强化学习军事应用的重要领域，是催生智能化武器装备的重要技术基础。2018 年2 月，SpaceX 公司利用强化学习技术提升火箭着陆精度和可靠性，使其出色地完成自动转向等操作，大幅减少了地面专家操作工作量［20］。

2.4 应用深度强化学习于空战博弈

空战博弈是装备控制的一种特殊情况，相比较一般装备控制问题，空战博弈具有激烈对抗性的突出特点。2020 年8 月，美国国防高级研究计划局（DARPA）举办阿尔法空战格斗系列比赛（Alpha-DogFight），苍鹭系统公司基于深度强化学习算法完胜F-16 顶尖飞行员，显示出将深度强化学习应用于空战博弈的巨大潜力。围绕空战博弈问题，POPE 等研究利用分层深度强化学习进行飞机空中格斗［21］，马文等提出一种深度强化学习与博弈相结合的近距空战机动决策方法［22］，郭万春等提出一种基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策方法［23］，杨霄等提出一种深度强化学习与微分对策（Differential Games，DG）相结合的无人机空战决策方法［24］。正如陈希亮等指出，空战决策问题与围棋、星际争霸等问题不同，无法简单套用游戏中的深度强化学习算法，须针对具体军事问题，综合运用运筹分析、知识建模、智能搜索和机器学习等方法寻找解决方案［25］。

2.5 应用深度强化学习于兵棋推演

深度强化学习基于大量采样和试错进行学习，为降低试错成本，一般须构建虚拟仿真环境，而兵棋推演正好满足这一要求。美国国防高级研究计划局在深度强化学习攻克星际争霸后，立马将其应用于战争模拟研究［26］。笔者曾指出为使传统军事仿真平台能和智能体进行交互，须对传统军事仿真平台进行改造，包括实现环境功能的仿真平台、实现智能体功能的开发平台以及连接仿真平台和开发平台的接口［7］。刘静等设计了网电作战多智能体博弈仿真平台［27］。崔文华等探讨以兵棋系统为依托的基于深度强化学习的决策技术框架［28］。目前，深度强化学习成为兵棋推演智能决策的主要技术之一，国内已有多个能够应用深度强化学习进行推演的仿真平台。

3 深度强化学习军事应用的优势及挑战

3.1 深度强化学习军事应用优势分析

深度强化学习具有不需要数据标签、环境模型、提取特征等内在特点，符合许多军事应用问题的技术要求，使得应用深度强化学习于军事领域具有明显优势。

3.1.1 不需要数据标签，从而摆脱数据标记

The median follow-up period for all patients was 34.5(9.9-81) mo. Median follow-up time for group Ⅰ was 37.5 (9.9-74.5) mo and group Ⅱ was 31.2 (10.7-81) mo.Median follow-up was comparable in both groups (P =0.59).

深度强化学习不需要数据标签，从而使得应用深度强化学习解决军事问题摆脱数据标记。以深度学习为代表的监督学习，需要大量的数据标签，以致产生对数据进行标记的巨大市场需求。但当人们试图把深度学习以及大数据等技术应用于军事领域时，却发现由于缺少数据标签或者根本没有数据积累、数据来源，导致很多军事问题难以利用监督学习的方法。而强化学习不需要数据标签，其通过持续地交互“试错”机制，不断地“接收状态—执行动作—获得收益—调整策略”，最终获得最大收益、找到最优策略。此种源于行为主义心理学的学习机制，使得以深度强化学习解决军事问题时，解决了没有数据来源、缺少数据积累以及数据标签的问题。

3.1.2 不需要环境模型，从而超越经验知识

深度强化学习不需要环境模型，从而使得应用深度强化学习解决军事问题超越经验知识。环境模型即状态转移函数，表示在一个状态下采取某个动作时，从当前状态转移到另一状态并获得收益的概率。简单理解，智能体好比是懂行的专家，其对动作的后续影响完全知悉。然而，在没有环境模型的情况下，强化学习通过与环境交互采样，得到状态、动作、收益的序列，并在收益的引导下纠正错误动作、选择正确动作，依然能够达到最优的行为。根据这一原理，AlphaGo Zero 在完全不懂围棋、也不借助人类经验的情况下，成为围棋顶尖高手，打败先前版本的AlphaGo Master 。类似于此，利用深度强化学习解决军事问题，也可能在完全没有军事专家指导、没有军事经验的情况下，成为精于计算、足智多谋的军事助手。

3.1.3 不需要提取特征，从而回避特征工程

深度强化学习不需要提取特征，从而使得应用深度强化学习解决军事问题回避特征工程。传统的强化学习在解决一般任务时存在以下几点不足：一是需要根据具体任务提取特征，从而转化为有限状态空间及有限动作空间；二是提取特征需要人工完成，因而受人为因素的影响较大；三是有的高维任务或许根本无法转化为有限状态空间及动作空间。而深度强化学习利用深度神经网络强大的泛函表示能力，既能够应对连续状态空间和动作空间的任务，又可省去人工提取特征的环节，从而克服了传统强化学习的不足。运用深度强化学习解决军事问题，不需要对特征提取进行人为选择，即使面对不同作战条件、作战目标和作战意图，也可基于同一网络结构进行训练，提高了网络结构的通用性。

3.2 深度强化学习军事应用困难挑战

虽然利用深度强化学习解决军事问题具有诸多优势和广阔前景，但与落地应用仍有差距，在系统建构、训练收敛、算法迁移等方面存在困难。

3.2.1 系统建构之难

应用深度强化学习解决军事问题，需要开发平台、计算平台、仿真平台等作为支撑，由此导致实现该方法存在相应困难。①源于开发平台，人工成本高。虽然利用开发平台构建智能体，能够实现自动学习、智能寻优，改变传统仿真方法效率低、时间长等缺点，但编写智能体专业性强、工作量大、不易实现。且对于军事问题，由于战场环境的开放性，任务想定总是处于动态变化之中，要为不同的想定设计不同的动作空间、状态空间，编写不同的训练环境，相当于针对一个想定开发一个“游戏”，由此导致利用深度强化学习解决军事问题仍需要较大人工成本。②源于计算平台，计算开销大。利用深度强化学习解决复杂问题需要高性能计算资源支持。例如，深度思维公司训练AlphaGo 围棋智能体利用了多达280 个GPU 和1 920 个CPU［29］，训练OpenAI Five 星际争霸智能体利用了多达256 个GPU 和128 000 个CPU［30］。而2020 年中国超级计算排名第三的北京超级云计算中心也仅有192 000 个CPU，2018 年世界超级计算排名第一、2020 年排名第四的“太湖之光”安装了40 960 个众核处理器［31］。如此庞大的计算开销，使得众多普通的深度强化学习研究者望而却步，限制了深度强化学习的军事应用。③源于仿真平台，导致方法起点要求高。利用深度强化学习解决军事问题，首先需要仿真平台的支撑，没有仿真平台，方法也就无从构建。因此，深度强化学习的军事应用在硬件支撑上要求更高、条件更严、实现更难。

3.2.2 训练收敛之难

应用深度强化学习解决军事问题虽具有可行性，但由于深度强化学习本身存在训练效率低、不稳定等缺陷，使得探寻最优策略需要漫长时间，且收敛存在偶然性。如深度思维公司即便拥有超强的计算资源，但训练OpenAI Five 星际争霸智能体，也耗时长达10 个月。在实际军事问题场景中，装备实体数量大幅增加、问题复杂度成倍提高、时效性要求极其严苛，过长的训练时间直接导致方法不可用。另外，由于收敛的偶然性，训练开始并不能保证最终得到最优结果，往往由于学习率过大或过小、网络初始模型不适用、激活函数不合理、“探索—利用”没有平衡好等因素而失败。

3.2.3 算法迁移之难

由于深度强化学习具有过拟合、难解释的本质缺陷，利用深度强化学习解决军事问题存在迁移困难。其迁移困难首先体现在不同想定之间难迁移。深度强化学习是基于环境的学习探索，为使智能体实现奖励最大化，可以尽量地拟合环境要求。但若环境（或想定）稍做调整变化，经过反复调试、精心训练，最终收敛得到的智能体就完全失效，须从头开始、重新训练。可以说，基于深度强化学习训练的智能体虽然能够解决某些问题，但只能机械地应对，不能灵活地变化。面对多种想定情况，深度强化学习智能体不能举一反三、触类旁通、实现迁移。其迁移困难还体现在向现实环境迁移难。深度强化学习解决问题的性能非常优异，但其只是给出方案“是什么”，至于“为什么”没有任何信息，因而难以获得军事指挥员的理解、信任与采纳，阻碍深度强化学习的军事应用。

4 深度强化学习军事应用研究展望

4.1 打造智能平台

打造仿真平台是深度强化学习军事应用的基础。当前，虽有能够利用深度强化学习的仿真平台，但基于传统仿真平台实现深度强化学习军事应用的过程复杂，智能体的编写需要耗费大量精力。打造智能军事仿真平台，简化智能体的构造及训练过程，是未来研究的重要方向。一是通过标准化的方式，统一智能体的结构。不同类型的智能体，功能要求不一样，有的智能体用于识别目标、有的智能体用于判断风险、有的智能体用于作出决策等。对于不同的智能体，还可能有不同的设计方法和实现途径。标准化的目的在于从概念形式上统一各种不同功能、不同技术途径的智能体，为简化智能体的构建及部署奠定基础。二是通过模块化的方式，简化智能体的构建。集成模块化的深度神经网络，如卷积神经网络（CNN）、深度信念网络（DBN）、循环神经网络（RNN）、长短时记忆网络（LSTM）等；集成模块化的强化学习算法，如深度Q学习算法（DQN）、深度确定性策略梯度算法（DDPG）、近端策略优化算法（PPO）、异步的基于优势函数的“行动器—评判器”算法（A3C）、信赖域策略优化算法（TRPO）等；集成模块化的状态输入与动作输出。当智能体的构建、训练及部署较为容易简便时，就可以为每一个必要的模型赋予智能，从而完成认知建模，使得模型“活”起来。如此，模型就可以更加真实地模拟真实情况，也可以更加便捷地进行推演，而不需要每个决策都由参演人员临时输入、每个操作都由参演人员人工控制；在推演中有的席位可以直接由智能模型替代，甚至整个蓝方都由智能体扮演，大大减少陪练人员，聚焦关键问题。传统的计算机兵棋系统将发生本质性改变，实现智能化的升级改造。

4.2 构建并行模式

深度强化学习本身存在采样效率低、训练时间长等不足，通过构建分布式并行训练模式解决军事问题，从而提高采样效率、降低时间成本，值得进一步研究探索。许多大规模分布式强化学习架构，如并行的基于优势函数的“行动器—评判器”架构（Parallel Advantage Actor Critic，PAAC）、重要性加权的操作者—学习者架构（Importance Weighted Actor-Learner Architecture，IMPALA）、去中心化的分布式近端策略优化架构（Decentralized Distributed Proximal Policy Optimization，DDPPO）等，能够显著改善单进程的深度强化学习在解决大规模复杂问题时的性能不足。相关实验证明，采用分布式深度强化学习玩雅达利游戏，可以将原来需要几十个小时甚至十几天才能达到人类玩家水平的训练时间，缩短到几个小时甚至几分钟。深度思维公司在分布式深度强化学习的启发下，研究老鼠多巴胺细胞的生理机制，发现大脑中同样存在分布式架构［32］，证明分布式深度强化学习比标准的深度强化学习更加类似于大脑机能，是正确的研究方向。为此，应研究构建基于分布式深度强化学习架构的军事应用方法，探究在分布式深度强化学习架构下仿真平台及其接口的技术要求，分析部署分布式深度强化学习的硬件需求，评估基于分布式深度强化学习架构的军事应用的优势，解决基于标准的深度强化学习军事应用存在效率低、时间长等不足。

4.3 融合符号主义

军事问题十分复杂，简单套用游戏中的深度强化学习算法，存在难解释、效率低、过拟合、不稳定等本质缺陷，如何有效利用知识是深度强化学习军事应用研究的重要突破方向。近年来，深度强化学习诞生很多前沿研究方向，如分层深度强化学习、深度逆向强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等，其中很多研究方向都试图把知识融进深度强化学习，以期实现符号主义、联结主义、行为主义的结合。如分层深度强化学习的基本思想是将一个复杂问题分解为若干个容易解决的子问题，通过子问题的解决策略，得出整体问题的最优策略。由于问题分解、划分层次通常是由人工完成，这就需要特定领域的知识和技巧，以促进更好的学习效果。深度逆向强化学习的基本思想是针对奖励函数难以获得问题，通过专家示例反推得到奖励函数，进而利用奖励函数引导获得最优策略。由于逆向强化学习以专家示例为榜样，同样需要特定领域的知识。多任务迁移深度强化学习的基本思想是为解决传统的深度强化学习只能应对单一任务、单一环境，只要任务或者环境稍有变化，之前的学习结果就会失效，泛化性能差的问题，通过将知识从源任务迁移到目标任务，从而使得智能体更好适应新的任务场景。基于记忆与推理的深度强化学习的基本思想是针对传统的深度强化学习模型不具备记忆、认知、推理等高层次能力的问题，加入外部记忆组件，使得智能体具有初步的主动认知与推理能力，从而提高智能体性能。知识是人类认识世界的成果，是“去伪存真，去粗存精”的总结凝练，是“透过现象看本质”的规律把握，比起一般数据和信息更有价值。通过融入知识，实现符号主义、联结主义、行为主义的贯通，智能体在性能上均有提升，为深度强化学习的军事应用提供了有益借鉴。

5 结束语

深度强化学习具有突出的决策规划能力，是军事智能化的关键技术基础，在军事领域具有广阔应用前景。应用深度强化学习解决军事问题既有摆脱数据标记、超越经验知识、回避特征工程等技术优势，也有系统建构、训练收敛、算法迁移等方面不足。应进一步加强深度强化学习军事应用研究，坚持以军事需求为牵引，以技术进步为推动，努力将深度强化学习的突出性能转化为军事博弈的决策优势，为未来战争制胜“OODA”环奠定基础。