基于MATD3的视距内协同空战机动决策

2023-07-20 22:55张栋唐俊林熊威任智杨书恒
航空兵器 2023年3期

张栋 唐俊林 熊威 任智 杨书恒

摘要:為提升多无人作战飞机空战的协同作战能力, 提出一种基于多智能体双延迟深度确定性策略梯度(MATD3)的协同空战机动决策方法。 首先, 基于无人作战飞机的三自由度动力学模型构建空战环境, 并结合飞行员的操纵方式, 设计以控制量的变化量表示的动作空间。 其次, 优化了状态空间和奖励函数的设计, 将友机与敌机的相对关系引入状态空间, 根据相对角度、 相对距离等空战态势因素建立连续型奖励函数, 将飞行约束条件融入离散型奖励函数, 提升机动决策的准确性和机动飞行的安全性; 采用分阶段训练、 启发式引导、 双探索机制、 交替冻结博弈等训练方法, 提高算法的收敛速度和机动策略的鲁棒性。 最后, 构建了二对一空战的仿真场景, 结果表明我方双机能够展现出明显的配合行为, 提高了对空战态势的感知能力。

关键词:无人作战飞机; 协同空战; 机动决策; 多智能体; 深度强化学习; MATD3

中图分类号:       TJ760文献标识码:    A文章编号:     1673-5048(2023)03-0020-09

DOI: 10.12132/ISSN.1673-5048.2022.0231

0引言

随着科技的进步, 空战的战场环境和空间信息越来越复杂, 单机已经无法满足作战需求, 多机协同空战逐渐成为主要的作战样式。 协同空战机动决策是指我方多架战机根据交战双方的相对态势, 相互配合共同决策, 以占据有利态势, 甚至在处于劣势时化解敌机的威胁。 有效的协同机动策略能使战机编队充分发挥整体作战效能, 击毁敌机的同时最大程度减小我方的损伤。

现有的机动决策方法主要包括以矩阵博弈[1]、 微分对策[2]、 影响图[3]为代表的传统方法和以专家系统[4]、 神经网络[5]、 深度强化学习为代表的人工智能方法。 文献[6]基于矩阵博弈提出群决策理论, 以我机对每架敌机的动作偏好排序来进行决策, 为协同机动决策提供新的解决思路。 文献[7]基于状态预测影响图模型提出协同空战机动决策框架, 采用无迹卡尔曼滤波来更新和预测信念状态, 并通过移动视界控制法求解以满足实时性要求。 文献[8]建立了协商微分对策理论, 提出广义微分动态规划算法来求解多机协同机动策略。 文献[9]针对编队协同空战的过程, 提出基于高阶导数和相对模糊熵的二次聚类法, 实现了协同空战决策过程的重构。 文献[10]通过重复目标分配发挥战机的多目标攻击能力, 采用有限外推和粒子群算法求解指标函数, 提升了多机协同决策的效能。 传统方法在多机协同机动决策领域的研究成果显著, 但仍然存在一些不足: 矩阵对策法过于保守, 与空战实际不符; 影响图法推理过程繁杂, 决策响应速度慢; 微分对策法理论复杂, 计算量庞大, 性能函数设计困难。

由于传统方法的固有缺陷, 空战机动决策技术逐渐向具有自学习能力的人工智能方向发展。 专家系统法难以建立完备的规则库以适应复杂的空战环境, 神经网络法难以获取大规模的有效训练样本, 而深度强化学习通过智能体对环境的“试错”进行学习, 训练样本在训练中自产生, 能够适应复杂多变的空战环境, 满足机动决策准确性和实时性的要求, 具有很好的应用前景。 针对一对一空战场景, 深度强化学习取得了不错的应用效果。 文献[11]基于空战态势评估和DQN, 构建机动决策模型, 采用分阶段的训练方法, 逐步获得更加有效的机动策略。 文献[12]基于DDPG, 得出连续平滑的控制量, 提高机动决策的精度, 并通过优化算法产生有效样本, 提高算法的学习效率。 文献[13]在Actor网络上增加与性能损失上限相关的鲁棒性正则化器,  提出SADDPG,并结合最大熵逆强化学习的奖励塑造方法, 训练出具有高鲁棒性和高性能的机动策略。

针对多机协同空战场景, 基于深度强化学习的协同机动策略生成方法逐渐成为研究的热点。 文献[14]将MADDPG应用到状态、 动作都为连续的多机空战场景, 结合空战态势的评估结果设计连续型回报模型来加快收敛速度, 但仿真实现中多机的协同行为并不明显。 文献[15]通过动态目标分配对目标形成合围之势, 并基于启发式强化学习对机动决策序列进行动态解算, 完成四对二场景的空战仿真。 文献[16]通过强化学习来计算协同威胁指数, 描述了二对一空战中友机合作带来的态势提升, 再通过辅助决策模块评估决策集, 最终得出无人机的控制量。 文献[17]基于MADDPG求解协同机动策略, 并与采用预编规则的敌机进行对抗训练, 生成多种典型的双机协同策略。 文献[18]将平均场理论引入DQN, 提出MFSG-Q, 在大规模无人机集群对抗中表现出有效的集群合作行为。 文献[19]通过目标分配和态势评估将编队的战术目标与各无人机的强化学习目标相融合, 基于actor-critic架构建立多机协同机动决策模型。

综上所述, 采用深度强化学习实现多机协同空战机动决策通常有两种途径: 一是采用单智能体强化学习结合目标分配等方法, 这类机动策略仍然采用单智能体的研究方式, 协同能力较弱, 并没有实现真正意义上的协同; 二是采用多智能体深度强化学习方法, 这类方法能够生成比较有效的协同机动策略, 但大多数研究中采用的敌方策略过于简单, 没有充分挖掘多机协同的优势, 对于多机的协同行为考虑不足, 对于友机如何配合进而提升空战优势的研究较少。 针对此类问题, 本文提出了一种基于MATD3空战机动决策方法, 通过改进状态空间、 动作空间和奖励函数的设计, 并借助双探索机制、 分阶段训练、 启发式引导和交替冻结博弈等方法, 提高了多机机动决策的协同程度。

1视距内空战问题描述

1.1UCAV运动模型

空战对抗仿真中, 选用高耦合的三自由度动力学模型来创建空战环境[20]。 将UCAV视为一个质点, 考虑升力、 阻力和发动机推力, 比常见的以过载为控制量的三自由度动力学模型更加真实, 具有更高的应用价值[21]。 UCAV的飞行状态参数如图1所示。

1.2空战相对态势

根据UCAV的三自由度运动模型, 空战中敌我双机的相对位置如图2所示。

图2中, vr和vb分别为敌我双方的速度矢量; d为距离矢量, 从我方UCAV指向敌方UCAV; φ为敌机相对我机的方位角; q为敌机的进入角, 是敌机速度矢量与距离矢量的夹角。

假设近距空空导弹的攻击区是静态的, 有效攻击距离dM与离轴发射角φM均为定值。 近距空空导弹大多采用红外导引头, 具备全向攻击能力。 因为战机尾焰的红外特性最为明显, 尾后攻擊的成功率大于迎头攻击, 仍然希望进入角尽可能小。 选取对抗结束的胜负判定标志为: 相对距离小于空空导弹的攻击距离, 方位角小于空空导弹的离轴发射角, 进入角小于90°, 且持续3个决策周期, 可认为满足导弹发射条件, 即

3.5二对一视距内空战机动决策步骤

我方双机分别以MATD3框架选取机动动作, 通过相互配合来对抗敌方单机, 以夺取空战胜利。 决策步骤如图5所示。

与一对一空战相比, 二对一场景的状态空间更加庞大, 为了增强机动决策的准确性, 使用较大规模的神经网络来拟合协同机动策略。 大规模的神经网络和以控制量变化量表示的动作设计将导致收敛缓慢甚至不收敛的问题。 针对此问题, 采用启发式引导和分阶段训练的方法来改善算法的收敛性。 采用分阶段训练, 让算法先解决简单的任务, 当算法学习到一定策略后再增大任务的难度继续训练。 利用强化学习的经验回放池, 可以存储其他决策方法产生的经验样本, 从而在训练中吸收其他方法的优点。 训练的初期, 可以采用其他决策方法选择动作, 得到环境的奖励, 并与状态一起存入经验回放池。 如此便可以让具有较大规模神经网络的强化学习算法解决复杂的决策问题。

4仿真分析

4.1参数设置

仿真中, 敌我双方的对抗区域边界限制为x∈[0 km, 15 km], y∈[0 km, 15 km], z∈[1 km, 12 km]。 双方战机性能相同, 空空导弹发射距离约束dM=3 km, 离轴发射角约束φM=30°, UCAV最大速度vmax=400 m/s, 最小速度vmin=80 m/s, 质量m=14 680 kg, 参考截面积S=49.24 m2, 空气密度ρ=1.205 kg/m3。 Actor和Critic模块的学习率均为0.000 1, 衰减率γ=0.95, Target网络的软策略更新参数τ=0.01。 经验回放池容量为1 000 000, 每次从中抽取1 000条样本进行训练。 攻角、 滚转角和油门的随机噪声初始高斯分布分别为: Nα(0, 0.035), Nγ(0, 0.15), Nδ(0, 0.2)。 各Agent的网络结构相同, 如表3~4所示。

综合考虑决策的实时性和机体操控的稳定性, 每隔1 s, 对抗双方同时进行一次机动动作选择。 每执行5步进行一次训练, 达到回合的最大步数或胜负终止条件, 则本回合结束, 执行下一回合的训练。

我方每架UCAV的奖励函数中, 友机的奖励提升因子k=1。 训练过程分为初始训练阶段和对抗训练阶段。 初始训练阶段直到回合最大步数限制才终止, 先让我方双机跟随直线飞行的敌机, 学习初步的机动策略, 再跟随螺旋飞行的敌机, 以适应敌机速度矢量的变化; 对抗训练阶段加入敌机的机动策略, 进行对抗仿真, 任意一架UCAV达到攻击条件便终止回合。 经测试, 采用本文的动作设计方法, 如果不采用启发式引导的方法, 训练过程中Actor模块的动作输出同质化严重, 导致算法无法收敛。 初始训练阶段中, 部分回合我机使用Min-Max算法按照一对一场景的研究方法做出决策, 生成有效样本来指导神经网络的训练。

敌方单机采用遍历试探法, 从基本动作集中选取动作进行对抗。 每个控制量的变化量有5种取值, 分别为Δα=(-10°, -5°, 0°, 5°, 10°)、 Δγ=(-45°, -22.5°, 0°, 22.5°, 45°)和Δδ=(-1, -0.5, 0, 0.5, 1), 排列组合得到125种基本动作。 敌机决策时, 假设我方双机位置保持不变, 以当前待选动作执行后更新的相对态势来评估该动作的优劣。 态势评估中敌机对我方每架战机的综合奖励各占一半, 根据一对一空战的奖励函数计算。

4.2初始训练阶段

训练的0~7 000个回合, 令敌机沿固定水平直线匀速飞行, 我方双机的初始位置在以敌机初始位置为圆心、 半径为6 km的部分圆周上随机生成, 速度为250 m/s, 航向指向敌机, 航迹倾角为0°, 攻角为5.73°, 滚转角为0°, 油门系数为0。 训练完成后, 某回合中我方双机的机动轨迹如图6所示。

由图6可知, 我方双机从任意位置出发, 均能迅速绕到敌机后方形成攻击态势, 并稳定保持绝对有利态势, 直到最大步数75而终止。 引入此训练阶段的主要目的是让每架UCAV均能学习到对敌机形成攻击态势的初步智能水平。

训练的7 000~12 000个回合, 令敌机以固定的初始位置、 随机的初始航向角、 固定的航迹倾角大小, 向下或向上螺旋飞行。 我方双机初始位置分别为(3 km, 6.5 km, 5 km)和(3 km, 8.5 km, 5 km), 速度均为250 m/s, 航迹偏角均为0°, 航迹倾角均为0°, 攻角均为5.73°, 滚转角均为0°, 油门系数均为0。 训练完成后, 某回合的机动轨迹如图7所示。

由图7可知, 敌机以随机初始航向进行螺旋飞行时, 我方双机均能跟随在敌机侧后方, 保持绝对优势的态势直到回合最大步数150。 引入此训练阶段的主要目的是让每架UCAV均能适应敌机飞行方向的变化, 学习到对敌机持续保持攻击态势的智能水平。

4.3对抗训练阶段

训练的后40 000个回合, 敌方单机以遍历试探法选取动作进行机动对抗。 敌机的初始位置恒定为(7.5 km,  7.5 km, 5 km), 速度为250 m/s, 航迹偏角指向我方双机编队的中心, 航迹倾角为0°, 攻角为5.73°, 滚转角为0°, 油门系数为0; 我方双机的初始位置在以敌机初始位置为圆心、 半径为6 km的圆周上随机生成, 圆心角相差10°, 速度均为250 m/s, 航迹偏角指向敌机, 航迹倾角均为0°, 攻角均为5.73°, 滚转角均为0°, 油门系数均为0。 初始阶段的训练过程中, 直到回合最大步數限制才终止训练, 导致算法虽然有协同机制, 但我方战机决策时却强行忽略了友机协同的优势提升, 各自争取对敌机的有利态势。 对抗阶段的训练过程中, 任意一架UCAV被击毁便终止回合, 友机的奖励和惩罚均会对另一架UCAV造成较大的影响, 此时双机能逐渐学到一些协同策略。

训练完成后某回合的对抗轨迹如图8所示。 我方双机学习到的战术类似于分散夹击战术, 先散开, 再分别从两侧夹击敌机。 只要敌机偏向于其中一方, 另一方便能抓住机会, 迅速达成攻击条件, 将敌机击落。 刨除初始训练阶段和使用探索策略2的训练回合, 对抗训练阶段我方双机奖励之和的平均值及胜负概率变化趋势如图9所示。

由图9可知, 随着对抗训练的进行, 我方的获胜概率逐渐提升, 双机所获得的平均奖励也在波动上升, 最终我方双机编队的胜率可达90%以上。 因此, 在相同的优势函数及权重因子下, 基于MATD3的双机机动决策能表现出一定的协同行为, 相互配合率先达到攻击条件并击落敌机。

4.4交替冻结博弈

为获得普适性更强的协同机动策略, 敌机使用3个独立训练的TD3与我方双机对抗, 并进行交替训练(训练一方的策略时, 另一方的参数固定)。 为减轻“红皇后效应”的影响, 将敌机各独立决策算法每个训练阶段获得的策略储存。 我方训练时, 敌机每回合在已有策略集(π1θ1, π2θ1, …, πi1θ1), (π1θ2, π2θ2, …, πi2θ2), (π1θ3, π2θ3, …, πi3θ3)中随机选取一个策略进行对抗, 使得我方的协同策略能够适应不同对手各个时期的策略。 在交替训练过程中, 处于训练阶段的策略通过不断迭代, 总能以较高的概率战胜非训练阶段的策略。 经过若干轮交替训练, 我方双机对敌方不同种类、 不同时期的策略均能保持较高的对抗成功率。 某回合中的对抗轨迹如图10所示, 我方双机先散开, 再从两侧夹击, 1号机扰乱了敌方对空战态势的判断, 2号机则趁机绕到敌机侧后方将其击落, 可知分散夹击是二对一空战中一种十分有效的战术。

5结论

本文采用MATD3研究了高动态和强对抗环境下的多机协同控制机动决策问题, 构建了基于MATD3的多机协同机动决策框架, 提升了多机协同空战过程中协同的作战的效能, 主要结论包括:

(1) 通过优化状态空间和设计奖励函数, 以感知友机的优势提升; 多智能体的合作行为主要通过对友机和敌机的观测以及感知友机的奖励来获得。

(2) 通过引入双探索机制、 采用分阶段训练、 启发式引导以及交替冻结博弈等方法, 可以充分挖掘机动决策框架的性能。 双探索机制平衡探索与利用的关系; 分阶段训练和启发式引导改善算法的收敛性; 交替冻结博弈提高决策的普适性。

二对一空战的仿真结果表明, MATD3生成的机动策略环境适应性强, 能在对抗中表现出明显的协同行为, 充分发挥多机作战的协同优势, 具有重要的潜在应用价值。

参考文献:

[1] 李世豪,  丁勇,  高振龙. 基于直觉模糊博弈的无人机空战机动决策[J]. 系统工程与电子技术,  2019,  41(5): 1063-1070.

Li Shihao,  Ding Yong,  Gao Zhenlong. UAV Air Combat Maneuvering Decision Based on Intuitionistic Fuzzy Game Theory[J]. Systems Engineering and Electronics,  2019,  41(5): 1063-1070.(in Chinese)

[2] Park H,  Lee B Y,  Tahk M J,  et al. Differential Game Based Air Combat Maneuver Generation Using Scoring Function Matrix[J]. International Journal of Aeronautical and Space Sciences,  2016,  17(2): 204-213.

[3] Zhong L,  Tong M A,  Zhong W,  et al. Sequential Maneuvering Decisions Based on Multi-Stage Influence Diagram in Air Combat[J]. Journal of Systems Engineering and Electronics,  2007,  18(3): 551-555.

[4] Geng W X,  Kong F E,  Ma D Q. Study on Tactical Decision of UAV Medium-Range Air Combat[C]∥ 26th Chinese Control and Decision Conference (CCDC),   2014: 135-139.

[5] Li B,  Liang S Y,  Tian L Y,  et al. Intelligent Aircraft Maneuvering Decision Based on CNN[C]∥International Conference on Compu-ter Science and Application Engineering,  2019: 1-5.

[6] 周思羽,  王慶超,  王子健,  等. 基于Dodgson集结算法的多机协同空战机动决策方法[J]. 飞机设计,  2021,  41(3): 5-8.

Zhou Siyu,  Wang Qingchao,  Wang Zijian,  et al. Research on Autonomous Maneuvering Decision-Making Method Based on Dodgson Aggregation Algorithm[J]. Aircraft Design,  2021,  41(3): 5-8.(in Chinese)

[7] Pan Q,  Zhou D Y,  Huang J C,  et al. Maneuver Decision for Cooperative Close-Range Air Combat Based on State Predicted Influence Diagram[C]∥IEEE International Conference on Information and Automation (ICIA),  2017: 726-731.

[8] 李建勋,  佟明安,  金德琨. 协商微分对策理论及其在多机空战分析中的应用[J]. 系统工程理论与实践,  1997,  17(6): 68-72.

Li Jianxun,  Tong Mingan,  Jin Dekun. Bargaining Differential Game Theory and Application to Multiple Airplane Combat Analysis[J]. Systems Engineering-Theory & Practice,  1997,  17(6): 68-72.(in Chinese)

[9] 左家亮,  张滢,  杨任农,  等. 中距协同空战决策过程二次聚类重构与评估[J]. 系统工程与电子技术,  2020,  42(1): 108-117.

Zuo Jialiang,  Zhang Ying,  Yang Rennong,  et al. Reconstruction and Evaluation of Medium-Range Cooperation Air Combat Decision-Making Process with Two Phase Clustering[J]. Systems Engineering and Electronics,  2020,  42(1): 108-117.(in Chinese)

[10] 奚之飞,  徐安,  寇英信,  等. 多机协同空战机动决策流程[J]. 系统工程与电子技术,  2020,  42(2): 381-389.

Xi Zhifei,  Xu An,  Kou Yingxin,  et al. Decision Process of Multi-Aircraft Cooperative Air Combat Maneuver[J]. Systems Engineering and Electronics,  2020,  42(2): 381-389.(in Chinese)

[11] Yang Q M,  Zhang J D,  Shi G Q,  et al. Maneuver Decision of UAV in Short-Range Air Combat Based on Deep Reinforcement Learning[J]. IEEE Access,  2019,  8: 363-378.

[12] Yang Q M,  Zhu Y,  Zhang J D,  et al. UAV Air Combat Autonomous Maneuver Decision Based on DDPG Algorithm[C]∥IEEE 15th International Conference on Control and Automation (ICCA),  2019: 37-42.

[13] Kong W R,  Zhou D Y,  Yang Z,  et al. UAV Autonomous Aerial Combat Maneuver Strategy Generation with Observation Error Based on State-Adversarial Deep Deterministic Policy Gradient and Inverse Reinforcement Learning[J]. Electronics,  2020,  9(7): 1121.

[14] 袁唯淋. 基于多智能體强化学习的超视距空战决策方法研究[D]. 长沙: 国防科技大学,  2018: 15-39.

Yuan Weilin. Research on Decision-Making of Beyond-Visual-Range Air Combat Based on Multi-Agent Reinforcement Learning[D]. Changsha: National University of Defense Technology,  2018: 15-39.(in Chinese)

[15] 左家亮,  杨任农,  张滢,  等. 基于启发式强化学习的空战机动智能决策[J]. 航空学报,  2017,  38(10): 321168.

Zuo Jialiang,  Yang Rennong,  Zhang Ying,  et al. Intelligent Decision-Making in Air Combat Maneuvering Based on Heuristic Reinforcement Learning[J]. Acta Aeronautica et Astronautica Sinica,  2017,  38(10): 321168.(in Chinese)

[16] 韩统,  崔明朗,  张伟,  等. 多无人机协同空战机动决策[J]. 兵器装备工程学报,  2020,  41(4): 117-123.

Han Tong,  Cui Minglang,  Zhang Wei,  et al. Multi-UCAV Cooperative Air Combat Maneuvering Decision[J]. Journal of Ordnance Equipment Engineering,  2020,  41(4): 117-123.(in Chinese)

[17] 孙彧,  李清伟,  徐志雄,  等. 基于多智能体深度强化学习的空战博弈对抗策略训练模型[J]. 指挥信息系统与技术,  2021,  12(2): 16-20.

Sun Yu,  Li Qingwei,  Xu Zhixiong,  et al. Game Confrontation Strategy Training Model for Air Combat Based on Multi-Agent Deep Reinforcement Learning[J]. Command Information System and Technology,  2021,  12(2): 16-20.(in Chinese)

[18] 李世豪. 复杂空战环境下基于博弈模型的无人机机动决策方法研究[D]. 南京: 南京航空航天大学,  2019: 51-68.

Li Shihao. Research on UAV Maneuvering Decision Method Based on Game Theory in Complex air Combat[D]. Nanjing: Nanjing University of Aeronautics and Astronautics,  2019: 51-68.(in Chinese)

[19] Zhang J D,  Yang Q M,  Shi G Q,  et al. UAV Cooperative Air Combat Maneuver Decision Based on Multi-Agent Reinforcement Learning[J]. Journal of Systems Engineering and Electronics,  2021,  32(6): 1421-1438.

[20] 杜海文,  崔明朗,  韩统,  等. 基于多目标优化与强化学习的空战机动决策[J]. 北京航空航天大学学报,  2018, 44(11):2247-2256.

Du Haiwen,  Cui Minglang,  Han Tong,  et al. Maneuvering Decision in Air Combat Based on Multi-Objective Optimization and  Reinforcement Learning[J]. Journal of Beijing University of Aeronautics and Astronautics,    2018, 44(11): 2247-2256.(in Chinese)

[21] Zhang X B,  Liu G Q,  Yang C J,  et al. Research on Air Combat Maneuver Decision-Making Method Based on Reinforcement Learning[J]. Electronics,  2018,  7(11): 279.

[22] Williams P. Aircraft Trajectory Planning for Terrain Following Incorporating Actuator Constraints[J]. Journal of Aircraft,  2005,  42(5): 1358-1361.

[23] Williams P. Three-Dimensional Aircraft Terrain-Following via Real-Time Optimal Control[J]. Journal of Guidance,  Control,  and Dynamics,  2007,  30(4): 1201-1206.

[24] 王杰,  丁达理,  陈诚,  等. 导弹攻击状态评估下的UCAV试探机动决策[J]. 哈尔滨工业大学学报,  2021,  53(6): 118-127.

Wang Jie,  Ding Dali,  Chen Cheng,  et al. UCAV Trial Maneuvering Decision under Missile Attack State Assessment[J]. Journal of Harbin Institute of Technology,  2021,  53(6): 118-127.(in Chinese)

[25] Fujimoto S,  van Hoof H,  Meger D. Addressing Function Approximation Error in Actor-Critic Methods[EB/OL]. (2018-10-22)[2022-11-03]. https:∥arxiv.org/abs/1802.09477v3.

[26] Lowe R,  Wu Y,  Tamar A,  et al. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[C]∥31st  International Conference on Neural Information Processing Systems, 2017: 6382-6393.

Maneuver Decision of Cooperative Air Combat within

Visual Range Based on MATD3

Zhang Dong*, Tang Junlin, Xiong Wei, Ren Zhi, Yang Shuheng

(School of Astronautics, Northwestern Polytechnic University, Xian 710072, China)

Abstract: In order to improve the cooperative ability of multiple unmanned combat aircraft vehicle(UCAV) in air combat, a cooperative air combat maneuver decision method based on multi-agent dual delay depth deterministic policy gradient algorithm (MATD3) is proposed. Firstly, the air combat environment is constructed based on the three degree of freedom dynamic model of UCAV, and the action space represented by the change of control quantity is designed based on the pilots control mode. Secondly, the design of state space and reward function is optimized to improve the accuracy of maneuvering decision and the safety of maneuvering flight. The relative relationship between friendly aircraft and enemy aircraft is introduced into state space, the continuous reward function is established according to the relative angle, relative distance and other air combat situation factors, and the flight constraints are integrated into the discrete type reward function. Training techniques such as phased training, heuristic guidance, dual exploration mechanism, and alternating freezing game are adopted to improve the convergence speed of the algorithm and the robustness of the maneuvering strategy.Finally, a two-to-one air combat simulation scenario is constructed, and the results show that our two aircraft can show obvious cooperative behavior, which improves the perception and control of air combat situation.

Key words: UCAV; cooperativeair combat; maneuver decision; multi-agent;  deep reinforcement learning; MATD3

收稿日期: 2022-11-04

基金項目: 基础加强1912项目

*作者简介: 张栋(1986-),  男,  宁夏青铜峡人,  副教授, 博士生导师。