基于动态非零和博弈的无人机集群协同对抗方法研究

2022-04-14 06:50刘莎张硕刘禄
航空科学技术 2022年2期

刘莎 张硕 刘禄

摘要:无人机集群协同对抗是当今国内外学术研究的热点问题,动态机动决策是无人机对抗最重要的研究领域之一。本文提出了一种基于动态非零和博弈的无人机集群协同对抗决策算法。首先,确定对抗双方的决策集,并通过角度、速度和距离等机动因素构造对抗双方的态势优势。其次,对无人机集群机动可选方案进行多属性评价,进一步计算双方的动态收益矩阵,建立动态非零和纳什均衡机动决策模型。随后,提出了改进的粒子群算法,高效求解动态非零和纳什均衡机动决策模型,得到最优的混合策略。最后,通过仿真试验验证了所提出的协同动态机动决策算法的优越性,有效提升了无人机集群协同对抗能力,为无人机集群指挥、决策及控制的智能化发展提供了理论及应用基础。

关键词:无人机集群;协同对抗;动态博弈;非零和博弈;纳什均衡

中图分类号:O225文献标识码:ADOI:10.19452/j.issn1007-5453.2022.02.012

随着无人机技术的快速发展,无人机已广泛应用于农业、航拍、测绘、运输、救援甚至是军事领域。在此基础上,无人机集群技术也得到了一定的发展,如无人机集群灯火表演、野生动植物观察等[1-6]。在无人机集群对抗领域,目前相关研究仍处在初期发展阶段,其主要的难点在于如何摆脱传统人为的路径规划,进而实现集群自身的智能化决策和自适应协同。此外,如何在动态的对抗过程中实现协同机动对抗智能决策的优化也是无人机集群协同对抗中的一个重要问题。

目前,无人机集群对抗领域已取得一些建设性的研究成果。惠一楠等[7]利用不完全信息动态博弈模型,使用免疫进化算法求解模型的贝叶斯纳什均衡解,得到无人机的最优策略序列。姚宗信[8]通过建立基于多智能体的多机协同作战任务决策方法结构模型,运用基于神经网络和静态博弈模型的多机协同对抗多目标任务决策方法,实现了多机协同对抗多目标任务决策方法仿真研究。近几年,无人机集群协同对抗开始使用态势实时分析和动态博弈的思想开展研究。邵将等[9]通过建立多无人机协同空战连续决策过程,使用贝叶斯推论对空战态势进行实时评估,并以此设计的决策规则进行机动决策。陈侠等[10-11]通过建立无人机的能力函数,建立多无人机协同打击任务的攻防博弈模型,给出了有限策略静态博弈模型与纯策略纳什均衡的求解方法。由上述研究可以看出,针对无人机集群的能力和实时态势分析是集群动态协同对抗的模型基础[12]。但由于对抗双方目标策略的不同,实际上双方的对抗并不是零和博弈,而更符合非零和博弈的特征。

基于上述分析,本文针对无人机集群协同对抗问题,通过双方的态势分析对决策集进行多属性评价和目标策略选择,建立双方的动态非零和纳什均衡机动决策模型。进一步通过改进的粒子群算法,实现非零和博弈模型的纳什均衡解的高效计算,得出双方的最优混合策略。最后,通过数值仿真试验验证所提方法的有效性。

1动态非零和纳什均衡机动决策建模

1.1机动策略

1.3.3动态纳什均衡决策模型

上两节给出了F和G双方单位时间的非零和博弈过程。由于双方的博弈为动态过程,因此需要建立动态的纳什均衡决策模型。主要的步骤分为以下几步:(1)在给定双方初始位置姿态和性能参数后,确定双方对抗的总时长T、当前时间t以及单次博弈的单位时长Δt;(2)根据当前双方的位置姿态,在不同的策略组合下,计算双方个体间距离优势、速度优势以及角度优势,得到整体的总体态势函数,根据当前的集群策略目标计算双方的收益矩阵,建立非零和博弈模型;(3)求解非零和博弈模型的纳什均衡解得出双方的最优混合策略;(4)根据求得的混合策略随机得出下一步的策略,得到下一步的位置和姿态;(5)将时间更新为t +Δt,判断是否t +Δt > T或双方已达到停止博弈条件(如一方以实现绝对优势条件);如果是,进行第(6)步;如果不是,进行第(2)步;(6)博弈对抗结束,判断博弈结果。

2动态非零和纳什均衡策略的优化

上一节已经给出了无人机集群协同对抗的动态非零和纳什均衡机动决策模型及其具体步骤。如1.3.3节所示,步骤中最核心的问题是第3项“求解非零和博弈模型的纳什均衡解得出双方的最优混合策略”,即為求解最优化问题式(20)。

在实践中,粒子常常陷入局部最优,所提出的参数优化算法应该能够改变其原始轨迹,以适应性地探索新的解空间。式(23)中所用的rand1,rand2随机数,无法克服随机进化搜索中的盲目性,无法进一步实现粒子的高效搜索。近年来,许多研究表明,如果粒子收敛太快,它们将在几代内局部最优收缩[15]。这种现象将导致个人之间相似的搜索行为,并导致多样性的丧失。如果粒子被困在局部区域,则由于它们相似的搜索行为和缺乏自适应检测能力,它们将很难跳出局部最优。为了提高随机搜索的多样性,在改进的粒子群算法中我们使用Levy过程作为随机搜索的随机过程。Levy过程是比Brownian运动、Poisson运动更广泛的一类随机过程,属于一类重尾过程,现已广泛应用于搜索、经济、金融等数学模型,具有较强的漂移搜索能力。因此,在已有的模型中加入Levy过程能提高算法的随机搜索能力,改善PSO算法的性能,引导粒子移动到希望成为全局最优值的不同区域,并更广泛地探索求解空间。

综上所述,在本节中,提出了一种具有Levy搜索的改进方法,该方法为

3无人机协同动态机动决策算法的仿真试验

前两节提出无人机协同动态机动决策算法模型及优化方法。这一部分将给出一项仿真数值试验,并通过试验验证所提方法的有效性。该仿真试验运用1.3.3节中的对抗博弈步骤,其中第3项“求解非零和博弈模型的纳什均衡解得出双方的最优混合策略”使用是第二部分提出的改进粒子群优化(MPSO)方法。

从初始条件可以看出,对抗开始阶段G在角度态势上具有优势。在随后的40步对抗中,可分为如下有三个阶段,其对应的三维对抗过程如图1~图7所示。红色实线表示F1的路径轨迹,红色虚线表示F2的路径轨迹,蓝色实线表示G1的路径轨迹,蓝色虚线表示G2的路径轨迹。“*”显示初始位置,“△”显示当前位置。当一方的达到绝对优势或到达40步对抗上限时,对抗结束。

第一阶段是态势均衡阶段(见图1、图2),双方从初始位置出发在第5步出现对抗态势,其中F1和G1相互靠近对抗,F2和G2相互靠近对抗,如图1所示。

第一阶段从第5步~第11步的过程中,F1和G1相互靠近对抗,其中G1的态势优势更大;F2和G2相互靠近对抗,其中F2的态势优势更大。第11步的对抗过程图如图2所示。

第二阶段是协同对抗阶段(见图3~图5)。在第16步时,和G1对抗中的F1仍处在劣势,并做出了协同F2靠近对抗G2的决策,如图3所示。

图4为第21步时,F1协同F2加速靠近G2的过程。而G1在靠近F1的过程中被后者摆脱。这也导致G1在之后的对抗过程中一直处在距离态势的劣势。

图5为第28步时,F1彻底摆脱G2,并协同F2靠近对抗G2的过程。此时G1距离态势的劣势仍未能弥补,局部F以二敌一夹击G2,形成了总体态势的优势。

第三阶段是绝对优势阶段(见图6、图7),这一阶段F一直保持总体态势的绝对优势。图6为第32步的对抗过程,其中F持续高速以二敌一夹击G2,G1仍存在较大的距离态势,F保持着总体态势的绝对优势。

图7为第35步时双方的对抗过程,从图中的整体态势可以看出,双方的形势和图6近似,F仍然保持着总体态势的绝对优势。因此,对抗过程结束。

从如上的仿真对抗过程可以看出,F在初始位置状态不占优势的情况下,利用本文提出的协同动态机动决策算法实现了无人机集群协同对抗决策的优化,并从16步开始主动改变策略逐步扭转了双方的对抗态势。这也验证了所提出的无人机协同动态机动决策算法的有效性和优越性。

为进一步验证本文模型及方法的有效性,本文采取5对5的集群对抗试验仿真。F使用的是本文提出的决策算法,G使用基于最大最小的纯策略法。图8~图10给出了双方5对5协同机动对抗的仿真结果。第一阶段是态势均衡阶段,双方具有态势相同的初始条件,图8为第6步的对抗过程,F和G在第一次交锋之后调整姿态进行下一阶段的对抗。第二阶段是协同对抗阶段,图9为第12步的对抗过程,G采用纯策略重点追击F的劣势个体,两架无人机追击F4,3架无人机追击F5;F采用混合策略,保持策略的灵活性和对抗的协同性,处在劣势的F4和F5相互靠拢,将G无人机吸引集中后,F1、F2、F3协同从后方夹击G,形成如图10第25步的对抗态势。第25步及之后即为第三阶段绝对优势阶段,F对G实现后方及侧方的夹击,形成了绝对的态势优势。该仿真结果验证了本文无人机协同动态机动决策算法的有效性和优越性。

4结论

本文针对无人机集群协同对抗问题,基于实时态势分析建立了动态非零和纳什均衡机动决策模型,给出了动态决策步骤和改进的粒子群优化方法,实现了无人机集群协同对抗的仿真和验证。首先,针对无人机集群建立决策集,并通过距离、速度、角度优势建立总体态势函数,根据不同目标策略实现了集群博弈收益函数的确立;其次,建立了動态非零和纳什均衡机动决策模型,给出了动态决策过程的步骤;再次,为了实现最优混合策略对应的纳什均衡解的求取,提出了改进的粒子群优化算法,提高了算法的计算效率;最后,运用动态非零和纳什均衡机动决策模型,本文给出了一个2对2无人机集群协同对抗仿真试验,验证了所提方法的有效性。

本文在研究中使用的是完全信息,即集群双方均可以实时获取对方位置和状态,然而在实际对抗过程中会出现不完全信息的情况,这将是我们下一步研究的重点问题。

参考文献

[1]Zong Q,Wang D,Shao S,et al. Research status and develop-ment of multi UAV coordinated formation flight control[J]. Journal of Harbin Institute of Technology,2017,49(3):1-14.

[2]Wang Y,Zhang W,Li Y. An efficient clonal selection algorithm to solve dynamic weapon-target assignment game model in UAV cooperative aerial combat[C]// 2016 35th Chinese Control Conference(CCC). IEEE,2016.

[3]Zhou S,Yin G,Wu Q. UAV cooperative multiple task assignment based on discrete particle swarm optimization[C]// 2015 7th International Conference on Intelligent HumanMachine Systems and Cybernetics. IEEE,2015.

[4]谷青范,邓平煜,董海勇,等.面向协同飞行的航空电子系统安全性分析技术研究[J].航空科学技术, 2019, 30(12): 59-65. Gu Qingfan, Deng Pingyu, Dong Haiyong, et al. Research on safety analysis technology of avionics system oriented for collaborative flight[J]. Aeronautical Science & Technology, 2019, 30(12): 59-65. (in Chinese)

[5]杨春宁,杜黎明,李春.未知区域无人机协同搜索方法及效率分析[J].航空科学技术, 2019,30(10): 56-63. Yang Chunning, Du Liming, Li Chun. Methods and efficiency comparison of UAV swarms collaborative search in unknown area[J]. Aeronautical Science & Technology, 2019, 30(10): 56-63. (in Chinese)

[6]姜延欢,杨永军,李新良,等.智能无人系统环境感知计量评价研究[J].航空科学技术, 2020, 31(12): 80-85. Jiang Yanhuan, Yang Yongjun, Li Xinliang, et al. Research on environmental perception metrology and evaluation technology of intelligent unmanned system[J]. Aeronautical Science & Technology, 2020, 31(12): 80-85. (in Chinese)

[7]惠一楠,朱華勇,沈林成.无人机攻防对抗不完全信息动态博弈方法研究[J].兵工自动化, 2009(1):4-7. Hui Yinan, Zhu Huayong, Shen Lincheng. Study on dynamic game method with incomplete information in UAV attackdefends campaign [J].Ordnance Industry Automation, 2009(1): 4-7. (in Chinese)

[8]姚宗信.基于多智能体的无人作战平台多机协同对抗多目标任务决策方法[J].航空科学技术, 2008, 19(3): 20-24. Yao Zongxin. Mission decision method of multi-aircraft cooperative attack multi-object in UCAV based on multi-agent[J]. Aeronautical Science & Technology, 2008, 19(3): 20-24.(in Chinese)

[9]邵将,徐扬,罗德林.无人机多机协同对抗决策研究[J].信息与控制, 2018, 47(3):93-100. Shao Jiang, Xu Yang, Luo Delin. Cooperative combat decisionmaking research for multi UAVs[J]. Information and Control, 2018, 47 (3): 93-100. (in Chinese)

[10]陈侠,李光耀,赵谅.多无人机协同打击任务的攻防博弈策略研究[J].火力与指挥控制, 2018, 43(11): 17-23. Chen Xia, Li Guangyao, Zhao Liang. Research on UCAV game strategy of cooperative air combat task[J]. Fire Control and Command Control, 2018, 43 (11): 17-23. (in Chinese)

[11]陈侠,刘敏,胡永新.基于不确定信息的无人机攻防博弈策略研究[J].兵工学报, 2012, 33(12): 1510-1515. Chen Xia, Liu Min, Hu Yongxin. Research on attack defense game strategy of UAV based on uncertain information[J]. Acta Armamentarii, 2012, 33 (12): 1510-1515. (in Chinese)

[12]李寶森,王浩军,穆仕博.基于本体建模的态势推理[J].航空科学技术, 2021, 32(2): 80-90. Li Baosen, Wang Haojun, Mu Shibo. Situation reasoning based on ontology modeling[J]. Aeronautical Science & Technology, 2021, 32(2): 80-90. (in Chinese)

[13]王昱,章卫国,傅莉,等.基于精英改选机制的粒子群算法的空战纳什均衡策略逼近[J].控制理论与应用, 2015, 32(7) : 857-865. Wang Yu, Zhang Weiguo, Fu Li, et al. Nash equilibrium strategies approach for aerial combat based on elite re-election particleswarmoptimization[J].ControlTheoryand Applications, 2015, 32(7): 857-865. ( in Chinese)

[14]Zhang Q,Jia H,Predictive current control based on improved particleswarmoptimization[J].Information Technology,2019,66(5):66-70.

[15]Marchesoni M,Calvini M,Carpita M,et al. PSO-based selfcommissioning of electrical motor drives[J]. IEEE Transactions on Industrial Electronics,2015,62(2):768-776.

[16]Zulqarnain R M,Saeed M,Ali B,et al. Application of interval valued fuzzy soft max-min decision making method[J]. International Journal of Mathematics Research,2020,9(1):11-19.

Research on Cooperative Confrontation of UAV Cluster Based on Dynamic Non-Zero-Sum Game

Liu Sha1,Zhang Shuo2,Liu Lu2

1. Equipment Project Management Center of Air Force Equipment Department,Beijing 100038,China

2. Northwestern Polytechnical University,Xi’an 710072,China

Abstract: UAV cluster cooperative confrontation is a hot issue in domestic and international academic research, and dynamic maneuver decision-making is one of the most important research fields of UAV confrontation. In this paper, a decision algorithm based on dynamic non-zero-sum game for UAV cluster cooperative confrontation is proposed. Firstly, the decision set of both sides is determined, and the situation advantage of both sides is constructed by the maneuver factors such as angle, speed and distance. Secondly, the multi-attribute evaluation of UAV cluster maneuver options is carried out, and the dynamic return matrix of both sides is further calculated, and the dynamic non-zero-sum Nash equilibrium maneuver decision-making model is established. Then, an improved particle swarm optimization (PSO) algorithm is proposed to efficiently solve the dynamic non-zero-sum Nash equilibrium maneuver decision-making model and obtain the optimal hybrid strategy. Finally, the superiority of the proposed algorithm is verified by simulation. This paper effectively improves the cooperative confrontation ability of UAV cluster, and provides a theoretical and application basis for the intelligent development of UAV cluster within command, decision and control.

Key Words: UAV cluster; cooperative confrontation; dynamic game; non-zero-sum game; Nash equilibrium

Received: 2021-05-10;Revised: 2021-09-20;Accepted: 2021-11-30 Foundation item: Aeronautical Science Foundation of China (201955053003)