基于可计算任务树的人机混合智能任务规划新范式

2023-04-24 11:26刘东红

指挥与控制学报 2023年1期

刘东红

1.军事科学院北京 100091

现代战争是体系与体系的对抗,战场空间向陆、海、空、天、网、电高维拓展,诸军兵种一体化联合作战成为基本作战形态. “分布式杀伤”“多域作战”“作战云”“蜂群战”“算法战”“马赛克战”等新型作战概念不断涌现. 作战复杂性、概然性、多维性等特征日益突出,指挥决策难度呈指数级增长,复杂战场指挥决策的快、准、精已成为赢得战争主动权的决定性因素[1]. 战场信息的爆炸性增长、战场态势的瞬息万变、战争节奏的陡然增强,对指挥决策的时效性、准确性、灵敏性提出了更高的要求. 随着跨域多兵种联合作战的快速发展以及自主无人装备的大量运用,智能化任务规划是未来战场指挥决策的重要手段[2].

传统任务规划中,机器主要开展一些辅助计算工作,缺乏求解复杂问题的能力. 军事博弈对抗问题面临决策空间大、信息不完全、对抗时间长、对手不确定等难点. 运筹优化等传统算法难以求解,迫切需要引入智能化的方法构建高质量决策模型. 人工智能技术的迅猛发展为任务规划提供了新的推动力.2016年AlphaGo 在围棋游戏中击败人类顶级选手,掀起智能博弈对抗算法研究高潮. 2017年AlphaZero实现不依赖于人类经验的自主学习.2019年AlphaStar在星际争霸游戏中超过人类玩家的水平,显示出智能算法在解决非完全信息复杂对抗问题的巨大潜力[3].

然而现有的大多数智能算法仅适用于问题边界清晰、判定规则明确以及问题规模有限的场景[4]. 指挥决策面临现实环境更为复杂、问题空间更为庞大、行动效果不确定性更强,存在行动风险与收益难以预估、数据难以获取等问题[5]. 任务规划与指挥员直觉、知识、经验乃至性格等方面息息相关,需要感性与理性有机结合. 形式化表达指挥员决策意图,并将指挥艺术与机器学习方法相结合,是任务规划发展重点关注的问题[6].

人机混合是实现智能化任务规划的重要途径.目前,关于人机混合的研究大多停留在理论层面,具体到任务规划领域主要有3 个方面的问题：1）人与机器都能够参与的规划方案如何表示；2）人机混合智能任务规划由哪些部分组成；3）智能算法与人如何协同开展任务规划. 围绕这些问题,本文提出一种人机混合智能任务规划范式,并对其功能组成、运用模式和关键技术等方面进行了分析和介绍,推动任务规划智能化的发展和落地.

1 国内外研究现状

1.1 任务规划系统发展现状

20 世纪70年代以来,以美军为代表的西方军事强国已建立包含战略、战役和战术等多个层级的任务规划系统,并在近几场高技术局部战争中进行了实战验证. 美军代表性的任务规划系统包括联合战略规划系统、联合作战规划与执行系统、联合任务规划系统等[7]. 从技术层面上看,传统任务规划系统以人为主,机器主要负责辅助计算问题. 按照任务规划流程,将构想逐层分解为海上、空中和陆上等多种子任务,并进一步分解为更为细致的具体行动. 结合贝叶斯推理、Petri 网等技术,利用各类建模工具进行状态表示,运行整数规划、蚁群优化算法等传统运筹学方法实现航路规划、火力目标分配等战术行动的规划. 最终形成以人设计为主的联合行动方案[8].

随着人工智能技术的兴起,美军不断寻求将人工智能技术和任务规划进行结合[9].早在2007年,美国国防高级研究计划局（Defense Advanced Research Projects Agency,DARPA）启动“深绿”计划,意图通过多模草图和语音识别等技术,辅助指挥官进行快速决策. 然而,直到2014年项目仍然没有达到预期,其主要问题在于机器难以理解战场态势并且难以应对多变的对手等[10]. 2016年,美陆军启动“指挥官虚拟参谋”项目,为陆军指挥官及其参谋制定战术决策提供从规划、准备到执行全过程的决策支持. 2018年,DARPA 战略技术办公室发布“指南针”计划,通过衡量对手对各种刺激手段的反应来弄清对手意图,进而为行动方案的提供正负两方面的权衡[11]. 2020年美空军开展先进战斗管理系统演习[12],开发智能辅助决策软件“适应性跨域杀伤网”,短时间内可向指挥员推荐数千种战术方案[13-14]. 2021年起,美空军发起“今夜战斗”计划,利用人工智能技术开展辅助决策,大幅度缩短空袭行动决策时间. 此外,美军大量布局各类人工智能与任务规划结合的项目,例如美海军陆战队的“雅典娜”项目、格鲁曼公司承担的“破坏者”智能兵棋推演等项目[15]. 从研究现状来看,人工智能技术运用于任务规划已是大势所趋,但目前还主要停留在研究试验阶段,并且主要运用于战术场景,未来将逐步推广到更为复杂、规模更宏大的战役场景中[16].

1.2 人机混合决策技术研究进展

机器与人类认知的协作竞争是人工智能发展的一个重要驱动力. 伴随着技术的进步,人与机器的关系也在发展变化. 这里从人机关系发展的角度对几个常见的概念进行辨析. 一是人机交互,指的是以一定交互方式完成人与机器的信息交互,例如：手势识别、语音识别、眼动跟踪等. 二是人机协作,指的是人和机器共享工作空间并同时进行作业,强调机器作为人的助手开展工作. 三是人机混合,在人机协作基础上,更多体现人与机器的双向促进与交流. 四是人机融合,指的是促进人和机器有共同的认知,包括心理情感等方面的因素[17-18]. 对于军事应用,一方面为了充分的发挥机器的作用；另一方面又要保持人的主导地位,使用人机混合智能相对较为准确.

关于人机混合决策技术的研究,2017年,谷歌宣布“人类与AI 研究”的计划,用于探索更有效的人机合作模式[19]. 2020年,位于西雅图的艾伦人工智能研究所发布人机协作猜图游戏,用于测试机器与人类的合作能力[20]. 2021年DeepMind 提出人机协作决策新方法虚拟合作,基于该方法能够训练出适应不同选手风格的智能体,用于配合人类完成解谜游戏[21]. 国内关于人机混合决策技术也有一些探索,曾大军等对机器行为与人机协同决策理论和方法进行了探讨,并指出了该领域未来的重要研究方向和需要研究的科学问题[22]. 2022年朱松纯团队提出了一个可解释的人工智能系统,并展示了机器与人类实时沟通完成一系列复杂的人机协作任务[23]. 综合来看,目前关于人机混合决策方法的研究主要在于概念和机理的探索,尚未形成明确的技术路线和有效的成果.

2 可计算任务树驱动的智能任务规划方法

范式一般用来表示常规学科所赖以运作的理论基础和实践规范. 在具体专业领域,范式可以用来指代所要研究的基本问题、基本手段以及所涉及的框架、方法和应用[24]. 技术的变革往往带来研究范式的变化. 当前,智能学习方法的飞速发展给各行业带来了极大的变革,任务规划也不无例外地结合智能技术的运用创新新的范式. 本文通过对任务规划核心问题及传统范式进行分析,构建以可计算任务树为核心的人机混合智能任务规划范式.

2.1 任务规划问题分析及传统范式

任务规划是指挥员及其指挥机构依据上级意图及敌情、我情、战场环境等信息,形成对作战进程的总体设计和具体安排. 该过程的本质是在规模、地域、时间、效果等条件约束下,判断可能情况、分解总体任务、划分任务阶段、分配资源、设计行动方法. 最终形成能够满足相应约束条件的多套方案,并通过推演评估进行方案优选,为后续行动实施提供指导和依据. 其基本过程可以概括为受领任务、构想设计、拟制方案、优选评估和形成计划等,如图1 所示. 任务规划的核心是方案生成,这也是人与机器共同作用的主要环节. 本文重点围绕方案生成中的人机合作模式进行分析和研究.

图1 任务规划基本流程分析Fig.1 Basic flow analysis of mission planning

传统的任务规划是一种以人为主,机器提供数据支持和简单计算的求解范式,如图2 所示. 具体而言,指挥人员将根据自身经验,推理、演绎未来战场变化趋势,设想可能情况,设定任务阶段,分解各阶段子任务、目标、兵力及资源需求、组织协同关系及行动时序. 由相应信息系统提供综合情报（当前及历史敌情、我情、战场环境数据）,计算分析目标打击所需弹药、平台等,规划行动路径及区域. 通过人机配合,逐步将文本形式的构想细化为以图、表等形式表征的方案计划,随后经过反复推演,对方案计划中的矛盾问题进行修正完善,对不同方案进行评估优选.

图2 传统以人为主的任务规划求解范式Fig.2 The solution paradigm of traditional human-oriented mission planning

不难发现,在传统的任务规划问题求解范式中,对于谁来打、怎么打等策略性问题都是由人进行构思,机器主要负责数据支持和定量计算,这种范式存在的主要问题包括: 1）时效性不足,对抗节奏加快,准备时间大幅缩短,传统以人为主的任务规划求解范式难以满足时效性要求. 2）精确性不足. 现代战争所涉及装备类型、手段多样,人工作业难以保证各种力量协同调度的精确性要求. 3）充分性不足,战场不确定性因素增加,人工作业难以充分考虑战场变化.4）适应性不足,指挥人员大量精力用于各种力量的时空频冲突消解工作,难以专注思考更有效的用兵策略,导致方案适变性不足.

此外,在方案计划表示上,大多数任务规划系统采用了图、表等表示方法,具有较好的直观性,但也存在不足: 1）按时间线对各任务进行编排,难以描述除时间以外的任务触发条件. 2）这种表示方法更加侧重于航路规划等具体模型计算,缺乏对高层级任务的抽象与建模. 3）缺乏任务间的依赖关系描述,对任务的调整修改容易造成逻辑冲突. 随着技术的发展,有些系统正在尝试提升机器辅助任务规划能力,但大多都处于一定量级上,多场景、大规模支持能力仍然较弱.

2.2 人机混合智能任务规划新范式

随着智能技术的快速发展,以强化学习为代表的智能学习方法,在具有时间长、兵种多、信息不完全等特点的复杂游戏类博弈问题上表现出卓越的性能. 这意味着机器可在简单模型计算之上的更大粒度层面解决任务规划的部分问题. 而传统以图表为代表的方案表示方法在人机合作任务分解与组织上缺乏良好的支撑,制约着智能方法的注入与运用.

本文提出一种以可计算任务树为核心的人机混合智能任务规划新范式,如图3 所示. 可计算任务树是一种人与机器都能参与的形式化手段. 其继承了行为树层次性、模块化和可复用性等特点,具有良好的任务分解和组织功能. 指挥员可按照思维习惯进行构想和方案设计. 机器可自动识别、执行以及完善方案.系统读取人拟制的部分任务树方案后,利用智能算法强大的问题求解能力,基于虚拟对抗环境开展模拟训练,学习生成性能优越的智能模型. 充分发挥机器强大的探索能力,自动生成大量多样化的完整任务树方案并进行评估优选. 根据评估结果决定是否进行新一轮的调整循环,直至得到符合要求的方案.

图3 基于可计算任务树的人机混合智能任务规划范式Fig.3 Human-machine hybrid intelligent mission planning paradigm based on computational mission tree

基于可计算任务树,将任务规划中涉及的各类主体、动作进行形式化建模,建立了包含阶段、任务、行动、条件等语义信息的节点表示. 不同节点表示不同层级任务,指挥员可将总体任务按照不同节点语义进行分解. 针对分解后子任务之间的关系,设计了任务间并行、顺序以及选择逻辑关系表示,用于指挥员对任务按一定转换条件进行组织. 基于可计算任务树的表示方法,驱动方案在计算机上的自动运行,形成“人能看懂、机器能算”的方案计划表征形式,在一定程度上提供了跨越指挥艺术到机器精算细算的技术鸿沟的方法途径.

智能算法训练主要用于补全完善任务树方案.指挥员基于可计算任务树分解得到多个子任务. 子任务的具体实现往往涉及多种力量的综合调度、分配和规划,需考虑环境的动态性以及与对手策略的多变性. 这是一种规模有限的博弈类问题,人短时间内难以给出合理的求解方案,而这恰恰是当前智能学习算法所擅长的. 引入智能学习方法并开展模拟训练,自动生成可求解一定复杂程度问题的智能模型,支撑任务树方案的补全和优化. 充分吸收当前关于智能模型可解释性、迁移和泛化等方面的前沿研究成果,支撑在实际任务中的应用和推广.

虚拟对抗环境是可计算任务树执行与智能算法训练的载体. 与传统仿真不同的是,虚拟对抗环境以任务树规划方案为牵引,需具备任务树解析与执行能力,打通任务树与仿真模型之间的交互链路. 在支撑智能算法训练方面,拥有丰富对手战法样例库,根据想定灵活调取不同的样式与行动方案,为智能算法提供多样化的对手模型. 同时,为适应当前智能算法海量模拟训练的特点,构建高性能仿真运行引擎,根据任务需求加载不同粒度仿真模型,极大提高仿真模拟运行速度.

2.3 人机混合智能任务规划应用模式

本节给出了基于可计算任务树的人机混合智能任务规划运行模式. 具体地,基于可计算任务树,按照人和机器所承担任务区分为初级、中级和高级3种运行模式. 如图4 所示,阴影部分表示机器参与的部分.

图4 基于可计算任务树的人机混合智能任务规划运行模式Fig.4 Running mode of human-machine hybrid intelligent mission planning based on computational mission tree

初级模式. 人工编辑构想和方案逻辑,机器落实具体行动. 指挥员受领任务后,以可计算任务树为工具进行构想和方案设计,由机器负责具体行动的落实. 这里的具体行动侧重于装备级战术行为,例如:机动、侦察、打击等战术规划. 在任务树中,通过任务模板确定行动的必要因素,例如: 力量编成、打击目标、对抗范围等,由智能算法基于虚拟对抗环境展开训练得到智能模型. 将其返回给行动节点形成完整方案. 该模式下行动节点问题规模较小,智能模型训练难度小、收敛快,可快速配合指挥员完成方案生成,适合快速求解的小规模战役和战术任务规划场景. 该模式的缺陷在于机器作用范围小,人还是方案生成的主体,限制了智能算法能力的注入与大规模算力的发挥,约束了机器对更多可能方案的探索.

中级模式. 人工编辑构想和部分方案,机器落实子任务. 指挥员受领任务后,以可计算任务树为工具进行构想设计,并拟制部分任务树,机器负责子任务的生成. 这里子任务层级高于初级模式中的行动,如多编队协同攻击、协同防御等. 在实际运用中,为了增强方案的可信性,需运用可解释性技术将子任务对应的智能模型转化为初级模式对应,与任务树骨干一起形成完整的方案. 这种模式下,机器参与偏中等粒度的任务训练. 机器参与程度有了较大的提升,可以辅助人由部分方案生成完整方案. 所不足的是人依然需要对方案的主体部分进行设计,且需要划定子任务问题的具体边界,机器才可开展智能模型训练,对人依赖性依旧较强. 随着子任务问题规模扩大,智能模型训练难度会急剧上升.

高级模式. 人给出目标,机器开展自主规划. 指挥员受领并明确任务后,机器根据目标和任务兵力,自主开展方案生成. 在方案生成过程中发挥规范化探索能力,基于一定的评估标准,引导机器开展多样化的探索,自主演化形成不同类型的任务树方案. 该模式下,人机运行过程是解耦的,指挥员只要明确初始任务要素,机器自动地形成方案. 指挥员不需要介入机器的运行过程,且能有效利用机器算力对更多可能性进行探索. 然而,由于问题规模急剧扩大,对智能模型训练提出了严峻挑战,同时方案自主演化难度高,需要关键技术上的突破.

初级应用模式易于实现,能够快速生成能力. 中级应用模式由于算法的可解释性难题,是智能任务规划当前研究的重点. 高级应用模式由智能算法自主进行方案生成与演化,面临问题空间极大,还有待智能技术的进一步突破.

2.4 人机混合智能任务规划典型运行流程

以人机混合智能任务规划中级应用模式为例介绍的规划方案生成流程,如图5 所示. 根据智能学习特点,人机混合智能任务规划区分应用态和训练态.在运行流程中,根据运行对象的不同区分为人、算法和环境3 个部分. 任务规划流程由人发起,经过算法在环境中的智能模拟,产生最终的任务树方案. 人、算法与环境构成任务规划的大循环,各部分存在自己的运行小循环. 在应用态,由人在宏观全局上对总体任务进行分析,对总任务进行初步分解后形成可计算任务树骨干,智能算法通过自动解析获取子任务要素,并对子任务进行建模,明确持续时间、行动空间范围、行动目的等,选择合适的智能模型,通过模拟对抗完成智能模型向子树的转化,形成带有具体行动规划的可解释任务树方案,并返回给算法环节进行方案的优选评估. 这个过程可进行多次,直至找到一定数量满足评估指标的方案.

图5 人机混合智能任务规划典型运行流程Fig.5 Typical running flow of human-machine hybrid intelligent mission planning

人机混合智能任务规划的训练态,主要用于生成大量应用态可调用的子任务智能模型. 其运行流程也由人发起,先基于可计算任务树进行任务分析和分解,明确子任务边界后开展智能算法训练. 模拟训练是智能算法求解的基本手段. 构建支撑可计算任务树与算法训练的虚拟对抗环境,自动开展博弈对抗,以高性能仿真推演引擎为支撑,设定模拟训练次数,生成对应子任务智能模型. 以智能模型评估决定是否再次运行算法流程. 将最终得到的子任务智能模型由人进行确认,并开始下一个子任务模型的训练流程.

3 人机混合智能任务规划关键技术

围绕基于可计算任务树的人机混合智能任务规划范式,从可计算任务树方案演算、人机混合智能博弈对抗算法训练和任务树驱动的虚拟对抗环境构建3 个方面对关键支撑技术进行分析,如图6 所示.

图6 人机混合智能任务规划关键技术Fig.6 Key technologies of human-machine hybrid intelligent mission planning

3.1 可计算任务树方案演算

可计算任务树为人机混合智能任务规划提供了一个有效的桥梁. 围绕可计算任务树,有3 个方面问题需要研究. 1）如何有效的开展任务分解以实现人机混合智能增强. 任务分解往往需要人类的经验知识,可开展基于知识图谱、规则引擎等工具的知识规则组织运用研究,支撑人机混合任务的有效求解. 针对人机混合作双向交互机制,研究人类先验知识注入机器学习和机器学习优化人类决策的方法,在强对抗环境中构建人机协同决策动态演化机制,逐步提升人机混合的决策水平；2）任务树中条件转换的自动判断. 构建战场态势的形式化描述,综合运用图形化、时序化以及威胁度形式化等建模方式对实时态势进行表征计算,并通过机器进行自动理解和判断,进而决定子任务的执行与转换；3）任务树方案自动演化机制研究. 人机混合智能任务规划重要目标是多个方案的生成,需要研究在可计算任务树基础上的方案自动演化机制,发挥机器学习算法强大探索能力,试验各种可能性,形成多样化的任务树方案,提高任务规划的效能.

3.2 人机混合智能博弈对抗算法训练

智能博弈对抗算法训练指的是运用智能技术补全方案的过程. 面向任务树分解得到的子任务,运用智能博弈对抗算法开展训练以生成对应的智能模型.主要包括3 个方面. 构建人机混合智能模型训练的算法框架,实现对人机协作任务的分解和描述. 封装与虚拟对抗环境交互的细节,为不同类型智能算法训练提供统一的标准化接口. 设计智能算法集成及组织运用模式,根据任务特点推荐合适算法,支持不同算法的融合训练,为子任务模型培育提供完善的训练支撑. 研究多样化的子任务求解算法,既包括整数规划、组合优化算法、启发式算法等传统运筹优化方法,也包括深度强化学习、贝叶斯方法、支持向量机等机器学习方法. 不同的方法对应的模型形态是不一样的,包括神经网络模型、规划模型以及多项式模型等. 构建风格各异、门类齐全的智能算法库.为增强智能算法的适用性,研究智能模型的泛化培育方法. 开展模型迁移学习、模型预训练方法以及联盟训练技术研究,使智能模型能够适应实际任务的多样变化. 针对以神经网络为代表的黑箱式智能模型,开展可解释性方法研究,利用统计学、梯度还原以及网络白盒化等方法将其转译为可计算任务树的格式,形成可解释的任务树方案.

3.3 任务树驱动的虚拟对抗环境

任务树驱动的虚拟对抗环境主要包括3 个方面的关键方法研究. 1）嵌入可计算任务树的仿真技术研究. 研究面向仿真引擎的任务树转译技术,将任务树转译为仿真引擎能够理解的形式. 开展任务树驱动的仿真推演流程控制机制研究,使模拟仿真推演过程能够精准覆盖任务树的每个子树单元和每个节点；2）研究基于仿真模拟的虚实态势联动技术. 在仿真引擎的推演过程中,通过虚实联动的方法加强人对机器推演的理解,同时提升机器对人的知识转化效率. 研究客观环境的数字孪生战场构建技术,使现实客观环境能够被机器准确理解,并同步复刻为引擎中的虚拟战场,作为精确推演和智能模型训练数据来源的有力支撑. 开展基于平行学习的数字态势扩容技术研究,为人机混合智能模型的训练提供大容量高质量的训练样本；3）高性能的仿真引擎技术. 主要研究仿真引擎加速技术,通过优化模型计算线程,增加模型计算并行度提升引擎速度. 研究多粒度模型,针对不同任务场景,选择不同粒度模型,降低模型运算开销,进而提升仿真模拟速度.

4 结论

本文介绍了一种基于可计算任务树的人机混合智能任务规划范式. 在人机混合方案表示上,采用了可计算任务树技术,实现了人机对规划方案的形式化表征、操作与编译计算. 在人机混合任务规划架构上,提出了可计算任务树、智能算法训练和虚拟对抗环境3 个核心组成部分,实现了从方案设计、方案生成到方案改进调优的无缝衔接. 针对人机混合任务规划问题,提出了初级、中级和高级3 种使用模式,并对中级模式下人机协作的训练态和应用态进行了重点讨论. 根据该范式的组成结构,对相应的关键支撑技术进行了介绍.

该范式给出了人机混合智能任务规划一种可行的实现途径,其核心优势在于一定程度上弥合了人的指挥艺术表达与机器的算力发挥之间的鸿沟. 目前,该研究成果已在多个任务规划相关课题中开展了实验与验证,并已完成原型系统的构建,在多个典型场景下有效提升了任务规划效率. 随着智能化技术的不断发展,该范式将有力推动任务规划的智能化发展水平,持续提升指挥决策的智能辅助能力.