面向空间威胁自主规避的航天器资源调度方法

2023-04-27 02:12超,磊,元,2
空间控制技术与应用 2023年2期
关键词:机动航天器遗传算法

张 超, 王 磊, 黄 元,2

1.北京控制工程研究所, 北京 100094 2.空间智能控制技术重点实验室, 北京 100094

0 引 言

随着空间技术的迅猛发展,各国争相发射航天器抢占轨道资源,空间目标数量急剧增加,尤其是低轨大规模星座的爆发式发展,使有限的轨道空间变得愈加拥挤.图1显示了自1957年以来编目、在轨和再入空间目标数量的变化情况[1],而这仅为被空间监测系统所监测到的空间目标数量.伴随着空间目标数量的增长,航天器异常接近和碰撞等空间事件时有发生,更加剧了空间环境的复杂性和危险性.

图1 1957以来空间目标数量变化

针对空间目标异常接近的规避问题已有一定的研究.针对无自主机动能力的空间非合作目标,规避的主要思路是假设空间非合作目标和航天器本体在初始时刻的位置、速度、姿态等基本导航信息已知,通过设置和计算碰撞概率和终端脱靶量等指标,将该问题视为优化问题进行处理.王华等[2]利用碰撞概率计算制导指令加速度,得到最优规避动作方案.BOMBARDELLI[3]以最大化终端脱靶距离为优化指标,通过构建机动点与预计碰撞点的距离函数,求解当前最佳加速度方向.若考虑非合作目标的自主机动策略,则单边规划问题就变为双边追逃博弈问题,解决双边追逃博弈问题传统的方法是转换成双边优化问题,采用微分对策理论设计规避机动策略.DAN等[4]使用耦合零和微分策略设计了最小化追踪器拦截时间、最大化目标器逃逸时间的卫星拦截和碰撞避免算法.郝志伟等[5]为避免求解微分对策问题最优策略的必要条件,采用半直接配点法求解时间固定条件下的航天器追逃博弈问题.上述研究均依赖于空间非合作目标和任务航天器双方信息的完备性,实际规避过程中,需要获取空间非合作目标的意图及动力学参数等信息.轨道态势感知可实现对空间非合作目标测定轨、获取目标构型、特定部位精细识别、电磁特定探测等功能,为空间非合作目标异常接近规避提供有利信息支撑[6].然而,地面观测站所测数据精度较低,采用“星地大回路”控制方式存在弧段和窗口时空约束多、运维指控人为因素影响大、天地回路时间链长等弊端,难以对空间威胁进行实时决策,影响威胁规避效果[7].为保障航天器自主运行,航天器应具有不依赖固定地面站的自主信息系统,能够在轨自主完成各种信息的获取、传输、处理和应用等行为[8].具有自主测量设备的航天器通过对空间非合作目标的自主测定轨,进而依靠其携带的姿轨控发动机进行自主威胁规避,将有效提升规避效果[9].肖余之等[10]基于目标轨道特定给出了空间威胁目标在轨感知的感知相机精准配置方法.曲耀斌等[11]针对地球同步轨道(GEO)在轨服务的航天器自主绕飞问题提出了一种考虑太阳光照约束的GEO轨道机动策略.然而,上述工作均未考虑航天器资源的有限性,其分为软件和硬件两方面.在软件方面:未安装智能感知和自主决策软件模块的航天器,其星载计算机只运行基本姿轨控程序,这类程序往往规模较小,星载计算机在一个时钟周期内可将其全部运行一遍.然而,智能感知与自主决策软件模块包含智能算法,其规模较大,由于目前星载计算机性能的限制[12],不能在一个时钟周期内将其完全运行完毕,即一个软件需要多个时钟周期才能运行出一次结果,传统的星载软件运行方式已经不能适用于含有智能算法的航天器.在硬件方面:基于航天器的敏感器具有多种工作模式的考虑,其在不同工作模式下的性能和精度有所不同,所以需要在一次任务的不同阶段使用不同的工作模式.

先进的启发式算法采用“邻域搜索”的结构,能够在合理的时间内搜索到问题的近似最优解或最优解.得益于并行化处理机制及强大的全局搜索能力和局部搜索能力,近年来遗传算法被广泛应用于资源分配[13-14]、任务调度[15-17]等问题中.传统遗传算法的种群规模是固定的,这造成种群规模表现不合理.为此,ARABAS等[18]提出了一种根据搜索特性可变种群规模的自适应方法,但其消耗较高.为了提高寻优效率,王沣浩等[19]提出了一种逐渐缩小种群规模的遗传算法改进方法.另外,“精英保留”策略经常被应用在加速收敛方面[20].

鉴于此,本文在航天器威胁规避机动动力学模型的基础上,考虑不同软件运行速度和硬件工作模式对规避效果的影响,在航天器有限计算资源的约束条件下,以最小化任务完成所需速度增量为优化目标,建立面向空间威胁异常接近的航天器星上资源调度模型,提出一种加速收敛的改进遗传算法,并分析算法的收敛性,最后,设计仿真试验验证算法寻优结果的有效性.

1 场景描述与动力学建模

1.1 空间威胁自主规避中的软硬件资源调度问题概述

本文所研究的场景可简单描述为:任务航天器和非合作目标均以近圆轨道运行,在任务航天器不进行机动的情况下,非合作目标将在有限时间内到达任务航天器附近威胁其在轨运行安全.任务航天器利用其所搭载的态势感知模块发现空间非合作目标存在,并对其进行测定轨,同时利用其搭载的机动决策模块对轨道进行二次规划,采取多脉冲机动的方式进行威胁规避,机动到非合作目标一定距离范围内对其进行有效观测.

本文研究任务航天器在规避非合作目标的异常接近进而对其进行有效观测的过程中对航天器软硬件资源的调度.受限于体积、功耗、质量、空间辐照等客观条件的限制,星载计算机的计算资源较为有限,目前最新的S698PM星载计算机主频为600 MHz,运行内存为20 Mb[21],难以同时以最快速度运行态势感知和机动决策模块内的多个软件,同时航天器自主测量设备具有多种工作模式.软件不同的运行速度、硬件不同的工作模式将会影响态势感知和机动决策的结果.因此,在威胁规避过程中必须考虑星载计算资源的约束,合理分配有限的计算资源给多个星载软件,同时适时调整硬件设备的工作模式.

1.2 动力学建模

在本文的研究中,仅考虑任务航天器的机动行为,对于非合作目标接近任务航天器的机动策略不在本文研究范围内.本文所研究的轨道规避过程在稠密大气层外,故作出如下假设:

1)地球是以Re=6 371.11 km为半径的标准球体,地球引力常数μ=3.986 004 4×1014m3/s2,地球引力场为相对距离平方反比的完全中心引力场.

2)非合作目标以近圆轨道飞行,任务航天器在其附近,忽略地球非球形摄动、高层大气、太阳光压、日月引力等对任务航天器和空间非合作目标的影响.

3)不考虑航天器推力脉冲施加量误差.

因此,在星载感知设备有效探测范围内,可采用C-W方程描述二者的相互运动.任务航天器用质点S表示,非合作目标用质点T表示.首先对参考坐标系进行定义,假设在S、T附近圆轨道上有一虚拟动点O,以点O为坐标原点建立参考坐标系OXYZ,Z轴指向地心方向,X轴在轨道平面内且垂直于Z轴,指向参考点轨道速度方向,根据右手定则确定Y轴方向.则在参考坐标系OXYZ中,非合作目标相对点O的运动可利用C-W方程表示为

(1)

其中,xT、yT、zT非合作目标在参考坐标系内位置矢量3个分量;ω为参考轨道角速率,即点O的轨道角速率.同理,任务航天器相对点O的轨道运动方程为

(2)

其中,xS、yS、zS为任务航天器在参考坐标系内位置矢量3个分量;ax、ay、az为任务航天器的推力加速度的3个分量.

将任务航天器相对点O的轨道运动方程与非合作目标相对点O的轨道运动方程相减,可得任务航天器相对非合作目标的轨道运动方程:

(3)

其中,x、y、z为任务航天器相对非合作目标的相对位置矢量的3个分量.

(4)

根据文献[22],

对于式(4)的线性系统,其解可表示为

(5)

其中:t0为初始时刻;Φ(t,t0)为t0~t的状态转移矩阵,根据文献[23],其表达式如下;根据文献[24],Φv为速度转移矩阵,即Φ(t,t0)的最后3行.

(6)

其中,v=ω(t-t0).

由于任务航天器采用多脉冲机动,在进行轨道递推时,可认为速度增量Δv在瞬间产生,在第k-1次脉冲后到第k次脉冲前其属于无控飞行状态,故式(5)变为

(7)

根据式(7)可计算任意时刻t任务航天器相对于非合作目标的位置.

任务航天器的规避策略如图2所示,在C-W方程描述的轨道预报框架下,根据当前观测到的非合作目标位置速度信息预测非合作目标在终端时刻Td的位置,进而计算任务航天器在Td时刻期望的相对于非合作目标的有利观测位置,然后,以该观测位置为任务航天器在Td时刻的位置期望目标,求解为实现在Td时刻到达期望的有利观测位置要求当前时刻任务航天器所需施加的速度增量,最后判断是否超出任务航天器的速度增量限制,在满足速度增量限制的情况下进行轨道机动,通过循环更新非合作目标信息和修正任务航天器轨道,实现任务航天器在Td时刻到达期望位置.

图2 空间威胁规避策略

2 航天器软硬件资源描述

星载计算机操作系统属于实时系统,其所提供的服务反映最新信息状态的现实特性.为确保信息的可用性,其服务应建立在可获得的最新动态信息的基础上.假设星载计算机操作系统采用时间驱动模式,以预定时间间隔T为一个时钟中断周期,定时产生一个事件检测时钟中断.在每一个时钟中断的处理过程中,操作系统依次采集敏感器数据并据此做出相应的反应.操作系统中的任务执行具有时间限制,它体现在两方面:一是任务具有周期性,其按照一定的周期启动执行;二是任务执行有时长限制,任务在一个时钟中断周期内运行规定的时长,没有完成的任务将被暂时挂起,在下个时钟中断周期继续执行.按照完整执行一次所需的时钟中断周期数,任务可以分为单周期任务和多周期任务.按照任务间的相互依赖关系,可以分为序贯型任务和独立型任务,序贯型任务的输入依赖其他任务的输出,独立型任务的输入与其他任务没有依赖关系.当序贯型任务的被依赖任务没有最新输出时,假设该序贯型任务的输入为其被依赖任务的最近一次输出的值.另一方面,航天器上的敏感器具有多种工作模式,不同模式下其感知精度有所不同.

2.1 态势感知模块

态势感知模块包括自身轨道确定P1、自身姿态确定P2、目标发现P3、目标轨道确定P44个软件和相机H1、雷达H22个硬件.其中,{P1,P2,P3}属于独立型任务,P4属于序贯型任务.态势感知软件{P1,P2,P3,P4}完整运行一次所需的处理器时长为{T1,T2,T3,T4}.其中,{P1,P2}是单周期任务,即每个时钟中断周期内都必须完整运行一次;{P3,P4}是多周期任务,在一个时钟周期内只运行一部分,经历多个时钟中断周期完整运行一次.相机具有高低精度两个工作模式M:高精度模式下(M=1),航天器自身定姿精度高,处于高度自稳定状态,不能对非合作目标定向;低精度模式下(M=2),航天器自身姿态确定精度低,可以对非合作目标定向.

2.2 机动决策模块

机动决策模块包含轨道运动规划软件P5,其属于序贯型任务、多周期任务,其完整运行一次所需的处理器时长为T5.轨道运动规划软件以自身轨道确定和目标轨道确定软件感知到的自身和目标位置速度信息作为输入,输出航天器为完成任务而变轨所需的速度增量Δv.

2.3 信息流

航天器在威胁规避过程中的软硬件信息流关系如图3所示:相机对周围环境进行成像.自身姿态确定需要相机提供图像.目标发现软件通过分析相机的图像输出威胁目标的方位信息,并且自身姿态确定的精度影响目标发现软件的输出误差.雷达根据目标方位信息并结合自身姿态信息指向目标的方向,探测目标的位置速度.目标轨道确定对雷达提供的数据进行处理并输出目标的位置速度.自身轨道确定软件可以独立运行.轨道运动规划软件接收目标和自身的位置速度信息作为输入,输出任务航天器规避威胁所需的速度增量.

图3 威胁规避过程中的航天器软硬件信息流

3 航天器软硬件资源调度方法

3.1 调度模型

如图4所示,资源调度通过调节态势感知模块的频率和模式决定态势感知模块的输出频率和信息准确度,通过调节机动决策模块的频率决定其速度增量计算和输出频率.态势感知模块按照给定的频率和模式感知任务航天器与非合作目标的位置速度信息,并将其输出给机动决策模块,机动决策模块据此计算任务航天器的期望位置,进而求解所需的速度增量,姿轨控发动机接收所需速度增量信息喷射脉冲推力,最终改变空间态势.

图4 资源调度的作用过程

(1)优化变量

对于空间异常接近的规避问题,显然越早发现异常接近的非合作目标,越早对其实现精准定轨,越早进行轨道机动,规避效果越好.然而,由于星载计算资源和硬件模式的有限性,不能使得多类软件同时以最快速率运行,且硬件只能选择一个工作模式,故应在一个时钟中断周期内为不同软件分配合理的运行时间,并选择合适的硬件工作模式,考虑到运行时间是连续量,若将其作为优化变量搜索空间巨大,存在求解复杂、耗时长等问题.因此,本文将多周期软件{P3,P4,P5}完整运行一次所需的时钟中断周期数{c3,c4,c5}和硬件的工作模式M作为优化变量,即Var=[c3c4c5M].

(2)约束条件

在航天器软硬件资源动态调度过程中,约束模型可以表示为

(8)

其中,ti为软件Pi在一个中断周期中运行的时间,ci为Pi完整运行一次需要的中断周期数量,Tf=T1+T2为一个中断周期内必须完成的固定任务所需的时间.

(3)目标函数

根据问题模型,在航天器软硬件资源动态调度的过程中,态势感知模块在不同运行模式下误差的收敛时间有所不同,从而影响机动决策模块输出的速度增量的准确性和有效性.考虑任务航天器携带的燃料总量有限,燃料上限决定其任务寿命长短,在威胁规避过程中尽可能少地消耗燃料有利于延长在轨寿命.想要在实现有效规避的过程中节省燃料且满足计算资源约束,就要同时考虑实现有效规避且占据有利观测位置的奖励项和速度增量消耗量及计算资源超限的惩罚项.

1)有效规避且占据有利观测位置的奖励项

(9)

2)速度增量消耗和计算资源超限的惩罚项

(10)

综上,空间威胁规避任务的目标函数如下:

f=reward-punishment

(11)

其中,λ、β、γ分别为权重系数,a、b、c分别为表示不同情景下奖励的常数.

3.2 基于遗传算法进行航天器资源调度

本文提出一种用于航天器有限资源动态调度的改进遗传算法,该算法在传统遗传算法的基础上,在选择、交叉、变异部分引入“精英保留”和“劣种淘汰”两种策略.

(1)染色体编码

本文采用格雷编码[25],对优化变量实行三级映射的改进方法,实现从软件运行周期数和硬件工作模式到格雷码的应对,缩短了同等信息量下的编码长度,提高了染色体交叉和变异的效率和适应度函数收敛速率.具体如下:首先将软件运行周期数ci和硬件工作模式M映射到周期和工作模式编号空间,然后将周期和工作模式编号的进行组合,得到调度动作,再将调度动作映射到调度动作编号空间,最后将每个调度动作代号映射到含有k位格雷码的表示单元.因此,第i个表示单元的大小表示的是第i个调度动作的代号.最后可以得出整个染色体的长度是Nk,其中N是一次规避过程中进行软硬件调度动作的次数.

(2)初始化

初始种群随机生成,初始种群数量通常在50~100中间,算法在初始种群的基础上根据适应度函数进行选择、交叉和变异,从而生成下一代.

(3)适应度函数

适应度函数是评价个体和种群优劣的依据,决定了种群的进化方向,因此适应度函数的设计至关重要.为防止出现负数,强化算法选优功能,本文采用将目标函数进行线性标定的方式设计适应度函数.

Fitness=f+ξ

(12)

其中,ξ是一个比种群最差个体目标函数值的绝对值稍大的常数,目的是使种群中较差的个体适应度为正数,保证“轮盘赌”算法计算选择概率时概率值在(0,1)区间.

(4)选择、交叉与变异

选择操作模仿自然界中优胜劣汰的规则,目的是使优良染色体以较高的概率进入下一代.本文采用“轮盘赌”选择算子,对于一个适应度为Fitnessi的染色体,其在规模为NIND的种群中被选择进行进一步操作的概率为

(13)

在选择时引入“精英保留”,将上一代的最优个体直接复制到子代,同时引入“劣种淘汰”策略,将子代的最差个体直接淘汰.

交叉操作是实现染色体重组的过程,通过交换2个被选择染色体的部分基因信息,生成新一代染色体,不断迭代交叉操作,从而保证种群向更优良方向进化.本文采用“两点交叉”的交叉算子,在被选择的配对染色体中随机设置2个交差点,然后进行基因片段置换.

变异操作指随机将染色体中某位基因进行改变,其在一定程度上克服了遗传算法的早熟问题.本文采用格雷编码的“位翻转突变”算子,随机选择一个基因,其值被翻转.

在变异后再次引入“劣种淘汰”策略,将变异后新子代的最差个体直接淘汰.

4 仿真试验

目前空间站等重要空间设施一般采用与空间目标的碰撞概率和相对距离等作为是否进行规避的参考指标,本文在仿真中以相对距离作为初始触发门限阈值,仅对相对距离小于阈值之后的情况进行仿真.

4.1 参数设置

设当任务航天器与非合作目标的相对距离达到阈值时为初始时刻t0,两者的位置速度参数设置如表1所示.系统状态更新步长为2.5 s,更新内容包括各软件输出信息、太阳光照方向、任务航天器与非合作目标的位置速度信息.成功规避的标志为与非合作目标相对距离始终大于10 km,成功观测的标志为到达非合作目标30 km.

表1 初始时刻任务航天器与非合作目标位置速度参数

本文假设一个时钟中断周期为100 ms,其中固定任务占用45 ms,目标发现,目标轨道确定,轨道运动规划3个软件的运行周期数取值范围分别为{25,50,100},{50,100,200},{2 000,4 000,10 000,15 000}.

仿真中采用的遗传算法基本参数设定如下:一次规避过程中进行软硬件调度动作的次数N=10,染色体中一个表示单元的长度k=7,故染色体长度Nk=70,初始种群的个体数为100,进化90代,采用“轮盘赌”选择算子,交叉概率为0.7,随机变异概率为1/Nk.λ、β、γ分别为1、1、12.

4.2 收敛性分析

如图5所示,在平均适应度方面,引入“精英保留”和“劣种淘汰”策略的遗传算法(improved GA)相比传统的遗传算法(classical GA)能够更快地达到240附近,随着进化代数的增加逐步稳定在240附近,在80代后稳定在(240,242)区间,整体来看,改进的遗传算法平均适应度高于传统遗传算法.如图6所示,引入“精英保留”和“劣种淘汰”策略的遗传算法相比传统的遗传算法资源超限次数大大降低,且最终接近于0.

图5 种群适应度变化情况

图6 种群个体资源超限次数变化情况

4.3 效果验证

经过遗传算法优化后的调度动作序列为{(50,50,15 000,2),(100,50,2 000,1),(100,200,2 000,2),(50,200,2 000,1),(100,200,2 000,2),(100,200,2 000,2),(100,50,2 000,2),(50,200,2 000,2),(100,200,15 000,1),(25,50,15 000,2)}.可以看出,改进的遗传算法寻得的解在首次调度中就将目标发现和目标轨道确定软件的速度调为最快,将轨道运动规划软件调为最慢,同时将相机模式调为低精度模式以辅助对目标定轨,后面逐渐将目标发现和目标轨道确定软件调慢,将轨道运动规划软件调快,最后再将目标发现和目标轨道确定软件的速度调为最快,将轨道运动规划软件调为最慢,过程中相机大部分时间处于低精度模式辅助定轨,偶尔切换到高精度模式以保证自身姿态稳定.

通过与随机调度策略(random)比较,可以看出,经过改进的遗传算法优化的调度策略(GA)更快地将对非合作目标的定轨误差减小到0附近,在有限计算资源的约束下实现了对非合作目标的快速定轨(如图7所示),为航天器的准确机动奠定了基础,通过对比任务航天器与非合作目标的相对距离变化情况,可以看出经过遗传算法优化的调度使得任务航天器始终与非合作目标保持安全距离,并且大幅缩短了任务航天器进入有效观测距离的时间(如图8所示).有赖于较快的定轨速率和前期较慢的机动决策速率,减少了在对非合作目标定轨不准确情况下机动的速度增量浪费,提高了速度增量消耗的性价比(如图9所示).

图7 对非合作目标位置感知误差

图8 任务航天器与非合作目标相对距离

图9 速度增量消耗量

5 结 论

本文面向航天器应对空间非合作目标异常接近问题,考虑航天器资源的有限性,提出了一种基于遗传算法的航天器资源动态调度策略.建立了任务航天器与非合作目标的动力学模型和空间威胁规避过程中的航天器有限软硬件资源模型,通过将“精英保留”和“劣种淘汰”两种策略引入遗传算法设计中来,实现了寻优结果的快速收敛.仿真结果表明,经过改进的遗传算法优化的航天器资源调度策略有效提升了航天器对非合作目标的定轨、规避、观测效果,同时减少速度增量消耗.

猜你喜欢
机动航天器遗传算法
2022 年第二季度航天器发射统计
装载机动臂的疲劳寿命计算
2019 年第二季度航天器发射统计
12万亩机动地不再“流浪”
机动三轮车的昨天、今天和明天
2018 年第三季度航天器发射统计
2018年第二季度航天器发射统计
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测