分布式参数估计的多机器人放射源搜索策略

2023-07-07 04:51霍建文刘宏伟凌铭润罗明华

西南科技大学学报 2023年2期

霍建文刘宏伟凌铭润罗明华

（西南科技大学特殊环境机器人技术四川省重点实验室四川绵阳 621010）

半个多世纪以来，核能在优化能源结构、保障能源安全、促进污染减排和应对气候变化等方面发挥着重要作用。然而，在核能及核技术发展过程中，若发生核事故，则会给社会安全和国家经济带来极大威胁，可能造成大规模人员伤亡和严重社会恐慌。如：2011年日本福岛核电站特大事故［1］、2016年南京放射源［2］和松原放射源［3］不慎丢失等事件引起了广泛的社会关注。

传统机器人放射源搜索方法采用遍历整个搜索区域［4-8］的方法，这种方法的优点是不需要事先对放射源的参数进行估计，搜索准确度高，但是搜寻效率低。为了提高搜索效率，Li等［9］在遍历基础上提出了二分查找、逐次逼近。二分查找通过每次丢弃一半的区域来降低了搜索时间，但搜索准确性低；逐次逼近则需要放射源的活度更高，因为该算法需要在区域边界上检测到剂量率的明显变化。

放射性衰变是随机发生的且服从泊松分布，可知探测器的计数率将服从泊松分布。因此，计数率统计法通过在不同位置采集计数率或剂量率并建立热点参数的后验概率分布来近似估计放射源位置。然后，机器人根据当前估计的结果，在每个步骤中采取适当的行动以帮助其以最小成本抵近放射源，如信息增益［10］、信息熵［11］、人工势场［12-13］等方法使机器人运动到目标点。文献［14-20］在单个无人系统上研究了粒子滤波及改进方法来估计放射源参数；文献［21-22］提出了一种按固定队形移动的多无人系统协同估计放射源，解决了单一系统探测局限的问题；针对大区域单个无人系统寻源效率低的问题，张天宝等［23］提出一种基于领航者模型的多无人系统合作搜寻放射源的方法；Huo等［24］设计了粒子融合与自适应步长的多机器人协同放射源搜索算法。虽然多机器人按固定队形可增加数据采集量，但在有限通信资源下现有方法难以有效解决单机器人测量不准及计算量大等问题。本文在贝叶斯框架下设计了分布式参数估计的多机器人源项估计算法，算法将认知差异理论和一致性方法结合，有效解决单个机器人测量不准确以及计算量大的问题，从而提高放射源参数估计的准确性。根据放射源参数估计结果，多机器人通过变步长人工势场与信息熵结合的策略渐进完成放射源搜寻，从而提高搜索效率。

1 放射源估计模型

式中：P（C，λ）＝λCe-λ／C！；λ＝η∈，η为探测器探测效率，∈为多次测量的平均值；C受当前位置剂量率H以及探测器能量响应常数ρ的影响，即C＝。

本文考虑了障碍物屏蔽的影响，构建了存在障碍物的放射源搜索环境，在此环境下剂量率H·的具体计算如式（2）所示：

式中：φm为屏蔽材料m的衰减因子；Δm是屏蔽材料m的厚度为环境中的背景辐射，本文将其设为常数。

机器人i搜索放射源是一个渐进的过程，在获得辐射场内的观测序列z1：k后，可得放射源参数的后验概率分布函数为：

式中：δ（·）是狄拉克函数；为粒子权重。具体计算如下：

随着算法迭代次数的增多，粒子出现退化现象，即存在大量权重很低的粒子导致参数估计不准确。本文用有效粒子数Neff小于某一设定阈值（1.5n）来判定是否出现退化现象。当出现粒子退化现象时，采用公式（6）进行重采样。

2 分布式放射源搜寻策略

在搜寻放射源的过程中，目标点是未知放射源的位置，也就是在未知目标点的情况下，多机器人通过自身对周围环境的感知、信息交互估计源项参数。最后，利用这些局部信息设计移动策略，实现对放射源的搜寻任务。

2.1 基于一致性的分布式源项参数估计算法

由于搜索区域过大及障碍物存在的情况，可能导致多机器人间通信受限制。因此，定义多机器人放射源搜寻过程中的邻居n为：

式中：r为寻源任务的机器人；n（ri）表示以机器人i为中心R为半径的机器人i邻居集合。

如果机器人间交换所有的粒子权重，将面临严重的通信问题。为了减少通信负载，用高斯密度函数来近似概率分布，则，因此每个机器人只需要交换高斯参数来获得认知差异。但是，参数交换过程中存在着其他机器人n（n∈n（ri））交换的错误信息，错误信息的出现将会影响其他机器人放射源搜索的决策。为了解决这一问题，算法引入了测量信息检验环节。即引入参数βni来度量粒子的分布差异，当机器人n和机器人i的粒子分布差异越大时βni越小。参数βni用不同机器人粒子分布之间的KL散度来定义：

当集合内机器人完成信息交互后，每个机器人对接收的信息进行一致性操作，并将用于下个时刻的局部粒子滤波，从而完成放射源参数估计。具体而言，机器人i下一时刻迭代过程中进行一致性处理的初始粒子计算如下：

2.2 人工势场与信息熵结合的搜寻策略

使用移动机器人搜寻放射源是一个渐进的过程，则机器人i放射源搜寻过程可看作是部分可观察马尔可夫决策过程，即：机器人i根据G-M传感器获得k时刻的剂量率，多个机器人基于信息融合算法可在k时刻估算出放射源的参数；根据估计获得的参数以及机器人分布信息计算每个机器人各自备选动作的奖励函数，获得动作奖励值；每个机器人在各自的动作集合里根据奖励值选择下一步动作；该过程直到放射源被搜寻到为止。本文所提出的策略将信息熵和人工势场有机结合，信息熵能够指导机器人在搜索过程中进行探索以获得更多有用信息；人工势场可以让机器人对已估计的参数进行利用，将其假设为一个引力场，根据信息不确定程度对机器人施加不同大小的引力，从而引导机器人向目标点运动。因为考虑了通信范围受限情况和分布式寻源系统，因此机器人利用自身阶段性估计结果构建的引力场也将对通信范围内的其他机器人施加力的作用。

本文简化机器人运动模型，假设机器人运动的集合为A＝｛↑，↓，←，→，Stepsize＝Auto｝，Stepsize表示机器人运动的步长，其基于分布式估计情况来调整更合理的行进速度和区域中探测次数，不仅保证未知参数估计的准确性还将保证放射源搜索的快速性，具体由如下函数确定：

式中：Const表示机器人移动的最大步长，根据区域大小设置为常数；当源项估计的不确定性减小时，exp（·）函数可执行加大步长，更快移动到源估计的位置表示自身和邻居机器人粒子滤波算法中计算获得的估计方差。

由于k+1时刻传感器的测量值zk+1取决于k时刻的位置以及选择的行为动作a∈A。在每个时间步长内，机器人应向预期计数率最大的方向移动。因此，本文借助信息熵来描述行为动作a的奖励ΔS：

式中Fa为源参数估计对机器人i的引力，具体函数如下：

3 实验分析与讨论

本小节将对提出的分布式参数估计的多机器人放射源搜索算法进行验证和分析。算法在AMD Ryzen 75800H和Radeon Graphics 3.20 GHz处理器上进行仿真实验。假设如下：（1）二维障碍物场景：区域大小为1000 m×1000 m，障碍物个数为7个；（2）在每一次搜寻过程中，遗失放射源以及障碍物的位置是固定的；（3）伽马放射源模型中的参数设为：ρ＝100，η＝0.45，Is＝2.94×108Bq；（4）环境本底辐射H·b为每秒钟内计数1个；（5）障碍物厚度Δm＝10 m，φm＝0.1，机器人个数N＝4；（6）搜索成功的判断条件为所有机器人与真实源之间的距离小于40 m，源估计值与真实值的距离小于10 m。

4个机器人起点设为：（1 000 m，50 m），（1 000 m，350 m），（1 000 m，650 m），（1 000 m，950 m）；放射源参数设置为＝（150 m，150 m，Is），实验结果如图1所示。

图1 分布式放射源搜索实验结果图Fig.1 Experimental results of the distributed radioactive source search

在图1（a）中4条彩色实线表示寻源机器人的轨迹；深绿色长方块代表区域中存在的障碍物，对射线具有衰减作用；红色圆圈代表遗失的伽马放射源，在周围进行辐射剂量当量的可视化；放射源周围的不同颜色圆点代表了不同机器人粒子滤波算法中的粒子。可以看到所有粒子都围绕在放射源周围，表明4个机器人实现对源参数的一致性准确估计。图1（b）中为搜索过程中4个机器人辐射测量值。

为验证本文寻源算法在不同条件下运行效果，重设多机器人的初始位置为（100 m，0 m），（300 m，0 m），（600 m，0 m），（900 m，0 m），重设放射源参数为＝（500 m，800 m，Is）。实验结果如图2、图3所示。由图2可知，本文所提出的算法能够适应的障碍物环境具有一定的泛化能力。图3为采用了本文所提分布式源项估计算法与共享测量值源项估计方法进行对比的结果图。由图3（a）可知，当粒子数设为100时本文所提算法的放射源搜索成功率为82%，而共享测量值方法的搜索成功率仅10% 。共享测量值方法是通过增加单个机器人同一个时刻的测量值来提高搜索成功率，而对寻源过程中各个机器人粒子滤波算法所渐进估计的后验参数进行融合。随着粒子数的增多，本文算法寻源成功率逐步增加。但从图3（b）可知，当粒子数超过150后，由于计算量增大导致放射源平均搜索时间增加。

图2 分布式放射源搜索实验结果图Fig.2 Experimental results of the distributed radioactive source search

图3 性能指标对比图Fig.3 Comparison of performance indexes

由图3可知，多个机器人进行粒子滤波算法中后验参数的融合有利于提高搜索性能，为了进一步体现本文所提分布式估计算法优势，与文献［24］使用认知差异原理对其他机器人的测量信息进行选择性融合算法进行对比，其源项参数估计误差如图4所示。

图4 源项参数估计误差对比图Fig.4 Comparison of source parameter estimation errors

由图4可知，本文所设计的算法具有更高的源项参数估计精度，主要原因为：文献［24］将各个机器人共享的所有粒子进行升序排列和降序排列，并按照预先设置的融合粒子数H，用机器人的H个高概率粒子来替换另一个机器人的H个低概率粒子，从而各个机器人得到了粒子信息融合后的粒子权重，该方法是基于高概率粒子具有更多未知放射源信息以及低概率粒子包含无效信息的假设，此假设在总体上看是成立的，但是在寻源前期，进行较少探测、获取较少未知放射源信息的情况下，此假设会导致一些潜在的有效粒子被错误剔除，由此损失源项参数估计的精度。本文所提算法将当前机器人的低概率粒子与处于通信范围内的其他机器人的高概率粒子进行一致性处理，仅进行融合而非直接替换，减少低权重粒子对放射源参数估计的影响而非完全消除其影响，合理提高了机器人的粒子多样性，最终获得了如图4所示的更高的源项参数估计精度。此外，本文所提算法考虑了通信范围有限和障碍物屏蔽影响的情况，而文献［24］两种情况均未考虑。为了进一步验证本文所提分布式源项估计算法的有效性，在同等搜索成功率与搜索时间情况下对不同算法的粒子数、区域大小、信息交互种类及有无障碍物信息进行比较，结果如表1所示。由表1可知，在无障碍物时需要达到相同搜索成功率和同等搜索时间，文献［24］提出的算法设置粒子数与搜索区域优于［25］，由此可见共享测量值与粒子信息有助提高搜索性能。在同等搜索区域大小时，融合信息方式不同导致所需粒子数量不同，且文献［24］未考虑有障碍物情况。

表1 同等搜索成功率与搜索时间情况下不同算法性能对比表Table 1 Performance comparison of different algorithms w ith the same search success rate and search time

为验证本文算法在搜索策略上的优势，在设置粒子数为150、搜索区域为1000 m×1000 m、搜索步长由公式（11）确定、放射源估计算法采用本文所提方法的情况下，开展了部分可观测马尔可夫决策过程［25］、信息熵［22］、自由能［24］、本文所提搜索策略的源项搜索实验，其搜索成功率和平均搜索时间如表2所示。由表2分析可得，本文所提策略中探测与利用阶段相互平衡，使得平均搜索时间更短、效率更高。

表2 不同搜索策略的性能对比Table 2 Performance comparison of different search strategies

4 结论

本文提出了一种分布式参数估计的多机器人放射源搜索算法，所有机器人能够获得通信范围内邻居的测量值、后验信息，采用高斯密度函数近似后验概率分布，用信息一致性理论将多机器人交互的后验信息进行融合，有效解决单机器人测量不准及运算量大等问题。为保证完成寻源任务的快速性，降低电离辐射对机器人器件的损害，本文将信息熵与人工势场算法结合，提出了变步长的多机器人移动策略，从而提高放射源自主搜寻效率。实验结果表明，本文算法能够以更高的搜索成功率、更短的平均搜索时间完成放射源搜索任务，并且整个实验过程中考虑了障碍物屏蔽作用的影响，展现了本文所提分布式寻源算法在复杂环境中完成任务的能力。未来，将在分布式估计的基础上进一步研究分布式决策的多机器人放射源搜寻策略，实现具有全局最优决策的放射源搜寻，并开展真实实验研究。