一种融合注意力机制的无人机目标分割算法

2023-12-30 14:26王传云姜福宏王静静

空间控制技术与应用 2023年6期

王传云, 姜福宏, 王田, 高骞, 王静静

1. 沈阳航空航天大学, 沈阳 110136 2. 北京航空航天大学, 北京 100191 3. 中国电子科技集团公司电子科学研究院, 北京 100041

0 引言

近年来,低空空域无人机在民用消费领域呈现爆发式增长,在人们的日常生产生活中发挥了重要作用,广泛应用于公安消防、抢险救灾、森林防火、电力巡检、搜索救援和地质勘测等领域[1].与此同时,一些非法入侵的无人机也给民用航空、军事禁区、安防监控和个人隐私等带来了极大的威胁和挑战.因此,如何应对非法无人机的入侵成为广大研究学者关注的问题[2].

由于低空空域无人机的尺寸小,通常需要使用高分辨率的图像来进行检测和跟踪.同时,由于无人机飞行灵活性强,其运动轨迹通常比较复杂,在实际应用中,低空空域无人机的尺寸小、速度快,常常难以准确地检测和识别.为此,需要开发高效、精准的无人机探测算法.同时,由于现有的无人机检测算法往往需要依赖大数据集,这也给无人机反制任务的实施带来了一定的困难.

另外,低空空域无人机的灵活性意味着它们可以很容易地避开常规的防卫设施进行攻击.因此,在反制任务中需要采用多种技术手段,将无人机检测、追踪、控制和打击等环节进行有效地整合,以提高反制效率.

针对该问题,部分研究人员提出了不同的方法来检测入侵的无人机,如利用激光雷达来检测非法无人机,虽然能够达到较高的精度,但其成本过高,不易于区分无人机和鸟类,难以大规模普及[2].还有研究人员提出采用音频的方法检测无人机,利用无人机飞行过程中发出的声音作为检测信号,但是这种方法常常会受到其他噪音的干扰,且检测距离有限,并不是一种很好的检测方法[3].由于无人机需要操作员操控,其与无人机通信的射频信号能够作为检测无人机的依据,但是犯罪分子通常篡改其通信频率,使得这种方法难以进行检测[4].

基于计算机视觉的无人机检测方法更受到广大研究学者的青睐,这种检测方法最为直观,且能够结合红外摄像机实现全天时、全天候的无间断工作,且成本相对低廉,易于大规模普及[5].张锡联等[6]利用基于Gabor滤波器的深度卷积神经网络对无人机进行检测,将Gabor滤波器集成到普通卷积核来完成无人机检测任务,实验结果表明,所建立的深度神经网络模型能取得较高的精度和准确率.目标检测算法能够很出色地完成无人机检测任务,但是其通常只给出包围框,并不能具体地追踪无人机的形状,并且通常会出现漏检情况[5].本文利用基于深度学习的目标分割算法,能够更清晰地描绘出无人机的轮廓,且检测过程是逐像素进行的,不易于出现漏检现象.

目标分割算法大体可以分为两种类型,一种是基于局部掩码的两阶段目标分割算法,这类算法首先对输入到网络的图片进行检测,然后再根据检测的结果进行进一步的逐像素分割,输出最终的掩膜,通常情况下,这类算法精度较高,小目标效果较好,但是最终性能的好坏取决于检测的效果,计算量也通常较大[7],这类算法比较典型的代表有Mask-R-CNN[8]、Cascade-R-CNN[9]等算法.而另外一种算法是基于全局掩码的单阶段目标分割算法,这类算法首先使用卷积神经网络将输入图像映射到一组特征图中.在特征图上对每个位置的特征向量进行预测,得到物体的类别、边界框位置以及掩膜表示,接着对掩膜进行解码,得到物体的像素级别的掩膜信息,这类算法在精度表现上不如两阶段目标分割算法,但是具有模型运行速度快、性能优越等优点.比较典型的算法有YOLACT算法[10]和SOLO算法[11].

无人机探测技术和空间控制技术可以相结合来共同完成对非法无人机的反制任务.具体而言,无人机探测技术可以通过多种手段对无人机进行侦测和追踪,包括雷达、红外感应器和视觉监测等,以及利用智能算法进行数据分析和处理,进而判定是否有无人机侵入[12].而空间控制技术则可以通过建立空中障碍物控制区域等手段,限制无人机的飞行范围,或者借助干扰信号或发射干扰弹等方式,使得无人机无法正常运作.将这两项技术相结合,可以有效地防范无人机的侵入.首先,可以使用无人机探测技术来监控周围的空域,如果有非法无人机进入被保护区域,则可以使用空间控制技术来干扰其飞行或者将其制服,从而保证区域的安全性.本文利用目标分割算法将非法无人机探测出来,为后续空间控制技术对其反制打下基础.

针对低空空域无人机的特点给视觉检测非法入侵无人机带来了困难.为了解决无人机分割任务实时性的高要求,本文从基于目标分割算法的角度出发,对实时性较高的YOLACT算法进行了改进.该算法使用RepVGG[13]作为主干网络,增强了特征提取的能力.RepVGG是一种轻量级网络,采用卷积工作流设计,并引入跳跃连接来减少网络深度,大大减少了参数数量和计算量,同时保证了特征提取的能力.此外,CBAM注意力机制[14]抑制无关信息的干扰,使神经网络更注重有用信息的提取,加强整体网络的分割性能.最终,本文提出了一种融合注意力机制的低空无人机目标分割算法,称为Rep-YOLACT.

实验结果表明,所提出的Rep-YOLACT算法能够显著超过基线算法的检测性能.该算法使用RepVGG网络结构进行特征提取,引入CBAM注意力机制对特征图进行筛选和调整,减轻了网络的负担,提高了实时性并提升了分割性能.

1 YOLACT算法结构

随着无人机技术的飞速发展,无人机在各个领域有了广泛的应用,其中无人机视觉技术在实际应用中发挥着重要作用.与传统物体检测不同,无人机目标分割任务需要同时对图像中的每一个目标进行识别并分割出其边界,这就对算法的精度、鲁棒性和实时性提出了更高的要求.然而由于无人机通常在整体视频画面中占据非常小的尺寸,这为目标分割带来了很大的困难.同时,无人机还具有飞行灵活的特点,这就对目标分割算法的实时性和分割精度提出了更高的要求.

针对上述问题,本文选择了YOLACT算法作为基础算法.YOLACT是一种实时目标分割算法,具有分割精度高、实时性好等优点,更适用于工业化部署于边缘设备.该算法将目标分割任务分成了两个并行的任务.第一个分支使用全卷积网络[15]生成最初形态的掩膜.第二个分支在目标检测的基础上添加了一个额外的检测头,这个检测头会针对每一个锚框都生成一个掩膜系数,最终通过将两个分支的结果进行线性组合来得到最终的掩膜.

YOLACT算法的网络结构如图1所示.该算法主要由特征提取模块、掩码生成模块和预测模块组成.其中,特征提取模块是YOLACT算法的核心组成部分,它主要由ResNet[16]和特征金字塔(FPN)[17]构成.这一部分主要作用是从输入图像中提取特征,同时输出3个大小不同的特征图P3、P4和P5,以及对P5进行上采样得到P6和P7.这样做的目的是为了更深层次、更全面地提取有用的信息,为后续的目标分割和检测任务打下基础.接下来,将目标分割过程分成两个分支进行处理.其中,第一个分支将P3特征层输入到掩码生成模块进行初步的掩码生成,而另一个分支则是将P3～P7的特征图送入预测模块进行掩码系数生成.最终,两个分支的结果经过线性组合,并对其进行裁剪,最终输出分割结果.

图1 YOLACT算法网络结构Fig.1 YOLACT algorithm network structure

2 Rep-YOLACT算法结构

YOLACT算法在实际应用中已经取得了不俗的结果,但对于一些高要求的场景,例如无人机分割任务,其表现还有所欠缺.虽然Mask R-CNN等算法在目标分割任务中具有较高的精度,但由于其速度较慢且难以部署,因此基于一阶段全卷积网络结构的YOLACT算法提出,旨在提供更快速、高效的目标分割解决方案.但是,该算法的目标分割效果可能受到诸如目标尺寸过小或目标停留时间短等问题的影响,据此可能需要进一步调整算法,改进其目标分割精度.因此,本文对YOLACT算法进行改进,以提高其在无人机分割任务中的精度.具体来说,将YOLACT原始网络中的ResNet主干特征提取网络更换为RepVGG网络,并添加CBAM注意力模块来优化信息提取.RepVGG是一种全新的卷积神经网络结构,可显著减少模型的计算量和参数量,同时具有更好的性能表现.CBAM注意力模块可以根据每个位置上不同通道的重要性进行自适应的权重加权,从而提高网络的性能.改进后的网络结构如图2所示.首先使用改进的RepVGG主干特征提取模块提取特征,然后通过CBAM注意力模块进一步增强特征提取,并输出3个不同大小的特征图P3、P4和P5,通过上采样得到P6和P7.随后使用掩码生成模块和裁剪模块进行处理,最终输出分割结果.

图2 本文提出的Rep-YOLACT网络结构Fig.2 The proposed Rep-YOLACT network structure

所提出的Rep-YOLACT算法相比于原始网络在无人机分割任务中表现更加出色.通过使用RepVGG作为特征提取网络,可以提取到更强的特征信息,从而提高模型的检测.同时,将CBAM注意力模块添加至特征提取层之后,可以更好地利用特征信息,提高模型的精度和稳定性.Rep-YOLACT算法具有更高的可靠性,为无人机分割任务等高要求场景的应用提供更加稳定和准确的解决方案.

2.1 主干网络的改进

目前大多数目标分割算法特征提取网络使用的均是ResNet系列,虽然ResNet网络能够达到很好的特征提取能力,但由于其引入了多分支结构,带来了极大的内存消耗,而各个分支的结果又需要保存,直到最终融合的时候才能释放,针对ResNet以上的问题,本文在YOLACT算法中引入了RepVGG主干特征提取网络,其网络结构是由一系列3×3卷积所构成,现有的硬件和计算库对3×3卷积有着更深度的优化和支持,相比于其它卷积核,3×3卷积核计算的密度更高、更加有效果,速度上也能够大幅度提升,而且能够明显地节省显存.RepVGG引入了残差分支,可以有效地避免梯度消失的情况,多分支结构对体系规范施加了约束,ResNet网络中将卷积层组合成残差块,每个残差块最后的卷积层必须产生相同形状的张量,这极大地限制了灵活性,多分支拓扑也限制了通道剪枝的应用,而RepVGG网络中允许根据需求自由地配置每个卷积层,同时也支持通道修剪,从而能够获得更好的性能和效率平衡,ResNet和RepVGG结构对比如图3所示.

图3 ResNet和RepVGG对比Fig.3 Comparison of ResNet and RepVGG

RepVGG同样也采用了ResNet的残差结构,但是与之不同的是,RepVGG在每一层均引入了残差结构,如图3(b)所示,这样的结构对训练虽然有帮助,能够更好地提取到特征信息,但对推理阶段就会降低推理速度和内存利用率,RepVGG通过重参数化来解决这个问题,在推理阶段采用如图3(c)所示的结构,其融合过程主要分为两类融合过程.一类是卷积层和BN层的融合,另一类是3×3卷积、1×1卷积和恒等连接的融合.

首先介绍卷积层和BN层的融合,RepVGG中大量运用卷积层+批量标准化,正常的卷积层公式为

Conv(x)=W(x)+b

(1)

而批量标准化的公式为

(2)

将卷积结果代入到式(2)中可以得到

(3)

进一步简化为

(4)

这其实得到了一个卷积层,令

(5)

(6)

最终能够得到融合结果为

BN(Conv(x))=Wfused(x)+Bfused

(7)

而3×3卷积、1×1卷积和恒等连接融合过程就是先将1×1卷积和恒等连接两者均填充为3×3卷积的形式,再与3×3卷积相加运算,最后和特征图进行卷积运算,通过此过程便可将BN层、1×1卷积、恒等连接和3×3卷积融合为一体,最终实现重参数化过程,将多分支网络训练高性能和单分支网络推理高速度的特性完美结合,极大地增强了其特征信息提取能力.

RepVGG网络包含很多不同的网络规格,为了能够更好地和YOLACT网络相结合,考虑到进一步的模型复杂度和精度均衡,本文采用的网络规格是RepVGG-B,其体系结构如表1所示,其中4×64a代表着阶段2具有4个层,每个层具有64a通道.本文采用的是RepVGG-B系列中RepVGG-B1g2,为了进一步提升主干网络的提取能力,将宽度因子设置成[8,8,8,64],每一阶段的数量依然是[1,4,6,16,1],通过实验发现改进后的RepVGG能够更好地融合到YOLACT网络中发挥作用.

表1 RepVGG-B体系结构Tab.1 RepVGG-B architecture

2.2 CBAM注意力机制

在神经网络中,注意力机制(attention mechanism)是指在计算资源有限的条件下,使得神经网络更加注重某个重要的任务,同时也是解决信息超载问题的一种资源分配方案,一般情况下,神经网络模型的参数越多则模型的表达能力越强,同时,所储存的信息量也越大,但是会引起信息过载的问题,一个解决方案就是引入注意力机制,在众多的输入信息中,让网络更加注重关键的信息,抑制其他的干扰信息,这样一来,就可以很好地解决信息过载的问题,并提高任务处理的准确性和效率.

在本文中,为了更充分地利用主干特征提取网络所提取的特征信息,在主干网络输出的3个有效特征层的末端添加了CBAM注意力机制.CBAM注意力机制包含了通道注意模块和空间注意力模块,两者共同加强网络的特征提取能力.通道注意模块可以自适应地调整通道权重,以提高特征图中不同通道的相关性.空间注意力模块可以根据像素点之间的空间位置关系,学习每个位置的重要性,以抑制不相关的信息.两个模块共同作用,可以使神经网络更加准确地提取重要特征,从而提高模型性能.

CBAM注意力机制在神经网络中的应用已经获得广泛研究,其在不同领域的应用效果也得到了证明.在本文所使用的无人机分割任务中,引入CBAM注意力机制可以有效地提高模型的性能和鲁棒性,为后续的无人机分割应用提供更加精准和可靠的解决方案.经过实验结果表明,在引入CBAM注意力机制后,可以在不增加额外计算量的情况下,显著提高模型的性能和准确率.

为了更充分地利用主干特征提取网络所提取的特征信息,在主干网络输出的3个有效特征层的末端添加了CBAM注意力机制.CBAM注意力机制是一种极其有效的模块,其中包含了通道注意模块和空间注意力模块,两者共同加强网络的特征提取能力,其网络结构如图4所示.

图4 CBAM注意力机制Fig.4 CBAM attention mechanism

在通道注意力模块中,使用了全局平均池化和全局最大池化两种不同的方式来利用不一样的信息,首先,特征图F输入到网络中后,分别经过全局最大池化和全局平均池化得到两个C×1×1的通道描述,然后分别将其送入权值共享的多层感知器(multilayer perception),输出的特征经过激活处理后生成通道注意力权重Mc,最终将Mc与原始输入的特征图相乘,生成通道特征图F′,其具体计算公式如下:

Mc(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F)))

(8)

在空间注意力模块中,将通道注意力模块输出的F′输入到空间注意力模块中,分别进行全局平均池化和全局通道池化后,获得了两个1×H×W的通道描述,并将其拼接在一起,随后将其输入到一个7×7的卷积层,经过Sigmoid激活函数处理后拿到空间注意力权重Ms,最后通过将输入特征图F′与得到的空间注意力权重Ms相乘得到最终的输出特征,其具体计算公式如下所示:

Ms(F)=σ(f7×7[AvgPool(F);(MaxPool(F)]))

(9)

其中:AvgPool表示全局平均池化,求取每个通道的像素的平均值;MaxPool表示全局最大池化,保留每个通道的特征图的像素最大值;σ表示Sigmoid激活函数.

3 实验设置与结果分析

3.1 实验数据集

本文首先在无人机数据集FL-drones上进行了实验,其是由ROZANTSEV等[18]所提出的一个记录无人机飞行的数据集,该数据集包含室内和室外场景,飞行的无人机形状也随时发生变化,同时极端的照明和背景的复杂性也给无人机分割任务带来了挑战性,由于其所提供的是无人机视频文件,首先通过提取视频帧来生成用于无人机目标分割任务的图像,视频帧与帧之间有着极大的相似性,于是每8帧提取一张视频帧,最终共提取4 872张视频图像,通过Python脚本将标签文件转换成适用于目标分割算法的COCO数据集[19]标签格式,按照训练集和测试集8∶2的比例进行划分,其中3 897张用于训练,975张用于测试.

本文进行实验的另一个无人机数据集是由LIU等[20]发布的MUD无人机分割数据集,该数据集包含无人机在室内场景、城市场景和野外场景的飞行视频,本文的研究方法是基于目标分割算法进行的,选取了其公布的无人机分割视频图像作为实验的训练集和测试集,共包含9 049张图片,按照训练集和测试集8∶2的比例进行数据集划分,7 239张用于训练,1 810张用于测试,通过Python脚本将Mask遮罩文件转换成适用于目标分割算法的COCO数据集标签格式,最终完成对数据集的训练和测试.

3.2 实验环境与训练参数

在本次实验中,服务器的操作系统为Ubuntu18.04LTS,GPU为NVIDIA GeForce RTX 2080Ti,CPU为Intel(R) Core(TM) i7-9700k@3.6GHZ,16G内存空间,深度学习框架PyTorch版本为1.7.0,CUDA版本为CUDA10.2,运行环境为Python3.7.

在本次实验中,分别将所提出算法Rep-YOLACT在FL-drones数据集和MUD数据集上进行了300迭代次数和100迭代次数的训练.一般来说,学习率越高,模型的收敛速度越快,但也可能导致模型无法稳定地收敛或过拟合.如果学习率过低,则模型需要更长时间才能收敛,但它更有可能达到一个良好的局部最小值点.然而,过低的学习率也可能会导致模型无法收敛或陷入局部最小化.最常见的方法是使用学习率衰减方法,如Steps、Cosine等,以获得更好的结果,本文采用Cosine学习率下降方式,在网络训练的早期能够保持较大的学习率,使得网络更快地收敛,从而提高模型的泛化能力.初始学习率为2×10-3,使用的是SGD优化器,根据学习率的大小,设置权值衰减参数为5×10-4时,能够避免过拟合现象的发生且得到更好的性能.

3.3 评价指标

本文的数据集是按照COCO数据集的格式制作而成的,因此选用预测框和目标分割掩膜的平均精度AP(average precision)和平均召回率AR(average recall)来评判算法模型的好坏,其中AP选用的为交并比为0.5时的平均测量值,AR选用的是交并比在0.5～0.95之间的所有召回率的平均值AR.精确率P和召回率R可以通过公式(10)～(11)计算

(10)

(11)

式中,TP表示算法模型识别为无人机且与真实标注相匹配的样本数量,FP表示算法模型预测为无人机且与真实标注不匹配的样本数,FN表示算法模型预测为无背景但真实标注为无人机的样本数量.

以P为纵轴,R为横轴绘制出P-R曲线,曲线与坐标轴所围的面积即为平均精度AP.以R为纵轴,IoU为横轴绘制出召回-IoU曲线,曲线与坐标轴所围的面积的两倍即为平均召回率AR.

3.4 实验结果分析

3.4.1 网络分割效果分析

为了更加直观地显示出改进后网络的性能,从测试集中挑选出具有代表性的无人机图片来测试网络模型的分割效果,如图5所示.图片右上角所显示的数值代表着所分割出无人机的置信度,由于本文引用了RepVGG特征主干网络,能够更好地提取出无人机的特征信息,添加的CBAM注意力模块也能够使得整体网络更加关注于无人机存在区域,同时抑制其它无关信息的干扰,从而进一步使得网络整体的性能有着明显提升,可以直观地看出所提出的Rep-YOLACT算法相比于YOLACT算法表现出更好的检测效果.

在网络训练过程中损失值是否收敛及其最终的大小能够衡量出一个深度神经网络的好坏,损失函数主要用来计算输出值和输入值之间的差距.如图6所示,分别绘制了FL-drones数据集和MUD数据集在训练过程中损失值下降情况的曲线图.从图6中可见,当训练100个迭代次数时,FL-drones数据集上的模型并未收敛,而到达300迭代次数时,模型才收敛.相比之下,在MUD数据集上,模型已经在100个迭代次数时完全收敛,算法模型表现出了很好的收敛能力,从而验证了所提出算法的有效性.

图6 FL-drones数据集和MUD数据集训练损失曲线Fig.6 Training loss curves of FL-drones dataset and MUD dataset

3.4.2 消融实验

为了验证不同改进点对于整体网络算法的提升效果,首先在FL-drones数据集上进行消融实验,以此来验证每个改进点的有效性,消融实验结果如表2所示.

表2 FL-drones数据集消融实验结果Tab.2 Results of ablation experiment results on FL-drones dataset

从表2中可以看出,与YOLACT算法相比,引入RepVGG主干特征提取网络虽然在预测框AR方面略有下降,但在掩膜AR方面却有显著提升,提高了6.7%的精度.这说明RepVGG网络的引入对于无人机目标分割任务有着明显的效果.

同时,CBAM注意力机制的引入虽然在预测框AP方面略有下降,但在掩膜AP、掩膜AR和预测框AR方面的精度均有所提升,分别提高了0.5%、6.7%和6.6%.这是由于CBAM注意力机制能够使得网络更好地学习无人机的特征,从而进一步提高性能.

当RepVGG和CBAM两者结合引入时,虽然预测框AP有所下降,但掩膜AP和掩膜AR分别提高了0.3%和11.7%,这表明所提出的算法在无人机目标分割任务中具有出色的性能,证实了算法的可行性和有效性.

在MUD无人机数据集上也进行了消融实验,MUD数据集的无人机在整体画面中所占尺寸更小,更具有挑战性,其结果如表3所示.

表3 MUD数据集消融实验结果Tab.3 Results of ablation experiments on MUD dataset

从表3中可以看出,对比于YOLACT算法,当引入RepVGG网络后,在掩膜AP上提升了6.2%,说明了新引入的主干特征提取网络能够更好地提取出无人机的特征.当CBAM单独引入时,可以发现在掩膜AP上提升了1.7%,在预测框AP和预测框AR上仅有微小的降低,说明了CBAM引入的必要性.当RepVGG和CBAM同时引入时,虽然在预测框AP指标上降低了0.1%,但在掩膜AP和预测框AR上提升了2.3%和5%,这进一步论证了所添加模块的有效性.

3.4.3 对比实验

为了验证新的算法在目标分割效果上的改进效果,在FL-drones数据集和MUD数据集上进行了训练.其中,选择了几种常见的目标分割算法进行对比,包括YOLACT算法、Mask R-CNN算法、SOLO算法、Cascade Mask R-CNN算法.这些算法各有优点,其中Mask R-CNN算法作为R-CNN系列算法中最具代表性的两阶段目标分割算法,在精度上表现出色.SOLO算法则是单阶段目标分割算法的代表,具有较快的速度.而Cascade Mask R-CNN算法是在Mask R-CNN算法的基础上进一步改进而提出的目标分割算法,因此在精度方面表现良好.针对不同的算法,在两个数据集上进行了对比实验,其实验结果如表4～5所示.

表4 FL-drones数据集对比实验结果Tab.4 Comparative experimental results of FL-drones dataset

从表4中可以看出,本文所提出的算法Rep-YOLACT对比于基线YOLACT算法在掩膜AP、掩膜AR评价指标上分别高出0.3%和11.7%,说明了改进算法的有效性.对比于Mask R-CNN算法,虽然在掩膜AP和预测框AP上不及Mask R-CNN算法,但是在预测框AP高出Mask R-CNN算法0.3%.对比于SOLO算法在掩膜AP上高出10.2%,SOLO算法在预测框AP和预测框AR上表现为0,这可能是由于分割的目标太小,该算法不能很好地预测.对比于Cascade Mask R-CNN算法,本文提出的算法在掩膜AP上不及Cascade Mask R-CNN算法,但在掩膜AR和预测框AP上分别高出8.4%和5%,综合以上对比实验结果,进一步验证了所提出算法在无人机分割任务上的有效性.

从表5可以看出,本文所提出的算法Rep-YOLACT对比于基线YOLACT算法在掩膜AP和预测框AR评价指标上分别高出1.7%和5%,提升了基线算法的性能.对比于Mask R-CNN算法虽然在掩膜AP、掩膜AR和预测框AP上不及Mask R-CNN算法,但在掩膜AR上却高出Mask R-CNN算法20%.对比于SOLO算法,Rep-YOLACT算法虽然在掩膜AP50上不及SOLO算法,但SOLO算法在预测框AP和预测框AR上均为0,这可能是由于MUD数据集中无人机尺寸过小,难以检测,说明了SOLO算法在MUD数据集上并不能表现出良好的性能.对比于Cascade Mask R-CNN算法,Rep-YOLACT在预测框AR上高出5%.综合以上对比实验结果,说明了Rep-YOLACT算法的有效性.

4 结论

本文针对YOLACT算法在无人机目标分割任务上的精度不足问题,进一步改进YOLACT算法,利用RepVGG网络改进原始网络的ResNet主干特征提取网络,提升整体网络特征提取的能力,并引入CBAM注意力机制增强特征信息的表达能力,使网络更关注有用的特征信息,从而提升算法的分割精度,提出Rep-YOLACT算法.通过实验结果表明,所提出的Rep-YOLACT算法在两个无人机分割数据集上表现良好,优于YOLACT算法及其他主流目标分割算法,在FL-drones数据集上分别高出基线方法0.3%和11.7%,而在MUD数据集上分别高出基线方法1.7%和5%.Rep-YOLACT算法的整体网络结构的参数量似乎并不足够小,如何在保证分割精度不变的情况下,尽可能降低模型的参数量是下一步的研究工作.