面向精细化多尺度特征的遥感图像目标检测

2022-02-13 10:06张省李山山魏国芳张新耐高建威
遥感学报 2022年12期
关键词:空洞金字塔特征提取

张省, 李山山, 魏国芳, 张新耐, 高建威

1. 中国矿业大学 环境与测绘学院, 徐州 221116;

2. 中国矿业大学 人工智能研究院, 徐州 221116;

3. 中国科学院空天信息创新研究院, 北京 100094;

4. 济南市勘察测绘研究院, 济南 250013;

5. 中国空间技术研究院卫星应用总体部, 北京 100094

1 引 言

随着遥感技术的不断发展,遥感数据的获取不再困难,利用遥感数据及时准确地掌握地物目标的位置分布对交通规划、精准农业、军事侦察以及海洋管理等都具有重大的意义(刘畅和朱卫纲,2021)。然而,传统的遥感图像目标检测方法利用方向梯度直方图HOG(Histogram of Oriented Gradient) 特征或者尺度不变特征转换SIFT(Scale-invariant feature transform),缺乏对遥感图像中目标稀疏性以及遥感图像尺度问题的考虑,同时存在计算开销大等问题(姚艳清 等,2021)。因此对遥感影像中特定目标高效地定位与识别成为了当前的研究热点。

近些年来,深度学习和计算机视觉技术不断发展,在自然场景下基于卷积神经网络CNNs(Convolutional Neural Networks)的目标检测算法代替了传统HOG 和SIFT 的手工特征,取得了突破性的 进 展。 R-CNN (Region-based Convolutional Neural Network)(Girshick,2014)率先利用CNNs对候选目标区域提取特征,再利用机器学习方法对这些区域进行分类和定位。Fast R-CNN(Girshick,2015)在其基础上利用特征图进行感兴趣区域的提取,极大地减少了计算量。Faster R-CNN(Ren 等,2017)摒弃了选择性搜索算法SS (Selected Search),利用区域生成网络RPN(Region Proposal Network)来提取感兴趣区域,提升了检测的精度和效率;此外,以YOLO(Yon Only Look Once)(Redmon 等,2016)、RetinaNet(Lin 等,2017b)等算法为代表的单阶段目标检测算法致力于提升模型整体的运算效率。YOLO 算法将检测任务统一视为回归问题,将图像划分为多个子区域并在每个区域内找到目标的位置(Redmon 等,2016)。SSD(Liu 等,2016)得益于Faster R-CNN 和YOLO 的思想,设计单阶段的网络模型并利用锚点框(Anchor box)来进行目标检测;RetinaNet 提出了Focal loss 函数,使单阶段网络更好地学习难样本,提高了单阶段检测的准确性。由于这些算法能够精准地检测自然场景下的多类目标,许多研究将这些算法直接地应用于遥感图像目标检测任务中去(奚祥书 等,2022)。然而,当遥感图像包含更复杂的场景信息,图像分辨率高而目标相对较小时,传统的CNN 结构将无法提取图像中精细化的目标特征。随着CNN 层数的加深,感受野随之越来越大,因此一些目标在顶层特征图上出现特征消失的现象(Lin 等,2017a);此外,由于遥感图像背景复杂,传统的CNN 容易受到噪声影响导致激活错误的区域,从而导致目标特征提取不足;待检测的目标尺度变化较大,单一尺度的检测方式弱化了模型对目标的感知能力(Girshick 等,2014;Ren 等,2015);而且遥感图像中的目标往往定向分布,等等。因此传统的回归框不能够较好地表示遥感图像中目标的位置信息。

针对上述问题,许多研究改进自然场景下基于卷积神经网络的目标检测算法,使其更好地应用于遥感场景下的目标检测任务。

(1)对于遥感图像目标特征提取能力不足的问题,许多研究致力于在特征提取网络上进行改进。 Mask OBB (Mask Oriented Bounding Box)(Wang 等,2019)引入了语义注意力机制,用于强化目标特征,过滤背景信息;YOLT(You Only Look Twice)(Van Etten,2018)为了解决高分辨率遥感图像场景信息复杂的问题,将大尺寸的图像剪裁成较小的图像块,再利用YOLO等方法对单个图像块进行检测,最终合并结果;CBDA-Net(Center-Boundary Dual Attention Network)(Liu 等,2021)则利用一个双流注意力网络提取目标中心和边界信息用于区分目标和背景。上述方法主要通过区分背景和目标来强化目标表征,但是忽略了特征的上下文语义以及缺乏更为精细化的目标特征。

(2)对应遥感图像目标检测中目标尺度变化较大的问题,许多研究采用特征金字塔(Lin 等,2017a) 的形式进行多层级检测。如姚群力等(2019)通过构造深层特征金字塔和聚焦分类损失,有效地提升模型对多尺度目标的检测精度;史文旭等(2020)为提高复杂场景下多尺度目标检测的性能,利用特征增强和特征融合的方法改进特征金字塔以适应不同背景下的遥感图像目标检测。然而这些方法仅利用不同尺寸的特征图来进行多尺度检测同时,也忽略了特征金字塔的通道信息损失,不利于后续目标地定位和分类。

(3)在遥感图像中目标的定向分布问题中,许多研究引入了角度值和定向检测框来表示目标的位置信息。RRPN(Rotation Region Proposal Network)(Ma 等,2018)率先利用旋转锚点框的方法去匹配密集排列的旋转目标,实现了目标方向 角 度 的 回 归;SCRDet (Detection for Small,Cluttered and Rotated Objects)(Yang 等,2019)引入了平滑交并比损失在一定程度上解决了角度回归的边界问题。然而角度值回归会引发边界问题而平滑交并比利用交并比因子来缓解角度值引发的回归突变并没有从本质上解决边界问题。

本文针对遥感图像目标检测中存在的特征提取困难、尺度差异较大、有向目标方向表示三方面问题,提出了一个新的基于精细化多尺度特征的遥感图像定向目标检测算法;该方法充分考虑了遥感图像的场景复杂以及尺度问题,设计了一个基于空洞卷积的上下文注意力网络,提出了精细化的特征金字塔网络并在检测任务中引入了新的方向因子。本文具体贡献包括:(1)设计了基于空洞卷积的上下文注意力网络,提高模型对复杂背景下目标的特征表示能力;(2)设计了精细化的特征金字塔网络,有效地缓解由于遥感图像中目标尺度变化对模型性能的影响;(3)引入了新的方向因子来表示遥感图像中目标的方向信息。

2 研究方法

本文在Faster R-CNN OBB (Faster Region-Convolutional Neural Network for Oriented Bounding Box)上进行改进,在特征提取阶段引入了基于空洞卷积的上下文注意力网络,提高了主干网络对目标特征的表示能力;在多层级特征提取阶段,设计了一个精细化特征金字塔网络,帮助模型提取图像中多尺度目标;在回归阶段引入了新的方向因子表示目标的方向信息。下面将详细介绍各个模块。

2.1 基于空洞卷积的上下文注意力网络

在基于卷积神经网络的特征提取方法中,特征图的语义信息随着网络的加深而愈加丰富(于野 等,2020)。因此在目标检测方法中,往往对顶层特征图进行目标的分类和定位。然而这种特征提取很难在场景信息较大的遥感图像中提取较小目标的表征,尤其在ResNet(He 等,2016)下采样的过程中,模型很难提取甚至丢失这些目标的表征;此外,遥感图像存在大量的背景噪声,很容易干扰网络对目标显式特征的判断(周勇 等,2021)。为了解决这些困难,本文设计了一个基于空洞卷积的上下文注意力网络,嵌入到ResNet-50各个阶段之间,提高模型在复杂背景下目标特征的表示能力,改进后的特征提取网络如图1所示。

ResNet-50 包含5 个阶段(stage),16 个残差块,50 个卷积层。在每个阶段之间,利用基于空洞卷积注意力来强化特征对目标尺度的感知能力并且利用上下文信息来弱化背景噪声对目标特征提取的影响。具体的注意力网络结构如图2所示。

空洞卷积由于其更为广泛的感受野,可以感知上下文特征而被广泛应用(Chen 等,2017)。引入空洞卷积使 ResNet 在保持参数量不变、每个阶段的卷积层视野不变的前提下,靠后的卷积层也可保持较大的特征图尺寸,从而有利于对小目标的检测,提高模型整体性能(Yu和 Koltun,2016;Chen 等,2017)。本文首先利用多尺度的空洞卷积获取图像的尺度信息和上下文信息。经过不同尺度的卷积核对特征进行采样然后利用独立的卷积层来学习显著性的激活区域,最终利用sigmoid 函数输出注意力权重。具体地,将每个阶段输入的特征图表示为Xi∈RC×H×W,其中,C表示特征图X的通道数,H和W表示特征图X的高、宽尺寸;由于第一层浅层特征不被利用,i表示阶段索引(i=2,3,4)。将第i个特征图输入到本文设计的注意力网络中,首先通过一个并行的空洞卷积金字塔。其中包含了4 个不同空洞率的空洞卷积Ak(k=1,2,3,4),空洞率分别是1,3,5,7。经过空洞卷积金字塔后,再经过独立的1×1 卷积层输出4 个融合上下文信息的特征图fk(k=1,2,3,4),具体计算方式如下:

式中,Convk1×1表示第k个1×1卷积,k=1,2,3,4。得到的输出[f1,f2,f3,f4],分别表示在不同的尺度下感知不同范围上下文信息的特征图。为了聚合这些信息,利用一层1×1 卷积,对4 个特征图融合并激活显著性区域。最终利用sigmoid 将显著性图转换为注意力权重图。具体计算过程如下

式中,a∈R1×H×W表示输出的注意力权重图,σ表示sigmoid 函数。将得到的注意力权重图与输入的特征图融合即可获得包含尺度信息和上下文信息的特征,融合方式为:

式中,X′i表示输出的强化后的特征图,⊗表示逐元素相乘计算。

图 1 改进后的特征提取网络Fig.1 Improved feature extraction network

图 2 基于空洞卷积的上下文注意力网络Fig.2 Context attention network based on hole convolution

2.2 精细化的特征金字塔网络

在遥感图像中,目标间的尺度差异较大(如车辆和港口轮船在尺度上相差数倍),无法直接使用卷积神经网络中的顶层特征检测这种多尺度目标(于野 等,2020)。多数方法采用了特征金字塔网络FPN(Feature Pyramid Network)去适应图像中的尺度变化,如图3(a)所示。特征金字塔利用了侧连接的方式来建立一个自顶向下的特征提取网络,每层都包含了相邻层级的语义信息,最终输出多个尺度的特征图,有助于模型对多尺度目标的检测。

图 3 对比传统特征金字塔和本文提出的精细化特征金字塔Fig.3 Comparisons the traditional feature pyramid with the refined feature pyramid proposed in this paper

式中,PixelShuffle(·)表示像素混洗操作。像素混洗是图像超分辨率算法中较为经典的一种,主要功能是将低分辨的特征图通过通道间的重组得到高分辨率的特征图(Shi 等,2016)。经过上述两步操作,最终待融合的特征Pi保留了通道和尺度信息,在向下融合的过程中对多尺度的遥感图像模板进行了更精细化的表征提取,最终进行的融合过程如图3(b)中所示。

2.3 定向目标检测的方向因子

在遥感图像的目标检测任务中,需要最终确定场景中目标的位置及方向,采用目标检测的水平回归框,容易造成多个目标以及背景与目标之间的混叠。一些研究提出定向回归框来定位遥感或文字检测场景的目标,定义了一个新的方向因子θ,表示框长边与水平轴的夹角,并且固定该角度范围为[-90°,0]。

然而,在遥感场景下,顶点坐标真值无序易引起角度预测错误、回归困难等问题,这种问题被成为回归边界性(Yang 等,2019)。因此本文采用预测滑动顶点(Xu 等,2021)的方式来解决边界问题,如图4所示。

图 4 方向因子的标签生成方式Fig.4 Label generation method of direction factor

首先,由于水平框不存在边界问题,因此网络先预测出一个水平的矩形框坐标(x,y,w,h),通过这组坐标可以求出水平框的顶点坐标(v1′,v2′,v3′,v4′)。其次引入了一组新的方向因子(α1,α2,α3,α4),这组方向因子表示水平框4 个顶点的相对偏移量。其计算方式如下所示:

式中,Si表示预测框顶点vi和真值框顶点vi′的绝对偏移量。因此,最终回归分支预测的回归向量为(x,y,w,h,α1,α2,α3,α4)。

2.4 损失函数

本文采用一个多任务损失函数进行模型的训练,损失函数为

式中:Ltotal表示总损失,Ncls表示输入第二阶段网络中总的候选框个数,Nreg表示输入第二个阶段网络中正样本的个数,i为候选框的索引。对于第i个候选框,若它为正样本则pi*为1,反之则为0。Lcls和Lreg分别表示分类任务和回归任务的损失,与传统目标检测类似,Lcls采用交叉熵损失(Lin 等,2017a)。由于回归目标引入了新的方向因子,回归损失Lreg的形式需要改进,其具体形式为

式中,λ表示损失的平衡权重参数,Lh表示水平框的回归损失,αˉi表示方向因子的真值。取四个点的均值均值作为斜框的中心坐标,框的角度使用四边形最长的边对应的两个顶点两个坐标,由这条边与x轴的夹角作为角度真值。与传统目标检测保持一致,方向因子αi的损失采用smoothL1损失(Girshick,2015)进行训练。

3 实验结果和分析

实验环境为处理器为Intel Xeon Gold 5120 CPU@2.20 GHz 的服务器,GPU 是4 个NVIDIA GeForce RTX2080Ti GPU,显存皆为11 GB。编程环境为Python3.6.11和Pytorch1.4.0。

3.1 实验数据集介绍

(1)DOTA 数据集:DOTA 数据集如图5(a)所示。作为遥感图像定向目标检测的基准数据集,它包含2806 张来自不同传感器卫星的遥感图像,主要来源为天地图。图像像素每英寸尺寸范围从800×800 到4000×4000。数据集标注了188282 个不同尺度、不同方向的实例目标,共分为15个类别:飞机PL(Plane)、棒球场BD(Baseball Diamond)、桥 梁BR (Bridge)、田 径 场GTF (Ground Track Field)、小型车辆SV(Small Vehicle)、大型车辆LV(Large Vehicle)、船体SH(Ship)、网球场TC(Tennis Court)、篮球场BC(Basketball Court)、储油罐ST(Storage Tank)、足球场SBF(Soccer-ball Field)、环形交叉路口RA(Roundabout)、海港HA(Harbor)、游泳池SP(Swimming Pool)以及直升飞机(Helicopter)。

(2)HRSC2016:HRSC2016 是一个遥感图像舰船检测的数据集。如图5(b)所示,其中包含了对船体定向的标注框。数据集内包含了1061 张来自天地图的遥感图像,其像素每英寸尺寸范围从300×300 到1599×900。数据集共包含了2976 个船体实例。训练过程中,436 张图像被划分为训练集,181 张图像被划分为验证集,444 张图像被视为测试集。

图5 实验所用数据集样本Fig.5 Sample data set used in the experiment

3.2 实验采用的评价指标

为了验证本文提出模型在遥感图像定向目标检测上的准确性,我们采用平均准确度均值mAP(mean Average Precision)作为实验所用评价指标,利用平均准确度AP(Average Precision)衡量单类别检测准确度。mAP 是所有类别AP 值的平均,mAP值和AP值越大,反映了模型整体或在独立类别上的检测准确性越高。具体的mAP计算方式如下:

式中,n表示类别的总个数,i则为类别的索引。AP值是每一个类别的(准确率—召回率)曲线的面积。其中准确率P(Precision)和召回率R(Recall)的计算方式如下:

式中,TP,FP,FN分别表示真阳性、假阳性以及假阴性的个数。

3.3 实验参数设置

本文采用的特征提取网络是ResNet-50,并进行了改进。ResNet-50 在ImageNet 数据集上进行了预训练并在遥感数据集上进行了微调。在训练过程中,由于直接训练高分辨率遥感图像会对精度造成影响,对这些遥感图像进行剪裁操作:对于DOTA 数据集,将其中的图像剪裁成1024×1024 的图像块,并进行了90°、180°和270°的旋转数据增广;对于HRSC2016 统一缩放其中遥感图像到512×800的分辨率再进行训练和检测。

为了公平比较本文提出的方法与其他优越的算法,一些超参数的设置要保持一致:对于DOTA数据集的实验,训练过程中初始学习率设置为7.5×10-3最终学习率达到7.5×10-5,总迭代次数设置为70000,批处理大小设置为4;对于HRSC2016数据集的实验,初始学习率设置为1×10-2最终学习率达到1×10-4,总迭代次数为2000,批处理大小为8。

3.4 消融实验

为了验证本文设计的基于空洞卷积的上下文注意力网络,采用Faster R-CNN 为基线模型,分别以ResNet-50、ResNet-101 为主干网络,回归方式采用滑动顶点,对比引入上下文注意力前后检测模型的精度变化。所有消融实验留在DOTA数据集上进行验证。

3.4.1 验证基于空洞卷积的上下文注意力

如表1 所示,在ResNet-50 的基础上引入基于空洞卷积的上下文注意力,可以有效地提升0.82%的mAP 值;其中由于引入过多上下文信息导致了特征混淆,一些类别的AP 值在可接受的范围内下降;对于大多数的类别,可以有效地提升其特征表示能力从而提高了其检测的准确度。

表1 验证基于空洞卷积的上下文注意力Table 1 Verification of contextual attention based on hole convolution

3.4.2 验证精细化特征金字塔

为了验证本文提出的精细化特征金字塔对模型的贡献,以Faster R-CNN 为基线模型,主干网络采用ResNet-50,特征金字塔FPN 为多尺度特征提取网络,回归方式采用滑动顶点的方式,对比引入FPN 和引入精细化FPN 对模型检测精度造成的影响,实验结果如表2所示。实验结果显示,引入精细化FPN 可以在基线模型的基础上提升1.27%的mAP值;针对尺度变化较大的目标SV、LV(大型车辆、小型车辆)较基准算法提高显著,提升分别达到4.99%和9.68%。

表2 验证精细化特征金字塔Table 2 Validation refinement feature pyramid

3.4.3 方向因子消融实验

如表3 所示,本文以Faster R-CNN OBB 为基线模型并为了公平比较引入了传统的特征金字塔FPN,当以传统的角度方式回归,回归向量为(x1,y1,w,h,θ)时得到实验结果为68.72%;当引入本文采用的方向因子时得到实验结果为74.69%,提升了5.97%,验证了方向因子的有效性。

表3 方向因子消融实验Table 3 Directional factor ablation experiment

3.4.4 模型整体消融

为了获得最佳的模型,本文在以Faster RCNN 为基线模型的情况下,分别在主干网络为ResNet-50和ResNet-101的情况下探究两个网络对检测精度的影响,所有模型的回归都采用滑动顶点的方式,实验结果如表4所示。

表4 模型整体消融实验Table 4 Overall Ablation Experiment of model

实验结果显示在以ResNet-50为主干网络的情况下,同时引入基于空洞卷积的上下文注意力网络和精细化特征金字塔,检测效果提升1.96%的mAP 值;在以ResNet-101 为主干网络的情况下,引入基于空洞卷积的上下文注意力网络提升网络检测精度1.02%,引入精细化特征金字塔提升网络1.14%的检测精度,同时引入上述两个算法提升网络1.76% 的mAP 值;相较于原始的Faster R-CNN,本文方法将有向目标检测精度提升了mAP,最终达到了76.78% mAP,从而证明了方法的有效性。

3.5 对比实验

本文整合注意力网络和精细化特征金字塔网络后与当前在DOTA 数据集和HRSC2016 数据集上分别与目前最新的方法进行对比。

(1)HRSC2016 数据集上的结果:HRSC2016数据集包含了大类的定向船体目标。结果如表5所示,相对于R²CNN(Jiang 等,2018)、RRPN(Ma等,2018)、TOSO(Feng 等,2020)、RoI Transformer(Ding 等,2019)、RSDet(Qian 等,2021)、Gliding Vertex(Xu 等,2021)、DAL(Ming 等,2021)、R³Det(Yang 等,2021b)、DCL(Yang 等,2021a)、CSL(Yang 和 Yan,2020),本文提出的方法在mAP 值上达到了89.95%,精度较其他方法具有较为显著的提升。在HRSC2016 数据集上检测效果如图6所示。

表5 在HRSC2016数据集上与先进方法的对比实验结果Table 5 Comparative experimental results with advanced methods on HRSC2016 dataset

图 6 在HRSC2016数据集上的检测结果Fig.6 Test results on HRSC2016 dataset

(2)DOTA 数据集上的结果:DOTA 数据集包含15 个类别的地物目标,类别包含:飞机(PL)、船(SH)、储罐(ST)、棒球场(BD)、网球场(TC)、游泳池(SP)、田径场(GTF)、港口(HA)、桥梁(BR)、小型车辆(SV)、大型车辆(LV)、直升机(HC)、环岛(RA)、足球场(SBF)和篮球场(BC),分别对比它们的AP 值以及整体的mAP 值评估本文方法的优越性,结果如表6 所示。对比方法包含了定向的Faster R-CNN (FR-O)(Xia 等,2018)、Poly IoU 损失(PIoU Loss)(Chen等,2020)、RRPN、RoI Transformer、CAD-Net(Zhang等,2019)、DRN(Pan 等,2020)、R³Det、RSDet、Gliding Vertex、CBDA-Net(Liu 等,2021)、APE(Zhu 等,2020)、CenterMap OBB(Wang 等,2021)、CFA(Guo 等,2021)。实验结果显示,本文方法mAP 达到76.78%,相对于基准算法FR-O 本文最终提出的算法提升了22.65%。此外,相对比与表6中其他的方法,本文提出的算法特别在棒球场(BD)、桥梁(BR)、田径场(GTF)、船(SH)、篮球场(BC)、储罐(ST)、足球场(SBF)、港口(HA)、游泳池(SP)目标的检测上获得较好的精度。由于不同算法采用的回归方式不同和损失函数不同,导致在不同类别上模型精度有一定差异。我们主要分析直升机类别(HC)与其他先进方法产生较大差异的原因。对于一些不直接回归方向因子,采用热图分割或新变量表示旋转框方法,比如CenterMap OBB、CFA、APE 等,对直升机这种角度方向变化较少的类别有更优越的性能;此外,一些方法提出了新的约束损失比如PIoU Loss、CFA 中 的CIoU Loss,CBDA-Net 中 的arwLoss 等,对直升机这种样本少,目标较小的类别可以学习到更多信息,因此展示了更优的性能。CFA 算法提出的凸包自适应方法,利用凸包特征表示目的是解决密集目标的特征混淆问题(Guo 等,2021),因此对于较为密集的类别表现不错,比如泳池(SP)、小型车辆(SV)、大型车辆(LV)、直升飞机(HC)。然而CFA 方法是对密集目标存在特征重叠的情况下提出的特征表示方法,在非密集目标比如篮球棒球场(BD)、田径场(GTF)、篮球场(BC)、足球场(SBF)上与该类最优检测精度有一定差距。实验结果表明,这些运动场类目标在图像中往往单独出现且不存在特征混叠,因此采用CFA 的特征表示是冗余的计算,从而导致最终检测精度的下降。本文提出的方法致力于解决多尺度目标检测问题。相较于CFA,没有冗余的特征表示方法。虽然在许多密集目标上性能与CFA 存在差距,但是在总体检测精度上有一定的优势;此外采用的回归方式适应于多个类别,因此在整体上获得了最优的精度。

图 7 在DOTA数据集上的检测结果Fig.7 Test results on DOTA dataset

表6 在DOTA数据集上与其他方法的对比实验结果Table 6 Experimental results of comparison with other methods on DOTA dataset

在DOTA 数据集上的检测效果如图7 所示;此外,对比了基线模型(Baseline),Center Map OBB 以及本文提出的方法,如图8 所示,在包含多尺度的目标以及更多小目标的情况下,本文提出的方法能更加准确并且完整地检测出图像内的目标。

图 8 在DOTA数据集上的可视化对比Fig.8 Visualization comparison on the DOTA dataset

4 结 论

遥感图像目标检测中存在特征提取困难、尺度差异较大及目标方向的表示等问题。本文有针对性的提出了一种面向精细化多尺度特征的目标检测方法。首先,利用空洞卷积的上下文注意力网络来强化目标特征,它通过不同空洞率来扩大感受野,丰富特征的上下文语义并融入尺度信息,强化了卷积神经网络对遥感图像中目标和背景的判别能力;其次,提出了精细化特征金字塔解决遥感图像目标变化差异大的问题,为了应对目标的尺度变化,先利用多尺度卷积细化特征金字塔各层级的尺度信息;再利用像素混洗的方式,缓解尺度变化带来的目标表征损失,强化网络对多尺度目标特征信息的理解能力;最终,引入了滑动顶点的方向因子来表示定向的目标,减少了由于角度回归会带来的回归边界性问题。经过实验证明,本文提出的上下文注意力网络提高了0.82%检测精度;精细化特征金字塔提高1.27%的检测精度;滑动顶点的回归方式有效提高了5.97%的检测精度。此外相对于基线模型Faster R-CNN OBB,本文提出的算法有22.65%的精度提高。虽然本文提出的方法在总体精度上存在优势,但是由于缺乏考虑旋转目标特征表示,以及更优良的损失函数设计,相较于其他方法本文提出的算法在密集目标、小目标存在一定的性能差距。因此,在未来的工作中将进一步优化特征提取网络,考虑目标的角度变化对特征提取的影响,并考虑损失函数的设计,进一步提高模型的泛化能力。

猜你喜欢
空洞金字塔特征提取
“金字塔”
锻造过程中大截面塑料模具钢中空洞缺陷的闭合行为
Great Vacation Places
如何避免想象作文空洞无“精神”
基于Gazebo仿真环境的ORB特征提取与比对的研究
海上有座“金字塔”
基于Daubechies(dbN)的飞行器音频特征提取
金字塔是用金子造的吗
Bagging RCSP脑电特征提取算法
空洞的眼神