基于深度学习的遥感图像旋转目标检测研究综述

2024-03-05 04:58陈天鹏胡建文
计算机应用研究 2024年2期
关键词:卷积神经网络深度学习

陈天鹏 胡建文

收稿日期:2023-06-16;修回日期:2023-07-31  基金项目:国家自然科学基金面上项目(62271087);湖南省自然科学基金资助项目(2021JJ40609);湖南省教育厅科研项目(21B0330);长沙市自然科学基金资助项目(kq2208403)

作者简介:陈天鹏(1996—),男,湖南岳阳人,硕士研究生,CCF会员,主要研究方向为深度学习、遥感图像目标检测等(1183108098@qq.com);胡建文(1985—),男,湖南娄底人,副教授,硕导,博士,主要研究方向为图像处理、深度学习和模式识别等.

摘  要:由于遥感图像中的目标具有方向任意、分布密集和尺度差异大等特点,使得遥感图像目标检测成为一个颇具挑战性的难题。针对该难题,系统梳理了近三年来深度学习遥感图像旋转目标检测的相关工作。首先介绍旋转框的表示方法及其特点;然后按照特征提取网络、旋转锚框和候选框生成、标签分配及采样策略、损失函数四个方面对当前遥感图像旋转目标检测的现有方法进行分析;再对常用的遥感图像旋转目标数据集进行介绍,对比分析不同算法的性能;最后对遥感图像旋转目标检测进行了展望。

关键词:卷积神经网络;深度学习;遥感图像;旋转目标检测

中图分类号:TP391.41    文献标志码:A

文章编号:1001-3695(2024)02-002-0329-12

doi:10.19734/j.issn.1001-3695.2023.06.0255

Overview of oriented object detection based on deep learning in remote sensing

Chen Tianpeng,Hu Jianwen

(School of Electrical & Information Engineering,Changsha University of Science & Technology,Changsha 410114,China)

Abstract:Since the objects in remote sensing images have the characteristics of arbitrary direction,dense distribution and large scale differences,object detection in remote sensing images has become a challenging problem.Aiming at this problem,this paper systematically reviewed the work related to rotating object detection in deep learning remote sensing images in recent three years.Firstly,this paper introduced the representation method and characteristics of rotated bounding box.Then,it analyzed the existing methods of rotating object detection in remote sensing images from four aspects:the feature extraction network,the generation of rotating anchor and candidate bounding box,the label allocation and sampling strategy,and the loss function.Next,it introduced the commonly used remote sensing image datasets for rotated object detection,and compared the performance of different algorithms.Finally,this paper prospected rotating object detection in remote sensing images.

Key words:convolutional neural network;deep learning;remote sensing image;rotated object detection

0  引言

遙感图像是指在地球高空对地面拍摄所获得的图像,为监测地球表面提供了丰富信息[1]。目标检测技术是遥感图像领域的一项重要任务,其对遥感图像中的地物目标进行分类和定位,在农业、军事侦查、资源调查、灾害救援、环境监测等各个领域具有广泛应用[2]。遥感图像的检测对象包括飞机、车辆、轮船等背景复杂的多类型目标,其具有方向任意、分布密集和尺度差异大等特点,因此在遥感图像上进行目标检测是一项具有挑战性的任务[3]。

目标检测算法主要分为传统目标检测算法和深度学习目标检测算法。传统目标检测算法主要是设置不同大小和宽高比的滑动窗口对图像进行遍历提取候选区域,然后利用SIFT(scale-invariant feature transform)[4]等方法对候选区域进行特征提取,最后利用支持向量机(SVM)[5]等分类器对提取的特征进行分类。由于人工设计的特征其表示能力有限,这类方法很难对不同种类和尺度的目标进行较好检测,并且候选区域选择的时间复杂度高、特征提取时容易受到背景和物体形态等因素的影响,导致算法鲁棒性较差,检测精度有限。基于深度学习的目标检测算法[6]主要利用卷积神经网络提取特征,一般采用水平框对目标进行框选,相比于传统的手工设计特征提取方法,深度学习目标检测算法的特征提取能力大大增强。然而,遥感图像不同于自然图像[7],若用水平框对遥感图像目标进行框选,在检测物体时存在框选不精确、大量目标框重叠等一系列问题。为此,研究人员提出旋转目标检测算法,使用带有角度的旋转矩形框对目标进行检测。

近年来,随着深度学习算法的快速发展以及大量高分辨率遥感图像数据的支持,基于深度学习的遥感图像旋转目标检测算法发展迅速[8],检测性能得到明显提升。这些算法大部分由通用目标检测算法衍生而来。文献[9~13]针对Faster R-CNN算法[14]进行改进,很好地继承了二阶段目标检测算法高精度的特点;文献[15~19]分别针对RetinaNet[20]和YOLO系列[21~24]等单阶段目标检测算法进行改进,在参数量和实时性上拥有较大优势。这些算法能很好地应用于遥感图像旋转目标检测任务,在DOTA[25]、DIOR[26]等数据集上均取得了较好的检测精度。

随着深度学习目标检测算法的不断发展,已经有部分学者对旋转目标检测算法进行了一定的归纳和总结。张磊等人[27]针对遥感图像的旋转目标检测算法的原理及其优势与不足进行了重点叙述,但只针对特征提取网络、锚框及候选区域和损失函数三个方面进行了简要分析;安胜彪等人[28]根据有无锚框,将当前基于深度学习的旋转目标检测方法分为基于锚框的单阶段方法、基于锚框的二阶段方法和无锚框方法,并对这三类方法进行了归纳分析,不过由于分类级别太大,并没有对各方法进行细致比对;廖育荣等人[29]针对旋转目标、小目标、多尺度和密集目标四类常见特定任务场景目标检测算法进行了总结,然而该文只是针对任务场景来分析。与上述综述不同,本文按照旋转目标检测各改进模块,即特征提取网络、旋转锚框和候选框生成、标签分配及采样策略和损失函数对各方法进行系统分析和归纳,重点对近三年的遥感图像旋转目标检测方法进行综述。

考虑到旋转框表示是旋转目标检测的基础,且与旋转锚框和候选框生成等内容具有密切联系,所以,本文首先介绍旋转框表示方法,并对这些表示法存在的问题进行综合分析;然后按照网络模型的常用改进部分对遥感图像旋转目标检测领域的经典方法和当前较新方法进行重点阐述与分析;再介绍目前遥感图像旋转目标检测常用数据集,并将主要检测算法在DOTA v1.0数据集上的性能进行了对比分析;最后展望遥感图像旋转目标检测的发展方向。

1  旋转框表示

自然图像的通用目标检测采用水平框对目标进行框选,而遥感图像上的目标往往具有分布紧密、朝向任意等特点,若使用水平框对目标进行框选,框中会引入大量背景,且相邻框可能会大量重叠,导致框选准确性低。同时,由于两个水平框之间的交并比整体偏高,使用非极大值抑制后易造成目标漏检,导致召回率偏低。所以,遥感图像的目标检测通常采用旋转框对目标进行框选,当前旋转框表示方法主要包括OpenCV定义法Doc、长边定义法Dle90、长边定义法Dle135和四角点定义法[30]。

a)OpenCV定义法DOC。表示参数为(x,y,w,h,θ),其中θ∈(0,π/2]。如图1(a)所示,旋转框的几何中心为目标中心点(x,y),将x轴顺时针旋转,第一条与之贴合的边定义为宽w,另一条边定义为高h,旋转角度为θ。

b)长边定义法Dle90。表示参数为(x,y,w,h,θ),其中θ∈[-π/2,π/2)。如图1(b)所示,旋转框的几何中心为目标中心点(x,y),旋转框的最长边与x轴的夹角即为旋转角度θ。当长边在x轴上方时角度为负,当长边在x轴下方时角度为正;长边和短边的长度分别为w和h。

c)长边定义法Dle135。其表示与长边定义法Dle90一样,但是θ∈[-π/4,3π/4)。在遥感图像的目标角度分布中,处于±π/2附近的目标比例整体较多,使用长边定义法Dle90易触发角度周期性(见下文解释)。为了缓解這一问题,重新定义角度为θ∈[-π/4,3π/4),如图1(c)所示。

d)四角点定义法。表示参数为(x1,y1,x2,y2,x3,y3,x4,y4)。如图1(d)所示,用回归框的四个顶点表示旋转框,从旋转框最左边的点开始,按照顺时针方向依次得到四个角点(若为水平框,则取左上角的点为第一个点)。

下面分析这四种表示方法存在的问题:

a)角度周期性(periodicity of angular,PoA)。在OpenCV定义法和长边定义法中,当角度数值位于其定义域边界附近时,其大小可能会出现突变,使得角度损失不稳定,从而影响模型的收敛效果。如图2(a)所示,绿色真实框的角度为π/2,蓝色预测框的角度为π/20,两个框重叠度很高,由于角度损失通常采用L1系列的损失,使得损失值骤增,模型性能退化。PoA问题使得模型在角度边界附近时难以优化,降低模型的优化效率。

b)边的交换性(exchangeability of edge,EoE)。该问题存在于OpenCV定义法中,如图2(b)所示,绿色框和蓝色框分别表示真实框和锚框(参见电子版),最理想的回归路径是锚框(0,0,6,3,π/2)按照顺时针的方式旋转π/36且宽和高不发生交换得到预测框(0,0,6,3,19π/36)。该回归方式虽然简单,但在OpenCV定义法中,预测框的角度19π/36超出了定义域,并且真实框表示为(0,0,3,6,π/36)。按照该方式计算出的损失值较大。而实际回归路径为锚框按照逆时针的方式旋转15π/36,且锚框的宽变长、高缩短,得到预测框(0,0,3,6,π/36),此时损失值为0。模型以复杂的方式回归,增加了回归的难度,影响了模型的收敛速度。

c)顶点交换性(exchange of vertice,EoV)。该问题存在于使用距离损失的四角点定义法中。如图2(c)所示,紫色框为水平锚框(参见电子版),实线箭头表示旋转框顶点实际的回归路径,虚线箭头表示四边形顶点理想的回归路径。当紫色锚框(a1,b1,c1,d1)回归到红色多边形框(a2,b2,c2,d2)时,实际回归路径与理想回归路径保持一致;当紫色锚框(a1,b1,c1,d1)回归到绿色多边形框(a3,b3,c3,d3)时,由于八参数表示法以最左边的点为起始点,顶点重新排序,所以实际回归方式以一种更复杂的方式进行回归。

d)参数不一致性。在OpenCV表示法和长边表示法中,中心点坐标、宽高和角度等五个参数的测量单位不同,不同测量单位的参数在回归上存在不一致性,简单地将它们的损失相加会导致回归不一致的问题。

2  特征提取网络

特征提取是目标检测中至关重要的一步,网络模型的特征提取是否充分直接影响到模型性能的好坏,一些方法通过设计新颖的网络结构提取丰富的目标特征[31~35]。现有工作为了提高网络模型的特征提取能力,主要在基础特征提取网络、特征融合网络和特征精细化模块上进行相应改进。

2.1  基础特征提取网络

近几年,部分学者考虑改进基础特征提取网络,以改善模型的特征提取能力,提高其在遥感图像旋转目标检测的性能。目前大部分基于遥感图像的旋转目标检测算法的主干网络以ResNet系列[36]为主,其对输入图像进行下采样和残差连接等操作输出多尺度特征图,进行基础特征提取;基于YOLO的旋转目标检测算法的主干网络为DarkNet系列网络,其通过改进的卷积模块和残差模块提取基础特征;随着Transformer网络[37]的兴起,有学者将其作为遥感图像旋转目标检测主干网络[38,39],在基础特征提取上取得了较好的检测效果。本节分别从图像金字塔、注意力机制和Transformer网络模型三个角度介绍基础特征提取。

Azimi等人[40]受到语义分割网络[41]的启发,设计了一种图像级联网络(image cascade network,ICN),通过双线性插值获得四种不同尺度的输入图像,使得模型可以提取多尺度特征;此外,通过引入可变形卷积[42],在图像金字塔[43]与特征金字塔(feature pyramid network,FPN)之间设计一种可变形连接网络(deformable inception network,DIN)以增强定位小目标的性能。该方法通过权重共享把ICN与FPN结合在一起,但是引入的图像金字塔显著增加了计算量,并且DIN中的可变形卷积也引入了一定的参数,导致训练难度增加。

随着注意力机制在图像分类上表现出的优越性[44~47],众多学者将其应用于遥感图像旋转目标检测骨干网络。Ran等人[48]设计了一种轻量化旋转目标检测网络,将PeleeNet[49]作为骨干网络并进行改进,在每个过渡层之后设计一种通道增强注意力(enhanced channel attention,ECA)模块,其为一种由全局平均池化、全连接层等组成的简化结构。该方法能够增强模型的表征能力,提高检测性能。Cheng等人[50]在主干网络瓶颈模块中引入坐标注意力(coordinate attention,CA)机制[51],使得模型能够关注目标的空间位置,提高了模型训练效率。张涛等人[52]在ResNet的基础上引入方向不变模型(orientation-invariant model,OIM),增强模型对旋转目标的适应能力;同时,引入无参注意力机制(simple parameter-free attention module,SimAM)[53]并利用深度可分离卷积降低计算量,在不影响检测速度的情况下增强模型对舰船目标的关注度。Liu等人[54]设计了一种通道增强注意力机制(enhanced effective channel attention,EECA),用于残差模块中。

M(X)=σ(C2(RL(C1(Xavg)))+C2(RL(C1(Xmax))))(1)

其中:σ(·)表示sigmoid函数;RL(·)表示ReLU激活函数;C1、C2均为1×1卷积;Xavg和Xmax分别代表平均池化和最大池化操作。通过EECA注意力机制,模型更关注于目标的空间上下文信息,有利于提取细粒度特征。

随着Carion等人[55]将Transformer模型应用于通用目标检测,有学者对其进行改进并应用于旋转目标检测。Dai等人[56]提出了一种基于Transformer的旋转目标检测模型,其将图像划分为较小的4×4图像块,以利于遥感图像中小且密集分布的目标检测;同时引入全局下采样注意力(global subsampled attention,GSSA)[57]代替原自注意力,降低模型的时间复杂度。此外,该方法设计一种空间FFN(spatial feed-forward network,spatial-FFN),融合深度可分离卷积的局部空间特征和多层感知器(multilayer perceptron,MLP)的全局通道特征,以弥补vision Transformer的FFN在局部空间建模方面的不足[58]。Liu等人[59]设计了一种混合网络以提取基础特征,在Swin Transformer[60]每一阶段后添加卷积模块,使得模型具备CNN的局部性与Transformer的全局性,能够提取更丰富的特征,提高在复杂背景下的检测效果。

在基础特征提取时,使用图像金字塔可以增强基础特征提取和目标定位性能,使用注意力機制可以增强模型对目标的关注程度,使用Transformer网络有利于模型捕捉全局信息,但这三种方式均会增加模型的计算复杂度。因此,在基础特征提取时,可以根据自身网络模型的需求有针对性地对网络模型进行改进。

2.2  特征融合网络

输入图像经过基础特征提取后,通常在颈部网络进行特征融合[61,62],充分结合高层语义信息与底层细节信息以生成新的特征图。考虑到遥感图像中的目标排列密集、尺度差异大等情况,研究人员对特征融合网络进行了改进。本节从特征增强和高效特征融合等方面介绍特征融合网络。

Li等人[63]受到RefineDet[64]的启发提出了RADet,如图3所示。该方法针对目标尺度差异大的问题,在特征金字塔网络中设计了一种增强模块,结合最近邻插值和卷积对高层特征层进行上采样操作,再与底层特征层融合,有效减少了特征融合中由反卷积引起的棋盘格效应和混叠效应[65],提高了特征融合的有效性。另一方面,针对遥感图像中目标背景复杂的问题,该方法在特征金字塔网络中设计了一种多层混合注意力模块,将位置注意力模块与通道注意力模块相堆叠,对特征图的像素建立空间位置依赖关系,对于易被复杂背景淹没的小物体检测有一定帮助。刘万军等人[66]针对舰船方向任意、密集排列造成的漏检问题,提出多尺度特征增强的遥感图像舰船目标检测算法。该算法主要贡献为:a)在特征金字塔顶层特征图融合之前设计一种密集连接感受野模块(densely connected receptive field,DCRF),利用不同空洞率的卷积提取多尺度感受野特征,密集连接采用级联模式和并行模式两种策略,在级联模式中,较大空洞率的卷积层接收较小空洞率卷积层的输出,利用上下文信息产生更大的感受野,多个卷积层在并行模式下接收相同的输入,经过不同大小和不同空洞率的卷积层后输出多尺度特征;b)初步融合后,设计一种包含位置和通道的双重注意力机制,进一步对提取到的特征进行增强,该方法有效抑制噪声并突出目标特征,给予目标位置更多关注,在一定程度上缓解了目标漏检问题。

Zhen等人[67]发现在构建特征金字塔时,最顶层的通道数较骨干网络顶层通道通常会骤减,造成部分小目标的语义信息损失,对此提出一种自适应多级特征融合网络,在特征金字塔的顶层构建多尺度特征融合模块,利用多尺度加权信息补偿语义信息的损失,从而减少小目标的语义信息损失。受到循环神经网络(recurrent neural network,RNN)[68]的启发,Sun等人[16]在特征融合网络中设计一种反馈连接,增强网络模型对多尺度特征的表征能力;张国生等人[69]认为在特征金字塔中,不同尺度特征在融合时具有不同的贡献,利用自适应权重对不同尺度特征进行加权融合,融合策略如下:

Mi=Conv1×1(βiFi+(1-βi)Up(Fi-1))(2)

其中:Conv1×1(·)为1×1卷积操作;βi为自适应权重,其值为0~1;Fi和Fi-1分别表示第i和第i-1个尺度的融合特征;Up(·)表示双线性插值上采样操作。该方法使得模型能够自动选择更具判别性的尺度特征,提高整体性能。

增强目标特征和高效融合不同尺度特征是特征融合网络改进的重要举措。在增强目标特征时可以考虑引入注意力机制,降低背景噪声的干扰;在如何高效地融合不同特征层时可以借鉴R4Det[16],从而减少融合时高层语义信息的损失。

2.3  特征精细化模块

对于部分单阶段旋转目标检测方法(如由RetinaNet衍生的算法),特征不对齐是导致这些方法性能不佳的原因之一[70]。由于遥感图像目标存在方向任意的特点,在基础特征提取和融合后得到不同大小的特征图,在低层特征图上布置锚框会存在大量负样本,在高层特征图布置锚框使得锚框在训练时位置和大小难以对齐目标,所以有学者设计特征精细化模块应对此问题。本节分别从注意力机制、边界框位置调整和特征重组三个方面介绍特征精细化模块。

Liu等人[71]认为使用关键点不足以获取旋转目标的全部特征,设计一种中心边界双重注意力模块(center-boundary dual attention,CBDA),引入中心点区域掩码和边界区域掩码捕获目标重要信息,利用双重注意力机制提取目标中心和边界区域特征,将两者合并形成新特征。图4是该方法的整体网络结构,其利用不同区域注意力的优点对不同宽高比目标产生更精确的关键点定位,有助于聚焦目标的重要区域。

Yang等人[15]以RetinaNet为基线,通过使用从粗到细的渐进回归方式快速准确地检测目标。该方法设计一种特征精细化模块(feature refinement module,FRM)处理由边界框位置变化造成的特征不对齐问题,通过逐像素特征插值,将当前边界框的位置信息重新编码到对应特征点上,实现特征重构和对齐。该模块可以过滤掉一定数量的无用边界框,加快模型训练速度;同时模型对目标的位置信息更为敏感,对检测准确性的提高较为明显。Sun等人[16]在R3Det[15]的FRM之前设计一种递归连接模块(recursion connection block,RCB),其对不同特征层进行特征细化,从而加强FRM的输入特征,使得模型在特征提取上更为精确,但降低了检测速度。Liu等人[72]在YOLOX[73]上设计了一个精细化旋转模块(refined rotated mo-dule,RRM)以细化旋转目标特征,RRM由旋转边界框模块(rotated bounding box module,RBBM)和细化特征层模块(refined feature layer,RFL)組成。RBBM是一个轻量级模块,用来提取旋转目标特征;RFL中引入了对齐卷积(alignConv),其利用RBBM的输出作为偏移量,将特征与RBBM解码的旋转边界框对齐。该方法很好地继承了YOLOX的优点,检测速度较快。

Zheng等人[70]提出一种自适应动态细化单阶段目标检测网络,设计一种特征金字塔转换器(feature pyramid transformer,FPT),通过对特征金字塔的特征进行转换、重新排列、拼接和卷积等方式达到精细化特征提取的目的,有助于多尺度目标和密集目标的检测;同时,考虑边界框与目标特征存在不对齐的问题,该方法将转换后的特征进行细化,引入动态特征细化(dynamic feature refine,DFR)模块,通过对特征图进行自适应调整,重构适用于旋转目标的特征图。

特征精细化模块主要为单阶段目标检测算法设计,利用注意力机制可使模型关注旋转目标特征;直接调节特征图上边界框的位置信息能快速将边界框与特征进行对齐,较为直接地改善模型性能;基于特征重组的方式在针对密集目标的检测上较为有效。

3  旋转锚框和候选框生成

基于锚框的目标检测算法通常在特征图的每个像素上布置不同大小、宽高比的水平锚框,然后从水平锚框中提取候选区域,通过计算真实框与锚框的中心点位置偏移、宽和高的缩放比例对锚框的大小和位置进行调整,逐渐逼近真实框。二阶段无锚框目标检测算法直接在特征图的每个像素点上生成候选区域,随后利用分类器对候选框进行过滤,使得保留下的候选区域逐渐拟合真实框。旋转目标检测算法在拟合真实框时,不再基于水平框,而是基于旋转框。研究人员对此进行了研究,在旋转锚框和候选框生成上进行了一系列工作。

3.1  旋转锚框转换

Ding等人[74]设计了一个旋转感兴趣区域学习模块(rotated region of interests learner,RRoI Learner),以增加少量计算量的代价将水平锚框转换成旋转锚框,缓解了水平锚框与目标之间的不对齐问题;同时,设计了一个旋转感兴趣区域对齐模块(rotated position sensitive region of interests align,RRoI Align),从经过RRoI Learner处理后生成的感兴趣区域中提取旋转不变特征,用于后续的目标分类和位置回归。该锚框转换方式在旋转目标检测算法兴起之时取得了较好效果,但是该方法没有考虑引入角度所带来的角度周期性和边界性等问题,对于宽高比较大的目标检测效果欠佳。Xu等人[12]采用在水平锚框上滑动四顶点的方式得到旋转锚框,如图5所示。与此同时,该方法设计一个倾斜因子,其为旋转锚框与水平锚框面积之比,在推理阶段根据倾斜因子的大小,模型选择是否使用旋转框的方式对目标进行回归。该旋转锚框生成方式比引入角度的方式产生的误差小,避免了边界问题,但是该方法存在边界框回归不准确、检测速度慢等问题。

与文献[12]方法不同的是,Xie等人[13]提出中点偏移法产生旋转锚框,如图6所示。该方法在水平锚框的基础上分别对上边和右边的中点进行偏移,并通过微调得到旋转锚框。该锚框表示方法相较于文献[12]方法所需参数更少,为后续学者重新思考旋转锚框的设计提供了启发。Cheng等人[75]提出短侧偏移检测法(short-side excursion detection,SSEDet),利用短边相对于右上顶点的偏移量来表示旋转锚框,以水平锚框的中心为圆点,以短边上的点和其关于圆心对称点之间的距离为直径画圆,得到圆与该锚框长边的四个交点,分别将短边点与四个交点相连接,得到两个旋转锚框,利用三角形相似的规则过滤其中一个旋转锚框。该方法能缓解由角度误差造成的定位不精准等问题,但是在生成旋转锚框的过程中计算较为烦琐,且正方形目标的短边不易确定,对于类正方形目标训练过程模糊不定。

(x,y,w,h,α1=s1w,

α2=s2h,

α3=s3w,

α4=s4h)

3.2  二阶段anchor free回归候选框

Li等人[76]以RoI Transformer为基线,设计一种无锚框区域生成网络模块(anchor-free oriented region proposal network,AFO-RPN)代替RRoI Learner,无须布置大量锚框,提升了模型的检测速度。Cheng等人[77]设计了一种无锚框旋转提议生成器(anchor-free oriented proposal generator,AOPG)产生旋转候选框,在特征图上以无锚框的方式在每个像素点生成粗略的类别分数和粗略的旋转候选框,并引入可变形卷积将粗略的旋转候选框与特征进行对齐得到精细旋转候选框。该方法通过由粗到精的方式产生高质量的旋转框,提高检测精度。

3.3  其他

Wang等人[78]认为在旋转目标检测时,在特征图上布置水平锚框会产生回归误差,进一步影响旋转锚框质量。为了解决这一问题,该方法根据最小外接矩形原则,将RoI Transformer产生的旋转锚框反转换成水平锚框,随后与布置的水平锚框计算IoU损失,对水平锚框与旋转角度之间建立了一种约束关系。该方法直观简单,以一种几乎无成本的方式增强了锚框的鲁棒性。由此可以得出,使用锚框转换方式得到旋转锚框简单直观,但需要考虑可能引入角度所带来的问题;二阶段anchor free回归旋转框的方式能整体降低模型参数量,提高检测速度;针对水平锚框与旋转锚框进行约束也能提高模型的性能。

4  标签分配及采样策略

在模型训练前,通常在特征图上布置一系列锚框或点集,根据锚框与真实框的交并比或点集在真实框的位置进行正样本、负样本、忽略样本等属性分配[79],不同的样本分配策略会给模型带来性能差异。确定样本属性后,需要对样本进行采样操作,使得样本平衡。

4.1  基于锚框的标签分配

基于锚框的目标检测算法通常根据锚框与真实框的交并比进行正负样本划分。预设两个阈值,将与真实框交并比大于較大阈值的锚框置为正样本,与真实框交并比小于较小阈值的锚框置为负样本,其余锚框为忽略样本。本节从样本衡量因子设计和基于交并比划分样本的改进进行介绍。

Ming等人[80]发现在标签分配时使用交并比的方法会存在回归不精确、分类与回归性能不一致等问题,提出一种动态锚框分配方法,设计一种正负样本衡量因子综合评价锚框的定位能力:

md=αs+(1-α)f-uγ(3)

其中:s表示该锚框的空间对齐先验知识,在数值上等于锚框与真实框的交并比;f表示该锚框的特征对齐能力,在数值上等于锚框与回归框之间的交并比;α、γ为超参数;u表示惩罚因子,由回归前后的交并比变化量所得。

u=|s-f|(4)

通过计算衡量因子的大小,网络选择高质量的锚框,使得框回归变得精确并缓解分类与回归之间不一致的问题。Wang等人[78]在采用交并比分配正负样本的基础上,额外计算正样本与真实框的最小外接水平框的交并比dgh,同时计算正样本与真实框的交并比dgo,但是分母为真实框,即

dgo=cg∩g0g0(5)

最后对dgh、dgo两者取平均得到tg,当tg大于设定的阈值时,将该锚框置为正样本。通过这种简单的计算方式,在增加少量计算的前提下可得到高质量正样本。

综上,基于锚框的标签分配,通过设计一种适用于锚框定位能力的样本衡量因子能够取得比基于传统交并比的标签分配方案更好的效果。由于锚框描述对象为旋转目标,针对交并比做特殊的设计修改也可得到高质量正样本。

4.2  基于点集的标签分配及采样策略

基于无锚框的目标检测算法,通常采用中心采样策略确立正负样本:通过设定中心采样半径,以真实框的中心为圆心,将采样半径内的样本点置为正样本,其余样本点置为负样本。本节分别从收缩法、高斯分布采样法和点质量度量法等方面进行介绍。

受到EAST[81]的启发,Zhu等人[82]利用收缩法进行正负样本分配。如图7所示(参见电子版),该方法引入两个参数r1、r2(r1

Li等人[83]提出了一种单阶段无锚框旋转目标检测网络,采用基于2D高斯分布的椭圆中心采样,即

g(X)=exp(-12(X-μ)TΣ-1(X-μ))(6)

其中:X表示该点的二维向量坐标;μ为中心点的坐标;Σ表示协方差矩阵,其可由水平协方差矩阵Σ0与旋转变化矩阵Rθ得到:

Σ=Rθ·Σ0·RTθ(7)

Rθ=cos θ-sin θ

sin θcos θ,Σ0=min(w,h)12w0

0h(8)

其中:w、h分别表示旋转框的宽和高;θ表示旋转角度。当某一点的采样分数g(X)大于设定的阈值时,则对该点进行采样,该采样方法为旋转目标框提供了合适的采样区域。与此同时,该文献指出,模糊样本标签分配策略(当某一点同时位于不同目标的中心时,以往的标签分配策略通常按照目标最小原则进行标签分配)不适用于遥感图像,其基于2D高斯分布引入一个采样分数J(X),即

J(X)=wh·f(X)(9)

其中:w、h分别表示旋转框的宽和高;f(X)表示该点的2D高斯分布。当该点在某一目标上取得的分数最高,则将目标的标签赋予该点。最后,通过该方法计算目标短边长度与采样步幅之商,当其小于2或目标最小外接矩形的长边超出了特征图的接受范围,则在下一级更大的特征图上进行采样。这两种标签分配策略为模型提供了合理的标签。

Li等人[84]认为在无锚框的旋转目标检测中,点的质量对最终检测结果至关重要。为了挑选高质量的样本点,提出一种点集评估和分配方案(adaptive points assessment and assignment,APAA)度量点的质量,从分类质量、定位质量、方向质量和点相关质量四个方面对点集进行质量度量,即

Q=Qcls+μ1Qloc+μ2Qori+μ3Qpoc(10)

其中:μ1、μ2、μ3为各质量的权重;分类质量Qcls反映了点特征与真实框的类别接近程度,即

Qcls(Ri,bj)=Lcls(Rclsi(θ),bclsj)(11)

其中:Rclsi(θ)表示该点的分类置信度;bclsj表示真实框的标签;Lcls为分类损失函数。定位质量Qloc表示空间位置距离的度量,反映了该点集中心与真实框几何中心的接近程度,即

Qloc(Ri,bj)=Lloc(OBloci(θ),blocj)(12)

其中:OBloci(θ)表示点的位置;blocj表示真值框的中心;Lloc为定位损失函数。方向质量反映了该点集与真值框轮廓点之间的方向差异,即

Qori(Ri,bj)=CD(Rvi(θ),Rgbi)(13)

其中:Rvi(θ)表示点集的四个角点;Rgbj表示真值框的四个角点;CD(·)表示倒角距离。

点相关质量反映了点集的点相关程度,使用特征向量之间的余弦相似度来衡量点相关质量,即

Qpoc=1-1Np∑kcos(e*i,k,e*i)(14)

e*i,k=ei,k‖ei,k‖2(15)

e*i=1Np∑k=1e*i,k(16)

其中:Np代表一组点集中点的个数;ei,k表示第i组点的第k个点相关特征向量;e*i,k、e*i分别表示第i组点的归一化嵌入特征向量和均值。APAA方案使模型能够布置高质量的点集,提高点集的分类置信度和定位分数,但是该方法训练过程缓慢,模型收敛时间较长。

由上可以看出,基于边界框收缩的方法能够确保绝大部分目标都有正样本;基于2D高斯分布的采样方法为每个点计算采样分数,根据分数高低更合理地确立正样本;设计新的点集分配方案能够从整体上把握点集质量,得到高质量的采样点。

4.3  其他

Liang等人[85]认为基于交并比的锚框匹配策略会带来量化误差、噪声样本、特征金字塔层级与样本不匹配等问题,进一步使得与小目标匹配的锚框较少或误匹配,而使用点集的方式生成的旋转框与小目标的交并比较布置锚框的方式更高,因此提出了一种动态增强锚框网络(dynamic enhancement anchor network,DEA-Net),在特征图上以布置锚框的方式和生成点集的方式分别得到一系列的锚框A、B,并计算其与真实框的交并比IAg、IBg,筛选出点集方式产生的更高IoU的候选框B。

(IBjg≥IAig)∩(IBjg≥TP)(17)

其中:i、j分别表示锚框A、B的索引;TP表示设定的正样本阈值。当锚框B与真实框的交并比大于锚框A与真实框的交并比且大于正样本阈值时,将该锚框置为正样本。通过第一次筛选,筛选出点集支路的高质量候选框,再以同样方式对锚框A进行筛选。

(IAjg≥TP)∩(IAjg≥IBjg)(18)

通过再次筛选,找到锚框支路的高质量候选框Ajg,并将其置为正样本。该方法利用锚框支路产生大目标和宽高比较大目标的正样本,利用点集支路产生小目标的正样本,利用样本鉴别器(sample discriminator)在锚框与点集之间生成合格样本,提高模型的小目标检测性能。Hou等人[86]提出了形状自适应选择策略(shape-adaptive selection,SAS)和形状自适应测量策略(shape-adaptive measurement,SAM),SAS将物体形状信息聚焦在宽高比上,针对不同宽高比的对象计算最优交并比阈值。SAM将质量信息添加到正样本中,结合目标的中心和形状计算出样本点相对于目标的距离,以此衡量正样本的质量。该方法实现了不同样本之间的动态选择,提升了宽高比较大的目标性能。使用动态样本选择策略能够结合锚框方法与点集方法的优点,为小目标匹配更合适的正样本;使用自适应的样本选择策略可以充分结合目标的形状信息和中心点信息,在选择正样本时更为灵活。

5  损失函数

目标检测模型的损失函数包括分类损失和回归损失。分类损失函数直接影响预测框的类别概率,在旋转目标检测模型中,focal loss[20]为最常见的分类损失,其针对样本不平衡问题,在交叉熵损失的基础上引入一个调节因子降低易分类样本权重,使得模型聚焦于困难样本的训练。回归损失函數直接影响预测框的定位准确性,对于旋转目标检测模型,对角度做smooth L1损失[87]是一种较为常见的方式,但由于训练时采用的优化指标与评价性能指标(IoU)不一致,影响了模型性能;交并比损失[88~91]通过优化旋转框的重叠度训练网络参数,帮助模型改善定位结果,有效评估模型的回归准确率。但由于当前开源框架中并不支持旋转交并比(skewIoU)损失,所以该损失在旋转目标检测领域没有被广泛使用。针对以上问题,研究人员对旋转目标检测网络的回归损失函数进行了相应的研究,本章分别从损失函数加权因子、回归损失的转换、高斯分布度量损失等方面对损失函数进行介绍。

Yang等人[92]针对旋转边界框回归的角度边界问题设计IoU常数因子|-log(IoU)|,对回归损失函数进行了改进:

Lreg=1N∑Nn=1t′n∑j∈{x,y,w,h,θ}LsmoothL1(v′nj,vnj)LsmoothL1(v′nj,vnj)-log(IoU)(19)

其中:N表示候选框的数目;t′n表示目标的二值分布;v′nj和vnj分别表示预测框的偏移量和真实框的编码;IoU表示预测框与真实框的交并比;LsmoothL1为smooth L1损失。该方法在传统的smooth L1损失中引入IoU常数因子|-log(IoU)|,在边界情况下,|-log(IoU)|接近于0,使得回归损失近似等于0,消除损失突增。Liu等人[71]发现不同宽高比的目标对角度误差具有不同的敏感性,提出一种基于宽高比的加权角度损失,即

Larw(θi,θi)=∑Ni=1{(1+e-1/rati)|θi-θi|}(20)

其中:N表示一个批次中的目标个数;i表示一个批次中的目标索引;rati表示目标的宽高比;θi表示预测框的角度,θi表示真实框的角度;根据目标的宽高比分配不同的权重,使得宽高比较大的目标获得更高的惩罚。

Yang等人[93]以分类的方式处理旋转框角度,克服了角度周期性和边的交换性问题,但是其对角度编码的方式需要的位数较长,使得预测层过于厚重,增加了参数量和计算量。针对此问题,文献[94]采用二值编码和格雷编码,相较于文献[93]大幅降低了参数量和计算量。上述方法验证了将角度回归转换成角度分类是可行的,但却没有利用角度分类这一想法的优越性,损失函数的梯度方向依然由距离损失主导。

Qian等人[95]设计FRIoU(focal rotated-IoU)衡量两个旋转框之间的重叠程度,通过分别计算旋转框的上顶点和右顶点与最小外接矩形的上边中点和右边中点的偏移量,并将之引入到Focal-EIoU[96]损失函数中,该方法继承了Focal-EIoU损失的优点,使得模型更加关注困难样本,可提高检测性能。Yang等人[97]定义了一个距离公式用来描述两个多边形的重叠度,并进一步提出了P2P(polygon to polygon distance)损失,即

LP2P=αLc+βLsp+λL′P2P(21)

其中:α、β、λ为各损失项的权重;Lc表示多边形中心点损失,用来优化预测框的中心点参数;Lsp表示与宽高有关的半周长损失,用来优化预测框的宽、高等参数;L′P2P表示P2P距离损失,用来优化预测框的位置。Lc和Lsp均为smooth L1损失函数,表示为

Lc=∑i∈{x,y}smoothL1(ti,ti)(22)

Lsp=smoothL1((wA+hA)/(wB+hB),1)(23)

其中:ti、ti分别表示预测框与真实框的中心点坐标;wA、hA、wB、hB分别表示预测框和真实框的宽和高。L′P2P是基于P2P距离提出的损失,即

L′P2P=d(A4,B4)/(SA+SB)(24)

其中:SA、SB分别表示预测框与真实框的面积;d(·)表示预测框与真实框的P2P距离。

d(An,Bm)=(1nSPP(An,Bm)-SB)=(1mSPP(Bm,An)-SA)(25)

其中:n、m分别表示多边形A、B的顶点数;SPP(·)表示P2P面积,定义为

SPP(An,Bm)=∑ni=1SVP(viA,EB)(26)

其中:viA表示多边形A的第i个顶点;EB表示多边形B;SVP表示多边形A的第i个顶点与多边形B的V2P面积,其计算方法如下:当多边形A的顶点i处于多边形B的内部或外部时,按照图8(a)(b)所示划分为多个三角形,再进行三角形面积相加。通过该方法表示两个旋转框的重叠程度,避免了角度周期性的问题,本质上不受任何旋转框形状的约束。

使用现有深度学习框架算子不易实现skewIoU,文献[98]将旋转框转换成为二维高斯分布(m,Σ),即

m=(x,y)Σ1/2=RΛRT=

cos θ-sin θ

sin θcos θw20

0h2 cos θsin θ

-sin θcos θ(27)

其中:x和y分別表示旋转框的中心点的横纵坐标;R为旋转变换矩阵;Λ表示中心点的对角矩阵。通过计算两个旋转框之间高斯分布的Wasserstein距离[99]来判断旋转框之间的重合程度,即

d2=‖m1-m2‖22+Tr(Σ1+Σ2-2(Σ1/21Σ2Σ1/21)1/2)(28)

其中:‖·‖2表示2范数,用来计算两个旋转框中心点的欧氏距离;Tr表示矩阵的迹;m1、m2分别表示预测框与真实框的中心点坐标;Σ1、Σ2分别表示预测框与真实框的协方差矩阵。这种方式能够较好地解决边界问题和类正方形问题,但是在中心点单独优化时会出现检测结果的位置偏移,并且该方法缺乏尺度不变性。针对以上问题,文献[100]利用KL散度代替Wasserstein距离,并在协方差矩阵Σ中引入了两个权重1/w2t、1/h2t,模型可以根据目标的尺度动态调整权重,使得模型具备尺度不变性。Yang等人[38]不再通过分布距离进行距离度量,而是通过卡尔曼滤波模拟交并比的计算过程:将两个旋转框转换成高斯分布,利用卡尔曼滤波对两块高斯分布区域相乘,得到相交区域的高斯分布,最后将三块高斯分布反转换为旋转矩形框,计算近似的交并比,该方法取得了比文献[98,100]更好的效果。由上可以看出,通过设计损失函数加权因子在一定程度上能够缓解角度周期性问题;采用分类的方式处理角度损失,避免了角度周期性和边的交换性,但是其检测效果仍需进一步挖掘;利用高斯分布度量距离或近似交并比处理损失函数取得了很好的效果,值得进一步研究。

6  数据集及各方法性能对比

6.1  遥感图像旋转目标检测公开数据集

数据集是进行深度学习各项研究任务的前提,正是在大量数据的支持下,深度学习才得以飞速发展。当前遥感图像旋转目标检测技术发展迅速,各研究团队制做了一些遥感图像旋转目标检测数据集,研究人员基于数据进行模型训练和算法性能验证并不断改进算法,从而提高性能。本节对DOTA系列、UCAS-AOD等14种已公开的旋转数据集进行介绍,包括内容描述、框标注方式、图像和实例、数据集大小以及数据集地址,如表1所示。

6.2  检测算法性能比较

现有的遥感图像旋转目标检测中最常用的评测指标是精确度(precision)、召回率(recall)和平均精度(average precision)。精确度反映所有被检测出来的目标中检测正确的概率,召回率反映所有目标被检测出来的概率。以召回率、精确度为横纵坐标画出的曲线称为精确度-召回率曲线(precision-recall curve),简称PR曲线。曲线下对应的面积称为平均精度(average precision,AP),用来表征单一类别的检测性能。每个检测类别对应一个AP值,所有类别AP的平均值记为mAP(mean AP),用来评测算法的整体性能。为了比较算法在复杂场景下的表现和对多类目标的检测鲁棒性,本节利用常用数据集DOTA v1.0对前述各类型算法进行性能比对。为了公平比较,大部分方法都是在单尺度训练和测试的条件下进行比较,部分方法采用多尺度训练和测试。通过对第一部分各算法改进内容的分析,结合表2中各算法在DOTA v1.0上的性能对比可以得出:

a)设计模型算法时应当充分考虑主干网络的特征表达能力和算法的特点。如表2所示,由于ResNet由多个残差模块构成,在提取目标深层特征的同时能缓解梯度消失问题,适用于绝大部分算法;近期兴起的Swin Transformer网络具有层级特征结构的特点,可以很好地适用于Oriented RepPoints等算法。

b)结合遥感图像目标特性,针对一阶段算法本身特点进行一系列的改进是有效的。如表2所示,R3Det、R4Det和ADT-Det等算法在DOTA v1.0数据集上的mAP分别达到73.74%、75.84%和77.43%,取得了较好的检测精度。上述方法均为一阶段算法,其基线采取端到端的方式,模型在面对旋转目标时回归性能差。研究人员考虑旋转目标与水平目标的差异,对目标的位置信息重新编码并细化,使边界框能有效对齐目标特征,改善模型检测性能。如R4Det在R3Det的基础上进一步细化旋转边界框,检测精度提升了2.1%。

c)利用高斯建模处理损失能提高模型性能。如表2所示,KLD、GWD和KFIOU等在DOTA v1.0上地mAP均超过77%,其值取得了较高精度的一个重要原因是这些方法在计算损失上引入了高斯建模,KLD、GWD通过高斯分布进行距离度量,使得检测器能够克服角度周期性等问题;KFIOU使用高斯分布和卡尔曼滤波得到近似的旋转交并比,取得了很好的效果。

7  遥感图像旋转目标检测展望

当前,基于深度学习的遥感图像旋转目标检测发展如火如荼,在DOTA v1.0数据集上的单尺度测试精度已经达到79.15%[95],多尺度测试精度已经超过81%[38]。然而,算法对于密集目标、弱小目标和外观模糊目标的检测精度不够高、检测速度整体不够快的问题依然存在,如何进一步提高算法的精度和速度仍然是未来的研究重点。本文对遥感图像旋转目标检测存在的问题及发展趋势进行展望。

a)在轨实时检测。受到实际应用需求,遥感图像旋转目标检测任务将朝着在轨实时方向发展。由于遥感图像的空间分辨率大且旋转目标检测任务较通用目标检测更为复杂,在模型训练和推理过程中会耗费大量计算资源,导致算法参数量庞大、检测速度慢。受制于遥感卫星有限算力,如何在牺牲少量甚至不牺牲网络模型精度的条件下,尽可能地降低网络模型的计算量和参数量、提升其检测速度,实现遥感图像在轨实时检测是未来重要的研究方向。

b)多源图像融合检测。目前遥感图像旋转目标检测主要针对可见光图像,其容易受到恶劣天气、云雾遮挡等复杂环境因素影响,使用可见光相机获取的图像其目标可能存在遮挡、模糊、边界不清晰、纹理信息弱、可利用特征少等问题,给旋转目标检测提出了更多的挑战。随着合成孔径雷达、红外熱成像等技术的逐渐成熟,通过融合可见光图像与红外图像、SAR图像等能够克服上述可见光图像的问题。因此,可以结合旋转目标检测技术与多源图像融合技术提高旋转目标检测的鲁棒性。

c)主干网络设计。旋转目标检测网络在骨干网络的选取上大都采用经典的分类网络,如ResNet。众多学者在旋转目标检测网络的改进工作中将重心放到了颈部网络、检测头上面。随着Swin Transformer的兴起,有学者将之作为旋转目标检测器的骨干网络,如Oriented RepPoints、KFIOU等,取得了比ResNet主干网络(同一方法下不同主干网络)更好的性能。因此,可以结合旋转目标的特性,设计一种适配于旋转目标检测任务的高性能主干网络。

d)先进旋转框表示。当前旋转框的表示方式会出现角度周期性、边的交换性、顶点交换性和参数不一致性等问题,使模型以一种低效的方式训练,对算法的检测性能造成影响。如何设计一种先进的旋转框表示方式将是旋转目标检测算法的重要研究方向。

e)结合弱监督、半监督的旋转目标检测。由于旋转目标数据集的样本标注成本高,同时数据集大都存在小目标、模糊目标未标注等质量问题,结合弱监督、半监督的旋转目标检测是一个值得研究的方向。目前,在通用目标检测领域,弱监督和半监督已获得较多关注,但关于旋转目标检测的弱监督和半监督的方法还很少。由于旋转目标检测的对象通常具有任意朝向、密集分布等特殊性,现有弱监督、半监督旋转目标检测方法的检测精度较低,亟待提高,需要针对旋转目标检测进行深入的弱监督和半监督研究。

参考文献:

[1]陈璐,管霜霜.基于深度学习的城市高分遥感图像变化检测方法的研究[J].计算机应用研究,2020,37(S1):320-323.(Chen Lu,Guan Shuangshuang.Research on changing detection method of urban high-resolution remote sensing image based on deep learning[J].Application Research of Computers,2020,37(S1):320-323.)

[2]南曉虎,丁雷.深度学习的典型目标检测算法综述[J].计算机应用研究,2020,37(S2):15-21.(Nan Xiaohu,Ding Lei.Review of typical target detection algorithms for deep learning[J].Application Research of Computers,2020,37(S2):15-21.)

[3]Ding Jian,Xue Nan,Xia Guisong,et al.Object detection in aerial images:a large-scale benchmark and challenges[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(11):7778-7796.

[4]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(11):91-110.

[5]Noble W S.What is a support vector machine?[J].Nature Biotechnology,2006,24(12):1565-1567.

[6]赵永强,饶元,董世鹏,等.深度学习目标检测方法综述[J].中国图象图形学报,2020,25(4):629-654.(Zhao Yongqiang,Rao Yuan,Dong Shipeng,et al.Survey on deep learning object detection[J].Journal of Image and Graphics,2020,25(4):629-654.)

[7]蒋光峰,胡鹏程,叶桦,等.基于旋转中心点估计的遥感目标精确检测算法[J].计算机应用研究,2021,38(9):2866-2870.(Jiang Guangfeng,Hu Pengcheng,Ye Hua,et al.Remote sensing target accurate detection algorithm based on rotation center point estimation[J].Application Research of Computers,2021,38(9):2866-2870.)

[8]Zhou Yue,Yang Xue,Zhang Gefan,et al.MMRotate:a rotated object detection benchmark using PyTorch[C]//Proc of the 30th ACM International Conference on Multimedia.New York:ACM Press,2022:7331-7334.

[9]Cheng Gong,Yao Yanqing,Li Shengyang,et al.Dual-aligned oriented detector[J].IEEE Trans on Geoscience and Remote Sensing,2022,60:5618111.

[10]Zhou Qiang,Yu Chaohui.Point RCNN:an angle-free framework for rotated object detection[J].Remote Sensing,2022,14(11):2605.

[11]Han Jiaming,Ding Jian,Xue Nan,et al.ReDet:a rotation-equivariant detector for aerial object detection[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:2786-2795.

[12]Xu Yongchao,Fu Mingtao,Wang Qi,et al.Gliding vertex on the horizontal bounding box for multi-oriented object detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,43(4):1452-1459.

[13]Xie Xingxing,Cheng Gong,Wang Jiabao,et al.Oriented R-CNN for object detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:3520-3529.

[14]Ren Shaoqing,He Kaiming,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

[15]Yang Xue,Yan Junchi,Feng Ziming,et al.R3Det:refined single-stage detector with feature refinement for rotating object[C]//Proc of the 35th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:3163-3171.

[16]Sun Peng,Zheng Yongbin,Zhou Zongtan,et al.R4Det:refined single-stage detector with feature recursion and refinement for rotating object detection in aerial images[J].Image and Vision Computing,2020,103(11):104036.

[17]沈豐毅,王琴,蒋剑飞.基于改进卷积神经网络舰船的实时目标检测算法[J].计算机应用研究,2020,37(S1):316-319.(Shen Fengyi,Wang Qin,Jiang Jianfei.Real-time automatic ship detection based on modified convolutional neural networks[J].Application Research of Computers,2020,37(S1):316-319.)

[18]Yu Xinyi,Lin Mi,Lu Jiangping,et al.Oriented object detection in ae-rial images based on area ratio of parallelogram[EB/OL].(2021-11-08).https://arxiv.org/ftp/arxiv/papers/2109/2109.10187.pdf.

[19]Wang Xinxin,Wang Guanzhong,Dang Qingqing,et al.PP-YOLOE-R:an efficient anchor-free rotated object detector[EB/OL].(2022-11-04).https://arxiv.org/pdf/2211.02386.pdf.

[20]Tsungyi L,Goyal P,Girshick R,et al.Focal loss for dense object detection[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:2980-2988.

[21]Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:779-788.

[22]Redmon J,Farhadi A.YOLO9000:better,faster,stronger[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:7263-7271.

[23]Redmon J,Farhadi A.YOLOv3:an incremental improvement[EB/OL].(2018-04-08).https://arxiv.org/pdf/1804.02767.pdf.

[24]Bochkovskiy A,Wang C Y,Liao H Y M.YOLOv4:optimal speed and accuracy of object detection[EB/OL].(2020-04-23).https://arxiv.org/pdf/2004.10934.pdf.

[25]Xia Guisong,Bai Xiang,Ding Jian,et al.DOTA:a large-scale dataset for object detection in aerial images[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3974-3983.

[26]Li Ke,Wan Gang,Cheng Gong,et al.Object detection in optical remote sensing images:a survey and a new benchmark[J].ISPRS Journal of Photogrammetry and Remote sensing,2020,159(1):296-307.

[27]张磊,张永生,于英,等.遥感图像倾斜边界框目标检测研究进展与展望[J].遥感学报,2022,26(9):1723-1743.(Zhang Lei,Zhang Yongsheng,Yu Ying,et al.Survey on object detection in tilting box for remote sensing images[J].Journal of Remote Sensing,2022,26(9):1723-1743.)

[28]安胜彪,娄慧儒,陈书旺,等.基于深度学习的旋转目标检测方法研究进展[J].电子测量技术,2021,44(21):168-178.(An Shengbiao,Lou Huiru,Chen Shuwang,et al.Research progress of rotating target detection methods based on deep learning[J].Electronic Measurement Technology,2021,44(21):168-178.)

[29]廖育荣,王海宁,林存宝,等.基于深度学习的光学遥感图像目标检测研究进展[J].通信学报,2022,43(5):190-203.(Liao Yurong,Wang Haining,Lin Cunbao,et al.Research progress of deep learning-based object detection of optical remote sensing image[J].Journal on Communications,2022,43(5):190-203.)

[30]胡凯旋.基于YOLOv5的航拍图像旋转目标检测算法[D].成都:电子科技大学,2022.(Hu Kaixuan.Oriented object detector in UAVs aerial images based on YOLOv5[D].Chengdu:University of Electronic Science & Technology of China,2022.)

[31]吕晓君,向伟,刘云鹏.基于强化底层特征的无人机航拍图像小目标检测算法[J].计算机应用研究,2021,38(5):1567-1571.(Lyu Xiaojun,Xiang Wei,LiuYunpeng.Small object detection algorithm on UAV aerial images based on enhanced lower feature[J].Application Research of Computers,2021,38(5):1567-1571.)

[32]連远锋,李光洋,沈韶辰.融合超像素与多模态感知网络的遥感影像车辆检测[J].光学精密工程,2023,31(6):905-919.(Lian Yuanfeng,Li Guangyang,Shen Shaochen.Vehicle detection method based on remote sensing image fusion of superpixel and multi-modal sensing network[J].Optics and Precision Engineering,2023,31(6):905-919.)

[33]李晖晖,周康鹏,韩太初.基于CreLU和FPN改进的SSD舰船目标检测[J].仪器仪表学报,2020,41(4):183-190.(Li Huihui,Zhou Kangpeng,Han Taichu.Ship object detection based on SSD improved with CreLU and FPN[J].Chinese Journal of Scientific Instrument,2020,41(4):183-190.)

[34]闫钧华,张琨,施天俊,等.融合多层级特征的遥感图像地面弱小目标检测[J].仪器仪表学报,2022,43(3):221-229.(Yan Junhua,Zhang Kun,Shi Tianjun,et al.Multi-level feature fusion based dim and small ground target detection in remote sensing images[J].Chinese Journal of Scientific Instrument,2022,43(3):221-229.)

[35]何哲,陶于祥,罗小波,等.基于改进U-Net网络的遥感图像道路提取[J].激光与光电子学进展,2023,60(16):1628004.(He Zhe,Tao Yuxiang,Luo Xiaobo,et al.Road extraction from remote sensing image based on improved U-Net[J].Laser & Optoelectro-nics Progress,2023,60(16):1628004.)

[36]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.

[37]Han Kai,Xiao An,Wu Enhua,et al.Transformer in transformer[EB/OL].(2021-10-26).https://arxiv.org/pdf/2103.00112.pdf.

[38]Yang Xue,Zhou Yue,Zhang Gefan,et al.The KFIoU loss for rotated object detection[EB/OL].(2023-02-06).https://arxiv.org/abs/2201.12558.pdf.

[39]李想,特日根,仪锋,等.针对全球储油罐检测的TCS-YOLO模型[J].光学精密工程,2023,31(2):246-262.(Li Xiang,Te Rigen,Yi Feng,et al.TCS-YOLO model for global oil storage tank inspection[J].Optics and Precision Engineering,2023,31(2):246-262.)

[40]Azimi S M,Vig E,Bahmanyar R,et al.Towards multi-class object detection in unconstrained remote sensing imagery[C]//Proc of the 14th Asian Conference on Computer Vision.Cham:Springer,2019:150-165.

[41]Zhao Hengshuang,Qi Xiaojuan,Shen Xiaoyong,et al.ICNet for real-time semantic segmentation on high-resolution images[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:405-420.

[42]Dai Jifeng,Qi Haozhi,Xiong Yuwen,et al.Deformable convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:764-773.

[43]Burt P J,Adelson E H.The Laplacian pyramid as a compact image code[M]//Readings in Computer Vision:Issues,Problems,Principles,and Paradigms.San Francisco,CA:Morgan Kaufmann Publi-shers,1987:671-679.

[44]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc.,2017:6000-6010.

[45]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:7132-7141.

[46]Li Xiang,Wang Wenhai,Hu Xiaolin,et al.Selective kernel networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:510-519.

[47]趙玉卿,贾金露,公维军,等.基于pro-YOLOv4的多尺度航拍图像目标检测算法[J].计算机应用研究,2021,38(11):3466-3471.(Zhao Yuqing,Jia Jinlu,Gong Weijun,et al.Multi-scale aerial image target detection algorithm based on pro-YOLOv4[J].Application Research of Computers,2021,38(11):3466-3471.)

[48]Ran Qiong,Wang Qing,Zhao Boya,et al.Lightweight oriented object detection using multiscale context and enhanced channel attention in remote sensing images[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2021,14:5786-5795.

[49]Wang R J,Li Xiang,Ling C X.Pelee:a real-time object detection system on mobile devices[C]//Proc of the 32nd International Confe-rence on Neural Information Processing Systems.Red Hook:Curran Associates Inc.,2018:1967-1976.

[50]Cheng Xiaotong,Zhang Chongyang.C2-YOLO:rotating object detection network for remote sensing images with complex backgrounds[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2022:1-8.

[51]Hou Qibin,Zhou Daquan,Feng Jiashi.Coordinate attention for efficient mobile network design[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13713-13722.

[52]张涛,杨小冈,卢瑞涛,等.基于关键点的遥感图像舰船目标检测[J].系统工程与电子技术,2022,44(8):2437-2447.(Zhang Tao,Yang Xiaogang,Lu Ruitao,et al.Key-point based method for ship detection in remote sensing images[J].Systems Engineering and Electronics,2022,44(8):2437-2447.)

[53]Yang Lingxiao,Zhang Ruyuan,Li Lida,et al.SimAM:a simple,parameter-free attention module for convolutional neural networks[C]//Proc of International Conference on Machine Learning.2021:11863-11874.

[54]Liu Yanfeng,Li Qiang,Yuan Yuan,et al.ABNet:adaptive balanced network for multiscale object detection in remote sensing imagery[J].IEEE Trans on Geoscience and Remote Sensing,2022,60:5614914.

[55]Carion N,Massa F,Synnaeve G,et al.End-to-end object detection with transformers[C]//Proc of the 16th European Conference Computer Vision.Cham:Springer,2020:213-229.

[56]Dai Yaonan,Yu Jiuyang,Zhang Dean,et al.RODFormer:high-precision design for rotating object detection with transformers[J].Sensors,2022,22(7):2633.

[57]Chu Xiangxiang,Tian Zhi,Wang Yuqing,et al.Twins:revisiting the design of spatial attention in vision transformers[EB/OL].(2021-09-30).https://arxiv.org/pdf/2104.13840.pdf.

[58]Han Kai,Wang Yunhe,Chen Hanting,et al.A survey on vision transformer[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,45(1):87-110.

[59]Liu Xulun,Ma Shiping,He Linyuan,et al.Hybrid network model:transconvnet for oriented object detection in remote sensing images[J].Remote Sensing,2022,14(9):2090.

[60]Liu Ze,Lin Yutong,Cao Yue,et al.Swin transformer:hierarchical vision transformer using shifted windows[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:10012-10022.

[61]Zhang Gongjie,Lyu Shijian,Zhang Wei.CAD-Net:a context-aware detection network for objects in remote sensing imagery[J].IEEE Trans on Geoscience and Remote Sensing,2019,57(12):10015-10024.

[62]汪西莉,梁正印,劉涛.基于特征注意力金字塔的遥感图像目标检测方法[J].遥感学报,2023,27(2):492-501.(Wang Xili,Liang Zhengyin,Liu Tao.Feature attention pyramid-based remote sensing image object detection method[J].Journal of Remote Sensing,2023,27(2):492-501.)

[63]Li Yangyang,Huang Qin,Pei Xuan,et al.RADet:refine feature pyramid network and multi-layer attention network for arbitrary-oriented object detection of remote sensing images[J].Remote Sensing,2020,12(3):389.

[64]Zhang Shifeng,Wen Longyin,Bian Xiao,et al.Single-shot refinement neural network for object detection[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4203-4212.

[65]Odena A,Dumoulin V,Olah C.Deconvolution and checkerboard artifacts[J/OL].Distill,2016,1(10):DOI:10.23915/distill.00003.

[66]劉万军,高健康,曲海成,等.多尺度特征增强的遥感图像舰船目标检测[J].自然资源遥感,2021,33(3):97-106.(Liu Wanjun,Gao Jiankang,Qu Haicheng,et al.Ship detection based on multi-scale feature enhancement of remote sensing images[J].Remote Sensing for Natural Resources,2021,33(3):97-106.)

[67]Zhen Peining,Wang Shuqi,Zhang Suming,et al.Towards accurate oriented object detection in aerial images with adaptive multi-level feature fusion[J].ACM Trans on Multimedia Computing,Communications and Applications,2023,19(1):article No.6.

[68]Zaremba W,Sutskever I,Vinyals O.Recurrent neural network regulari-zation[EB/OL].(2015-02-19).https://arxiv.org/pdf/1409.2329.pdf.

[69]张国生,冯广,李东.基于姿态表示的航空影像旋转目标检测网络[J].广东工业大学学报,2021,38(5):40-47.(Zhang Guosheng,Feng Guang,Li Dong.Pose-based oriented object detection network for aerial images[J].Journal of Guangdong University of Technology,2021,38(5):40-47.)

[70]Zheng Yongbin,Sun Peng,Zhou Zhongtan,et al.ADT-Det:adaptive dynamic refined single-stage transformer detector for arbitrary-oriented object detection in satellite optical imagery[J].Remote Sensing,2021,13(13):2623.

[71]Liu Shuai,Zhang Lu,Lu Huchuan,et al.Center-boundary dual attention for oriented object detection in remote sensing images[J].IEEE Trans on Geoscience and Remote Sensing,2021,60:1-14.

[72]Liu Fei,Chen Renwen,Zhang Junyi,et al.R2YOLOX:a lightweight refined anchor-free rotated detector for object detection in aerial images[J].IEEE Trans on Geoscience and Remote Sensing,2022,60:1-15.

[73]Ge Zheng,Liu Songtao,Wang Feng,et al.YOLOX:exceeding YOLO series in 2021[EB/OL].(2021-08-06).https://arxiv.org/pdf/2107.08430.pdf.

[74]Ding Jian,Xue Nan,Long Yang,et al.Learning ROI transformer for oriented object detection in aerial images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2849-2858.

[75]Cheng Yuhu,Xu Chengqing,Kong Yi,et al.Short-side excursion for oriented object detection[J].IEEE Geoscience and Remote Sensing Letters,2022,19:6515205.

[76]Li Jianxiang,Tian Yan,Xu Yiping,et al.Oriented object detection in remote sensing images with anchor-free oriented region proposal network[J].Remote Sensing,2022,14(5):1246.

[77]Cheng Gong,Wang Jiabao,Li Ke,et al.Anchor-free oriented proposal generator for object detection[J].IEEE Trans on Geoscience and Remote Sensing,2022,60:5625411.

[78]Wang Yanjie,Zou Xu,Zhang Zhihui,et al.Learning oriented remote sensing object detection via nave geometric computing[EB/OL].(2021-12-01).https://arxiv.org/pdf/2112.00504.pdf.

[79]曾浩.基于深度學习的遥感影像旋转目标检测[D].成都:电子科技大学,2022.(Zeng Hao.Rotated object detection for remote sen-sing image using deep learning[D].Chengdu:University of Electronic Science & Technology of China,2022.)

[80]Ming Qi,Zhou Zhiqiang,Miao Lingjuan,et al.Dynamic anchor lear-ning for arbitrary-oriented object detection[C]//Proc of the 35th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:2355-2363.

[81]Zhou Xinyu,Yao Cong,Wen He,et al.EAST:an efficient and accurate scene text detector[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:5551-5560.

[82]Zhu Yixing,Du Jun,Wu Xueqing.Adaptive period embedding for representing oriented objects in aerial images[J].IEEE Trans on Geo-science and Remote Sensing,2020,58(10):7247-7257.

[83]Li Zhonghua,Hou Biao,Wu Zitong,et al.FCOSR:a simple anchor-free rotated detector for aerial object detection[EB/OL].(2021-12-01).https://arxiv.org/ftp/arxiv/papers/2111/2111.10780.pdf.

[84]Li Wentong,Chen Yijie,Hu Kaixuan,et al.Oriented reppoints for ae-rial object detection[C]//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:1829-1838.

[85]Liang Dong,Geng Qixiang,Wei Zongqi,et al.Anchor retouching via model interaction for robust object detection in aerial images[J].IEEE Trans on Geoscience and Remote Sensing,2021,60:5619213.

[86]Hou Liping,Lu Ke,Xue Jian,et al.Shape-adaptive selection and measurement for oriented object detection[C]//Proc of the 36th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2022:923-932.

[87]Girshick R.Fast R-CNN[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2015:1440-1448.

[88]Yu Jiahui,Jiang Yuning,Wang Zhangyang,et al.Unitbox:an advanced object detection network[C]//Proc of the 24th ACM International Conference on Multimedia.New York:ACM Press,2016:516-520.

[89]Rezatofighi H,Tsoi N,Gwak J Y,et al.Generalized intersection over union:a metric and a loss for bounding box regression[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:658-666.

[90]Zheng Zhaohui,Wang Ping,Liu Wei,et al.Distance-IoU loss:faster and better learning for bounding box regression[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:12993-13000.

[91]Zheng Zhaohui,Wang Ping,Ren Dongwei,et al.Enhancing geometric factors in model learning and inference for object detection and instance segmentation[J].IEEE Trans on Cybernetics,2021,52(8):8574-8586.

[92]Yang Xue,Yang Jirui,Yan Junchi,et al.SCRDet:towards more robust detection for small,cluttered and rotated objects[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:8232-8241.

[93]Yang Xue,Yan Junchi.On the arbitrary-oriented object detection:classification based approaches revisited[J].International Journal of Computer Vision,2022,130(5):1340-1365.

[94]Yang Xue,Hou Liping,Zhou Yue,et al.Dense label encoding for boundary discontinuity free rotation detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2021:15819-15829.

[95]Qian Xiaoliang,Wu Baokun,Cheng Gong,et al.Building a bridge of bounding box regression between oriented and horizontal object detection in remote sensing images[J].IEEE Trans on Geoscience and Remote Sensing,2023,61:5605209.

[96]Zhang Yifan,Ren Weiqiang,Zhang Zhang,et al.Focal and efficient IoU loss for accurate bounding box regression[J].Neurocomputing,2022,506(9):146-157.

[97]Yang Yang,Chen Jifeng,Zhong Xiaopin,et al.Polygon-to-polygon distance loss for rotated object detection[C]//Proc of the 36th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2022:3072-3080.

[98]Yang Xue,Yan Junchi,Ming Qi,et al.Rethinking rotated object detection with Gaussian Wasserstein distance loss[C]//Proc of the 38th International Conference on Machine Learning.2021:11830-11841.

[99]Vallender S S.Calculation of the Wasserstein distance between probability distributions on the line[J].Theory of Probability & Its Applications,1974,18(4):784-786.

[100]Yang Xue,Yang Xiaojiang,Yang Jirui,et al.Learning high-precision bounding box for rotated object detection via Kullback-Leibler divergence[EB/OL].(2022-04-18).https://arxiv.org/pdf/2106.01883.pdf.

[101]Zhu Haigang,Chen Xiaogang,Dai Weiqun,et al.Orientation robust object detection in aerial images using deep convolutional neural network[C]//Proc of IEEE International Conference on Image Proces-sing.Piscataway,NJ:IEEE Press,2015:3735-3739.

[102]Liu Zikun,Yuan Liu,Weng Lubin,et al.A high resolution optical satellite image dataset for ship recognition and some new baselines[C]//Proc of the 6th International Conference on Pattern Recognition Applications and Methods.Cham:Springer,2017:324-331.

[103]Zhang Feng,Wang Xueying,Zhou Shilin,et al.Arbitrary-oriented ship detection through center-head point extraction[J].IEEE Trans on Geoscience and Remote Sensing,2021,60:5612414.

[104]Razakarivony S,Jurie F.Vehicle detection in aerial imagery:a small target detection benchmark[J].Journal of Visual Communication and Image Representation,2016,34(1):187-203.

[105]Sun Xian,Wang Peijin,Yan Zhiyuan,et al.FAIR1M:a benchmark dataset for fine-grained object recognition in high-resolution remote sensing imagery[J].ISPRS Journal of Photogrammetry and Remote Sensing,2022,184(2):116-130.

[106]Li Jianwei,Qu Changwen,Shao Jiaqi.Ship detection in SAR images based on an improved faster R-CNN[C]//Proc of SAR in Big Data Era:Mo-dels,Methods and Applications.Piscataway,NJ:IEEE Press,2017:1-6.

[107]Cheng Gong,Yuan Xiang,Yao Xiwen,et al.Towards large-scale small object detection:survey and benchmarks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45(11):13467-13488.

[108]徐從安,苏航,李健伟,等.RSDD-SAR:SAR舰船斜框检测数据集[J].雷达学报,2022,11(4):581-599.(Xu Congan,Su Hang,Li Jiangwei,et al.RSDD-SAR:rotated ship detection dataset in SAR images[J].Journal of Radars,2022,11(4):581-599.)

[109]Liu Kang,Mattyus G.Fast multiclass vehicle detection on aerial images[J].IEEE Geoscience and Remote Sensing Letters,2015,12(9):1938-1942.

[110]Zhou Jian,Feng Kai,Li Weixing,et al.TS4Net:two-stage sample selective strategy for rotating object detection[J].Neurocomputing,2022,501(8):753-764.

猜你喜欢
卷积神经网络深度学习
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
基于卷积神经网络的树叶识别的算法的研究