基于RHTC网络的飞机目标检测与精细识别

2021-11-29 03:47邹焕新李润林贺诗甜

系统工程与电子技术 2021年12期

曹旭, 邹焕新, 成飞, 李润林, 贺诗甜

(国防科技大学电子科学学院, 湖南长沙 410073)

0 引言

在战场态势瞬息万变的情况下,快速精确识别目标是现代战争制胜的关键,因此开展光学遥感图像上的飞机目标检测与识别,对国防事业具有极其重要的意义。该技术在侦查监视对方机场军力部署、有效打击重点空战目标、提高防空预警能力等方面有着广泛的应用前景外[1]。此外,在民用领域中，如民航机场流量管控、航班识别等也具有重要作用。但是,因为机场背景复杂,利用光学卫星遥感图像对地面上的飞机目标进行自动检测与识别一直以来都是非常具有挑战性的任务[2]。在光学遥感图像中,飞机目标检测识别具有以下两个主要难点。

(1) 方向检测困难:飞机目标尺度小、细节不清晰,在图像中通常比较密集且方向多变,容易造成误检和漏检;相比较于遥感图像舰船方向检测,飞机目标机长、翼展尺寸比较接近,难以有效利用飞机的长宽比信息准确估计其主轴方向。

(2) 精细识别困难:不同型号飞机目标之间尺寸接近、形状类似,类间特征差别较小,难以精细识别;同型号飞机之间受可变掠翼张角不同、自身阴影等影响,容易产生错误分类。

传统飞机目标检测方法通常基于手工提取的特征而设计。Zhang等人[3]提出了一种通过提取闭合轮廓来识别飞机的方法。Liu等人[4]提出了一种通过拐角特征识别飞机的方法。Qiu等人[5]在拐角特征基础上,进一步提出使用边缘信息来检测飞机。Zhang等人[6]提出将哈里斯-拉普拉斯拐角检测器与仿射不变矩结合起来构建特征以检测飞机目标。此外,还有很多传统检测方法[7-10]。然而,由于需要大量参数优化,使得这些传统飞机检测方法泛化性能较差，在利用这些传统方法处理新的数据集时,需要人工经验对参数进行大量调整。

得益于深度学习和区域卷积神经网络(region convolutional neural network，RCNN)的发展，许多方法将目标检测视为根据深度特征提取的感兴趣区域(region of interest，ROI)的分类问题，并在多个领域都表现出优异的检测性能[11-16]。上述方法都是为检测自然场景或舰船目标而设计的，针对遥感图像中飞机多方向密集排布问题，通常无法获得较好的检测结果。此外，在利用深度学习进行光学遥感图像中飞机目标检测方面，近年来也涌现出较多方案。Yu等人[17]提出了一种基于全卷积神经网络的飞机检测方法，通过最小化多任务损失直接定位飞机。Wang等人[18]进一步提出了一种基于RCNN的飞机检测方法，通过K-means对不同尺寸的目标进行聚类分析，以聚类中心作为候选锚框尺寸，提高了锚框生成质量。其后，Li等人[19]提出了一种基于增强学习和卷积神经网络的飞机检测框架，通过增强学习实现对候选区域的动态约简，并限制边缘框范围以提高候选框质量。除此之外，还有很多其他优秀的遥感飞机目标检测方法[20-24]。虽然上述方法在遥感图像中飞机目标定位方面取得了很大进展，但当飞机目标方向检测与精细识别任务同时进行时，飞机检测与识别结果并不理想。

2019年,Chen等人[25]提出了混合任务级联(hybrid task cascade, HTC)网络,用于自然图像中的实例分割。HTC网络包含3个结构分支:目标检测分支、掩膜分支与分割分支,可以精准定位、分类和分割目标。受HTC网络能够同时完成多种任务的思路启发,本文提出了一种基于旋转HTC(rotated HTC, RHTC)网络的多方向飞机目标检测与精细识别方法。主要思路为:首先,在数据预处理阶段,构建每类型号飞机目标的精细掩膜,以形成目标的轮廓编码作为网络输入;其次,RHTC将分割分支与包围框分支多层级联,以不断加强语义特征,并将语义特征与其他特征进行融合,从而提高包围框和掩膜预测精度;最后,在掩膜预测的最后一层,设计并增加一个方向损失函数,同时引入一个新的斜框回归器以便从掩膜预测结果中准确预测目标的机头正方向。本文方法可以准确快速地实现光学遥感图像中飞机目标的定位、分类和掩膜预测,并回归出飞机目标的斜框和机头正方向。利用DOTA数据集中的飞机目标和自建的 Google 图像典型军用飞机目标数据集开展了多组飞机目标方向检测和精细识别实验,并将本文方法与其他多种先进算法,包括带有方向性边框F-RCNN(faster RCNN oBB, FRO)[26]、ROI transformer[16]、旋转区域建议网络(rotated region proposal network,RRPN)[27]、旋转RCNN(rotational RCNN, R2CNN)[28]、旋转密集特征金字塔网络(rotational dense feature pyramid networks,RDFPN)[29]进行了算法性能比较和评估分析。实验结果表明,本文方法在飞机目标检测的方向精准度和精细识别的类别平均精准度上性能更优。此外,为了评估本文方法中提出的斜框回归器在作为一个单独的模块嵌入到其他分割网络时的性能,将本文设计的斜框回归器和方向损失函数应用于掩膜RCNN(mask RCNN, M-RCNN)[30]和级联M-RCNN(cascade M-RCNN， CM-RCNN)[31],并基于自建的Google图像典型军用飞机目标数据集进行了训练和测试。实验结果验证了本文方法设计的斜框回归器和方向损失函数在嵌入到其他分割网络时也具有良好的性能。

1 算法介绍

本文提出的算法框架主要包含3个部分:① 分割级联结构:RHTC网络通过分割分支与包围框分支多层级联,增强语义特征,以实现更精确的目标水平框定位、精细分类和掩膜预测;② 在预处理阶段,构建每类型号飞机目标精细掩膜和图像的语义分割图,以构建完整的网络训练输入; ③ 在网络掩膜预测最后一层(M3)后,设计并增加一个新的方向损失函数,同时引入一个新的斜框回归器,以优化训练过程和实现飞机目标的方向检测。本文方法流程图如图1所示。

图1 本文算法流程图Fig.1 Flowchart of the proposed method

1.1 HTC网络

为了更好地理解本文RHTC网络结构,下面首先对CM-RCNN的网络结构、无分割分支的HTC网络结构以及带分割分支的HTC网络结构进行简单的介绍。

1.1.1 CM-RCNN网络

Cascade RCNN[32]开创了级联检测网络的经典结构,M-RCNN则是优秀的通用实例分割架构,Cai等人[31]尝试将Cascade RCNN和M-RCNN两个网络结构简单组合为CM-RCNN应用于实例分割任务,通过不断优化预测框的回归以获得更好的检测结果,但其掩膜分支与预测框分支在每个阶段均独立运算,二者之间没有信息流通,导致网络分割能力整体较弱,这是因为掩膜预测精度仅通过预测框精度的不断提升而获得少量提升。图2展示了CM-RCNN的网络结构,其中,代表掩膜预测部分,B代表包围框(bounding box,bbox)预测部分,M和B后面的数字表示级联网络阶段数。

图2 CM-RCNN结构Fig.2 Architecture of CM-RCNN

1.1.2 无分割分支的HTC网络

HTC网络是在Cascade RCNN和M-RCNN的基础上进行融合改进的结果。为了加强掩膜与预测框之间、掩膜与掩膜之间的信息流通,HTC网络取消了第一阶段上的掩膜分支,使其与第一阶段的预测框相关联,以提高第一阶段的掩膜预测精度,同时套用级联优化思想,在掩膜分支之间添加信息流(见图3中的红色箭头),实现掩膜级联,掩膜特征从前一阶段流通到后一阶段,大大提高了掩膜的预测精度。无分割分支的HTC网络结构如图3所示。

图3 无分割分支的混合任务级联网络结构Fig.3 Architecture of hybrid task cascade (HTC) without segmentation branch

1.1.3 带分割分支的HTC网络

为增强网络区分前景和背景的能力,HTC网络额外使用了上下文信息,将语义特征与掩膜分支、包围框分支特征进行融合。其中,语义特征通过分割分支来提取。分割分支以特征金字塔网络(feature pyramid network, FPN)[33]输出的组合特征作为输入,通过全卷积结构得到分割预测和语义特征。分割分支结构如图4所示,添加了分割分支的HTC网络结构如图5所示。

图4 分割分支结构Fig.4 Architecture of segmentation branch

图5 带分割分支的混合任务级联网络Fig.5 Architecture of HTC with segmentation branch

HTC网络的语义特征仅由分割分支提取一次,且区域建议网络(region proposal network, RPN)及bbox预测分支未与分割分支形成有效连接,致使语义特征无法充分利用,且分割预测精度较低。

针对上述问题,本文在带有分割分支的HTC网络基础上,充分级联分割分支、RPN和bbox分支(见图1),实现预测框信息与语义信息有效融合,级联过程中不同分支相互促进,提高最终预测效果。此外,为实现斜框预测功能,本文在掩膜分支最后一层之后引入一个新的斜框回归器,以回归目标斜框和机头正方向。同时,设计并增加一个方向损失函数,提高方向预测精度,优化整个训练过程。此外,在数据预处理过程中,构建每类型号飞机目标的精细掩膜,以增强目标掩膜特征细节,辅助提升精细识别精度。在本文中,改进后的HTC网络称为RHTC网络。

1.2 飞机目标精细掩膜和语义分割图生成

在引言中介绍的其他基于深度学习的飞机目标检测方法中,除了Zuo等人[23]提出的基于深度卷积神经网络分割结果的飞机型号识别方法利用掩膜信息提高了识别精度之外,其他方法均没有考虑目标掩膜信息和上下文信息的利用。实际上,精细的目标掩膜含有丰富的目标细节信息,这些特征信息有助于RHTC网络中的斜框回归器更准确地预测目标斜框及其方向,并辅助提升精细识别精度。同时,含有上下文信息的语义分割图可以帮助网络更好地区分前景和背景。

RHTC网络包含3个输入,具体为:飞机目标斜框标注、飞机目标掩膜信息和训练图像的语义分割图。本文基于公开的Google 图像构建了一个飞机目标数据集,包含了27类型号飞机目标的斜框标注。此外,为了获得飞机目标的掩膜信息和语义分割图,本文利用图像形态学相关算法处理得到每类型号飞机目标的精细掩膜和每幅训练图像的语义分割图。

1.2.1 飞机目标精细掩膜生成

图像形态学主要用于从图像中提取对描述区域形状有意义的图像分量,使后续识别工作能够抓住目标对象最具有区分能力的形状特征,如边界、连通区域等,同时像细化、像素化、修剪毛刺等也常应用于预处理和后处理中,成为深度学习中图像增强新的选择[34]。本文方法对真实收集的Google图像中的每类型号飞机目标,采用灰度化、阈值分割、连通域处理、中值滤波、剪裁、轮廓提取等操作,获得目标轮廓和形状特征,在此基础上构建每一类型号飞机目标的精细掩膜。飞机目标精细掩膜生成步骤如下。

步骤 1灰度化。将目标切片图像转换为灰度图像。

步骤 2阈值分割。利用OTSU方法[35]计算分割阈值,或根据灰度直方图统计,设计双阈值分割。

步骤 3区域处理。查询图像中4连通区域,并对每个区域进行标记,计算每个区域面积,设置合适的阈值滤除小尺寸非目标区域和孔洞。

步骤 4中值滤波。使用3×3滤波窗口对图像进行中值滤波,以去除目标边缘毛刺。

步骤 5剪裁和轮廓提取。以目标边缘为界剪裁图像,得到目标精细掩膜,并提取轮廓分割点集。

目标精细掩膜的构建过程如图6所示。

图6 精细掩膜构建过程Fig.6 Construction process of fine mask

本文使用上述方法共构建27类型号飞机目标的精细掩膜,包含了战斗机、轰炸机、加油机、侦察机、运输机等多个大类中的具体型号(包含“其他”型号),每类目标型号的精细掩膜如图7所示。为展示效果,图7中部分型号飞机目标的尺寸和长宽比略有调整,而在RHTC网络训练中均采用各类型号飞机目标精细掩膜的真实尺寸和形状。

图7 不同型号飞机目标的精细掩膜Fig.7 Fine masks for different types of aircraft target

1.2.2 飞机目标语义分割图生成

在已经斜框标注的训练图像数据中,根据每个飞机目标标注好的型号和尺寸信息,将生成的精细掩膜自动进行旋转和缩放以贴合相应的飞机目标,从而生成该幅图像的语义分割图。图8(a)展示了某幅机场图像及其斜框标注,包含了B-1B、KC-135、C-130这3种型号的飞机目标;图8(b)展示了目标精细掩膜与目标的贴合结果;图8(c)展示了该图像的语义分割结果。

图8 语义分割图生成过程Fig.8 Semantic segmentation map generation process

1.3 RHTC

RHTC网络,充分级联分割分支、RPN和bbox分支,以实现预测框信息与语义信息的有效融合。级联过程中不同分支相互促进,从而综合提升bbox、掩膜和分割的预测效果。RHTC为实现斜框预测功能,在掩膜分支最后一层之后引入一个新的斜框回归器,以回归目标斜框和机头正方向,并设计和增加一个新的方向损失函数,提高方向预测精度,优化整个训练过程。

1.3.1 分割级联结构

与HTC仅利用分割分支S提取一次语义特征不同,RHTC将分割分支扩展至4个,S0、S1、S2、S3,逐级精炼语义特征,并输出更准确的分割预测,具体步骤如下。

首先,训练输入经由骨干网络和FPN提取原始特征,并输入RPN进行建议区域的生成。此时建议区域经过分配标签和采样后,已经具备粗糙的目标空间位置信息,将建议区域的所有正例(即目标可能存在区域)按置信分数排序,并挑选前50%保留,如图9(a)所示。

然后,制作单个建议区域掩模(single proposal mask, SPM)。按训练图像8倍下采样的尺寸生成全0矩阵,以单个建议区域的坐标中心为二维高斯函数的中心,建议区域的边界作为取值边界,在全0矩阵中,从中心开始以标准二维高斯分布向取值边界赋值,生成SPM。

最后,将该训练图像的全部SPM按像素位置加和,除以像素最大值进行归一化,乘以权重因子θ并加1,生成最终的建议区域掩膜(proposal mask,PM),该过程可表示为

(1)

PM结果如图9(b)所示,亮度可反映出RPN认为该区域的重要程度,亮度越高说明该区域是目标的几率越大。θ可以控制语义特征权重,本文设置为0.5。

图9 利用RPN提取的建议区域生成建议区域掩膜Fig.9 Use proposal extracted by RPN generate PM

PM制作完成后,与骨干网络和FPN提取的原始特征相乘,得到包含目标空间信息增强后的原始特征,输入S0进行分割预测,并提取第一次语义特征。此时,S0输出的语义特征,与RPN提取的建议区域,和原始特征共同进行ROI池化,并输入B1生成第一次候选框预测。

同理,B1生成的PM会与S0输出的语义特征进行融合,作为S1的输入。S1输出的语义特征将与B1输出的预测框和原始特征一同ROI池化,作为B2和M1的输入。级联过程中语义特征不断加强,并指导其他分支更精确地预测,经过三次级联后,S3将输出最终的分割预测,M3将输出最终的掩膜预测,B3将输出最终的水平框定位和分类。图10和图11展示了不同阶段分割分支输出的语义特征和分割预测对比,可以看出经过逐级加强的语义特征具有更强的目标位置信息,而图11(a)难以区分前景背景,到图11(e)分割预测比较精准。

图10 不同阶段分割分支输出的对比Fig.10 Comparison of semantic features of segmentation branch output at different stages

图11 不同阶段分割分支输出的分割预测对比Fig.11 Comparison of segmentation prediction of segmentation branch output at different stages

1.3.2 斜框回归器设计

斜框回归器利用最小矩形框拟合方法,提取网络最后一级掩膜预测M3结果中的目标,该矩形框即为目标斜框预测,且目标斜框中包含了飞机目标的掩膜,但此时斜框中飞机目标的正方向是未知的。众所周知,在光学遥感图像中的飞机目标具有明显的关于主轴的左右对称特性,估计目标的斜框方向可以通过寻找飞机目标主轴的方式来实现。本文中设计了一种简单有效的飞机目标主轴提取方法,具体步骤如下。

首先,从图像的分割结果(见图12(a))中按照斜框方式(见图12(a)中红色矩形框)提取出每一个飞机目标掩膜切片,如图12(b)所示。

其次,假定飞机目标包括水平和垂直两个主轴方向,呈十字交叉排布,如图12(c)所示;两条主轴将切片平均划分为4份,水平主轴1(红色)将飞机目标划分为部分1和部分2,垂直主轴2(蓝色)将飞机目标划分为部分3和部分4,如图12(d)所示。

图12 不同方向的主轴对飞机目标掩膜的划分示意图Fig.12 Extract the main axis direction from the segmentation result

最后,令通过不同方向的主轴对飞机目标掩膜进行划分得到的部分1、部分2、部分3和部分4的面积分别为S1、S2、S3和S4,根据飞机目标物理结构的左右对称特性,定义S12=|S1-S2|,S34=|S3-S4|,若S12>S34,则可认为部分3和部分4为目标机翼两侧部分,确定垂直主轴2(蓝色)为目标的真实主轴;相反的,若S12

为了说明本文设计的飞机目标主轴提取方法的有效性,对本文考虑的所有27类型号飞机目标精细掩膜均利用假定的水平和垂直主轴进行了划分。表1列出了所有27类型号飞机目标精细掩膜的划分结果。由表1可知,所有飞机目标的S34皆远小于S12,验证了本文方法可以提取出正确的主轴。

表1 27类飞机目标精细掩膜划分结果

通过上述方法得到目标主轴后,进一步采用以下3个步骤判断飞机机头正方向:首先,按照如图13(a)中所示的蓝色箭头方向,统计主轴(即蓝色箭头所在的线段)两侧目标轮廓线上对应的最外侧两个像素点(见图13(a)中的pL和pR像素点)与主轴之间的平均距离d=(dL+dR)/2(根据对称特性),绘制出目标凸轮廓剖面曲线,如图13(b)所示;其次,根据飞机的飞行动力学设计特点,机头通常呈现锥形,机尾则带有尾翼结构。因此,在判断机头正方向时,只利用飞机目标凸轮廓剖面曲线的前20%(大致对应于机头)和后20%(大致对应于机尾),以消除机翼形状、发动机、机载雷达等对机头正方向估计的影响;最后,定义NF20表示飞机目标凸轮廓剖面曲线前20%对应的值的和,NL20表示飞机目标凸轮廓剖面曲线后20%对应的值的和。若NF20NL20,则判断后20%部分对应机头。对27类型号飞机目标进行测试的结果表明,利用此方法可以准确判断出飞机机头正方向。

1.3.3 方向损失函数设计

损失函数的定义和设计通常与学习准则、优化问题等相关,即通过最小化损失函数来求解和评估模型。本文方法通过斜框回归器得到目标方向预测,通过设计并增加一个新的方向损失函数,用于评估预测方向与真值方向的差值,以进一步优化网络参数,提升方向预测性能。因此,在本文中,RHTC网络的损失函数如下:

(2)

(3)

掩膜损失构成如下：

(4)

掩膜损失采用二值交叉熵损失(binary cross entropy loss,BCELoss)的方式,BCE是交叉熵损失(cross entropy loss,CELoss)的一个特例,在数学中广泛应用于二分类问题。

分割损失构成如下：

(5)

分割损失采用CELoss的方式,其本质上也是实例分割中的多分类问题。

方向损失函数构成如下：

(6)

方向损失本质上是一个预测数值与一个真实数值之间差异性的度量。因此,在本文中,方向损失采用平滑L1(SmoothL1)损失函数的方式。平滑L1是L1损失的改进,相比于L1损失和L2损失,平滑L1损失更加稳定,更有利于网络训练。

(7)

(8)

(9)

平滑L1损失的计算如式(8)所示。当方向偏离较大时,即x>1,如式(9)所示,损失函数对x梯度恒为正负1,而不会像L2损失导数随损失增大而增大,从而导致在前期训练时因为损失过大出现梯度爆炸问题。在训练后期,损失趋于平稳且较小,损失函数对x的梯度随x减小而减小,使用梯度下降法更新参数时更加平滑,而不会出现模型在稳定值附近波动的情况。

2 实验结果及分析

在实验部分,基于高分辨率Google图像数据集评估、对比和分析本文所提方法的性能。实验采用的计算机配置如下:Intel Core i7 CPU, NVIDIA GTX-2080Ti GPU(12 GB显存),32 GB内存,操作系统Ubuntu18.04。

2.1 实验数据集

为了验证本文方法的有效性,从Google地球采集构建了一个光学图像飞机目标数据集。数据集共包含287张大幅光学图像,图像分辨率大致分布在851像素×1 048像素～6 533像素×10 987像素之间,使用地图分级为18级的遥感图像,空间分辨率统一归一化为0.5 m。数据集是从不同国家(美国、俄罗斯、日本等)的军用机场采集所得,并将飞机类别细化到27个具体型号(包含一个“其他”型号)。在实验过程中,从原始图像数据集中随机抽取250幅图像作为训练集,剩余37幅图像作为测试集。为了适应训练模型的输入,实验时将大幅图像裁剪为1 000像素×600像素的图像。同时,为了尽可能避免不同类别中目标样本数量不均衡的问题,对图像训练集按照不同类别采用镜像对称、旋转、加噪、颜色抖动等方法进行了合理的扩增。原始图像数据集中共包含8 494个飞机目标,扩增后为39 030个。表2中列出了原始数据集和扩增数据集中每种型号飞机目标的数量。

表2 27类飞机目标在原始数据集和扩增数据集中的数量

本文同样在公共遥感数据集DOTA[26]中的飞机目标数据进行性能对比实验。实验前对数据集进行了整理,为了便于在同一条件下将多种方法进行公平比较,根据DOTA数据集自带的地面采样距离信息,将全部图像的空间分辨率均重采样为0.5 m。经过筛选,共计有152幅飞机样本图像,其中用于训练的图像为83幅(包含2 646个飞机目标),用于测试的图像为69幅(包含2 481个飞机目标);然后,将图像裁剪为1 000像素×600像素大小,并对训练集进行合理扩增。需要说明的是,由于DOTA数据集中的飞机目标并没有提供细粒度分类标注,因此本文未对其进行精细掩膜设计,仅采用“其他”型号掩膜用于方向预测。

2.2 方向检测性能评估

本节为了测试本文方法提出的斜框回归器方向检测性能,包括目标检测的平均精准度和方向准确率。对于自建数据集,首先采用真实的27个具体型号飞机目标斜框标注数据集对RHTC网络进行训练;在测试时,所有27个飞机目标型号均归为同一类,以忽略不同型号的影响,只对比方向检测结果;对于DOTA数据集的飞机目标,采用“其他”型号掩膜用于方向预测。为了公平地比较不同斜框检测方法对方向检测的优劣,在对比实验中的以下3个部分使用了相同的设置。

(1) 骨干网络均使用经过ImageNet预训练之后ResNet50模型进行迁移训练。

(2) 每次输入的训练图像的批数量均设置为2。

(3) 模型测试使用的交并比(intersection over union,IOU)阈值均设置为0.5。IOU定义如下:

(10)

式中：A和B表示不同区域；area(·)表示区域之间交或并后的面积。

实验中,采用平均精准度(average precision,AP),即准确率在召回率上的积分作为评价指标。定义如下:

(11)

式中:r表示召回率,即所有真值标注中被正确检测的比例;p(·)表示准确率,即检测结果中正确的结果所占比例。

由于目前目标斜框检测中缺乏方向相关的评价标准,本文设计了一种新的评价方式:方向精准度(direction precision,DP)。DP主要用于评价方向检测中方向的偏差大小,即在所有正确检测(IOU满足阈值要求)的目标中,满足方向精度要求的目标所占的比例。定义如下:

(12)

(13)

式中:i代表被正确检测的某个目标;θgt,i代表其真值框方向;θdet,i代表其检测框方向。当检测方向与真值方向的绝对差值小于等于10°时,认为该目标方向检测达到精度要求,此时Count(i)=1;否则视为不满足方向精度要求,Count(i)=0。在式(13)中,N代表正确检测的目标总数,对所有满足方向精度要求的目标计数求和,其与目标总数的比值即为方向精准度DP。6种对比算法实验结果如表3所示。

表3 6种对比算法方向检测评估

FRO算法根据ROI池化之后的正框与真值标注中的斜框进行比对以回归出斜框坐标,但由于其基础网络F-RCNN的正框预测只包含4个参数表示,即R=(xmin,ymin,xmax,ymax),其中xmin和xmax分别表示正框的最小和最大横坐标x,ymin和ymax则分别表示正框的最小和最大纵坐标y。然而,在用斜框进行预测时需要回归4个点共8个参数(即G={(gxi,gyi),i=1,2,3,4}),回归参数的增加导致网络性能下降。ROI transformer算法通过斜框标注直接学习到8个参数,在很大程度上提升了定位性能,但在面对高分辨率光学图像中的飞机这类小目标时,由于缺乏掩膜特征中的尺寸和轮廓信息、语义分割信息等的辅助,其网络检测性能也表现不佳。此外,RRPN、R2CNN、RDFPN方法与ROI transformer算法类似,也缺失了语义特征,从而导致网络定位性能无法继续提升,且机头正向预测性能也较差。

图15展示了在自建数据集上,6种算法各随机取100个预测目标,与其对应的真实目标标注方向的角度绝对差值折线图。在图15中,纵轴数值的大小反映出在已经正确检测到目标的基础上,目标预测方向与真实方向的偏离程度,角度绝对差值越小表示方向检测越精准。

图15 6种不同算法的方向角度绝对差值Fig.15 Direction angle absolute differences of six different algorithms

表4展示了在自建数据集上,采用不同对比算法进行目标方向检测精度的具体评价值,包括:最大的角度绝对差值Δθmax、角度绝对差值的中值Δθmedian、角度绝对差值的均值Δθmean、角度绝对差值的标准差Δθstd。其中,最大的角度绝对差值Δθmax反映了预测方向与其真实方向的最大偏离程度;角度绝对差值的中值Δθmedian和均值Δθmean反映了预测方向与其真实方向之间的平均偏离程度,其值越小,说明方向预测越精准;角度绝对差值的标准差Δθstd反映了预测方向的稳定性,其值越小,说明方向预测越稳定。

表4 6种对比算法方向检测精度具体评价

在图16和表4中,通过角度绝对差值的中值与均值可以看出,本文方法在大部分目标上都有着较好的方向预测,角度绝对差值的中值仅为3.13,说明本文方法方向检测的角度误差基本满足精度要求,即误差小于10°。此外,本文方法的角度绝对差值的标准差更小,预测更加稳定,预测结果置信度更高。由于本文方法利用了精细掩膜的信息辅助,且在网络中增加了一个方向损失,这使得RHTC网络在预测斜框时,回归器可以更有针对性地提取目标主轴,估计飞机目标机头正方向,且方向预测也更加准确。

2.3 精细识别性能评估

为了测试本文方法的飞机目标精细识别性能,在自建数据集中采用真实的27个具体型号飞机目标斜框标注数据集对RHTC网络进行训练,并采用飞机目标型号的真实标注信息进行测试。目标精细识别性能采用类别平均精准度(mean AP,mAP)作为评价标准。mAP的计算公式如下:

(14)

式中：AP(i)表示第i个目标型号的AP值。为了公平地比较不同识别方法目标精细识别性能的优劣,在对比实验中采用与第2.2节相同的网络参数设置。表5展示了6种对比算法精细识别评估的结果。

表5 6种对比算法精细识别评估

图16展示了通过不同的检测方法获得的定性结果,其中，第二行为区域A对比，第三行为区域B对比。从放大区域A可以观察到,RHTC可以预测正确的目标机头正向,同时没有漏检情况,而算法ROI transformer、RRPN、FRO则将密集排布的两个目标错检为一个,算法R2CNN和RDFPN则预测的机头正向与真实方向偏差较大。从放大区域B可以观察到,RHTC分类全部正确,且检测效果较好,而算法ROI transformer、R2CNN、RDFPN、FRO则出现分类错误,且算法R2CNN、ROI transformer出现漏检,算法RFO出现虚警。

图16 不同检测方法获得的定性结果Fig.16 Qualitative results achieved by different detection methods

2.4 消融实验

为了测试本文所提改进思路对基础HTC网络的性能提升效果,在自建数据集上设计了多组消融实验。需要说明的是,斜框回归器作为功能模块已添加进基础HTC网络中。使用基础HTC网络,以“其他”型号掩膜(27类目标掩膜全部初始化为“其他”型号掩膜)为输入,作为基线模型;消融实验1使用27类型号(包含了“其他”型号)目标精细掩膜作为输入;消融实验2在基线模型中采用分割级联结构;消融实验3在基线模型中添加方向损失函数;消融实验4为实验1和实验3的组合;消融实验5为实验2和实验3的组合;消融实验6为实验1、实验2和实验3的组合,即本文提出的方法。实验采用DP和mAP作为评价标准,以反映不同算法的方向检测和精细识别性能，实验结果如表6所示，“√”表示网络觉有该种结构。

表6 消融实验结果

从表6可以看出,在消融实验1中,基础HTC网络使用精细掩膜作为输入后,DP增长了约6%,mAP增长了约3%,精细掩膜信息可以增强目标细节,综合提升斜框检测和识别性能。在消融实验2中,基础HTC网络添加分割级联结构后,DP增长了约20%,mAP增长了约4%,经过分割级联结构不断加强的语义特征,使得网络在bbox定位方面更加准确,并有效提升掩膜预测精度,进而提升方向预测性能。在消融实验3中,基础HTC网络添加方向损失函数后,DP增长了约15%,mAP增长了约1%,模型开始关注斜框方向并更新参数,使得DP值有较大提升,同时更加准确的方向预测也辅助提升了识别性能,但其增幅较小。消融实验4、5和6的结果表明,本文提出的3个改进之处互不冲突,综合使用可有效提升方向检测和精细识别性能。

2.5 可嵌入性评估

本文提出的斜框回归器和方向损失函数是一种通用型的结构。当将本文提出的斜框回归器和方向损失函数与其他分割网络结合时,可以使其同样具有飞机目标斜框检测的能力,并提高其识别性能。为了说明本文提出的斜框回归器和方向损失函数的可嵌入性,在自建数据集上设计了4组评估实验。实验1使用M-RCNN作为基线模型1,实验2在M-RCNN中添加方向损失函数和斜框回归器,并使用27类型号飞机目标精细掩膜作为输入。实验3使用CM-RCNN作为基线模型2。实验4在CM-RCNN中添加方向损失函数和斜框回归器,并使用27类型号飞机目标精细掩膜作为输入。实验采用DP和mAP作为评价标准,实验结果如表7所示。

表7 可嵌入性实验结果

从表7可以看出,在实验1中,M-RCNN模型在添加精细掩膜和方向损失后,DP增长了约17%,mAP增长了约8%。在实验2中,CM-RCNN模型添加精细掩膜和方向损失后,DP增长了约17%,mAP增长了约9%。同时,上述两种实例分割算法在使用本文所提的斜框回归器后,也具有了斜框检测能力。此外,通过在模型中添加精细掩膜和方向损失函数,模型的方向检测和精细识别性能再次得到提升。这说明,本文所提出的斜框回归器和方向损失函数可以嵌入到其他分割网络以使其具备方向检测和精细识别能力。

3 结论

本文提出了一种基于RHTC网络的多方向飞机检测与精细识别方法,以解决高分辨率光学遥感图像中的多方向密集排布、多种型号飞机目标的方向检测和识别困难问题。首先,通过构建每类型号飞机目标的精细掩膜,以增强目标细节,提升识别精度;其次,级联分割分支与bbox分支,通过级联方式增强语义特征,从而提升分割、掩膜预测精度;最后,在最后一层掩膜分支后,设计并增加一个方向损失函数,同时引入一个新的斜框回归器以便从掩膜预测结果中准确预测飞机目标机头正方向。利用Google图像构建的飞机数据集和DOTA飞机单类数据集开展了多组方向检测和精细识别对比评估实验。结果表明,与其他多种先进的方法相比,本文方法在飞机检测的准确率、召回率、方向精准度以及精细识别的类别平均精准度上性能更优。此外,将本文设计的斜框回归器和方向损失函数应用于M-RCNN模型和CM-RCNN模型,并基于自建的Google飞机目标数据集进行了可嵌入性评估。实验结果验证了本文方法设计的斜框回归器和方向损失函数在嵌入到其他分割网络时也具有良好的性能。