基于视频图像的战斗机起落架检测

2022-10-12 05:22闫文君谭凯文

中国电子科学研究院学报 2022年8期

汤淼，闫文君,2，方伟,2，谭凯文

(1.海军航空大学，山东烟台 264001；2.海战场信息感知与融合技术国家级实验教学中心, 山东烟台 264001)

0 引言

战斗机作为当今世界夺取制空权的重要装备，其自身降落的安全性是世界军事强国十分关注的问题之一，容易受到天气、装备自身完好性、飞行员操纵时机等多个方面因素的影响。其中，起落架收放状态是飞行员和陆基指挥人员在战斗机降落过程中高度关注的问题，偶发的错误将对人员、装备带来不可挽回的损失。因此，对起落架的状态进行实时检测能有效提高战斗机降落的安全性，减少不必要的非战斗损毁。

近年来，基于深度学习的目标检测算法因能够自动地从图像中提取目标的特征，具有学习能力强且识别速度快、精度高等优点，已得到大量广泛应用。目前，主要流行的目标检测算法可以分为基于候选区域的两阶段检测算法和基于边界框回归的单阶段检测算法。两阶段的代表算法主要有R-CNN[1-2]、Fast R-CNN[3]和Faster R-CNN[4]，单阶段的代表算法主要有SSD[5]和YOLO[6]系列算法。其中，Faster R-CNN精确度最高，但检测速度很慢，不能满足实时性的要求；SSD算法的检测性能最低；YOLOv1在速度上表现不错，但对小物体泛化能力较弱。YOLOv2检测精度和速度都超过了上一代，但检测精度的提升并不明显。YOLOv3[7]在检测精度和速度之间取得了平衡。与YOLOv3相比，YOLOv4[8]拥有更高的精确度而且检测速度也没有下降。YOLOv5的训练速度更快，更易于部署。在YOLOv5的改进方面，文献[9]改进了损失函数并在残差块中嵌入坐标注意力机制来提高对舰船目标的检测效果。文献[10]在SPP结构中引入随机池化，利用BiFPN结构进行多尺度特征融合同时应用ELU激活函数提高模型鲁棒性。

尽管这些算法在很多特定的数据集中取得了不错的效果，但在战斗机起落架检测上仍会面临许多的挑战。一是视频数据本身就不太清晰，导致截帧后的图像质量较差；二是战斗机的运动会导致截取的图片中起落架发生一定程度的变形；三是战斗机降落时间短，对起落架的检测需要较高的实时性和精度。

本文在YOLOv5检测模型的基础上进行改进，首先，对视频进行截帧处理得到战斗机降落的图像数据，通过引入自动色彩均衡算法(ACE)[11-12]提高图像的清晰度；然后，在YOLOv5的主干特征提取网络提取出的三个有效特征层上施加超强通道注意力模块(ECA-Net)[13]来提高检测性能，在自制的战斗机起落架数据集上进行训练；最后，用训练得到的模型对战斗机起落架图片进行检测。

1 图像增强算法

采集得到的战斗机降落的视频数据经过截帧处理后图像质量不能得到很好的保证，恶劣的图像数据会影响起落架的检测效果，因此需要对视频图像进行增强。

目前几类典型的通过调整图像的像素值来改变图像质量的算法主要有直方图均衡化(HE)[14-15]、带色彩恢复的多尺度视网膜增强(MSRCR)[16]以及自动色彩均衡等方法。直方图均衡化主要是通过改变图像的直方图来改变图像中各像素的灰度来达到增强图像对比度的目的，可以将过亮和过暗的图像变得更加清晰。MSRCR算法通过色彩恢复因子，调整原图像中3个颜色通道之间的比例关系，将相对较暗区域的信息凸显出来，达到提高图像局部对比度的目的，使图像在人眼视觉感知中变得更加逼真。ACE考虑图像中颜色与亮度的空间位置关系，利用像素点之间的亮度差值来校正像素值。首先,通过对图像的色彩域和空域调整，完成图像的色差校正，得到空域重构图像。计算公式为

(1)

式中：Rc(p)是中间结果；Ic(p)-Ic(j)为2个点的亮度差；d(p,j)表示距离度量函数;r(*)为亮度表现函数，需要是奇函数，这一步可以适应局部图像对比度，r(*)可以放大较小的差异，并丰富大的差异，根据局部内容扩展或者压缩动态范围。一般的，r(*)为

(2)

接着,对校正后的图像进行动态扩展，对于RGB三个通道的彩色图像需要对每一个色道都进行处理，再合并成一幅完整的图像。最后，将其映射到[0,255]空间。ACE能够较好地处理图像细节，实现色彩校正以及提升图像亮度和对比度，具有很好的图像增强效果。

2 YOLOv5网络

2.1 网络结构

YOLOv5是YOLO系列的最新一代目标检测网络，由Ultralytics于2020年5月提出。YOLOv5网络目前有四种结构，分别是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。本文选择YOLOv5s模型作为检测模型进行实验，结构上可以分为输入端、Backbone、Neck、Prediction四个部分，具体的网络结构如图1所示。

图1 YOLOv5网络结构示意图

YOLOv5s输入端为640×640×3的图像，利用Mosaic算法将四张图片进行拼接实现数据增强，丰富了检测对象的背景，加强模型的特征提取能力，有利于提升模型的检测性能。Backbone采用CSPDarknet作为主干特征提取网络，它通过Focus模块进行切片操作在一张图片中每隔一个像素得到一个值，从而获得四个独立的特征层，然后再将四个独立的特征层进行堆叠，实现了宽高的压缩和通道数的扩张，得到320×320×12的特征图。使用CBS(Conv+BN+SiLU)和带有残差块的CSP_1X结构，CBS模块中的SiLU激活函数具有无上界有下界、平滑和非单调的特性，对深层模型的效果要好于ReLU激活函数；CSP_1X内部的残差块使用了跳跃连接，缓解了因网络深度的增加带来的梯度消失问题。同时，还加入了空间特征金字塔SPP[17]结构，提高网络的感受野。经过主干特征网络的提取，最终得到的三个有效特征图的尺寸分别为80×80×256、40×40×512和20×20×1 024。

YOLOv5中依然采用PANet[18]结构，主干部分获得的三个有效特征层在加强特征提取网络中进行特征融合，结合不同尺度的特征信息，不仅会对特征进行上采样实现特征融合，还会对特征再次进行下采样实现特征融合，避免了大量信息的丢失。在目标检测预测结果处理阶段，主要完成对图像特征的预测以此来生成边界框和预测目标种类。

2.2 K-means聚类调整先验框尺寸

YOLOv5使用K-means聚类算法聚类训练集中所有目标框的宽、高，默认的先验框尺寸是在VOC数据集上聚类得到的，然而在战斗机降落的视频图像数据集上需要检测的目标种类只有起落架一类，为提高对起落架的检测精度，重新对本文数据集中目标的宽和高进行聚类分析，得到合适的先验框尺寸。首先对已标注的数据集进行聚类，不断增加聚类中心的个数，经过迭代，计算每个数据到每个聚类中心的距离，距离计算公式为

d=1-IoU

(3)

式中：IoU为预测框与真实框的交并比。

以该距离函数作为优化准则函数进行聚类，直到准则函数达到最小时，聚类结束。这样会在一定程度上降低因不同样本宽、高差距大引起的聚类结果误差大的问题。

在自制的战斗机起落架数据集上，使用K-means算法聚类得到的先验框的尺寸分别为(7,11)，(8,13)，(8,12)，(7,14)，(8,15)，(8,20)，(12,17)，(11,25)，(18,38)。前三个先验框是80×80×256这个特征层对应的先验框，后三个先验框为20×20×1 024特征层对应的先验框，聚类效果如图2所示。

图2 K-mean聚类效果

2.3 嵌入通道注意力机制

通道注意力机制能够根据通道间的依赖性，自适应地分配给各通道权重，强化重要特征图对结果的影响，弱化非重要特征的负面作用，结构简单，可以有效提高现有网络模型的性能。注意力机制由于其具有即插即用的特性，已被广泛于多种神经网络中。

本文在主干特征提取网络提取出的三个有效特征层上施加ECA超强通道注意力机制，在避免降维给通道带来副作用的同时能够使模型将注意力放在战斗机降落图像的起落架上，忽略背景所带来的影响和干扰，由此来提高模型的检测准确率。

ECANet在SENet的基础上做出了部分改进，提出了一种不降维的局部跨信道交互策略(ECA模块)和自适应选择一维卷积核大小的方法，该模块通过执行大小为K的快速一维卷积来设置通道权重，以避免降维并有效地实现跨通道交流。整个过程只增加了少量的参数，却能够获得较为明显的效果，模块结构图如图3所示。

图3 ECA模块结构图

对于输入特征图X，通道空间大小为H×W，通道数为C，在经过全局平均池化操作后特征图的维度变为了1×1×C，计算得到自适应的一维卷积核大小K，将SE模块中的两次全连接层与激活函数ReLU去除，在全局平均池化后的特征上通过一个卷积核大小为K的快速1D卷积进行学习，得到对于特征图的每个通道的权重，将归一化权重和原输入特征图逐通道相乘，生成加权后的特征图。

K为卷积核的大小，代表了局部跨通道交流的覆盖范围，它的大小选择会非常重要，能够影响注意力机制中每个权重计算要考虑的通道数量。关于K值的确定，在不同的网络结构以及不同卷积块中，可以通过手动调节，也可以通过一个自适应函数来调节，卷积核大小K的计算公式为

(4)

式中：|t|odd表示距离t最近的奇数；γ取2；b取1。

2.4 损失函数

YOLOv5的损失函数由三种损失函数组成，分别是分类损失、定位损失和置信度损失，以上三项加权求和即为YOLOv5模型的总损失函数，损失函数可以在很大程度上决定模型的性能。置信度损失部分是根据正负样本和特征点的是否含有物体的预测结果来计算交叉损失；分类预测上采用二元交叉熵损失函数来预测锚框与对应的分类是否正确，损失函数表示如下：

(5)

式中：N为样本总数；yi为第i个样本所属的类别；pi为第i个样本的预测概率值。

本文使用全局交并比(Complete-IoU，CIoU)[19]作为定位损失函数来衡量预测框与真实框之间的差异，CIoU可以在矩形框回归问题上获得更好的收敛速度和精度。CIoU将目标与中心点之间的距离、重叠面积、长宽比以及惩罚项都考虑进去，使得目标框回归变得更加稳定。CIoU的惩罚项RCIoU为

(6)

其中,

(7)

(8)

CIoU损失函数LCIoU公式为

(9)

式中：ρ2(b,bgt)为预测框与真实框的中心点的欧式距离；c为同时包含预测框和真实框的最小矩形区域的对角线距离；α为trade-off的参数；v为长宽比的一致性；IoU为预测框与真实框的交并比；wgt为真实框宽度；hgt为真实框高度；w为预测框宽度；h为预测框高度。

3 实验过程与结果分析

本文采用的数据集是基于某型战斗机降落过程的视频数据，通过CV处理视频数据得到单帧图片组成数据集，共844张图片，按照9∶1的比例分为训练集与测试集。在具体的标注过程中，使用LabelImg标注工具对图片中的起落架进行手工标注矩形框，自动生成xml标签文件，从而得到真实框ground truth用于训练，数据集格式采用VOC数据集格式，其中有573张图片前起落架因战斗机转向、背景遮挡等问题人眼视觉不能正确辨认而未进行标记。

3.1 实验环境及训练参数设置

YOLOv5网络模型大部分都是在Pytorch框架上构建的，本文在此基础上实现了把YOLOv5模型部署在了Tensorflow框架上，实验环境采用CPU为Inter core i9处理器，32 GB的内部存储器，GPU处理器为NVIDIA RTX 3080Ti；实验平台为Windows10；软件环境是Python 3.7，Anaconda 3，CUDA11.0。输入图像尺寸统一为640×640像素，采用SGD优化器进行训练，优化器内部使用momentum参数，权值衰减数设为0.000 5,每次迭代训练样本数为16，最小学习率为0.001，最大学习率为0.01，训练次数设为100次，置信度设为0.5。

3.2 评价标准

本文根据精确率Precision、召回率Recall、平均精确度mAP和每秒的帧率FPS作为评价指标来评价模型的性能。精确率、召回率与平均精确度的计算公式为：

(10)

(11)

(12)

式中：TP为被正确预测为起落架的正样本的数量；FP为被预测为起落架，但实际上为假样本的样本数量；FN为被预测为假样本，但实际为正样本起落架的样本数量；P(R)为精确度与召回率曲线。精确率表示模型检测出来的起落架并且真正为起落架的数量占模型检测为起落架的比例，体现了模型检测的准确性。召回率表示模型检测出真实为起落架的数量占所有真实为起落架的比例，体现了模型识别真实起落架的能力；但是，精确率与召回率相互制约，很难同时提高，因此，引入了更具说服力的平均精确率mAP来评价算法的检测性能，mAP越高，性能越好。FPS用来评估模型的检测速度，表示每秒处理的图片的数量，值越大，检测速度越快，性能越好。

3.3 实验结果分析

(1)图像增强对比实验

本文分别使用了HE、MSRCR和ACE算法对战斗机降落视频图片进行图像增强，图像效果如图4所示。

图4 不同算法的效果对比

从图4可以看出，经HE算法处理得到的图像效果很差，目标与背景颜色对比度不明显，送入检测网络中很难检测出起落架；使用带色彩恢复的MSRCR算法得到的图像颜色发生变化而且图像偏暗；经过ACE算法得到的图像亮度和颜色都有所改善，增强效果要好于HE和MSRCR，因此本文选用了ACE算法进行图像增强。

(2)不同网络模型对比实验

为了验证本文提出算法的性能，分别选用了SSD、YOLOv3、YOLOv4、CenterNet、YOLOv5五种流行的目标检测算法在同一实验平台和相同数据集下进行对比实验，完成对战斗机起落架的检测，检测结果如表1所示。

表1 不同检测模型的检测结果

从表中可以看出，本文算法相比于SSD算法，速度上略有不足，但mAP提高了很多，性能明显更好；对比于CenterNet算法，在速度和mAP上都有显著提升；和YOLOv3、YOLOv4算法相比，速度上略有提升，mAP提升明显；和原YOLOv5算法相比，mAP提升了1.43%，速度上几乎持平，能够满足实时检测的需求。在对战斗机降落视频的检测中，能够较好地检测出后起落架且跟踪稳定。

(3)消融实验

算法对视频图像数据进行了图像增强，在YOLOv5的主干特征提取网络提取的三个有效特征层后嵌入了ECA高效通道注意力模块，为评估两个改进模块对于算法性能的提升效果，特设计消融实验在相同的实验条件下进行验证，实验结果如表2所示。实验结果表明，两种改进方法单独作用都会起到提高检测精度的效果，单独进行图像增强mAP增加了0.37%，单独嵌入ECA高效通道注意力模块mAP增加了0.52%，注意力机制模块的性能要好于图像增强，两者共同作用mAP增加了1.43%，检测精度有了较大的提高。

表2 消融实验数据 %

为验证改进后YOLOv5算法的检测效果，通过消融实验对比不同模块加入后检测效果的变化，检测效果对比如图5所示，图中的检测概率表示预测框与真实框的重叠程度，由于置信度设为0.5，只有检测概率大于0.5的预测框才会被保留下来。置信度分数与真值框的IoU与IoU阈值相比较来判断为TP还是FP，进而影响到mAP的计算。从图5可以看出，各模块的加入都漏检了战斗机的前起落架，这主要是由于降落过程时间短，战斗机转向等原因导致数据集中标注前起落架的标签数据较少，未能较好地提取前起落架的特征信息，对检测效果造成了很大影响；对后起落架都能很好地检测出来，各模块加入后检测效果都有了一定提升，与图5(a)检测效果相比，图5(b)为加入了ACE模块后对起落架的检测效果，对左侧起落架的检测概率提高了2%，右侧提高了3%；图5(c)为加入ECA模块后对起落架的检测效果，对左侧起落架的检测概率提高了6%，右侧提高了1%；图5(d)为本文算法的检测效果，对左侧起落架的检测概率提高了7%，右侧提高了1%。本文算法的mAP值较高，整体的检测效果也较好，能够更好地识别出起落架目标。

图5 消融实验检测效果对比

4 结语

本文针对视频图像中战斗机起落架目标小、检测难度大等问题，提出了一种改进的YOLOv5算法完成对战斗机起落架的检测。通过ACE算法对视频图像进行增强，在主干提取网络提取的三个有效特征层后嵌入ECA注意力机制，得到新的起落架检测模型。实验结果表明，经过改进后YOLOv5模型与原YOLOv5模型相比，mAP提高了1.43%。但该算法也有局限性，视频图像数据中含有前起落架的标签数据较少，对前起落架检测效果很差。下一步将继续进行算法优化，提高小样本条件下对起落架的检测精度。