基于改进YOLOv4算法的小型多旋翼无人机目标检测

2022-11-04 04:17张启亮翁明善

探测与控制学报 2022年5期

王磊，张启亮，翁明善

(1.空军工程大学研究生院，陕西西安 710051；2.中国人民解放军93688部队，天津 300202； 3.空军工程大学防空反导学院，陕西西安 710051；4.中国人民解放军93159部队，辽宁大连 116033)

0 引言

随着电子技术的不断发展，近年来小型多旋翼无人机技术日趋成熟，成为一种新兴的遥感手段。它可以根据携带的装备器材，完成战时侦察监视、电子干扰、火力打击、毁伤评估、通信中继等任务[1]，也在测绘、反恐、灾难救援、水利水电建设、农业估产等民用方面发挥极大作用[2]。由于其在低空、超低空领域飞行，具有目标小，隐蔽性强的特点，容易被敌方用于情报侦察，低空突防后实施火力打击，从而造成国家重要秘密外泄，重点要害目标遭受威胁，对我国空防安全带来了新的挑战。

小型多旋翼无人机低空、超低空飞行时地杂波较强，使得雷达探测能力严重下降，多输入多输出(multiple input multiple output, MIMO)雷达具有较强的杂波抑制能力与抗干扰能力[3]，可以作为一种探测多旋翼无人机的有效手段。雷达捕获多旋翼无人机目标后进行信号处理，当采用固定门限，由于较强的地杂波会产生较高的虚警率，影响雷达检测性能。传统恒虚警概率检测(constant false alarm rate, CFAR)算法采用统计理论，以临近的参考单元信号强度动态调整雷达的检测门限，采样单元信号强度大于门限便认为有目标，小于门限便认为无目标，在保持虚警概率不变化的基础上尽可能提升检测能力[4]。但当噪声功率较高时，CFAR算法的检测能力会急剧下降，对于强地杂波下的低空、超低空多旋翼无人机检测概率较低。

近年来，随着深度学习的高速发展，在机器视觉领域科研人员提出了大量基于深度卷积神经网络(convolutional neural network, CNN)的模型，尤其是2012年AlexNet[5]的提出，更是为目标检测开辟了新的研究方向。此后，RCNN[6]、SPPNet[7]、Faster-RCNN[8]、YOLO(you only look once)、SSD(single shot multibox detecor)[9]、Retina-Net[10]等优秀算法相继被提出，并在光学图像处理领域得到了较为广泛的应用。

通过不同的雷达信号处理方法，可以得到不同形式的雷达图像，部分经过处理的雷达图像会呈现出光学图像的某些特征。因此，越来越多的学者开始将光学图像处理领域的深度学习成果应用于雷达图像处理领域，主要有合成孔径雷达(synthetic aperture radar,SAR)图像、高分辨距离像(high resolution range profile,HRRP)、微多普勒谱图、距离多普勒(R-D)谱图等[11]。SAR图像与光学图像的较大相似性使得深度学习在SAR图像处理领域的应用较为广泛。2017年，徐丰、王海鹏等人提出了复数深度CNN并应用于全极化SAR图像的地物分类中，在Flevoland 15类地物分类中取得了95%的精度[12]。在HRRP识别领域，Karabayir O等人采用典型的CNN对舰船目标模型进行分类，在自制的HRRP数据集上取得了93.9%的识别率[13]。南京电子研究所王国帅等人为改善基于CNN的模型对于雷达目标识别的泛化能力，将深度适配网络引入到HRRP目标识别中，并对损失函数进行了改进，实验表明，该方法可显著提升模型的泛化能力与鲁棒性[14]。在微多普勒谱图识别领域，海军航空大学苏宁远等人将CNN用于海上目标微多普勒的检测分类，分别构建4种微动信号的二维时频图，采用LeNet、AlexNet、GoogLeNet 3种CNN模型与传统支持向量机(support vector machines,SVM)的分类性能进行比较，结果表明3种CNN模型均能取得较好的分类检测性能[15]。文献[16]针对传统弹道目标的微多普勒分类性能差的问题，提出了一种深度CNN模型，实验结果表明该方法在低信噪比下的分类准确率更高。在R-D谱图识别领域，研究人员通过采集10个人的11类手势动作进行R-D谱图序列分类，最终获得87.6%的平均识别率[17]。文献[18]通过深度学习网络对飞鸟与无人机的回波序列图、微动时频图、R-D谱图等进行提取，输入多通道CNN模型，为飞鸟和无人机的识别分类问题提供了新思路。

针对上述情况，本文将光学图像处理领域准确度、实时性较为均衡的YOLOv4[19]目标检测算法引入到多旋翼无人机目标检测中，并对其进行改进。

1 算法原理

1.1 YOLOv4算法原理

YOLOv4算法是由Alexey Bochkovskiy等人在2020年基于YOLOv3算法改进而来，很好地平衡了算法的检测精度与检测速度，是当下应用较多的一种目标检测算法。图像输入模型后，首先会被分割成76×76、38×38、19×19三种尺寸的网格，用于检测不同尺度的目标。如果被检测目标的中心位于某一个网格内部，便由这个网格来负责检测目标，并计算出3个预测框，每个预测框包含框的中心点坐标(x,y)、框的宽度、框的高度、目标的置信度等5个参数以及目标类别C，共计5+C个参数信息。YOLOv4算法主要由主干特征提取网络CSPDarknet53、空间金字塔池化(spatial pyramid pooling,SPP)结构、路径聚合网络 (path aggregation network,PAnet)以及3个YOLO Head模块组成[20]，算法结构如图1所示。

图1 YOLOv4网络结构图Fig.1 Network structure diagram of YOLOv4

SPP结构是对CSPDarknet53结构的最后一个特征层经过3次卷积后分别利用4个尺度进行最大池化操作，池化核大小分别为1×1、5×5、9×9、13×13，从而最大程度地增加感受野，分离出较为明显的上下文特征。PANet结构用来进行反复提取特征，完成传统特征金字塔自下而上提取特征后，再次在76×76、38×38、19×19这3个有效特征层中自上而下提取特征，从而完成特征融合，有效提升目标特征的提取能力。最后将通过PANet结构处理的3个特征层输入到YOLO Head中对每个特征层的预测框进行判断，最后通过非极大值抑制和先验框调整的方法筛选出置信度较高的框作为目标的最终预测框。

YOLOv4的总损失函数是由回归框预测误差lloc、置信度误差lconf以及分类误差lcls三部分组成[20]：

Loss=lloc+lconf+lcls。

(1)

回归框预测误差lloc为

(2)

(3)

(4)

式中，ηIOU(M,N)表示真实框与预测框的交并比，ρ2(Mctr,Nctr)表示真实框与预测框中心点的欧氏距离，m表示能够包括真实框与预测框最小闭合区域的对角线距离，wgt表示真实框的宽度，hgt表示真实框的高度，w表示预测框的宽度，h表示预测框的高度。

置信度误差lconf为

(5)

分类误差lcls为

(6)

1.2 SENet算法原理

SENet(squeeze-and-excitation networks)是2017年Jie Hu等人将注意力机制引入CNN后，提出的一种全新的图像识别结构[21]。该结构提出了一种即插即用的SE模块，通过该模块可以学习通道间的信息，生成通道的权值向量，放大有用的特征通道，抑制作用较小的通道，实现对通道信息的筛选，缓解干扰信息对网络模型的影响，图2为SE模块结构图[21]。

图2 SE模块结构图Fig.2 SE module structure diagram

特征图U的通道数为C，宽和高分别为H和W。U输入SE模块后，首先是Squeeze操作，会对每个通道进行全局平均池化，将特征图的宽和高压缩至C×1×1的一维向量，计算公式为

(7)

式(7)中，(i,j)为特征图U坐标轴上横纵坐标为i和j的点。

随后进行Excitation操作，利用两个全连接层对一维向量进行映射变换，生成对应的注意力权重。第1个全连接层的激活函数为ReLU函数，第2个全连接层的激活函数为Sigmoid函数，计算公式为

S=Fex(Z,W)=Sigmoid(W2×ReLU(W1,Z))，

(8)

最后将得到的权重向量与通道进行相乘，得到输出结果，计算公式为

(9)

式(9)中，符号“⊗”表示逐元素相乘。

2 基于改进YOLOv4算法的目标检测

由于小型多旋翼无人机的多个旋翼会产生多普勒频移，其在雷达R-D谱图上呈现出的将不再是一个亮点，而是特征较为明显的带状线，这种带状线能够丰富小型多旋翼无人机目标的特征，可以使YOLOv4算法学习到更深层次的特征，从而进一步提升检测概率。因此，本文算法对于无人机的检测在R-D谱图上进行。图3为本文算法的整体流程。

图3 算法整体流程Fig.3 The overall flow of the algorithm

2.1 数据预处理

通过实验室自制4入4出MIMO雷达系统对大疆M600pro多旋翼无人机进行跟踪检测，得到原始的雷达回波信号。原始雷达回波为一维向量，无法满足YOLOv4算法的输入条件，需要对数据进行预处理。通过对距离维进行匹配滤波，随后对多普勒维进行快速傅里叶变换(fast Fourier transform，FFT)，提取目标的多普勒频率，获得回波信号在距离-多普勒域能量分布的二维数据矩阵,进而得到多旋翼无人机的R-D谱图。图4为经过数据预处理后的R-D谱图。

图4 经过数据预处理后的多旋翼无人机R-D谱图Fig.4 R-D spectrum of multi-rotor UAV after data pretreatment

2.2 YOLOv4算法改进

2.2.1先验框改进

由于YOLOv4模型所提供的先验框是通过聚类VOC数据集得到的，VOC数据集有20种目标类别且目标尺寸、长宽比例差别较大，与本文所用无人机R-D谱图数据集中目标的边界框尺寸不符，如果直接使用原始先验框尺寸，会造成大量漏检，因此采用k-means聚类算法对R-D谱图数据集中标注的目标尺寸进行聚类分析，得到聚类后的先验框尺寸为(198，11)，(219，12)，(228，13)，(235，11)，(238，15)，(241，11)，(240，13)，(249，12)，(256，14)。为加大先验框参数之间的差距，提升不同特征层与先验框的匹配度，本文在k-means聚类算法的基础上对先验框尺寸进行了缩放，具体缩放方法如下：

(10)

2.2.2嵌入SE模块

针对YOLOv4算法不能学习通道间特征重要程度的问题，考虑将SE模块嵌入YOLOv4网络中，从而提升算法的特征提取能力。SE模块通常会在某些卷积层中使用，由于YOLOv4算法的特征提取网络采用的是CSPDarkNet53结构，该结构对于图像特征的提取能力已经足够使用，不需要再嵌入SE模块。故本文考虑在YOLO Head层前嵌入SE模块，这样既可以缓解干扰信息对模型的影响，又能减少SE模块中全连接层带来的运算量。图5为改进后的SE-YOLOv4网络结构图。

图5 改进后的SE-YOLOv4网络结构图Fig.5 Improved SE-YOLOv4 network structure diagram

2.3 性能评估

训练完成后，将测试集输入到训练好的YOLOv4与SE-YOLOv4网络分别进行检测，通过调整置信度的阈值来控制目标的检测结果，当预测结果的置信度大于阈值则认为是目标，当预测结果的置信度小于阈值则认为不是目标，从而得到不同虚警概率下目标的检测概率。

为了更好地评估算法的检测性能，本文将YOLOv4和SE-YOLOv4算法得到的预测结果与真实结果进行对比，统计出其检测概率Pd与虚警概率Pfa，随后再与CFAR算法进行比较。由于预测框与实际框不能完全一致，故若预测框在距离维的对应点数处于真实框在距离维对应点数的±25%以内(包含25%)，统计为正确检测，超出±25%的部分统计为虚警。检测概率Pd与虚警概率Pfa的计算公式如下：

(11)

(12)

式(12)中，Y为距离维总点数，y0、y1分别为实际框向上、向下扩展其长度25%所对应的距离维点数。

3 实验验证

3.1 实验环境

本文实验采用Windows10系统，酷睿i9-10900F处理器，内存120 G，RTX3090显卡，通过Matlab软件对雷达接收到的回波信号进行预处理，使用cuda11.0、cudnn8.0、pytorch1.7.0搭建网络模型，训练完成后，在测试集上对模型进行检测，随后使用Matlab软件对CFAR、YOLOv4及SE-YOLOv4算法的检测结果进行统计评估。

3.2 数据集制作

对第1组原始一维信号进行数据预处理后得到1组大小为933×735，分辨率96dpi的目标R-D谱图。随后通过对第1组图像增加椒盐噪声(salt and pepper noise)、高斯噪声(gaussian noise)、随机噪声(random noise)以及变换通道 (transform channel)的方式进行数据增强，增强后的数据集共计6 650张图像，并使用LabelImg软件对图像进行标注。按照9∶1的比例将数据集划分为训练集与验证集，其中训练集5 985张，验证集665张。图6是对同一张R-D谱图进行4种方式的数据增强后得到的图像。

图6 数据增强Fig.6 Data enhancement

测试集采用在第2组原始一维信号上叠加噪声后，再进行数据预处理，生成叠加噪声功率分别为5、10、15、20 dB共计4组测试集，每组6 160张图像。图7为叠加噪声功率为5、10、15、20 dB时的R-D谱图。

图7 不同叠加噪声功率下的目标R-D谱图Fig.7 R-D spectra of targets with different added noise powers

3.3 模型训练

图像输入尺寸为608×608，共计训练100代。前50代采用冻结网格的方式训练，初始学习率为0.001，Batchsize为16；50至100代进行解冻训练，Batchsize为4，初始学习率为0.000 1。图8为模型训练时的Loss下降曲线。

图8 Loss下降曲线Fig.8 Loss decline curve

3.4 实验结果

实验中通过不断调整CFAR算法的检测门限，调整YOLOv4和SE-YOLOv4算法的置信度阈值，得到算法不同的检测概率Pd与虚警概率Pfa，绘制出叠加噪声功率分别为5、10、15和20 dB时的接收机工作特性(receiver operating characteristic, ROC)曲线[22]，如图9—图12所示。由于雷达虚警概率通常保持在10-6量级左右，故本文仅对雷达虚警概率小于1×10-5时雷达的检测性能进行统计评估。

图9 叠加噪声功率为5 dB的ROC曲线Fig.9 The ROC curve with the added noise power equal to 5 dB

图10 叠加噪声功率为10 dB的ROC曲线Fig.10 The ROC curve with the added noise power equal to 10 dB

图11 叠加噪声功率为15 dB的ROC曲线Fig.11 The ROC curve with the added noise power equal to 15 dB

图12 叠加噪声功率为20 dB的ROC曲线Fig.12 The ROC curve with the added noise power equal to 20 dB

从图9—图12中可以看出，在虚警概率小于1×10-5时，YOLOv4原模型与CFAR算法的检测概率均不超过0.6，两者检测性能基本相当。当叠加噪声功率变化时，YOLOv4原模型的检测性能波动较为明显，但CFAR算法的检测性能波动不明显，鲁棒性更强。

对于SE-YOLOv4算法，当虚警概率大于2×10-6时，算法的检测性能随着叠加噪声功率的增加略有下降。当虚警概率小于2×10-6，叠加噪声为5 dB时，算法的检测概率能够保持在0.5～0.9之间，当叠加噪声功率为10～20 dB时，算法的检测性能随着叠加噪声功率的增加有所下降，但波动不明显，基本保持在0.2～0.7之间，可以看出算法的检测性能良好。

实验表明，对原始YOLOv4算法的先验框进行改进后，加大先验框之间的尺寸差异，使得先验框能够与不同特征层更好地进行匹配，降低了算法的漏检概率；其次，由于增加了SE模块，改进后的SE-YOLOv4算法能够在不改变网络结构的情况下对特征图进行重构，实现强调重要特征，忽略不重要的特征，增强模型的表征能力，进一步提高模型检测性能。此外，由于算法的虚警概率是通过调整置信度的阈值来控制，当虚警概率小于2×10-6时，置信度阈值已经调整为极高值，导致算法在虚警概率小于2×10-6时，检测概率快速下降。

4 结论

针对基于传统CFAR算法的MIMO雷达在地杂波较强的环境中对于小型多旋翼无人机检测性能急剧下降的问题，本文基于YOLOv4算法对多旋翼无人机的R-D谱图进行识别。在通过k-means聚类算法聚类后，对先验框进行了针对性的缩放，使其能够更好地匹配不同特征层。随后通过对YOLOv4算法增加SE模块，进一步增强了算法的检测性能。实验表明，改进后的SE-YOLOv4算法的检测性能优于CFAR算法与YOLOv4原算法。后续将在SE-YOLOv4算法的基础上继续进行改进，进一步提升MIMO雷达对小型多旋翼无人机的检测性能。