基于改进SSD的低照度图像目标检测算法

2022-05-27 07:51张鑫港
自动化与仪表 2022年5期
关键词:照度模态卷积

吕 东,张鑫港

(1.青岛科技大学 信息科学技术学院,青岛266061;2.兰州交通大学 测绘与地理信息学院,兰州730070)

目标检测已成为当今计算机视觉领域的重要研究任务之一。其本质是在图像的复杂背景中找到若干物体,给出物体的位置信息,并判断其类别[1]。它被广泛应用于工业生产、视频监控、智能交通等方面[2]。然而,由于图像采集过程中各种不可控因素导致的各种缺陷,尤其是在不利条件下,如室内光照、夜间照明和多云天气[3],采集的图像经常存在缺陷,从而导致图像质量严重下降,这使得视觉系统无法完全实现其目的[4-8]。因此,在低照度图像条件下提高目标检测的准确性和实时性成为亟待解决的问题。

低照度图像目标检测作为目标检测中极具挑战性的任务,由于低照度图像携带的信息较少,难以提取出足够有效的特征。因此目标检测结果相对较差。基于深度学习方法包含更丰富的语义信息,这在图像分类处理领域引起了研究者的关注[9-10]。这些方法显示出检测精度的显著提高。随着CNN 的进一步发展,人们发现低层特征图包含丰富的高分辨率特征和较小的感受野,有利于低照度图像目标检测,而高层特征图包含低分辨率语义信息,有利于大对象检测。文献[11]提出了SSD,它可以从多个层面直接检测不同大小的物体。浅层特征图适合检测小物体,因为它们包含更大的尺寸、更小的感受野和更丰富的细节信息。而深度特征图可以更好地检测大物体,因为它们包含更小的尺寸、更大的感受野和更丰富的语义特征信息。浅层特征图包含的语义信息较少,检测性能仍然不佳;文献[12]提出了一种在SSD 中引入上下文信息的多级特征融合算法。文献[13]构建了一个特征金字塔网络(FPN),它包括一个具有水平连接的自顶向下的体系结构。通过下采样将高层特征图和低层特征图合并,使低层特征图包含低分辨率特征和强语义映射。但是经过太多的下采样操作,目标的很多信息都会丢失,难以恢复;文献[14]通过引入扩张卷积增加了感受野,增强了特征的语义信息,保证了输出图像与输入图像具有相同的大小。然而,上述方法都有一些缺点,只是在单一图像上进行特征增强提取,而没能充分考虑到光照不均匀导致局部增强不明显,或者是没能充分挖掘低照度图像的有效信息。

针对上述分析存在的问题,本文提出基于改进SSD的低照度图像目标检测算法。为了考虑到光照不均匀带来的影响,采用基于Retinex 图像增强算法[15]增强图像特征的利用程度;为了充分挖掘互补信息,采用特征提取能力更强的ResNet50 网络替换SSD 网络原有的VGG16 特征提取网络,并提出了差分特征融合模块(DFF)模块来挖掘原始图像和增强图像之间的差异,从而在每个通道上带来更多的互补信息。实验结果表明与现有的方法相比本文的方法具有较好效果。

1 SSD 算法模型

SSD 算法模型借鉴YOLO 网络将目标检测任务由分类问题转化为回归问题的思想,无需区域候选框的提取过程,大大缩短了检测时间。同时,SSD 算法模型借鉴Faster R-CNN 网络的锚点机制,即在特征图的每个像素上产生一定个数且纵横比确定的默认框,在不同尺度的特征图做预测,提高对物体的检测准确性,模型总体检测速度快且精确率较高。

原始的SSD 基础网络采用VGG16 作为主干网络,通过将几个尺寸逐渐减小的卷积层添加到基本网络中,以生成多尺度金字塔特征图。SSD 应用不同纵横比的默认边框这一过程确保了SSD 能够高精度地检测多尺度对象。如图1所示,SSD 使用2 个3×3 个卷积层来预测默认框的偏移量和类别的分数。该方法不仅使用最后一层来处理对象检测,而且利用基础网络的一些浅层和所有新添加的层。图1 中,在卷积运算之后,特征图包含3 个参数:长度、宽度和通道数。例如,在Fc6 层卷积运算之后,特征图的规格为[19,19,1024]。

图1 SSD 网络结构图Fig.1 SSD network structure diagram

SSD 匹配最佳Jaccard 的单个地面真实盒中的多个默认盒,重叠高于阈值。因此,一个对象可以有多个高度重叠的框。然后,使用非最大抑制(NMS)迭代后处理所有的置信框,以细化最终的输出框。

2 改进SSD 算法

2.1 改进基础网络

针对原始SSD 算法对低照度图像场景下图像目标检测精度不高、网络存在性能退化等问题,对传统SSD 算法进行改进:改进基础网络,优化侯框的回归和分类任务;对低层和高层不同特征图进行多尺度特征融合,提高模型对目标检测的性能,具体改进SSD 网络结构如图2所示。

图2 改进的SSD 网络结构图Fig.2 Improved SSD network structure diagram

在目标检测算法网络中分类网络的性能对其性能有重大影响,分类网络去掉全连接层和损失层就是基础网络部分。为验证常见基础分类网络的性能,基于Tensorflow[16]框架在ImageNet2012[17]数据集上对DenseNet,VGGNet,MobileNetv2,ShuffleNet 和ResNet 各个网络进行测试,结果如表1所示。

表1 不同网络性能对比结果Tab.1 Comparison results of different network performance

从表1 可以看出,ResNet50 网络的速度和精度均比SSD 原始基础网络VGG16 高很多,并且从每秒浮点运算次数(FLOPS)来看,ResNet50 网络要比VGG16 小很多,这表明ResNet50 模型的时间复杂度远低于VGG16。综上所述,本文选择了ResNet50作为改进SSD 算法的基础分类网络。

2.2 差分特征融合模块

为了解决图像光照度不平衡对提取特征不明显的问题,本文提出用基于RetiNex 模型进行结构图像增强来提高浅层特征的利用程度,而后提出了差分特征融合(DFF)模块来挖掘原始图像和增强特征图之间的差异。以往基于深度卷积网络特征增强模型通常采用在原网络中引入稠密连接,并在最后一层卷积层后加入反卷积层,将其特征图尺寸通过反卷积操作一直扩大到与原SSD 网络卷积层Conv4_3 特征图的尺寸相同。然后通过对降采样之后的特征图做反卷积操作,将特征图尺寸扩大,并获取比卷积层输出相同尺寸的特征图更加丰富的语义信息。预测阶段将卷积操作生成的特征图与反卷积操作生成的特征图进行拼接,再将拼接后的结果送入检测器和分类器中进行处理。

然而,传统的直接拼接方法在获取交叉通道互补信息时存在模糊性。这两种模式都有自己的特征表征,其中夹杂着有用的提示和噪声。而简单的融合策略,如线性组合或串联,缺乏清晰度提取交叉互补信息。在本文看来,两种互补图像之间的固有差异可以通过一种显式和简单的机制——差分特征融合模块。

本文的思路来自差分放大器电路,其中共模信号被抑制,差分模式信号被放大。本文的DFF 模块保留了原有的特征,并根据不同的特征进行补偿。低照度图像图像卷积特征图FA和增强卷积特征图FB可以用每个通道的共模态部分和微分模态部分表示如下:

共同模态部分反映共同特征,差异模态部分反映两种模态捕获的独特特征。式(1)说明了分裂的原理,这与差分放大电路和DFF 模块的原理相同。本文的DFF 模块的关键思想是从另一个具有信道加权的模态中获取互补特性。期望通过明确地建模模态相互依赖来增强互补特征的学习,从而提高网络对另一模态信息特征的敏感性。

为了充分利用跨模态补充,DFF 模块被密集地嵌入到每个ResNet 块中,如图3所示。

图3 差分特征融合模块Fig.3 Differential modal perception fusion module

本文首先通过两种模态的直接相减得到微分特征FD。然后,将全局空间信息FD压缩到一个包含有全局平均池化的信道差分统计量的全局差分向量中。全局微分向量可以解释为一个通道描述符,其统计是表达原始图像和增强图像之间的差异。采用范围为-1~1 的tanh 激活函数对全局微分向量进行求解,得到融合权向量VW。两个模态特征FA和FB通过融合权向量VW进行信道级乘法重新校准。重新校准的结果FAD,FBD将作为补充信息添加到原模态路径中。在使用DFF 模块从另一种方式进行增强之后,将生成信息更丰富、更健壮的特性,并在接下来的步骤中发送到下一个ResNet 块。DFF 模块的整个过程可以表述为

式中:F(X)为残差函数;σ 表示tanh 函数;GAP表示全局平均池化;⊕和⊙分别表示元素的求和和元素的乘法。值得注意的是,在残差分支中加入了FRD和FTD,使得互补特征学习成为受RFBNet[18]启发的残差学习。使用残差映射,互补特性不会直接影响特定于模式的流。DFF 模块作为ResNet 块中的残差函数的一部分。

DFF 模块的可视化结果如图4所示。由于两种模式的特征不同,原始特征图像和增强特征图像在获取目标和背景特征方面都有一定的局限性。随着CNN 的深入,目标特征逐渐突出,背景特征被重新整合。背景特征的整合意味着细化有用的背景信息,尽可能地消除噪声背景信息。DFF 模块有效地结合了形态特征,有助于背景信息的整合,使目标特征从低到高的突出。本文认为,DFF 模块促进了网络中的模态交互,减少了冗余学习,传递了更多的信息。

图4所示DFF 模块前后阶段3 中一个通道的Feature map 可视化结果。两种形态特征图之间的差异信息进行了修正。

图4 特征增强前后对比结果可视化Fig.4 Visualization of comparison results before and after feature enhancement

2.3 损失函数

由于设计了双分支SSD 目标检测网络,原始低照度图像和增强后图像被组合以通过AP 阶段生成近似位置估计,预测的回归偏移t0用于提出可变形锚作为下一个阶段的位置预测的基本参考。然后通过进一步微调可变形锚和置信度得分。由原始低照度图像和增强后图像得到的置信度得分s0,s1根据照度值重新加权。最终置信度得分sfinal和回归偏移量tfinal计算如下:

置信度得分的提高是为了在只有在两个阶段的得分s0,s1都很高时才获得最终得分。而对于回归偏移,采用求和的方式逐步逼近真值框。受文献[19]的启发,在分类损失Lcls中添加了焦点权重,以解决正负失衡。Lcls的公式如下:

式中:S+,S-是正负锚盒。正如文献[19]中所建议的,本文通过实验设定α=0.25,γ=2。si为样本的正概率。总损失为分类损失Lcls和回归损失Lreg之和,其中回归损失Lreg为Faster R-CNN 提出的平滑L1损失[20]。

总损失函数L为

3 实验结果及分析

本文基于Windows 10 操作系统,2.20 GHz×40Intel-Xeon(R)Silver 4114 CPU,GeForce GTX 1080 Ti GPU 和64 GB 内存进行迭代训练。数据集采用KAIST[21]数据集(数据集由行人和车辆两类,分为白天低照度图像和黑夜低照度图像),其中本文选取了2252 张低照度图像环境下图像数据作为扩充数据集。通过图像平移、旋转及镜像进行数据集扩增,得到8963 对图像。

3.1 模型训练

本文改进的模型是在ImageNet 数据集上进行预训练得到的预训练权重,然后通过神经网络的迁移学习,重新对训练集和验证集进行训练,训练过程中的超参数设置如表2所示。

表2 训练参数设置Tab.2 Training parameter settings

整个网络通过Adam 优化器进行优化训练,学习率为0.0001,然后是将第3 阶段至第6 阶段初始锚的宽设置为[25.84,29.39],[33.81,38.99],[44.47,52.54],[65.80,131.40] 将训练参数设定为32的图像批大小和10-4的学习率,每迭代10000 次对学习率除以10。训练模型花了22 个小时。

在经过35 轮的迭代训练后,训练总损失结果稳定在一个较低的平均水平,如图5所示。

图5 训练损失曲线Fig.5 Training loss curve

3.2 检测结果分析

除了与原始SSD 算法进行检测精度比较,本文还将改进算法与Faster R-CNN,YOLOv3 在KAIST数据集中进行了比较,该相同训练集分别对各网络进行训练,使用相同测试集进行测试,实验结果如表3所示。

在相同的数据集和训练迭代次数下运用不同的网络模型进行比较。从表3 中可以看出,Faster R-CNN 平均精度均值mAP为81.35%,高于SSD 和YOLOv3 及本文算法的检测精度,但FPS太低。相比于其它3 种检测算法,YOLOv3 算法检测精度mAP最低。本文改进算法的mAP为82.39%,相比于原始SSD 和YOLOv3 的检测精度mAP指标上分别提升了2.71%和4.83%,并且相比较其它3种算法图像传输速率FPS方面有了很大的提升,FPS提升为35,该算法在低照度图像实时检测方面具有很大的速度优势。通过运用本文算法对照度不均匀图像进行检测,图像检测结果如图6所示。

表3 不同算法检测性能对比Tab.3 Comparison of detection performance of different algorithms

图6 目标检测结果对比Fig.6 Comparison of target detection results

4 结语

为进一步提高低照度图像中目标的检测精度,本文改进了原始SSD 算法。通过对比多种基础网络结构对目标检测性能的影响,本文采用ResNet50 网络代替VGG16 作为SSD的基础网络,以此来平衡目标检测速度与精度的影响;为了解决图像光照度不平衡对提取特征不明显,本文提出用基于Retinex模型进行结构图像增强来提高浅层特征信息的利用程度;而后提出了设计双分支SSD 网络结构并结合差分特征融合(DFF)模块来挖掘原始图像和增强特征图之间的差异,为了充分利用两者之间的互补信息,DFF 模块被密集地嵌入到每个ResNet 块中,来生成信息更丰富、更健壮的特征。实验结果表明,所提方法有效提高了对低照度图像环境下目标的检测精度,且实时性好,能够满足实际需求。

猜你喜欢
照度模态卷积
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
基于3D-Winograd的快速卷积算法设计及FPGA实现
跨模态通信理论及关键技术初探
机器视觉的低照度图像缺陷识别方法
卷积神经网络的分析与设计
低照度环境对亲社会行为的影响:促进还是抑制*
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
日版《午夜凶铃》多模态隐喻的认知研究