基于Mask R-CNN的行道树目标检测

2022-12-30 04:01赖松雨周小力
无线电工程 2022年12期
关键词:行道树注意力特征

赖松雨,史 方,廖 俊,周小力,赵 俊

(四川轻化工大学 自动化与信息工程学院,四川 宜宾 644000)

0 引言

城市行道树是指排列在城市街道两旁具有观赏价值和发挥各类生态效益的乔木[1]。城市行道树调查中,行道树与周围环境之间相似度较高、行道树树种之间结构差异较大。以往林业人员在进行城市行道树资源调查时主要采用人工实测的方法获取行道树的种类、树冠形状和纹理等参数信息,效率低下,人工成本高[2]。因此,运用深度学习的方法对采集到的街景图片进行行道树参数信息的获取具有非常重要的意义。

近年来深度学习在检测、分类和分割方面大量应用,一些研究者使用基于提议框的二阶段目标检测和直接进行边界框的回归的一阶段目标检测方法[3-4]进行行道树检测。董彦锋等[5]提出了基于YOLO-v2网络模型的改进型一阶段行道树检测方法,在神经网络中不经过区域提议层,在特征提取之后直接进行行道树分类和边界框回归,该模型检测的优点是检测速度较快。二阶段的行道树目标检测中,沈雨等[6]提出了一种基于Faster R-CNN的检测框架,通过在原始模型中加入树形分部加权R-CNN模块,可以有效地解决部分遮挡问题。上述检测模型中YOLO和Faster R-CNN检测模型只能检出行道树的边界框,不能对树木的轮廓、纹理等细节做进一步的提取。陆清屿等[7]提出了一种基于Mask R-CNN的行道树检测模型,该方法使用迁移学习的思想对模型进行训练,在对行道树进行定位以及分类的同时,在行道树表面覆盖一层掩膜,做到了将行道树与背景进行分离,并能够凸显出行道树的细节上的信息(如行道树轮廓),在树冠较密、树干较粗的情况下该模型的分割效果较好,但在树干较细、含遮挡的情况下出现树干不能检出、漏分割的问题。基于深度学习的方法,一定程度上节省了人工成本,增加了行道树调查的便利性,但检测效果还达不到预期的效果。本文认为,行道树检测有以下难点:一是提取的行道树图片质量不高,且行道树与周围环境相似度较高,图像检测算法不能提取到足够的行道树特征用于后续的检测、分割过程。二是行道树多为大、中等尺度目标,行道树树干一般情况下为细长带状结构,浅层特征图的感受野有限,远距离像素之间的关联性不能充分结合。

为实现对行道树更加高效的检测,本文提出了基于Mask R-CNN[8]改进行道树检测算法,网络做了以下2点改进:在Mask R-CNN网络的特征提取模块加入通道和空间注意力模块,在通道层次和空间层次对行道树特征进行凸显,从而提升行道树特征在神经网络中的关注度。另外,在神经网络的特征金字塔模块中用多尺度特征融合模块与上采样的特征图相加,从而对长距离上下文语义信息的关联性进行充分建模。

1 相关算法原理

Mask R-CNN模型训练流程如图1所示。本文主要对模型的特征提取阶段进行改进。

图1 Mask R-CNN模型训练流程Fig.1 Training process of Mask R-CNN model

1.1 网络的基本结构

本文在Mask R-CNN网络的基础上,针对行道树数据集的特点,提出改进型Mask R-CNN算法,该网络的特征提取部分由主干网络模块、特征金字塔[9]特征增强模块、通道-空间注意力模块和多尺度特征融合模块构成。特征提取模块将输出特征图送至区域提议模块,最后进入至行道树检测模块。用I表示输入的行道树图片,主干网络各个阶段的输出可表示为:

Ci=Si(I),i=2,3,4,5,

(1)

式中,S表示对图片进行特征提取操作;i表示图片经过的卷积层数。其中每个卷积层中加入了通道-空间注意力模块,用Fi表示输入注意力模块的特征,本文对加入的注意力模块进行改进,使其能够减少参数量,从而减少计算复杂度,同时能够使抽象出更具体的目标特征。该模块可以表示为:

FiCBAM=HCBAM(Fi),

(2)

式中,HCBAM表示注意力机制对输入特征图Fi进行空间和通道层次的建模。主干网络输出特征图通过一个多尺度特征融合模块进入到特征金字塔,用Ci表示每个阶段输出特征图:

Ni=HMSFF(C2,C3,C4,C5),i=2,3,4,5,

(3)

式中,HMSFF表示对主干网络不同尺度输出位置及语义信息互补性进行建模;Ni表示输出特征图。经多尺度特征融合后再将特征图输入特征金字塔增强模块:

Pi=HFPN(C5,N2,N3,N4,N5),i=2,3,4,5。

(4)

1.2 注意力机制

注意力机制的运用,使得神经网络可以模仿人的视觉系统自动关注图片中的重要信息,而对其他次要的信息进行忽略[10-11]。本文使用一种卷积注意力模型(CBAM)模块[12]在主干网络ResNet101[13]中进行集成,本文的算法中,基于注意力机制的模块集成到主干网络中每个阶段的末尾中,集成位置位于每个阶段中最后一个残差块,提取到的特征信息最多,对于注意力模块的特征映射可以起到更大的效果,如图2所示。

图2 改进型Mask R-CNN模型Fig.2 Improved Mask R-CNN model

注意力模块拥有易集成的特点,其具体集成位置如图3所示。

图3 Identity Block + CBAM模块Fig.3 Identity Block + CBAM module

CBAM集成的位置在每个负责输出C2,C3,C4,C5的Identity Block模块,具体在该模块的末端接入,进行集成的模块都存在于主干网络不同尺寸特征提取阶段的末端,即每个阶段提取特征信息最丰富的模块,在这些模块中最能捕获到更丰富的重要信息,最后对其进行重要性等级的划分。

相较于SE-Net模块[14],CBAM的参数量、计算复杂度都更低,且可以同时在空间和通道2个维度上对重要信息给予更多的关注度。它可以灵活地集成到现有网络,同时花费更少的计算开销,这对前景、背景相似度较高的行道树图片的检测、分割可以起到很大的作用。

1.2.1 通道注意力模块

通道注意力机制主要解决的是让神经网络判断是什么使神经网络在空间层次对重要信息进行聚焦,本文采用的注意力模块为CBAM中的通道注意力块,如图4所示。

图4 通道注意力结构Fig.4 Channel attention structure

在该模块的整个过程中,特征图需要经过2个非线性全连接层,整个全连接模块对每个通道和其余通道的交互关系进行建模,再进行通道数还原。通道注意力模块的计算如下:

Mc(F)=σ(MLP(Avg(F))+MLP(Max(F)))=

σ(W1(W0(Avg(F)))+W1(W0(Max(F)))),

F∈H×W×3,W0∈C/r×C,W1∈C/r×C,

(5)

式中,F为输入特征图;W0,W1分别为MLP第一层和第二层全连接层的权重;r为减少率。

为减少每次的通道间交互关系的计算带来的操作冗余以及进一步减少参数量,本文借鉴ECA-Net[15]模型的自适应选择核大小的思想,使用了一个k近邻通道交互模块来替代MLP,该方法只对具有通道相关性的几个相邻通道进行交互关系建模,节省了不必要的计算开支,如图5所示。

图5 改进通道注意力结构Fig.5 Improved channel attention structure

改进型通道注意力模块的计算如下:

M′c(F)=σ(C1Dk(Avg(F))+C1Dk(Max(F))),

(6)

(7)

(8)

C=φ(k)≈2(γ*k-b),

(9)

该式符合通道数C通常设置为2的整数次方原则,并且体现出指数形式的函数对处理未知映射函数的适用性。

1.2.2 空间注意力模块

CBAM模块中的空间注意力模块(Spatial Attention Module,SAM)实现网络在空间维度对重要特征信息进行感知,强调重要信息在哪里,空间注意力模块保证了空间角度对任务目标特征进行充分的定位。

空间注意力网络结构如图6所示,不同空间位置特征的重要性以权重的形式表达。

图6 空间注意力结构Fig.6 Spatial attention structure

1.2.3 通道空间组合模块

本文采取先通道后串联SAM的形式组合成可集成注意力模块,其集成在每个卷积层中能够提取到特征信息最丰富的残差块中。CBAM如图7所示。

图7 CBAMFig.7 CBAM

CBAM总的模块计算公式如下:

(10)

通道注意力模块的输出Mc(F)与原输入特征图F进行乘法运算得到F′,F′再与空间注意力模块的输出Ms(F′)进行乘法运算,最后得到F″,通道注意力模块和SAM的组合使得网络对行道树特征图的重要信息进行了立体形式的呈现。

1.3 路径增强

浅层特征中包含了大部分边缘形状特征以及大量的位置信息,而且随着主干网络层数的增加,网络提取出的特征图包含的语义信息更加抽象。虽然FPN对输出的相邻特征图采用了特征融合的操作,扩大了每个尺寸特征图的感受野,丰富了语义信息,一定程度上避免了模型直接使用主干网输出特征进行图像的预测。考虑到行道树数据的特点,普遍为大目标,树干细长,浅层特征的感受野还是相对有限,长距离语义信息关联性不足,如图8中红色方形区域,浅层特征图(图左)的感受野存在盲区。

(a) 浅层特征图感受野

(b) 深层特征图感受野图8 浅/深层特征图感受野Fig.8 Shallow/deep feature map receptive field

针对该问题,本文借鉴PaNet[16]路径聚合的思想,提出了多尺度特征融合的方法,使每个特征图中的低阶语义信息和高阶语义信息充分互补,并且使每个尺寸特征图中的元素得到足够大的感受野。多尺度特征融合网络如图9所示。

图9 多尺度特征增强网络Fig.9 Multi-scale feature enhancement network

其中,C2,C3,C4,C5分别经过一个3×3卷积得到通道数相同的特征图,再分别对特征图进行上、下采样至同一尺寸,然后进行特征图拼接,变为通道数为原通道数4倍的特征图,最后根据特征图相加的尺寸相应地进行下采样、上采样操作,从而使每个特征图的互补效果更加明显。

2 实验

本文所提模型在自制行道树数据集上进行了实验,与原模型进行了视觉比较和数据对比,并进行了消融实验。

2.1 数据集和实验设备

2.1.1 数据集

本文行道树图片信息采集设备为OnePlus6手机,拍摄采集地点位于四川轻化工大学及其周边街道,树种类别包含桂花、天竺桂、香樟、广玉兰和蓝花楹5种常绿树,共采集到行道树图片535张,图片格式为jpg,均为RGB三通道。为适应行道树检测模型训练并且增加模型的鲁棒性,实验将原始图片进行裁剪,统一至512 pixel×512 pixel×3大小,并且对处理后的图片进行水平翻转、增加亮度2种数据增强操作对数据集进行扩充。对经过数据增强的图片集使用Labelme进行手动标注,以json文件格式保存标注信息,再对其进行格式转换以适用于模型训练,所用到的文件如图10所示,每个json对应生成5种不同格式的文件。

图10 数据集格式Fig.10 Dataset format

最终获得有效的标注图片共1 070张。采集到的每个树种的数量如表1所示。

表1 采集到各类行道树数量Tab.1 Number of street trees collected

2.1.2 实验环境

本文在实验过程中所采用的硬件和软件配置如表2所示。

表2 实验平台相关信息Tab.2 Related information of experimental platform

2.1.3 实验细节

数据集在打乱顺序后按6∶2∶2的比例划分训练集、验证集和测试集。超参数:批大小设置为1,权重衰减设置为0.000 1,学习动量设置为0.9,网络初始学习率为0.001,迭代16 080次后学习率降低至0.000 1,共迭代32 160次,其中每迭代640次输入验证集进行测试,测试后根据模型的训练情况作相应调整。本文将改进的行道树检测模型与原模型性能分别进行训练并进行测试,最后对实验结果进行对比分析。图11为Mask R-CNN模型与改进模型在行道树数据集上的训练情况,横坐标为模型训练的轮回数,一个轮回表示模型遍历一遍完整的行道树数据集,纵坐标表示模型在训练集损失,一般来说,模型训练至一定轮回数(epoch),训练集损失值趋于稳定,模型停止学习。由图11可知,改进Mask R-CNN模型初始训练损失值比原模型要大,在经过20轮回数之后,2种模型趋于收敛。

图11 模型训练曲线Fig.11 Model training curve

2.2 模型检测指标

为了对改进的Mask R-CNN模型与原模型进行综合性的对比,本文采用目前公开的主流评估指标AP50,AP75,mAP,mIoU。AP50,AP75表示在交并比阈值为0.5和0.75下的平均精度。mAP表示交并比阈值为0.5~0.95下的平均精度求和求平均。上述评价指标的取值用百分制计。平均精确率的计算涉及到交并比、精确率和召回率,其中IoU计算如下:

(11)

式中,g为真实标签掩膜;p为预测掩膜;area(g)∩area(p)为真实行道树标签区域像素和预测目标区域像素的交集;area(g)∪area(p)为真实标签区域像素和预测目标区域像素的并集;IoU值的大小表示真实标签区域像素与检测出目标区域像素的重合程度。本文IoU阈值设置为0.5和0.75,在预测区域与真实目标IoU值大于0.5或0.75情况下,则将预测结果判定为正样本(True positive,TP),否则判定为负样本(False positive,FP)。精确率、召回率的计算如下:

(12)

(13)

行道树检测模型分类数量共有背景、行道树2个类别,其中行道树标签定义为正样本,TP为行道树检测模型预测为正(行道树)的正样本的数量,FP为行道树检测模型预测为背景的正样本数量,FN为模型预测为背景的正样本数量。P为正确识别出行道树的数量与总的识别为行道树的数量比值,代表正样本预测结果的准确度,R为正确识别出的行道树总数与真实行道树样本总数的比值,表示模型对正样本的识别度。

在选定IoU阈值时将行道树预测结果按置信度分数由高到低进行排序,并根据不同的样本比例阈值计算精确率Pi和召回率Ri。根据计算结果绘制PR曲线,对PR曲线求积分求得AP值,其计算表达式为:

(14)

式中,N为检测结果数;ΔR为相邻样本比例阈值之间召回率的增量。

为了对行道树检测模型的分割效果作数值上的比较,本文加入了图像分割中总的真实掩膜集合和预测掩膜集合的交集与并集之比mIoU,计算如下:

(15)

式中,Pii表示把类别i正确识别为类别i的像素数量;Pij表示把类别j识别为类别i的像素数量;Pji表示把类别i识别为类别j的像素数量。

2.3 视觉比较

为了体现改进算法的优异性,本文算法不局限于与基础算法性能的比较。本文使用U-Net[17]和FCN[18]两种经典分割算法,在控制超参数相同的情况下输入行道树训练集对网络进行训练,最终得到各网络行道树掩膜分割结果,如图12所示。对于树干较细、行道树与周围环境相似度较高的情况,本文方法分割的行道树完整性要高于原模型,Mask R-CNN模型对于不明显的目标出现了漏检的现象,本文算法对树冠不规则的行道树分割的掩膜更能体现出行道树的轮廓。值得注意的是,U-Net和FCN在图12中展示了良好的树干部分的分割。

(a) 真实掩膜

(b) 本文算法

(c) FCN

(d) U-Net

(e) Mask R-CNN图12 树干较细、环境相似度较高情况下模型检测结果Fig.12 Model detection results under the condition of thin trunk and high environmental similarity

含部分遮挡条件下的模型检测结果如图13所示。可以看出,在行道树包含了路灯、广告牌等遮挡的情况下,本文算法体现了优秀的区分能力,实现了行道树与遮挡物更高的分离程度。

(a) 真实掩膜

(b) 本文算法

(c) FCN

(d) U-Net

(e) Mask R-CNN图13 含部分遮挡条件下的模型检测结果Fig.13 Model detection results with partial shelters

2.4 对比实验

在视觉效果上证明了本文算法的可行性后,将模型与其他经典模型在评价指标mIoU上作进一步比较,如表3所示。

表3 不同算法之间分割指标对比Tab.3 Comparison of segmentation indices of different algorithms

由表3各算法的mIoU数值对比可知,3种算法的平均交并比都超过了80,本文算法较FCN算法mIoU提升了11.1,说明本文算法在对行道树分割这一任务上具有更好的适应性。

表4通过对类别平均精度(AP),类别均值平均精度(mAP),类别平均交并比(mIoU)进行比较,可以得出改进后的模型评价结果相比原模型有全面的提升,其中2种树冠比较密集的天竺桂、香樟的类别平均精度AP50,AP75分别提升至100。

表4 改进后的模型与原模型测试结果评价Tab.4 Evaluation of test results between the improved model and the original model

为了进一步研究注意力机制以及多尺度特征增强在模型检测行道树图片时的作用,本文进行了消融实验,性能对比如表5所示。

表5 注意力机制和多尺度特征增强性能对比Tab.5 Performance comparison of attention mechanism and multi-scale feature enhancement

上表中的评价指标计算方式皆为对类别评价指标求和求平均所得。由上表可知,单独加入多尺度特征增强模块进行改进时,AP50精度略微下降,而AP75,mIoU分别增加了0.9,1.1,可见特征增强的加入一定程度上提高了模型对行道树分割的完整度。在特征增强和注意力模块同时加入时模型评价指标效果提升最为明显,AP50,AP75,mIoU,mAP分别提升2.4,2.6,2.0,3.6。综合以上结果,改进后的模型对行道树的检测、分割性能更优。

为了研究改进后的算法对单张图片预测速度的影响,首先在控制超参数相同的情况下,使相同的数据集对原模型和改进的3种算法进行训练,得到相应的权重文件,对相同的行道树图片进行预测。最后得到每种算法的预测时间,如表6所示。

表6 模型检测速度Tab.6 Model detection speed

由表6可知,Mask R-CNN 模型所需要的预测时间最少,本文算法耗费的预测时间最长,相比原模型增加了0.98 s,其中加入改进型CBAM模块带来预测时间的增加较多尺度特征增强模块更多。总的来说,本文基于Mask R-CNN算法的改进带来的参数量的变化较小,算法的单张图片预测时间无明显增加。

3 结束语

本文针对Mask R-CNN模型应用于行道树目标检测、分割时出现的不足进行分析,针对行道树的颜色相似度、结构等特点,在Mask R-CNN模型基础上进行改进。为提高模型的检测性能,增加遮挡情况下模型对行道树图片的处理能力,在原模型中引入通道-空间混合注意力机制,对输出的行道树特征图进行立体式的重要信息捕获。为提高行道树分割的完整性,引入一个多尺度特征融合,对主干网和特征金字塔的连接方式进行替换,从而增强行道树特征图语义信息的互补性。该实验证明了改进型行道树检测模型在自制行道树数据集上的评价指标结果有所提升,视觉上的检测、分割效果也更加明显。

猜你喜欢
行道树注意力特征
根据方程特征选解法
离散型随机变量的分布列与数字特征
让注意力“飞”回来
行道树
弯道
如何培养一年级学生的注意力
弯道情结
不忠诚的四个特征
芒果行道树,宾川亮丽的風景
A Beautiful Way Of Looking At Things