RGB-D语义分割:深度信息的选择使用

2022-08-09 12:38赵经阳余昌黔桑农
中国图象图形学报 2022年8期
关键词:卷积语义深度

赵经阳,余昌黔,桑农

华中科技大学人工智能与自动化学院图像信息处理与智能控制教育部重点实验室,武汉 430074

0 引 言

语义分割是计算机视觉领域中的一项基本任务,目标是将图像中的每一个像素分配给对应的类别,是像素级别的多分类任务。在自动驾驶、虚拟现实和医学图像处理等领域具有重要意义。卷积神经网络促使神经网络迅速发展,在计算机视觉各项任务中均取得最好效果(Krizhevsky等,2012;Simonyan和Zisserman,2015;He等,2016)。而全卷积神经网络(Long等,2015)彻底改变了语义分割等领域的格局,依靠编码器—解码器的结构,降低了对图像尺寸的依赖,无论输入编码器图像尺寸如何,都可在解码器输出部分得到相同大小的分割图像。一系列基于全卷积神经网络的语义分割研究(Chen等,2017,2018a;Lin等,2016;Liu等,2015)极大地推动了语义分割的发展。

由于深度相机的出现(Zhang,2012),可以比较方便地获取彩色图像对应的深度图像。深度图是单通道图像,图像中的每个值对应该像素点到相机平面的距离。显而易见,深度图含有彩色图像相对匮乏的空间深度信息。在语义分割任务中,彩色图像中外观相似的相邻物体是网络难以区分的,但深度图像的应用可以在一定程度上缓解这个问题。尽管外观特征相似,但其在3D空间中相距甚远,这可以帮助网络进行分类。Gupta等人(2014)将深度图转化为三通道的HHA(horizontal disparity, height above ground and angle with gravity)图像,丰富了深度图像信息。

近年有不少关于RGB-D语义分割的研究(Jiang等,2018;Xing等,2020),但如何更有效地提取深度信息并嵌入到视觉特征仍是一个值得探索的问题。彩色图像由于其明亮的颜色和清晰的纹理,蕴含了良好的语义信息。而与彩色图像对齐的深度图像存在较为准确的深度数据,含有区别于彩色图像的空间信息。两种图像既有差异性也有互补性,如果简单地将全部深度信息和视觉特征组合在一起,可能会对网络产生干扰。根据将深度信息嵌入视觉特征的方式,大部分研究方法可以大致分为以下3类:单流(one-stream)方法(Wang和 Neumann,2018;Xing等,2019)、双流(two-stream)方法(Cheng等,2017;Lee等,2017)以及多任务(multi-task)方法(Xu 等,2018;Zhang 等,2019)。单流方法不会将深度图作为额外输入而对其提取特征,只有一个对彩色图像进行特征提取的主干(backbone)网络,特征提取过程中利用深度图固有空间信息辅助视觉特征提取,以达到提高语义分割的效果;或是采用多个卷积核沿深度方向对输入图像提取特征,每个卷积核处理不同深度的像素点,最后将多个卷积核的计算结果相加。双流方法将深度图作为额外输入而对其提取特征,主要存在两个主干网络,每个主干网络分别对彩色图像和深度图像提取特征,在编码或解码阶段将提取的视觉特征与深度特征融合,达到利用深度信息的目的。多任务方式与上述两种方式显著不同,将语义分割、深度估计以及表面法线估计等多种任务一同处理,这类方式往往只有一个共用的主干网络,在对彩色图像进行特征提取过程中,根据不同任务的监督可以得到多个任务相似的特征以及互补的特征,不同任务间特征的交互会提高各个任务的性能。除此之外,Song等人(2017)和Zhong等人(2018)利用深度信息将彩色图像映射到3D空间中,使用3D卷积对图像进行特征提取,然而这种方法得到的3D数据是比较稀疏的,对于计算资源和存储空间要求较高,从而限制了它的应用。Qi等人(2017)在3D点云的基础上构建了K-近邻图(K-nearest neighbor graph),通过循环迭代方式更新节点的特征表示。

以上研究都忽略了同一个问题,即并非所有的深度信息都是必要的,将全部深度信息嵌入视觉特征可能会对网络造成干扰。彩色图像固有的颜色和纹理信息有时完全可以清楚地区分两个或多个类别,此时深度信息的加入多少有些画蛇添足的味道。例如,深度特征相似但视觉特征不同的物体本可以由视觉特征区分,此时加入深度信息反而会使网络模型做出错误判断。如图1所示,图1(a)中的毛巾(橙色框中物体)仅通过视觉特征,即仅将彩色图像作为输入,网络便可清晰分辨,如图1(b)橙色框中的分割结果。引入全部深度信息时,网络的分割结果反而变差,如图1(c)橙色框中的分割结果。引入部分深度信息时,网络的分割结果又变好,如图1(e)橙色框中的分割结果。此外,图1(a)中的镜子(蓝色框中物体)和插座(绿色框中物体)仅使用彩色图像,分割结果如图1(b)中的蓝色框与绿色框;或将全部深度信息嵌入视觉特征,分割结果如图1(c)中的蓝色框与绿色框,都没有取得理想效果,仅使用视觉特征缺少空间深度信息,而引入全部深度信息可能会对网络产生干扰,但合理利用深度信息却取得了良好结果,如图1(e)中蓝色框与绿色框中的分割结果。在网络不需要深度信息时不引入深度信息或者引入极少的深度信息,不会对模型造成额外干扰;在网络需要深度信息时,引入较多的深度信息。

图1 彩色图像、深度图像、标签以及不同方法的分割结果Fig.1 Color image, depth image, label and segmentation results of different methods((a)original image;(b)segmentation result with color image only;(c)segmentation result with all depth information;(d)depth image;(e)segmentation result with partial depth information selected by network adaptively;(f)label image)

而且,卷积神经网络中卷积核的固有结构限制了其特征提取的能力。Dai等人(2017)和Zhu等人(2019)针对这个问题提出了可变形卷积,可以根据输入学习卷积点的位置偏移矩阵,扩大卷积的感受野,依据物体形状提取相关特征,从而提高模型的建模能力。但仅依靠视觉特征输入学习偏移矩阵略有不足,因为彩色图像具有的深度信息是十分有限的。基于以上问题,本文提出了深度信息引导的特征提取模块(depth guided feature extraction,DFE),其中包括深度信息引导的特征选择模块(depth guided feature selection,DFS)和深度信息嵌入的可变形卷积模块(depth embedded deformable convolution,DDC)。为了避免引入全部深度信息对网络造成干扰,提出的DFS模块将视觉特征和深度特征连接,通过通道注意力模块(channel attention,CA)使网络关注图像中希望被关注的部分,筛选出对输出具有重要影响的视觉特征和深度特征。对于筛选出来的视觉特征和深度特征,采用深度信息选择模块(depth selection,DS)得到深度特征对应的权重矩阵,这样网络可以根据任务需要自适应地调整深度信息引入的程度,筛选出具有关键深度信息的多模特征。例如,需要深度信息辅助网络进行分类时,深度信息对应的比例变大。反之,深度信息占的比例减小。为了更好地提高模型的建模能力,提出的DDC对筛选出来含有关键深度信息的多模特征进行卷积运算,学习采样点的位置偏移矩阵,根据物体形状提取更相关的特征。

本文主要贡献为:1)提出深度信息引导的特征选择模块DFS,可根据视觉特征和深度特征的输入自适应地决定深度信息加入比例,能够在一定程度上避免全部深度信息引入对网络造成的干扰;2)提出深度信息嵌入的可变形卷积模块DDC,深度图固有的空间深度信息可以帮助模型学习更准确的位置偏移,从而根据物体形状提取更相关的特征;3)重新思考深度信息引入对RGB-D模型的影响,并在NYUv2(New York University Depth Dataset V2)数据集上达到最好的分割效果;4)设计的模块DFS、DDC以及DFE可以比较方便地嵌入目前流行的特征提取网络,利用深度信息提高模型的建模能力。

1 相关研究

随着卷积神经网络的发展,计算机视觉领域不断取得新的进展(Simonyan和 Zisserman,2015;He等,2016;Szegedy等,2015)。对2D图像的语义分割,基于全卷积神经网络(fully convolutional networks,FCN)(Chen 等,2018a;Zhao等,2017)和编码器—解码器(encoder-decoder)模型的持续涌现(Badrinarayanan等,2015;Ronneberger等,2015;Lin等,2017b),极大地推动了语义分割技术进步。注意力机制(Vaswani等,2017)和可变形卷积(deformable convolution,DC)也进入科研人员视野。深度相机的出现使深度图获取相对容易,人们很自然地将彩色图像的语义分割扩展到RGB-D图像的语义分割。研究表明,深度图像的引入可以提高图像分割的效果,RGB-D语义分割技术也在蓬勃发展。

1.1 RGB-D语义分割

深度图像的加入使彩色图像的语义分割扩展到RGB-D图像的语义分割。早期RGB-D图像语义分割多是将深度图作为单独输入,对深度图像和彩色图像分别提取特征,在适当位置将两种模态的特征融合,实现将深度信息嵌入视觉特征的目的。为了更好地将深度信息嵌入视觉特征,自RefineNet(Lin 等,2017b)扩展而来的RDFNet(RGB-D fusion network)(Lee等,2017)提出多模特征融合模块(multi-modal feature fusion,MMF)融合相同阶段的深度特征和视觉特征,采用逐层优化的方法将不同阶段的多模特征融合,显著提高了语义分割精度。Wang等人(2016)在编码器和解码器之间提出一种特征转换网络,分别挖掘视觉特征和深度特征之间的相似特征以及独有特征,通过相似特征之间的交互增强各自的特征表示。由反卷积网络扩展而来的LSDNet(locality sensitive deconvolution network)(Cheng等,2017)在反卷积过程中利用深度信息改善物体边缘信息,采用门控结构融合深度图像和彩色图像的分割结果。CFNet(cascaded feature network)(Lin等,2017a)采用上下文感知的感受野模块提取不同深度的上下文信息,采用级联方式将不同深度的上下文信息进行融合来改善语义分割效果。Wang和Neumann(2018)基于同一物体具有相似深度的思想,利用卷积点与周围像素点之间距离的差异,显式地改变周围点对中心卷积点的贡献程度,距离近的像素点贡献大,距离远的像素点贡献小,从而实现RGB-D的语义分割。2.5D卷积网络(Xing等,2019)利用深度信息将彩色图像上的像素点按照深度划分至不同区域,采用多个卷积核分别处理不同深度的像素点,最后将多个卷积核处理的结果相加。3DGNN(3D graph neural network)(Qi等,2017)采用3D图神经网络以点云为基础创建K-近邻图,通过循环迭代方式更新节点的特征表示。Zhang等人(2019)将语义分割、深度估计以及表面法线估计等多种任务一同处理,这些任务具有相似的特征以及互补的特征,不同任务间特征的交互会提高各任务的性能。

以上RGB-D语义分割的研究均未考虑深度信息引入是否会对网络模型产生干扰。本文从一个新的角度思考深度信息的作用,在合理利用深度信息的同时,筛选关键的深度信息嵌入视觉特征,从而改善语义分割效果。

1.2 注意力机制

源于人类视觉的注意力机制已广泛应用于计算机视觉领域的各种任务,作为一种有效工具,可以突出图像中含有重要信息部分,即可以帮助网络关注到人类感兴趣的区域。SENet(squeeze-and-excitation network)(Hu等,2018)中的通道注意力(channel attention)机制沿通道方向进行均值池化,可以提取关键的全局信息,这个全局信息可以作为权重对输入特征进行筛选,即突出图像中人类感兴趣的部分。DFN(discriminative feature network)(Yu等,2018)中的通道注意力模块(channel attention block,CAB)将高层特征与相邻的低层特征融合,利用高层特征丰富的语义信息作为引导,筛选出具有判别性的特征对低层的特征进行逐层优化,提升了语义分割精度。本文采用SENet中的通道注意力机制,利用深度信息筛选关键特征。

1.3 可变形卷积

图像中物体形状和尺寸千差万别,卷积核只在固定位置采样,忽略了物体的空间位置信息,其固有的几何结构限制了卷积神经网络的建模能力。为了解决上述问题,Dai等人(2017)提出可变形卷积,在标准2D卷积基础上增加一个新的卷积,用来学习采样点的位置偏移,此时可变形卷积可以通过输入视觉特征自适应地调整采样点位置,增强卷积神经网络提取特征的能力。Zhu等人(2019)在Dai等人(2017)基础上进一步改进,由于采样点位置偏移是通过对视觉特征卷积学习到的,所有新的采样点可能会超出感兴趣区域。为了解决这个问题,Zhu等人(2019)采用调制机制,通过对输入视觉特征进行卷积,学习一个与采样位置相关的权重矩阵,超出感兴趣区域的采样位置会得到一个较小权重,可以在一定程度上缓解采样点超出相关区域问题。相对于彩色图像,深度图像含有丰富的空间深度信息,提出的深度信息嵌入的可变形卷积模块DDC,在关键深度信息嵌入下,可以依据物体形状提取到更相关的特征。

SAG(separation-and-aggregation gate)(Chen等,2020)和ACNet(attention complementary network)(Hu等,2019)都对特征进行了选择。但是,SAG同时调整深度特征和视觉特征加入网络的程度,导致深度特征可能会占据主导地位,而深度特征缺少语义信息,仅依靠深度特征分辨不同物体对于网络是十分困难的。ACNet仅依靠通道注意力的方法进行特征选择,略有不足,也没有考虑到深度特征语义信息不足的缺点。本文方法则以视觉特征为主,深度信息为辅,仅在模型需要时自适应地添加深度信息,即仅选择关键的深度特征。

2 方 法

彩色图像具有丰富的颜色和纹理信息,而与之对齐的深度图像蕴含较为丰富的空间深度信息,深度信息的引入可以在一定程度上提高彩色图像语义分割的效果。然而,如何将深度信息嵌入视觉特征仍然是一个值得探索的问题。当前绝大多数的研究都在尝试找到一种最好的利用深度信息的方式来提高彩色图像语义分割的精度,但并没有考虑深度信息的引入是否会对网络产生干扰,有时仅依靠视觉特征网络就能区分不同的物体,在引入深度信息后反而会使网络模型作出错误判断。本文从这个角度出发,重新考虑深度信息的利用方式,提出了深度信息引导的特征提取模块DFE,包括深度信息引导的特征选择模块DFS和深度信息嵌入的可变形卷积模块DDC。DFS首先将视觉特征与深度特征连接得到多模特征,然后通过注意力机制筛选对输出具有重要影响的多模特征,通过对这部分多模特征的学习,得到深度特征对应的权重矩阵,自适应地决定深度信息引入的程度,之后将输入视觉特征与筛选出的深度特征相加,得到含有关键深度信息的多模特征。DDC对嵌入关键深度信息的多模特征进行学习,得到卷积采样点的位置偏移矩阵,从而确定新的采样点位置。由于深度信息的引入,可变形卷积可以在一定程度上克服彩色图像空间深度信息不足的缺点,根据物体的形状提取更相关的特征。

2.1 网络整体结构

图2为网络整体结构。本文采用双流方法分别对彩色图像和深度图像提取特征。提出的DFE模块包括DFS模块和DDC模块。DFS可以筛选对输出有重要影响的深度特征,并自适应地调整深度特征嵌入视觉特征的程度,得到含有关键深度信息的多模特征;DDC结合含有关键深度信息的多模特征以及输入视觉特征,可以根据物体形状学习更相关的特征。网络编码器的输出通过解码器产生与原始图像尺寸相同的分割图像,本文未特别设计解码器结构,采用基准分割网络deeplabV3+的解码器单元作为本文网络的解码器部分。

图2 网络整体结构Fig.2 The overall structure of the network

2.2 编码器

本文采用ResNet-50(He等,2016)作为提取特征主干网络,在ResNet相邻模块间添加DFE结构,通过深度信息引导逐层提取重要的特征表示。

2.2.1 深度信息引导的特征提取模块DFE

本文从一个新的辩证角度看待深度信息的作用,将全部深度信息引入神经网络有时会使网络做出错误判断,为了尽可能避免这种情况,合理利用深度信息,提出了DFE模块,如图3所示。深度信息引导的特征提取模块首先将深度特征与视觉特征连接,然后通过通道注意力方法从融合特征中筛选出具有重要影响的特征。得到的关键特征通过深度信息选择模块(DS)产生对应于深度特征的权重矩阵。深度特征与对应的权重矩阵相乘之后再与视觉特征相加,从而将深度信息嵌入视觉特征。由于深度特征对应的权重矩阵是通过学习得到的,网络可以根据需要自适应地调整深度信息引入的多少,而不是对深度信息照单全收。为了更好地发挥可变形卷积的特征提取能力,本文提出的深度信息嵌入的可变形卷积模块,将嵌入深度信息的多模特征作为输入,学习采样点的位置偏移,深度特征的加入弥补了视觉特征空间深度信息不足的缺点。

图3 网络的DFE模块Fig.3 DFE module of the network

2.2.2 深度信息引导的特征选择模块DFS

(1)

(2)

式中,CA表示通道注意力方法。

从多模特征中筛选出来的特征对输出有比较重要的影响,同时也影响着深度信息嵌入网络的程度。于是,通过深度信息选择模块DS,网络学习到了深度特征对应的权重矩阵γH×W。具体为

(3)

式中,f3×3表示3×3的卷积函数,f1表示第1个1×1的卷积函数,f2表示第2个1×1的卷积函数,R表示ReLU激活函数,σ表示sigmoid函数。

将权重矩阵与相应深度特征点乘,得到筛选出的深度特征DH×W×C,即

(4)

(5)

DS模块结构如图4所示。经过通道注意力方法的多模特征先进行3×3的卷积运算进一步提取特征,并对多模特征进行降维,减少运算参数量,之后经过1×1的卷积运算与ReLU激活函数得到通道数为1的目标矩阵,再经过1×1的卷积运算进行调整,调整后的目标矩阵通过sigmoid函数生成深度特征对应的权重矩阵,这个权重矩阵对深度特征进行了显式的筛选,可以根据任务需要自适应地确定引入网络的深度信息的多少。

图4 深度信息选择模块DSFig.4 Depth information selection module

2.2.3 深度信息嵌入的可变形卷积模块DDC

为了改变卷积核固有的几何结构,提升卷积神经网络建模能力,可变形卷积通过对输入视觉特征进行卷积运算学习采样点的位置偏移,使采样点不再局限于固定尺寸的方格中,而是根据物体形状偏移。然而仅依靠视觉特征学习采样点的位置偏移略有不足,毕竟彩色图像含有的空间深度信息十分有限。这时需要发挥深度图像的作用,将深度信息引入视觉特征,通过含有关键深度信息的多模特征来学习更加符合物体形状的位置偏移。

本文采用与可变形卷积(Dai等,2017)类似的方式描述卷积运算,用x代表输入特征图,w表示卷积核的权重,y表示卷积的输出。卷积核采样点的感受野与卷积核的尺寸相关,假如采用3×3的卷积核,那么可以用集合A={(-1,1), (0,1), (1,1), (-1,0),(0,0), (0,1), (-1,-1), (0,-1), (1,-1)} 表示卷积核的感受野,这也是卷积核采样点的位置坐标,中心坐标(0,0) 为卷积核采样的中心点pi。标准卷积运算具体计算为

(6)

式中,pj∈A为卷积核感受野中的点。

深度信息嵌入的可变形卷积同样包含两个卷积运算,第1个卷积运算对含有关键深度信息的输入多模特征进行卷积,得到第2个卷积运算的位置偏移矩阵。第2个卷积运算对输入视觉特征进行卷积,将初始采样点的坐标与第1个卷积运算得到的位置偏移坐标相加得到新的采样点的坐标,根据卷积核的权重对新的采样点完成加权求和。即

(7)

(8)

(9)

式中,pj∈A为感受野中其余采样点的坐标,(pj+pi+Δpdj)为新的采样点的坐标;Δpdj为采样点的位置偏移,来自OffH×W×2C对应的栅格,由第1个卷积运算得到,即Δpdj∈OffH×W×2C,如图5所示。

图5 深度信息嵌入的可变形卷积DDCFig.5 Depth embedded deformable convolution

2.3 解码器

图6 解码器网络结构Fig.6 Decoder network structure

解码器将编码器得到的语义特征通过金字塔池化模块得到多尺度的语义特征,经过1×1的卷积运算进行调整,接着通过4倍上采样运算得到中间特征,中间特征与编码器阶段DFE模块中相同尺寸的多模特征融合,融合后的特征经过3×3的卷积运算进一步提取特征,之后再进行4倍上采样运算得到分割结果(Chen等,2018b)。

3 实 验

实验在NYUv2数据集(Silberman等,2012)上进行,包括消融实验以及与其他方法的比较。

3.1 数据集

NYUv2数据集是目前流行的RGB-D数据集之一,含有1 449幅像素级别标注的彩色图像以及与之对齐的深度图像,其中包括795幅训练集图像和694幅测试集图像。数据集图像均为常见的室内场景,如客厅、卧室和浴室等。本文使用的是适用于语义分割的40类标注的NYUv2数据集。

3.2 实验细节

3.3 消融实验

3.3.1 DDC消融实验

一般意义上的可变形卷积对输入视觉特征先进行第1个单独的卷积,得到对应采样点的位置偏移,使得中心采样点与周围采样点偏移至同一类别或相关类别,然后对位置偏移之后的新采样点进行第2个卷积,以打破卷积核固有的结构限制,提高卷积神经网络的建模能力。然而彩色图像中空间深度信息十分有限,仅依靠彩色图像学习到的位置偏移稍有不足。针对这个问题,提出了DDC,对含有深度信息的多模特征进行卷积学习采样点的位置偏移,对新采样点完成卷积运算。

表1为DDC消融实验结果。实验1为实验基准,是将全部深度信息嵌入视觉特征(All)得到的分割结果。实验2在实验1基础上添加了一般意义上的可变形卷积(DC),图像分割结果为46.2%,精度相对于基准提高了0.2%;实验3在实验1基础上加入了DDC,在参数数量相同情况下,分割结果为46.6%,相对于基准提高了0.6%,相对实验2提高了0.4%,充分说明了DDC的有效性。在同时加入DFS情况下,DDC的性能依旧高于一般意义上的可变形卷积,如实验4和实验5,实验5相对于实验4提高了0.4%。实验结果表明,在深度信息引导下,网络学习到了更好的位置偏移。

企业的发展能力也称成长能力,是指企业在从事经营活动过程中所表现出的增长能力,如规模的扩大、盈利的持续增长、市场竞争力的增强等。反映企业发展能力的主要财务比率有销售增长率、资产增长率、股权资本增长率、利润增长率等。

表1 DDC消融实验结果Table 1 The results of DDC ablation study

3.3.2 DFS消融实验

深度图作为彩色图像的补充,提供了彩色图像相对匮乏的空间深度信息,在一定程度上提高了语义分割效果。然而不加考虑地将全部深度信息嵌入视觉特征也可能对网络产生干扰。在模型仅依靠视觉特征网络即可区分两类或多类物体时,加入的深度信息反而会使模型做出错误判断。对此,本文提出了DFS,在深度信息的引导下,自适应地调整深度信息嵌入视觉特征的程度,在网络不需要深度信息时,不引入或仅引入极少的深度信息,避免对网络产生不必要干扰;而在网络需要深度信息时,将关键的深度信息融入视觉特征。

为验证DFS的有效性,进行了一系列实验,结果如表2所示。实验1为实验基准,即将全部深度信息嵌入视觉特征(All)得到的分割结果。实验2为添加DFS的分割结果,相对于实验1提高了5.4%。充分说明了DFS的有效性。在同时使用DDC情况下,实验4的分割结果为51.9%,相对于实验3的46.6%,提高了5.3%。实验结果表明,合理利用深度信息可以在较好地提高网络性能的同时减少对网络的干扰。

表2 DFS消融实验结果Table 2 The results of DFS ablation study

3.3.3 DFE消融实验

表3为DFE消融实验结果。其中,DFE-n表示第n个DFE模块。可以看出,在不使用DFE模块情况下分割结果为46.0%,即对比基准。在仅使用第1个DFE模块情况下分割结果为48.8%,相对于基准提高了2.8%,在加入第2个DFE模块后分割结果提升至49.3%,相对于只有1个DFE模块情况提高了0.5%;使用3个和4个DFE模块的分割结果分别为50.8%和51.9%,相对于基准分别提高了4.8%和5.9%,充分说明了DFE模块的有效性。

表3 DFE消融实验结果Table 3 The results of DFE ablation study

综合前面的实验,形成表4。通过表4,可以清楚地观察到本文方法的有效性。

表4 DFE综合实验结果Table 4 The results of DFE comprehensive study

3.4 与其他方法的对比

为进一步验证本文方法有效性,与其他方法进行对比。为了比较的公平性,实验均采用ResNet-50作为主干网络。实验结果如表5所示。

表5 不同方法的mIoU和PA对比Table 5 Comparison of results of mIoU and PA among different methods /%

本文方法思路与SAG和ACNet两种方法相似,与这两种方法相比,ACNet、SAG、DFS和DFE方法的分割精度分别为48.3%、51.3%、51.4%和51.9%,本文方法取得了更优异的分割结果。且ACNet、SAG、DFS和DFE方法的参数量分别为934.0 M、888.2 M、706.2 M和1 098.0 M,相比于ACNet以及SAG,DFS方法使用较少参数实现了较好的分割效果。DFE方法在结合DDC模块后参数量有一定增加,但实现了最好的分割结果。VCD + ACNet与本文分割结果相同,然而VCD + ACNet使用了3个主干网络进行实验,本文仅使用2个主干网络,本文使用更少参数达到了相同的分割效果。使用ResNet-101作为主干网络时,本文方法分割精度可以达到52.6%。

3.5 图像语义分割结果的可视化

图7为图像语义分割结果的可视化。可以看出,引入全部深度信息后可能会对分割结果产生负面影响(图7(b)(c))。而在加入DFS模块和DFE模块后,网络能够比较合理地利用深度信息,在提升网络分割性能的同时,尽量避免对网络造成不利影响(图7(d)(e))。

图7 图像分割结果的可视化Fig.7 Visualization of image segmentation results((a)color images;(b)results with color images only;(c)results with all depth information;(d)results with DFS;(e) results with DFE;(f)label images)

4 结 论

本文重新思考了深度信息的利用方式。在视觉特征足够区分不同物体情况下,深度信息的加入反而可能会使模型产生错误的分类结果。为了避免这种情况,提出一种深度信息引导的特征提取模块DFE。DFE包括特征选择模块DFS和可变形卷积模块DDC。DFS模块在特征提取过程中可以自适应地调整深度信息引入的多少。DDC模块通过深度信息的嵌入,增强可变形卷积提取特征能力,将嵌入关键深度信息的多模特征作为输入,学习卷积核采样的位置偏移。由于深度图固有的空间深度信息,弥补了彩色图像空间深度信息不足的缺点,可以提取到较好的语义特征。与其他方法在NYUv2数据集上的比较中,本文方法取得了最佳效果。此外,DFE模块可以比较方便地嵌入当下流行的特征提取网络中。

猜你喜欢
卷积语义深度
基于全卷积神经网络的猪背膘厚快速准确测定
四增四减 深度推进
深度思考之不等式
基于图像处理与卷积神经网络的零件识别
基于深度卷积网络与空洞卷积融合的人群计数
简约教学 深度学习
卷积神经网络概述
汉语依凭介词的语义范畴
深度挖掘