多模态特征融合的遥感图像语义分割网络

2022-12-22 11:47孙汉淇何灵敏胥智杰

计算机工程与应用 2022年24期

孙汉淇，潘晨，何灵敏，胥智杰

1.中国计量大学信息工程学院，杭州 310018

2.中国计量大学浙江省电磁波信息技术与计量检测重点实验室，杭州 310018

高分辨率遥感图像的语义分割是遥感图像理解领域中最基本和最具挑战性的任务之一。遥感图像的语义分割是指通过解析遥感图像上每个像素点的语义信息来给像素点分配一个语义标签，并用不同的颜色标注，进而形成分割图[1-2]。近年来，随着光学传感设备和卫星遥感技术的发展，采集到的可供研究的高分辨率遥感图像越来越多。同时，随着现代化城市的发展，遥感图像语义分割在土地资源规划、地质灾害防治、军事安全等领域有着越来越多的应用，遥感图像的语义分割信息成为了重大决策的关键参考信息之一。因此，高分辨率遥感图像语义分割具有重要的研究意义和价值。

高分辨率遥感图像包含丰富的语义信息，且具有目标大小尺度不一、分布密集、拓扑结构多样、背景干扰复杂等特点，使得遥感图像的语义分割更具挑战性。遥感图像分割的性能由三个重要因素决定：空间信息、全局上下文信息和边界细节。为了实现高分辨率遥感图像的精确分割，需要充分组合和利用好不同层次的信息。传统的图像分割以图像像素本身为基础，借助图像的底层灰度和纹理等特征表示进行分割，适用于信息量较少的情况[3]。对于包含丰富语义信息的高分辨率遥感图像，传统的图像分割方法分割效果不佳。深度学习领域的卷积神经网络（CNN）具有极强的特征学习能力。CNN可以自动学习空间特征和拓扑关系，从训练图像中提取不同层次的表征特征，从而对图像进行语义分割，比传统的图像分割方法具有更好的分割效果[4]。FCN[5]的提出是语义分割的一个巨大突破，标志着语义分割进入深度学习的时代。FCN用一个卷积层代替全连接层，允许任意大小的输入图像，实现端到端的训练和预测。PSPNet[6]提出用金字塔池化模块（pyramid pooling module，PPM）聚合不同区域的上下文信息，从而提高获取全局信息的能力。Chen等提出了基于空洞卷积结合编码器-解码器结构的DeepLab系列[7-8]网络，提出空洞空间金字塔池化模块（atrous spatial pyramid pooling，ASPP）提取图像的多尺度特征。DenseASPP[9]在ASPP的基础上提出以密集连接的方式连接不同空洞率的空洞卷积，以获得更大范围的扩张率。HRNet[10-11]不同于以往的编码器-解码器结构，提出在整个特征提取和融合过程中保持高分辨率表示，通过并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合。OCRNet[12]提出对象上下文表示法，通过利用对应类的对象区域的表示来增强一个像素的表示。

单一数据源的图像分割算法目前已经到达了比较高的分割精度，继续通过网络改进的精度提升是有限的。DSM图像包含了三维空间的栅格化数据，以灰度图的形式体现不同物体的高度信息，可以很好地作为卫星遥感图像的补充。高度差信息可以一定程度上体现物体类别间的差异。在分割网络中，使用高度信息作为辅助可以增加相似地物分割时的判断信息，降低分割的错误率。基于此，本文提出将IRRG图像与DSM图像融合的遥感图像语义分割网络MMFNet。本文在国际摄影测量与遥感学会（international society for photogram‐metry and remote sensing，ISPRS）提供的Vaihingen和Potsdam数据集上评估了本文提出的网络结构，并分别获得了90.44%和90.70%的全局精确度。综上所述，本文的主要贡献如下：

（1）提出了结合IRRG图像与DSM图像的高分辨率遥感图像语义分割网络MMFNet，可以准确分割高分辨率遥感图像。

（2）提出复合空洞空间金字塔池化模块（complexa‐trous spatial pyramid pooling，CASPP）用来提取地物的多尺度特征。CASPP相比PPM、ASPP、DenseASPP同类型模块，具有参数量低和分割性能高的优势。

（3）解码器使用残差解码块（residual decoding block，RDB）提取融合后的特征，并使用密集连接的方式加强特征的传播和复用。

1 相关工作

1.1 编码器-解码器结构

自从FCN问世以来，基于编码器-解码器的架构一直被广泛使用。编码器网络通常由一个骨干CNN组成，主要由卷积层、汇聚层和批处理标准化层组成。编码器对图像进行卷积和下采样，以获得高阶语义信息。解码器通过对缩小的特征图进行上采样来恢复丢失的空间分辨率。UNet[13]中引入了对称的“编码器-解码器”设计，多级编码特征在解码阶段被直接连接，以聚集更多的空间信息。RefineNet[14]通过多路径融合不同级别的特征来增强解码器。SPFNet[15]通过融合多层次的全局上下文特征来捕获不同的特征。由于编码阶段伴随着图片尺寸的缩小，存在空间细节的损失。因此，如何使解码器有足够的能力来恢复丢失的空间信息成为了网络设计的关键。本文所提出的架构中，多级编码特征通过CASPP模块提取多尺度特征后输入到解码器。解码器使用RDB模块提取融合后的特征，并使用密集连接的方式加强特征的传播和复用。

1.2 多尺度特征提取

由于尺度不一致和类内不平衡问题，提取多尺度特征对于确定对象类别至关重要。许多方法通过跳跃连接来聚合不同比例的要素，以获得不同尺度的特征。PSPNet[6]提出PPM，采用核大小不同的平均池化，获得不同尺度的池化特征，从而提高获取全局信息的能力。DeepLabV3+[8]提出ASPP模块，采用具有不同空洞率的多个并行空洞卷积并融合最终的结果，以聚合不同尺度下的信息。DenseASPP[9]在ASPP的基础上以密集连接的方式连接不同空洞率的空洞卷积，以获得更大范围的扩张率。本文提出CASPP模块，使用分组多级空洞卷积（grouped multi-level atrous convolution，GMAC）替换原始ASPP原始的空洞卷积，具有更多的空洞率组合和感受野。

2 多模态特征融合的遥感图像语义分割网络

高分辨率遥感图像语义分割一直是遥感领域的长研课题[1]。由于遥感图像存在背景复杂、目标大小尺度不一等问题，为对其进行语义分割带来了不少的困难。本文提出一种多模态特征融合的遥感图像语义分割网络。通过有效结合IRRG图像的光谱特征和DSM图像高度特征，提高网络的分割性能。网络结构如图1所示。本章将详细介绍MMFNet的网络结构。

2.1 MMFNet网络结构

MMFNet结构如图1所示。网络采用编码器-解码器的结构。编码层采用双输入流的方式同时提取IRRG图像的光谱特征和DSM图像的高度特征。提取多尺度特征对语义分割任务非常重要。Res2Net[16]在单个残差块内构造具有等级制的类似残差连接，取代了通用的单个3×3卷积核，在更细粒度级别表示多尺度特征，增加了每个网络层的感受野。同时，网络的残差结构可以很好地提取图像特征和避免训练过程中反向传播时梯度消失的现象，非常适合在遥感图像语义分割任务中作为主干网络来充分提取图像的多尺度特征。高分辨率遥感图像背景复杂、类别信息丰富，且尺度大小不一，需要使用特征提取能力强的较为深层的网络进行特征提取[2]。因此本文使用Res2Net系列中的Res2Net101作为提取IRRG图像光谱特征的主干网络。同时使用3层3×3的卷积替换原始第一层7×7的卷积，在不影响性能的情况下减少网络的参数量。通过堆叠3个3×3卷积可以达到和7×7卷积同等规模的感受野。此外，通过3×3卷积堆叠，加深了网络的深度和非线性因素，使网络对复杂图像的特征提取能力加强，有助于分割。DSM图像相较于IRRG图像，包含的语义信息较少，特征容易提取。因此采用较为轻量的网络ResNet34[17]作为DSM图像分支的特征提取器。

图1 MMFNet网络结构Fig.1 Network structure of MMFNet

随着网络的加深，语义信息越来越丰富的同时，会造成空间信息的损失[18]。为解决上述问题，传统编码器-解码器结构通过跳跃连接的方式直接结合深层特征和浅层特征。然而深层特征和浅层特征之间存在较大的语义鸿沟，直接结合无法达到最好的特征利用。MMFNet在编码器每一阶段通过通道拼接操作合并IRRG分支特征图和DSM分支特征图。合并后的特征图输入到CASPP模块提取多尺度的特征，并作为解码器的一部分输入。编码器双分支在特征提取完成之后进行通道合并，紧接着使用1×1卷积进行特征融合和降低通道数并输送到解码器。相比于特征图直接相加，通道合并后进行1×1卷积操作可以自适应地融合所需要的特征，降低特征不对齐带来的干扰。解码器采用密集连接的方式，合并前几级解码器的输出作为下一级解码器的输入的一部分，强化特征的复用和传播。最后一级解码器的输出通过1×1卷积调整通道数为类别数，最后经过Softmax得到最终的预测图。

2.2 复合空洞空间金字塔池化模块（CASPP）

由于尺度不一致和类内不平衡问题，提取多尺度特征对于确定对象类别至关重要。MMFNet通过在跳跃连接处添加CASPP模块提取浅层特征的多尺度特征，降低与深层特征之间的语义差距。ASPP模块采用并行空洞卷积的方式提取多尺度特征。为了获得更大的感受野以及更出色的多尺度特征提取能力，本文设计了GMAC模块替换原始的空洞卷积。CASPP模块和GMAC模块如图2所示。GMAC模块将输入特征图均匀的分成4个特征图子集。与输入特征图相比，每个特征图子集含有相同的空间大小，通道数为输入特征图的1/4。前三个特征子集对应各自的空洞卷积，并采用类似分层残差的方式连接。第四个特征子集采用核大小为3×3，步长为1的平均池化。在MMFNet中，三个GMAC模块的空洞卷积的扩张率分别为1、4、8。

图2 复合空洞空间金字塔模块Fig.2 Composite atrous spatial pyramid pooling module

GMAC各个特征子集的输出表示如公式（1）所示：

其中，xi表示第i个特征子集，Ci表示第i个特征子集对应的空洞卷积，P表示平均池化，yi表示第i个特征子集的输出。通过通道拼接合并四个特征子集的输出得到最后的输出。由于组合爆炸效应，最终的输出含有不同数量组合的空洞卷积所提取的特征，感受野的范围将会大大加大。

2.3 密集连接的解码器

解码器的输入由两部分构成：编码器跳跃连接的输入和前几级解码器输出合并后的输入，分别用EInput和DInput表示。DInput经过反卷积，特征图放大为原来的两倍，通道数减少到原来的一半。EInput经过1×1卷积调整通道数与反卷积后的DInput一致，并与其进行通道拼接。合并后的特征图经过RDB模块，细化特征提取。最后通过1×1卷积调整通道输出。解码器和GDB模块结构如图3所示。RDB模块采用残差结构，使用分组卷积替换原始的3×3卷积，有效降低了网络的参数量。在残差分支末尾添加SCSE[19]（spatial and channel“squeeze & excitation”）模块，提高解码器基于像素点的分类能力。SCSE是一种注意力机制模块，通过让网络沿着空间和通道方向对特征图进行重新校准并组合输出的方式，使得网络可以学习使用全局信息来选择性的增强有意义的特征和抑制无意义的特征，从而达到提升网络分类性能的目的。同时，SCSE模块可以轻松结合在当前绝大多数CNN模型中，并且在显著提升网络性能的同时只需牺牲微小的计算成本[19]。

图3 MMFNet解码器Fig.3 Decoder of MMFNet

MMFNet解码器采用密集连接的方式，合并前几级解码器的输出作为下一级解码器的输入的一部分，强化特征的复用和传播。解码器的输入输出如公式（2）所示：

其中，E表示编码层双分支合并后的输入，skipi表示第i个解码器跳跃连接的输入，di表示第i个解码器的解码过程，Di表示第i个解码器的输出。

3 实验与分析

3.1 数据集

本文在ISPRS提供的Vaihingen和Potsdam数据集上评估本文提出的架构。Vahingen数据集拍摄于德国的Vaihingen市，地面采样距离为9 cm，包含33个不同的城市区域。Potsdam数据集拍摄于德国的Potsdam市，地面采样距离为5 cm，包含38个不同的城市区域。数据集的详细信息如表1所示。

表1 数据集Table 1 Datasets

3.2 实验设置与环境

在对高分辨率遥感图像进行语义分割时，首先要对图像进行分割和增强。本文使用512×512的滑动窗口以128的步幅（75%的块间覆盖率）对训练图像进行切片，并对图像进行归一化、随机镜像和倾斜度为15°的随机旋转。

lrmin表示最小学习率，lrmax表示最大学习率，Tcur表示当前迭代次数，Tmax表示最大迭代次数。实验设置：lrmin=0.01,lrmax=0.001,Tmax=50。训练总迭代次数设置为100，每50次迭代重置一次学习率。在训练期间保存在验证集上表现最佳的模型。

本次实验的硬件环境：处理器Intel E5-2678V3，显卡NVIDIA TITAN X 12 GHz，运行内存128 GB，存储内存3 TB。本次实验的软件环境：Ubuntu16系统，Python3.8，Pytorch1.8和Numpy1.21.4开发环境。

3.3 评价指标

如图4所示，本次实验采用两种标签图进行评估，分别为完整标签图（full_reference）和无边界影响标签图（no_boundary）。no_boundary的对象边界被半径为3像素的像素圆点侵蚀，并在评估中忽略被侵蚀的区域，以达到减少不确定的边界定义对评估的影响的目的。

图4 标签图Fig.4 Label

为了定量评估语义分割的性能，实验中设置了三个评估指标：F1（F1 score），MF1（Mean F1 score）和OA（Overall accuracy）。单一类型特征的评分标准使用F1，全局评分标准使用OA和MF1。F1、MF1和OA用公式（4）~（6）表示：

其中，tp、fp、tn、fn分别表示真正例、假正例、正负例、假负例的元素数量。

3.4 实验

3.4.1 对比通用分割网络

为了评估所提出的方法的有效性，本文将MMFNet与其他5个优秀的通用分割网络进行对比，分别是PSPNet[6]、DeepLabV3+[8]、HRNet[10]、OCRNet[12]和SPFNet[15]。为了确保实验的公平性和数据的有效性，所有的网络均在相同的软硬件环境下进行训练和测试。本次实验采用相同的学习率策略，迭代次数设置为100，保存训练过程中在验证集上分割效果最好的模型。

Vaihingen数据集上比较结果如表2所示。结果显示，无论是使用full_reference标签图还是no_boundary标签图进行评估，MMFNet分割表现均为最佳。在使用no_boundary标签图进行评估的情况下，MMFNet在Vai‐hingen数据集上的MF1指标和OA指标比表现第二好的网络SPFNet分别高出0.21和0.44个百分点。为了增加网络的可对比性和排除主干网络带来的影响，本文将IRRG图像分支的主干网络换成ResNet101[17]进行实验。结果显示，MMFNet（ResNet101）在Vaihingen数据集上的分割表然依然优与其他5个通用分割网络，证明了MMFNet网络的有效性源于其网络结构本身而非其主干网络。

那我可以怎么做呢？解决方法是什么？她需要的是什么？“正面管教”让我明白：所有的行为背后都有情绪/感觉——我们做什么，怎么做，源于我们的感觉是什么。于是我先辨别她的情绪，发现她要求看电视的时候，都是她没事干的时候（基础家务活儿她现在都能做，我让她自己决定：想做就做，不想做也行）。

表2 Vaihingen数据集上对比通用分割网络Table 2 Comparison of general-purpose segmentation networks on Vaihingen dataset单位：%

Potsdam数据集上比较结果如表3所示。结果显示，在两种标签图评估的情况下，MMFNet的分割表现均为最佳。在使用no_boundary标签图进行评估的情况下，MMFNet在Potsdam数据集所有指标均为最优，且MF1指标和OA指标比表现第二好的网络SPFNet分别高出0.53和0.62个百分点。

表3 Potsdam数据集上对比通用分割网络Table 3 Comparison of general-purpose segmentation networks on Potsdam dataset 单位：%

MMFNet与通用分割网络在两个数据集上的部分分割效果图对比如图5所示。结果显示，MMFNet的分割图与标签图最接近，对建筑物和阴影遮挡地物的分割比较精细。基于上述分析，证明了所提出的方法是有效的，具有比列举的通用分割网络更好的分割性能，并且不受单数据集偶然性的影响。

图5 对比通用分割网络的分割效果图Fig.5 Comparison of segmentation effect of general segmentation network

3.4.2 对比数据集专用网络

为了进一步证明所提出的方法的有效性，本文将MMFNet与相同数据集专用分割网络进行对比。本文选取四个同时公布在Vaihingen和Potsdam数据集分割排行榜中的方法进行对比，分别为SVL_3、UZ_1[21]、CVEO[22]和UFMG_4[23]。

Vaihingen数据集上比较结果如表4所示。结果显示，在使用full_reference标签图和no_boundary标签图进行评估的情况下，MMFNet的分割表现都是最佳，且所有指标均为最优。在使用no_boundary标签图进行评估的情况下，MMFNet在Vaihingen数据集上的MF1指标和OA指标比表现第二好的网络UFMG_4分别高出1.67和1.04个百分点。

表4 Vaihingen数据集上对比专用分割网络Table 4 Comparison of dedicated segmentation networks on Vaihingen dataset单位：%

Potsdam数据集上比较结果如表5所示。结果显示，在两种标签图评估的情况下，MMFNet的分割表现都是最佳，所有指标均为最优。在使用no_boundary标签图进行评估的情况下，MMFNet在Potsdam数据集上的MF1指标和OA指标比表现第二好的网络CVEO分别高出1.28和1.70个百分点。

表5 Potsdam数据集上对比专用分割网络Table 5 Comparison of dedicated segmentation networks on Potsdam dataset 单位：%

MMFNet与相同数据集专用分割网络的部分分割效果图对比如图6所示。结果显示，MMFNet的分割图最为精细，与标签图最接近。本次实验中的其他四个分割网络都不同程度地出现在大面积树或者植被类别中分割出建筑的错分现象，分割图比较粗糙。MMFNet充分提取和利用全局信息和多尺度信息，并结合高度信息的辅助，达到了很好的分割效果。基于上述分析，证明了所提出的方法是有效的，具有比列举的相同数据集的专用分割网络更好的分割性能，并且不受单数据集偶然性的影响。

图6 对比专用分割网络的分割效果图Fig.6 Comparison of segmentation effects of dedicated segmentation networks

3.4.3 CASPP与同类型模块对比

为了证明CASPP模块的有效性，本文将CASPP模块与其他同类型模块在参数量和分割性能两方面进行对比，对比模块分别为PPM[6]、ASPP[8]、DenseASPP[9]。参数量对比实验中输入大小为（640，64，64），输出大小为（640，64，64）。各模块参数量如表6所示，DenseASPP模块参数量最小，CASPP和DenseASPP模块参数量接近。ASPP参数量最大，为CASPP模块参数量的2.8倍。

表6 模块参数量对比Table 6 Comparison of module parameters

在相同的软硬件环境下，使用同类型模块替换MMFNet中的CASPP模块进行分割性能对比实验。实验在Vaihingen数据集上进行，使用相同的训练策略和预测方式。实验使用no_boundary标签图进行评估，MF1和OA作为评价指标。在Vaihingen数据集上的测试结果如表7所示。结果显示，在相同的训练环境下，使用CASPP模块的MMFNet取得最高的分割精度。

表7 分割性能对比Table 7 Comparison of segmentation performance单位：%

综合参数量对比和分割性能对比，本文提出的CASPP模块相比改进前的ASPP模块，参数量降低了65%，在Vaihingen数据集中MF1指标和OA指标分别提高了0.07和0.11个百分点。综上所述，CASPP模块相比较于PPM、ASPP、DenseASPP模块，同时具有参数量低和分割性能高的优势，更适合用于本文所提出的架构中。

3.4.4 消融实验

本文通过在Vaihingen数据集上进行消融实验证明本文所提出的模块的有效性。实验采用no_boundary标签图进行评估，使用MF1和OA评价指标定量评估分割性能。本文在MMFNet架构的基础上去除CASPP模块、解码器的密集连接和使用ResNet[17]残差块替换解码器中的RDB模块，并用这个网络作为本次实验的基准网络。消融实验结果如表8所示，Base表示基准网络，DC表示解码器采用密集连接的方式。结果表明，当使用RDB模块替换传统残差块，网络在Vaihingen数据集上的OA指标提升了0.2个百分点，表明所提出的RDB模块相比于传统残差块具有更高的分类能力。在解码器增加密集连接结构后，网络的MF1指标和OA指标分别提高了0.78和0.31个百分点。表明解码器的密集连接结构是有效的，可以加强特征的传播和复用，提高网络的分割性能。通过在跳跃连接处添加CASPP模块，网络的MF1指标和OA指标分别提高了0.63和0.44个百分点，表明CASPP模块的有效性。CASPP模块提取的多尺度信息对于提升网络的分割性能十分有益。随着本文所提出的关键模块逐步添加在基准网络上，分割的准确性逐渐提高。最后，添加了所有模块的网络达到了最佳的分割性能。实验结果表明本文所提出的每个关键模块对于MMFNet获得最佳遥感图像语义分割结果都是必要的。

表8 消融实验Table 8 Ablation experiment

4 总结

高分辨率遥感图像语义分割是遥感领域的一个重要研究课题，在国土资源规划，地理信息系统构建和智慧地图等领域有着十分广泛的应用。本文提出结合IRRG图像和DSM图像的遥感图像语义分割网络MMFNet。网络采用编码器-解码器的结构。编码层采用双输入流的方式同时提取IRRG图像的光谱特征和DSM图像的高度特征。解码器使用RDB模块细化特征的提取，并采用密集连接的方式加强特征的传播和复用。提出CASPP模块用于提取跳跃连接层的多尺度特征。实验证明，CASPP模块相比较于PPM[6]、ASPP[8]、DenseASPP[9]同类型模块，具有参数量低和分割性能高的优势。在Vaihingen和Potsdam数据集上的实验表明，MMFNet相比DeepLabV3+[8]、HRNet[10]、SPFNet[15]等通用分割网络和CEVO[22]、UFMG_4[23]等同数据集专用分割网络具有更高的分割精确度。MMFNet对相似地物和遮挡地物分割精确，训练过程简单，具有实际应用价值。

在后续工作中，考虑设计IRRG图像特征提取分支和DSM图像特征提取分支相互指引的网络，选择性融合有用的特征，忽略无用的特征。与此同时，在分割精度不变的前提下，如何设计更轻量化的网络也是未来的研究重点。