基于多尺度条件生成对抗网络（MSR-cGAN）的高分辨率遥感图像目标区域检测

2022-11-09 08:35郭杨亮马瑞娟韩子清

河南科学 2022年9期

郭杨亮，马瑞娟，韩子清

（1.河南省地球物理空间信息研究院，郑州 450009；2.河南省地质矿产勘查开发局第五地质勘查院，郑州 450052； 3.河南省地质调查院，郑州 450007）

随着遥感技术的发展，遥感影像的空间分辨率不断提高，为获取高分辨率遥感影像提供了便利［1］. 从高分辨率遥感图像中提取建筑物在城市规划、人口估算、灾害监测和智慧城市建设中发挥着重要作用［2］. 传统的建筑物提取方法主要使用人工建图，存在效率低、成本高的问题，不能满足实时性要求［3］. 计算机视觉和模式识别的进步，使许多自然光学图像处理方法被已广泛应用于遥感建筑物提取任务. 然而，不同的光照条件、图像采集角度和建筑材料不可避免地对遥感图像中建筑物的准确提取提出了更大的挑战.

以往的遥感影像建筑物提取研究主要依赖于影像的基本特征，如光谱、形状、轮廓、纹理、颜色、阴影等，在这一领域已经提出了一些有效的方法. Zheng和Wang［4］提出了一种基于对象的马尔可夫随机场（OMRF）模型进行建筑物提取，该模型通过区域大小和边缘特征信息建立加权区域邻接图，然后使用带有区域惩罚项的OMRF来完成准确的建筑区域提取；Zhang等［5］提出了一种基于显著性分析的建筑物提取方法，通过傅里叶变换和自适应小波提取遥感图像的多尺度纹理和边缘特征；Xie 和Zhou［6］使用扩展多分辨率分割（EMRS）和反向传播（BP）网络完成了建筑区域提取，其中EMRS用于多尺度空间分辨率特征表示，BP网络用于分类具有不同建筑区域的像素点；Liu等［7］提出了一种局部竞争超像素分割方法，可以有效融合遥感图像的空间分辨率和多尺度特征，完成建筑区域的准确提取；Li等［8］提出了一种基于混合稀疏表示的建筑物提取方法，将遥感图像分割成具有不同分量的子图组合，然后用稀疏表示来表达不同的子图特征，并使用支持向量机完成建筑物区域的提取. 以上基本特征的建筑物提取方法取得了一定的效果. 然而，由于对遥感图像中包含的深层语义特征和全局空间特征的提取不足，其分割提取结果仍然存在边界信息丢失和形状结构不完整等问题.

近年来，得益于卷积神经网络（CNNs）强大的特征提取和表示能力，它被广泛应用于图像分类、目标检测、图像分割和目标跟踪［9-11］. CNNs是一种局部连接和权重共享的深度前馈神经网络模型，对输入信息具有很强的局部不变性，可以自动获取不同尺度的特征信息. 因此，使用CNNs可以解决传统建筑物提取方法中手动设计特征提取器的问题. 现有的基于CNNs的建筑物提取方法可以概括为以下几类：①第一种方法是基于CNNs的图像分类任务，其中将固定大小的图像放入CNNs模型中并预测一个或几个像素；②第二种方法称为面向对象的CNNs语义分割，将图像分割与神经网络分类相结合；③第三种方法称为语义分割，基于全卷积神经网络（FCN）. Xu等［12］提出了一种结合深度残差网络和引导滤波的建筑物提取方法，利用残差网络提取遥感图像的多尺度分辨率特征，然后通过引导滤波对建筑物区域进行逐像素分割；Hui等［13］提出了一种用于建筑物提取的多任务U-Net模型，该模型利用多特征跳跃连接来获得遥感图像的空间分辨率，并通过多任务学习来融合建筑物的区域结构特征信息；Zhang等［14］提出了一种局部-全局双流网络（DS-Net），可以获取全局上下文特征信息用于建筑物区域提取，采用双流互补的方法在不同特征之间交换信息以获得更好的建筑物提取结果；Xie等［15］使用多特征卷积神经网络（MFCNN）提取建筑物区域的多个特征信息，然后使用形态学滤波从高分辨率遥感图像中提取建筑物. 尽管现有的基于CNNs的建筑物提取方法虽然取得了较好的效果，但无法充分提取遥感影像中包含的多尺度特征信息和空间特征信息，使得提取结果存在不同程度的边界模糊和轮廓信息丢失现象.

1 MSR-cGAN方法

针对遥感影像中建筑物提取任务，本文提出了一种用于遥感建筑物提取的生成对抗网络模型，使用该模型用于遥感影像中的建筑物提取任务. 所提出的MSR-cGAN包括生成网络和对抗网络两个部分，其中生成网络用于生成预测结果，对抗网络用于修正预测结果与地面真值之间的误差，MSR-cGAN的结构如图1所示.

1.1 生成网络

生成网络（Generative Network）包括编码结构和解码结构两部分，其中编码结构用于提取遥感图像的多尺度特征；解码结构用于恢复图像分辨率尺寸. 编码结构包括五个循环残差卷积模块（Recurrent Residual Convolution Module，RRCM），每个模块由1×1卷积、3×3卷积、最大池化操作（Max-pooling）组成；解码结构包括四个卷积（Conv）模块，每个模块包括反卷积（Deconvolution）和上采样（Up-sampling）操作；同时在每个编码结构和解码结构之间使用注意力门限跳跃连接操作进行不同尺度的特征传递.

MSR-cGAN中的生成网络是在U-Net的基础上改进的，为了使生成网络具有更好的自适应能力，保留了U-Net模型的端到端结构. 由于U-Net为多层结构，直接使用其对遥感图像进行分割将导致梯度消失、梯度爆炸和过拟合等问题. 而且，由于遥感图像的目标区域受到复杂背景干扰，U-Net不能抑制背景干扰信息.所提出的生成网络为编解码结构，编码结构能够充分提取输入图像的多尺度信息，解码结构用于缓解背景噪声干扰和恢复图像分辨率，生成网络结构如图1所示.

图1 MSR-cGAN网络模型结构Fig.1 The model structure of MSR-cGAN

1.1.1 循环残差卷积模块

为了解决由于网络层数增加导致的分割准确率下降问题，在生成网络中引入循环残差卷积模块，增强不同卷积层的特征信息传递和特征复用，从而提升模型对目标区域的分割准确率. 循环残差卷积模块能够增强特征传递，合并不同卷积层特征，同时有效地利用输出特征图，有益于遥感图像目标区域的特征提取.使用循环残差卷积能够学习不同局部感受野的多尺度特征，同时能够有效地进一步提取目标区域特征. 循环残差卷积模块包含三个由卷积、池化、批归一化、ReLu激活函数组成的特征提取模块. 对输入特征图在特征提取模块中进行循环卷积核特征合并操作，之后将其输入1×1卷积层进行特征压缩，其能够有效解决由多个卷积操作造成的特征信息和网络参数残余等问题.

1.1.2 门限跳跃连接

为更有效地聚合多尺度特征信息，使用注意力门限跳跃连接操作替代原始U-Net的跳跃连接操作，其能够增加遥感目标区域的特征信息权重，同时减少背景区域的特征信息权重. 如图1所示，生成网络的编码结构由下采样层和卷积层组成，每个下采样层包含两个并行通道，其中卷积层的尺寸为3×3大小，初始卷积层的特征通道数为64，使用的卷积操作为循环残差卷积；解码结构由四个上采样层和卷积层组成，其卷积层的参数与编码结构相同，同时解码结构的最后一层为1×1卷积层，用于输出分割结果. 在编码结构与解码结构之间使用门限跳跃连接操作进行图像特征信息融合，同时缓解背景特征对目标区域的干扰.

1.2 对抗网络

对抗网络（Adversarial Network）为双分支并行结构，每个分支包含两个下采样（Down-sampling）模块和三个卷积模块. 对抗网络的输入为生成网络的预测结果、原始遥感图像、地面真值；下采样模块包含下采样层、组归一化层（GroupNorm）和LeakReLu激活函数；每个分支的输出结果使用1×1卷积层进行特征融合，同时使用L1损失函数计算预测结果与地面真值之间的误差.

在MSR-cGAN 模型中，对抗网络用于区分生成网络分割结果与地面真值图像之间的误差. 在遥感图像分割任务中，生成网络的优化目标用于最小化生成损失，使对抗网络难以区分分割结果与地面真值之间的误差. 对抗网络的优化目标是使对抗损失最小化，并使分割结果与地面真值之间的差异最大. 在模型训练过程中，对抗网络将逐步提高判别能力，并引导生成网进行训练. 因此，对抗网络等效于可训练的损失函数，能够根据深度数据分布计算出生成结果与地面真值之间的差，所以对抗网络能够较好地监督生成网络的训练.

MSR-cGAN 的对抗网络是一种类似于生成网络的编解码结构，使得模型更易于训练，并且可以避免由于对抗网络的强大区分能力而导致生成网络的训练崩溃. 此外，为了防止对抗网络的过度拟合，所构建的模型使用简单的下采样池化层和卷积层，对抗网络的结构如图1 所示. 对抗网络使用两个具有相同结构的下采样池化层. 每个下采样层使用步长为2 的4×4 池化核，并在下采样操作之前对输入要素执行填充操作. 这种方式能够有效地合并下采样池化特征，并且输出特征可以是稀疏的，避免了由于下采样操作而导致的细节特征信息丢失的问题. 此外，对抗网络使用三个具有相同结构的卷积模块，每个卷积模块使用3×3 大小，步长为1 的卷积核进行特征提取，对输入特征执行大小为2 的填充操作在卷积运算之前. 使用构造的卷积模块进行特征提取能够有效融合多尺度特征，而无须更改特征尺度. 对抗网络的输出层为单个卷积层，内核大小为1×1，步幅尺寸为1，能够确保输出特征层不会产生下采样，并且输出系数特征能够更好地匹配L1损失函数.

2 具体案例分析

2.1 数据集

IAILD（Inria Aerial Image Labeling Dataset）数据集包含810 km2的遥感图像，空间分辨率为0.3 m，其中405 km2的建筑物已经被正确标注. 数据集来源于奥斯汀、芝加哥、基萨普、西蒂罗尔、维也纳五个地区，每个地区建筑物风格差异较大，数据集样本如图2所示. IAILD数据集包含180幅分辨率为5000×5000像素的遥感图像，为了加快模型训练和提高泛化能力，将数据集图像裁剪为4500幅分辨率为1000×1000像素的遥感图像. 在实验过程中，将数据集分为训练集、验证集、测试集，其中用于模型训练的训练集图像数量为3150幅，用于优化模型性能的验证集包含900幅图像，用于测试模型性能的测试数据集包含450幅图像.

图2 IAILD数据集样本示例Fig.2 Sample images of IAILD dataset

2.2 量化指标

为了更加公平地比较算法性能，对IAILD 数据集使用不同的量化指标. 由于IAILD 数据集中仅包含建筑物区域和背景区域，可以将其视为像素二分类问题，因此将召回率（recall）、分割精度（accuracy）、和F1_measure作为量化指标. 其中，召回率表示分类为建筑物的像素与真实建筑物像素之比；分割精度表示正确分类为建筑物的像素与所有分类为建筑物的像素之比；F1_measure表示召回率和分割精度的综合评价指标. 量化指标的具体计算公式分别如下：

式中：Bseg表示分割结果中建筑物区域被正确分类的像素；Iunseg表示图像中属于建筑物区域但未被归类为建筑物的像素；Iwseg表示背景区域像素被错误分类为建筑物区域的像素.

2.3 消融实验

为了验证所提出方法在IAILD 数据集上的性能，我们将MSR-cGAN 与其他方法进行比较，其中包括通用的语义分割方法FCN、SegNet和U-Net. 此外，还与基于GAN的遥感图像分割方法进行比较，包括具有空间和通道注意力机制的生成对抗网络（GAN-SCA）和基于贝叶斯理论的生成对抗网络（BAS-Net）. 具体的，FCN为全卷积神经网络模型，使用卷积和池化操作获取输入图像的多尺度特征，而上采样则用于恢复特征图分辨率；SegNet和U-Net为编解码结构，其中编码结构用于提取输入图像特征，解码结构用于恢复图像分辨率，其区别在于SegNet 使用池化索引还原特征图，而U-Net 通过复制和裁剪进行特征转移. GAN-SCA 在GAN的基础上引入了空间和通道注意力机制，在生成网络中引入了空间注意力机制提高模型对遥感图像的特征提取能力，在对抗网络中引入通道注意力机制提高模型的判别能力. BAS-Net将FCN的分割结果作为先验知识输入GAN进行遥感图像分割，有效地避免了模型训练过程中的过拟合问题.

2.4 结果分析

表1 和图3 显示了不同方法在IAILD 数据集上不同方法的分割结果. 由于FCN、SegNet、和U-Net 为通用的语义分割网络，因此无法完全提取遥感建筑物区域的特征，因此其F1_measure 分别为0.802、0.815、0.822. 从图3 的可视化分割结果中看出遥感建筑物的大面积区域尚未完成准确分割. GAN-SCA 的精度、召回率和F1_measure 分别为0.920、0.864、0.891. 由于引入了注意力机制，可以较好地提取建筑物区域的多尺度特征，从可视化结果能够看出，GAN-SCA 能够对大面积建筑物进行分割，但对建筑物边缘分割结果较差. BAS-Net 可以更好地分割建筑物区域的边缘和轮廓，但对密集建筑物区域的分割效果较差，其精度、召回率和F1_measure 分别为0.932、0.872、0.901. 所提出的MSR-cGAN 在量化指标上均优于其他被比较的方法，从表1 中能够看出，其分割精度、召回率和F1_measure 分别为0.954、0.897、0.925，图3 的可视化结果表明MSR-cGAN 能够准确分割遥感图像的建筑物区域，并能准确完成对募集区域建筑物的分割.

图3 不同方法在IAILD数据集上的分割结果Fig.3 Segmentation results of different methods on IAILD dataset

表1 IAILD数据集实验结果Tab.1 Experimental results of IAILD dataset

图4显示了不同方法的ROC曲线和RP曲线，能够看出FCN、SegNet和U-Net的性能明显劣于GAN-SCA和BAS-Net，而MSR-cGAN的结果优于GAN-SCA和BAS-Net，证明了提出方法的有效性.

图4 不同方法在IAILD数据集上的ROC和PR曲线Fig.4 ROC and PR curves of different methods on IAILD dataset

3 结语

本文中提出了一个基于CNNs 的建筑物提取框架. 提出的方法由生成网络和对抗网络组成，其中生成网络能够提取遥感建筑物区域的多尺度和多分辨率特征，对抗网络是一个并行的编码器-解码器结构，它通过计算预测结果与标注信息之间的误差来指导模型优化训练. 此外，在模型训练过程中引入条件信息约束以缓解过拟合问题，提高建筑物提取精度. IAILD建筑数据集的实验结果表明，MSR-cGAN在建筑提取精度方面明显优于其他建筑物提取方法. 在未来的工作中，本文考虑引入无监督学习策略，使模型能够在未标记的数据集中获得更好的提取结果.