基于分类后验概率空间的孪生Nested-UNet(SNU-PS)变化检测网络

2023-10-19 02:47朱传海陈学泓陈晋袁宇恒唐凯
遥感学报 2023年9期
关键词:变化检测训练样本语义

朱传海,陈学泓,陈晋,袁宇恒,唐凯

1.北京师范大学 地理科学学部 遥感科学国家重点实验室,北京 100875;2.北京师范大学 地理科学学部 北京市陆表遥感数据产品工程技术研究中心,北京 100875

1 引言

受自然地理过程和人类活动的影响,全球地表覆盖持续发生快速变化,可能对地球系统产生深远的影响(Foley等,2005)。遥感变化检测技术通过分析同一区域不同时间获得的两幅或多幅图像来提取变化信息(Zhu 等,2022),是全面监测和记录地表覆盖变化的唯一有效手段。目前,变化检测已广泛应用于地学研究的各个领域,包括土地利用和土地覆盖变化、森林砍伐、灾害监测和城市规划等(杜培军和柳思聪,2012;Hermosilla等,2015;Zheng等,2021;Fang等,2023)。

变化检测技术的发展与遥感对地观测技术的提高、信息技术的迭代、深度学习的兴起息息相关(Chen 等,2022b)。在深度学习兴起以前,传统上变化检测方法可分为两类:基于像元光谱的直接检测方法和基于分类的检测方法(陈晋 等,2001)。直接检测法通过对比不同时相像元的光谱差异来提取变化信息(眭海刚 等,2018),例如图像差分法(Ke 等,2018)、主成分分析法PCA(Principle Component Analysis)(Celik,2009)、变化向量分析法CVA(Change Vector Analysis)(Liu等,2015)等。直接检测法简单有效,常用于中低分辨率遥感影像的大面积变化检测制图(陈云浩等,2002;Baker等,2007;Jin等,2013)。但是,此类算法易受大气条件、季节差异、太阳高度角等外在因素的干扰而产生伪变化;其次,由于不同地物变化类型之间的光谱变化强度不同,并且同种变化类型的变化强度也存在一定的差异性(Xian 等,2009),变化阈值的确定也是该类方法的主要难点(Bouziani 等,2010)。随着支持向量机SVM(Support Vector Machine)、随机森林RF(Random Forest)等机器学习方法引入到遥感地物分类中(Moustakidis 等,2012),基于分类的变化检测方法也得到广泛重视。由于两期分类可以独立进行,这类算法受两期影像的大气差异等外部因素改变的影响相对较小,对数据预处理的要求更为宽松(Asokan 和Anitha,2019)。分类后比较法PCC(Post Classification Comparison)是这类算法的典型代表(Wan 等,2019),它首先对多时相影像各自进行分类,然后比较分类图获取变化信息。PCC 方法简单直接,是最常用的变化检测方法(Lu 等,2014;El-Hattab,2016)。但是,PCC的最终变化检测精度同时受两期影像的分类精度影响(张良培和武辰,2017),常常存在较大的误差累积,从而高估变化区域(Hecheltjen 等,2014)。针对这一问题,Chen等(2011)提出了基于后验概率空间的变化向量分析法CVAPS(Change Vector Analysis in Posterior Probability Space),将地物的分类后验概率(即归属概率)而非硬分类结果作为CVA 的输入来提取变化信息,有效结合PCC与CVA 两种方法的优点,减少了分类误差的累积。总体而言,传统的变化检测技术经过几十年发展,在粗分辨率影像的变化检测上能够取得较好的效果。但是,传统方法对于空间特征的挖掘相对有限,在空间纹理特征丰富的高分辨率影像上,难以取得理想的变化检测效果(Shafique 等,2022)。

近年来,深度学习技术快速兴起,其通过深层神经网络结构挖掘图像中的多层次纹理特征(Varghese等,2019),在各种图像识别任务上取得突破性发展(Chan 等,2015),也适用于高空间分辨率遥感影像的解译(Zhu 等,2017;Kussul 等,2017)。因此,基于深度学习的高分辨率遥感影像变化检测得到广泛研究(Diakogiannis 等,2020)。根据深度特征提取和训练过程的不同,变化检测网络一般可分为3种类型:单支结构、双支结构和多任务结构(Shi等,2020;Tian等,2022)。单支结构首先将双时相图像进行融合,然后将融合图像输入到DeepLabV3+(Chen 等,2018)、UNet(Liu等,2020a)、UNet++(Peng等,2019)等深度学习网络中,使得变化检测任务转化为分类任务。常见的融合方法有差值运算(Lv 等,2018)、比值运算(Zhao 等,2014)、通道维堆叠(Daudt 等,2018;Liu等,2020a)等,可以突显出有关变化的信息,以指导网络学习影像中的变化特征。双支结构则通过两个网络分支分别提取双时相图像的深层特征,再通过特征融合提取变化特征。孪生结构是最典型的双支结构,两个分支网络结构相同、权值共享,从而提取双时相图像的共同特征,能够有效减少网络参数,是最常用的变化检测网络类型之一(Zhan 等,2017;Chen 等,2022a;Fang 等,2022);而另一种伪孪生结构(Xu 等,2021,2022)的两个分支虽然结构相同,但不共享权值,可以独立学习两个时期影像的最佳权值,有利于灵活适应两期影像的成像差异(Wiratama等,2018)。多任务结构是一种更加复杂的网络结构,其将语义分割和变化检测相结合,在提取变化信息的同时兼顾两期地物分类结果。这类结构通常在变化检测网络的解码或编码阶段融合进分类网络提取到的地物特征,从而得到更具地物语义信息的变化特征(Zheng 等,2022;Xia 等,2022)。多任务结构通过增加地物语义信息,突出了地物类型的变化特征,但是也进一步增加了网络复杂度和训练难度。总体而言,在训练样本充分的条件下,深度学习方法能够有效挖掘变化区域的光谱与纹理特征,实现较高精度的变化检测(杨彬 等,2022)。然而,而收集和标记可靠的高质量样本十分困难,变化样本尤为如此。因此,在实际的变化检测应用中,经常缺乏高质量的训练数据(Shafique 等,2022);同时,变化与非变化、不同变化类型之间都存在严重的类别不平衡问题。针对样本不足的问题,部分学者通过迁移学习技术将在源域训练的变化检测网络迁移到少样本或无样本的目标域(Liu 等,2019,2020b;Yang 等,2019)。但是此类方法仍需要充分的源域样本,且在源域与目标域影像特征差距太大时可能失效。此外,利用经验设计的预变化检测步骤生成初始伪标签或引导生成式对抗网络产生伪标签,以训练变化检测网络(Gong 等,2017;Zhang等,2021),也能减少人工标签需求,甚至构建无监督方法。但是,这类方法依赖较强的先验知识以构造合适的预变化检测方法(Shi等,2020;Wu等,2023)。因此,真实标签样本不足仍然是限制现有方法应用范围的重要瓶颈(Wan等,2022)。

值得注意的是,相比变化检测样本,单时相地物分类样本的获取难度要低得多。因此,基于地物分类样本训练的语义分割网络可能为变化检测网络提供重要的先验特征。基于此,本文提出了一种基于分类后验概率空间的孪生Nested-UNet变化检测网络SNU-PS(Siamese Nested-UNet for change detection in Posterior Probability Space)。该方法借鉴CVAPS(Chen 等,2011)的思想,将孪生Nested-UNet(Siamese Nested-UNet,SNU)变化检测网络的多光谱影像输入替换为地物分类后验概率影像。相比多任务结构的变化检测网络中分类网络与变化检测网络的特征层融合,以后验概率作为二者的联接点,可以在不增加网络复杂度与训练难度的同时考虑语义信息。在此基础上训练的变化检测网络无需学习多光谱影像中的地物特征,因此有可能减轻变化检测网络的学习压力,降低对变化检测样本的需求。

2 研究方法

2.1 SNU-PS主要思路

SNU-PS原理与CVAPS类似,不同之处在于将CVAPS 采用的传统分类与CVA 变化检测方法替换为基于深度学习的方法,以适应高分辨率遥感影像变化检测对纹理特征的挖掘需求。总体技术路线如图1所示。首先,利用语义分割网络分别对两期遥感影像进行语义分割,得到各种类型地物的分类后验概率;然后将双时相地物分类后验概率输入到一种典型的孪生变化检测网络SNU 中得到最终的变化检测结果。为简化网络复杂度和训练难度,语义分割网络与变化检测网络的训练是分步独立进行的。

图1 SNU-PS技术路线图Fig.1 Flowchart of the proposed SNU-PS

2.2 HRNet语义分割网络

语义分割网络是SNU-PS 变化检测的第一个步骤,用以输出两个时期的地物分类后验概率图像。现有语义分割网络类型众多,各有优缺点。本研究选择提出的一种高分辨率网络HRNet(High Resolution Net)(Wang等,2021)提取地物类型及其后验概率信息。HRNet 的主要特点是在整个卷积过程中保持高分辨率,充分结合深层语义与空间细节信息,大大降低了下采样过程中的信息损耗,在各种类型的遥感地物分类任务中取得了理想的精度(Seong和Choi,2021)。相比之下,其他常见的语义分割网络,如UNet、SegNet、DeepLab系列等,通常在卷积、池化组合操作过程中逐渐降低影像的分辨率,在提取深层特征的同时会相应损失空间细节,不利于地物边界的精确刻画(Peng等,2022)。

HRNet 网络结构如图1(b)所示,以高分辨率卷积流作为第一阶段,逐步增加高分辨率到低分辨率的卷积流,通过并联的方式连接不同分辨率的卷积流,实现多尺度语义信息重复融合。HRNet主要由3种模块构成:并行卷积模块、特征融合模块和输出模块。并行卷积模块采用ResNet 残差结构,将原始分辨率的特征重采样到不同分辨率且不同分辨率的特征卷积流可以同时运行,以充分提取不同层次的语义信息;特征融合模块旨在跨多分辨率交换语义信息,在各个不同分辨率的特征卷积流之间采用上采样或下采样的方式实现分辨率的统一,以实现全局语义信息的提取;经过3 个逐步加深的并行卷积与特征融合模块后,输出模块将不同分辨率特征统一到原始影像大小,获取最终分割结果以及相应的后验概率图像。

在本文提出的SNU-PS方法中,HRNet的训练样本可以来自变化前后任意时期的分类标签,无需两个时期的成对标签。因此,分类样本相较变化检测样本的获取难度大大降低,在实际应用中样本量容易得到保证,HRNet 得以充分训练,从而输出较为精确的后验概率图像。

2.3 SNU变化检测网络

本研究选择SNU 变化检测网络用于对上节得到的两期后验概率图像进行变化检测。SNU 是一种典型的孪生变化检测网络,被广泛应用于变化检测研究(Amankwah 等,2022;Jiang 等,2022)。相较于其他类型的变化检测网络,孪生网络由于权值共享,需要学习的参数数量较少,对训练样本需求相对较小(Li 等,2022)。此外,本研究输入的后验概率图像性质相似,受两期之间的物候、光照等差异影响较少,能够更为方便的提取共同特征。因此,SNU 适用于后验概率空间中的变化检测。

SNU 网络结构如图1(c)所示,主体采用编码—解码结构。在编码部分,将两期图像分别输入到孪生网络的两个分支中,并在两个分支之间共享参数,最后采用串联方式融合两个孪生分支之间的特征,保证信息的完整性。为了保持高分辨率特征,在编码器和解码器之间使用了密集跳跃连接机制(图1(c)),融合后的高分辨率、细尺度特征通过跳跃连接依次传输到解码器,补偿了解码器深层位置信息的损失。因此,该网络能够较好地保持高分辨率、细尺度的特征,减轻变化目标边缘像素的不确定性和小目标的判定失误。

为了缓解变化/不变化样本不平衡的影响,本研究在损失函数方面混合使用两种针对样本不平衡问题设计的Loss 函数,Dice Loss(Milletari 等,2016)与Focal Loss(Lin 等,2017)。这两种Loss函数被广泛用于缓解样本不平衡带来的训练偏差,其表达式分别为

式中,i表示像元序号,N表示像元总个数,pi表示像元i变化/不变化的预测概率,gi表示像元i的真实标签,α为权重因子,γ为调节因子。本研究进一步将两个Loss函数加权组合:

式中,τ为两个Loss 的权重调节因子,该因子使得两个Loss 在数值上保持一致,对梯度下降方向上的贡献可比。

原SNU 以多光谱影像为输入,网络需要同时提取两期变化信息与多光谱影像特征,因此对变化/不变化训练样本的数量要求较高。而后验概率图像已包含了地物类型的语义信息,因此SNU-PS中的变化检测网络无需挖掘多光谱影像特征,仅负责提取地物变化信息,对训练样本的依赖得以减轻。

3 实验设计

3.1 实验数据

目前常用的公开变化检测数据集有MtS-WH(Wu等,2017)、HRSCD(Daudt等,2019)、LEVIRCD(Chen和Shi,2020)、SECOND(Yang等,2021)、SpaceNet7(Van Etten 等,2021)等。但是,其中多数数据集仅提供变化/不变化标签,缺少地物类型标签,而这与实际应用中样本的获取难度并不匹配。为更符合实际应用场景,同时适用本文提出的SNU-PS 变化检测方法,我们选择同时包含地物分类标签与变化标签的数据集用于实验,包括SpaceNet7与HRSCD 数据集。进一步,通过随机选取较多的地物类型标签与较少的地物变化标签,来模拟实际应用中变化样本难以获取的特点,检验SNU-PS在变化样本不足情形下的表现。

3.1.1 SpaceNet7 数据集

SpaceNet7 数据集(图2(a))是由Planet Labs在2017 年—2020 年期间收集的卫星影像,分辨率约为4 m。每张影像大小为1024×1024 像素,包含建筑物和非建筑物两类标签。整个数据集中,变化样本和非变化像元数量极不平衡,变化像元仅占1.4%。SpaceNet7 数据集包括多个时期的数据,本研究将第一个时期和最后一个时期的数据组成影像对构建样本集,并将原始图像剪切成约5000 张大小为128×128 像素的图像。在语义分割模块中,按照6∶2∶2的比例将具有分类标签的样本划分训练集、验证集、测试集;在变化检测模块中,为模拟实际应用中变化检测样本较少的情景,分别从具有变化标签的样本中抽取1%、5%、10%、15%、20%、30%与40%构建7 个样本数量水平的变化检测训练集;验证集和测试集的数量则与语义分割的样本集数量保持一致,均为20%。需要注意的是,这里语义分割与变化检测的测试集保持一致,以确保它们共同排除在模型的训练与验证过程之外。由于变化检测训练样本数量较少,为避免单次抽样的偶然性,本研究对每一个样本数量水平都随机抽样5 次,总共生成7×5=35 组变化检测训练样本集。

图2 本研究所用实验数据集Fig.2 Experimental datasets used in the study

3.1.2 HRSCD 数据集

HRSCD 数据集(图2(b))是由法国国家地理和森林信息研究所拍摄的航空图像制作而成,包含291 个大小为10000×10000 像素的RGB 图像对,分辨率为0.5 m。该数据集的分类体系更倾向于土地利用,包含人造地表、农业用地、林地、湿地、水体5 种地物类别,以及相应的21 种变化类型。与SpaceNet7数据集类似,HRSCD 数据集中变化样本和非变化样本同样极不平衡,变化样本仅占整个数据集的0.8%。根据Xia 等(2022)的研究经验,为方便训练,先将原始影像裁剪成2000×2000像素大小的图像,并进一步将通过重采样调整为512×512像素大小。用于语义分割和变化检测的训练集、验证集、测试集的划分与SpaceNet7 数据集保持一致,同样生成35组变化检测训练样本集。

3.2 评价指标

本研究采用总体精度(OA)、变化地物的F1、变化地物的交并比(IoU)和Kappa 系数4 个定量指标表征变化检测精度;

式中,N表示测试样本的像元数,TP 和FP 分别表示样本中真实变化像元被正确识别为变化和误判为非变化的像元个数,TN和FN分别表示真实非变化像元被正确识别非变化和误判为变化的像元个数。针对包含多种变化类型的变化检测情形,额外采用F1Types(Zheng 等,2021)表示不同变化类型的平均检测精度,如式(9)所示:

式中,j为变化类型编号,m为总的变化类型数量(包括非变化类型),F1j表示第j种变化类型的F1。

3.3 实验环境及参数设置

本研究使用Pytorch框架实现模型构建及训练。在训练过程中,使用AdamW 优化器,初始学习率设置为0.001,并采用余弦退火法调整学习率。实验设备为NVIDIA GeForce RTX 3090,每轮实验训练100 个 epoch 以使模型收敛,并选取验证集精度最高的epoch对应的网络模型用于预测。

3.4 对比方法

为验证本研究的优越性和稳定性,选择部分变化检测方法进行比较:

(1)基于HRNet分类结果的PCC(HRNet-PCC):分类后比较是最常用的变化检测方法,是变化检测方法对比的重要基准(Xie 和Niculescu,2021),本研究选择基于HRNet 分类结果的PCC 方法作对比;

(2)基于SVM分类结果的PCC(SVM-PCC):支持向量机SVM(Support Vector Machine)是地物分类中常用的传统机器学习方法(李楠 等,2018),为比较基于深度学习分类结果的PCC 方法和基于传统机器学习方法分类结果的PCC 方法之间的优劣,本研究选择基于SVM 分类结果的PCC 方法作对比;

(3)基于HRNet 分类后验概率的CVAPS(HRNet-CVAPS):CVAPS(Chen 等,2011)可以有效缓解PCC 方法中误差累积问题,本研究选择基于HRNet分类后验概率的CVAPS方法作为对比;

(4)FC-EF:一种单支结构的变化检测网络(Daudt 等,2018),首先将变化前后两幅影像按通道维融合然后利用UNet 网络进行变化检测,参数量少,简单有效,是常用的变化检测基准方法(Chen等,2021a);

(5)BIT:一种采用注意力模型Transformer 的变化检测网络(Chen 等,2021b),Transformer 具有更大的感受野和更强的上下文语义提取能力,可以通过对上下文特征的建模来利用双时相图像中的全局语义信息,以提高检测效率和精度,是常用变化检测对比方法(Bandara和Patel,2022);

(6)PCFN:一种同时实现地物分类和变化检测的多任务网络,这类网络在最近的研究中表现出更为优良的性能(Xia等,2022);

(7)SNU:基于多光谱影像输入的孪生变化检测网络(Fang 等,2022),是最流行的变化检测网络结构之一,在很多研究中作为对比基准(Chen等,2021b;Bandara和Patel,2022)。

4 结果分析

4.1 SpaceNet7 数据集结果分析

不同变化检测方法在SpaceNet7 测试集上的变化检测精度评价结果如图3 和表1 所示。HRNet-CVAPS、FC-EF、BIT、PCFN、SNU、SNU-PS这6种方法的变化检测精度均随着变化检测训练样本量的增加而提高,同时5次实验的标准差下降,说明充足的训练样本对于不同类型网络的检测精度与稳定度的提升都很重要。其中,SNU-PS 在绝大多数样本量水平下都保持最高的变化检测精度与稳定度,特别是在F1、IoU、Kappa 指标上相较其他方法具备较大优势。而不同方法在OA 指标上差距较小,是因为变化/不变化样本比例严重失衡导致OA 无法准确反映不同方法的差异。此外,SNUPS 方法在小样本情况下表现更为稳健。即使仅用5%样本量训练的SNU-PS,其F1、IoU、Kappa 仍远优于40%样本量训练的HRNet-CVAPS、FCEF、BIT、PCFN 与SNU。SVM-PCC 和HRNet-PCC方法,作为分类后较方法,无需变化检测训练样本,因此其变化检测结果不受训练样本量的影响,但由于存在误差累积与几何匹配问题,在大部分情况下其精度水平低于其他方法。特别是SVMPCC,由于其无法利用高空间分辨率影像的丰富纹理特征,在所有方法中表现最差。

表1 不同变化/不变化训练样本比例下不同变化检测方法在SpaceNet7数据集上的平均精度对比Table 1 Change detection average accuracies of different methods trained with different change/unchanged sample size for the SpaceNet7 dataset

图3 不同变化/不变化训练样本比例下不同变化检测方法在SpaceNet7数据集上的精度对比Fig.3 Change detection accuracies of different methods trained with different change/unchanged sample size for the SpaceNet7 dataset

图4展示了不同变化检测方法(15%训练样本比例)在SpaceNet7 数据集上检测结果的典型示例。SNU-PS 方法基本正确提出了两个时期间增加的建筑区域,仅存在少量的错分和漏分。相比之下,FC-EF、BIT、PCFN 与SNU 则存在较多的漏分,这可能是变化前后大型建筑以及某些成排建筑与道路或者裸地形态相似,网络难以正确识别变化区域(图4红圈);HRNet-CVAPS 存在一定的漏分和建筑物边缘的错分,这可能是由于方法中CVA 步骤是在像元层面上执行,对于变化地物的空间特征挖掘不足以及对两期影像几何误差的容忍不够导致的。而SVM-PCC 和HRNet-PCC 存在大量的错分,在建筑物边缘尤为明显(图4橙框),这一方面是因为边缘混合像元会导致误差累积(Chen 等,2011),另一方面是受不同时相的配准误差、阴影差异等影响。而SVM-PCC 的变化检测错误尤为明显,说明非深度学习方法确实难以胜任高分辨率影像的变化检测任务。

图4 不同方法在SpaceNet7 数据集上变化检测结果示例Fig.4 Examples of change detection results of different methods on the SpaceNet7 dataset

4.2 HRSCD 数据集结果分析

不同方法在HRSCD 测试集上的变化检测精度评价结果如图5 和表2 所示。同样地,HRNet-CVAPS、FC-EF、BIT、PCFN、SNU 与SNU-PS 这6种方法的变化检测精度随着变化检测训练样本量的增加而提高,同时5 次实验的标准差下降。SNU-PS 在绝大多数样本量水平下仍然保持最高的变化检测精度与稳定度。特别是在训练样本量较少时,SNU-PS 相较其他方法的优势更为明显。即使在1%的训练样本比例下,SNU-PS 也具有较高的F1、F1-Types、IoU、Kappa,与40%训练样本训练的其他方法精度相差不大,说明SNU-PS 方法在小样本下具备较好的稳健性。但是,当样本比例达到30%及以上时,PCFN 与SNU-PS 的变化检测精度差距缩小,这说明当训练样本充分时,不同结构的网络精度差异趋于减小。虽然SVM-PCC和HRNet-PCC不受变化检测训练样本数量的影响,但是受限于算法本身的局限性,表现不如其他变化检测网络(训练样本比例高于5%时)。同样的,SVM-PCC,作为传统方法,在所有情形下都表现最差。总体而言,SNU-PS 在HRSCD 数据集的变化检测实验上仍然表现出相比其他方法的优势,但是优势不如在SpaceNet7 数据集的实验明显。这可能是因为HRSCD数据地物类型与变化类型更多,不论哪种方法都更难以达到理想结果。特别是F1-Types 指标只在10%左右的水平,说明各种方法都难以准确地识别变化类型。以某次15%变化检测训练样本下的变化检测实验为例,在测试变化样本集中数量最多的4 种变化类型的检测精度(F1)如表3 所示,除占比最多的“农业用地→人造地表”变化类型外,各类方法对其他的变化类型均不能有效识别。SNU-PS 也仅能少量识别占比第二的“农业用地→水体”变化类型。这是因为相比变化/不变化样本的不平衡,不同变化类型的样本数量更少(表3),带来更为严重的不平衡问题,因此变化类型的识别十分困难。

表2 不同变化/不变化训练样本比例下不同变化检测方法在HRSCD数据集上的平均精度对比Table 2 Change detection average accuracies of different methods trained with different change/unchanged sample size for the HRSCD dataset

表3 不同变化检测网络在HRSCD数据集上主要变化类型的F1(训练样本比例为15%)Table 3 The F1 scores of different change detection networks on the major change categories in the HRSCD dataset(The training sample ratio is 15%)

由于HRSCD 数据集中多数变化类型占比太少,,图6 着重展示了8 种变化检测方法(变化检测训练样本比例为15%)对于“农业用地→人造地表”这一变化类型的检测能力。5种深度学习方法均较为准确地检测到变化区域,但SNU-PS 具有最小的错分和漏分。与参考标签相比,FC-EF、BIT、PCFN 和SNUNet-CD 的变化检测结果存在较多的错分;这些错分在图像上对应一些地物变化,如公园绿地内建筑增加(图6 中橙框),但是从土地利用角度却同属于人造地表类型未发生变化。相较而言,SNU-PS 不会出现该类错分,因为该方法通过语义分割网络的训练,在对地物类型语义的解译上更为接近参考的土地利用标签。由于HRNet-CVAPS 与HRNet-PCC 也包括了语义分割网络的训练,因此也较少出现这种类型的错分。但是HRNet-PCC 仍然存在大量错分(图6 橙框),这是由于对于两个时期的分类误差累积在该数据集上依然十分明显。相较而言,这些错分区域基本没有出现在SNU-PS 中,这说明SNU-PS 可以显著改善PCC 方法中的误差累积问题。而SVM-PCC 在该样例中表现极差,几乎完全不能正确识别变化与不变化区域。这是因为该场景中占比最多的农业用地的类内光谱差异很大,正确识别十分依赖空间纹理特征,而传统的非深度学习方法在空间纹理特征的利用上严重不足。

图6 不同方法在HRSCD 数据集上变化检测结果示例()Fig.6 Examples of change detection results of different methods on the HRSCD dataset

5 讨论

5.1 SNU-PS的优点

SNU-PS 将语义分割网络作为前置步骤,能够充分利用获取代价较小的地物分类样本训练语义分割网络,提取遥感影像中的类型语义信息;因此,后置的变化检测网络无需学习多光谱图像特征,从而减少其对变化检测样本的依赖。因此,相比其他变化检测网络,SNU-PS 在小样本条件下的变化检测表现更为稳健。我们检查了不同变化检测网络在SpaceNet7 数据集上的训练精度(F1)随训练步数(epoch)的变化。如图7 所示,SNUPS 的训练精度在训练初期即远高于其他变化检测网络,并在10 个步数内即达到稳定状态。这说明基于分类后验概率图像训练变化检测网络的确难度较低,因此在小样本情况下的稳健性更好。

图7 不同变化检测网络在训练集上的F1精度随训练步数的变化(SpaceNet7数据集,10%训练样本)Fig.7 The F1 on training dataset changes with the increasing training epochs for different change detection networks(SpaceNet7 dataset,10% training sample)

同时,SNU-PS 将语义分割网络与变化检测网络分步单独训练,两个网络为松耦合关系,在使用时网络结构与训练策略无需作任何改变。相较于分类与变化检测多任务网络,不仅训练更为方便,而且前置的HRNet 网络与后置的SNU 网络能够方便地被其他更为合适的语义分割网络与变化检测网络替代。我们对比了以UNet++(Zhou 等,2020)、EfficientNet(Tan 和Le,2019)、TransUnet(Chen 等,2021b)、DeepLabV3+(Chen 等,2018)和HRNet 这5 种分割网络为前置语义分割网络的SNU-PS 方法在SpaceNet7 数据集上的变化检测精度。如表4所示,以HRNet作为前置语义分割网络的变化检测精度指标高于其他语义分割网络,这是因为HRNet 可以保持原有分辨率信息,建筑物边界更为清晰(图8)。因此,本文选择HRNet 作为SNU-PS 前置语义分割网络。此外,我们也对比了不同后置变化检测网络FC-EF、BIT 和SNU 方法应用于HRNet后验概率影像上的变化检测精度(变化检测训练样本占比15%)。如表5 所示,SNU-PS的F1、IoU 和Kappa 指标均高于以FC-EF 或BIT 作为后置变化检测网络的模型。这确认了SNU 是较为适用提取后验概率影像变化特征的变化检测网络。但是,当用户了解目标研究区域与数据有更为适合的语义分割网络或有更为适用于后验概率影像的变化检测网络被研发出来时,无需对其中的网络结构与训练策略作任何改动,即可用于本文提出的后验概率影像变化检测框架中,在应用中有很高的灵活性。

表4 基于不同语义分割网络的SNU-PS在SpaceNet7 数据集上的变化检测精度评价结果Table 4 Change detection accuracies of SNU-PS methods based on different semantic segmentation network for the SpaceNet7 dataset

表5 基于不同后置变化检测网络的HRNet后验概率空间变化检测方法在SpaceNet7 数据集上的变化检测精度评价结果Table 5 Change detection accuracies of different change detection networks in HRNet derived posterior probability space for the SpaceNet7 dataset

图8 不同语义分割网络在SpaceNet7 数据集上后验概率示例Fig.8 Examples of semantic segmentation results of different methods on the SpaceNet7 dataset

PCC 与CVAPS 方法,也将分类作为前置步骤,因而也具备上述两个优点,对变化检测训练样本依赖较小,分类网络替换方便。但是PCC 与CVAPS 的变化检测基于像元操作,对于变化的空间特征考虑不足,同时对不同时相高分影像的几何误差更为敏感。相比之下,SNU-PS 在分类后引入变化检测网络,通过卷积操作综合考虑感受野内的后验概率信息,能够更为深入地挖掘地物变化的空间特征,以及有效缓解不同时相高分影像几何匹配不一致的问题,因此能够取得更高的变化检测精度。

5.2 SNU-PS的局限性

尽管SNU-PS 在本文实验中取得了比其他变化检测方法更好的表现,但是仍存在3 个问题有待进一步改进。首先,SNU-PS 方法中语义分割网络的训练依赖单期影像的地物类别样本,当变化前后任意一期影像出现了分类训练样本中不存在的新的地物类型,则会导致方法失效。引入能够处理未知地物类型的开集分类机制(Kaviani Baghbaderani 等,2020),可能帮助克服该问题。其次,尽管引入针对样本不平衡设计的Loss 函数以克服变化/不变化样本间的不平衡问题,SNU-PS仍然无法解决更为严重的样本变化类型不平衡的问题。例如,在HRSCD 数据集中除农业用地变为人造地表外,其他的变化类型由于变化占比太小,不能被有效识别。最后,SNU-PS 在变化检测部分直接采用现有SNU 网络,尽管其孪生结构相比其他变化检测网络结构更适用于两期图像性质相似的后验概率影像,但仍存在改进空间。分类后验概论影像主要体现地物类型的语义信息,不包括多光谱影像中丰富的光谱与纹理信息;因此SNU变化检测网络中的特征提取部分可以针对后验概率影像特征被简化压缩,从而进一步降低变化检测网络的训练难度以及对变化样本的需求。

6 结论

本研究借鉴CVAPS 变化检测的思想,以后验概率为联结点,结合深度语义分割网络HRNet 与变化检测网络SNU-CD,提出新的SNU-PS 变化检测方法,适用于变化样本较少的应用场景。实验结果表明,SNU-PS 方法相比几种基准算法取得更为优异的变化检测精度与稳定度,特别在变化检测的训练样本量较少时体现出更为明显的优势。此外,SNU-PS 还具有较强的灵活性,在实际应用中可根据目标区域的影像分辨率、地物特点与分类体系,灵活选择更为合适的语义分割网络模型,增强算法在不同应用情形下的稳健性。未来,我们将针对后验概率影像特点,优化变化检测网络部分,以期克服变化类型识别难题以及进一步减少网络训练难度。

猜你喜欢
变化检测训练样本语义
用于遥感图像变化检测的全尺度特征聚合网络
基于多尺度纹理特征的SAR影像变化检测
语言与语义
人工智能
基于稀疏表示的视网膜图像对变化检测
基于Landsat影像的黄丰桥林场森林变化检测研究
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
“上”与“下”语义的不对称性及其认知阐释