基于光谱-空间联合Transformer模型的黄河三角洲湿地高光谱影像分类

2023-07-29 07:15辛紫麒李忠伟王雷全许明明胡亚斌
海洋科学 2023年5期
关键词:黄河三角洲支路光谱

辛紫麒, 李忠伟, 王雷全, 许明明, 胡亚斌, 梁 建

基于光谱-空间联合Transformer模型的黄河三角洲湿地高光谱影像分类

辛紫麒1, 李忠伟1, 王雷全2, 许明明1, 胡亚斌3, 梁 建4

(1. 中国石油大学(华东)海洋与空间信息学院, 山东 青岛 266580; 2. 中国石油大学(华东)计算机科学与技术学院, 山东 青岛 266580; 3. 自然资源部 第一海洋研究所, 山东 青岛 266061; 4. 南通智能感知研究院, 江苏 南通 226007)

黄河三角洲湿地地物类型在光谱曲线上差异较小, 且在空间上分布零散, 呈破碎化特性。现有的分类方法受限于局部感受野难以捕捉到图像的长距离依赖关系, 导致在黄河三角洲湿地高光谱影像中分类精度不理想, 针对此问题, 本文提出了一种光谱-空间联合Transformer模型。光谱和空间支路分别以光谱向量和空间邻域为输入, 基于自注意力机制提取全局光谱和空间特征, 在两个支路引入多阶特征交互层, 实现浅层边缘信息和深层语义信息的融合, 最后采用自适应相加的方式将两路特征融合, 送入分类器实现最终分类。本文在黄河三角洲湿地高分五号GF-5和CHRIS两幅高光谱影像上验证方法的有效性, 实验结果表明, 该方法显著提高了湿地分类的精度, 在选用3%的样本训练条件下总体精度分别达到了90.90%和94.17%, 优于其他分类方法。研究结果可实现黄河三角洲湿地地物类型的高精度分类, 为湿地的保护提供技术支持。

黄河三角洲湿地; 高光谱影像分类; Transformer模型; 光谱-空间联合

黄河三角洲湿地是中国暖温带最广阔、最完整、最年轻的滨海湿地, 其不仅在储备资源、调节气候、水质净化[1-3]等方面发挥着重要作用, 还是众多珍稀动植物的栖息地[4], 具有不可估量的价值。黄河三角洲湿地在海洋、陆地和河流的多重作用下本身具有原生性、脆弱性的特点, 近年来, 油田开发、旅游设施建设、农田开垦、滩涂开发等人类活动使得湿地面积剧烈变化[5-6], 进而影响到其生态价值和生物多样性。因此, 实现黄河三角洲湿地的高精度分类, 掌握不同类型湿地植被的空间分布格局与特征, 可为湿地以及生物多样性的保护提供必要的参考信息。

作为一种典型的遥感图像, 高光谱图像在光谱维有数十甚至上百个连续且细分的波段, 同时相邻的地物之间具有高度的相关性, 蕴含着丰富的光谱和空间信息, 为实现黄河三角洲湿地精细化分类提供了可能。一些学者基于高光谱数据对黄河三角洲湿地进行了分类研究, 吴培强等[7]基于地物光谱可分性对黄河三角洲湿地CHRIS高光谱影像进行波段选择, 并应用支持向量机等方法进行分类, 提升了分类精度; 马毅等[8]选用人工神经网络等8种常用的遥感图像监督分类方法, 开展了不同融合策略决策分类结果的比较研究。然而上述基于传统机器学习的方式需要复杂的特征工程, 且不易迁移到其他数据, 不能满足实时高效、泛化性强的滨海湿地分类需求。

近年来兴起的以卷积神经网络为代表的深度学习方法通过局部连接、共享权重自动提取高光谱图像中的纹理边缘等浅层特征和高阶语义信息等深层次特征, 能够有效地拟合高光谱图像的分类标签与高光谱图像数据特征之间的非线性关系, 许多学者也将其应用于黄河三角洲湿地分类中。HU等[9]采用卷积神经网络模型提取光谱空间特征, 并使用模糊隶属度决策融合算法对黄河三角洲湿地进行分类; XIE等[10]提出了一个具有残差连接的双分支卷积神经网络框架, 并设计了一个全局光谱-空间注意力模块来引导网络聚焦于更具辨别性的特征, 取得了良好的分类效果。

另外, LIU等[11]融合了高光谱图像光谱分辨率高和多光谱图像空间分辨率高的优点, 同时使用两种数据对黄河三角洲湿地进行分类, 在训练样本量有限的情况下进一步提高了分类精度。然而, 上述方法受到局部感受野的限制, 难以捕获中长距离依赖; 另外, 黄河三角洲湿地地物类型分布零散, 呈破碎化特性, 且在光谱曲线上差异较小, 需要综合考虑全局信息才能实现高精度的分类。

近期, Transformer模型[12]在计算机视觉领域引起了极大的反响, 它通过自注意力机制计算所有输入数据之间的相关性, 从而捕获全局信息。高光谱图像作为一种典型的序列数据, Transformer模型能有效地表征其光谱序列信息, 基于此, 一些学者将Transformer模型应用于高光谱图像分类任务中并取得了良好的分类精度[13-15], 但上述模型多选择城市、农田等公开数据集进行实验验证, 很少应用于空间异质性强的滨海湿地的分类评估, 对高光谱图像分类的潜力也尚未得到彻底探索。

鉴于此, 本文提出了一种光谱-空间联合的Transformer模型用于黄河三角洲湿地高光谱影像分类, 主要工作如下:

(1)提出了一种基于Transformer的端到端的黄河三角洲湿地高光谱图像分类模型, 由光谱Transformer支路和空间Transformer支路组成, 分别提取全局光谱序列特征和邻域内的全局空间特征;

(2)设计了卷积映射层分别将光谱向量和空间邻域转化成Transformer的输入;

(3)引入了多阶特征交互层对光谱和空间支路的Transformer编码器提取的多阶特征进行交互, 实现了浅层与深层特征的融合。

1 实验数据

研究采用的数据分别来源于高分五号(GF-5)卫星以及PROBA/CHRIS卫星。GF-5数据覆盖了黄河三角洲自然保护区湿地, 空间尺寸为462×617, 每个像素的空间分辨率为30 m; 含有150个波段, 范围达到390~1 029 nm, 光谱分辨率从3.67~4.81 nm不等。GF-5数据对应的研究区空间范围内由8种地物类型组成, 包括互花米草、水体、芦苇、盐地碱蓬、盐碱滩、裸潮滩、潮滩芦苇和柽柳。通过对黄河口湿地研究区进行实地踏勘, 得到了与获取的遥感影像相近时相的现场踏勘资料, 根据现场资料并结合其他高空间分辨率的遥感影像完成了研究区的地物解译, 其假彩色合成影像以及地物真值图如图1所示。

图1 GF-5数据假彩色合成影像以及地物真值

CHRIS数据采集于黄河入海口新老入海径流清八汊和清水沟交界处, 包含510×511个像素, 空间分辨率为17 m; 在光谱维, 由18个波段组成, 覆盖了406~ 1 036 nm的光谱范围, 光谱分辨率从5.9~44.1 nm不等。

CHRIS数据对应的研究区空间范围内由柽柳碱蓬混生区、滩涂、芦苇、裸地、水体以及互花米草6种地物类型组成, 其假彩色合成影像以及地物真值图如图2所示。

2 研究方法

2.1 总体架构

提出的光谱-空间联合Transformer模型(spectral- spatial unified Transformer, SSUT)如图3所示, 包含光谱Transformer支路、空间Transformer支路以及光谱-空间联合分类部分。

图2 CHRIS数据假彩色合成影像以及地物真值

图3 光谱空间联合Transformer模型总体框架

2.2 卷积映射层

由于最初Transformer模型应用于机器翻译[16]任务, Transformer编码器只能接收一维词向量作为输入, ViT模型[12]为将Transformer模型迁移到计算机视觉领域实现二维图像的分类任务, 首先将图像分割成块、展平成一维向量, 再通过一个线性映射层进行维度变换输入到Transformer编码器中。然而, 这种方式必然会造成一些纹理边缘等浅层特征的丢失[17-18]。鉴于此并基于高光谱数据光谱和空间维度的特点, 本文提出了光谱向量以及空间邻域的卷积映射层, 分别将相邻的光谱波段以及图像块通过卷积映射成一维向量输入到Transformer编码器中。

图4 光谱向量(a)和空间邻域(b)卷积映射层

另外, 在所有生成的token之前添加了一个可学习的“类别token”, 类别token能够表示Transformer编码器中该层子模块的所有token的信息。与此同时, 由于Transformer模型本身不包含位置信息, 因此对于所有token生成维度相同的位置编码信息并与之相加, 引入所有token之间的相对位置关系, 为模型提供关键的上下文信息。

2.3 Transformer编码器层

如图5所示, Transformer 编码器由个子模块堆叠而成, 每个子模块的主要构成部分为多头自注意力机制(multi-head self-attention, MHSA)和前馈层(feedforward layer, FFL)[12]; 而在多头自注意力机制和前馈层之前, 使用层归一化(layer normalization, LN)[19], 在两个层之后使用残差[20]连接缓解梯度消失的问题。

2.3.1 多头自注意力机制

作为Transformer模型最核心的部分, 多头自注意力机制是多个自注意力机制的堆叠和集成, 通过计算所有输入数据之间的相关系数捕获长距离依赖关系。自注意力机制的计算流程如下:

图5 Transformer编码器

而多头自注意力以不同的变换矩阵将输入线性映射到个特征子空间中, 并使用独立的自注意力机制并行处理它们, 将得到的结果进行级联并再次通过一个线性映射层W以获得最终输出[16]。综上, 多头自注意力机制的过程可以通过如下式(1)~(3)表示:

2.3.2 前馈层、层归一化以及残差连接

尽管多头自注意力机制通过计算所有输入向量之间的注意力分数得到了每个向量的注意力表示, 但过程中使用的均为线性变换操作, 而为了引入非线性因素, 前馈层被添加到网络中。前馈层首先通过一个线性层对token进行维度变换, 再经过一个GeLU激活函数, 最后通过另一个线性层将token映射回初始的维度。通过前馈层, 特征的表达能力得到了增强, 能够更好地表示每个token与其他所有token之间的作用关系。

层归一化在多头自注意力机制层和前馈层之前进行, 对每一层单个样本的所有神经元节点进行归一化, 从而保证数据特征分布的稳定性, 加速模型的收敛速度。在Transformer编码器中每个子模块中存在两个残差连接, 分别是经过层归一化、多头自注意力机制之后的叠加, 以及经过层归一化、前馈层之后的叠加。

整个Transformer编码器的过程可以通过如下公式(4)和式(5)表示:

2.4 多阶特征交互层

上文提到, 在所有生成的token之前设置了一个可学习的类别token, 它可以代表当前子模块中所有token的信息, ViT模型[12]将最后一个子模块的类别token送入分类器得到最终的分类结果。然而研究[18]表明, Transformer编码器随着子模块的堆叠, 每层学习到的信息也是不同的, 而多层信息的交互与融合更有利于最后的分类任务。基于此, 引入多阶特征交互层, 将所有子模块的类别token取出并输入到一个新的Transformer编码器子模块中, 使最后的输出融合多个子模块的信息。

具体来说, 如图6所示, 多阶特征交互层以Transformer编码器中所有子模块的类别token作为输入, 由多头自注意力机制、前馈层、层归一化以及残差连接构成。不同于之前的子模块需要计算任意两个token之间的注意力分数, 多阶特征交互层只计算最后一个子模块的类别token与其余类别token的关系, 从而将之前子模块的学习到的信息融入最后一层, 这样不仅实现了模型前后阶信息的融合, 计算复杂度也由(O(2))降低到了(O()), 提高了模型的效率。

图6 多阶特征交互层

2.5 光谱-空间联合分类

经过多阶特征交互层之后, 得到了最终的光谱特征与空间特征, 两路特征通过自适应相加的方式[21]进行融合。首先, 多层感知机头, 包括一个层归一化和一个线性层, 分别将光谱特征和空间特征的维度映射为待分类类别的数目; 其次, 设置一个0~1之间可学习的参数γ, 初始化为0.5, γ在训练的过程中不断优化直到达到最优的光谱-空间融合比例, 特征融合过程可通过下式(6)表示:

其中spe和spa分别代表光谱特征和空间特征。最后, 对融合的特征应用Softmax函数计算得到当前像素隶属于每个类别的最终概率。

3 结果与分析

3.1 实验设计与评价指标

模型采用交叉熵损失函数, 采用Adam优化器对模型进行梯度下降的训练优化, 学习率设置为0.000 5。训练的epoch设置为100, batch size为64。对于模型中一些具体的参数, 光谱向量的空间尺寸设置为7×7, 每3个波段生成一个维度为256的token, 步长为2, Transformer编码器共包含8个子模块, 多头自注意力机制中head数目为32; 空间邻域的尺寸设置为27×27, PCA之后保留的光谱波段数目为3, 每3×3的图像块生成一个token, 步长为(3, 3), Transformer编码器中token的维度为64, 共含有8个子模块, 多头自注意力机制中head数目为8。所有实验均在显存为24GB的 NVIDIA GeForce GTX 3090 GPU上进行。

选用高光谱图像分类任务中权威的4个评价指标衡量算法的有效性: 类别精度、总体精度OA(Overall Accuracy)、平均精度AA(Average Accuracy)、Kappa系数。类别精度为在某个类别中正确分类的样本数与该类样本数的比值, 总体精度OA为所有正确分类的样本数与总样本数目的比值, 平均精度AA为每个类别精度的平均值, Kappa是根据混淆矩阵计算出的一个位于–1~1之间的得分, 用于衡量分类结果与地面真值之间的一致性程度。四个评价指标均为值越大, 算法效果越好。

3.2 对比实验结果与分析

为了证明提出的光谱-空间联合Transformer模型在黄河三角洲湿地高光谱图像分类的有效性, 选择几种先进的高光谱图像分类方法在GF-5和CHRIS数据集进行对比, 包括: 经典的机器学习分类器SVM[22]; 基于卷积神经网络的方法: 一维卷积神经网络(1DCNN)[23], 二维卷积神经网络(2DCNN)[24], 三维卷积神经网络(3DCNN)[25]; 光谱-空间联合网络(SSUN)[26]; 基于Transformer模型的方法: ViT[12], SpectralFormer[15]。现有的基于深度学习的黄河三角洲湿地高光谱影像分类方法通常筛选出影像的部分像素作为感兴趣区域, 进而选择10%样本进行训练, 其余样本进行测试[27-28]; 而本文则是对影像的所有像素进行分类, 样本数较多, 因此在两个数据集上均随机选择3%的样本进行训练, 其余样本进行测试, 为了实验的公平性, 不同方法的训练集和测试集均相同。在GF-5和CHRIS数据集上的分类精度如表1和表2所示。

通过表1和表2不难看出, 与其他方法相比, 光谱-空间联合Transformer模型(SSUT)在两个数据集的OA、AA和Kappa系数均达到了最高值, 证明了提出方法的有效性和泛化性。以GF-5数据集的OA为例, SSUT的精度达到了90.90%, 比SSUN(89.11%)提高了1.79%, 比ViT(89.45%)提高了1.45%, 比3DCNN (84.85%)提高了6.05%, 比SVM(80.41%)提高了10.47%。不仅如此, SSUT在柽柳、盐地碱蓬、盐碱滩、裸潮滩等多个类别上均取得了最佳的分类结果, 证明了提出的模型能够提取湿地的每种地物类型最有鉴别性的特征。

除此之外, 还可以得出以下结论: SVM尽管取得了良好的分类效果, 但仍低于2DCNN、3DCNN、SSUN等方法, 这在一定程度上证明了基于深度学习的方法在黄河三角洲湿地高光谱影像分类中的实用性; 3DCNN的分类结果优于1DCNN和2DCNN, 表明图像的光谱和空间特征联合提取有助于分类精度的提高; 另外, 可以观察到在两个数据集上ViT的精度均优于2DCNN, 而SpectralFormer的精度优于1DCNN, 这是由于Transformer不像CNN受限于局部感受野, 能够捕捉到长距离依赖, 从而提取全局空间或光谱信息, 提高分类精度; SSUN分别使用LSTM[29]和CNN来提取图像的光谱和空间特征并将它们联合分类, 然而LSTM受限于不能并行训练, 而在SSUT中, Transformer则能够训练多层叠加的模型, 增强了模型的表达能力, 因此在总体精度OA (90.90%与89.11%)、平均精度AA(88.35%与85.18%)以及Kappa系数(88.03%与85.64%)3个评价指标上均有提高。

表1 GF-5数据的分类结果

注: 表中黑体数字代表所有方法比较中类别精度、OA、AA和Kappa精度的最高值, 表2同

表2 CHRIS数据的分类结果

在分类结果图方面, 所有方法在GF-5以及CHRIS数据集上的结果如图7和图8所示。很明显地, SSUT在两个数据集上有最少的噪点和最平滑的边界, 并且每种地物类型绝大多数样本均被正确分类, 不存在某个特定类别有大量错误分类的情况, 这也从另外一个角度证明了提出的SSUT的有效性。在一些具体的类别上, 以GF-5数据集的柽柳和裸潮滩为例, 如图7h中的红框所示, 其他对比方法均有错分类成其他类别的情况, 而SSUT则几乎没有错分类的点, 体现了SSUT提取的特征更具有判别性。

3.3 消融实验结果与分析

为了探索光谱空间支路联合的作用、多阶特征交互层的作用, 本文进一步开展了相关消融实验。

图7 GF-5数据分类结果

图8 CHRIS数据分类结果

3.3.1 空间光谱支路联合消融实验及分析

为了验证光谱Transformer支路与空间Transformer支路的联合对于最终分类结果的影响, 本文分别使用单独的每一个支路对两幅影像进行分类并将结果输出, 将其与两个支路联合分类的结果进行对比, 实验结果如表3和表4所示。通过以上结果可以看出, 将光谱和空间自适应相加的联合支路与每个支路相比OA、AA和Kappa系数均更高, 因此, 光谱和空间的联系不可忽略。不仅如此, 联合分类能同时利用光谱特征和空间特征, 结合两者的优势, 达到更优的分类结果, 以GF-5数据集为例, 在8种地物类型上, 联合分类的精度均高于任一支路的精度。

3.3.2 多阶特征交互层消融实验及分析

为了证明多阶特征交互层的作用, 本文分别开展了在没有多阶特征交互层和有多阶特征交互层的情况下光谱、空间支路以及联合分类的实验, 结果如下图9和图10所示。

表3 GF-5数据空间光谱支路联合消融实验结果

表4 CHRIS数据空间光谱支路联合消融实验结果

图9 GF-5数据多阶特征交互层消融实验结果

图10 CHRIS数据多阶特征交互层消融实验结果

从图中可以得知, 除了在CHRIS数据集上引入多阶特征交互层的联合分类的AA略低以外(93.17%与93.44%), 其余所有的评价指标均有不同程度的提高。这证明多阶特征交互层能够更好地融合浅层边缘信息与深层语义信息, 从而提取更具鉴别性的光谱与空间特征, 有利于最后的分类任务。

3.3.3 head数目对实验精度的影响

为了验证不同head数目对模型分类性能的影响, 分别设置了4组光谱支路和空间支路的head数目进行了实验, 并采用分类总体精度OA作为评价指标, 实验结果如表5和表6所示, 其中head1和head2分别表示光谱和空间支路head数目。通过分析可得, 无论是在GF-5还是在CHRIS数据集上, 当光谱支路的head数目为32、空间支路的head数目为8时, 分类精度达到最高。

表5 GF-5数据不同head数目的分类精度

注: 表中黑体数字代表在当前head数目下OA取得最高值, 表6同

表6 CHRIS数据不同head数目的分类精度

4 结论与讨论

本文提出了一种基于Transformer模型的黄河三角洲湿地高光谱影像分类方法, 设计了光谱Transformer支路和空间Transformer支路, 两个支路基于自注意力机制分别捕捉光谱向量和空间邻域的长距离依赖关系, 另外还引入了多阶特征交互层实现了多层信息的融合, 最后使用自适应相加的方式融合两路特征实现分类。在GF-5以及CHRIS两个黄河三角洲湿地高光谱影像上进行了实验, 在选用3%的样本训练条件下总体精度分别达到了90.90%和94.17%, 与其他主流的高光谱影像分类方法相比有明显的提高, 与此同时消融实验的结果证明光谱空间支路的联合以及多阶特征交互层的引入均对地物分类精度提高有较好的效果。

在未来的工作中, 我们将研究在小样本条件下的黄河三角洲湿地高光谱影像分类, 并开展多源数据融合方向的研究, 结合高光谱、多光谱、激光雷达等数据的优势进一步提高对黄河三角洲湿地的分类精度。

[1] 王娜娜, 刘宏元, 李英, 等. 黄河三角洲湿地生态系统服务价值评估[J]. 山东农业科学, 2022, 54(2): 153-158.

WANG Nana, LIU Hongyuan, LI Ying, et al. Value evaluation of wetland ecosystem services in the Yellow River Delta[J]. Shandong Agricultural Sciences, 2022, 54(2): 153-158.

[2] 邵鹏帅, 韩红艳, 孙景宽. 黄河三角洲湿地退化和恢复对柽柳土壤有机碳含量及红外碳组分的影响[J]. 生态学杂志, 2022, 41(7): 1258-1265.

SHAO Pengshuai, HAN Hongyan, SUN Jingkuan. Effects of wetland degradation and restoration on soil organic carbon content and infrared carbon compounds of Tamarisk chinensis in the Yellow River Delta[J]. Chinese Journal of Ecology, 2022, 41(7): 1258-1265.

[3] 李永涛, 杜振宇, 王霞, 等. 黄河三角洲自然保护区湿地生态服务功能价值评估[J]. 海洋环境科学, 2019, 38(5): 761-768.

LI Yongtao, DU Zhenyu, WANG Xia, et al. Evaluation of wetland ecosystem services in Yellow River Delta Nature Reserve[J]. Marine Environmental Science, 2019, 38(5): 761-768.

[4] 朱书玉, 王伟华, 王玉珍, 等. 黄河三角洲自然保护区湿地恢复与生物多样性保护[J]. 北京林业大学学报, 2011, 33(S2): 1-5.

ZHU Shuyu, WANG Weihua, WANG Yuzhen, et al. Wetland restoration and biodiversity conservation in the Yellow River Delta Nature Reserve[J]. Journal of Beijing Forestry University, 2011, 33(S2): 1-5.

[5] 于淼, 栗云召, 屈凡柱, 等. 黄河三角洲滨海湿地退化过程的时空变化及预测分析[J]. 农业资源与环境学报, 2020, 37(4): 484-492.

YU Miao, LI Yunzhao, QU Fanzhu, et al. Spatio- temporal changes and trend prediction of degraded coastal wetlands in the Yellow River Delta[J]. Journal of Agricultural Resources and Environment, 2020, 37(4): 484-492.

[6] 徐振田, Ali Shahzad, 张莎, 等. 基于Landsat数据的黄河三角洲湿地提取及近30年动态研究[J]. 海洋湖沼通报, 2020, 3: 70-79.

XU Zhentian, ALI Shahzad, ZHANG Sha, et al. Mapping the wetland in Yellow River Delta and its dynamics Mapping the wetland in Yellow River Delta and its dynamics in recent 30 years based on Landsat data[J]. Transactions of Oceanology and Limnology, 2020, 3: 70-79.

[7] 吴培强, 张杰, 马毅, 等. 基于地物光谱可分性的CHRIS高光谱影像波段选择及其分类应用[J]. 海洋科学, 2015, 39(2): 20-24.

WU Peiqiang, ZHANG Jie, MA Yi, et al. A CHRIS hyperspectral band selection method based on spectral separability and classification application[J]. Marine Sciences, 2015, 39(2): 20-24.

[8] 马毅, 张杰, 任广波, 等. 基于决策级数据融合的CHRIS高光谱图像分类方法研究[J]. 海洋科学, 2015, 39(2): 8-14.

MA Yi, ZHANG Jie, REN Guangbo, et al. Research on decision-level data fusion classi­fication method for CHRIS hyperspectral imagery[J]. Marine Sciences, 2015, 39(2): 8-14.

[9] HU Y B, Zhang J, Ma Y, et al. Hyperspectral coastal wetland classification based on a multi object convolutional neural network model and decision fusion[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(7): 1110-1114.

[10] XIE Z J, Hu J W, Kang X D, et al. Multilayer global spectra-spatial attention network for wetland hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-13.

[11] LIU C, TAO R, LI W, et al. Joint classification of hyperspectral and multispectral images for mapping coastal wetlands[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 14: 982-996.

[12] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C]// International Conference on Learning Representations. Austria: OpenReview.net, 2021.

[13] HE X, CHEN Y S, LIN Z H. Spatial-spectral transformer for hyperspectral image classification[J]. Remote Sensing, 2021, 13(3): 498.

[14] QING Y H, LIU W Y, FENG L Y, et al. Improved transformer net for hyperspectral image classification[J]. Remote Sensing, 2021, 13(11): 2216.

[15] HONG D F, HAN Z, YAO J, et al. SpectralFormer: Rethinking hyperspectral image classification with transformers[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-15.

[16] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[17] WU H P, XIAO B, CODELLA N, et al. Cvt: Introducing convolutions to vision transformers[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 22-31.

[18] YUAN K, GUO S P, LIU Z W, et al. Incorporating convolution designs into visual transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 579-588.

[19] XIONG R B, YANG Y C, HE D, et al. On layer normalization in the transformer architecture[C]//: International Conference on Machine Learning. Vienna: ACM, 2020: 10524-10533.

[20] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE, 2016: 770-778.

[21] WANG D, DU B, ZHANG L, et al. Adaptive spectral–spatial multiscale contextual feature extraction for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(3): 2461-2477.

[22] MELGANI F, BRUZZONE L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8): 1778- 1790.

[23] RASTI B, HONG D F, HANG R L, et al. Feature extraction for hyperspectral imagery: The evolution from shallow to deep: Overview and toolbox[J]. IEEE Geoscience and Remote Sensing Magazine, 2020, 8(4): 60-88.

[24] CHEN Y S, JIANG H L, LI C Y, et al. Deep feature extraction and classification of hyperspectral images based on convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(10): 6232-6251.

[25] LI Y, ZHANG H K, SHEN Q. Spectral-spatial classification of hyperspectral imagery with 3D convolutional neural network[J]. Remote Sensing, 2017, 9(1): 67.

[26] XU Y H, ZHANG L P, DU B, et al. Spectral–spatial unified networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(10): 5893-5909.

[27] GAO Y H, LI W, ZHANG M M, et al. Hyperspectral and multispectral classification for coastal wetland using depthwise feature interaction network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-15.

[28] LIU C, ZHANG M M, LI W, et al. Convolutional neural network for coastal wetland classification in hyperspectral image[C]// IGARSS 2020-2020 IEEE International Geoscience and Remote Sensing Symposium. Waikoloa Village: IEEE, 2020: 5104-5107.

[29] HOCHREITER S, SCHMIDHUBER J. Long short- term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

Hyperspectral image classification of Yellow River Delta wetlands based on a spectral-spatial unified transformer model

XIN Zi-qi1, LI Zhong-wei1, WANG Lei-quan2, XU Ming-ming1, HU Ya-bin3, LIANG Jian4

(1. College of Marine and Spatial Information, China University of Petroleum (East China), Qingdao 266580, China; 2. College of Computer Science and Technology, China University of Petroleum (East China), Qingdao 266580, China; 3. First Institute of Oceanography, Ministry of Natural Resources, Qingdao 266061, China; 4. Nantong Intelligent Perception Research Institute, Nantong 226007, China)

Slightdifference is noted in the spectral curve of land cover types in the Yellow River Delta, and the spatial distribution of land cover types is scattered and fragmented. Existing classification methods are limited by the local receptive field; thus, it is difficult to capture long-distance dependence of images, resulting in unsatisfactory classification accuracy in hyperspectral images of the Yellow River Delta wetland. To address this problem, this paper proposes a spectral–spatial joint transformer model. The spectral and spatial branches took the spectral vector and the spatial neighborhood as inputs, respectively, extracting global spectral and spatial features based on the self-attention mechanism. This paper also introduces a multilevel feature interaction layer in the two branches to realize the fusion of shallow edge information and deep semantic information. Finally, the two-way features were fused by adaptive addition and sent to the classifier for final classification. The effectiveness of the method was verified on two hyperspectral images of the Yellow River Delta wetland, namely, Gaofen-5 and CHRIS. The experimental results revealed that the method significantly improved the accuracy of wetland classification. The overall accuracy reaches 90.90% and 94.17% for the two images when using 3% of the samples for training, outperforming other classification methods. The research results can realize the high-precision classification of the land cover types in the Yellow River Delta and provide technical support for wetland protection.

Yellow River Delta wetland; hyperspectral image classification; Transformer model; spectral-spatial joint

Apr. 29, 2022

TP79

A

1000-3096(2023)5-0090-12

10.11759/hykx202204290012

2022-04-29;

2022-07-09

山东省联合基金资助项目(U1906217); 国家自然科学基金资助项目(62071491)

[Shandong Provincial Joint Fund Project, No. U1906217; National Natural Science Foundation of China, No. 62071491]

辛紫麒(1998—), 男, 山东泰安人, 博士研究生, 主要从事遥感图像处理研究, E-mail: B21160015@s.upc.edu.cn; 李忠伟(1978—),通信作者, E-mail: li.zhongwei@vip.163.com

(本文编辑: 谭雪静)

猜你喜欢
黄河三角洲支路光谱
一种新的生成树组随机求取算法
基于三维Saab变换的高光谱图像压缩方法
黄河三角洲保护区自然资源的开发与保护
多支路两跳PF协作系统的误码性能
利用支路参数的状态估计法辨识拓扑错误
星载近红外高光谱CO2遥感进展
黄河三角洲滨海湿地维管植物多样性现状及保护策略
城镇化与生态环境交互协调行为研究——以黄河三角洲为例
多并联支路型可控电抗器短路电抗对支路电抗和电流的影响
苦味酸与牛血清蛋白相互作用的光谱研究