基于残差注意力机制的泥石流沟谷识别

2022-12-30 11:43刘坤香王保云徐繁树韩俊

中国地质灾害与防治学报 2022年6期

刘坤香，王保云，徐繁树，韩俊

（1. 云南师范大学信息学院，云南昆明 650500；2. 云南师范大学数学学院，云南昆明 650500；3. 云南省高校复杂系统建模及应用重点实验室，云南昆明 650500）

0 引言

泥石流灾害在我国频繁发生，尤其在高山居多的云南地区更为密集[1]。近几年，不少学者使用卷积神经网络技术去对泥石流灾害进行分析、预测和分类。例如：曹禄来等[2]将T-S 模糊模型和神经网络相结合，实现对泥石流的危险性评价；汪茜等[3]通过卷积神经网络对泥石流进行预测；吉晓玲[4]采用BP 神经网络，类比分析了泥石流灾害造成的经济损失。

在神经网络的众多研究中，图像分类的应用更为广泛，并且越来越多的学者通过对网络模型的改进获得了更好的分类效果。赵京霞等[5]基于改进的LeNet-5 网络应用于乳腺疾病的诊断。石翠萍等[6]基于改进的AlexNet 神经网络对人脸表情进行识别。伍思雨等[7]通过改进的VGGNet 模型对鲜花实现高效分类。在地质灾害预测分类方面，神经网络也具有广泛应用，已经有学者将其应用于地震[8−10]、塌方[11]、洪水[12−13]、泥石流[14−17]等地质灾害的预测和分析。杜星等[18]基于MPL神经网络对地震作用下砂土液化进行评估，其预测准确率可达96%；刘诗洋等[19]利用卷积神经网络和时间序列预测法研究了隧道掘进机掘进塌方段的可能性；于国强等[20]采用支持向量机（Support Vector Machines，SVM）和BP 神经网络模型对蒋家沟泥石流数据进行了预测，并基于实验数据建立了泥石流平均流速敏感因子预测模型。在地质灾害领域，周文辉等[21]针对地震数据重建问题，提出了基于残差网络的地震数据超分辨率方法，并取得了良好效果。

近些年来，尽管神经网络的性能有了显著提高，但依然存在一些问题。比如传统的卷积神经网络当层数少时学习图像特征不够充分，当层数多时容易导致模型过拟合和梯度消失。He等[22]在2015 年提出了残差网络模型，网络内部具有残差块较好的解决了梯度消失等问题，因此文章的基础模型采用具有18层网络结构的残差网络Resnet18。

文章使用的是泥石流灾害沟谷数据集，其中每个样本中包含了大量沟谷的轮廓、纹理、地理位置等信息，但在样本量稀少的情况，简单的神经网络难以捕捉到完整的泥石流灾害沟谷的特征。因此，文章提出了基于残差注意力机制[23−24]的泥石流灾害沟谷分类模型。注意力机制模块(Convolutional Block Attention Module,CBAM)倾向于关注图像中比较感兴趣的部分，因此基于注意力机制的网络模型会更加关注图像中的重点信息。Hu等[25]提出了通道注意力模块，重点关注特征映射不同通道之间的联系，从而提升了分类效果。Woo等[26]提出了融合不同通道和空间注意力的注意力模块，验证了通道信息和空间信息结合的有效性。文章进行反复实验，得出先空间后通道的注意力机制(Convolutional Block Attention Module,CBAM)更有利于泥石流灾害沟谷的特征提取。

1 基于残差注意力机制的泥石流灾害沟谷图像分类模型

针对云南省泥石流灾害沟谷图像分类问题，文章在残差网络Resent18 的基础上引入残差注意力模块，提出了基于残差注意力机制的卷积神经网络模型（Resnet-18_SC）。

1.1 基于注意力机制的残差网络

随着卷积神经网络技术的快速发展，其在语音识别、计算机视觉等领域表现出了优越性能。但是，随着网络模型的结构越来越庞大，网络层次越来越深，梯度消失等问题也随之出现，这在某种程度上，影响了模型的性能。残差网络模型较好的解决了上述问题，被广泛应用于计算机视觉领域。卷积神经网络参数量庞大，在样本量足够的情况下，往往能达到比较理想的性能。但文章实验所需的的泥石流灾害沟谷图像数据集较小，每类只有300 多个样本，直接使用较深的网络模型极易产生过拟合现象。因此，文章设计了残差注意力网络模型，用于改善残差网络在泥石流灾害沟谷图像数据集上的分类性能。如图1 所示，在残差网络模型Resnet18 中嵌入残差注意力模块SC，可以更加充分的获取泥石流灾害沟谷图像信息，从而提高分类准确率。

从图1 可以看出，首先，残差注意力网络（Resnet18_SC）对输入图像进行卷积处理操作，卷积核的大小为7×7，步长为2；然后，采用Batch Normalization 缓解过拟合现象；之后，采用卷积核尺寸为3×3、步长为2 的最大池化操作，再次将特征图像降维至上一层输出的1/2；接着，采用8 个残差注意力卷积组提取特征映射的高级特征，每组卷积操作的卷积核大小均为3×3，卷积核的数量分别为64，64，128，128，256，256，512，512；最后，利用全局平均池化操作降低模型的参数量，经过全连接层输出分类结果的概率。

图1 基于残差注意力机制的泥石流灾害沟谷图像分类模型Resnet18_SCFig.1 Debris flow disaster gully image classification model Resnet18_SC based on residual attention mechanism

1.2 残差注意力模块

注意力机制最开始来源于动物的视觉机制，在卷积神经网络中加入该机制，能够让网络模型着重关注重点区域，而忽略非重点区域。文章使用的残差注意力机制包含两个模块，分别是残差空间注意力模块和残差通道注意力模块，将二者结合可以同时关注特征映射的空间域和通道域信息。

（1）残差空间注意力模块

在遥感图像的分类问题中，不是所有的图像区域对任务的贡献都是等同的，只有任务相关的区域才需要分配相应的权重，空间注意力模块就是对图像中最重要的位置进行处理。如图2 所示，空间注意力模块通过特征图空间位置信息进行特征提取，计算相应位置的注意力权重，这个过程会使网络模型更加关注目标的空间位置信息，从而更容易提取到目标的特征。空间注意力模块的输入为神经网络经过卷积运算提取后的特征图。首先，基于通道层面进行全局最大池化和全局平均池化操作，得到两个二维的特征图；然后，将该特征图在通道层面上进行拼接，拼接后进行卷积操作，使其再次降维为1 个通道；最后，通过激活函数Sigmoid 生成空间注意力特征Ms。

图2 空间注意力机制模块Fig.2 Spatial attention mechanism module

（2）残差通道注意力模块

除了空间信息，特征图中还存在着丰富的通道维度信息。神经网络在卷积操作之后，会得到一系列的特征图，这些特征图又由不同的特征通道组成。但并不是所有的通道信息都有利于图像分类，有些通道包含的是背景等无用信息，这些信息会干扰网络模型的分类，同时还会增加模型的计算量。残差通道注意力模块重点关注特征矩阵中分辨性较强的特征，这些往往是比较有价值的信息。通道注意力模块利用不同通道之间的依赖性，使网络能够提升细节部分的注意力，将更高的权重分配在重点区域的特征通道上，从而有效提高泥石流灾害沟谷图像的分类效果。

通道注意力模块的输入特征图是空间注意力模块的输出Fs，经过最大池化和平均池化操作后，将结果分别送入两个共享参数多层感知机（MLP）。然后对MLP 输出的特征进行对位相乘、相加，再使用Sigmoid 函数激活，最后生成通道注意力特征图Mc，结构如图3 所示。

图3 通道注意力机制模块Fig.3 Channel attention mechanism module

（3）CBAM

CBAM 是一种结合通道注意力（CA）和空间注意力（SA）的注意力模块，结构如图4 所示，通过实验对比发现先空间后通道注意力机制的顺序在泥石流灾害沟谷分类结果上表现更好。CBAM 通过卷积层提取特征，并对提取到的特征进行计算，从而生成一个注意力权重，注意力权重可以调整每层提取特征的比重。CBAM 主要的机制就是用最后生成的输出特征图F′′替换原始输入特征图F，实现提取空间和通道两个维度的注意力权重。

图4 通道和空间注意力机制结合的CBAM 模块Fig.4 CBAM module combining channel and spatial attention mechanism

2 实验设计

2.1 数据集及预处理

文章使用的数据为云南省2005—2017 年发生泥石流灾点的沟谷和未发生泥石流灾害的沟谷图像。该数据通过ArcGIS 软件对DEM 图像和高分一号遥感数据处理得到，共获得原始数据560 张。数据处理前期共获得5 种数据：DEM 图像、高分一号4 个波段图像（红光波段、绿光波段、蓝光波段和近红外波段），经过多组实验对比发现高分一号遥感数据第四个通道下的近红外波段数据特征更丰富、分类效果最佳，因此文章采用的数据为高分一号近红外波段的图像。本实验的目的是为了通过智能化的手段高效的识别出某处泥石流发生的概率，因此文章将提取的泥石流沟谷按灾害发生次数进行分类，分为0 类，1 类，2 类，3 类。0 类代表该沟谷处未记录发生过泥石流，1 类代表该沟谷处记录发生过1 次泥石流，2 类代表该沟谷处记录发生过2 次泥石流，3 类代表该沟谷处记录发生过3 次及以上泥石流。图5 为近红外波段泥石流沟谷数据集的0，1，2，3 类数据展示。

图5 泥石流数据集展示Fig.5 Debris flow data set display

深度学习模型的训练中，需要大量数据集支持才能防止过拟合，得到泛化能力强的网络。然而在泥石流研究中，难以获取到大量复杂的、有标注的泥石流沟谷遥感图像作为训练的数据集。数据增强可以丰富样本的形态，提升神经网络模型的分类性能。因此采用数据增强的方法，对泥石流沟谷遥感图像进行水平、垂直翻转、随机角度旋转、随机颜色抖动、随机噪声以及对比度、亮度、颜色增强，解决数据量不足的问题。经过数据增强后，共得到泥石流沟谷图像1 240张，四类泥石流沟谷遥感影像的数量分别为：300、290、320、330 张，按照训练集、测试集的8∶2 的比例划分数据集。

2.2 实验平台及参数设置

文中研究的实验环境为：处理器XeonPlatinum8157，硬盘350 G，内存8 GB，GPU 为NVIDIAGeForceRTX3090，显卡内存24 GB。软件环境：Ubuntu18.04，python3.7，Py-Torch1.8.1，Cuda11.1。

在文章实验中，超参数设置如下：小批量样本大小为32；初始学习率为0.000 5，惩罚因子为0.000 1；分类函数为softmax 函数，损失函数为交叉熵函数，优化方法为随机梯度下降(SGD)算法。

2.3 评价指标

在多分类任务中，常用评价指标有准确率、召回率（灵敏度）、特异性等。为了评估泥石流沟谷4 分类任务，文章使用以上3 个评估指标对实验模型进行分析，见式（1）—（3）。准确率是对模型整体的一个评估，召回率是对正样本的评估，特异性是对负样本的评估。通过这三个评价指标对模型进行全方位的评价。

（1）准确率

（2）召回率（灵敏度）

（3）特异性

式中：N——所有样本个数；

T00、T11、T22、T33—0、1、2、3 类样本中预测正确的个数；

TP——正类预测为正类的数量；

FP——负类预测为正类的数量；

TN——负类预测为负类的数量；

FN——正类预测为负类的数量。

3 实验结果与分析

3.1 基于注意力机制的不同网络模型对比

本节将对卷积神经网络Alexnet、VGG16 和残差网络Resnet18 引入Woo等[26]提出的CBAM 先通道后空间的注意力机制模型进行实验，分析CBAM 对不同网络的影响以及对泥石流灾害沟谷数据集的可行性。

在卷积神经网络中，只需将CBAM 模块加入到卷积层的后面，若卷积网络中有连续多个相同大小的卷积层，则仅需要在第一个卷积层后面添加CBAM，因此Alexnet 和VGG16 模型分别需要在网络中添加3 个和5 个CBAM。残差网络与卷积网络在结构上存在差异性，残差网络是由多个残差块和残差连接组成，在Resnet18 中引入CBAM 时比在Alexnet 中更复杂。Resnet18 的核心结构主要由4 种不同的卷积残差模块（2 个conv2_x、2 个conv3_x、2 个conv4_x、2 个conv5_x）组成，每个模块由2 个卷积层和跨越它们的连接组成。对于resnet18，需要插入8 个CBAM 注意力模块，分别插入到每个卷积块第1 个卷积层的后面，从而实现对所有尺寸的输入特征图分配注意力权重。

对上述三个网络添加CBAM 后进行结构重组，调整网络合适的参数，最后对改进前后模型进行训练。Alexnet、VGG16、Resnet18 三个神经网络加入CBAM前后实验结果对比见表1—3。

表1 Alexnet 与Alexnet_CBAM 结果对比Table 1 Comparison of Alexnet and Alexnet CBAM results

表2 VGG16 与VGG16_CBAM 结果对比Table 2 Comparison of VGG16 and VGG16_CBAM results

表3 Resnet18 与Resnet18_CBAM 结果对比Table 3 Comparison of Resnet18 and Resnet18_CBAM results

三个表均从特异性、灵敏度、和准确率三个评价指标进行分析，除了VGG16_CBAM 模型在特异性上没有提升外，其他参数值均在加入CBAM 后表现的更好。相较于原网络，在准确率上，Alexnet_CBAM 提升了2.15%，VGG16_CBAM 提升了2.51%，Resnet18_CBAM 提升了2.8%。Resnet18 的准确率高于另外两个卷积神经网络，这是由于残差网络的特殊结构决定的，其残差结构能够防止网络过拟合和梯度消失，且在训练速度上也有很大的提升。其次，加入注意力模块之后，VGG16_CBAM的各项指标仍略高于Alexnet_CBAM，这是因为VGG16含有的卷积层数多于Alexnet，模型提取特征的能力更强。通过上述分析发现CBAM 模块加入到传统的卷积网络中具有显著效果，从另一方面也说明了CBAM 模块对于泥石流灾害数据集的信息提取是有用的。

3.2 不同注意力机制对比

在1.2 节中介绍了注意力机制模块包含了空间注意力机制和通道注意力机制，它们既可以单独使用，也可以将两者相结合组成CBAM。对此，本节为了探讨它们之间的差异性进行了4 组实验，结果如表4 所示。四组实验分别是在Resnet18 网络中引入单通道注意力机制、单空间注意力机制、先通道后空间同时引入空间和通道注意力机制、先空间后通道同时引入空间和通道注意力机制，并分别命名为Resnet18_C、Resnet18_S、Resnet18_CS、Resnet18_SC。

由表4 可以看出单独加通道或者空间注意力机制准确率的值相较于原始Resnet18 网络70.32%的准确率，只有不到1%的提升，且通道注意力在原始网络的基础上仅有0.24%的提升。当两个注意力块共同作用在Resnet18 网络上时准确率在73.12%～75.42%，且先空间后通道的注意力机制测试结果比先通道后空间的准确率高出2.3%。

表4 不同注意力机制模块结果对比Table 4 Comparison of results of different attentional mechanism modules

由于同时引入两个通道的注意力模块，先通道和先空间两种方法的实验结果差异较大，对此制作了两个模型测试结果的拟合曲线。图6 中（a）（b）分别为Resnet18_CS 和Resnet18_SC 两个网络的准确率曲线对比和损失曲线对比，从中可以发现Resnet18_SC 的准确率曲线和损失曲线都优于Resnet18_CS。从曲线波动情况看，Resnet18_SC 的两条曲线波动较小，这说明先空间后通道的注意力机制能够使模型更加稳定。通过上述分析可以得出Resnet18_SC 模型性能优于其他三种模型。

图6 Resnet18_CS 和Resnet18_SC 准确率和损失对比曲线Fig.6 Accuracy and loss curves for Resnet18_CS and Resnet18_SC

3.3 Resnet18_SC 结果可视化

在上节中的实验中得出先空间后通道的Resnet18_SC 模型结果表现最好，基于此结论本节对原始模型Resnet18 和Resnet18_SC 模型conv2_x 的第一个残差块中的特征图进行可视化，用来对比原始模型与引入先空间后通道的注意力机制对图像特征提取的差异性，结果如图7 所示。

图7 SC 注意力机制结果可视化Fig.7 Visualization of SC attentional mechanism results

图中第一排展示的五张图片，是不同地理位置的输入图片经由conv2_x 第一个残差块的第二个卷积层后的特征输出图像；第二排五张图片是第一排对应位置经由注意力机制处理后的特征输出图像。两组图分别对应图4 中第一个灰色卷积块的输出结果和经过注意力机制处理后F′′的值。第一排输出特征图中只有整体的轮廓特征，内部特征区分布不明显，整体图像较模糊；第二排引入注意力机制后的输出特征图不仅轮廓更加清晰，且内部山脊特征更加突出（图中稀疏分布的条状即沟谷的山脊特征）。由此可见引入SC 注意力机制模块后的Resnet18_SC 模型对泥石流灾害沟谷数据的特征提取更精准，能有效提高模型的识别能力。

4 结论

针对泥石流灾害沟谷数据集原始样本较少、图像特征较差的问题，文章在残差网络模型的基础上引入了注意力机制模块，较好的实现了泥石流灾害沟谷数据集的分类任务。残差网络的使用，缓解了网络模型层数较低时无法充分学习图像特征、网络层数较高时出现的梯度消失等问题；残差注意力模块的引入，很大程度提升了模型对图像重要特征信息的识别。实验结果表明，不同数据集在注意力模块的顺序和个数的使用上存在一定差异。在泥石流灾害沟谷数据集中，同时使用先空间后通道的残差注意力模块的分类结果更优于只使用单个或同时先通道后空间的残差注意模块。未来的工作中，将对未使用的4 种泥石流灾害沟谷数据（DEM 图像，高分一号前3 个通道图像）进行图像融合实验，将它们携带的特征信息充分应用到泥石流灾害沟谷分类中，进一步提高模型分类准确率。