耦合递归特征消除与二维CNN的滑坡敏感性评价

2024-01-15 00:44李英冰张镇平胡露太
测绘通报 2023年12期
关键词:敏感性滑坡函数

张 沛,李英冰,张镇平,胡露太

(武汉大学测绘学院,湖北 武汉 430079)

山体滑坡是地震造成的严重次生灾害之一,地震会使原本处于极限平衡或将近极限平衡的山坡在极短时间内经历裂缝与下滑的整个过程。地震灾害具有突发性,地震滑坡具有形成时间快、规模大、破坏性极强的特点,容易造成人员伤亡和不可估计的经济损失。2008年汶川地震是有记录以来诱发地质灾害最多的地震,触发了15多万处滑坡[1-2]。

对滑坡易发地区进行滑坡敏感性分析,可以对滑坡发生概率高的地区进行针对性监测预警,为滑坡风险管理与防灾减灾提供支持。目前滑坡敏感性的评价方法有4类:确定性物理模型、启发模型、统计模型与机器学习模型[3]。物理模型需要实地勘察,耗费大量人力[4];启发模型(如层次分析法)依赖专家主观先验知识[5];统计模型挖掘滑坡与影响因子间的关联模式,常用信息量与频率比模型等[6];文献[7]对矿山附近滑坡敏感性的研究中用信息量方法顾及各种滑坡影响因子,但没有区分不同因子的贡献程度。

随着机器学习的成熟与发展,逻辑斯蒂回归LR、支持向量机SVM、随机森林等在滑坡敏感性评价上表现出优异性能[8-9]。文献[10]将随机森林与InSAR相结合,预测了滑坡敏感性。新兴的深度学习也凭借其对海量多维数据特征的挖掘能力,在多个领域发展迅猛。文献[11]将CNN、RNN应用于伊朗的滑坡敏感性分析。国内将其应用于该领域的研究起步较晚,文献[12]采用一维CNN评价了川藏铁路沿线的滑坡敏感性。但传统机器学习与一维CNN忽略了滑坡通常与周围的空间环境有紧密联系。

因此,本文提出耦合递归特征消除与二维卷积神经网络相结合的RFE-2DCNN模型,对滑坡影响因子贡献度排序筛选,用优化的二维CNN保证模型质量与精度,输入二维图像弥补了传统机器学习与一维CNN方法仅考虑当前滑坡点信息的缺陷,预测滑坡敏感性。

1 研究方法

本文提出的RFE-2DCNN滑坡敏感性评价方法的技术路线如图1所示。

图1 RFE-2DCNN方法技术路线

1.1 数据预处理

滑坡敏感性的影响因子中,岩性、土地利用、坡向属于类别变量,采用信息量法对其进行量化[13]。滑坡影响因子过多时,可能出现多重共线性,干扰建模结果,使其出现误差。因此,首先使用方差膨胀因子VIF检测滑坡影响因子之间的多重共线性。当VIF>10时,认为该因子与其他因子高度相关,予以剔除[13]。

1.2 RFE-2DCNN方法

1.2.1 递归特征消除(RFE)

递归特征消除法旨在消除冗余及不相关变量,是一种寻找最优特征子集的贪心算法。通过循环迭代,每次消除一个最不相关的特征,根据被消除的顺序对特征排序,选出最优特征子集[14]。

1.2.2 二维卷积神经网络(2DCNN)

一维CNN和机器学习方法的数据输入为单个滑坡点的影响因子特征集,输入数据大小为1×1×n,其中n为影响因子个数。滑坡的发生不仅与自身有关,还与孕灾环境相关,因此使用二维CNN且输入二维栅格图像考虑滑坡点的空间信息。将采样点作为图像中心点,裁剪出25×25个栅格单元构成二维栅格图像,叠加所有滑坡敏感性影响因子图层,形成25×25×n的多通道图像,将其作为二维CNN的输入,再将预测精确度作为目标函数且进行模型训练。

本文采用的2DCNN结构如图2所示。其中,卷积层(Conv)用于提取滑坡影响因子特征,卷积核大小为3×3,经3次卷积后分别得到深度为32、64和128的特征图。

图2 2DCNN结构

通过卷积层后使用ReLU激活函数与归一化BN层,ReLU激活函数将影响因子的特征映射至非线性维度,学习高维度特征;BN层用于加快2DCNN的训练和收敛速度,防止过拟合[15]。通过最大池化层(MaxPool)降低分辨率,获得具有空间不变性的滑坡特征,减少网络的数据量与计算复杂性[16],最后使用1×128维度的全连接层(FC)展平特征。

为了防止过拟合,在全连接层中加入L2正则化与Dropout。Dropout在训练时随机弃用一定比例的神经元,L2正则化在原始损失函数C0后添加正则化项以防止权重过大,使模型更平滑[17],最后通过Sigmoid函数对滑坡特征进行分类,输出预测的滑坡发生概率。

1.3 对比试验方法

采用机器学习方法:Logistic模型和带有线性核函数Linear、径向基核函数RBF与Sigmoid核函数的SVM模型验证结果,采用与2DCNN相同的特征因子集训练。

Logistic在滑坡敏感性分析中应用广泛,模型将滑坡影响因子线性组合后,以Sigmoid函数作为后验概率分布函数进行分类[18]。SVM核函数将影响因子特征映射到高维空间,利用高维空间中的超平面对滑坡进行分类[19]。

在带有核函数的SVM中使用粒子群算法寻找最优参数,包括SVM-Linear的惩罚参数C、SVM-RBF和SVM-Sigmoid的惩罚参数C与核函数参数γ。最后使用受试者工作特性曲线ROC及AUC衡量模型性能。

2 研究区域与试验数据

2.1 研究区概况

2017年8月8日,四川省阿坝州九寨沟县发生7.0级地震,此次地震烈度高、震源浅,震区地质环境脆弱,给九寨沟景区的生态环境带来严重破坏[20]。同时,地震触发了大量同震滑坡,造成了交通堵塞,对应急救援进度产生了严重影响。

震区主要受岷江断裂、虎牙断裂、文县-玛沁断裂影响[21],海拔为2048~4455 m,地形起伏大,位于寒冷的亚湿润和半干旱季风性气候区,年均降雨量约为550 mm[15]。本文选取阿坝州九寨沟县西南部(涵盖所有同震滑坡的范围)为研究区域,面积约为457.54 km2,如图3所示。

图3 研究区域概况

2.2 研究数据

2.2.1 滑坡清单

滑坡清单是敏感性评价的数据基础,该数据来源于国家冰川冻土沙漠科学数据中心。研究区域共有滑坡4834个,最大面积约为0.2 km2,最小面积约为7 m2,总面积约为9.6 km2。

2.2.2 影响因子

本文选取海拔高度、地形湿度指数(TWI)、坡度、坡向、平面曲率、剖面曲率、地形起伏度、植被归一化指数(NDVI)、峰值地面加速度(PGA)、距水系距离、距断层距离、距道路距离、土地利用、岩性共14个因子作为滑坡敏感性的评价因子。

DEM、坡度、坡向、TWI、曲率、地形起伏度用于反映研究区域地形状况,通常较为陡峭的区域更容易发生滑坡。岩性与距断层距离表明地质情况,与土层动力稳定性有直接关联。土地利用和NDVI表征不同土壤湿度和地表径流,间接影响滑坡发展。土地利用与距道路距离反映人类活动情况。PGA则是衡量地震对滑坡影响的重要因素[22]。

影响因子来源见表1,分布如图4所示,根据DEM分辨率,将所有影响因子的分辨率统一至30 m,组成14个栅格图层输入模型,分析九寨沟地区滑坡敏感性。

表1 数据来源

图4 滑坡敏感性影响因子

3 滑坡敏感性建模结果

3.1 多重共线性分析

通过方差膨胀因子VIF检测滑坡影响因子间的相关性。当VIF>10时,被认为与其他因子高度相关,检测结果见表2,坡度与地形起伏度有较高相关性。将地形起伏度因子去除后,所有因子VIF值均小于10,说明剩余因子间不存在多重共线性。

表2 影响因子多重共线性与重要性排序

3.2 RFE-2DCNN滑坡敏感性评价

利用递归特征消除法对剩余因子进行排序,每次剔除一个贡献最低的特征,组成新的滑坡特征集,重新计算特征重要性,通过10折交叉验证计算分类精度,重复此过程对所有因子进行排序,选择分类精度最高的滑坡特征集,结果见表2,剔除贡献较低的NDVI、距道路距离与距水系距离,其余10个因子被输入模型进行滑坡敏感性计算。

以1∶1比例随机选2000个滑坡点与非滑坡点作为训练集,训练时使用5折交叉验证测试模型拟合优度。按相同比例随机选400个滑坡点与非滑坡点作为测试集。裁剪周围的栅格单元组成25×25大小的栅格图像作为输入数据集。训练时使用Adam优化器,根据交叉验证中的验证集精度自适应改变学习率,加入早停法,当验证集精度下降时停止训练,保证训练时的验证集精度。

将训练好的RFE-2DCNN模型应用至整个研究区域,如图5所示,利用自然断点法将滑坡敏感性分为5类:极高敏感性[0.78,1)、高敏感性[0.53,0.78)、中等敏感性[0.29,0.53)、低敏感性[0.10,0.29)与极低敏感性[0,0.10),各部分所占比例见表3。极高敏感区在西北部的九寨天堂景区及东南部的熊猫海至箭竹海景区分布较多,这与地震滑坡发生的地区相吻合。研究区域大部分为中低风险,占比约为80.1%;极高敏感性区域仅为10.8%,范围较小。此外,86%的实测滑坡发生在高敏感性与极高敏感性地区内,证明模型得到的结果与实际情况相吻合。

表3 RFE-2DCNN法滑坡敏感性各部分比例

图5 RFE-2DCNN方法的滑坡敏感性分布

3.3 对比试验与精度评价

为了评价本文提出的RFE-2DCNN模型的有效性与正确性,将其与Logistic、SVM两种机器学习方法作对比。机器学习方法得到的预测结果如图6所示。与图5对比发现,考虑周围一定范围内信息的RFE-2DCNN得到的结果更平滑连续,仅考虑单点影响因子状况的机器学习方法得到的结果更为破碎。

图6 机器学习方法的滑坡敏感性分布

5种方法的测试集精度见表4。机器学习中SVM-RBF在测试集的准确度最高,但仍比RFE-2DCNN准确度低1%。图7 RFE-2DCNN的AUC值最大,相较于SVM-RBF模型提高了0.018。整体而言,在本文对比的几个模型中,RFE-2DCNN模型的泛化能力与预测精度是最好的。

表4 试验准确度与AUC

图7 ROC曲线

4 结 语

本文方法改进了传统机器学习与一维CNN仅考虑滑坡点信息的不足,增加了滑坡点周围空间信息在模型中的作用。首先在14个滑坡影响因子中,根据多重共线性检测与递归特征消除法保留具有最大贡献的10个影响因子,随后将其输入带有L2正则化、Dropout与早停优化方法的二维CNN进行九寨沟地区的滑坡敏感性评价,最终将滑坡发生概率划分为极高、高、中、低与极低5类。

结果表明:研究区大部分是中低风险,高风险区域与极高风险区域范围较小;86%的实测滑坡发生在高敏感性与极高敏感性区域内,证明了模型的正确性与有效性。经过与Logistic模型、带有Linear、RBF和Sigmoid核函数的SVM模型对比发现,本文方法有最高的准确度90.5%和AUC(0.968)。证明顾及周围环境信息可以提高模型泛化能力与预测精度。

5种方法的滑坡敏感性图表明,九寨天堂景区与九寨沟风景区附近存在敏感性较高的区域,这对九寨沟地区的旅游业有一定影响,灾害应急管理部门可以增加对高敏感性区域灾情的监测与预警,对滑坡易发区域实施治理与防范措施,降低滑坡灾害损失。

猜你喜欢
敏感性滑坡函数
二次函数
第3讲 “函数”复习精讲
滑坡推力隐式解与显式解对比分析——以河北某膨胀土滑坡为例
二次函数
函数备考精讲
钇对Mg-Zn-Y-Zr合金热裂敏感性影响
浅谈公路滑坡治理
基于Fluent的滑坡入水过程数值模拟
“监管滑坡”比“渣土山”滑坡更可怕
AH70DB钢焊接热影响区组织及其冷裂敏感性