随机森林赋权层次分析法的崩塌易发性评价

2021-09-26 02:35邓念东
科学技术与工程 2021年25期
关键词:易发赋权分析法

石 辉,邓念东*,周 阳

(1.西安科技大学地质与环境学院,西安 710054;2.陕西省地质调查院,西安 710054)

崩塌作为一种常见的地质灾害,严重威胁人民生命和财产安全,进行崩塌灾害的预测预警意义重大。崩塌易发性评价根据研究区地质环境,描述该区域崩塌发生概率的空间分布情况,其评价结果可为预防潜在的崩塌灾害提供参考[1]。

在进行地质灾害易发性评价时,中外专家提出了很多种确定权重的方法,这些方法大致分为两类:主观赋权法及客观赋权法。主观赋权法以决策者丰富的经验给出影响地质灾害影响因素的指标权重。如杨德宏等[2]采用层次分析法对旬阳县地质灾害进行易发性分区,分区结果可为旬阳县地质灾害防治提供参考。胡启芳等[3]采用模糊综合评判法对层次分析法进行改进,解决了层次分析法主观性强的弊端,提高了评价结果的准确性。客观赋权法采用一定的数学理论及方法计算出影响地质灾害的各因素的权重,其计算过程以严谨的数学推导为主,得到的结果具有客观性、合理性。如尚敏等[4]采用证据权法对影响巴东县崩塌灾害的因素进行分析,确定了影响崩塌灾害发生的主控因素,评价结果与实际情况较为吻合。吴孝情等[5]采用随机森林模型对影响东江流域滑坡灾害的因子进行客观赋权重,探索出一种新的客观赋权重的方法,为相关领域赋权重提供新思路。

近年来,许多学者尝试将不同的模型组合起来进行地质灾害易发性评价。例如,张志沛等[6]将熵指数与信息量模型结合起来,用熵指数确定的一级权重与信息量叠加,弥补了信息量模型的不足,使评价结果更加科学合理。王念秦等[7]利用博弈论法将层次分析法和熵权法结合起来,确定一组最优权重进行秦岭地区典型泥石流易发性评价,并为泥石流划定易发性等级,评价结果合理可靠。以上评价方法在不同研究区均取得了较好的评价效果。其中,层次分析法作为主观赋权法中最常用的一种方法,广泛应用于地质灾害易发性评价中[8-9];但人为赋权存在主观性,而影响不同地区地质灾害发生的因素具有复杂多样性,其往往不以人的意志而转移。随机森林模型具有依靠完善的数学理论获取各影响因素客观权重的功能,其能依靠较少的训练样本,获得较好的预测分类结果[10-11]。因此,采用随机森林模型确定的客观权重来修正层次分析法可解决层次分析法中人为赋权具有主观性的弊端。

鉴于此,现结合随机森林模型和层次分析法提出一种新的客观赋权方法RF-AHP模型;应用RF-AHP模型计算的权重构建陕西省绥德县崩塌易发性评价模型,并进一步证明新赋权方法合理可行。为陕西省绥德县崩塌灾害预测与防治工作提供科学的参考依据,也可为指标权重计算提供一种新思路。

1 研究区概况

绥德县地处陕西省北部,地理位置为:东经110°03′~110°41′,北纬37°16′~37°46′,总面积1 878 km2。根据地貌特征将研究区分为河谷阶地区、黄土梁峁区及土石峁地区三种地貌单元,地势东北高、西南低,海拔最高处为1 282 m,海拔最低处为595 m,相对高差687 m。研究区气候属温带大陆性半干旱气候,季风气候显著,年均降雨量468 mm。受季风气候的影响,降雨量时空分布不同,表现为由东南向西北递减,且多集中于7—9月。研究区水系较为发达,属黄河流域。境内主要河流有无定河、大理河、淮宁河等。区内地质构造简单,仅发育少量平缓开阔的褶皱,且地震活动较弱。受人类工程活动(道路建设、矿山开采、不合理放坡等)及自然的双重影响,地质灾害发育较为频繁,主要发育有崩塌、滑坡和泥石流3种地质灾害。其中崩塌灾害占全区地质灾害的一半以上,为主要地质灾害,因此以绥德县崩塌灾害为研究对象进行崩塌易发性评价。研究区地理位置及崩塌灾害点分布如图1所示。

2 数学方法

2.2 随机森林模型

随机森林(random forest,RF)是一种由多个决策树弱分类器构成的集成学习算法。其基本原理为:

图1 绥德县地理位置及崩塌点分布Fig.1 Location of Suide County and distribution of collapse

利用Bootstrap自助重采样技术从数据集中有放回地随机抽取k个样本,对k个样本分别建立k个决策树模型。每棵决策树根据数据集中纯度最高的特征作为划分依据,且每棵决策树单独进行工作,最终获得k种分类结果;最后,采用投票的方式将k种分类结果中最多的输出类型作为最终的分类结果[12]。

随机森林具有很多功能,如处理精度高、抗拟合能力强;对大数据集、高维度的数据有强大的泛化能力。另外,随机森林也具有获得各特征权重的功能[13]。随机森林依靠决策树的分类结果作为划分标准,而决策树在训练过程中依据不同特征进行训练,通过训练找到数据集中纯度最高的特征作为划分依据,因此在训练的过程中可通过计算不纯度的减少量获得各特征的重要性程度,即不纯度减少得越多,划分结果越好,表明特征的重要程度越高[5]。其中不纯度的减少量用基尼指数gini来计算。gini指数计算公式为

(1)

式(1)中:gini(T)为样本集T的gini指数;pi为样本T中属于第Ⅰ类的概率;k为样本分类个数。若将T划分为两类T1和T2,则划分后的基尼指数为

(2)

式(2)中:|T|为样本的总数量;|T|1和|T|2分别为划分为第1类和第2类的样本数量。

2.3 层次分析法

层次分析法(analytic hierarchy process,AHP)是一种将评价指标分成多个层次并进行赋权的方法[14]。其分析过程为:通过专家对评价指标两两进行比较,采用Saaty[15]给出的1~9标度法构造出判断矩阵,最终确定各指标的权重。判断矩阵结果需要用一致性比率(CR)来检验,当CR<0.1时,认为判断矩阵一致性较好,其公式为

(3)

(4)

式中:λmax为最大特征值;N为判断矩阵的维数;CI为判断矩阵一致性指标;RI为判断矩阵的随机一致性指标,其中RI值规定如表1所示。文中共有9类评价指标,即N为9,因此RI取值为1.45。

2.3 随机森林-层次分析法模型

层次分析法依据专家经验对各影响因子的重要性进行打分来构建判断矩阵,此过程存在一定的主观性,为解决上述问题,提出随机森林-层次分析法模型。该模型通过RF模型计算出各指标的客观权重,作为层次分析法的初始权重来修正判断矩阵,并用修正后的判断矩阵进行一致性检验,最终得到指标的综合权重。

表1 随机一致性指标Table 1 Numerical values of random consistent index

3 评价指标的选取与分析

3.1 评价单元划分及评价指标选取

在进行崩塌易发性评价之前,如何划分评价单元十分重要。单元划分常用的方法有斜坡单元、栅格单元和子流域单元[16]。其中,子流域单元主要进行泥石流易发性评价。而栅格和斜坡单元主要用于滑坡、崩塌等灾害的易发性评价。大比例尺地质图一般采用斜坡单元,中小比例尺如1∶50 000及以下地质图一般采用栅格单元[17]。绥德县崩塌易发性评价是在小比例尺(1∶100 000)地质图的基础上进行,因此选用栅格作为划分单元。

崩塌灾害的控制因素是引发崩塌的内因,主要控制崩塌发生的孕灾环境。控制因素包括地貌、地层岩性、距水系距离及地形因子。高程数据源于地理空间数据云GDEMV2 30 m分辨率的数字高程数据(digital elevation model,DEM)[图1(b)]。利用高程数据经ArcGIS软件表面分析工具可提取曲率、坡向、坡度3类地形因子[图2(a)~图2(c)]。地层岩性及地貌由绥德县地质灾害详查报告中的1∶100 000地质图经ArcGIS矢量化得到[图2(d)、图2(e)]。水系由Bigemap下载的shape矢量文件经Arcgis欧式距离建立缓冲区得到[图2(f)]。

崩塌灾害的诱发因素是引发灾害的外因。根据前人研究成果及参阅相关文献,主要考虑降雨量、归一化植被指数、距道路距离。其中降雨量数据由绥德县气象局气象站点数据获得,利用ArcGIS克里金插值法处理得到[图3(a)];归一化植被指数图(normalized vegetation index,NDVI)[图3(b)]基于30 m×30 m分辨率的Landsat 8影像数据经ArcGIS计算获得;距道路距离[图3(c)]由Bigemap下载的shape矢量文件经ArcGIS欧式距离工具建立缓冲区获得。

图2 崩塌控制因素图Fig.2 Map of collapse controlling factors

图3 崩塌诱发因素图Fig.3 Map of collapse inducing factors

3.2 评价指标多重共线性分析

不同的地质环境条件会导致影响地质灾害的因素具有复杂性和多样性,当评价指标之间具有较高的相关性时,指标间会产生一定的叠加影响,使得模型的准确率降低,因此进行多重共线性分析尤为必要。进行多重共线性分析时分别采用方差膨胀因子(variance inflation factor,VIF)和容忍度(tolerance,TOL)两种衡量标准。其中,VIF是多重共线性时回归系数估计量的方差与不存在多重共线性时方差的比值[18]。容忍度的倒数为方差膨胀因子。一般,当VIF>2或TOL<0.4时,说明因子间多重共线性较强,反之,则共线性较弱。采用SPSS软件对各评价因子进行多重共线性分析后,得到结果如表2所示。

由表2可知,高程的VIF=3.72,降雨量VIF=2.12,说明高程与降雨量之间多重共线性较强,因此首先剔除高程,将剩余的9个指标重新带入SPSS进行多重共线性分析,其结果符合低相关性的要求,接着选择除高程之外的其余9个指标进行崩塌易发性评价。

表2 评价指标的方差膨胀因子与容忍度Table 2 Variance inflation factor and tolerance of evaluation index

4 崩塌易发性评价结果

4.1 基于RF模型的易发性评价

利用Arcgis多值提取至点工具提取研究区50个崩塌点属性数据,标记为“1”,接着选取与崩塌点数量相同的非崩塌点,标记为“0”,用上述两类数据构成模型的总样本。利用MATLAB平台的RF程序包及编好的代码进行训练,得到各因子的客观权重如图4所示。

将各专题图在ArcGIS平台经加权总和工具进行叠加,得到全区的崩塌易发性图。采用自然间断点法将易发性区域划分为5个等级,分别为低易发区、较低易发区、中易发区、较高易发区、高易发区。生成的崩塌易发性区划图如图5所示。

图4 评价指标权重图Fig.4 Map of evaluation index weight

图5 基于RF模型的崩塌易发性区划图Fig.5 Map of collapse susceptibility assessment based on RF model

4.2 基于RF-AHP模型的易发性评价

基于9个崩塌评价指标,通过RF模型获得各评价指标的客观权重,作为AHP方法的初始权重进行判断矩阵构建、权重计算及一致性检验,以获得各评价指标的综合权重。判断矩阵计算结果如表3所示,9个评价因子及其类型经一致性检验后可知,CR值均小于0.1,表明各判断矩阵具有较好的一致性且均通过一致性检验。

将RF-AHP模型得到的综合权重代入ArcGIS软件处理后,得到全区的崩塌易发性区划图,采用上述相同的方式将易发性区域划分为5类,分别为低、较低、中、较高、高易发区,得到最终的崩塌易发性区划图如图6所示。

图6 基于RF-AHP模型的崩塌易发性区划图Fig.6 Map of collapse susceptibility assessment based on RF-AHP model

结合图6和表3可知,影响崩塌的主控因素分别为距水系距离、坡向、距道路距离;崩塌高及较高易发区呈线性分布在水系及道路附近且坡向为东南向、南向、西南向,岩性为软硬相间类为主的地区崩塌易发性高,这些地区是受人类工程活动影响程度大且植被覆盖率较低的区域;而坡向为北向、南北向且离水系、道路较远的区域崩塌易发性较低,这些地区是坡度较低、植被覆盖率较高且受人类工程活动影响较小的区域。

5 不同评价模型的检验

采用受试者特征曲线(receiver operate curve,ROC)对两种模型的空间预测性能进行检验。通常用曲线下的面积(area under curve,AUC)来评价模型的预测性能,即AUC值越大,其预测效果越好。将RF模型、RF-AHP模型得到的崩塌的预测概率作为ROC曲线的纵坐标,以崩塌的真实类型为ROC曲线的横坐标,绘制出两种模型的ROC曲线图如图7所示。

表3 评价指标判断矩阵、权重、CR值及λmaxTable 3 Evaluation index judgment matrix,weight,CR and maximum eigenvalue

图7 ROC曲线Fig.7 ROC curve

由图7可知,RF模型及RF-AHP模型的预测精度分别为0.933和0.978。RF-AHP模型的AUC值较高,预测精度比RF模型有所提高。

6 结论

以绥德县为例,在参照前人研究成果及进行相关性分析后,选取坡向、曲率、坡度、地貌、降雨量、距水系距离、地层岩性、距道路距离及归一化植被指数9个评价指标,结合GIS平台,采用RF模型及RF-AHP模型进行绥德县崩塌易发性评价,得出以下结论。

(1)据RF-AHP模型的评价结果可知,距水系距离、坡向、距道路距离为影响崩塌灾害的主控因素,其权重分别为0.36、0.21、0.14;且崩塌沿水系与道路呈线性分布,距离水系、道路越近,崩塌越容易发生。

(2)通过RF模型计算各指标的客观权重,作为层次分析法的初始权重,来修正判断矩阵的过程解决了层次分析法依赖主观判断的弊端,计算的准确率较单独的RF模型有所提高。由ROC曲线可知,RF模型及RF-AHP模型的AUC值分别为0.933和0.978。表明RF-AHP模型更适用于绥德县崩塌易发性评价。

猜你喜欢
易发赋权分析法
异步机传统分析法之困难及其克服
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
基于赋权增能的德育评价生态系统的构建
基于DEA分析法的全国公路运输效率分析
家庭赋权护理干预方案在肺癌放疗患者中的应用
夏季羊易发疾病及防治方法
企业数据赋权保护的反思与求解
冬季鸡肠炎易发 科学防治有方法
试论新媒体赋权