基于多分类支持向量机模型的长白山崩塌灾害危险性评价

2024-01-19 08:47程众帅张以晨张继权郎秋玲齐佳伟
关键词:危险性灾害分类

程众帅,张以晨,张继权,2,郎秋玲,齐佳伟

(1.长春工程学院 吉林应急管理学院,长春 130012; 2.东北师范大学 环境学院,长春 130024;3.长春工程学院 勘查与测绘工程学院,长春 130021)

0 引言

我国是世界上的大国之一,人口数量和经济体量较大,地形复杂多样,随着人类工程活动范围的扩大,对地质环境造成的影响和破坏也越来越大,许多自然灾害频繁发生,人民的生命财产安全受到威胁,国家的经济可持续发展受到较大的阻碍[1-3]。为了能够在早期识别、规避和管理灾害风险,减少地质灾害对人民生命财产造成的损失,提高防灾减灾能力,精确有效地进行地质灾害危险性评价是防灾减灾的关键[4-5]。因此,地质灾害危险性评价技术的研究受到了许多研究学者的关注,危险性评价是风险评价的基础,是灾害发生后针对灾害自然属性进行的相关预测,即预测地质灾害发生的时间与空间概率等[6-7]。许多学者对其进行了大量的研究,研究成果丰硕,评价方法类别较多且越来越完善,在危险性评价方面,常见的危险性评价方法有定性评价、定量评价及定性和定量评价相结合的方法。刘晓[8]从地质环境、诱发因素和历史灾害点3个方面选取指标来构建指标体系,运用层次分析法计算指标权重进行空间叠加,得出辽源市危险性区划图;翟越等[9]基于灾害形成机理,从地质环境和诱发因素等方面选取指标并建立指标体系,运用基于模糊综合评价方法改进的突变模型进行崩塌危险性评价,避免了主观赋权的局限性;娄海涛等[10]从地形地貌、地层岩性和气象水文等方面选取10个评价指标构建危险性指标体系,采用信息量法对安龙县崩塌进行危险性评价及区划;张以晨等[11]在对吉林省地质灾害风险性区化研究中的危险性评价方面运用证据权重法计算危险指标权重来构建评价模型,得出危险性评价结果。随着计算机技术与数学理论的快速发展,学者们将一些机器学习和深度学习应用到了崩塌灾害的危险性评价中,如支持向量机、随机森林、决策树和神经网络模型等[12-13],王念秦等[14]通过选取指标运用不同核函数下的二元分类支持向量机对长安区灾害进行危险性评价,研究结果为其他类似地质环境条件下的研究区域提供了科学参考。

在一些文章中,二元分类评价模型常用来评价崩塌灾害的危险性,通过采样提取的非灾害点和灾害点构建样本数据库,然后用二元分类的方式进行危险性评价,但是二元分类样本类型单一、分类误差大、分类速度慢并且没有考虑到灾害点规模对危险性评价结果的影响,同时传统的危险性评价常通过选取指标、量化和分级指标、计算指标权重等步骤进行评价[15],但指标阈值的划分、指标权重的赋值会受到主观因素影响,进而会影响评价结果的合理性和准确性,而多分类支持向量机评价模型会避免这一局限性。

基于前述不足,以吉林省长白山自然保护区为例,根据开发区地质灾害调查与区划报告资料和遥感影像数据等,首先分析地质环境条件和灾害点的关系及灾害点分布特征,接着选取指标建立危险性指标体系,用灾害点和通过采样提取的非灾害点构建样本数据库,并且按照地质规模等级规范把灾害点样本分成了多类型样本,考虑到灾害点规模对危险性评价结果的影响,所以运用了基于灾害规模等级的多分类支持向量机构建危险性评价模型对研究区进行危险性评价,同时避免了传统危险性评价的指标阈值划分、指标权重计算的主观局限性。结果表明,极高和高危险性区主要集中在研究区的中东部区域,运用ROC曲线检验模型的性能,得知AUC值为0.898 37,并且验证了该模型的有效性,危险性评价结果对当地政府开发灾害监测预警技术平台及区域规划具有现实意义[16]。

1 研究区域

长白山保护开发区位于吉林省东南部山区,由吉林省长白山保护开发区管委会管辖,其地理坐标为东经127°28′~128°16′,北纬41°42′~42°25′。长白山保护开发区下辖池北区、池西区和池南区3个行政区,辖区面积3 278 km2,总人口为6.5万人。总体地势以火山锥为中心,向四周急剧降低,锥体顶部中心为天池火山湖。长白山地貌成因类型为侵蚀火山地形、构造剥蚀地形二类,海拔最低点为792 m,海拔最高点为2 691 m,相对高差1 899 m,区内形成崩塌的岩体主要包括5种岩(土)体类型:玄武岩、粗面岩、熔结凝灰岩、角砾凝灰岩和松散岩类土体,其中以玄武岩类最多。并且其地质构造较为复杂,有多条断裂带,长白山地区属中纬度大陆性季风气候湿润区,年平均降水量为1 407.6 mm,每年的降雨量主要集中在6—8月份,长白山是松花江、图们江和鸭绿江3江发源地,并且有多条支流,全区河流年平均流量240亿m3。随着旅游区经济发展和人类工程活动规模扩大,长白山地质灾害隐患点逐渐增多,其中北坡瀑布景区崩塌、泥石流地质灾害最为发育,并且区域内有崩塌灾害点71个,研究区地理位置如图1所示。

图1 研究区地理位置图

2 数据来源和预处理

崩塌危险性评价反映了地质灾害的自然属性,自然属性反映了灾害的规模、强度、发育特征及诱发因素等,也就是致灾因子的危险性[17]。因此,研究数据是由自然属性数据组成,首先对指标数据按照投影、裁剪、重采样及重分类等空间分析步骤进行量化,为了便于统计和分析,结合研究区的地质环境特征,选取30 m×30 m的网格单元为危险性评价单元,研究区的历史灾害点数据来源于1∶50 000的长白山保护开发区地质灾害调查与区划报告,数据来源见表1。

表1 数据来源

3 危险性评价指标体系的构建及技术路线

3.1 构建评价指标体系

目前常用的指标选取方法有专家调研法、理论分析法和频度统计法等[18]。选取评价指标要科学合理,符合实际情况,应充分了解研究区的致灾因子和孕灾环境,两者决定了致灾可能性的大小。危险性评价指标是根据野外调查成果和对孕灾环境的分析,从地形、地质、生态、气象水文和人类工程活动等方面选取高程、坡度、坡向、岩性、归一化植被指数(NDVI)、年平均降雨量、与河流的距离、与断层的距离和与道路的距离共计9个指标来构建危险性评价指标体系。

3.2 危险性评价指标

3.2.1 高程

地形是引起崩塌灾害的基本因素,高度超过30 m并且具有一定坡度的坡体,随着高度的增加,坡体受重力作用容易产生拉裂变形,有利于崩塌发育,长白山自然保护区地貌形态较为简单,成因类型主要为侵蚀火山地形,成因形态由火山锥体、熔岩台原和熔原台地3种类型组成,各自分布在海拔2 000m以上、海拔1 000~2 000m、海拔700~1 000m。从地质灾害调查资料分析长白山崩塌灾害点主要分布在地势险峻的北坡火山锥体及熔岩台原,高程范围在1 000~2 000 m或>2 000 m处,说明崩塌灾害与高程具有相关性。高程指标是通过ArcGIS软件对栅格数据进行空间分析所提取的指标图层,并按照间隔为300 m的相等间隔法依次划分为600~900 m、900~1 200 m、1 200~1 500 m、1 500~1 800 m和>1 800 m 5个等级,如图2(a)所示。

(a)高程

(b)坡度

(c)坡向

(d)NDVI

(e)岩性

(f)对断层的距离

(g)年平均降雨量

(h)对道路的距离

3.2.2 坡度

一般斜坡的坡度>45°时就有利于崩塌灾害发育,陡坡易崩塌,缓坡易滑坡,坡度也是引起崩塌的基本因素。长白山崩塌一般发生在坡度陡、高差大和碎裂结构面暴露的陡崖陡坡地段,其中坡度在70°~90°的崩塌灾害发育最多。研究中运用ArcGIS中的表面分析工具从高程栅格数据中提取坡度图层,并且按照相等间隔法依次划分为 <15°、15°~30°、30°~45°、45°~60°和>60° 5个等级,如图2(b)所示。

3.2.3 坡向

坡向是指坡面的朝向方位,反映的是地形与太阳辐射的关系,地理学上通常分为阳坡面和阴坡面,坡向不同,则坡面中含水量不同,温度也存在一定的差异。由于接受太阳照射强度、时间不同,阳坡面相比于阴坡面含水量小、岩土风化程度高、植被覆盖率小,进而造成山坡的强度和稳定性变差,增加了崩塌发生的概率。坡向指标按照相等间隔法划分为9个分级区间,分别为平面(F)、北(N)、东北(EN)、东(E)、东南(SE)、南(S)、西南(SW)、西(W)和西北(NW),如图2(c)所示。

3.2.4 归一化植被指数(NDVI)

归一化植被指数(NDVI)用来表示植被覆盖度,当值接近0时表示没有植被,值越接近1表示植被的覆盖度越大,长白山地质灾害与植被关系密切,是形成崩塌灾害的重要因素之一,北坡峡谷地区崩塌体全部为裸岩地貌,植被具有防治水土流失的作用,水土流失对坡体的稳定性带来影响,导致岩体中节理裂隙面发育加快,并且促进崩塌灾害发育。研究中通过ArcGIS软件中的影像分析工具处理遥感数据输出了栅格指标图层,该指标按照相等间隔法划分了5个等级,分别为 <0.2、0.2~0.4、0.4~0.6、0.6~0.8和>0.8,如图2(d)所示。

3.2.5 岩性

岩性对崩塌灾害有明显的控制作用,崩塌与岩体类型和结构有着明显的关系,硬岩易崩塌,软岩易滑坡,坚硬脆性的岩石组成的高陡边坡有利于崩塌的发育。研究区内形成崩塌的岩体类型主要有5种:玄武岩、粗面岩、熔结凝灰岩、角砾凝灰岩和松散岩类土体,其中发生崩塌的岩体类型主要为玄武岩,岩体结构类型以块裂为主。通过ArcGIS中的地理处理工具提取出岩性指标图层,并且岩性指标按照岩石坚硬程度分类标准划为3个等级,依次分为软岩、较坚硬岩和坚硬岩,如图2(e)所示。

3.2.6 与断层的距离

地质构造也是引起崩塌灾害的原因之一,岩体中存在的各种不连续面是产生崩塌的基本因素,例如节理裂隙面、断层面、覆盖面、不均匀整合面。研究区有多条断裂带并且大部分崩塌灾害点主要位于断裂带附近,尤其是北坡景区瀑布两侧有25处崩塌点位于断裂带附近。崩塌与地质构造的关系还反映在岩体控制结构面和发育程度方面,区内崩塌岩体控制结构面为节理裂隙面和风化裂隙面,其中节理裂隙的发育程度较大。通过ArcGIS软件对研究区内的断层建立缓冲区,并且运用相等间隔法划分5个分级区间,分别为<500 m、500~1 000 m、1 000~1 500 m、1 500~2 000 m和>2 000 m,如图2(f)所示。

3.2.7 年平均降雨量

降雨是诱发崩塌的必要条件,长时间的强降雨将会极大增加地质灾害发生的概率。降水的渗透作用是产生地质灾害的最主要外因,其作用是下渗的雨水将裂隙形成饱水,使土石抗剪强度降低;渗透水进入地下水,使地下水水压增加,对岩土体产生浮托作用,土体软化饱和,也造成抗剪强度的降低,促使岩土体失稳下滑形成失稳崩塌。研究区多年平均降雨量>1 000 mm,而且每年降雨集中在6—8月份,从地质灾害调查与区划报告资料中获得崩塌灾害点与年平均降雨量相关统计图并分析得出年平均降雨量值越大,崩塌灾害点越多。年平均降雨量指标按照相等间隔法分为<800 mm、800~1 000 mm、1 000~1 200 mm、1 200~1 400 mm和>1 400 mm5个等级,如图2(g)所示。

3.2.8 与道路的距离

从人为因素方面选取与道路的距离指标,人类工程活动规模加大也会诱发地质灾害的发生,人工削坡、道路过往车辆和爆破施工都会对坡体的稳定性产生影响,研究区内依山修路、开挖边坡使斜坡下部失去支撑,形成人工陡边坡,造成岩土体失稳和崩塌,道路过往车辆引起的振动是诱发崩塌的基本因素,危岩体与道路距离越近,对孕灾体的影响就越大,反之则越小,并且调查区内崩塌灾害点大多分布于公路沿线坡脚。通过ArcGIS软件对道路数据进行距离分析,然后运用相等间隔法划分为<500 m、500~1 000 m、1 000~1 500 m、1 500~2 000 m和>2 000 m 5个分级区间,如图2(h)所示。

3.2.9 与河流的距离

与河流的距离是评价崩塌灾害危险性的重要指标之一,它指的是崩塌灾害点到河流的水平距离,距离越近,崩塌发生的可能性就越大,因为河流对崩塌体具有冲击和侵蚀的作用,河流的流动会侵蚀河岸,导致河岸的土石结构松动,促进了崩塌灾害发育且容易造成坡体失稳,并且在重力的作用下突然脱离母体发生滚动的现象,研究区有多条河流,河流沿岸的坡体受到侵蚀,并且大部分崩塌灾害点分布在河流附近,全区河流年平均流量240亿m3。使用ArcGIS软件中的缓冲分析工具对河流数据进行距离分析,并且运用相等间隔法划分为<500 m、500~1 000 m、1 000~1 500 m、1 500~2 000 m和>2 000 m 5个分级区间,如图2(i)所示。

3.3 技术路线

图3 技术路线图

4 评价模型介绍

4.1 多分类支持向量机方法

SVM是一种机器学习算法,常用来进行分类预测。SVM是基于结构化风险最小化原理,由Vapnik领导的贝尔实验室研究组于1963年提出的,包括线性和非线性两种类型[19]。其基本思想是在样本或特征空间中寻找最优超平面,使不同类别的样本数据分开并使空间间隔达到最大化,它能够解决非线性高维多个类别的分类问题[20]。多分类是包含N个样本构建的数据集,X={(x1,y1),(x2,y2),…,(xN,yN)},样本类标签yn=(1,2,…,M),M为样本数据的类别,n=1,2,…,N。它是把N个样本从低维空间转换到高维空间,样本在高维空间中成为特征向量,根据决策函数f(x)将不同类别的数据分开,使各种类别的样本之间空间间隔最大化,最终将N个样本分成M类输出[21]。样本空间中超平面表达式为WTX+b=0,W为法向量,b为原点到超平面的距离,对于非线性多分类样本问题,将样本进行高维特征空间转换,样本X成为特征向量φ(x),并且在高维空间中寻找线性超平面对多类样本数据进行分类,其所对应的超平面Z为

f(x)=wTφ(x)+b。

(1)

目标函数为

(2)

s.t.yi(wTφ(x)+b)≥1,i=1,2,3,…,n。

(3)

运用拉格朗日乘子αi,在约束∑iɑiyi=0与0≤αi≤C的条件下,获得公式:

(4)

(5)

式中j=1,2,3,…,m,并且i≠j,为了提高分类准确率,引入核函数K(xi,yj),使样本从低维空间转换到高维空间,非线性多类问题转换为线性可分,样本X在高维空间转换为φ(x),则获得式(6):

K(xi,yi)=φ(xi)Tφ(yi)。

(6)

将式(6)函数公式代入到式(4)中,计算得到SVM模型的决策函数:

(7)

SVM的分类精度取决于核函数的选择和相关参数的设置,可以根据样本的特征和实际情况来选择合适的核函数[22-23]。目前常用的核函数有线性核函数(LN)、多项式核函数(PL)、径向基函数(RBF)和sigmoid核函数(SIG),径向基核函数常用于非线性高维多分类问题,该函数可以将多类样本从低维空间映射到高维空间中,并在高维空间中执行分类任务[24-26]。

4.2 评价模型构建

本研究通过地质环境条件与崩塌灾害的关系,从地形地貌、地层岩性、地质构造气象水文和人为因素等方面选取高程、坡度、坡向、NDVI、岩性、与断层的距离、年平均降雨量、与河流距离及与道路的距离指标建立危险性评价指标体系,研究区域内崩塌灾害点有71个,通过采样选取同灾害点数量相同的非灾害点构建样本数据库,按照地质规模等级规范把灾害点样本分成了多类型样本,运用了基于MATLAB软件的多分类支持向量机构建危险性评价模型并且进行危险性评价,考虑了灾害点规模对危险性评价结果的影响,通过设置径向基核函数和相关参数将多类样本从低维空间映射到高维空间中进行分类,提高分类精度,最后建立渔网把研究区所有的指标属性数据输入到模型中进行预测,得到危险性评价结果。评价模型的具体运算步骤:

1)根据研究区地质环境条件和崩塌灾害的关系,以及基于崩塌灾害形成机理选取9个危险性指标建立崩塌灾害危险性评价指标体系。

2)通过GIS软件设非灾害点之间的距离1 000 m为约束条件,随机采取71个非灾害点与71个灾害点构建样本数据集。

3)根据地质灾害规模等级分类标准规范,对样本点进行分类,分为非灾害点、小型灾害点、中型灾害点和大型灾害点,样本标签类别为4种,数量依次为71、43、25和3,运用上采样方法增加大型样本的数量,从4种样本类别中按照近似6∶4∶3∶2的比例分别提取60、40、25和17个样本来构建用于模型训练和测试的样本数据库,并且按照训练集70%,测试集30%进行划分。

4)选取径向基核函数提高分类速度和准确率,通过交叉验证法,获得最优参数,C=10.5,g=0.5,并且通过对模型的测试输出了崩塌危险性预测模型。

5)把研究区的所有指标数据输入到崩塌灾害危险预测模型中输出概率值,然后导入研究区渔网点文件,运用GIS中的转换工具转为栅格图层,最后运用自然断点法分类,得出危险性评价图。

5 危险性评价与区划

危险性评价是在灾害发生后针对灾害的自然属性进行相关预测的,即预测地质灾害发生的时间与空间概率等[27]。本研究运用基于灾害规模等级的多分类支持向量机构建危险性评价模型,对长白山自然保护区进行危险性评价。危险性评价模型输出的预测结果是离散化数值,每个数值代表着一种危险程度,最终获取地质灾害危险性评价结果。ROC曲线往往用来评估模型的性能和预测准确率,AUC值为0.898 37,表明模型的性能较好。运用自然断点法将地质灾害危险性评价结果划分为极低、低、中、高和极高5个等级。高和极高危险性区主要分布在研究区中东部,通过野外实践调查得知危险性评价结果与实际情况吻合,这些高和极高风险区域内地质环境条件复杂,崩塌灾害发生的概率较大,具体评价结果如图4~5所示。

图4 危险性评价图

图5 ROC曲线

6 结论

以长白山自然保护区为研究区进行危险性评价,首先分析地质环境特征和地质灾害的分布特点,选取危险性指标,接着运用基于灾害规模等级的多分类支持向量机构建评价模型并进行危险性评价,运用自然断点法将崩塌灾害危险性评价结果划分为极低、低、中、高和极高5个等级,高和极高危险性区主要分布在研究区中东部,并且通过ROC曲线检验多分类SVM模型的性能,AUC为0.898 37,表明模型的性能较好。研究结果可以为研究区域工程建设、城市规划和防灾减灾工作提供科学参考。

猜你喜欢
危险性灾害分类
河南郑州“7·20”特大暴雨灾害的警示及应对
O-3-氯-2-丙烯基羟胺热危险性及其淬灭研究
危险性感
我省汛期常见气象灾害及防御
分类算一算
输气站场危险性分析
推动灾害防治工作实现新跨越
基于AHP对电站锅炉进行危险性分析
分类讨论求坐标
数据分析中的分类讨论