基于决策树的黄土高原滑坡风险分析

2021-04-09 10:21曹聪洁施冬韦原原
农业与技术 2021年6期
关键词:黄土高原结点决策树

曹聪洁施冬韦原原

(1.长江大学,湖北 武汉 430100;2.郑州师范学院,河南 郑州 450000)

引言

由于岩体的整体或局部稳定性受到破坏,再加之重力作用的影响,岩体或其它碎屑会沿着一个或多个断裂的滑动面向下滑动,这就是滑坡。当某一地区地形条件与那些发生过滑坡的地区的地形条件相当或者类似时,该地区即被认为是滑坡的易发地区。

中国是世界上滑坡灾害最为严重的国家之一,其中,黄土高原作为我国生态系统脆弱区,要着重考虑。近年来,滑坡作为几大重要的地质灾害之一,其数量也在不断以数以百计的比例逐年上升。由于人类工程活动等人为因素,以及一些非人为因素等自然条件的影响,使得滑坡灾害的发生率不断增加,造成的损害愈来愈严重,严重地影响着滑坡易发地区工农业等产业发展和生态环境的提升。

滑坡事故在危害人类的同时,也对自然界产生严重危害。不仅能够对植被和土层结构产生破坏,而且还降低了土壤水分涵养能力,严重时还会危害土层自我修复功能,造成该地形成地质灾害多发区,破坏当地生态环境,不利于可持续发展。

黄土高原滑坡灾害的发生与该地区的自然和人文条件,如地质条件、气候、人类活动等因素有着密不可分的联系,可见,通过一定手段对黄土高原滑坡易发区未来可能发生的滑坡灾害做出准确预测,对人类及时、准确、快速地做好应对措施,以减少对自然环境以及工农业和人类生命安全的威胁,具有重要意义。

徐岳仁等基于历史文献分析、遥感解译、野外验证等方法获得通渭地震滑坡数据库并进行滑坡分析[1]。余璐采用改进的增长率敏感系数法对影响黄土高原重力侵蚀的地貌等因素进行敏感性分析[2]。决策树的规则便于理解,计算量相对较小,分类速度快,相对于其它技术来说,需要的数据准备较少,可以处理不相关特征数据,所以本文主要利用分类决策树的方法以分析黄土高原区域滑坡风险发生率。

1 研究区域概况

作为中国4大高原之一,黄土高原位于中国中北部,范围大致为N33°41′~41°16′,E100°54′~114°33′,海拔约80~5000m,总占地面积约64万km2[3]。黄土高原是世界上黄土面积覆盖最大的高原,也是地球上分布最集中、面积最大的黄土区,涵盖了山西、陕西北部,以及甘肃、青海、宁夏、河南、内蒙古等7个省,46个地(盟、州、市),282个县(旗、市、区),所占面积40万km2[4]。

黄土高原地区居于内陆,远离海洋,海洋水汽难以到达,且该地区处于我国季风区和非季风区的过渡地带,该地气候为温带大陆性季风气候。冬季和春季,黄土高原受到西伯利亚高压冷气团的影响,盛行西北风,气候寒冷干燥,风沙多;夏季和秋季,黄土高原受太平洋高压和印度洋低压的控制,盛行东南、西南季风,气候炎热多雨。黄土高原平均降雨量较低,蒸发量远大于降水量,其总的趋势是从东南向西北递减。

黄土高原的地貌类型包括山、原(塬)、川3大地貌类型。山是指山地,原(塬)是指平坦的地面,川是指河谷平原。黄土高原拥有广泛的山地、高原、丘陵和复杂的地质地貌条件,因此更容易发生滑坡。

2 研究方法

2.1 决策树概述

决策树算法(Decision Tree)是数据挖掘中典型的分类算法,应用广泛。其主要是从一组无次序、无规则的事例中分析推理出分类规则,并用树状方式来表现[5]。

决策树重要概念中的熵(Entropy),用来度量随机变量的不确定性。随机变量X的不确定性随着熵的增大而增大。设,X取有限值,其概率:

P(X=xi)=pi,i=1,2……n

(1)

则,随机变量X的熵:

(2)

2.2 算法分析

在决策树的3种常见算法有ID3算法、C4.5算法以及CART,3种算法的比较如表1所示。

表1 算法比较

2.2.1 ID3算法

在决策树的各级结点上,选择信息增益最大的属性作为分类结点,根据该属性的不同取值分裂出各个子结点,随后采用递归的方法建立决策树的分支,直到样本集中只含有一种类别时停止,得到最终的决策树[5]。

2.2.2 C4.5算法

C4.5算法在ID3算法的基础上做了一些改进,该算法选择信息增益比最大的属性作为分类结点,通过递归计算,对变量进行特征选择,然后用最优特征分割数据集,这个过程持续到所有实例中的子集都落在同一个类中[5]。

2.2.3 CART

CART(Classification And Regression Tree)是一种二分分类回归树[6]。当CART作为分类树的时候,使用基尼指数最小化标准作为特征选择的标准;当CART作为回归树的时候,使用样本最小方差进行特征选择。

本文选择ID3算法,在决策树的各级结点上,选择信息增益最大的属性作为分类结点,根据该属性的不同取值分裂出各个子结点,随后采用递归的方法建立决策树的分支,直到样本集中只含有一种类别时停止,得到最终的决策树[7]。

3 数据处理及结果可视化

3.1 数据来源

本文中所用的黄土高原地区界限数据来源于全球变化科学研究数据出版系统官网,一级河流及湖泊数据来源于麻辣GIS官网,用来进行滑坡易发性评价的数据是通过全国DEM数据拼接、投影,并通过黄土高原边界矢量数据按掩膜提取得到的。

3.2 数据预处理

对中国省级行政区划数据与黄土高原地区界限数据进行叠加,保留黄土高原地区的省级行政区划,生成黄土高原区划图;用相同方法对中国主要水系.shp数据进行处理,得出黄土高原水系分布专题图;在ArcGIS中导入黄土高原数字高程图,从高程图中计算得到坡度专题图,从专题图中获取所需要的坡度数据;土壤质地数据包括粘土、沙土、淤泥遥感影像数据,将其与黄土高原矢量边界进行按掩膜提取,得出黄土高原粘土、沙土、淤泥分布图;再将其分别与滑坡点位数据进行叠置,得出各因子的滑坡点分布图。

3.3 样本表建立

将指标进行如下分类:高程取值范围={950m,1500m,2500m,5000m};坡度取值范围={2°,20°,40°,70°};距河流远近={>1km,≤1km};土壤等级={1,2,3};分类结果:滑坡风险等级={1,2,3},共有96个样本数据,建立样本数据表。

表2 样本数据表

3.4 决策树生成

样本数据总数D=96,分类数目为3,其中滑坡风险等级为1级的数目是16,2级的数目是56,3级的数目是24,整体的信息熵:

=1.3850179

通过计算信息熵、信息增益,从根节点层层向下递归,选择信息增益最大的属性作为根节点,生成的决策树如图1所示。

在上述决策树分析中可知,“距离河流远近”是影响黄土高原滑坡发生的关键因素,所占权重最大;其次是“高程”和“坡度”;“土壤质地”所占权重最小。所以,对以上各因子进行加权叠加时,应合理设置各因子的影响值。这里设置的权重值:“距离河流远近”占22%;“坡度”和“高程”分别占18%;“黏土”、“淤泥”、“沙土”分别占14%;“土壤等级”和“高程”所占权重最小。

3.5 风险分析及可视化

本文选用坡度、距河流远近、土壤质地、高程作为黄土高原滑坡易发性评价指标。通过将黄土高原滑坡点位数据与这4类指标进行叠置分析,可通过ArcGIS重分类的方法将这4类指标划分别分成3个等级,其中,一级表示滑坡发生最严重,以此类推。对沙土、黏土、淤泥分别进行重分类,对分类结果进行加权叠加,得出土壤等级。

坡度是地表面上某一点的切面和水平面所成的夹角,坡度值越大,地势越陡峭;坡度值越小,地势越平坦。对于滑坡来说,只有依附于斜坡才有可能发生滑坡,不同坡度的斜坡滑坡发生概率是不同的[8]。

黄土高原南部地区地势低,支流众多,结合滑坡数据分析,黄土高原滑坡灾害集中在南部黄河支流附近。对河流数据进行欧氏距离分析得出,在距河流1km范围之内,滑坡点分布密集,是滑坡易发区。

通过研究黄土高原土壤类型与滑坡发生率的关系得出,在黄土高原南部,黏土和淤泥分布广泛,滑坡发生率高;在黄土高原北部,沙土分布广泛,滑坡发生率低。

不同海拔高度,反映了该地区地壳隆起的速度不同,即地质构造的作用不同,这必然会对坡体稳定性产生影响[8]。黄土高原高程范围为84~5206m。

使用ArcGIS软件,将重分类的结果进行加权叠加,设置的权重值:“坡度”30%;“距河流远近”26%;“土壤等级”和“高程”分别占22%,得出滑坡风险分析如图2所示。

4 结论

该决策树和可视化分析结果表明,甘肃、宁夏、陕西、山西四省地形陡峭,黄河及其支流贯穿其中,地形复杂,峡谷交错,滑坡灾害最为严重;青海省、宁夏回族自治区北部和河南省北部滑坡发生率次之,内蒙古自治区有平坦的地形和河流较少,整体坡度小于或等于2°,是一个平坦开阔的高原,滑坡发生率最小。

由上述结果可知,沙质土在黄土高原北部广泛分布,淤泥质和粘质土在黄土高原中部和南部广泛分布,所以在防治黄土高原滑坡灾害过程中,要因地制宜,具体问题具体分析。

猜你喜欢
黄土高原结点决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
Ladyzhenskaya流体力学方程组的确定模与确定结点个数估计
基于决策树的出租车乘客出行目的识别
选举 沸腾了黄土高原(下)
选举沸腾了黄土高原(上)
洒向黄土高原的爱
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于Raspberry PI为结点的天气云测量网络实现
基于DHT全分布式P2P-SIP网络电话稳定性研究与设计