二元Logistic回归和信息量模型在地质灾害分区中的应用

2017-04-10 05:12杨德宏吕佼佼
灾害学 2017年2期
关键词:易发信息量栅格

杜 谦,范 文,李 凯,杨德宏,吕佼佼

(长安大学地质工程与测绘学院,陕西西安 710054)

二元Logistic回归和信息量模型在地质灾害分区中的应用

杜 谦,范 文,李 凯,杨德宏,吕佼佼

(长安大学地质工程与测绘学院,陕西西安 710054)

近年来,山地地质灾害频发,不仅制约了山区的发展,更造成了重大的人员伤亡和财产损失,地质灾害易发性研究对山区防灾减灾的工作具有重要意义,也因此受到越来越多专家学者的重视。地质灾害易发性分区划结果的准确与否不仅取决于基础地质资料的可靠性,还与数据分析处理模型息息相关。该文以任河小流域内滑坡为例,以1:50000地质灾害调查作为研究区数据来源,对不同易发性分区方法进行比选,综合考虑分区方法在研究区的适用性,采取二元Logistic回归和信息量模型相结合的方法对研究区进行定量计算,最后按滑坡易发程度对研究区分为三个区,并通过对模型的ROC曲线验证,表明研究区采用二元Logistic回归模型模拟具有较高的准确性,分区结果较为理想。

地质灾害;二元 Logistic回归;信息量模型;ROC检验;易发性分区

地质灾害易发性分区为地质灾害防治的重要内容之一,地质灾害具有很强的隐蔽性,通过地质灾害易发性分区可以很好的预测地质灾害发生的范围,为地质灾害危险性评价和地质灾害风险评估提供支撑。

对于地质灾害易发性分区的研究最早可追溯到1960年代,美国学者利用滑坡敏感性预测方法对加利福尼亚进行了区划;1970年代,法国专家提出ZERMOS法,即滑坡地质灾害分区系统,将灾害主控因子设置为两个及两个以上;1997年美国Nilsen等[1]便将GIS技术用于San Mateo地区地质灾害处理上。易发性分区的研究在我国起步较晚,从1980年代中后期才出现学者对此进行探索,我国对地质灾害易发性分区探索主要经历了三个阶段:雏形-完善-成熟。谭万沛等[2]1989年选取多个因子,对全国暴雨泥石流进行小比例尺的预报分区,绘制分区图并对各区进行了简述,此次易发性分区确定了进行易发分区的方向,可以视为我们现在易发性分区的雏形。张骏等[3]1992年使用多级模糊综合评价方法,以区域地震地质条件为大背景,通过对地壳、断层和地震活动分析,得到地震灾害易发性分区,通过系统方法的加入使易发性评价从定性开始向半定量过渡,也表明我国易发性分区已经开始完善起来。冯玉勇等[4]1995年将Mario Mejia-Navarro基于GIS平台进行分区的方法引进我国,从此GIS成为我国地质灾害易发性分区不可缺少工具,后经过我国学者不断研究,基于GIS的地质灾害易发性分区方法日益成熟,划分结果也与实际情况越来越吻合,目前主要有层次分析法[5]、模糊综合评判法[6]、确定性系数法[7]、信息量法[8]等。

以上分区方法归纳起来可将其分为定性方法和定量方法[9]。定性方法是以专家的野外先验知识为基础,判断区域利于发生地质灾害的因子,对因子进行权重的分配,最终将各个因子叠加,得到区域易发性分区,如:层次分析法、模糊综合评判法等。定量方法是采用一定数学模型,对地质灾害数据和评价因子进行关联分析,最终将各个因子进行叠加,得到易发性分区,如:确定性系数法、信息量法等。

通过研究不难发现,每种方法都有其优缺点。定性方法优点是不需要太多基础数据即可分区,它更依赖专家对对区域的认知。其缺点一是在对权重的选取上主观性太重,每个人的评判标准不同,即使通过多个专家打分也无法消除该影响;缺点二是没有对灾害区划的结果进行有效检验,只是将方法套用在不同地区,该方法结果是否符合当地状况,也无法做到很好的校验。定量方法优点采用数学模型建立致灾因子和地质灾害之间的关系,可以保证在分区结果的客观性,其缺点一是模型中只能得到单个因子和灾害之间数学关系,最后叠加因子图层时对不同因子进行等同叠加,没有考虑各权重信息;缺点二是该方法需要大量而准确的数据对数学模型的构建进行支撑,当数据较少时,分区结果不准。

为了使分区结果更可靠,很多学者采取一定的手段改进已有的分区方法,来弥补方法中的缺点。张卫中[10]、范林峰[11]等,采用定性方法和定量方法相互叠加进行分区,在利用定性方法中权重选取时又采用定量方法的数学模型对各因子进行提取,这种方法解决了单因子等同叠加问题,但是仍未解决求取权重中的主观性问题。许冲[12]、刘明学等[13],通过数理统计方法得到每个因子权重,再将该权重和数学模型进行结合得到易发性分区,采用数理统计和数学模型结合方法有效的解决了影响因子权重问题,得到的权重更可靠,但其需要大量准确而完善的数据作为支撑,因此在使用时有很大的局限性。

总之,地质灾害易发性分区方法本身没有好坏之分,在不同的研究区域,不同的可获得数据条件下,选择恰当的方法才能得到满意的效果。本文通过1:50 000地质灾害详查的方法获得了研究区灾害点详实数据,因研究区数据完备,资料齐全,因此采用定性方法——二元Logistic回归分析和信息量模型对研究区进行易发性分区。

1 研究方法

1.1 单因子信息量模型

信息量法在本质上是一种数据驱动的定量统计方法[14]。该方法最先应用于矿产资源预测领域[15],后被用于斜坡稳定性预测[16],2001年信息量法被用于地质灾害危险性分区中[17],后经过十余年的完善,目前信息量法已经是一种比较成熟的方法。其主要思路为:根据已经发生的灾害数据,对每个致灾因子进行分级,将地质灾害的实测数据转化为反应该区域灾害因等级的信息量值,通过信息量的大小来评判各因子与研究对象的密切程度[18]。

最后利用公式(2)得到将第i个致灾因子的单因子信息量Xi。

(2)

1.2 二元Logistic回归分析

二元Logistic中的“二元”指因变量为二分变量,Logistic指对目标概率进行Logit变换。二元Logistic回归是因变量为二分类变量的线性回归分析,要求先将目标概率进行Logit变换,这样就保证了当概率在(0,1)取值时,Logit转换值可以取任意实数,避免了线性概率模型的结构缺陷。

设Y为二分因变量,取值“1”代表灾害发生,“0”代表灾害不发生,自变量(Xi)为单因子信息量值。

记灾害发生的条件概率为p,把p的某个函数f(p)假设为变量的函数形式,进行Logit变换:

(3)

则Logistic线性回归模型为:

(4)

式中:β0,β1,…,βi为逻辑回归系数。将公式(4)中对p求解,即可得到地质灾害发生的概率:

(5)

p值代表单个栅格内地质灾害发生的概率,通过将研究区内所有栅格叠加p值划分范围,即可得到区内地质灾害易发性分区。

2 实例分析

2.1 研究区地质环境条件

研究区位于任河小流域内(图1),任河为汉江上游最大支流,发源于重庆市,在陕西省紫阳县汇入汉江,其流域内地质条件复杂多变,地质灾害频发。该区曾在2000年7月13日和2010年7月18日遭受了特大山洪引发的地质灾害,直接造成上千万的经济损失[19]。经过对研究区进行1:50 000地质灾害详查,查明区内地质灾害90%以上为滑坡,因此本实例是对研究区滑坡的易发性分区。

图1 研究区位置图

研究区地理范围在108°15′~108°30′E,32°20′~32°30′N之间,地貌可分为河谷、低山、中低山,总体地势是东北和西南高,中间低;区内地层岩性极其复杂,变质岩广布,除中-新生界地层外均其余地层经受不同程度的变质,变质岩中软弱矿物较多,多为鳞片变晶构造、千枚构造,岩体硬度小,受雨水侵蚀常形成强风化层。研究区位于南秦岭造山带南部逆冲推覆构造带内,断裂和褶皱及其发育,构造线紧密成束,呈西北-东南向展布,主要断裂为高桥断裂、高滩断裂。研究区岩土体类型主要为层状碎屑岩、软弱薄层状浅变质岩、千枚岩及板岩、碳酸盐类和松散岩类。

2.2 DEM栅格尺度选取

在分析计算研究区时应首先对区内DEM栅格尺寸进行选,栅格的大小划分将直接影响到因子提取时的精度,进而影响到分区结果,前人对DEM尺度的选取也做了颇多研究,这里套用李军等[20]的经验公式:

Gs=7.49+0.0006S-2.0×10-9S2+2.9×10-15S3。

(6)

式中:Gs为适宜栅格大小;S为原始等高线数据精度的分母。研究区图幅原始等高线精度分母为50 000,得到其Gs为32.853,因此,为方便计算研究区的栅格大小取30m。

2.3 致灾因子的选择

地质灾害的发生与其所处的地质环境息息相关,而地质环境是一个有众多因素所决定的复杂系统,在地质灾害危险性区划中,合理的把握地质环境中控制灾害发生的因素非常重要,本文从研究区滑坡发生的背景着手,将致灾因子分为基本因子和影响因子,选取坡高(X1)、坡度(X2)、坡向(X3)、工程岩组(X4)为基本因子;选取距断裂距离(X5)、距河流距离(X6)、人类工程活动(X7)为影响因子。

2.4 计算过程

利用ArcGIS对DEM和致灾因子进行分析,得到高程、坡度、坡向、岩组的分布和断层、河流、人类活动缓冲区,通过ArcGIS重分类功能,将每个致灾因子分级。分级后,分别计算分级信息量和致灾因子回归系数值:①利用GIS栅格统计功能计算分级灾害比和面积比,采用公式(1)得到分级信息量,公式(2)得到单因子信息量;②在GIS中将分级后样本点进行分级属性的添加,得到样本点的各个因子等级值,后用Spss中进行二元Logistic回归分析,得到各个因子的回归系数(β);③通过回归系数的显著性(sig.)值来检测其是否有效,若sig.>0.05,则说明回归系数存在共线性问题,在Spss进行共线性诊断,剔除sig.过大的因子,重新进行回归分析,若sig.≤0.05则该回归系数有效;④将信息量和逻辑回归系数带入公式(5)中,利用ArcGIS的栅格赋权叠加功能,得到各个栅格条件发生概率(p),根据p值大小,按照《DZ/T 0286-2015地质灾害危险性评估规范》[21]将研究区滑坡易发性分为高、中、低三个区,最后利用Spss进行ROC曲线图绘制和AUC计算,综合易发性大、中、小三个区面积比和灾点比,评价易发性分区的可靠性。具体流程见图2。

图2 计算流程图

2.5 致灾因子分级与信息量计算

研究区内最大高程为1 740 m,最小高程为300 m,其中高程大于1 300 m处没有滑坡,因此将坡高因子按照200 m为分级,坡高大于1 100分为一个等级,共分为5个等级。为了表示滑坡和坡度之间的关系,将坡度按照5°分级,坡度大于50°坡体中没有滑坡,因此将坡度大于45°为一个等级,共分为10个等级。坡向以45°为一个等级,共分为8级。工程岩组按照《GB50021-2001岩土工程勘察规范》[22]规范中岩体的饱和单轴抗压强度fr(MPa),将研究区工程岩组分为4个等级:坚硬岩fr>60,区内包含辉绿岩、角闪辉石岩;较硬岩30

在计算结果中,信息量值越大,表示越容易发生滑坡,负值则代表不易发生滑坡,值越小,发生滑坡可能性越小。本次信息量计算结果和前人研究结果相符:随着高程增高,工程岩组强度增加,距断裂、河流和人类活动距离增大,滑坡数量逐渐减少。信息量结果中滑坡最易发生在坡度为15°~30°的较陡坡和陡坡中,而坡度大于30°的陡坡和急陡坡滑坡却不易发生,经分析主要原因为在极陡坡中往往为无人区,地质灾害调查以人为本,这些无人区可能发生滑坡,但未被发现。坡向以南和偏南方向发育滑坡多,而北和偏北向滑坡发育较少,其原因为阳坡(南)比阴坡(北)接受的日晒风化作用更强烈,岩土体更破碎,更易发生滑坡。

2.6 回归系数计算

根据1:50 000地质灾害调查结果,研究区有滑坡点150个,将其作为滑坡样本点取值为“1”,在未发现滑坡地区采用ArcGIS选取随机点150个,作为非滑坡样本点取值为“0”。

提取300组样本的各个因子等级值,输入Spss中进行二元逻辑回归分析,得到逻辑回归系数(β)值和显著性(sig.)值(表2),其中河流sig.>0.05,说明该因子和其他因子有共线性关系,后用Spss进行共线性诊断(表3),诊断表中条件指数越大,则其共线性越明显,当条件指数>10时则认为可能存在多重共线性关系,其中7维度时,条件指数为12.201,变异数中“距河流距离”和“人类活动”值很大,说明这两个因子有着明显共线性关系,经分析后得出:人类活动基本沿河流进行,而偏离河流的地区人类活动很少,故将河流因子进行剔除,重新在Spss中计算,得到的结果其显著性均小于0.05(表4),故其回归系数在误差允许范围内是准确的。最终得到β1为-0.534,β2为-0.250,β3为0.238,β4为0.871,β5为0.341,β6为0,β7为-0.399,由于将河流因子剔除,故代表人类活动和河流的共同影响,而不能单纯视该因子为人类活动。

表1 单因子信息量计算结果

表2 未剔除共线性致灾因子时方程式中的变数

注:为逻辑回归系数;S.E.为标准误;Wald为卡方值;df为自由度;Sig.为显著性。

表3 致灾因子共线性诊断表

图3 栅格叠加计算图

图4 滑坡发生概率分布图

图5 滑坡易发性分区图

3 易发性分区结果与评价

3.1 分区结果

在ArcGIS栅格计算器中,根据得到的Xi和值β,利用公式(5)将栅格进行叠加计算(图3),计算每个栅格的p值,形成研究区滑坡发生概率分布图(图4)。之后在ArcGIS中采用自然断点分级法,将研究区按p值大小分为三个区,其中p<0.4为低易发区,0.4≤p<0.62为中等易发区,p≥0.62为高易发区,最终形成滑坡易发性分区图(图5)。根据分区结果对面积比和灾害比进行统计,结果见表5。

高易发区主要分布于村镇、道路、河流附近,高程为300~600 m之间的山体底部,面积仅占研究区17.13%,却发生有73.33%的滑坡。

表4 剔除共线性致灾因子后方程式中的变数

注:β为逻辑回归系数;S.E.为标准误;Wald为卡方值;df为自由度;Sig.为显著性。

中易发区位于高程为600~1 000m的山体中部和中下部,中易发区和高易发区的滑坡数量占全区总滑坡数量的91.33%,基本所有滑坡均发生在这两个区内。

低易发区则多位于高程大于900m的山体中上部的高陡地区,人烟稀少,滑坡基本不发生。

表5 各分区面积比和灾害比

3.2 分区模型验证

本文使用ROC曲线和AUC值对分区模型进行验证,ROC曲线能表示出拟合数据和实测数据之间的关系,曲线中纵轴为真正类率,即实际滑坡数量百分比累加量;横轴为假正类率,即易发性面积百分比累积量;AUC值是度量分类模型好坏的一个标准,其表示ROC曲线下的面积,其越接近1,则模型模拟值和样本值越接近。

图6 ROC曲线

在应用Spss进行二元Logistic回归分析时生成预测几率值(PRE),该值即表示通过回归方程拟合各个因子后样本点发生滑坡的概率值,将该值和滑坡二分量值在Spss下进行ROC曲线的绘制,之后求AUC值(图6),从曲线图中可以看出AUC值为0.857,非常接近1,表明模型模拟的结果具有很高的准确性,分区可靠。

4 结论与建议

本文采用定量分析方法,在排除了人为因素的干扰、保证了数据的客观性情况下,对研究区进行了易发性分区,通过ArcGIS和Spss计算,将研究区分为高易发区、中等易发区、低易发区,且最后验证了模型的准确性,保证分区结果可靠。综合本文,对文中所使用的二元Logistic和信息量模型结合方法提出以下两个建议。

(1)不同地区地质灾害发育有自己的特征,因此也是适用不同的方法,二元Logistic回归模型和信息量模型仅适用于拥有大量准确灾害数据时,如果数据较少,建议使用定性分析方法来对研究区易发分区。

(2)使用二元Logistic回归模型一定要检验回归系数的显著性,消除因子共线性对区划的影响,最后需要对模型模拟的整体吻合情况利用ROC曲线来验核,以保证模型的准确性。

[1] Nilsen, Tor H,Brabb.Earl E.Slope-stability studies in the San Francisco Bay Region,California[J].Reviews in EngineenngGeofogy,1973,1(4):431-437.

[2] 谭万沛. 中国灾害暴雨泥石流预报分区研究[J]. 水土保持通报,1989,9(2):48-53.

[3] 张骏,杜东菊,彭建兵,等. 区域地震灾害环境系统多级模糊综合评价[C]//中国地震学会第四次学术大会论文摘要集,1992:90.

[4] Mario Mejía-Navarro,冯玉勇,罗朝晖. 利用地理信息系统(GIS)进行地质灾害和风险评估——研究方法和模型在哥伦比亚麦德林地区的应用[J]. 地质科学译丛,1995,12(3):72-79.

[5] 王哲,易发成. 基于层次分析法的绵阳市地质灾害易发性评价[J]. 自然灾害学报,2009,18(1):14-23.

[6] 王哲,易发成,陈廷方. 基于模糊综合评判的绵阳市地质灾害易发性评价[J]. 科技导报,2012,30(31):53-60.

[7] 刘艳辉,刘传正,唐灿,等. 基于确定性系数模型的地质灾害多因子权重计算方法[J]. 中国地质灾害与防治学报,2015,26(1):92-97.

[8] 邓辉,何政伟,陈晔,等. 信息量模型在山地环境地质灾害危险性评价中的应用——以四川泸定县为例[J]. 自然灾害学报,2014,23(2):67-76.

[9] 谢洪斌,杨雪,谭德军,等. 模糊证据权法在地震滑坡危险度区划中的应用[J]. 中国安全科学学报,2011,21(8):164-170.

[10]张卫中,陈从新,张敬东. 改进的AHP及其在地灾易发程度分区中的实践[J]. 土木建筑与环境工程,2009,31(2):85-89.

[11]范林峰,胡瑞林,曾逢春,等. 加权信息量模型在滑坡易发性评价中的应用——以湖北省恩施市为例[J]. 工程地质学报,2012,20(4):508-513.

[12]许冲,徐锡伟. 逻辑回归模型在玉树地震滑坡危险性评价中的应用与检验[J]. 工程地质学报,2012,20(3):326-333.

[13]刘明学,陈祥,杨珊妮. 基于逻辑回归模型和确定性系数的崩滑流危险性区划[J]. 工程地质学报,2014,22(6):1250-1256.

[14]范强,巨能攀,向喜琼,等. 基于结果验证的信息量法地质灾害易发性评价——以贵州省开阳县为例[J]. 人民长江,2015,46(15):65-68.

[15]康凤群. 用信息量法寻找地下水[J]. 煤田地质与勘探,1987(4):41-44.

[16]汤连生,周萃英. 基于信息量法的斜坡破坏概率预测与制图[J]. 中山大学学报(自然科学版),1995,34(4):100-105.

[17]阮沈勇,黄润秋. 基于GIS的信息量法模型在地质灾害危险性区划中的应用[J]. 成都理工学院学报,2001,28(1):89-92.

[18]吴柏清,何政伟,刘严松. 基于GIS的信息量法在九龙县地质灾害危险性评价中的应用[J]. 测绘科学,2008,33(4):146-147,131.

[19]范文,曹琰波,石耀武,等.陕南山洪地质灾害受灾区地区紫阳县地质灾害详细调查报告[R].西安:长安大学工程设计研究院,2012.

[20]李军,周成虎. 基于栅格GIS滑坡风险评价方法中格网大小选取分析[J]. 遥感学报,2003,7(2):86-92,161.

[21]中华人民共和国国土资源部.DZ/T 0286-2015地质灾害危险性评估规范[S]. 北京:地质出版社,2015.

[22]中华人民共和国建设部,中华人民共和国国家质量监督检验检疫总局. GB50021-2001岩土工程勘察规范(2009年版)[S]. 北京:中国建筑工业出版社,2009.

Geohazard Susceptibility Assessment by Using Binary LogicalRegression and Information Value Model

DU Qian, FAN Wen, LI Kai, YANG Dehong and LV Jiaojiao

(CollegeofGeologyEngineeringandGeomatics,Chang’anUniversity,Xi’an710054,China)

Inrecentyears,thefrequencyofthegeologicalhazardinthemountainareanotonlyrestrictthedevelopmentofthemountainarea,butalsoresultinginheavycasualtiesandpropertylosses,thegeologicaldisasterpronestudyofmountainareaissignificantfordisasterpreventionandmitigation.Thereforemoreandmoreexpertsandscholarspayattentiontoit.Theaccuracyofgeohazardsusceptibilityassessmentresultnotonlydependonthereliabilityofthebasicgeologicaldata,butalsohavecloselyrelatedtothedataanalysisandprocessingmodel.ThepapertakethelandslideofRenhesmallriverbasinasanexample, 1:50000geologicaldisastersurveyofstudyareaasadatasource,comparethedifferentmethodofgeohazardsusceptibilityassessment,considertheapplicabilityofthesusceptibilityassessmentinstudyarea,combinebinarylogisticregressionandinformationquantitymodeltoquantitativecalculation.Finallyaccordingtothelandslidesusceptibility,wedividethestudyareaintothreeportions.WhileverifyingtheROCcurveofthemodelwefoundthatthebinarylogisticregressionmodelhashighaccuracy.Theresultsofpartitionsaresatisfied.

binarylogicalregression;informationvaluemodel;ROCtest;geohazardsusceptibilityassessment

10.3969/j.issn.1000-811X.2017.02.039.]

2016-09-22

2017-01-12

国家自然科学基金项目(41272282);汉江中游任河流域地质灾害调查(12120115045601)

杜谦(1989-),男,河北赵县人,硕士研究生,主要从事地质灾害防治研究工作.E-mail:243862327@qq.com

X43;P64

A

1000-811X(2017)02-0220-07

10.3969/j.issn.1000-811X.2017.02.039

杜谦,范文,李凯,等. 二元Logistic回归和信息量模型在地质灾害分区中的应用[J]. 灾害学,2017,32(2):220-226. [DU Qian,FAN Wen,LI Kai,et al.Geohazard Susceptibility Assessment by Using Binary Logical Regression and Information Value Model[J]. Journal of Catastrophology,2017,32(2):220-226.

猜你喜欢
易发信息量栅格
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
重磅!广东省发文,全面放开放宽落户限制、加大住房供应……信息量巨大!
夏季羊易发疾病及防治方法
基于邻域栅格筛选的点云边缘点提取方法*
冬季鸡肠炎易发 科学防治有方法
基于A*算法在蜂巢栅格地图中的路径规划研究
走出初中思想品德课的困扰探讨
让多媒体技术在语文课堂飞扬
不同剖面形状的栅格壁对栅格翼气动特性的影响