基于决策树分类的水稻干旱灾损评估

2021-03-03 09:24薄乾祯陈志杰汪权方
湖北大学学报(自然科学版) 2021年2期
关键词:种植区旱情决策树

薄乾祯,陈志杰,2,汪权方,2

(1.湖北大学资源环境学院,湖北 武汉 430062;2.湖北省农业遥感应用工程技术研究中心,湖北 武汉 430062)

0 引言

湖北是水稻种植大省,也是我国重要的商品粮生产基地.针对农业干旱灾害监测,传统的监测与调查方式,存在耗时费力、效率低下等局限,而遥感监测技术具有宏观性、经济性、时效性等特征,很大程度上弥补了传统监测方法的不足[1].农业干旱遥感监测指数多种多样,不同指数对旱情描述也不一样,包括土壤水分变化类、冠层温度变化类、植被水分变化类和作物形态及绿度变化类[2].土壤水分变化类指数比较适宜于农业旱情预警及土壤干旱型农业旱情的监测,如垂直干旱指数MPDI可以较好地反映较高植被区表层土壤水分的变化[3],适宜于时序变化监测,对于不同类型的地表植被覆盖都可适用[4].冠层温度变化类指数不仅适宜于旱情预警,更适宜于旱情监测,其中温度植被干旱指数TVDI监测效果较好;其他较适宜于农业旱灾的预警以及灾后评估[2],如归一化植被指数NDVI、全球植被水分指数GVMI等.NDVI能够有效反映植被生长状况以及植被空间分布密度[5];TVDI利用植被冠层温度和植被指数的变化特征,构造出地表温度-植被指数的特征空间,耦合温度植被干旱指数,能够对不同下垫面实现长时序监测,已在农业旱情监测方面得到广泛应用[6-7].全球植被水分指数GVMI是基于遥感影像反演植被含水量的指数,因其在构建时,依据LOPEX93地面试验波谱数据,选择波长较长、不易受到大气噪声影响的NIR和SWIR波段,因此该指数具有普适性,能有效解决农作物混淆问题[8-10].

决策树作为一种基于空间挖掘的监督分类方法,是构建决策系统的强有力技术[11].当前很多学者已在遥感影像决策树分类方面做了探索性的研究,不仅用于土地利用和土地分类研究,在城市密度信息提取和林冠密度信息提取、农作物分类方面均有研究,分类精度在80%以上[12-13],然其对农作物干旱监测方面研究较少,还未充分发挥其应用价值.

鉴于此,本研究选取随县、曾都区为研究区,利用决策树分类法结合旱情监测指数对研究区水稻旱情进行提取和评估.预选NDVI、TVDI、GVMI、MPDI为旱情监测指标,通过相关性分析对4个指数进行对比,选定最佳旱情指数,以最佳指数提取各月份水稻旱情区;然后利用水稻生长周期日历结合各月份水稻旱情区数据,采用决策树方法计算得到研究区水稻旱情区空间分布,以混淆矩阵对旱情结果进行精度评估,相关结论可对农业旱情遥感监测与评估提供重要的理论参考.

1 研究区与数据源

1.1 研究区随县和曾都区是随州市的下辖县区,两地紧紧相连,地处鄂北,素有“荆豫要冲”、“汉襄咽喉”、“鄂北重镇”之称[14],总面积6 989 km2.境内处于中纬度季风环流区域,属于亚热带季风气候,气候温和,四季分明,光照充足,无霜期较长,严寒酷暑时间较短,为其农业发展奠定了良好的基础(图1).随县和曾都区居于桐柏山与大洪山之间,地貌多样,山地、丘陵、平原多种地形兼而有之,地势由南北渐向中部倾斜,局部有岗间小平原,属封闭性流域,百川出境,无一客水过往,是湖北省出名的“鄂北旱包子”地区,历史上十年九旱[15].

图1 研究区示意图

1.2 卫星数据及预处理地表温度(LST)数据是通过美国航空航天局(National Aeronautics and space administration,NASA)官方网站的Landsat8 OLI数据计算得到,用于计算TVDI.首先,利用ENVI5.3和ArcGIS10.3软件对2019年7、8、9月Landsat8 OLI数据进行辐射定标、大气校正、波段组合、镶嵌、裁剪等操作和去噪处理;其次,基于Landsat8 OLI数据计算NDVI,并用滤波方法对受云影响而造成的缺失值进行插补[16],获得研究区的NDVI数据;最后,因“TIRS/Landsat8 OLI”有第10、11两个热红外波段,能像MODIS一样采用辐射传输模型反演LST.因此利用NDVI、DEM和LST的局域回归关系模型,对空间上缺失的LST值进行插补[17],得到LST的重建数据.DEM数据,是从地理空间数据云(http://www.gscloud.cn)下载得到的数字高程模型数据(ASTER GDEM 30 M),主要用于对研究区LST缺失区域进行重建.

Sentinel-2A数据,由欧洲航天局(https://earthexplorer.usgs.gov)官网获得,下载2019年7到9月份Sentinel-2A数据影像进行预处理,利用ArcGIS10.3软件进行波段合成,镶嵌、裁剪,得到研究区2019年7、8、9三个月份的遥感影像,用于计算干旱指数NDVI、GVMI、MPDI.5、6月份影像由于云层覆盖过多,未获取到合适数据.

表1 指数计算方法

1.3 辅助数据水稻种植区数据,是由湖北省农业遥感应用中心武汉分中心遥感监测提供的基础数据,监测精度在95.0%以上,使用水稻种植区范围分别对各干旱指数结果进行掩膜计算;样本数据是在研究区内进行实地调查所采集的不同干旱程度水稻分布点集数据,采用高精度GPS记录经纬度信息.采样区域包括平原和丘陵岗地,根据调查路线,均匀采样,并采访当地居民确认样点相关信息,得到最终有效样本点数据90个,其中正常生长区样本30个,受灾区45个,未种植区15个(图2),将该数据按照2∶1比例分为训练样本和验证样本.

图2 研究区样点分布

2 研究方法

2.1 指标-样本相关性分析根据实地调查情况,将所采集的样本分为正常区、受灾区、未种植区3类,分别对水稻样本正常区、受灾区、未种植区赋值为3、2、1,作为其属性值.然后采用该样本集数据和指数值进行相关分析,计算样本属性值和指数值之间的相关系数,两者相关系数越大,说明该指数和干旱受灾结果的一致性越好,即越能反映实际受灾的情况,反之则越差,不能真实反映受灾情况.根据相关性分析结果,选取最优指数并结合样本点提取的该指数阈值范围提取各月份水稻旱情区.

2.2 决策树分类方法决策树(decision tree,DT)是一种基于预测变量对数据分类的算法[11].DT基于构建树形结构分类获取目标变量,具有类似于流程图的结构,每个节点表示某个对象属性的调试,每个分支代表某个可能的属性值,最后每个叶节点代表一种分类结果(本文中叶节点代表的是研究区水稻旱情区的分布).另外决策树可以选择一个目标和一个或多个变量作为输入变量,仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出.本文中利用实地采集的训练样本,通过指数-样本类别属性值的相关性分析选取最优分类指数,得到7、8、9三个月份的指数阈值范围,从而提取单月份水稻旱情区分布,根据三个月份水稻旱情区结果构建决策树,按照决策树分类规则进行不同旱情程度水稻区提取,得到研究区内最终的水稻旱情空间分布.

2.3 精度评价遥感影像分类后需要进行分类结果的精度评价,评估分类方法所得分类结果的一致性.混淆矩阵是用来总结整理分类结果的矩阵,在图像精度评价中,通过分类结果和实际结果类别的比较计算,以总体精度、制图精度、用户精度等作为评价指标从不同侧面反映图像的分类精度.

3 结果与分析

3.1 监测指标选取通过采用NDVI、TVDI、GVMI、MPDI等各月份指数和样本类型属性值进行Pearson相关性分析,根据计算结果选用最优指数作为监测指标,结果如表2.四种指数整体相关性从大到小排序为GVMI>NDVI>MPDI>TVDI,其中,NDVI、GVMI、MPDI和样本之间均存在很强的正相关性,可用于研究区水稻干旱区划分提取;TVDI、MPDI两种指数8月份相关系数最大,7月份次之,9月份最小.TVDI和样本各月份呈现负相关,且相关性相对较低,难以有效区分不同干旱水稻区,不适用本研究中的受灾监测与评估.NDVI、GVMI和样本的相关系数在7月份达到最高值,两者相关性最好.8月份次之,9月份最小,相比7月份均偏低.7月份GVMI和样本之间的相关系数达到0.949,相关性极高,而且三个月份的相关系数均比NDVI和MPDI大,因此,最终选取GVMI指数作为研究区水稻旱灾监测与评估分析指标.

表2 基于类型相关分析

黑体加粗部分数值是Pearson相关性较高数值,用于后期水稻区提取监测指标的确定

3.2 指标阈值提取基于ERDAS 2015建模提取2019年7、8、9月GVMI的光谱特征影像,空间分辨率重采样为10 m.根据样本数据,获取不同水稻区对应的GVMI阈值范围,通过ArcGIS统计分析工具计算得到各干旱区三个月份指标的值域范围(图3),计算获得研究区7、8、9各月份的旱情区分布图,分别对各月份旱情遥感分类结果中的正常区、受灾区、未种植区赋值为1、2、3,用于决策树构建.

图3 指标阈值选取(图内线表示阈值)

3.3 决策树分类规则根据实地样本点数据获取不同程度受灾区指标特征值,采用特征值提取得到研究区各水稻旱情区分布图.水稻不同生育期受旱灾影响程度不同,生殖生长期受旱情影响最大,移栽期次之[18].分蘖期,生长受旱灾抑制,部分叶片会受旱枯死,但只要干旱持续时间不太长,补给水源充足,仍能很快恢复生长,对产量影响较小;拔节孕穗期,配子体的发育,叶面积大,光合作用强,蒸发量大,是水稻一生中需水的临界期,受旱就会严重影响光合作用和对矿质养分的吸收,影响有机质的合成和转运,引起大量颖花形态败育和生理败育,形态败育,减少花数,生理败育使花粉粒发育不健全、畸形、抽穗后不能受精而使稻粒成为空粒;抽穗开花期发生干旱,会影响抽穗,造成包颈,或抽出的穗不舒展,开花不顺利,花粉生活力下降,甚至干枯死亡,或不能正常进行授粉,致使结实率降低,空壳率增加;开花到成熟期的干旱,叶片的光合作用产物和叶鞘、茎秆中的贮藏物质向穗部运输困难,有些谷粒过早地停止灌浆而成瘪粒,或叶子过早枯黄,造成粒重降低,产量下降[19-20].因此,最终水稻受灾情况的确定,不能仅凭单月份的水稻生长状况决定,需同时满足7、8、9三个月份的水稻区分类规则.结合研究区水稻生长周期日历(表3)所示,得到研究区多月份决策树分类规则(图4):三个月份均为正常区的记为正常区;另外,9月下旬时期研究区大部分地区的水稻已成熟或已收割,因此把7、8月份水稻正常区及9月水稻受灾区也记为水稻正常生长区;7、9月份正常、8月份受灾,或者8、9月份正常、7月份受灾的区域记为欠收区;三个月份均未种植水稻的记为未种植区;其他则为绝收区.

表3 研究区水稻生长周期日历

图4 多月份决策树分类规则

3.4 精度评价与分析使用30个实地样本点作为验证样本对决策树的分类结果进行验证,精度评价以混淆矩阵形式来表示,分别计算用户精度、制图精度、总体分类精度以及Kappa系数等指标,分析水稻不同旱情区遥感监测结果精度.

表4所示,以水稻正常生长区和受灾区进行划分和验证时,水稻受灾区的总体精度为93.1%,Kappa系数为0.85,精度较高,表明干旱指数提取研究区水稻受灾区效果较好.而当水稻受灾区进一步划分为绝收区、欠收区和未种植区进行验证时,识别精度会明显下降,总体精度为86.2%,Kappa系数为0.81,Kappa系数在0.81~1.0之间,3种指数结合的水稻区提取方法分类效果一致性显著.两种验证方式下,正常生长区的精度不变,均处于较高水平,主要是因为正常生长区和受灾区水稻遥感特征差异较大,容易区分,从而误差小.而受灾区中的欠收区、绝收区、未种植区影像特征相似性高,因而难以有效精确划分,从而使提取精度下降.

表4 决策树分类提取各水稻区精度

表4中,正常生长水稻区的制图精度和用户精度最高,未种植区和绝收区相对较低,其分类结果中未种植区和绝收区存在明显的混分错分现象,其原因主要是绝收区的水稻幼苗期因缺水枯萎或死亡,植被特征不明显,和未种植区一样在某种程度上和裸地光谱特征很相似,如图5,从而引起水稻未种植区和绝收区、裸地的互相混淆,使得绝收区和未种植区难以有效区分;水稻欠收区的分类精度最低,在7月份或8月份的水稻生长期间,由于干旱缺水造成水稻生长缓慢甚至暂时停止生长,使水稻显现出与部分绝收区水稻类似的光谱特征,从而造成水稻绝收区和欠收区出现一定混分现象,降低了水稻欠收区的分类精度.

图5 干旱监测结果分布及分析

3.5 水稻旱情分布及分析根据各月份旱情分布结果,采用决策树分类方法,利用ENVI5.3决策树分类工具和ArcGIS10.3空间分析工具计算提取不同干旱程度的水稻区面积和空间分布(图6).结果显示:研究区内水稻总体上呈分散分布,但主要集中成片分布在研究区中部地区.具体受灾情况如表5所示,研究区内水稻干旱灾情严重,受灾面积达到56.87%,超过研究区水稻总面积的1/2.

图6 2019年水稻灾情分布

表5 水稻旱情区面积及比例

自2019年2月起,研究区长时间降水偏少及出梅后持续晴热高温天气等原因,导致大量水库蓄水不足.同时也对水稻种植面积和长势产生了重大影响,出现大面积绝收现象.水稻受灾区在研究区内均有分布,其中面积最大的区域在中部新街、安居、厉山、万店等乡镇,尤其是新街镇北部和厉山镇西部地区,水稻大面积绝收,在苗期就因干旱大量枯死.根据实地调查、结合影像特征及水稻干旱分布结果、高程分析等,大部分受灾区因为上游水库蓄水不足,距离相对较远,或由于高程接近于附近水库或河流,甚至更高,灌溉条件相对较差,成本增加,导致水稻干旱.如上文中提到的新街镇北部和厉山镇西部受灾面积最大,该区域水稻面积集中大片分布,需水量大,上游水库小或距离远,蓄水量不足,附近黑屋湾水库蓄水量也难以满足如此大量的需求.此外,黑屋湾水库下游区域大面积水稻也需要水源,该区域高程总体低于其东北部受灾区,而且有沟渠连通,灌溉条件更好,因而优先满足该区域的水量需求.该区域水稻生长总体较好,加上高温天气,产量反而有所提高.东部厥水河不仅水量比往年少,高程也比该受灾区低30 m左右,如选此为水源,不仅距离较远,成本也会较高.

4 结论与讨论

通过对NDVI、TVDI、GVMI、MPDI等4个遥感指数和样本数据进行相关性分析,计算得到最优指数,选取最优指数提取各月份干旱灾情分布,结合决策树分类方法,提取研究区水稻干旱受灾面积及分布,并分析评估监测结果的精度,分析该指数用于灾损评估的适用性,研究表明:

NDVI、GVMI、MPDI3种指数和样本之间均存在很强正相关性,其中GVMI相关性最高,且各月份均比NDVI、MPDI高,作为本研究旱灾监测与评估指标,其次是NDVI、MPDI.以上3种指数均适用于受灾评估.TVDI和样本呈负相关,相关性较低,不适用于本研究中的干旱监测与评估.

GVMI作为旱情监测指标对于水稻正常生长区和受灾区提取效果较好,分类总体精度达到93.1%,Kappa系数为0.85,对灾害区进一步划分为欠收区、绝收区和未种植区评估时精度会下降,精度和Kappa系数分别为86.2%和0.81,但一致性效果仍然显著,决策树分类方法对水稻旱灾监测与评估效果较好.因此,GVMI可以作为水稻干旱指标,对水稻区旱情监测与评估有一定参考和应用价值.由于研究区长时间降水偏少、水库蓄水不足以及部分地区灌溉成本较高等因素,导致2019年水稻干旱灾情严重,受灾面积达43 957.49 hm2,占总面积56.87%,其中欠收区、绝收区和未种植区分别占比25.41%、26.78%和4.68%,其他为正常生长区.

采用GVMI作为旱情指标提取水稻旱情区,将受灾区按照不同干旱程度细分后,提取精度下降,水稻欠收区、绝收区和未种植区存在较严重混分现象,特别是欠收区和未种植区,难以精确分类提取的问题,还需进一步深入研究,今后可以从数据源和分类方法选取方面进行研究.如在条件允许下获取水稻生长期内更早期的遥感影像数据,或采用高光谱等其他数据源等,以便更好地区分水稻种植区和未种植区,亦或采用其他分类方法提高不同干旱程度水稻区识别精度.

猜你喜欢
种植区旱情决策树
基于Landsat-8遥感数据的冬小麦种植区地表蒸散量时空分布研究
基于波段增强的DeepLabv3+多光谱影像葡萄种植区识别
简述一种基于C4.5的随机决策树集成分类算法设计
决策树学习的剪枝方法
决策树在施工项目管理中的应用
远水