基于遥感云计算的自然资源动态监测研究*

2021-02-14 02:14刘泳伶
中国农业信息 2021年5期
关键词:决策树向量森林

郭 涛,王 思,刘泳伶,黄 平,李 疆

(四川省农业科学院遥感与数字农业研究所,成都610066)

0 引言

我国自然资源缺乏,2017年中央全面深化改革领导小组正式审议通过《领导干部自然资源资产离任审计规定(试行)》,明确提出领导干部离任将对自然资源资产进行审计。2020年国家出台了《陆地生态系统生产总值(GEP)核算技术指南》为陆地生态系统资产化管理、生态功能区划、生态补偿决策等提供工作指南。其中陆地生态系统资产化评估主要涉及农田、森林、草地等自然资源生态系统的供给、调节、支持和美学等生态价值,当前,上述自然资源数据收集手段落后、要素不全、数据断档、数更新频率不一致、无空间信息等问题,要在一系列空间尺度上实现自然资源管理的绩效评估存在长时间滞后。因此,开发一个自动化、业务化运行的自然资源动态监测系统迫在眉睫。

随着地理大数据、云计算的不断发展,基于云地理空间信息分析平台越来越成为国内外学者重要研究内容之一,谷歌地球引擎(Google Earth Engine,GEE)借助于Google强大的云计算和存储能力,可以大幅度减少数据获取和处理的工作量,已经成为海量遥感大数据科学研究的重要工具[1]。凭借云计算优势可实现对不同尺度的遥感大数据进行快速处理、挖掘和分析,提升了遥感产品的生产效率和大范围遥感影像处理提供了新的机遇[2]。

目前,应用GEE云平台,国内外学者已经开展了大量的科学研究工作,在全球森林分布和变化监测、土地覆盖/土地利用、农作物结构等方面进行了大量的研究探索,并形成了较多成果[3-5]。Xiong等[6]利用Landsat、Sentinel-2、SRTDEM等数据,基于9791个样本点,提取了非洲30 m的耕地数据,耕地总体精度达到了94%。Chen等[7]使用Landsat 7/8、Sentinel-1 A影像和DEM数据对中国红树林进行了识别,制作了红树林分布图。Dong等[8]应用GEE云平台对亚洲北部的水稻种植范围进行提取,并通过Google Earth和2万张实地拍摄照片进行精度对比验证,其精度高达90%以上。Dong等[9]采用深度学习和样本迁移技术等算法,生产了3 m分辨率地图覆盖制图产品,总体解译精度达到86%。柴旭荣等[10]基于GEE云平台利用随机森林监督学习算法对山西省1990年、2000年、2010年和2017年土地覆盖进行了快速分类,分类结果与CNLUCC、GlobalLand30和FROM-GCL等现有的产品相比,总体精度提升了5%~10%,达到了86%~94%。何昭欣等[11]基于GEE,计算了遥感指数、纹理特征和地形特征,使用了朴素贝叶斯、支持向量机、分类回归树和随机森林4种分类器,并比较了各分类器的分类精度,提取了小麦与油菜的空间分布信息。何丽[12]基于GEE对湄公河流域资源环境关键要素进行了自动提取与动态监测,并进行了时空分析研究。董欣等[13]基于GEE云平台随机森林算法对2017—2019年京津冀地区影像进行地物分类,并对其生态服务价值进行了定量估算。

文章基于GEE提供的JavaScript API,高效构建自然资源遥感云计算监测服务平台,并利用计算得出的植被指数、水体指数等指标提取、识别和记录了地物轮廓以及特征,同时运用机器学习算法对其进行训练,根据形成的样本库进而对遥感影像进行高精度解译,最终通过Earth Engine Apps发布成果。该文构建的自然资源遥感云计算监测服务平台采用系统自动化方法,可以极大提高平台的运行效率,以期为西南地区甚至全国尺度的自然资源地物类别识别、提取自然资源资产动态监测以及绩效评估等业务化工作提供了技术路线参考。

1 GEE平台介绍与数据来源

1.1 GEE介绍

GEE是构建在云计算平台基础之上的地理空间数据挖掘和计算综合性分析平台。通过结合海量地理空间信息数据,采取所写即所见的交互编程模式,帮助用户可以基于平台任意构建自己的模型算法和思想。该平台提供丰富的计算、处理和分析的API接口,技术人员可以根据实际需求快速完成对地物特征识别和变化趋势分析等模块的开发工作。该文以自然资源遥感动态变化监测作为场景,开发自然资源遥感云计算监测服务平台,可以为国内外后续相关研究思路提供参考和借鉴。

GEE作为在线遥感云计算平台,其平台架构设计主要包含4部分[14]。

(1)数据存储服务:这是GEE特色,GEE集成了PB级公共遥感影像产品,并对其进行了预处理,用户只需要在线调用已有的API接口即可快速完成地理空间数据分析且可以上传自己本地的数据和代码进行相关分析。GEE提供了数据存储服务和瓦片服务,可在线调用相关数据和GIS服务。

(2)计算服务:主要提供了实时计算服务和异步计算服务。本研究涉及的数据是四川省理县近20年的遥感影像,数据量较大,GEE可以提供强大的底层算力作为快速机器学习的基础,这也是其特色和优势。

(3)API接口:GEE分别提供了Javascript版本和Python版本的API库,这些接口库可以给用户开展数据分析工作提供强大的技术支持,进一步提高了分析和可视化地理空间大数据的便利性,即无需用户自己配备超级计算机设备,就可以完成任务。

(4)前台调用,采用GEE自带的编辑器Code Editor以及第三方的Web Apps,实现所写即所得,框架结构如图1所示。

图1 GEE遥感平台框架Fig.1 Remotesensing platform for GEE

1.2 数据来源

该文主要采用Landsat OLI,MODIS和Sentinel-2等多源遥感数据,用于自然资源指标提取,具体情况可见表1。

表1 GEE共享数据集Table1 GEE shared data setsused in thestudy

2 研究方法

2.1 植被信息提取

通过时相、位置以及去云等预处理,通过GEE计算归一化差异植被指数(NDVI)、增强型植被指数(EVI)、比值植被指数(RVI)、反射率之差计算(DVI)以及土壤调节植被指数(SAVI)[15-16],具体公式见表2所示。基于MODIS数据,分别基于250 m、500 m分辨率提取2000—2019年四川省理县周、月和年NDVI、EVI、RVI、DVI和SAVI等植被指数数据产品。

表2 植被指数表达式Table2 Vegetation index expression

2.2 水体信息和建筑信息提取

该文利用Landsat数据,采用归一化差异水体指数(NDWI)、归一化差异水体指数(MNDWI)、NDWIGao等对水体进行提取以及采用归一化建筑指数(NDBI),具体表3所示[17-19]。

表3 水体指数表达式Table3 Water body index expression

2.3 遥感影像分类算法

该文采用3种不同分类器进行分类和训练,分别是决策树、随机森林和支持向量机对自然资源地物地类进行提取。

(1)决策树。决策树方法是Breiman在1984年提出的一种决策树学习分类器[20]。基本原理主要是通过一种递归策略分割数据空间并在每个分区内拟合一个预测模型来预测连续空间变量(回归)和目标变量(分类),以达到从训练数据构建模型的预测方法[21]。这种以二叉树形式的决策模型结构简单、运行速度快,准确率高,能够有效处理大量数据和高维数据等优点。

(2)随机森林。随机森林是通过构建每颗分类树的集合,也是随机森林算法的核心关键[22]。随机选择即从原始数据中以bootstrap抽样策略选取训练样本,并生成决策树。剩下的样本作为Out-of-bag数据用于交叉验证,用于评估随机森林算法分类精度,使用Gini系数确定决策树的分裂条件,集合每颗决策树,构建成随机森林。随机森林可以处理海量的遥感图像数据,处理速度快,适用于多类别和多特征等复杂场景[11,23-24]。在算法设计过程中,重点对决策树的数量和节点生长时的特征参数的数量进行了重点研究,主要目的是提高算法的泛化能力,避免过拟合。

(3)支持向量机。支持向量机是基于统计学理论寻求高维特征空间中最优的分类超平面,对复杂数据具有卓越的处理性能[25]。其主要是寻求数据间内在关系,可以很好地处理非线性决策边界,通过选择核函数将线性学习器拓展成非线性学习器。支持向量机基本原理如下:①对于非线性可分数据,通过提升数据维度,把数据映射到高维空间,把非线性问题转换为线性可分问题;②对于样本特征空间通过核函数来实现超平面的划分,实现样本中不同类型距离最大化。支持向量机适合具有一定样本数量的数据,其泛化能力强,适用于遥感图像的分类[26-27]。

3 系统设计与实现

3.1 自然资源数据产品计算

该文构建的自然资源遥感云计算监测服务平台,主要借助GEE平台集成的海量地理空间数据、机器学习算法、可视化和分析计算能力。以四川省理县为例,利用MODIS、Landsat和Sentinel-2等近20年植被指数、水体指数、建筑指数、干旱指数和自然资源地物分类数据产品计算。

3.2 自然资源遥感地物分类

该文使用决策树、随机森林和支持向量机3类分类器,在GEE中实现四川省理县自然资源地物分类提取,验证精度采取交叉验证策略。具体流程:(1)在1 722个样本点中独立随机生成10次,确保每次生成的样本不重复,具有随机性;(2)将所有样本划分,按照7∶3比例作为训练样本和测试,并对其精度验证;(3)将3个算法分类结果与欧空局2020年10 m分辨率的全球土地覆盖产品进行对比分,该文3个算法总体验证精度在82%~87%,研究结果如图2所示,在理县受地形影像,在河谷平坦地带裸露/稀疏植被、建筑区和灌木丛错综交叉,存在错分漏分现象。

图2 不同算法的自然资源遥感影像分类结果:a.决策树,b.随机森立,c.支持向量机,d.欧空局Fig.2 Classification resultsof remotesensing imagesof natural resourcesbased on different algorithms

结合理县生态系统特点和专家经验,构建了理县生态系统价值当量,将分类体系划分为农田(耕地)、森林(植被、灌木丛)、草地、城市用地(建筑区)、水域(水体)、湿地(苔藓)、裸地裸岩(裸露/稀疏植被)和其他类型(冰雪)。并与土地利用现状调查数据生态系统类型统计面积结果比较(表4),决策树、随机森林和支持向量机与欧空局2020数据表现出较好的一致性,其中森林、草地和其他类型相对误差在1%~7%,城市用地、水域相对误差在12%~20%,农田系统在不同分类算法下呈现出一定差异;决策树、随机森林、支持向量机、欧空局2020数据与土地利用现状调查数据相比,森林分类相对误差为6.5%、6.9%、6.6%、4.9%,草地分类相对误差为29.2%、27.92%、29.1%、25.8%,整体上一致性较好。农田生态系统中决策树、欧空局数据产品相对误差为11.6%、13.7%;但城市、水域和其他类型数据精度较低,可能由于选择影像季节性差异和两套数据所采用的分类体系不一致造成的。

表4 不同分类体系下生态系统类型统计面积Table4 Statistical area of ecosystem typesunder different classification systems hm2

3.3 自然资源动态监测平台实现

基于GEE平台开发的自然资源遥感云计算监测服务平实现了“系统简介”“自然资源遥感动态变化监测计算”“夜光城市变化监测”“地表温度变化监测”“建筑信息提取”、“水体信息提取”“生态服务价值评估”“遥感地物分类”以及“2000—2019年NDVI变化趋势”等功能。主界面如图3所示,2000—2019年NDVI变化趋势图4所示。

图3 自然资源遥感云平台监测服务平台主界面Fig.3 Main interface of remotesensing cloud platform monitoring serviceplatform of natural resources

图4 2000—2019年NDVI变化趋势Fig.4 NDVIvariation tendency from 2000 to 2019

4 结论

该文基于GEE开发了一套自然资源动态变化快速评估技术,定量分析确定四川省理县自然资源变化和演变,提取了植被、草地、耕地和灌木丛等关键地物类别,为进一步开展研究区生态服务价值演变、自然资源资产管理绩效评估以及资产负债等自动化、业务化系统奠定了基础,同时对区域生态系统服务功能价值空间变异和年内时间动态变化分析,可为研究区生态环境与自然资源资产管理提供数据依据。此外,该文在GEE上最大限度地利用某一段时间内的所有Landsat和Sentinel-2影像,通过决策树、随机森林和支持向量机算法识别与提取自然资源地物类别,具有较好的分类结果,但是仍存在一些客观因素影像分类结果精度。在接下来的研究中,还可结合多源数据和多种模型(例如概率图模型、图深度学习等[28])探索更智能的提取算法以提升分类结果精度,进一步提供自然资源地物分类精度,为生态系统服务价值量核算提供参考。

猜你喜欢
决策树向量森林
向量的分解
聚焦“向量与三角”创新题
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
哈Q森林
哈Q森林
哈Q森林
基于决策树的出租车乘客出行目的识别
向量垂直在解析几何中的应用
哈Q森林