基于随机森林与多源遥感数据的青海省降水空间分布

2022-03-29 02:18侯方国王化光
关键词:栅格降水量降水

侯方国,王化光

基于随机森林与多源遥感数据的青海省降水空间分布

侯方国1,王化光2

1. 河南测绘职业学院, 河南 郑州 450015 2. 西南交通大学, 四川 成都 614200

基于青海省56个气象站点2000-2012年平均年降水资料,在地理信息技术支持下提取由地形()变量(、坡度、坡向、曲率、起伏度)、地表覆被()变量(归一化植被指数、植被初级生产力)和海陆位置()变量(经度、纬度、经纬度乘积)等10个因子构成的协变量集,运用随机森林(Randomforest,RF)算法建立区域降水量空间预测模型。结果表明,RF算法结合多元协变量集能实现区域降水量精确预测。十折交叉验证显示,不同输入变量条件下RF拟合的降水量预测模型性能排序为:++>+>>+>+>>,其中++和+模型的2达到0.893、0.892,仅为12.31、13.55 mm,比其他模型的2提高了0.028~0.102,降低了1.24~12.95 mm,能满足区域降水量空间精细估计。旨在为低密度气象站点分布区的降水量空间分布式信息获取提供新的技术参考。

随机森林; 遥感; 降水分布

精细化的降水数据是揭示水文过程、认识全球气候变化的基础资料,对促进气象灾害防御、指导水资源管理具有重要意义[1]。然而受复杂地形、交通可达性、经济成本等因素限制,气象观测站点通常呈不均匀分布且在地形复杂、人迹较少地区分布密度低下,这为获取广域尺度降水量分布式信息带来一定困难。对于该问题,当前国内外学者主要开发了基于地统计学的空间插值法(如样条函数、IDW、Kriging、Anusplin、地理加权回归模型等)和基于环境变量的回归模型。其中地统计学模型但通常只在高密度站点情况下才有效[1,2],在站点分布稀疏且极不均衡的高寒干旱区,其可靠性有待商榷。为克服该方法的局限性,学者们提出了基于星地资料的非线性建模方法,以将离散降水量分布信息扩展到一定分辨率的栅格尺度。非线性的栅格化方法核心在于构建地面观测降水资料与地表环境因子间的关系模型以推广至精细尺度[3]。随着地学大数据发展,基于机器学习回归方法被广泛应用于降水量空间预测研究中。Sekulic A等[4]利用随机森林(Randomforest, RF)获取了Catalonia地区2016-2018年日降水量分布信息,其模型2达0.55,为4.6 mm。Paraskevas T等[5]利用人工神经网络(Artificial Neural Network, ANN)结合23个气象站点资料建立Greece地区降水量栅格化模型,模型精度达65%以上。Zhang X等[6]基于纬度、高程因子建立了三峡库区月降水量空间预测模型,基于31个地面测站的验证精度为16.85 mm。这些研究表明,非线性建模技术在处理多维地表因子与降水量变异性过程中具有优秀学习能力,相对于传统插值法以及多元回归法具有潜在的优势,并且不同建模技术的栅格化精度不同。在众多非线性空间建模方法中,RF方法具有数据容错、鲁棒性和防止过拟合的特点因而具有一定优势[6,7]。虽然机器学习方法在部分地区取得良好应用效果,然而在国内的降水量栅格化研究中未见报道。

除建模方法外,协变量也是影响降水量空间栅格化精度的重要因素之一。目前被广泛应用的降尺度因子主要分为三类:地形因子、海陆位置因子、地表覆被因子。通常地形因子能在小尺度上解释降水量随地形起伏、海拔梯度分布的规律,特别是在复杂山地区、盆地河谷地区能反映地形对降水的再分配效应。海陆位置因子则在大尺度上直观反映距水汽源的距离,解释了水汽运移路径、季风强度的影响。地表覆被是影响地表蒸散发速率的关键环境因素,一定程度上反映了大气水汽与地表水之间的交互作用,常用的地表覆被因子由土地利用、植被指数等。尽管降尺度因子的物理意义已被广泛探讨,然而不同类型降尺度因子对降水数据栅格化方面的应用潜力还未得到充分认识。

鉴于上述研究背景,本文以青海省为例,探究基于地面有限站点观测资料结合RF算法建立区域降水量空间栅格化预测模型的可行性,并比较多元遥感数据提取的协变量对模型性能的影响,以期为降水观测资料充分利用和区域水资源管理提供参考依据。

1 研究区与研究方法

1.1 研究区概况

青海位于青藏高原东部(73°18′52″~104°46′59″E,26°00′12″~39°46′50″N),总面积为面积72.23万km2。受亚洲季风和西风影响,青海省旱季和雨季分异明显,约70%的降水发生在雨季(6、7、8月),其他月份降水稀少,多年平均降水量250~550 mm。月气温变化较大,平均气温在最暖月份(7月)为15 ℃,最冷的月份(1月)为-7 ℃。青海地区地表覆被由草原、森林、灌丛、荒漠、雪盖冰川组成。

图 1 研究区DEM和气象站点分布

1.2 数据来源与协变量选取

本研究数据源如表1所示。基于站点数据完整性考虑,选取青海省内56气象站的2000-2012年间多年平均降水量作为建模基础。精确的空间预测依赖于能反映区域降水空间异质性的协变量。地形和地表覆被因子能反映降水量局部地带性规律,因此本研究以数字高程模型()为基础,提取基坡度()、破向()、起伏度()、地形曲率()等地形变量。归一化植被指数()、植被初级生产力()能反映植被生长活性,用以表征区域地表覆被特征()。为反映降水量分布宏观规律,还考虑了地理位置信息()作为协变量。

表 1 数据来源

1.3 随机森林算法

随机森林(Random Forest, RF)是Breiman等[11]提出的集成多棵决策树(Decision tree)模型{(,θ)=1,2,…}而形成的融合算法。该算法借助随机子空间和自助聚集理论,运用bootstrap方法从全部特征变量属性中进行随机等概率地放回抽样,对每个bootstrap样本构建决策树,通过打分寻找得分最高结果作为分类或回归的结果[12]。该算法主要流程为:

先利用bootstrap随抽样法从原始训练集={(1,1),(2,2),…,(x,y)}中抽取个样本,记作训练集T,进行次抽样,则有个独立样本形成的训练集{T,=1,2,…,},其中1,2,…,x∈。

然后对各bootstrap训练集构建回归决策树组合模型,单树由根节点遍历向下分裂,使其自由生长而不剪枝处理,棵树集成即为随机森林。对于单棵树,从随机选择的个属性中选出最优属性进行分裂。

生成的单棵树模型即为独立领域的专家,组合棵树中得分最高的类别即为预测的结果。RF回归预测结果表示为棵回归模型的预测结果是棵决策树{(,θ,=1,2,...,)}回归的均值:

式中()为随机森林组合模型结果,p为单棵树分类模型。

1.4 数据处理与模型构建

先基于ArcGIS10.6软件将和变量数据转换为grid栅格格式,并统一其空间投影为Lambert,空间分辨率为500 m。然后利用标准化后的栅格数据生成每一像素的(经度)、(纬度)和(经纬度乘积)信息,以得到海陆位置变量()集,最终构成由、、组成的降水量预测的协变量集。最后基于研究区56个气象站点空间位置,采用ArcGIS的Extract multivalue to point工具提取各个站点对应的环境变量信息,用以RF建模。为解析宏观变量()与局部变量(和)对降水量空间预测的影响,本研究以分别以、、、+、+、+和++等7种变量组合为输入变量构建RF模型。

1.5 模型性能评估

RF是一种基于数据学习的集成方法对数据结构具有一定敏感性。为避免模型过拟合,应用十折交叉验证方法评估模型精度[13]。十折交叉验证原理是将全部样本随机划分为10个子集,以其中9个子集作为训练集,其余为验证集,以交叉验证重复10次产生的决定系数(2)、均方根误差()和林氏一致性相关系数()(式2-5)的平均值作为模型性能度量指标。

2 结果与分析

2.1 降水相关变量统计特征

协变量的空间异质性影响着上降水量预测模型性能。图2为本研究使用的协变量空间分布。表2为利用ArcGIS的Band Collection Statistics工具统计了500 m像素水平上区域协变量的统计特征。可知,除了、、等反映海陆位置信息的变量具有较小的变异系数(CV仅为3.48%、4.99%、6.09%),且呈现弱变异性外(<10%),其他协变量为中度程度变异(∈[10%,100%])。其中反映区域地表覆被的具有最高变异性,变异系数达73.68%,其他协变量的变异性分别为(19.50%) <(20.69%) <(31.39%) <(51.57%) <(63.19%) <(73.21%)。基于56个气象站点的年均降水量统计显示,研究区年均降水量空间最大最小值分别为146.2、786.8 mm,平均值为367.85 mm,变异性达45.89%。

表 2 协变量的描述性统计特征

2.2 模型参数优化

为确保模型平稳性,采用Grid搜索法对RF模型中的关键参数:Mtry和Ntree进行寻优。其中,Mtry表征树形生长所需的变量数量,影响着每棵树的强度与树之间的相关性,Ntree表征模型中回归树的数量。RF一般通过增加回归树数量和单棵树的强度来减小树之间的相关性和改善模型精度。如图3所示,7个模型的2随着Ntree增加呈现先增大再趋于平稳特征,因此选择各模型的Ntree为500。除了++模型中Mtry为4时性能达到最优,其他模型的最佳Mtry均为2,经参数优化后执行RF回归训练,以构建区域降水量空间预测模型。

图 3 RF模型精度随Ntree和Mtry变化图

2.3 模型验证与性能比较

RF是一种基于数据的学习方法,对数据结构具有一定依赖性。表4为不同输入变量条件下降水量预测模型的十折交叉验证结果。综合而言,对于7种变量组合,模型的2介于0.791-0.893,为0.817~0.986,则在12.24~25.26 mm之间,为35.02~79.05 mm,表明基于RF的降水量空间预测模型具有稳健性和可靠性。具体而言,模型精度排序为:++>+>>+>+>>。++和+模型中同时包含宏观变量()和局部环境变量(,),因而具有最高的精度。仅以作为输入变量时,模型能充分反映降水量分布与海陆位置之间的关系且无其他噪声影响,因而亦具有较高精度。相比于++和+模型,模型的2仅减小了0.02、0.019,增加了7.73、3.56 mm。在基础上加入之后,模型的2、降低了0.008、0.01,和则增加了6.69,13.27 mm,表明增加变量并不能绝对提高模型性能。这是由于加入更多变量的同时,也引入了数据噪声,特别是一些非重要变量会掩盖重要变量的贡献,进而影响模型性能。在以单一、作为输入变量情况下,模型的可解释能力(2)最弱,且其和分别达到较大值。本研究与石志华等[2]的研究相比,本文方法具有更高预测性能,表明基于RF的降水量空间预测模型具有稳健性和可靠性。

表 4 不同输入变量条件下模型精度验证

2.4 降水量空间分布

基于RF回归算法与7种输入变量得到研究区降水量500 m分辨率的栅格位图(图4a-g)。可知,不同变量集产生了相似的降水量分布格局。栅格统计显示,其空间像素范围介于103.56~772.95 mm,栅格平均值介于358.62~386.52 mm,变异系数在43.27%~53.62%之间。研究区降水量呈现自东南向西北减少的分布模式,具有明显的经向和纬向地带性。这是由于区域地理环境造成的。青海省总体地势呈现自西向东倾斜,西北和北部受到阿尔金山、昆仑山等高大山体阻挡而导致西南和东南季风带来的海洋水汽难以到达,加上水汽远距离传输产生一定损失,导致降水量呈现地带性分异,特别是柴达木盆地形成雨影区。相对而言,东南部地势较低、属于迎风坡,降水来源受到一定程度季风的补充,因而形成区域降水中心。

图 4 青海省降水量空间分布图

注:图中a、b、c、d、e、f、g分别为、、、+、+、+和++变量生成的降水量图,h为采用Anusplin插值产生的分布图。

Note:Figures a, b, c, d, e, f, and g are the precipitation distribution maps obtained using,,,+,+,+, and++, respectively, and h is the distribution map generated by using Anusplin interpolation.

对比分析可知,不同变量产生的降水量位图极具空间细节差异(图4a-h)。由、+变量集预测得到降水量分布图中略去了局部信息而呈现空间概化,而、、+、+和++模型提供了丰富的分布信息,例如在在玉树州南部、昆仑山和祁连山脉附近,降水量分布均呈现随海拔变化的局部差异。这不仅反映了地形对降水再分配的影响,也表明局部小气候(水面蒸发散、特殊地形对流)的影响。例如高黎明等[14]解析了青海湖对局部气候系统稳定性的影响,认为湖区强烈太阳辐射与湖面蒸发影响着气压场、风向以及局部降水分布均匀性。黄琦等[15]研究表明,祁连山地区降水量分布随海拔增高而呈现先增加后减少规律,其中祁连山东段降水量分布最高值在海拔3000 m处,中段、和西段分别位于4100 m和4500 m左右。这些研究证实了采用和等局部环境变量有利于增强降水量分布预测模型的解释能力。

为进一步验证RF模拟结果的合理性,给出了叶辉等[3]基于Anuslpin气象学专业插值法生成的区域降水量(2000-2012年)栅格位图(1 km分辨率)作为参照。可知,本研究与叶的结果(图4h)具有良好的空间一致性,这证实了本研究的科学性与准确性。但相比而言,本研究结果的空间表现力更强,特别是对解释降水量局域分布信息更具优势。

3 结 论

(1)RF回归算法能基于有限的地面观测资料精确拟合青海省降水量空间分布与地形特征()、地表覆被()、海陆位置()之间的关系,实现区域降水量空间精确模拟,在栅格像素水平的降水量空间估计中具有一定应用潜力;

(2)协变量类型对降水量空间预测具有一定影响。融合、、等协变量的模型能展示区域降水量分布的更多细节信息(垂直地带性规律等),仅考虑变量虽能反映降水分布宏观规律,但略去了空间细节表现力;

(3)基于预测精度考虑,本研究推荐使用融合++和+协变量的预测模型应用于降水量空间预测。

[1] Hu Q, Li Z, Wang L,. Rainfall Spatial Estimations: A Review from Spatial Interpolation to Multi-Source Data Merging [J]. Water, 2019,11(3):579

[2] 石志华,刘梦云,常庆瑞,等.基于优化参数的陕西省气温、降水栅格化方法分析[J].自然资源学报,2015,30(7):1141-1152

[3] 叶辉,王军邦,王居午,等.2000~2012年全国1 km空间分辨率气温和降水栅格数据集(讨论版)[J/OL].中国科学 数据,2017.DOI: 10.11922/csdata.170.2016.0112.

[4] Sekulic A, Kilibarda M, Heuvelink G,. Spatial interpolation of daily precipitation using random forest [C]//EGU General Assembly Conference Abstracts, 2020:972

[5] Paraskevas T, Dimitrios R, Andreas B. Use of artificial neural network for spatial rainfall analysis [J]. Journal of Earth System Science, 2014,123(3):457-465

[6] Zhang X, Liu G, Wang H,. Application of a hybrid interpolation method based on support vector machine in the precipitation spatial interpolation of basins [J]. Water, 2017,9(10):760-781

[7] Jang DH, Wi NS, Park NW. High-resolution Spatial Mapping and Evaluation of Temperature and Rainfall in South Korea using a Simple Kriging with Local Means [J]. journal of Climate Research, 2015,10(2):165-182

[8] 曾业隆,谭伟,王超,等.基于GWR模型的贵州喀斯特山区TRMM 3B43降水资料降尺度分析[J].干旱气象,2018,36(3):405-414

[9] 胡实,韩建,占车生,等.基于地理加权回归模型的典型山地卫星反演降水产品降尺度研究[J].山地学报,2019,37(3):451-461

[10] 史岚,何其全,杨娇,等.闽浙赣地区GPM IMERG降水产品降尺度建模与比较分析[J].地球信息科学学报,2019,21(10):1642-1652

[11] Breiman L. Random Forest [J]. Machine Learning, 2001,45:5-32

[12] Surhone LM, Tennoe MT, Henssonow SF,. Random Forest [J]. Machine Learning, 2010,45(1):5-32

[13] Zhou Y, Hartemink AE, Shi Z,. Land use and climate change effects on soil organic carbon in North and Northeast China [J]. Science of the Total Environment, 2019,647:1230-1238

[14] 高黎明,张乐乐,陈克龙.青海湖流域湿地小气候特征[J].干旱区研究,2019,36(1):186-192

[15] 黄琦,覃光华,王瑞敏,等.基于MSWEP的祁连山地区降水空间分布特性解析[J].水利学报,2020,51(2):232-244

Spatial Distribution of Precipitation in Qinghai Province Based on Randomforest and Multivariate Remote Sensing Data

HOU Fang-guo1, WANG Hua-guang2

1.450015,2.614200,

With the support of geographic information technology, a set of 10 covariates, including topographic () (, slope, slope direction, curvature, undulation), surface cover () (Normalized vegetation index, vegetation primary productivity NPP) and land-sea location () (longitude, latitude, latitude*longitude) were extracted and a random forest (RF) algorithm was applied to establish a spatial precipitation prediction model based on the average annual precipitation data of 56 meteorological stations in Qinghai Province from 2000 to 2012. Results show that the RF algorithm combined with the multi-variables set can achieve accurately regional precipitation prediction. The ten-fold cross-validation shows that the performance of the RF-fitted precipitation prediction models with different input variables are ranked as follows:++>+>>+>+>>, where the2of the++and+models reach 0.893 and 0.892, and theis only 12.31 and 13.55 mm, which is higher than the2of other models improved by 0.028~0.102 andreduced by 1.24~12.95 mm, thus satisfying the spatial fine estimation of regional precipitation. The present study provides a new technical reference for the spatially distributed information acquisition of precipitation in low-density meteorological station distribution areas.

Random forest; remote sensing; precipitation distribution

P333.5

A

1000-2324(2022)01-0091-07

10.3969/j.issn.1000-2324.2022.01.015

2021-12-21

2021-12-21

侯方国(1971-),男,硕士,副教授,主要从事测绘工程工作. E-mail:houfangguo333@126.com

猜你喜欢
栅格降水量降水
1958—2019年新兴县汛期降水量的气候特征
成都市年降水量时空分布特征
栅格环境下基于开阔视野蚁群的机器人路径规划
四川盆地极端降水演变特征及拟合
Cloud seeding
基于ABAQUS的栅格翼展开试验动力学分析
1956—2014年铁岭县降水变化趋势分析
1970—2016年吕梁市离石区降水量变化特征分析
基于栅格地图中激光数据与单目相机数据融合的车辆环境感知技术研究
“SEEPS”降水预报检验评分方法在我国降水预报中的应用试验