基于辅助变量的县域土壤有机质预测

2020-02-22 06:22尹群郭纪敏张世文沈强
江苏农业科学 2020年24期
关键词:RBF神经网络随机森林

尹群 郭纪敏 张世文 沈强

摘要:为了快速准确地获取土壤有机质的空间分布情况,以北京市密云区为研究区,利用330个采样点进行建模、83个采样点进行验证,选择偏最小二乘回归(PLS)、RBF神经网络(RBFNN)、随机森林(RF)模型作为预测方法,与不同组合的辅助变量相结合,模拟密云区耕地表层土壤有机质空间分布,并比较不同预测方法、不同辅助变量组合的预测精度。研究结果表明,密云区耕地表层土壤有机质含量在5.42~40.44 g/kg之间,变异系数为30.03%,属于中等程度变异;从不同预测方法来看,随机森林建模预测精度比偏最小二乘以及RBF预测精度要高,而从不同的辅助变量组合来看,有效土层厚度和高程作为辅助变量组合的预测精度最高。研究显示选择合适的辅助变量和预测方法,可以提高縣域尺度下土壤有机质空间分布的快速获取。

关键词:土壤有机质;偏最小二乘回归;RBF神经网络;随机森林;空间预测

中图分类号: S158.2;X825  文献标志码: A  文章编号:1002-1302(2020)24-0267-07

土壤有机质(SOM)是影响土壤养分和土壤理化性质的重要因素[1-2],也是表征土壤肥力的重要指标。由于土壤有机质受到成土因素和生态过程的影响,土壤有机质含量在空间上呈现非均匀分布[3-4]。目前基于实地采样获取的土壤有机质含量信息,很难满足精准农业发展的实际需求[5-6],并且获取过程会耗费大量的人力、物力和财力,效率较低。一定尺度下土壤有机质含量的预测,对准确掌握土壤肥力状况、科学管理土壤养分和区域环境保护至关重要[7]。

目前,对于SOM预测的方法有很多,普通克里金(OK)法是应用最广泛也是最普遍的方法[8],但在很多情况下OK法容易造成平滑效应[9],而单一要素的插值会带来较大的误差。为了解决这一问题,近年来国内外众多学者将人工神经网络、偏最小二乘回归(PLS)以及随机森林(RF)引入土壤有机质空间预测中,江叶枫等应用集成BP神经网络模型对江西省上饶市万年县土壤有机质空间进行预测[10]。齐雁冰等应用随机森林对陕西省土壤有机质进行空间预测[11]。而有些学者应用偏最小二乘回归在光谱以及土壤理化性质等领域进行预测,取得了不错的效果[12-13]。但这几种模拟预测方法的精度对比,还很少有人研究。

本研究以北京市密云区耕地表层土壤有机质作为研究对象,基于2018年密云区耕地质量调查数据,选择不同组合的辅助变量,运用RBF神经网络(RBFNN)、偏最小二乘回归和随机森林作为模拟预测方法,模拟密云区耕地表层土壤有机质含量分布情况,并对这几种预测模型的模拟精度进行对比,并对预测的不确定性进行研究。

1 材料与方法

1.1 研究方法

1.1.1 偏最小二乘法 PLS是一种用于多元统计数据分析的新型算法,具有消除变量相关性以及提取变量信息的特点[14-15],结合典型相关分析、主成分分析及多元线性回归分析在数据分析处理方面的优势,可实现多因变量对多自变量建模[16],实际应用中可以较好地解决以往使用普通多元回归无法解决的问题。

1.1.2 RBF神经网络 RBF神经网络具有全网络逼近能力,其性能极其优良[17]。它能结合网络和模糊逻辑,从而可以提高算法的泛化能力[18],RBF神经网络具有能并行计算、能分布式存储、容错能力强、快速学习的特点[19],本研究使用RBF神经网络可以快速对数据进行整合、建模和预测。

1.1.3 随机森林 随机森林模型是一种基于分类树的机器学习算法[20],该模型是在随机抽样的基础上,加入随机特征选取形成的一种数据挖掘方法[21],从原始样本中抽取多个样本,对每个样本进行决策树建模,通过投票得出最终预测结果[22]。RF模型可以用来做聚类、判别、回归和生存分析,适于分析复杂的、存在大量未知特征的数据集[23-25]。本研究使用RF模型以辅助变量为自变量,有机质含量为因变量进行建模和预测。

1.2 研究区概况

研究区位于北京市东北部的密云区,属燕山山地与华北平原交接地,面积2 229.45 km2,属温带大陆性季风气候,年均气温为10.8 ℃。研究区内水资源比较丰富,地貌类型以山地为主,研究区地势北部为山地,海拔较高,南部为平原或者丘陵,素有“八山一水一田”之称。土壤类型主要有潮土和褐土,主要种植的作物为玉米、核桃等。研究区及采样点位置详见图1。

1.3 数据来源及处理

于2018年5月进行土壤样品采集,采用多点混合的方法采集0~20 cm耕地表层土壤样品413个,从413个样点中随机抽取20%(83个)作为验证集,余下的80%(330个)作为建模子集。用全球定位系统(GPS)记录采样点的海拔和坐标,每个样点采集样品1 kg左右,土壤样品经自然风干后,在实验室磨碎过筛,采用重铬酸钾油浴加热法进行有机质含量的测定[26]。

1.4 辅助变量的获取

由于土壤有机质的空间分布受到多种因素的影响,参考国内外研究成果,选取高程(DEM)、田面坡度、植被归一化指数(NDVI)[27]、有效土层厚度(EST)、耕层厚度、体积含水量和质量含水量作为土壤有机质空间分布模拟的辅助因子。其中植被归一化指数(NDVI)由Landsat8 OLI 卫星数字影像(拍摄于2018-01-18,空间分辨率为30 m)的第4波段和第5波段在ArcGIS 10.1中进行栅格计算获取[28];高程使用GPS记录;田面坡度用水准仪测试得到;有效土层厚度数据主要来自现场实地调查并结合密云区土壤图、历史单元评价数据;通过现场实地调查并结合土壤容重以及土壤紧实度获取耕层厚度的数据;质量含水量和体积含水量通过实验室测定获得,获取方法较简单。

1.5 插值精度分析

为验证不同预测模型和不同辅助变量组合对土壤有机质空间分布预测精度的影响,研究将413个样点随机抽取20%(83个)作为验证集,余下的80%(330个)作为建模子集。采用均方根误差(RMSE)、平均绝对误差(MAE)、平均相对误差(MRE)和一致性指数(d)对建模集预测值和验证集预测值与实际样点值进行对比分析得出预测精度结果,公式如下:

式中:Zi为样点的预测值;Zi为样点的实际观测值;Z~i为实际观测值的平均值;n为样点数。RMSE、MAE、MRE值越小,d值越接近1,模拟预测的精度就越高。

1.6 预测不确定性模拟评价

对预测不确定性评价还没有具体的量化标准,国内外学者大都用标准差或者方差分布图代表不确定进行评价,Bourennane等指出,在保持模拟准确性的同时,标准差越小,那么模拟的准确性就越准确[29]。

2 结果与分析

2.1 辅助变量与土壤有机质相关性分析

从图2可以看出,土壤有机质与田面坡度、有效土层厚度、高程、NDVI、质量含水量以及体积含水量呈显著的相关关系。土壤有机质與田面坡度和高程相关系数分别为0.12和0.57,存在极显著相关关系,表明田面坡度大地势高的区域有利于土壤有机质的积累;土壤有机质与有效土层厚度、NDVI、质量含水量与体积含水量相关系数分别为-0.31、-0.20、-0.16和-0.20,存在极显著负相关关系,表明在有效土层厚度高、NDVI大、质量含水量和体积含水量大的区域,土壤有机质含量较低。选择与土壤有机质相关性较高的有效土层厚度、高程以及NDVI为辅助变量进行建模和预测。

2.2 SOM描述性统计特征

研究区413个土壤采样数据的统计结果见图3、表1,耕地土壤有机质含量的平均值为15.12 g/kg,值域范围为5.42~40.44 g/kg,标准差为4.54 g/kg。K-S检验的P值大于0.05,说明土壤有机质含量服从正态分布。密云区土壤有机质的变异系数在10%~100%之间,为中等程度的变异性。从统计的数据来看,建模子集与验证子集大体上保留了全部样点的结构特征。

2.3 半变异函数分析

用GS+对土壤有机质进行半变异函数拟合,半变异函数是描述土壤有机质空间变异性最有效的方法[30]。从表2可以看出,高斯模型是针对有机质的最优理论模型,模型的拟合系数达到0.88,模型拟合度较高。从模型参数来看 土壤有机质的块金效应为0.25,变程为41 940.00 m,表明有机质有较强的空间相关性,空间自相关的范围较大。

2.4 预测精度评价

2.4.1 相同辅助变量组合下有机质预测模型精度对比 辅助变量为EST与DEM时,从表3各评价指标来看,建模集预测结果中RF的预测精度最高,其次是RBFNN,PLS预测精度最低;在验证集预测结果中,RBFNN相对于RF和PLS预测精度较好,但各项评价指标相差不大,各预测模型预测精度相差不大。

辅助变量为DEM与NDVI时,根据建模集各评价指数来看,RF的预测精度最高,且RF的RMSE、MAE、MRE相对于RBFNN和PLS降低幅度较大,RF的一致性指数(d)相对于其他预测模型提高幅度约为0.2,而RBFNN和PLS预测精度相似,精度相对较差。辅助变量为EST与NDVI时,根据各项评价指标所示,建模集中RF预测精度最高,RBFNN和PLS预测精度相似;验证集和建模集类似,RF的预测精度最高,但与RBFNN和PLS的预测精度相差不大,故在辅助变量为EST和NDVI时,3种预测模型的预测精度相似,但RF预测精度相对高一点。

2.4.2 预测模型相同时不同辅助变量组合土壤有机质含量预测精度对比 预测模型为RBFNN时,根据表3各评价指标所示,辅助变量组合为EST和DEM预测精度相对较高,其次为辅助变量组合为NDVI和DEM,且其预测精度与辅助变量为EST与DEM预测精度相差不大,而预测精度最差的为辅助变量组合为NDVI与DEM,其预测精度相对其他2种辅助变量组合相差较大。

预测模型为PLS时,根据评价指标可以看出,辅助变量组合为EST和DEM的预测精度最高,这与RBFNN的预测结果类似;其次为辅助变量组合为NDVI与DEM,其预测精度与EST和DEM作为辅助变量组合相差不大,而辅助变量组合为EST与NDVI组合的预测精度最差。

RF作为预测模型的情况下,根据评价指标可以看出,辅助变量为NDVI与DEM组合的预测精度相对其他辅助变量组合相对较好;而辅助变量组合为EST与DEM组合的预测精度也相对较高。

2.5 不确定性分析

根据标准差分布图对不同辅助变量组合的预测模型进行不确定性分析,不同辅助变量组合下3种预测模型标准差分布见图4。3种预测模型得到的标准差都在0.002~4.07 g/kg 之间。除了以辅助变量组合EST与NDVI的RBFNN神经网络预测模型的标准差分布不同外,其他预测标准差分布图总体布局上是一致的,全研究区西南方标准差相对较小,而东北部相对较大。而从整体来看,随机森林(RF)的预测值标准差普遍小于RBFNN神经网络和偏最小二乘回归(PLS)。从这个结果可以看出,在模拟空间不确定方面,随机森林模型更准确。

从标准差分布可以看出,标准差的分布规律与高程的分布规律是大致相似的,这就出现了一个新的问题,这种规律是否是预测模型导致的。图5为根据普通克里金法得到的标准差分布,可以看出也有相同的趋势,说明高程越大其预测模型预测标准差越高。

3 结论与讨论

研究发现,密云区土壤有机质含量在5.42~40.44 g/kg之间,平均值为15.12 g/kg。相关性分析结果显示,土壤有机质与高程、归一化植被指数和有效土层厚度均呈显著相关关系,且高程与土壤有机质的相关性最大,相关系数达到0.55以上。

研究基于不同辅助变量组合的RBFNN、PLS以及RF建模预测3种方法,对北京市密云区土壤有机质空间分布进行模拟,对413个建模集与验证预测结果的误差分析表明,在辅助变量为DEM与NDVI组合预测模型为随机森林时的RMSE、MAE以及MRE都相对较小,d值相对较大,其预测误差相对较小,预测精度最高;而从预测不确定性分析来看,随机森林预测模型的空间不确定性更精确。在相同的预测模型下,辅助变量与土壤有机质相关性越大,其预测精度就越高,能为土壤有机质预测工作提供经验,选择与土壤有机质相关性较强的辅助变量,可以提高预测精度。

利用辅助变量结合不同的预测模型可以提高对县域尺度下土壤有机质的预测效率,高程、NDVI和有效土层厚度等辅助变量是土壤有机质分布预测研究中必须考虑的要素。由于土壤成土因素复杂,使得有机质在一定范围内存在空间自相关性[31]。相关研究结果表明,仅基于地理坐标而不考虑地形等辅助变量的预测模型预测效果不太好,误差较大[32]。不同的预测模型结合不同的辅助变量进行预测,其预测的精度也是不同的,选择合适的预测方法可以减少工作量。

结合与土壤有机质有一定相关性的辅助变量后,3种预测方法均能不同程度地预测土壤有机质的空间分布。相关研究结果表明,在预测过程中使用辅助变量需要考虑辅助变量与目标变量的相关性[33]。辅助变量与土壤有机质相关性越强,其预测精度就越高,与土壤有机质相关性由弱到强分别为高程、有效土层厚度和NDVI,不同相关性强弱的辅助变量进行组合,相关性越大的组合,其预测精度越高,3种预测模型都有相同的情况,表明这3种预测模型预测精度受目标变量与辅助变量间相关性强弱的影响。故选择相关性越高的辅助变量,其预测的精度就越高。

3种预测模型在相同辅助变量下,随机森林模型预测精度最高,随机森林对数据量大的样本处理结果较精确,而偏最小二乘回归模型预测是线性关系,具有一定的局限性[34-35]。对于县域尺度下空间土壤有机质的预测需要大量的数据进行建模,而随机森林建模方法这一特点适应于大尺度的预测。

对不同辅助变量组合下不同建模预测模型使用标准差分布图进行不确定性分析可以发现,随着高程增加,其标准差越大,设立空白对照组进行验证也得到相同的结论,说明对于海拔较高的区域,其土壤有机质的预测结果具有较高的不确定性。

通过结合不同辅助变量组合的预测模型对土壤有机质进行预测,可以选择最优的辅助变量提高土壤有机质的空间预测精度,也可从预测的不确定性入手,来选择合适的预测模型。这对于土壤肥力和农业可持续发展都具有十分重要的意义,可为县域尺度下土壤有机质的空间预测模型选取和精度优化提供参考。

参考文献:

[1]Frogbrook Z L,Oliver M A. Comparing the spatial predictions of soil organic matter determined by two laboratory methods[J]. Soil Use and Management,2001,17(4):235-244.

[2]任 丽,杨联安,王 辉,等. 基于随机森林的苹果区土壤有机质空间预测[J]. 干旱区资源与环境,2018,32(8):141-146.

[3]Dai W H,Huang Y. Relation of soil organic matter concentration to climate and altitude in zonal soils of China[J]. Catena,2006,65(1):87-94.

[4]江葉枫,郭 熙,叶英聪,等. 基于辅助变量和神经网络模型的土壤有机质空间分布模拟[J]. 长江流域资源与环境,2017,26(8):1108-1150.

[5]McBratney A B,Odeh I A,Bishop T A,et al. An overview of pedometric techniques for use in soil survey[J]. Geoderma,2000,97(3):293-327.

[6]Sumfleth K,Duttmann R. Prediction of soil property distribution in paddy soil landscapes using terrain data and satellite information as indicators[J]. Ecological Indicators,2008,8(5):485-501.

[7]沈 强,张世文,夏沙沙,等. 基于支持向量机的土壤有机质高光谱反演[J]. 安徽理工大学学报(自然科学版),2019,39(4):39-45.

[8]李晓军,张振远. 基于指示和普通克里金的不连续地层厚度估计方法[J]. 岩土力学,2014,35(10):2881-2887.

[9]马宏宏,余 涛,杨忠芳,等. 典型区土壤重金属空间插值方法与污染评价[J]. 环境科学,2018,39(10):4684-4693.

[10]江叶枫,郭 熙. 基于辅助变量和回归径向基函数神经网络(R-RBFNN)的土壤有机质空间分布模拟[J]. 浙江农业学报,2018,30(4):640-648.

[11]齐雁冰,王茵茵,陈 洋,等. 基于遥感与随机森林算法的陕西省土壤有机质空间预测[J]. 自然资源学报,2017,32(6):1074-1086.

[12]于 雷,洪永胜,耿 雷,等. 基于偏最小二乘回归的土壤有机质含量高光谱估算[J]. 农业工程学报,2015,31(14):103-109.

[13]李启权,王昌全,岳天祥,等. 基于定性和定量辅助变量的土壤有机质空间分布预测——以四川三台县为例[J]. 地理科学进展,2014,33(2):259-269.

[14]李宏勋,聂 慧. 基于灰色-偏最小二乘组合模型的中国天然气需求预测[J]. 资源与产业,2019,21(6):9-19.

[15]赵梓淇,李丽光,王宏博,等. 沈阳市区土地利用类型与地表温度关系研究[J]. 气象与环境学报,2016,32(6):102-108.

[16]毛李帆,江岳春,龙瑞华,等. 基于偏最小二乘回归分析的中长期电力负荷预测[J]. 电网技术,2008,32(19):71-77.

[17]乔俊飞,马士杰,许进超.基于递归RBF神经网络的出水氨氮预测研究[J]. 计算机与应用化学,2017,34(2):145-151.

[18]白俊强,王 丹,何小龙,等. 改进的RBF神经网络在翼梢小翼优化设计中的应用[J]. 航空学报,2014,35(7):1865-1873.

[19]何伟铭,宋小奇,甘 屹,等. 传感器校正的优化灰色神经网络建模方法研究[J]. 仪器仪表学报,2014,35(3):504-512.

[20]桂 州,陈建国,王成彬.基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例[J]. 桂林理工大学学报,2017,37(4):587-593.

[21]李柳华,刘小平,欧金沛,等. 基于随机森林模型的城市扩张三维特征时空变化及机制分析[J]. 地理与地理信息科学,2019,35(2):53-60.

[22]方匡南,吴见彬,朱建平,等. 随机森林方法研究综述[J]. 统计与信息论坛,2011,26(3):32-38.

[23]张 雷,王琳琳,张旭东,等. 随机森林算法基本思想及其在生态学中的应用——以云南松分布模拟为例[J]. 生态学报,2014,34(3):650-659.

[24]桑满杰,卫海燕,毛亚娟,等. 基于随机森林的我国荞麦适宜种植区划及评价[J]. 山东农业科学,2015,47(7):46-52.

[25]赵清杰,刘若宇. 基于随机森林的大迎角非線性非定常气动建模方法[J]. 北京理工大学学报,2017,37(11):1171-1177.

[26]Zhao Y,Xu X H,Jeremy L D,et al. Spatial variability assessment of soil nutrients in an intense agricultural area,a case study of Rugao County in Yangtze River Delta Region,China[J]. Environmental Geology,2009,57(5):1089-1102.

[27]范松克,郝成元. 2001—2016年河南省NDVI时空变化特征分析[J]. 江苏农业学报,2019,35(4):860-867.

[28]李苗苗,吴炳方,颜长珍,等. 密云水库上游植被覆盖度的遥感估算[J]. 资源科学,2004,26(4):153-159.

[29]Bourennane H,King D,Couturier A,et al. Uncertainty assessment of soil water content spatial patterns using geostatistical simulations:an empirical comparison of a simulation accounting for single attribute and a simulation accounting for secondary information[J]. Ecological Modelling,2007,205(3/4):323-335.

[30]高 扬,汪亚峰,何念鹏,等. 不同土地利用方式下崇明岛土壤酶与有机质空间分布特征[J]. 农业环境科学学报,2013,32(1):21-28.

[31]王 晶,任 丽,杨联安,等. 基于云模型的西安市蔬菜区土壤肥力综合评价[J]. 干旱区资源与环境,2017,31(10):183-189.

[32]江叶枫,郭 熙. 基于多源辅助数据和神经网络模型的稻田土壤砷空间分布预测[J]. 环境科学学报,2019,39(3):928-938.

[33]Knotters M,Brus D J,Voshaar J O. A comparison of kriging,co-kriging and kriging combined with regression for spatial interpolation of horizon depth with censored observations[J]. Geoderma,1995,67(3):227-246.

[34]姚明煌,骆炎民. 改进的随机森林及其在遥感图像中的应用[J]. 计算机工程与应用,2016,52(4):168-173.

[35]刘荣欣,胡 萍. 偏最小二乘法回归模型在分析毛涤混纺面料纤维含量中的应用[J]. 河南工程学院学报(自然科学版),2019,31(1):8-12.赵 新,孙坤慧,孙爱博,等. 现有空间规划实施评价及冲突协调研究——以江苏丰县为例[J]. 江苏农业科学,2020,48(24):274-279.

猜你喜欢
RBF神经网络随机森林
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测