基于全局敏感性分析与机器学习的冬小麦叶面积指数估算

2022-10-07 09:09徐飞飞
浙江农业学报 2022年9期
关键词:植被指数波段敏感性

郭 晗,陆 洲,徐飞飞,罗 明,张 序

(1.苏州科技大学 环境科学与工程学院,江苏 苏州 215009; 2.中国科学院 地理科学与资源研究所,北京 100101)

叶面积指数(leaf area index,LAI)是冬小麦生长指标监测过程中重要的冠层结构参数,也是冬小麦估产模型中重要的输入参数。凭借着卫星遥感覆盖面积大、数据获取及时的特点, 基于遥感影像的LAI反演已成为获取LAI的重要途径。随着对地观测技术的发展,富含丰富光谱信息的区域乃至全球尺度的影像获取已经成为可能,为大范围冬小麦LAI的估算提供了影像基础。

众多卫星平台如Landsat 8卫星、MODIS卫星、Worldview-2卫星、RapidEye卫星已经搭载多光谱谱段的传感器,提供可用于提取植被的长势信息的可见光-近红外波段。如Landsat 8卫星、MODIS卫星、Worldview-2卫星、RapidEye卫星等包含可见光-近红外波段或短波红外波段的影像。此外,相关研究表明,红边信息在植被卫星遥感监测过程中具有较大优势。如Worldview-2与RapidEye等商业卫星,红边波段的加入,在植被生长监测方面具有较好的效果。近几年欧空局发射的Sentinel-2卫星因兼具较高空间分辨率和较高时间分辨率,且含有3个红边波段,为大范围的植被生长指标监测提供了诸多可能。

在利用遥感影像估算植被LAI的过程中,常见的方法有经验或半经验模型、机器学习算法等。其中,经验或半经验模型是通过对植被指数进行统计回归分析构建LAI的估算模型,实现LAI的预测;机器学习算法则是基于不同的模型框架,根据训练数据集进行学习,构建LAI估算模型,常见的有偏最小二乘法回归(partial least square regression,PLSR)、高斯过程回归(Gaussian process regression,GPR)、支持向量回归(support vector machine, SVM)、随机森林回归(random forest,RF)等。基于植被指数的经验或半经验模型通常具有较好的机理性,可操作性强,但易出现病态反演的问题。机器学习算法较强的数据解析能力,能够避免病态反演的问题且具有较高的精度,但模型的机理解释性尚待加强。基于植被指数的经验或半经验模型与机器学习算法各有优势,互相补充,已被广泛应用于植被LAI的估算研究。已有研究通过融合两类算法,在波段反射率的基础上,将多个植被指数作为机器学习算法的输入变量,改善植被长势参数的估算模型。但是过多输入变量的引入会增加计算负荷,降低大范围LAI估算效率,同时数据冗余的风险加大。因此,输入变量的筛选是必要且重要的。虽然部分机器学习算法自带变量筛选的功能,如PLSR、RF,但是该筛选功能仅聚焦于输入变量与目标变量之间的相关性。然而,在植被LAI的遥感估算方面,植被的光谱表现是一项综合指标,不仅仅受到LAI的影响,同时也会受到叶绿素、叶倾角、干物质等其他参数的影响。所以需要具有同时评估多个参数对光谱影响大小的方法来弥补机器学习的不足。

常见的评估多个参数对光谱影响大小的敏感性分析方法有两类,包括全局敏感性分析(global sensitivity analysis, GSA)和局部敏感性分析(local sensitivity analysis,LSA):前者是对所有输入参数评估及分析对最终结果的贡献程度,常见的有扩展傅里叶振幅灵敏度试验(extended fourier amplitude sensitivity test,EFAST)、Sobol法等;后者则在保持其他输入变量不变的情况下,逐个分析每个输入变量对输出结果影响的大小。相较于局部敏感性分析,全局敏感性分析能够完成模型所有输入参数之间的交互影响评价,优势明显。当前,已有学者尝试结合全局敏感性分析与植被辐射传输模型(PROSAIL模型等)开展植被长势参数对光谱变量影响大小的评估,尤其是多个长势参数之间的交互作用影响大小的评估,但是应用Sentinel-2卫星结合全局敏感性分析与植被辐射传输模型,并结合机器学习进一步应用于大范围冬小麦LAI的估算鲜有报道。

本研究采用Sentinel-2多光谱影像数据,提出了全局敏感性分析与机器学习算法相结合(GSA-ML)估算冬小麦LAI的方法;即利用EFAST与PROSAIL模型评估不同植被长势参数对Sentinel-2光谱变量影响大小,然后通过多种变量筛选的策略,基于实测数据评估筛选后的不同变量、不同机器学习算法估算冬小麦LAI的表现,最终得到大范围冬小麦LAI估算的最优变量组合及估算模型。本研究提出的GSA-ML估算冬小麦LAI,以期丰富大田尺度下遥感估算冬小麦LAI方法,提高模型的精度、机理性及适用性,解决当前普遍面临的数据冗余的问题。

1 材料与方法

1.1 研究区概况

研究区位于江苏省高邮与姜堰地区。该区域的年均温度在15 ℃左右,年均降水量在1 032.3 mm左右,土壤类型主要为壤土,研究区内冬小麦为扬麦158,在2017年10月下旬播种,于2018年6月成熟收获。试验于2018年4月19日开展,选择了46个冬小麦田样点作为地面调查的对象,该田块为稻麦轮作与秸秆还田(图1)。

图1 研究区及地面调查样点分布Fig.1 Location of study area and the distribution of ground samples

1.2 Sentinel-2影像获取及预处理

Sentinel-2包含两颗卫星,分别是2015年发射的Sentinel-2A与2017年发射的Sentinel-2B,两者均搭载多光谱传感器,能够获取具有13个不同空间分辨率波段的多光谱影像,波段信息如表1所示。波段范围从可见光、近红外到短波红外, 是唯一在红边范围含有3个波段的卫星, 最高空间分辨率为10 m, 幅宽为 290 km, 两星共同工作时间分辨率可以提高至5 d。

表1 Sentinel-2波段信息

本研究根据地面采样时间获取2018年4月19日的Sentinel-2卫星影像,获取的Sentinel-2影像数据经过官方发布的Sen2Cor 2.5.5进行辐射定标与大气校正。随后利用Sen2Res 1.0 将Sentinel-2影像中20 m空间分辨率的波段降尺度至10 m。本研究尚未涉及用于大气成分监测且分辨率为60 m的3个波段,包括B1、B9、B10。

1.3 小麦LAI估算方法

本研究在PROSAIL模型的基础上引入GSA,测试不同光谱变量对不同作物长势参数的响应情况,而后在GSA所得结果的基础上提出了4种变量筛选的策略并将筛选得到的光谱变量应用于实测数据,作为机器学习估算小麦LAI过程中的输入变量,形成了用于小麦LAI估算的新方法,即GSA-ML,具体流程如图2所示。

图2 利用GSA-ML估算小麦LAI的方法Fig.2 Wheat LAI estimation by using GSA-MLs

1.3.1 PROSAIL模型模拟数据

为了定量不同长势参数对同一光谱变量影响大小并筛选出用于LAI估算的敏感变量,本研究利用PROSAIL模型进行数据模拟。其中,模型输入参数的设置参考前人关于小麦的研究(表2)。PROSAIL模型中的参数在确定范围后经马尔科夫链-蒙特卡罗方法(MCMC)进行采样,总计获取8 000个样本,用于EFAST的敏感性计算。

表2 PROSAIL模型的参数设置

1.3.2 植被指数

本文选择了一些常见的用于植被LAI估算的植被指数,具体如表3所示。由于Sentinel-2影具有3个红边波段与2个短波红外波段,因此,本文在计算红边植被指数与短波红外相关植被指数过程中,红边植被指数分别基于Sentinel-2的3个红边波段构建了3次,而所有基于短波红外波段构建的植被指数分别用Sentinel-2的2个短波红外波段构建2次。

表3 用于估算小麦LAI的植被指数

1.3.3 全局敏感性分析筛选光谱变量策略

首先基于PROSAIL模型模拟数据,利用全局敏感性分析中的EFAST比较不同光谱变量对不同长势参数响应的敏感性分析。其中,马尔科夫链-蒙特卡罗方法被用于模型输入样本的生成,根据表2中各输入参数的范围与模型设置的采样参数N进行采样(本研究设置N=1 000),总计获取8 000个样本用于不同光谱变量对各参数响应的敏感性分析。然后,基于EFAST所得不同光谱变量对各参数响应的一阶灵敏度(first order sensitivity)结果(S),利用下述4种策略进行机器学习输入变量的排序。

策略一:仅根据LAI的敏感性分析结果S的大小进行光谱变量筛选;

策略二:同时考虑LAI与Cab两者敏感性的总和,根据S+S的大小进行光谱变量筛选;

策略三:同时考虑高LAI敏感性与低交叉互作影响,根据S-S进行光谱变量;

策略四:为避免参数之间的交叉互作影响,同时考虑高LAI敏感性、高Cab敏感性与低交叉互作影响,根据S+S-S进行光谱变量的排序。

根据以上4种变量筛选策略,分别筛选前10、20、30个变量用于机器学习估算小麦LAI。本研究基于Python3.7环境下的Sklearn构建机器学习算法,计算机型号为联想ThinkStation P520,操作系统为Windows10,其GPU为 NVIDIA Quadro P6000 (32 Gb),CPU为Inter(R)Xeon(R) W-2125 CPU (32 Gb)。

1.3.4 机器学习

偏最小二乘法(PLSR)综合了多元回归分析、典型相关分析和主成分分析的思想,能够在自变量存在严重多重相关性、样本点个数少于变量个数的条件下进行回归建模。与传统的最小二乘回归方法相比,PLSR的变量共线性强度压缩通过对信息综合及筛选提取,获取对响应变量最优解释能力的新成分。基于PLSR建立的LAI光谱预测模型能有效地减少光谱维数,揭示最大LAI变化的主控因子,建立模型有更好的稳定性。

支持向量机(SVM)是一种以非线性映射为理论基础的小样本机器学习方法。径向基核函数被认为是具有良好分类功能,是最常用的核函数。本文选用SVR_Epsilon模型、高斯径向基核函数(RBF),通过调节拉格朗日乘上界,不敏感损失函数的参数、相对误差参数,实现模型最优解。SVR中的参数用交叉验证法获得,同时为防止“过学习”,对参数C进行适当调整。

随机森林算法(RF)模型是建立在决策树基础上的一种集成学习方法,通过多次bootstrap抽样获得多个随机样本,并通过这些样本分别建立相对应的决策树,从而构成随机森林。本研究应用 Python中Scikitlearn 库建立随机森林模型,回归树数量ntree为600,每棵树随机抽取特征变量mtry为6,其余参数选择默认设置。

1.4 模型精度评估

在LAI估算方面,本研究利用2017—2018年地面实测数据进行模型的构建,通过计算决定系数(R)和均方根误差(RMSE)来衡量不同光谱变量、不同机器学习法估算小麦LAI的模型构建精度,具体公式如下:

(1)

(2)

式(2)中:表示RMSE的值;表示样本数;分别表示LAI的预测值和实测值。

2 结果与分析

2.1 不同光谱变量估算小麦LAI的表现

从相关性分析结果表4来看,在各波段与LAI相关性中,红波段R、红边波段RE1、RE2,以及近红外NIR、NNIR波段光谱反射率与LAI具有显著相关性,且5个波段的相关系数大都高于0.450,说明红边波段及近红外波段在冬小麦长势监测中具有很好的有效性。同时相关性最高的为近红外NIR波段,相关系数()为0.463,RMSE为0.979。由于RE-2相对于其他两个红边波段(包括RE-1、RE-3)位于红边区域的中心,大多数由RE-2构建的红边植被指数具有对LAI更高的敏感性。另外,NDRE相较于NDVI来说,可以克服在高LAI值下的饱和问题,同时对作物叶片水分和叶绿素含量表现出较弱的敏感性。总体来看,加入红边波段的植被指数与传统近红外植被指数相比,相关性提升。

2.2 不同光谱变量全局敏感性分析的结果

本研究利用EFAST测试了PROSAIL模型中不同作物长势参数对Sentinel-2多光谱信息的影响情况,包括原始的波段反射率及其衍生出的多个植被指数,如图3所示。结果显示,大多数光谱变量都敏感于LAI,但是受到其他参数不同程度的影响,影响较大的有叶绿素含量、平均叶倾角以及参数之间的耦合作用影响。其中,平均叶倾角(Lidfa)虽然对红边波段(包括RE-1、RE-2、RE-3)及NIR具有明显的影响,但是通过植被指数的构建能够较大程度地降低这类影响;叶绿素含量(Cab)虽然对RE-2影响较小,但是植被指数的构建会放大其影响,包括2.1部分所得最佳表现的NDRE2与SARE2;而由SWIR波段及其构建的植被指数虽然不受平均叶倾角与叶绿素含量的影响,但是会遭受等效水厚度(Cw)的影响。综合以上情况,大部分植被指数在估算小麦LAI时会遭受其他参数影响,需要机器学习法整合多个变量的LAI敏感性来提高小麦LAI的估算精度(表4)。

表4 单波段反射率及植被指数与LAI相关性

2.3 光谱变量排序结果

本研究基于各长势参数对不同光谱变量影响大小的结果,即全局敏感性分析所得一阶灵敏度结果,利用4种变量排序的策略,包括S、S+S、S-S和S+S-S,进行光谱变量的排序(表5),并分别筛选前10、20与30个光谱变量作为不同机器学习法(PLSR、SVM、RF)的输入变量,对比LAI估算的精度与机器学习法运算的效率。

图3 不同光谱变量全局敏感性分析结果Fig.3 Sensitivity of different vegetation growth parameters to different spectral variables

结果显示,在不考虑Cab的(Strategy 1和Strategy 3)情况下,由于G、RE-1、RE-2波段构建的植被指数遭受Cab的影响具有较低的LAI敏感性未排列在前列,而大部分非红边植被指数由于遭受到的Cab影响较小排在前列(图3);在同时考虑Cab与LAI敏感性(Strategy 2和Strategy 4)的情况下,部分由RE-2构建红边植被指数排在前列。值得注意的是,这两个策略排列与筛选得到的光谱变量组合在通过机器学习估算LAI过程中存在受植被叶绿素影响造成模型精度或普适性低的风险;除了参数各自敏感性影响外,参数之间的交互影响也是降低LAI估算模型精度低的一大原因。因此,本研究进一步考虑低参数互作影响(Strategy 3和Strategy 4)的情况。另外,在4种筛选策略中,由G波段构建的MTVI2表现较为稳定,这是因为它能够有效地降低Cab的影响并保留LAI的敏感性,然而在LAI估算过程中存在估算精度不如红边植被指数的表现(表5)。

表5 不同策略光谱变量排序结果

2.4 不同机器学习估算小麦LAI的表现

本研究基于排序结果进行不同的筛选策略,包括筛选前10、20、30个变量用于机器学习估算小麦LAI,并对比不同策略估算小麦LAI的精度以及影像应用过程中计算机的计算速度,结果如表6所示。

表6 冬小麦LAI估算模型对比

在不同GSA-MLs对比方面,相对于GSA-PLSR和GSA-SVM,GSA-RF整体表现效果最佳,在0.90~0.94,RMSE在0.38~0.48;在不同变量筛选策略对比方面,由于同时考虑了LAI、Cab以及植被长势参数之间耦合作用影响,通过S+S-S策略进行光谱变量排序与筛选更有利于LAI的估算,其中通过RF估算小麦LAI表现最佳,在利用10、20、30个变量的表现分别为=0.92、RMSE=0.42,=0.92、RMSE=0.42与=0.94、RMSE=0.38。同MLs(表7)对比,GSA-MLs能过通过更少的输入变量来得到相似的LAI估算效果,提高机器学习运行过程中计算机的计算效率。

表7 MLs法估算小麦LAI的比较

2.5 应用案例

基于上述对比结果,本研究综合考虑LAI的估算精度与计算机运算效率,选用了变量数为10的3种GSA-MLs进行进一步的对比。利用所有变量和基于全局敏感性分析获取的策略S+S-S中的变量,分别训练机器学习模型,对保存的模型进行预测时间评估。本研究选取研究区内一幅大小为2 000 pixel×2 000 pixel像素的影像,分别应用不同模型计算预测所需要的时间,如表8所示。未进行全局敏感性分析,参与计算的变量较多,增加了计算时间,其中PLSR需要487.772 s,而进行敏感性分析筛选后,计算时间为226.270 s节省了53.6%的时间,同时GSA-SVM和GSA-RF与此类似。

表8 不同估算模型应用过程中的计算机运行时间

随后,本研究进一步将LAI估算方面表现最佳的模型(RF)应用于姜堰地区,基于4 748 pixel×4 231 pixel的Sentinel-2影像,绘制LAI的空间分布(图4),期间机器学习的计算时长为618.920 s。所得LAI的空间分布均处于合理值范围,且同实际生产具有一致性,说明本研究所得方法在应用过程中具有可行性。

图4 由GSA-RF反演的叶面积指数分布图Fig.4 LAI map generated by GSA-RF

3 讨论

3.1 GSA-MLs估算小麦LAI的优势

本研究提出了结合全局敏感性分析与机器学习(GSA-MLs)提高小麦LAI估算精度、效率的方法。首先进行光谱变量的筛选,在提高机器学习法估算LAI精度以及应用过程中计算机计算效率的同时,提高了机器学习应用过程中的机理性。综合对比LAI估算精度、计算机运行效率,结果显示,GSA-RF具有最佳的表现。

3.2 基于PROSAIL模型输入参数全局敏感性分析的优势

运用PROSAIL模型进行全局敏感性分析的优势在于不仅能够考虑目标参数对光谱变量的影响,还能将目标参数以外其他参数以及不同参数之间交互作用影响纳入考虑。既能获取单个参数对模型输出变量的敏感性,也能获取参数单独作用及其与其他参数之间的交互作用对模型输出变量的敏感性。从结果上看,充分考虑各个参数及互作影响下,SARE2与LAI的敏感性最强,并与叶绿素含量也具有较强的敏感性,各参数之间互作较小,进一步说明在小麦孕穗期LAI与叶绿素含量密切相关,这与Houborg等的结论一致。本文选用小麦孕穗期估算LAI,冠层覆盖率大,未考虑其他生育进程情况,如何将小麦的生育时期作为模型的输入参数,有待进一步研究。

4 结论

本文开展了结合全局敏感性分析与机器学习法的研究,提出了GSA-ML,利用全局敏感性分析综合评估LAI的光谱变量,通过4种策略(S、S+S、S-S和S+S-S)筛选出对LAI敏感性高且对其他参数敏感性低的光谱变量,而后用机器学习法整合筛选得到的光谱变量来估算小麦LAI。结果显示, 51个光谱变量整体对LAI具有较好的敏感性,其中红边植被指数主要受Cab的影响,而短波红外相关的植被指数主要受Cw的影响,所有光谱变量均会受到参数之间的交互作用。通过对比4种光谱变量筛选策略以及不同机器学习法在LAI估算方面的表现,结果显示,S-S筛选得到的30个光谱变量通过RF估算小麦LAI表现最佳(=0.94,RMSE=0.38),并且在模型反演LAI的过程中,相对于51个光谱变量的运行时间缩短了54.13%。本研究提出的结合全局敏感性分析与机器学习,在提高机器学习法估算LAI精度以及应用过程中计算效率的同时,提高了机器学习应用过程中的机理性。

猜你喜欢
植被指数波段敏感性
母亲敏感性与婴儿气质、注意对学步儿执行功能影响的交互作用:一项两年的追踪研究*
新媒体时代培养记者新闻敏感性的策略
卫星电视常用接收方式及SDTVplus在卫星接收中的应用
利用小波分析对岩石图像分类
浅谈植被指数的分类与应用
何为盐敏感性高血压
分集技术在Ka波段抗雨衰中的应用
瞳孔大,决策力差