马玮键,邢泽炳,韩春风,桑梓繁,尚恺霖,李宇航
(山西农业大学 农业工程学院,山西 太谷 030801)
氮素在作物生长发育过程中发挥着重要的作用,而作物所吸收的氮素主要来源于土壤[1]。氮素作为土壤养分的重要组成成分,其土壤中的氮含量水平影响着作物生长发育,氮含量过少会引起作物植株矮小,叶片枯黄等问题,过多又会引起作物植株抗逆性差、环境污染等问题,分析测定土壤中的氮含量对于了解土壤氮素供给水平和指导施肥具有重要意义[2-9]。目前,传统的测量土壤氮含量方法如凯氏定氮法和碱解扩散法,普遍存在测量时间长、操作复杂等问题,无法快速大规模测定土壤氮含量,难以满足精确农业的需求。近年来,基于近红外光谱技术(Near Infrared,NIR)的分析方法因其快速、无损的优势在食品检测、药物检测、土壤养分检测等领域被广泛应用[10-14]。近红外波段的光谱特征往往与官能团对红外光的选择性吸收有关(如O-H、N-H、C-H 结合的化学键对红外光的吸收波长和强度不同),所以,可以利用NIR 测定土壤中的水分、氮、有机质等参数[15]。
多年来,许多专家学者利用NIR 在检测土壤氮含量方面做了大量研究。郭志新等[16]利用NIR 建立了林地土壤养分的预测模型,达到了良好的预测效果,为林地土壤肥力检测提供了新的方法。彭海根等[17]利用NIR 结合竞争自适应重加权采样(CARS)变量选择算法,建立了昆明地区土壤水解氮的预测模型,有效预测了昆明地区土壤的水解氮含量。刘燕德等[18]利用NIR 检测赣南脐橙果园土壤全氮和有机质,建立了全氮和有机质预测模型。综上所述,许多专家学者利用NIR 对不同类型土壤氮含量进行检测,但对于山西玉米地土壤的近红外检测研究较少。
土壤的光谱特征是土壤内在理化性质的综合反映,土壤的粒度、水分等因素都会对土壤的近红外光谱特征造成影响,不同地区、不同类型的土壤光谱特征也不同[19]。玉米是山西主要种植作物之一,在我国粮食生产中具有重要作用。山西多为旱地,玉米作为耐旱作物主要种植在平原台地、漫岗地和河谷阶地,海拔30~1150 m,年降水量170~800 mm,土壤类型多为白浆土、褐土等,山西玉米地土壤因地理位置和气候等因素使其不同于其他地区[20]。
本试验以山西玉米地土壤为研究对象,探究利用可见近红外光谱建立土壤氮含量的预测模型,并利用不同的预处理和建模方法优化预测模型,旨在为利用可见近红外光谱对土壤养分分析提供理论依据。
试验使用FieldSpec3 光谱仪采集土壤光谱数据,该光谱仪由美国ASD(Analytical Spectral Devices)公司生产,光谱测量范围为350~2500 nm,数据间隔为1 nm,波长精度为±1 nm,波长重复性为±0.02 nm,光谱分辨率在350~1000 nm 波段为3 nm,在1000~2500 nm 波段为10 nm。土壤氮含量由中国力辰科技(LICHEN)公司的全自动凯氏定氮仪测量。
试验土壤来自山西农业大学太谷区玉米试验田,土壤类型为褐土。试验田按8 kg/m2的用量均匀施用有机肥,经过一季玉米生长后,采集土壤样本。采样深度为0~20 cm,采用梅花法用土钻采集5 点的混合样本,挑去其中的树叶和小石块,自然风干后研磨成粉末,过0.42 mm 的筛子,最终得到土壤样本120 个。将每份样本一分为二,一份用于采集光谱数据,一份用于测量土壤全氮含量。试验所测土壤全氮含量如表1 所示,其中,校正集和预测集采用光谱-理化值共生距离(Sample set partitioning based on joint x-y distances,SPXY)算法[21]按2∶1 的比例划分得到。
表1 土壤全氮实测统计Tab.1 Statistical table of actual measurement of soil total nitrogen
光谱数据由光谱仪采用漫反射的形式采集,数据采集前,关闭日光灯,打开近红外光源预热20 min,这样可以确保光源的稳定。土壤样本均匀放置于直径80 mm 的黑色尼龙样品盒中。光谱仪采集器置于样品盒斜上方15 cm 处,光照入射角和采集器角度均为45°。对每个样本采集3 次数据,取平均值作为土壤样本的标准光谱数据,以减小噪声和样品颗粒大小所引起的散射等因素对光谱数据的影响,使光谱数据更有代表性。
1.4.1 数据处理软件 光谱数据平均及转换采用ViewSpecPro 数据处理软件来完成。光谱预处理及建模由挪威CAMO 公司的Unscrambler v 10.4 软件来完成。样本集划分采用SPXY 算法在MATLAB软件中完成。数据图由Origin 绘图软件绘制。
1.4.2 模型验证与评价 预测模型由决定系数(Determination coefficient,R2)、预测均方根误差(Root mean square error of prediction,RMSEP)和校正均方根误差(Root mean square error of calibration,RMSEC)来评价。R2越接近1,RMSE 越小,模型的拟合效果越好;当R2>0.80 时,就认为模型是成功的(Moderately successful);当R2>0.90 时,模型为优秀(successful)。
试验采集的土壤近红外光谱数据不仅有土壤的光谱特征,还包含有大量的无关信息和噪声,比如样品背景和杂散光等因素都有可能对建模分析产生影响,所以,需要利用光谱预处理方法提高光谱的信噪比。为获得更好的建模效果,本研究选择可以消除光谱数据中随机噪声的平滑处理(Smoothing)、可以消除样品颗粒大小和样品表面散射影响的标准状态变换(SNV)、可以提高光谱数据稳定性和减小偏差的基线校正(Baseline)、可以消除数据偏移的去趋势处理(Detrend)、可以归纳统一光谱数据统计分布性的归一化(Normalize)和可以消除光谱散射效应和颗粒分布不均匀影响的多元散射矫正(MSC)6 种光谱预处理方法对原始光谱数据进行处理。
不同的建模方法由于原理不同,也会对模型精度产生影响。本研究采用可以在自变量存在严重多重相关性的条件下进行回归建模及更易于辨识系统信息与噪声的偏最小二乘法(Partial least square,PLS)、可以有效地解决数据分析中高维特征回归问题的支持向量机(Support vector machine,SVM)和可以降低维数和解决多重共线性问题的主成分回归(Principal Component regression,PCR)3 种建模方法建立土壤氮含量预测模型。
将试验所采集的土壤近红外漫反射光谱数据经过平均和转换成吸收光谱数据后,得到土壤近红外光谱图(图1),因为在350~500、2300~2500 nm波段内的噪声较大,所以,本研究采用500~2300 nm波段内的光谱数据。从图1 可以看出,不同土壤样本的光谱波形大致相同,在相近的位置都有比较明显的吸收峰,波峰或波谷出现在1200、1450、1830、1940 nm 等位置。
图1 土壤近红外光谱Fig.1 Near-infrared spectroscopy of soil
经过光谱预处理可有效消除噪声,图2 为经过标准状态变换(SNV)预处理后的光谱图。由图2可知,经过处理后光谱数据的光谱特征更加明显,噪声的影响也大大减少,不同土壤样本的光谱信息差别更容易被解析提取。
图2 经SNV 处理后的光谱Fig.2 The spectroscopy after SNV treatment
2.2.1 PLS 模型预测效果 利用原始光谱数据及6种预处理方法结合PLS建立Original-PLS、Baseline-PLS、Smoothing-PLS、SNV-PLS、Detrend-PLS、Normalize-PLS、MSC-PLS 等7 种土壤氮含量预测模型。相关模型结果如表2 所示,7 种模型校正集Rc2均大于0.8,可以认为模型是成功的,其中Original-PLS、Baseline-PLS 和Smoothing-PLS 模型的预测集预测效果优于其他模型,其均大于0.9,可以认为模型的预测效果优秀。由于试验样本经过充分过筛,颗粒大小均匀,且光谱采集时背景干扰小,仪器性能稳定,所以,Original-PLS 与Smoothing-PLS 模型的预测效果优于其他模型,Rp 2达到0.907,RMSEP 为0.086。因为Smoothing 预处理可以消除光谱数据中的随机噪声,所以,选择Smoothing-PLS 为最佳模型。
表2 土壤光谱预处理后PLS 建模结果Tab.2 Modeling results of PLS after soil spectroscopy pre-processing
2.2.2 SVM 模型预测效果 土壤光谱预处理后SVM 建模结果如表3 所示。
表3 土壤光谱预处理后SVM 建模结果Tab.3 Modeling results of SVM after soil spectroscopy pre-processing
SVM 由于不包括主成分降维处理,所以,需要先利用主成分分析(Principal component analysis,PCA)进行降维处理。经过降维处理后,前4 个主成分累计贡献率达到86.23%,包含了原始光谱数据的大部分特征信息,选择这4 个主成分作为新的输入变量,用80 份校正集样本建立Original-SVM、Baseline-SVM、 Smoothing-SVM、 SNV-SVM、Detrend-SVM、Normalize-SVM、MSC-SVM 等7 种预测模型,之后利用剩余40 份预测集样本对所建立的SVM 预测模型的精度和预测效果进行验证。由表3 可知,7 种模型校正集Rc2均大于0.8,所构建的模型是成功的,用预测集数据验证模型预测效果后,最佳的预测模型为基于Baseline 的SVM 模型,此模型Rp 2达到0.858,RMSEP 为0.120。与PLS 预测模型对比发现,SVM 模型没有达到理想的预测效果,其预测效果均弱于PLS 模型的预测效果。
2.2.3 PCR 模型预测效果 最后利用PCR 建模方法建立Original-PCR、Baseline-PCR、Smoothing-PCR、SNV-PCR、Detrend-PCR、Normalize-PCR、MSC-PCR等7种土壤氮含量预测模型。相关模型结果如表4 所示,PCR 模型的建模效果与PLS 模型相近,7 种模型校正集Rc2均大于0.8,可以认为所建模型成功,用预测集验证预测模型精度及预测效果,其预测效果也与PLS 模型相近,分析对比7 种模型的预测效果,发现最佳的预测模型为基于Baseline的PCR 模型,此模型Rp2达到0.906,RMSEP为0.087。
表4 土壤光谱预处理后PCR 建模结果Tab.4 Modeling results of PCR after soil spectroscopy pre-processing
在原始数据和6 种预处理方法的基础上,使用3 种建模方法建立的最佳模型为Smoothing-PLS、Baseline-SVM 和Baseline-PCR,3 种建模方法的预测模型Rc2均大于0.8,都可以有效预测土壤全氮含量,用验证集验证预测效果,Baseline-SVM 预测模型为0.850,预测效果弱于Smoothing-PLS 和Baseline-PCR 预测模型,Smoothing-PLS 和Baseline-PCR 预测模型Rp 2均大于0.9,模型精度达到了优秀水平,其中,基于Smoothing 的PLS 预测模型效果更好,Rp2为0.907,RMSEP 为0.086,故Smoothing-PLS 为21 种模型中的最佳模型。图3 和图4 为80 个校正集和40 个预测集经Smoothing 预处理后用PLS 建模的预测值和实测值的回归图,由图可知,样本点集中于回归线附近,预测值和实测值很接近,达到了良好的拟合效果。
图3 土壤全氮校正模型预测值与实测值关系Fig.3 Relation between prediction value of soil total nitrogen correction model and measured value
图4 土壤全氮预测模型预测值与实测值关系Fig.4 Relation between prediction value of soil total nitrogen prediction model and measured value
对模型的稳定性进行分析,PLS、SVM 和PCR等3 种建模方法所建立的最佳模型Rc2分别为0.869、0.898、0.862,对应的Rp 2分别为0.907、0.858、0.906,由此可知,3 种模型拟合效果较好,且校正结果与预测结果接近,模型不存在过拟合和欠拟合现象;其中,PLS 模型与PCR 模型效果类似,但PLS模型效果稍好,因为PLS 模型是在PCR 模型的基础上发展而来,但PLS 建模方法更易于辨识系统信息与噪声[22],综合比较,Smoothing-PLS 模型最优。张娟娟等[23]研究发现,对于土壤鲜样,基于Smoothing的PLS 预测模型效果最佳;对于土壤干样,基于Smoothing+Normalize+MSC 的PLS 预测模型效果最佳,这与本研究结果类似,但在预处理方法选择上有所不同。
土壤的光谱特征受多种因素的影响,不同地区不同类型的土壤光谱特征不同,所以,利用NIR 建立的预测模型往往也不能直接迁移,光谱模型的泛用性问题一直都是NIR 应用研究领域的难点[19]。针对这一问题,近年来一些专家学者也做了一些研究,周鹏等[24]研究了不同土壤粒度对基于近红外离散波长土壤全氮预测精度影响,提出了土壤粒度修正法来解决土壤粒度的干扰,显著减小了土壤粒度的影响。郑文瑞等[25]利用迁移成分分析(TCA)提高了模型在另一地区使用时的精度,为速效磷光谱模型的广泛应用提供了新思路。关于光谱模型泛用性问题的研究总体上还研究较少,即便是山西玉米地土壤,就有褐土、白浆土、潮土等类型,在光谱特征上也存在差异[20]。本研究土壤类型仅为褐土,未能全面反映山西土壤类型,模型泛用性不强,将来通过加大不同地区不同类型的土壤样本数量,共同建立预测模型可能会减小干扰因素和提高泛用性,今后应进一步研究。
本研究利用可见近红外光谱检测北方玉米地的土壤全氮含量,在原始数据的基础上,结合6 种预处理方法和3 种建模方法建立了21 种预测模型,最后选出Smoothing-PLS 预测模型为最佳模型,利用模型对未知土壤全氮含量进行预测,模型预测效果良好,说明利用可见近红外光谱对土壤氮含量进行预测是可行的。该模型可有效预测山西玉米地土壤全氮含量,为利用可见近红外光谱对土壤养分分析提供参考。