基于遥感的随机森林农田水肥等级分级算法

2016-09-08 10:31龙怡霖
计算机应用与软件 2016年8期
关键词:示范田水肥农作物

龙怡霖 蔡 骋

(西北农林科技大学信息工程学院 陕西 杨凌 712100)



基于遥感的随机森林农田水肥等级分级算法

龙怡霖蔡骋*

(西北农林科技大学信息工程学院陕西 杨凌 712100)

农田水肥诊断对农作物增产与维持生态平衡稳定有重要意义。针对农作物航空遥感图像,提出用于农田水肥等级分级的随机森林分类模型,并讨论随机森林分类模型用于农田水肥等级分级的适用性。提出的模型基于随机森林分类器,通过对遥感图像进行特征提取与降维,将不同区域的遥感图像特征和对应的水、肥等级标签输入随机森林,训练分类模型,得到不同区域的分级结果。实验结果表明,在植被覆盖密度较高的区域中,随机森林分类模型能够为农作物含水量分级提供较好的分级参考,具有一定的适用性。

遥感图像特征提取主成分分析随机森林

0 引 言

精确评估农田肥水含量对增加农作物产量与维持生态稳定与平衡具有重要意义。现阶段农作物产量增加主要基于大量施用化肥与改善灌溉条件实现,我国农作物的增产, 30%~50% 依赖于化肥投入的增加,28% 依赖于灌溉[1,2]。日益短缺的水资源现状要求在农作物生产过程中进行更加有效的作物水分管理,用以获取较高产量和较高质量的农作物产品[3]。另一方面,化肥投入量的增加,带来了农作物产量的提升,但同时也造成了水体富营养化、土壤物理和化学属性恶化、地下水污染等一系列生态问题,并对农作物增产产生负反馈作用[4]。

农作物产量与土壤水含量之间有密切关系,过多或过少的土壤含水量均能影响农作物产量[5]。土壤肥含量对农作物生产同样起着关键作用,如在合适的水分条件下增加钾肥和磷肥量能够提升大豆的抗旱能力并增产,而水分过多会对大豆生长产生负作用[6]。因此,需要对指定农作物寻求适用的水肥等级分级模型,用以指导对作物灌水量和施肥量进行合理地控制。

农作物水肥含量的不同会导致叶片颜色、厚度以及形态结构产生区别,进而造成光谱反射特性的差异,基于光谱反射特性差异甄别物体的遥感技术使作物水肥含量的实时监测和快速诊断成为可能[3]。近年来,利用快速发展的航空、航天定量遥感技术可以大面积、无破坏、快速地获取农作物生长信息,与传统地农作物水分营养快速诊断方法相比,具有更加快速、成本更低的优点[7]。

通过农田的遥感图像可捕捉到农作物的叶片光谱信息,进而基于农作物的叶片光谱信息可确定农作物的水肥含量,从而对农作物的生长状况做出判断。在已知农作物生长状况的情况下,可根据这些遥感图像信息确定农田的水肥等级。

在实际生产中,由于不同区域的气候、土壤、作物与农作管理存在较大空间差异,因而限制作物水肥诊断模型的适用范围[4]。对某一较小范围区域(如乡镇)而言,应探寻特定的基于遥感的水肥等级分类模型。

为了实现对杨凌农业高新技术产业示范区辖区内作物水肥含量的快速分级,为精准灌溉与施肥提供参考,将随机森林RF(Random Forest)算法与对应区域内航空遥感图像结合,用于水肥等级分级作业中。通过对航空遥感图像进行特征提取与降维,将降维后的特征新信息作为随机森林的输入特征用于分级作业。实验结果表明,在植被覆盖密度较大的区域(JL, 巨良)内,随机森林算法与多光谱遥感图像相结合,能够为作物含水量等级分级提供良好的分级效果。

1 遥感图像介绍与特征提取

1.1遥感图像介绍

遥感图像由杨凌农业高新技术产业示范区提供,于2014年6月在杨凌示范区辖区内的巨良、揉谷、杏林以及果业示范田使用 Tetracam ADC3 多光谱数码相机航拍及后处理得到,收集到红、绿和近红外三个波段的数据,通过正射投影与拼接处理,得到最终的整体遥感图像[8]。图1为果业示范田多光谱遥感图像。

图1 果业示范田多光谱遥感图像

在图1中,果业示范田多光谱遥感图像分别率为3000×900像素,遥感图像区域实际面积约为1200 m×360 m,根据遥感图像与图像区域实际面积之间的对应关系,图像区域被划分为150×45个8 m×8 m的子区域,对应于遥感图像上20×20像素大小的块。由专家标记出每个子区域的含水量等级(涝、水量过多、水量适宜、缺水、严重缺水)和肥力等级(肥过量、适宜、缺肥)。

1.2特征提取与降维

在分级作业中,使用遥感图像的RGB三通道的像素值特征作为分级算法的输入特征。根据1.1节对遥感图像及其对应区域关系的介绍,将遥感图像划分为20×20像素的子块,对每一个子块进行RGB三通道特征提取及规范化操作,每个子块可得到1200维RGB三通道特征。图2为图1的子块划分对应图像。

图2 图1的对应分块图像

RGB三通道特征提取后每个样本( 像素的图像块)得到1200维特征,这1200维特征对随机森林分类器而言,仍然偏高,会导致分类器训练速度慢,训练时间过长。为提高分离器训练速度和消除噪声,需要对原始特征进行降维预处理。使用主成分分析法(PCA)进行降维[9]。使用主成分分析法对样本的原始特征矩阵进行特征值分解,得到原始特征矩阵的能量分布。以果业示范田遥感图像子块的特征矩阵为例,原始特征的能量分布与累积能量分布如图3所示。

图3 果业示范田遥感图像子块特征矩阵能量分布

从图3中可以看出,85%的能量集中在前50个特征维度中,在实验中,使用主成分分析法将特征维度从原始的1200维降至200维。

在实验中,将由巨良、揉谷、杏林以及果业示范田的多光谱遥感图像进行分块处理产生的像素大小的图像块作为样本,对应地由专家标记出每个图像块的含水量等级(涝、水量过多、水量适宜、缺水、严重缺水)和肥力等级(肥过量、适宜、缺肥)作为标签。对样本进行特征提取与降维后的特征作为分级模型的输入特征,样本的含水量等级和肥力等级作为分级模型的输入类别,分别训练含水量等级分级模型和肥力等级分级模型。

2 分级模型设计

针对水肥等级分级作业,设计随机森林分级模型,用于水肥等级分级。

随机森林RF是多棵决策树的集合,基于统计学习理论应用于分类、回归等方面[10]。针对分类作业,随机森林通过随机选择特征子集和样本子集,训练每一棵决策树,并将每一棵决策树用于测试样本的预测,得到每一棵树对测试样本的类别分布的概率模型,然后组合森林中所有决策树对测试样本类别分布的概率模型,得到最终的类别分布概率输出,判定具有最大概率的类别为测试样本的输出类别。随机森林用于分类时,有两个阶段,即训练阶段和测试阶段,通过“离线”的训练,得到随机森林模型,再将模型应用在测试数据上,即“在线”的测试,得到待测样本的类别归属。

随机森林用于水肥等级分级时,主要有以下参数。

(1) 每棵树的最大深度D。最大深度D的取值对森林的分类性能有着明显影响,D取值过小时,容易产生低度拟合,分类准确率会降低;D取值过大时,容易产生过拟合,分类准确率也会降低[11]。

(2) 森林的随机度ρ及其类型。两种常见的随机度类型为:

装袋[12,13]。森林中每一棵树使用不同的子集来训练,这些子集从训练数据集中随机抽样得到。装袋方法可以避免过拟合并且能够提高森林的泛化性能,但使用装袋方法训练得到的森林中每棵树没有使用到全部的训练样本,会忽略掉一些有用的信息。

随机结点最优化RNO(Randomized Node Optimization)[14,15]。使用随机结点最优化方法训练的森林中,每棵树都基于全部的训练样本构造,在建树过程中没有对训练样本的抽样操作。在建树过程中,每棵树的内部结点随机选择ρ个特征和离散阈值对Γj={(i1,τρ)},其中j表示单棵决策树中的第j个结点(内部结点),特征il从全部的d维特征空间中一致抽样得到,即(il≠im,∀1≤l

(3) 森林中树的总数,即森林的规模T。森林的规模T越大,分类准确率越高[16,17]。T的选择仅仅取决于计算开销,即时空复杂度。

(4) 分裂函数的选择。分裂函数在训练和测试过程中起关键作用。分裂函数的参数定义为:

1.1 高温发酵消毒:在夏季高温的6~8月间,起出旧床土或其它育苗用土,与圈粪或秸棵、草皮、杂草、粉碎的植物秸秆等,分层堆积,每层厚度约16厘米,堆底直径3~5米,高度2米左右,呈馒头型,外面用锹拍实后抹一层泥,上面留一个口,从口处倒入大粪稀或淘米水使堆内充分湿润,用泥封口,盖上塑料,底边压严,进行高温发酵。此法简便易行,不但能杀死床土中的病原菌,还能杀死虫卵和草籽,而且肥沃、疏松。封冻前过筛备用。

θ=(φ,ψ,τ)

(1)

其中φ=φ(v)为特征选择函数,从全部的特征向量v中选出当前结点计算所使用特征;ψ定义了分裂数据所使用的几何模型,如坐标对齐的超平面、倾斜超平面和普通表面等;τ包含了二值输出的不等式测试中所使用的阈值。分裂函数类型主要有线性和非线性两种[14,18]。线性数据划分的分裂函数定义为:

h(v,θ)=[τ1>φ(v)·ψ>τ2]

(2)

其中[·]为示性函数,例如,在二维特征空间中,可选择φ(v)=(x1,x2,1)T,ψ∈3为同轮坐标系中的线性划分,如图4和图5所示,令ψ=(1,0,ψ3)或ψ=(0,1,ψ3),即可得到基于坐标对齐的线性数据划分分裂函数。

非线性数据划分的分裂函数通过使用高自由度表面替换特征超平面得到,如在二维特征空间中,可使用圆锥曲线实现非线性的数据划分,其分裂函数定义为:

h(v,θ)=[τ1>φT(v)ψφ(v)>τ2]

(3)

其中ψ∈3×3表示同轮坐标系中的圆锥曲面,如图6所示。

图4 基于坐标对齐的线性数据划分分裂函数示例

图5 基于一般线性数据划分分裂函数示例

图6 基于圆锥曲线非线性划分的分裂函数示例

(5) 训练目标函数的选择。训练过程中目标函数的选择对森林的性能有着重要影响,决定着每棵树的预测与评估准则。熵和信息增益的概念,构建出基本的目标函数模型。

将信息论和信息增益应用于树中分裂结点的目标函数,可得到以下常用的三种目标函数。

使用信息增益作为目标函数,定义为:

(4)

其中S为分裂结点的属性数据集,将S分为左、右两个子集,即SL和SR,H为信息熵,|·|表示数据集中的样本总数。针对类别标签为离散值的分类问题,即在离散概率分布下,H(S)定义为Shannon信息熵,即:

H(S)=-∑c∈Cp(c)log(p(c))

(5)

使用信息增益率作为目标函数,定义为:

(6)

其中S、H(S)定义与式(4)中定义相同,v为当前分裂属性的取值,V为当前分裂属性的所有可能取值的集合,p(v)表示集合S中的样本的当前分裂属性取值为v的概率。信息增益率目标函数选择具有最大信息增益率的属性作为分裂属性。

使用基尼指标度量作为目标函数。基尼指标度量数据划分的不纯净度,定义为:

(7)

其中S定义与式(4)中定义相同,G(S)定义为:

G(S)=1-∑c∈C(p(c))2

(8)

其中c、C、p(c)的定义与式(5) 中定义相同。基尼指标目标选择函数选择具有最大不纯净度的属性作为分裂属性。

(6) 森林中每棵树对测试样本预测结果的组合。随机森林作为多棵决策树的集合,其预测结果由森林中所有决策树的预测结果组合决定,组合策略有两种方式:

平均全部决策树的预测结果,即:

(9)

其中T为森林的规模,pt(c|v)表示第t棵树对测试样本v的后验概率[13]。森林的最终预测结果为p(c|v)的最大取值所对应的类别,即{c|max(pt(c|v)),∀t∈(1,…,T)}。

将全部决策树的预测结果相乘,即:

(10)

其中划分函数Z用以保证概率分布的归一化,与式(9)类似,森林的最终预测结果为p(c|v)的最大取值所对应的类别。

3 实验结果与分析

实验中,将20×20像素大小遥感图像块的样本特征集及其对应的等级标签随机分为训练集和测试集,训练集和测试集的样本比例为8∶2,并通过训练集和测试集的多次划分进行十轮交叉验证。以下实验结果数据取十轮交叉验证的均值。

随机森林模型的训练过程中,使用基于坐标对齐的分裂函数,使用信息增益率作为目标函数,每棵树的最大深度为4,森林规模为2000。

表1为含水量等级分级准确率,并将文献[8]的实验结果作为对比。

表1 含水量等级分级准确率

表2为肥力等级分级准确率。

表2 肥力等级分级准确率

由表1及表2可以看出,使用随机森林进行含水量等级分级时,在巨良示范田遥感图像中取得了最好的分级准确率(83.67%),具有一定的实际参考意义;而在其他区域的分级准确率不够理想。使用随机森林进行肥力等级分级时,在果业示范田遥感图像中取得了最好的分级准确率(68.98%),但分级效果仍不理想。同时,在实验中发现,十轮交叉验证下果业示范田遥感图像的分级准确率的方差较大(15.7397),即分级准确率波动较大,结果不稳定。通过对比四个区域的遥感图像发现,植被覆盖密度能够影响到实验结果,与果业示范田(主要作物为果树,果树之间有较大间隙,这些间隙对应到遥感图像上,会造成大面积的无效数据,即噪声)相比,巨良示范田的植被覆盖密度较大(作物为玉米,作物间的间隙相对较小,产生的噪声较小),因而取得了较好的分级准确率。

4 结 语

将随机森林算法用于基于遥感图像的水肥等级分级作业中,通过对遥感图像进行分块与特征提取及降维,使用对应的专家鉴别信息作为特征标签,讨论随机森林算法用于基于遥感图像的水肥等级分级作业的适用性。实验结果表明,在植被覆盖密度较高的区域中,随机森林算法能够对作物含水量等级进行较为有效的分类,具有一定适用性。

在后续工作中,会讨论更加有效的特征提取,以降低作物间较大间隙等类型噪声对分级性能的影响。

[1] Jin J. Strenthening research and technology transfer to improve fertilizer use in China[C]//Proceedings of the IFA Regional conference for Asia and the Pacific. Hong Kong,1998:21.

[2] Xie J C, Xing W Y, Zhou J M. Current use of, and requirement for, nutrients for sustainable food production in China[C]//Nutrient management for sustainable crop prodcution in Asia. Wallingford,1998:267-277.

[3] 薛利红, 罗卫红, 曹卫星,等.作物水分和氮素光谱诊断研究进展 [J].遥感学报,2003,7(1):73-80.

[4] 陈健. 基于遥感和作物模型的冬小麦水肥生产力及产量差研究[D]. 北京: 中国农业大学, 2007.

[5] 马强, 宇万太, 沈善敏,等. 下辽河平原水肥交互作用及对玉米产量的影响 [J].农业工程学报,2007,23(4):29-33.

[6] 马强, 宇万太, 周桦,等.不同水肥条件对大豆产量的影响 [J].土壤通报,2009,40(6):1311-1315.

[7] 王之杰. 冬小麦冠层氮素分布与品质遥感的研究[D]. 北京: 中国农业大学, 2004.

[8] 张弘炀, 蔡骋, 李书琴. 基于遥感的PCA-KNN农田蓄水等级分类算法[C]//第17届全国图像图形学学术会议. 珠海, 北京交通大学出版社,2014:616-620.

[9] Pearson K. On lines and planes of closest fit to systems of points in space[J].Philosophical Magazine,1901,2(6):559-572.

[10] Criminisi A, Shotton J. Decision Forests for Computer Vision and Medical Image Analysis[M].London, U.K.:Springer,2013:10-23.

[11] Shotton J, Fitzgibbon A,Cook M, et al. Real-time human pose recognition in parts from single depth images[C]//IEEE conference on computer vision and pattern recognition (CVPR). Providence,2011:1297-1304.

[12] Breiman L. Bagging predictors[J].Machine Learning, 1996, 24(2):123-140.

[13] Breiman L. Random Forests[J].Machine Learning, 2001,45(1):5-32.

[14] Lin Y, Jeon Y. Random Forests and Adaptive Nearest Neighbors[J].Journal of the American Statistical Association, 2006, 101(474):578-590.

[15] Ho T. The random subspace method for constructing decision forests[J].IEEE transactions on pattern analysis and machine intelligence (TPAMI), 1998, 20(8):832-844.

[16] Shotton J, Johnson M, Cipolla R. Semantic texton forests for image categorization and segmentation[C]//IEEE conference on computer vision and pattern recognition (CVPR). Anchorage,2008:1-8.

[17] Pei Y, Criminisi A, Winn J, et al. Tree-based Classifiers for Bilayer Video Segmentation[C]//IEEE conference on computer vision and pattern recognition (CVPR) Minneapolis,2007:1-8.

[18] Yao B, Khosla A, Li F F. Combining randomization and discrimination for fine-grained image categorization[C]//IEEE conference on computer vision and pattern recognition (CVPR) Providence,2011:1577-1584.

REMOTE SENSING-BASED FARMLAND WATER CONTENT AND FERTILITY GRADING ALGORITHM VIA RANDOM FOREST

Long YilinCai Cheng*

(CollegeofInformationEngineering,NorthwestA&FUniversity,Yangling712100,Shaanxi,China)

Diagnosis of water content and fertility of farmland has great significance on increasing crop yield and maintaining ecological balance. We propose a random forest classification model for grading the water content and fertility of farmland aiming at the aviation remote sensing image of crops, and discuss the applicability of the model in such grading. The proposed model is based on random forest classifier, by carrying out feature extraction and dimension reduction on remote sensing images, it inputs the features of remote sensing images in different regions and the corresponding water content and fertility grading labels into random forest, trains the classification model, and derives grading results for different regions. Experimental results show that in those regions with higher density of vegetation coverage, random forest classification model can offer quite good grading reference for crops water content grading, and has certain applicability.

Remote sensing imageFeature extractionPrincipal component analysisRandom forest

2015-03-13。国家自然科学基金项目(61202188)。龙怡霖,硕士生,主研领域:机器视觉与模式识别。蔡骋,副教授。

TP391.4

A

10.3969/j.issn.1000-386x.2016.08.058

猜你喜欢
示范田水肥农作物
雅苒致力于推动水肥一体化
“水肥一体”新系统 助力增收有一手
高温干旱持续 农作物亟须“防护伞”
俄发现保护农作物新方法
夏季农作物如何防热害
厉害了!农作物“喝”上环保酵素
水稻新品种“津原89”百亩示范田实收测产882.9公斤超过北方超级稻850公斤产量指标
施用“镁立硼”生病辣椒痊愈了
“水肥一体化”这么厉害!
浅谈水肥一体化技术在北方贫困山区的应用与推广