基于随机森林的缺损杂草种子识别

2016-09-08 10:31龙怡霖
计算机应用与软件 2016年8期
关键词:识别率特征提取类别

龙怡霖 蔡 骋

(西北农林科技大学信息工程学院 陕西 杨凌 712100)



基于随机森林的缺损杂草种子识别

龙怡霖蔡骋*

(西北农林科技大学信息工程学院陕西 杨凌 712100)

针对有缺损的杂草种子图像,提出用于有缺损杂草种子图像识别的分类模型,并讨论不同类型的图像特征对识别结果的影响。通过特征提取及使用核主成分分析法降维得到四种图像特征,并将其组合,将不同类型的特征输入至随机森林分类器,得到不同类型特征下的识别结果。实验结果表明,随机森林分类器对图像中的连续噪声具有良好的鲁棒性;源自彩色图像的特征和源自对应灰度图像的特征具有良好的判别能力互补性。

特征提取核主成分分析随机森林

0 引 言

杂草种子分类与分析在增加农作物产量与维持生态平衡方面有重要作用。全球范围内共有 8000 多种杂草,其中约有250多种能够对经济农作物产生危害[1]。同时,外来杂草等生物物种的入侵不仅能够对农作物产生危害,而且还会破坏生态平衡[2]。进行有效杂草种子分类能够为增加农作物产量与维持生态平衡提供有效保证。

传统的由专家参与的人工杂草种子鉴别具有成本高、速度慢且由于人参与在鉴别过程中而具有一定的主观性,鉴别结果不稳定[3]。从技术和经济效益的角度考虑,需要使用自动、快速识别算法进行杂草种子识别。同时,在实际作物生长环境中,由于潮湿和微生物感染等因素的存在,杂草种子表面可能会产生霉变或病斑;另一方面由于昆虫啃食等因素,杂草种子可能会出现缺损,呈现出不完整的杂草种子。当这类大面积的连续噪声存在于杂草种子图像中时,合理处理这类噪声从而正确识别杂草种子类别同样具有重要意义。基于计算机视觉的方法是当前常用的识别算法。基于计算机视觉的识别算法的流程主要有两部分:图像特征提取和分类器设计。通过提取图像中种子的大小、形状和纹理等特征,使用判别式分析、人工神经网络和贝叶斯等分类器进行识别[3~5]。但是,这类特征和分类器忽略了图片颜色数据的判别能力,同时,用于实验的杂草种子数据集类别太少,实际推广能力较差[6]。

近年来,新的识别算法将颜色和纹理特征应用到杂草种子识别中来。基于主成分分析的方法(PCA,2DPCA,(2D)2PCA,彩色 PCA 等)表明,与传统特征相比,使用颜色和纹理特征能够得到更高的识别率[7]。局部线性嵌入LLE方法与主成分分析方法相比,性能更佳[8]。基于压缩感知的方法能够处理有连续噪声的杂草种子图片,相对以上几种识别算法,该方法鲁棒性强,具有实际意义[9]。但是其实验中的杂草种子类别总数仍然较少,性能受到限制。

为了提高对有缺损(即连续噪声)的杂草种子图像的识别率,将随机森林RF算法应用于有缺损的杂草种子识别作业中。通过对彩色杂草种子进行不同的特征提取,获取 4 种不同类型的特征,通过降维及特征组合,共得到15 种不同类型的特征,并将这15种特征分别用于识别作业,讨论不同类型特征的分类性能。同时,作为对比,将经典的支持向量机SVM算法用于有缺损杂草种子图像的识别中。实验结果表明,与支持向量机分类器相比,随机森林分类器对有缺损的杂草种子图像识别率更高,对图像中的连续噪声具有更好的鲁棒性,更具有实际应用意义。

1 杂草种子数据集介绍及预处理

种子数据集来自阿根廷 Oliveros 国家种子分析实验室[6],共计211个类别,9189张彩色种子图像,图像大小为768×512像素,图像的具体信息可由文献 [6] 得到,同时由文献 [6] 可知,原始种子数据集中种子图像并没有进行几何归一化,即同类别种子的轮廓方向不一致,同时伴随有不同角度的倾斜。这些可避免的噪声会对种子图像的识别产生显著影响。同时原始杂草种子图像分辨率较高,若直接在原始图像上进行识别作业,则识别过程中的时空开销会很大。为了消除这些可避免的影响,同时降低计算过程中的时空复杂度,需要对杂草种子图像进行几何归一化处理。步骤如下。

第一步,人工调整种子图像的方向,使同类别种子的轮廓方向大致相同。

第二步,使用主成分分析PCA[10]方法根据彩色种子图像对应的二值图像寻找种子图像中的两个主轴方向,并计算出主轴方向与竖直方向或水平方向的夹角。

第三步,根据主轴方向与竖直方向或水平方向的夹角旋转种子图像,使种子图像中的长主轴分位于竖直方向上。

第四步,根据旋转后的彩色种子图像对应的二值图像,检测出包含种子区域的最小闭合矩形。

第五步,从旋转后的彩色种子图像中根据最小闭合矩形裁剪出种子图像,并计算最小闭合矩形的宽高比,注意到原始种子图像的宽高比为2∶3,根据最小闭合矩形的宽高比与原始种子图像的宽高比,对裁剪出的种子图像进行边缘拓展,补充纯色背景,以使裁剪出的种子图形宽高比亦为2∶3。

第六步,压缩图像。将宽高比为2∶3的裁剪出的彩色种子图像压缩为96×64像素大小。图 1 给出了对一幅种子图像进行完整的几何归一化的处理步骤。

图1 种子图像的归一化流程

为了模拟自然界中种子因虫咬、霉变等因素而导致的病斑、缺损等,向种子图像中加入不同缺损率连续的块遮挡噪声,得到有缺损的杂草种子图像,缺损率为连续的块遮挡噪声与图像中种子区域面积的比值,实验中缺损率分别取0(即无缺损)、0.05、0.1、0.15 和 0.2。图 2 为5张不同缺损率下的杂草种子图像。

图2 同一颗杂草种子在不同缺损率下的图像

2 特征提取、降维及特征组合

针对有缺损的杂草种子识别作业,分别提取不同抽象层面的杂草种子图像特征,包括低层像素层面的 Rgb 像素值特征、梯度方向直方图HOG特征,中层特征 sketch tokens (STs),以及高层概念层面的特征 Gist。

2.1Rgb 像素值特征提取

使用 R,G,B 三个通道的像素值作为图像特征,使用原始图像像素作为图像的特征表示有以下优点:特征提取的计算耗时少,速度快;不会忽略任何有用的信息;同时,该特征对任何应用不敏感,具有普适性。

2.2HOG特征提取

方向梯度直方图HOG特征于2005年提出,应用于行人检测[11]。由于HOG特征对图像的微小几何形变和局部对比度的变化具有鲁棒性,HOG 特征被成功应用于人脸识别[12]。HOG 特征为人脸识别提供了良好的分类性能,将 HOG 特征应用于缺损杂草种子识别,以期能够得到理想的分类性能。

2.3Gist 特征提取

Gist特征由Oliva等人于 2001 年提出,应用于场景识别[13]。Gist 特征是一种全局特征,对目标形状的变化具有鲁棒性,它基于全局语义表示计算模型得到,通过利用图像内容上下文,避免了对图像进行分割和处理。

由于杂草种子图像中的“主成分”为单个杂草种子,背景为纯色,不易受到其他因素的干扰,每一类种子的图像可以认为是同一种“场景”。通过使用 Gist 特征描述子,可以将杂草种子的分类问题转化为场景识别问题。

2.4Sketch Tokens 特征提取

Sketch Tokens (STs) 特征于2013年提出,应用于目标检测[14]。Sketch Tokens 是基于轮廓表示和有监督学习得到的一种中层特征。中层特征是连接低层基于像素表示的信息和高层抽象概念之间的桥梁,同时是自顶向下处理和自底向上处理的基础。

有监督的中层信息为 Sketch Tokens 特征的提取提供了类别信息,这些中层类别信息通过从彩色图像及其对应的手绘二值轮廓图像中学习得到。类别信息得到后,对一幅新图像首先进行分块,然后使用随机森林分类器,确定图像块的类别归属。分类得到的图像块类别,作为最终的输出特征,称为 Sketch Tokens。

2.5特征降维及组合

以上四种特征提取完成后,使用核主成分分析KPCA[15]方法进行降维操作,将这四种特征降维至相同的维度(实验中为 512 维),得到 4 种用于识别作业的输入特征。

KPCA 由主成分分析PCA进行非线性扩展得到,可以有效地处理数据的非线性特征[16]。通过 KPCA,可以将原始特征空间中线性不可分的数据投影到高维特征空间中再降维(或进行重构),从而达到在新的特征空间中线性可分的目的。

使用 KPCA 对四种特征降维之后,将这四种特征简单串联进行不同类型的组合,对组合后的特征进行二范数归一化,得到另外 11 种组合特征,这 11 种特征分别是GistHog、GistHogSTs、GistHogSTsRgb、GistHogRgb、GistSTs、GistSTsRgb、GistRgb、HogSTs、HogSTsRgb、HogRgb、STsRgb。对识别作业,共得到 15 种输入特征,分别讨论这 15 种特征对识别结果的影响。

3 分类模型设计

针对有缺损的杂草种子识别,设计随机森林分类模型,并将支持向量机作为对比模型。

3.1随机森林模型设计

随机森林RF[17]是一种统计学习理论,应用在分类、回归、半监督学习、密度估计、流形空间学习等领域。随机森林是一系列决策树的集合。对分类问题而言,随机森林能够自然地处理多类分类任务。每一棵决策树通过随机选择特征子集和样本子集训练得到,用于测试样本的预测时得到对测试样本的预测类别分布的概率模型。然后组合森林中所有决策树对测试样本预测类别分布的概率模型,使用投票策略选定测试样本的输出类别。

以下参数在随机森林训练过程中起关键作用。

1) 每棵树的最大深度D。最大深度D的取值首先影响随机森林训练的时空性能,D取值较小时,随机森林的训练时间短、占用存储空间小;D取值较大时则相反。同时,D的取值能够明显地影响随机森林的分类性能,D过小时,易导致低度拟合,泛化性能不足,分类准确率会降低;D过大时,易导致过拟合,影响分类准确率。

2) 森林的随机度ρ及其类型。两种常见的随机度类型为:

(1) 装袋。森林中每一棵树使用从训练数据集中随机抽样的不同子集训练得到。此方法能够有效避免过拟合现象从而提升随机森林的泛化性能。但使用装袋方法训练的随机森林中的每棵决策树没有用到全部的训练数据集,这会忽略一些有用的信息,没有高效地使用训练数据集。

(2) 随机结点最优化RNO。使用此方法训练的随机森林在训练过程中每棵树基于全部的训练数据集训练,避免了对训练样本的抽样操作。每个内部结点随机选择ρ个特征和离散阈值对Γj={(i1,τ1),…,(i0,τρ)},其中j表示单棵决策树中的第j个结点(内部结点),特征il从全部的d维特征空间中一致抽样得到,即(il≠im,∀1≤l

3) 森林中树的总数,即森林的规模T。T越大,分类性能越好,T的选择受限于计算机硬件资源,在计算机硬件资源允许的情况下,T的取值应该尽可能大。

4) 分裂函数的选择。分裂函数在训练和测试过程中起关键作用。分裂函数的参数定义为:

θ=(φ,ψ,τ)

(1)

其中φ=φ(v)为特征选择函数,从全部的特征向量v中选出当前结点计算所使用特征;ψ定义了分裂数据所使用的几何模型;τ包含了二值输出的不等式测试中所使用的阈值。

5) 训练目标函数的选择。训练过程中目标函数的选择决定了当前结点中数据样本的划分,每棵树的预测与评估准则由此确定,对森林的性能有着重要影响。将信息论和信息增益应用于树中分裂结点的目标函数,可得到以下常用的三种目标函数。

使用信息增益作为目标函数,定义为:

(2)

其中S为分裂结点的属性数据集,将S分为左、右两个子集,即SL和SR,H为信息熵,|·|表示数据集中的样本总数。在离散概率分布下,H(S)定义为Shannon信息熵,即:

H(S)=-∑c∈cp(c)log(p(c))

(3)

其中S为训练样本集,c为类别标签,C为全部的类别标签集,p(c)表示集合S中的样本属于c类的概率。

使用信息增益率作为目标函数,定义为:

(4)

其中S,H(S)定义与式 (2) 中定义相同,v为当前分裂属性的取值,V为当前分裂属性的所有可能取值的集合,p(v)表示集合S中的样本的当前分裂属性取值为v的概率。

使用基尼指标度量作为目标函数。基尼指标度量数据划分的不纯净度,定义为:

(5)

其中S定义与式 (2) 中定义相同,G(S)定义为:

G(S)=1-∑c∈C(p(c))2

(6)

其中c,C,p(c)的定义与式(3) 中定义相同。基尼指标目标选择函数选择具有最大不纯净度的属性作为分裂属性。

6) 森林中每棵树对测试样本预测结果的组合。随机森林作为多棵决策树的集合,根据森林中所有决策树的预测结果组合确定最终的输出预测累呗,组合策略有两种方式:

平均全部决策树的预测结果,即:

(7)

其中T为森林的规模,pt(c|v)表示第t棵树对测试样本v的后验概率。森林的最终预测结果为p(c|v)的最大取值所对应的类别,即{c|max(pt(c|v)),∀t∈(1,…,T)}。

将全部决策树的预测结果相乘,即:

(8)

其中划分函数Z用以保证概率分布的归一化,与式 (7) 类似,森林的最终预测结果为p(c|v)的最大取值所对应的类别。

3.2支持向量机模型设计

支持向量机SVM[18]是统计学习理论的实现方法之一,其核心原理是基于结构风险最小化思想,通过核函数变换(特征变换)将输入特征投影到高维特征空间,并在特征空间中寻找最优分类超平面,以期获得较好的分类结果。

4 实验结果与分析

实验中,将杂草种子数据集随机分为训练集和测试集, 训练集和测试集中样本比例为8∶2,并通过不同训练集和测试集划分进行十轮交叉验证。以下的实验数据为十轮交叉验证的均值。通过特征提取和降维及特征组合,得到15 种不同类型的特征,对每一种类型的特征分别训练随机森林模型(RF) 和线性核函数支持向量机(LinearSVM)模型。

在随机森林模型的构建中,选择基于坐标对齐的分裂函数,使用信息增益率作为目标函数,每棵树最大深度为 17,森林规模为2000。表1为缺损率为0 (即无缺损) 情况下的识别率。

表1 缺损率为0下的识别率

表2缺损率为5%下的识别率。

表2 缺损率为5%下的识别率

表3为缺损率为 10% 下的识别率。

表3 缺损率为10%下的识别率

表4为缺损率为 15% 下的识别率。

表4 缺损率为15%下的识别率

表5为缺损率为 20% 下的识别率。

表5 缺损率为20%下的识别率

由表 1 至表 5 可以看出,在无缺损的情况下,随机森林与支持向量机的分类性能相当;当损毁率为 5% 时,支持向量机的分类性能明显下降,仅在一种特征 (STs) 下分类性能高于随机森林;而当损毁率达到 10% 及以上时,支持向量机与随机森林相比,不具有任何优势。说明随机森林模型对杂草种子的缺损、霉变等连续噪声有着良好的鲁棒性,能够有效处理此类噪声,符合实际应用情况。

另一方面,在不同类型的特征之间,一些组合特征(如 GistHog,GistHogRgb)与单种类型特征相比,具有较强的判别能力。而另外一些组合特征(如 HogSTs)相对于单种类型特征对分类性能的提升并不明显。分析原因可以发现,Hog 特征由灰度图像中提取得到,Gist 特征和 Rgb 特征则由彩色图像中提取得到,这三种自不同图像的特征的组合能够提供较好的判别性能,说明对杂草种子图像分类作业而言这三种特征之间具有一定的互补性。当损毁率达到 10% 及以上时,在不同类型的特征下,随机森林的分类准确率均高于支持向量机的分类准确率,说明随机森林模型对杂草种子的缺损、霉变等连续噪声有着更好的鲁棒性,实用性更强。同时,组合特征的分类性能与单种特征相比,对分类器性能具有两方面的影响。

5 结 语

提出用于有缺损的杂草种子识别的随机森林分类器模型。通过图像特征提取和降维及特征组合,讨论不同类型特征对分类器性能的影响。将支持向量机作为对比实验模型,实验结果表明,与支持向量机模型相比,随机森林模型对杂草种子的缺损、霉变等连续噪声有着更好的鲁棒性,实用性更强。

在随机森林参数的选择中,目前仅考虑了使用坐标对齐的分裂函数和使用信息增益率的目标函数,在将来的研究工作中,会讨论其他类型的分裂函数和目标函数对分类器性能的影响。

[1] 郭水良,李扬汉.农田杂草生态位研究的意义及方法探讨 [J].生态学报,1998,18(5): 496-503.

[2] 郭琼霞,黄可辉.危险性病虫害与杂草 [J].武夷科学,2003,19(1): 179-189.

[3] Granitto P M,Navone H D,Verdes P F,et al.Weed seeds identification by machine vision [J].Computers and Electronics in Agriculture,2002,33(2): 91-103.

[4] Petersen P E H,Krutz G W.Automatic identification of weed seeds by color machine vision [J].Seed science technology,1992,20(2): 193-208.

[5] Chtioui Y,Bertrand D,Dattée Y,et al.Identification of seeds by colour imaging: comparision of discriminant analysis and artificial neural network [J].Journal of the science of food and agriculture,1996,71(4): 433-441.

[6] Granitto P M,Verdes P F,Ceccatto H A.Large-scale investigation of weed seed identification by machine vision [J].Computers and Electronics in Agriculture,2005,47(1): 15-24.

[7] You M,Cai C.Weed Seeds Classification Based on PCA,2DPCA,Column-directional 2DPCA and (2D)2PCA[C] //IEEE International Asia Symposium on Intelligent Interaction and Affective Computing (ASIA).Wuhan,NSW: IEEE Press,2009: 187-190.

[8] Zhao F,Cai C,Huang S,et al.Weed seeds recognition using Locally Linear Embedding[C] //IEEE International Conference on Test and Measurement (ICTM).Hong Kong,NSW: IEEE Press,2009: 59-62.

[9] Zhang M,Cai C,Zhu J.Sparse representation for weed seeds classification[C] //IEEE International Conference on Green Circuits and Systems (ICGCS).Shanghai,NSW: IEEE Press,2010: 626-631.

[10] Pearson K.On lines and planes of closest fit to systems of points in space [J].Philosophical Magazine,1901,2(6): 559-572.

[11] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR).San Diego,CA,USA,NSW: IEEE Press,2005: 886-893.

[12] Guo J,Chen W.Face recognition based on HOG multi-feature fusion and random forest [J].Computer science,2013,40(10): 279-282,317.

[13] Oliva A,Torralba A.Modeling the shape of the scene: a holistic representation of the spatial envelope [J].International journal of computer vision,2001,42(3): 145-175.

[14] Lim J J,Zitnick C L,Dollar P.Sketch Tokens: A Learned Mid-level Representation for Contour and Object Detection[C] //IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland,OR,NSW: IEEE Press,(2013): 3158-3165.

[15] Scholkopf B,Smola A,Muller K.Nonlinear component analysis as a kernel eigenvalue Problem [J].Neural Computation,1998,10(6): 1299-1319.

[16] 赵峰,张军英.一种KPCA的快速算法 [J].控制与决策,2007,22(9): 1044-1048,1057.

[17] Criminisi A,Shotton J.Decision Forests for Computer Vision and Medical Image Analysis[M].London,U.K.: Springer,2013: 10-23.

[18] Burges C C.A Tutorial on Support Vector Machines for Pattern Recognition [J].Data Mining and Knowledge Discovery,1998,2(2): 121-167.

RANDOM FOREST-BASED DAMAGED WEED SEEDS RECOGNITION

Long YilinCai Cheng*

(CollegeofInformationEngineering,NorthwestA&FUniversity,Yangling712100,Shaanxi,China)

We proposed a classification model for recognising the image of damaged weed seeds targeted at such images,and discussed the effect of different kinds of image features on recognition result.By features extraction and the dimension reduction using kernel principal component analysis the model obtains four kinds of image features,and combines them as well,and inputs the features in different kinds to random forest classifier to obtain the recognition results under different feature conditions.Experimental results showed that the random forest classifier had ideal robustness to the successive noises in images; and the feature extracted from colour image and the feature extracted from corresponding greyscale image provided excellent complementarity in discriminative power.

Feature extractionKernel principal component analysisRandom forest

2015-03-19。国家自然科学基金项目(61202188)。龙怡霖,硕士生,主研领域:机器视觉与模式识别。蔡骋,副教授。

TP391.4

A

10.3969/j.issn.1000-386x.2016.08.042

猜你喜欢
识别率特征提取类别
基于类图像处理与向量化的大数据脚本攻击智能检测
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于Daubechies(dbN)的飞行器音频特征提取
提升高速公路MTC二次抓拍车牌识别率方案研究
壮字喃字同形字的三种类别及简要分析
Bagging RCSP脑电特征提取算法
高速公路机电日常维护中车牌识别率分析系统的应用
服务类别
多类别复合资源的空间匹配