玉米叶片病害彩色图像识别的降维和聚类方法

2016-10-20 15:42朱景福李雪
江苏农业科学 2016年7期
关键词:识别降维聚类

朱景福 李雪

摘要:应用流形学习算法研究玉米叶片病害图像的识别。首先分别利用PCA、LLE、LE算法对玉米病害灰度图像和彩色图像进行降维,以得到高维空间中的低维特征,然后采用K-means算法进行聚类分析。结果表明:LLE算法作为玉米病害灰度图像识别的特征提取算法,识别率为76.5%;对玉米病害彩色图像进行识别,识别率达到99.5%以上。研究最终提出1种在RGB彩色空间用流形学习算法进行玉米叶片病害彩色图像识别的方法。

关键词:降维;聚类;玉米叶片病害;识别

中图分类号: TP391.41 文献标志码: A 文章编号:1002-1302(2016)07-0350-04

农作物病害是影响粮食生产安全的主要因素之一,准确识别出病害是病害防治的前提。应用计算机图像处理技术实现玉米病害的识别,可以提高病害识别的准确性、精度、效率,同时降低劳动强度[1]。曹丽英等将图像处理技术与BP神经网络算法相结合应用于玉米病害的识别和诊断[2]。Montalvo等利用双阈值法设计了1个在玉米田地里自动识别植物的专家系统[3]。张善文等利用局部判别映射(local discriminant projects,LDP)算法将高维空间的一维向量映射到低维子空间,实现对玉米病害叶片图像的识别[4]。目前图像识别主要的研究方法分为2大类:一类是直接提取叶片图像的颜色、形状或纹理等特征,实现分类识别;另一类是利用流形学习算法等对叶片图像进行维数约简,实现分类识别。这些方法基本都能达到较好的识别率。但是,这些图像识别方法大多基于灰度图像或将彩色图像变换到HSI等彩色空间进行识别,由于灰度变换会丢掉大量的颜色信息,而且由RGB彩色空间转换到其他彩色空间时会使变换后的分量值不再均匀,RGB分量值的细微变化可能导致其他彩色空间分量值的重大变化,所以这些方法仍存在一些问题。为了克服这些问题,本研究提出1种在RGB彩色空间将流形学习算法直接用于玉米叶片病害彩色图像维数约简的方法,解决RGB彩色空间三分量间相关性的问题,并与灰度图像的识别结果进行对比分析,以进一步提高叶片病害识别的精度。

1 算法介绍

玉米叶片病害彩色图像包括纹理、颜色和形状等特征,基于叶片图像的作物病害识别方法一直是主要的研究方向[5]。其中,对叶片图像进行维数约简和特征提取是最重要的环节。但是,彩色图像显示和存储一般都是在RGB色彩空间表示,R、G、B 3个分量之间常常有很高的相关性,直接利用这些分量不能得到所需的效果[6]。因此,大多数特征提取方法都是基于灰度图像或是变换到其他彩色空间进行处理。流形学习算法是一类非常有效的降维方法,本研究以期克服彩色图像3个分量间相关性的缺陷,利用流形学习算法分别对玉米叶片灰度图像和彩色图像进行降维。

流形学习算法是近年来发展较为迅速、有效的降维算法,已经成功应用于人脸识别和医学数据处理等方面。Aljabar等基于流形学习算法,提出1种利用体形和外貌来分析新生儿大脑发育情况的方法[7]。Hadid等基于流形学习算法,设计出从视频序列中识别出人脸并分类的系统[8]。阎庆等针对局部线性嵌入(locally linear embedding,LLE)算法不适用于分类问题的特点,提出1种基于Fisher变换的改进LLE算法,应用于植物叶片图像识别[9]。Czaja等提出1种新的流形学习算法来分析生物医学数据和新的多光谱视网膜图像[10]。Chahooki等利用流形学习算法提出1种对二值图像进行目标识别和图形索引的方法,以提高识别率[11]。

常见的流形学习算法可分为线性、非线性两大类。主成分分析(principal component analysis,PCA)算法是最常用的1种线性降维算法。PCA算法是用线性变换的方法找到1个新的低维投影空间来减少信息的冗余。非线性降维算法中比较有代表性的有LLE算法和拉普拉斯特征映射(Laplacian eigenmap,LE)算法。LLE是1种利用流形的局部线性将高维度空间流形展开到低维度空间的算法[12]。LLE认为数据是局部线性的,任何1点可由其近邻点的线性组合来表示[13]。LE采用图片的拉普拉斯算子描述流形的局部特征,求解能够保持数据之间远近关系的低维嵌入[14]。本研究主要采用PCA、LLE、LE算法这3种算法来对玉米叶片病害图像进行特征提取,以期实现对玉米病害的识别。

1.1 流形学习算法

定义1(同胚):1个连续函数的逆还是连续函数则称为同胚。

定义2(流形):当M满足以下条件时称为n维流形。

(1)M为Hausdorff空间。即对于空间M中任意2个点X、Y,存在U、V为点X、Y的邻域,且满足UIV=Φ。

(2)对于M中任意1点P,都有1个开邻域UM,使U和n维欧式空间Rn中的开子集同胚。

定义3(坐标图册):1个d 维流形M是1个与空间Rd局部同胚的集合,即对1个x∈M,都存在1个开邻域Ux,以及1个同胚映射f:Ux→Rd。则映射f称为坐标图册。

定义4(流形学习):1个高维数据集D={x1,x2,…,xn}∈RN,假设它在由坐标图h:M→Rd所确定的d维流形M上,流形学习就是寻找Y={y1,y2,…,yn}∈Rd,使yi=h(xi)(i=1,2,…,n)。

1.2 PCA算法

PCA算法是在假设样本数据之间关系是线性的前提下运用的。它的主要目标是通过线性变换寻找1组最优的单位正交向量基,并用它们的线性组合来重构原样本,以使重建后的样本和原样本的误差最小[15]。PCA算法的基本步骤如下。

(1)对输入矩阵X={x1,x2,…xn∈Rn}进行中心化,即计算X=XI=1neeT。

(2)对XXT进行特征值分解,即求解XXT=UΛUT。其中U是正交矩阵,Λ是对角矩阵且满足λ1≥λ2≥…≥λm(λ为特征值)。

(3)计算Y=UdTX,其中Ud是由U的前d列组成的矩阵。

(4)返回Y。

1.3 LLE算法

LLE算法认为数据流形是局部线性的,算法强调在数据集的结构不满足全局线性结构时,观测空间与内在低维空间之间在局部意义下的序可以用线性空间来近似[16]。LLE算法是基于局部保序的思想。LLE算法的基本步骤如下。

(1)将数据集X={x1,x2,…,xn∈Rn}中每个点xi的k个近邻点xj(i=1,…,n;j=1,…,k)构成点xi的邻域:Xi={xi1,xi2,…,xin}。

(2)针对每个数据点xi,计算重建系数:Wi=∑kCjk-1∑lmClm-1,使|xi=∑jWijXij|最小,并且∑jWij=1。

(3)求解(I-W)T(I-W)的非零特征值和特征向量,第2至(d+1)个最小特征值所对应的特征向量按列排列所构成的矩阵则为输出矩阵Y。

(4)返回Y。

1.4 LE算法

LE算法的基本思想:在高维空间中距离很近的点投影到低维空间中的像也应该离得很近,保持高维空间与变换后的低维空间的拓扑关系不变性[17]。LE算法的基本步骤如下。

(1)将数据集X={x1,x2,…,xn∈Rn}中每个点xi的k个近邻点xj(i=1,…,n;j=1,…,k)构成点xi的邻域:Xi={xi1,xi2,…,xin}。

(2)为各条边赋权值。若任意点xi和xj之间有边相连,则其权值为:Wij=exp(-|xi-xj|2/t)或Wij=1;否则Wij=0。其中t为参数。

(3)计算拉普拉斯算子L=D-W的特征值、特征向量,其中:D为对角矩阵,且Dij=∑jwji。第2至(d+1)个最小特征值所对应的特征向量按列排列构成的矩阵则为输出矩阵Y。

(4)返回Y。

2 玉米叶片病害图像处理

本试验采用从黑龙江八一农垦大学试验田中实地采集到的玉米叶片病害和无病害的真色彩图像,用Photoshop软件把病害图像分割成只含有叶片背景、病斑的图像,图像大小为131×86像素,将无病害图像分割成只含有绿色叶片的图像,图像大小也为131×86像素,详见图1。选取100幅病害图像和100幅无病害图像进行试验。

采集图片的器材是SONY DSC-W350D数码相机。在Windows XP环境下,用CPU为E4600、主频为2.4 G、内存 2 GB 的计算机对玉米图像进行处理,处理的程序用Matlab 71语言编写。

3 玉米病害图像的特征提取

目前以高斯模型算法为代表的图像处理技术,只是提取玉米病斑图像的颜色特征,根据得到的单一颜色特征与特征模板进行匹配,确定病斑的类型,从而完成对玉米病斑的识别[18]。但是,不同病害图像的颜色、纹理和形状特征各不相同,单纯采用某一种特征进行病害识别,会丢失信息,很难提高识别率[19]。本研究主要采用PCA、LLE、LE算法这3种算法分别对玉米叶片病害灰度图像和彩色图像进行特征提取,再运用K-means算法[20]进行聚类,实现对玉米病害的识别,从而综合考虑病斑的不同特征,提高识别率。

3.1 灰度图像特征提取的聚类试验

将处理后的100幅病害图像、100幅无病害图像运用rgb2gray函数转换成灰度图,再用PCA、LLE、LE算法对图片进行降维来提取特征,分别降到2、3、4、…、50维并保存(降到几维即保留几个特征)。其中降为2、3维后的效果见图2,图中黑点表示无病害图像、灰点表示病害图像。

将图2中的6幅图进行对比可以看出:2、3维的LLE算

法的降维结果要优于PCA、LE算法,较好地区分开了红点、绿点,交集部分较少。

为了进一步研究哪种降维算法更适用于玉米叶片病斑图像的识别,降到几维(保留几个特征)效果最好,本研究采用K-means算法对降维后的数据进行聚类(聚成2类)分析,得到正确识别率(简称正识率)见表1。试验表明:误识率=1-正识率,漏识率=0。

从表1中3种降维算法的正识率可以清晰地看出,LLE算法降维结果的聚类正识率要远远高于PCA、LE算法,并且可以稳定在76.5%。因此,对于灰度图像,选取LLE算法作为玉米病害图像识别的特征提取算法是可行的。

3.2 彩色图像特征提取的聚类试验

(1)方法1。流形学习算法可以直接应用于图像的每个颜色分量上,以分别提取特征,再进行聚类分析。试验采用PCA、LLE、LE算法对每个颜色分量进行降维,依次降到2、3、4,…,50维;运用K-means算法对降维后的数据进行聚类(聚成2类)并标记。对聚类结果进行分析,对于每幅图像,当R、G、B 3个分量中有2个及2个以上分量被标记为有病,则判定该幅图像为病害图像;然后,再将判定结果与原图像进行对比,验证其是否被正确识别,得到的正识率见表2。

从表2中的正识率可以看出,LLE算法尽管在降为9维及以后,B颜色分量上聚类试验出错,得不到正识率,但是在2至8维之间其降维结果的聚类正识率要远远高于PCA、LE算法,并且稳定在77.0%~77.5%。但是,此方法与灰度图像试验方法相比并没有提高识别率。

(2)方法2。运用流形学习算法将图像中的每1点由3维彩色空间映射到1维灰度空间,然后再进行特征提取,这样既可以去除3个分量之间的相关性,又可以很好地保持彩色图像丰富的特征信息[21]。1幅彩色图像是1个131×86×3的矩阵,试验依次提取每个像素点的3个分量使其转化为 33 798×1的矩阵再进行堆叠,然后采用PCA、LLE、LE算法、K-means算法进行降维和聚类分析,得到降为2、3维后的效果见图3,正识率见表3。

从图3可以看出,3种算法都良好地区分开了黑点、灰点,与图2相比均有所改善,识别出了病害图像、无病害图像。

从表3中的正识率可以清晰地看出,尽管LLE算法在降为20维及以后,聚类试验出错,得不到正识率,但整体来看,3种算法降维结果的聚类正识率都非常好,尤其是PCA、LE算法可以100%识别出病害图像、无病害图像。该方法的识别率明显高于灰度图像的试验方法,因此将这种方法作为玉米病害彩色图像的识别方法是可行的。

4 结论

本研究针对玉米叶片的病斑及其相关特征可以直接反映病害的种类及程度的特点,通过采用PCA、LLE、LE算法3种降维算法分别对玉米叶片病害的灰度图像、彩色图像进行降维,并对降维结果进行聚类分析,由于灰度图像只保留了病斑的部分颜色特征,而彩色图像则完全保留了病斑的全部特征,因此针对彩色图像的识别率远远高于针对灰度图像的识别率。通过试验表明,选取LLE算法作为玉米病害灰度图像识别的特征提取算法,正确识别率为76.5%;对于玉米病害彩色图像,将3维矩阵转化为1维矩阵再进行处理的方法,PCA、LLE、LE算法均有较高的正确识别率,识别率达到995%以上。

参考文献:

[1]温长吉,王生生,于合龙,等. 基于改进蜂群算法优化神经网络的玉米病害图像分割[J]. 农业工程学报,2013,29(13):142-149.

[2]曹丽英,张晓贤,伞晓辉,等. 基于图像处理技术和BP神经网络算法的玉米病害诊断方法的研究[J]. 计算机科学,2012,39(10):300-302.

[3]Montalvo M,Guerrero J M,Romeo J,et al. Automatic expert system for weeds/crops identification in images from maize fields[J]. Expert Systems With Applications,2013,40(1):75-82.

[4]张善文,张传雷. 基于局部判别映射算法的玉米病害识别方法[J]. 农业工程学报,2014,30(11):167-172.

[5]朱景福,李 雪. 聚类算法在玉米叶片病斑降维识别中的应用[J]. 江苏农业科学,2015,43(1):405-406.

[6]牛海晶,尚可可,刘 迎,等. 皮肤红斑彩色图像分割的降维方法研究[J]. 计算机工程与应用,2006,42(13):219-221.

[7]Aljabar P,Wolz R,Srinivasan L,et al. A combined manifold learning analysis of shape and appearance to characterize neonatal brain development[J]. IEEE Transactions on Medical Imaging,2011,30(12):2072-2086.

[8]Hadid A,Pietikainen M. Demographic classification from face videos using manifold learning[J]. Neurocomputing,2013,100(2):197-205.

[9]阎 庆,梁 栋,张晶晶. 基于Fisher变换的植物叶片图像识别监督LLE算法[J]. 农业机械学报,2012,43(9):179-183.

[10]Czaja W,Ehler M. Schroedinger eigenmaps for the analysis of biomedical data[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(5):1274-1280.

[11]Chahooki M A,Charkari N M. Learning the shape manifold to improve object recognition[J]. Machine Vision and Applications,2013,24(1):33-46.

[12]陈宏达,普晗哗,王 斌,等. 基于图像欧氏距离的高光谱图像流形降维算法[J]. 红外与毫米波学报,2013,32(5):450-455.

[13]Roweis S T,Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science,2000,290(550):2323-2326.

[14]侯臣平,吴 翊,易东云. 新的流形学习方法统一框架及改进的拉普拉斯特征映射方法[J]. 计算机研究与发展,2009,46(4):676-682.

[15]普晗晔,王 斌,张立明. 基于流形学习的新高光谱图像降维算法[J]. 红外与激光工程,2014,43(1):232-237.

[16]许熳锋. 无监督流行学习算法的若干探讨[D]. 杭州:浙江大学,2010.

[17]黄启宏,刘 钊. 流形学习中非线性维数约简方法概述[J]. 计算机应用研究,2007,24(11):19-25.

[18]何 倩,郑向阳. 模糊识别技术在玉米病斑识别中的应用研究[J]. 计算机仿真,2012,29(5):251-253,286.

[19]王守志,何东健,李 文,等. 基于核K-均值聚类算法的植物叶部病害识别[J]. 农业机械学报,2009,40(3):152-155.

[20]贲志伟,赵勋杰. 基于改进的K均值聚类算法提取彩色图像有意义区域[J]. 计算机应用与软件,2010,27(9):11-13.

[21]肖 锋,郭丽娜. 基于降维技术及空间矩的彩色图像亚像素边缘检测[J]. 计算机应用与软件,2014,31(6):204-207.

猜你喜欢
识别降维聚类
混动成为降维打击的实力 东风风神皓极
降维打击
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
青岛市中山公园园林树木易混淆品种识别
一种层次初始的聚类个数自适应的聚类方法研究
抛物化Navier-Stokes方程的降维仿真模型
基于特征联合和偏最小二乘降维的手势识别
自适应确定K-means算法的聚类数:以遥感图像聚类为例