基于ScSPM算法的蛹虫草长势识别研究

2018-10-25 01:21万华谢志亨涂淑琴
现代计算机 2018年27期
关键词:虫草金字塔准确率

万华,谢志亨,涂淑琴

(华南农业大学数学与信息学院,广州 510642)

0 引言

蛹虫草(Cordyceps Militaris)是一种含有虫草酸、虫草素、虫草多糖等多种生物活性成分的珍贵食用菌,被广泛的用于免疫力低下、肿瘤、心血管等疾病的临床治疗中[1]。由于其市场价值巨大,蛹虫草的人工种植被列为广东省农业主推技术之一。

蛹虫草从菌丝体培养到最后出草这个过程可分为4个生长阶段:菌丝培养期、菌丝变色期、子座培养期和子实体生长期。在不同生长发育阶段,特别是在菌丝转色到子座出芽的关键生长节点上,对光照、温度、湿度等环境因素有着不同的要求[2-3]。如果不及时调整环境条件会严重影响蛹虫草的产量和品质,造成较大的经济损失。在目前蛹虫草的种植过程中,判断其生长阶段的方法仍然停留于人工识别。这需要依赖工作人员的种植经验来识别蛹虫草的生长情况,在大规模的培养环境下费时费力,观察结果主观性强,因此这种手工作业方式亟待改善。

20世纪90年代起,科学家们开始将计算机视觉技术应用于食用真菌领域[4-7]。为了提高蛹虫草栽培效率,本文引入计算机视觉技术以实现蛹虫草生长阶段的自动识别。首先将蛹虫草图像转化为RGB颜色通道信息提取其SIFT特征,在此基础上应用稀疏编码的空间金字塔匹配(Linear Spatial Pyramid Matching using Sparse Coding,ScSPM)方法[8]获取高层特征,再使用支持向量机进行长势判别。最后本文应用MATLAB编写了蛹虫草生长识别系统接口并进行了演示。

1 基于稀疏编码的空间金字塔匹配(ScSPM)理论原理

1.1 空间金字塔匹配(SPM)

SPM算法[9]首先在训练图像集里提取出大量的图像块,随后对每个图像块提取任一种基本特征,然后使用聚类的方法对这些基本特征进行处理获得特征中心向量。它将图像样本投射到不同的层次,每层次划分成不同的子块,随后统计出每个子块上的词袋特征信息,再把每个子块的特征拼接到一起,最后形成了图像的完整特征。一般而言,字典数为K、级数为L的空间金字塔模型,生成向量维数如公式(1)所示:

1.2 基于稀疏编码的空间金字塔匹配(ScSPM)

稀疏编码[10]是对信息进行稀疏表示的一种方法,它通过用少量的基向量线性拟合来逼近目标向量,要求基向量含有数据的主要特征。对图像进行稀疏编码操作的核心思想是获得一组基向量ϕi,预定系数αi,则图像的稀疏表达如公式(2)所示:

David在1999年提出了基于图像局部特征的描述子[11],即SIFT(全称为尺度不变特征变换)。从训练集中提取 SIFT特征可以用 X={x1,x2,…,xN}∈RD×N表示,该特征需要学习获得一组基向量(码本或字典),其次根据稀疏表示算法,约束函数如公式(3)所示:

其中‖c‖i1是稀疏正则化项,而ci是 xi的稀疏编码表示。

稀疏编码可以划分为两部分:训练阶段(即构建稀疏字典)、编码阶段。在训练阶段,从训练图像样本集里提取出图像的特征,用来表示,训练特征是为了获得所需的一组基向量。实际上训练特征的过程就是重复迭代的过程,迭代的过程可以总结如下:先固定字典,再调整α[k],令目标函数达到最小,于是再固定字典α[k],调整ϕ[k],令目标函数达到最小,重复上述的步骤(迭代的过程)直到收敛为止。在编码阶段,对从新图像中提取出的SIFT特征进行稀疏编码,编码之后获取的稀疏向量就是图像的稀疏表达,C是图像特征的稀疏编码表示。

在稀疏编码后,可以用C={c1,c2,…,cm}∈RK×m表示图像特征的稀疏编码表示,要令表达特征能包含空间信息与局部信息,需采用金字塔方法来对信息做聚合的操作。首先划分图像的金字塔层次,再对每块区域中的编码向量进行最大聚合(程序中用max pooling来表示)。最大聚合实际上是指把某个区域内所有编码向量相对应的最大分量组成一个K维的向量来表示该区域,如公式(4)所示:

最终形成ScSPM特征表达,即新图像可以用(1+4+16+...)*K维的特征向量来表达。

2 实验过程与结果分析

2.1 实验数据集

本实验采集的数据集是处于不同生长阶段的蛹虫草图像,分类标准如下:呈白色的菌丝体表示处于菌丝培养期的蛹虫草样本;呈黄色菌丝体表示处于变色期的蛹虫草样本;呈黄色菌丝且分布米粒状的突起代表处于子座培养期的蛹虫草样本;呈橘黄色的棒状子实体代表处于子实体生长期的蛹虫草样本。菌丝培养期、变色期、子座培养期和子实体生长期四个阶段的外观分别如图 1中的(A)、(B)、(C)和(D)所示。

图1 蛹虫草图像样本

图像采集地点来源于华南农业大学食品学院蛹虫草人工栽培实验室。实验抽取的训练集数据样本与测试集数据样本共3720张图片,分为4个类别,每个类别有930张图像。

2.2 实验流程

实验流程如下:从图像的R、G和B颜色通道中提取SIFT特征,并对融合后的特征进行稀疏编码,进行空间金字塔匹配,选择性进行PCA[12]降维处理,最后采用SVM支持向量机[13-14]进行蛹虫草生长阶段判别,具体流程如图2所示。

2.3 不同实验的识别准确率比较

为了检验基于ScSPM算法在蛹虫草长势识别中的效果,表1和表2对比了两种实验的识别效果,输入测试集相同。

表1 提取SIFT特征和稀疏编码的识别准确率

图2 基于稀疏表示的蛹虫草生长阶段分类实验流程图

表1使用SIFT特征与稀疏编码获得的识别效果,平均识别准确率达到91%左右。其中融合了R、G、B三种颜色分量达到的识别准确率最高,达到91.84%;提取R颜色分量的识别准确率最低,达到了91.75%。速度上每张样本图片的处理时间也在1.2s-1.3s之间,相差不大。

表2 引入PCA后的识别准确率

为了进一步提高识别准确率,引入主成分分析(PCA)方法对特征表达做处理,实验结果如表2所示。可以看到,引入PCA后识别效率提高了2%左右。原因是PCA方法将原始高维数据向方差变化最大的若干个方向进行投影得到低维,得到最能反映图像本质且具有判别性的特征,从而提高了识别准确性。

3 蛹虫草生长阶段识别系统演示

在实现基于ScSPM算法基础上,使用MATLAB编程进一步设计实现了蛹虫草生长阶段识别系统的用户接口。本文选取了蛹虫草生长中最接近的两个阶段——变色期、子座培养期进行演示,这两个阶段也是蛹虫草生长检测最关键的生长节点。变色期、子座培养期识别的界面效果如图3和4所示。

4 结语

本文提出引入计算机视觉技术应用于蛹虫草长势的自动识别。在此基础上,设计实现了一个基于稀疏编码的空间金字塔匹配模型的蛹虫草生长识别系统,实验测试表明取得了较好的识别效果。在下一步工作中,我们将继续探索稀疏编码的求解算法,缩短稀疏编码处理时长,例如局部约束线性编码[15]是更有效的稀疏编码方法,将有可能进一步提升识别性能。

图3 ScSPM算法识别变色期的结果

图4 ScSPM算法识别子座培养期的结果

猜你喜欢
虫草金字塔准确率
“金字塔”
虫草素提取物在抗癌治疗中显示出巨大希望
虫草素提取物在抗癌治疗中显示出巨大希望
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
Great Vacation Places
金字塔是用金子造的吗
“药膳新宠”虫草花