基于傅里叶变换近红外和支持向量机的霉变玉米检测

2015-03-11 10:06喜明杰
中国粮油学报 2015年5期
关键词:光谱准确率颗粒

袁 莹 王 伟 褚 璇 喜明杰

(中国农业大学工学院,北京 100083)

玉米是重要的饲料来源。然而,我国每年因霉变造成的产后损失给玉米的生产造成了很大的影响。霉变不仅造成玉米产量减少,还导致玉米品质下降,更严重的是,霉变玉米若进入食物链会严重危害人、畜健康,因此对霉变玉米的及时检出尤为重要。目前,霉变玉米可以通过酶联免疫法[1]、液相色谱法[2]等方法进行检测,但这些方法普遍存在费用高、需前处理、操作繁琐、抽样检测等缺点[3],进而无法进行批量无损检测。近些年来,近红外光谱法已发展成为鉴别和分析有机物和部分无机物的有用方法,广泛应用于谷物品质和营养的定性鉴定和定量分析中[4-9]。傅里叶变换近红外光谱(Fourier transform near infrared spectroscopy,FT-NIR)技术具有扫描速度更快、信噪比和分辨率高以及能扩展更多附件等特点,已被广泛应用于诸多领域[10-13]。支持向量机(Support Vector Machine,SVM)由 Vapnik首先提出[14],可用于进行模式分类和非线性回归。它是一种新的模式识别方法,是结构风险最小化的近似实现,在解决小样本、非线性、高维数等模式识别问题中具有一定的优势[15]。本研究基于傅里叶变换近红外光谱技术和支持向量机对玉米是否霉变进行检测。

1 材料与方法

1.1 仪器设备

试验所使用的仪器为德国布鲁克公司(BRUKER,德国)的MPA型傅里叶变换近红外光谱仪。测试模式选择为积分球反射测量,扫描范围为12 000~4 000 cm-1,分辨率为4 cm-1。样品光谱数据通过光谱仪自带的软件OPUS进行获取,并基于LIBSVM工具箱利用Matlab2012b进行光谱数据的处理及分析。

1.2 试验材料及样品准备

采用于2012年收获的尺寸和外观大致相同的自然感染霉菌的豫玉32玉米颗粒共150粒作为样品进行模型建立,另取2013年收获的先玉335玉米颗粒共90粒作为独立样品集对所提出的方法和建立的模型进行验证,所有样品根据霉变的严重程度按以下标准进行分组:

1)无症状(A组):没有发现明显的霉菌损害的玉米颗粒。

2)中度霉变(B组):霉变面积占玉米颗粒表面的20%~70%的玉米颗粒。

3)重度霉变(C组):霉变面积几乎覆盖整个玉米颗粒表面的玉米颗粒。

用于模型建立的样品,每组分别选取50粒玉米颗粒并顺序进行编号,独立样品集每组选取30粒玉米颗粒并顺序进行编号。

1.3 光谱采集

对每粒玉米颗粒的胚芽面进行光谱数据采集,最终得到的光谱为扫描64次得到的平均光谱,用于模型建立的每组样品的平均光谱曲线如图1所示。从图1中可以看出,在波数为9 000 cm-1之后,无症状组颗粒的吸光度最高,中度霉变颗粒的吸光度居于其余2组之间,3组样品的原始光谱在9 000 cm-1之后有明显区分,光谱结果与本文1.2中分组一致。

图1 样品的平均光谱曲线

1.4 光谱数据预处理

本研究基于LIBSVM工具箱利用Matlab2012b平台进行数据预处理的对比。取模型建立样品中各组前30个样品,共90个样品数据作为训练集,取各组剩余20个样品共60个样品数据作为测试集,分别利用[0,1]归一化,[-1,1]归一化以及不处理 3种方法进行预处理。

1.5 主成分分析(Principal Component Analysis,PCA)

由于每个试验样品都具有2 100个光谱数据点,数据量大且存在多重共线性,会造成信息冗余,在模型建立时,会降低模型预测性能。为了减轻计算量,降低分析问题的难度,提高预测准确度,本研究采用PCA[16]对原始光谱数据进行降维处理。

2 结果与分析

2.1 预处理结果

分别利用[0,1]归一化,[-1,1]归一化以及不处理3种方法对模型建立样品集的原始光谱数据进行预处理,得到的数据作为SVM的输入建立模型,进行初步的预测,3种预处理对应的训练集与测试集的预测准确率如表1所示。

表1 3种预处理对应预测正确率/%

表1可见,数据进行[-1,1]和[0,1]归一化后,虽训练集的预测准确率都稍微高于原始数据的预测结果,但测试集的预测准确率却都远远低于原始数据的预测结果,所以总体来看,数据不进行预处理时得到的预测结果较好。

2.2 主成分分析结果

采用PCA对原始光谱数据进行降维处理,所得到的前10个主成分的累计贡献率如表2所示。

表2 前10个主成分的累计贡献率/%

然而,主成分的个数对模型的预测性能有一定的影响[4],主成分数与预测误判率的关系如图2所示。可以看出,随着主成分数的增加,模型的预测误判率降低。当主成分数为5时,训练集和测试集的误判率最低,而之后随着主成分数的增加,模型的误判率又略有增长而后保持不变。因前5个主成分的累计贡献率为99.94%,已经几乎可以用于表征光谱的全部信息。所以,本研究选择前5个主成分作为SVM的输入进行模型建立。

图2 主成分数与预测误判率的关系

2.3 SVM核函数类型和参数的确定

2.3.1 核函数的选择

对于非线性可分数据,SVM建立分类模型首要解决核函数的选择问题。常见的核函数有线性、多项式、RBF和Sigmoid核函数4种形式。为选择合适的核函数,分别利用4种核函数建立SVM模型,并对训练集和测试集样品数据进行预测,预测的结果如表3所示。可以看出,利用RBF核函数建立的模型对训练集和测试集的预测准确率都比较高,所以本研究采用RBF核函数进行SVM模型建立。

表3 4种核函数对应的预测准确率/%

2.3.2 参数的确定

选择RBF作为SVM核函数,则最优化问题的求解主要取决于惩罚参数C和核函数参数γ的选择。

当C取值很小时,训练和预测精度都很低,易出现欠学习,而随着C的增大,训练和预测精度也会随之提高,但当C超过一定值时会容易出现过学习现象,所以当C达到一定数值时,就需要通过调整核参数γ得到SVM的最优结果。

关于SVM参数的优化,国际上并没有统一的最佳方法,目前常用的方法有:试验法、网格划分(grid search)寻优法[17]、遗传算法(genetic algorithm,GA)寻优法[18]、粒子群优化算法(particle swarm optimization,PSO)[19]等。试验法即让 C、γ 在一定的范围内取值,利用选取的C、γ以及训练集数据建立模型,得到训练集验证分类准确率,反复选取C、γ值,最终取使得训练集验证分类准确率最高的那组C、γ作为最优参数。这种方法在寻优区间足够大且步进足够小的情况下可以寻得最优参数,但如果寻优区间过大,会比较费时[20]。GA算法和PSO算法属于启发式算法,不必遍历网格内的所有参数点,也能找到全局最优解,但这2种算法较为复杂,且容易陷入局部最优。所以本研究采用网格划分寻优法来寻找最佳的参数C、γ。将训练集样品数据进行PCA后得到的前5个主成分作为输入利用网格划分寻优法得到的最优参数为:C=32 768,γ =0.009 765 63。

2.4 训练与验证结果

利用模型建立样品的原始数据分别取各组的前30个样品,共90个样品数据作为训练集,其余60个样品数据作为测试集,进行PCA后,提取前5个主成分作为输入,利用RBF函数作为SVM的核函数,在惩罚参数C=32 768,核函数参数γ=0.009 765 6的条件下,进行SVM模型的建立。然后利用建立好的模型对训练集和测试集样品数据进行预测,预测结果如表4所示。可以看出,测试集的60的样品中,有5个样品数据预测错误,且被错判的均为中度霉变颗粒,其中1粒被错判为无症状,4粒被错判为重度霉变,由于在进行样品分组时,中度霉变依据的标准为霉变面积占玉米颗粒表面的20%~70%,然而在挑选时,可能会由于部分霉变无法肉眼识别,从而造成错分。

为确定模型对于检测其他品种样品的可行性,以相同霉变分组标准挑选了另一品种的玉米颗粒组成独立样品集,利用同样的方法进行处理,并用所建立的模型进行预测,预测结果如表5所示。可以看出,该模型对独立样品集的预测准确率达到87.8%,证明该模型对于不同品种玉米用于检测其霉变是可行的。

表4 训练集和验证集的判别结果及准确率

表5 独立样品集的判别结果及准确率

3 结论

本研究对自然感染霉菌的同种玉米颗粒按照霉菌感染程度分成3组,获取波数范围为12 000~4 000 cm-1的FT-NIR的光谱信息,首先利用PCA对原始光谱数据进行降维,通过分析试验结果,选取前5个主成分作为SVM输入;然后选用RBF核函数,并利用网格划分寻优法寻找最优参数C、γ进行模型建立;最终建立的模型对训练集及测试集样品的预测准确率分别为93.3%和91.7%,对独立样品集的预测准确率为87.8%。表明利用傅里叶变换近红外光谱技术,结合主成分分析和支持向量机方法进行霉变玉米的检测是可行的。

[1]陈福生,罗信昌,周启,等.酶联免疫吸附法快速检测储存粮食中的污染曲霉[J].中国粮油学报,1999,14(1):51-54

[2]Jaimez J.Application of the assay of aflatoxins by liquid chromatograghy with fluorescence detection in food analysis[J].Journal of Chromatography A,2000(882):1-10

[3]周显青,暴占彪,崔丽静,等.霉变玉米电子鼻识别及其传感器阵列优化[J].河南工业大学学报,2011,32(4):16-20

[4]陈全胜,赵杰文,张海东.基于支持向量机的近红外光谱鉴别茶叶的真伪[J].光学学报,2006,26(6):933-937

[5]刘心如,张黎平,王建福,等.可见-近红外漫反射光谱技术对羊毛和羊绒的鉴别研究[J].光谱学与光谱分析,2013,33(8):2092-2095

[6]Pettersson H,Aberg L.Near infrared spectroscopy for deter-mination of mycotoxins in cereals[J].Food Control,2003,14:229-232

[7]Wang D,Dowell F E,Ram M S,et al..Classification of fungal-damaged soybean seeds using near-infrared spectroscopy [J].International Journal of Food Properties,2004,7(1):75 -82

[8]Fernández- Ibanez V,Soldado A,Martínez- Fernández A,et al.Application of near infrared spectroscopy for rapid detection of aflatoxin B1 in maize and barley as analytical quality assessment[J].Food Chemistry,2009,113:629 -634

[9]Dowell F E,Ram M S,Seitz L M.Predicting scab,vomitoxin,and ergosterol in single wheat kernels using near-infrared spectroscopy[J].Cereal Chemistry,1999,76(4):573-576

[10]Gaspardo B,Zotto SD,Cividino SR,et al.A rapid method for detection of fumonisins B1 and B2 in corn meal using Fourier transform near infrared(FT-NIR)spectroscopy implemented with integrating sphere[J].Food Chemistry,2012,135:1608 -1612

[11]Tavakolian M SS,Silaghi F A,Fabbri A,et al..Differentiation of post harvest date fruit varieties non-destructively using FT-NIR spectroscopy[J].International Journal of Food Science and Technology,2013,48(6):1282-1288

[12]王家俊.FT-NIR光谱分析技术测定烟草中总氮、总糖和烟碱[J].光谱实验室,2003,20(2):181-185

[13]程存归,阮永明,李冰岚.傅里叶变换红外光谱法应用于中药砂仁真伪鉴别的研究[J].光谱学与光谱分析,24(11):1355-1358

[14]Vapnik V.Statistical Learning Theory[M].Wiley,New York,NY,1998

[15]李国正,王猛,曾华军.支持向量机导论[M].北京:电子工业出版社,2004

[16]Juneja J.Common factors,principal components analysis,and the term structure of interest rates[J].International Review of Financial Analysis,2012,24:48-56

[17]Liu Xianglou,Jia Dongxu,Li Hui.Research on Kernel parameter optimization of support vector machine in speaker recognition [J].Science Technology and Engineering,2010,10(7):1669-1673

[18]Chen P W,Wang JY,Lee H.Model selection of SVMs using GA approach[C].Proc of 2004 IEEE Int Joint Conf on Neural Networks.Piscataway,USA,2004:2035-2040

[19]Eberhart R,Kenney J.A new optimizer using particle swarm theory[C].Proc of the sixth International Symposium on Micro Machine and Human Science.Piscataway,USA,1995:39-43

[20]王健峰,张磊,陈国兴,等.基于改进的网格搜索法的SVM 参数优化[J].应用科技,2012,39(3):28 -31.

猜你喜欢
光谱准确率颗粒
基于三维Saab变换的高光谱图像压缩方法
Efficacy and safety of Mianyi granules (免疫Ⅱ颗粒) for reversal of immune nonresponse following antiretroviral therapy of human immunodeficiency virus-1:a randomized,double-blind,multi-center,placebo-controlled trial
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
高光谱遥感成像技术的发展与展望
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
高速公路车牌识别标识站准确率验证法
疏风定喘颗粒辅料的筛选
基于GPU的高光谱遥感图像PPI并行优化
连花清瘟颗粒治疗喉瘖30例