基于支持向量机的小麦新鲜度判别研究

2014-03-27 08:10王华芳展海军
关键词:新鲜度正确率脂肪酸

王华芳,展海军

(1.三门峡职业技术学院 生化工程系,河南 三门峡 472000;2.河南工业大学 化学化工学院,河南 郑州 450001)

0 前言

小麦新鲜度对于小麦品质极其重要,不仅影响小麦的储存和交易,更影响其后期面制品的质量.目前,常见的小麦新鲜度判定技术主要有愈创木酚法[1]、酸度法[2]、国标法[3]、热分析法[4]等,其原理基本上凭借颜色或者某一个试验值进行人为的判别,判别结果带有较大的人为因素,再加上存在判别程序复杂、时间长、准确度低等缺点,因此,研究小麦判别技术,找到一种快速准确的方法具有重要意义.

支持向量机(Support Vector Machine,SVM)是20 世纪90 年代在统计学习理论基础上发展起来的一种新模式识别方法[5].由于该方法具有深厚的理论基础,在解决小样本、非线性以及高维模式识别问题上有许多特殊的优势,目前已经成为继神经网络方法之后模式识别与机器学习领域最为主流的数据分类方法.SVM 的一大特点就是利用核函数将低维线性不可分数据隐式地映射到高维线性可分空间.在SVM 理论中,采用不同的核函数将导致不同的SVM 算法,目前常用的核函数包括径向基核、线性核、多项式核等.其中径向基核在实际中使用得最为广泛,且性能通常优于其他核函数[6],因此作者选择径向基函数来判别小麦新鲜度.

过氧化氢酶活动度与小麦新鲜度之间存在明显的关系,小麦越新鲜,其过氧化氢酶活动度越大,因此可以作为小麦新鲜度判别的切入点进行研究.盐酸联苯胺法[7]正是利用此方法区别小麦新鲜度的.作者采用盐酸联苯胺法和国标法取得新陈小麦的各项对应指标,以判别正确率为判别依据,利用支持向量机筛选和判别指标,从而实现对未知小麦的新陈预测.

1 材料和方法

1.1 材料

试验所用小麦分别由河南省、河北省和山东省粮食储备库提供.

三水合乙酸钠:分析纯,洛阳市化学试剂厂;36%冰乙酸:分析纯,派尼化学试剂厂;牛肝过氧化氢酶:生化试剂,Solarbio 公司;盐酸联苯胺:分析纯,远航试剂厂;30%双氧水:分析纯,洛阳化学试剂厂;无水乙醇:天津市天力化学试剂有限公司;酚酞:洛阳市昊华化学试剂有限公司;氢氧化钾:天津市芳晶化学试剂有限公司.

1.2 主要仪器

DT-1000B 电子天平:金羊天平仪器厂;K96-B快速混匀器:都江堰市医疗器械厂;TU1810 紫外可见分光光度计:北京普析通用仪器有限责任公司;水浴恒温锅:上海宝磊仪器有限公司;振荡器:金坛市华峰仪器有限公司;钻石牌秒表:上海秒表厂;表面皿:郑州中天实验仪器有限公司.

1.3 方法

利用盐酸联苯胺法测定不同样品的吸光度值,记录样品在前2 min 的吸光度值.用吸光度值对时间作图,曲线拟合得到回归方程,方程的斜率即为该小麦样品反应速率,方程的常数项则为样品的初始速率.

参照GB/T 5510—85[8]测定样品小麦的脂肪酸值.

1.4 数据统计分析方法

1.4.1 分类器的选择

支持向量机的内积函数以径向基核函数应用最广,因此选径向基核函数进行研究.利用支持向量机来进行小麦新鲜度判别的总体流程见图1.

图1 支持向量机对小麦新鲜度判别的流程

1.4.2 数据统计方法

以溶液反应0 min 时的吸光度值、每秒的初始速率和反应速率,共37 项作为待选判别指标进行判别研究.引入脂肪酸值,进一步研究判别效果.利用SVM 对已获取的反应数据进行筛选,并检测SVM 法在小麦新陈度鉴定上的分类性能.

2 结果分析与讨论

2.1 新陈小麦3 类划分结果

把所有小麦划分成3 个等级:储存0 a 小麦其新鲜度为1;储存1 a 新鲜度为2;其他小麦新鲜度为3.

2.1.1 单个指标判别结果

以小麦每一项指标为依据进行测试,同时在给定参数候选集合上进行5 份交叉验证选择,分类结果如表1 所示.

表1 各维特征单独用来进行小麦新陈度分类的性能(CCR)

由表1 可知,各项指标的判别效果差不多,最好的为第14 个特征(10 s 时的反应速率)的结果,其总的分类正确率为0.815 9;其他指标的分类正确率均在[0.787 9,0.815 2]区间.第14 个特征判别效果之所以好,归因于新麦酶含量高,酶活大,反应速率也大.

2.1.2 多个指标判别结果

依次对组合中各个指标进行筛选判别,试图找到最优特征组合,提高判别效果,结果见表2.

表2 各个特征组合的分类正确率(CCR)

从表2 可知,所有指标的正判率均大于0.82,比单个指标的正判率明显提高,这说明特征组合的确能够提高分类性能.当组合前25 位指标时,正判率最高,为0.857 6.但是当组合个数大于25时,正判率有所下降,可能是判别指标越多,存在冗余的可能性越大,在有限样本下,特征的增加很可能会导致学习效果的下降.

考虑到样品数据分类不平衡会影响判别结果,因此通过设置不同类别的权重来进一步研究判别效果.假定W1、W2 和W3 分别代表0 a、1 a以及其他这3 类小麦类别的权重.试验中共设置两组权重(0.4,0.4,0.2)和(0.4,0.5,0.1),判别效果见表3 和表4.

表3 各个特征组合的分类正确率(CCR)(W1=0.4,W2=0.4,W3=0.2)

表4 各个特征组合的分类正确率(CCR)(W1=0.4,W2=0.5,W3=0.1)

从表3 和表4 可以看出,随着第二类权重的增加,其分类正确率相应增加,而随着第三类权重的减少,其分类正确率相应减少.由此而见,通过权重的调整可以在一定程度上解决数据集的不平衡性问题.

2.2 新陈小麦两类划分结果

把小麦划分成为两类:储存0 a 的小麦其新鲜度定义为0;其他小麦新鲜度为1.与前面试验类似,考虑到样本分类不平衡因素,假定W1 和W2分别代表0 a 和其他两类小麦类别的权重.通过条件权重探索判别效果,同时利用SVM 来进行5 份交叉验证.

由表5—表7 可知,随着新麦权重从0.5 增长到0.8,新麦正确率逐步增大,各级分类最佳可达到CCR1=0.955 6,CCR2=0.995 9,CCRall=0.984 1,分类效果较好.

表5 两类情况下各个特征组合的分类正确率(CCR)(W1=0.5,W2=0.5)

表6 两类情况下各个特征组合的分类正确率(CCR)(W1=0.6,W2=0.4)

表7 两类情况下各个特征组合的分类正确率(CCR)(W1=0.8,W2=0.2)

2.3 引入脂肪酸值指标的判别结果

为提高判别效果,引入脂肪酸值.同时选择37个指标中区分效果较好的第4、第8、第10、第12、第14 个指标,即10 s 时的反应速率、30 s 时的吸光度值和反应速率、40 s 时的初始速率和50 s 时的吸光度值再加上脂肪酸值含量,共6 个指标为新陈小麦的区分指标,利用SVM 进行判别,结果如表8 所示.

表8 两类情况下各个特征的分类正确率(24 个样品)

表9 两类情况下各个特征组合的分类正确率(CCR,24 个样品)

由表8 和表9 可知,脂肪酸值指标总体判别效果较差,但加上这个指标后,新陈小麦总体正判率有了显著增长,提高幅度在0.85%~2.5%之间,进一步表明增加判别指标有助于新陈小麦的判别.但是当特征组合增加到10组时,其判别率呈下降趋势,可能是因为判别指标太多限制了判别效果.

3 结论

无论是将样品划分成三类还是两类,单独依据某一维特征的判别效果都比较低,当把各维特征组合后,判别准确率都大幅度上升,特别是划分成陈两类时,总正判别率可达到97.65%,效果比较好.引入新特征脂肪酸值后,正判率为99.17%,几乎可以100%地将新陈小麦判别出来.

[1]王毅,冀圣江,司建中.小麦新陈度鉴别方法探讨[J].粮油仓储科技通讯,2009,25(1):48-49.

[2]何学超,郭道林,冯永健,等.小麦新陈快速鉴别方法的研究[J].粮食储藏,2006,35(1):42-45.

[3]GB/T 20571—2006,小麦储存品质判定规则[S].

[4]展海军,范璐,周展明,等.用热分析技术评价小麦新鲜度的研究[J].中国粮油学报,2003,18(1):78-80.

[5]Wikipedia.Support vector machine[EB/OL].(2014-05-18)[2014-06-04].http://en.wikipedia.org/wiki/Support_vector_machine.

[6]Keerthi S S,Lin C J.Asymptotic behaviors of support vector machines with Gaussian kernel[J].Neural Computation,2003,15(7):1667-1689.

[7]王华芳.小麦新鲜度判别技术的研究[D].郑州:河南工业大学,2010.

[8]GB/T 5510—85,粮食、油料检验 脂肪酸值测定法[S].

猜你喜欢
新鲜度正确率脂肪酸
稻谷新鲜度测定影响因素分析及优化
揭开反式脂肪酸的真面目
门诊分诊服务态度与正确率对护患关系的影响
荷莲荳脂肪酸成分分析
揭开反式脂肪酸的真面目
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
鳄梨油脂肪酸组成分析
你在异性眼中的“新鲜度”