基于GASVM算法烟叶部位致香成分差异性分析

2019-11-01 05:48申玉姝曹晓卫于洁沙云菲岳宝华
关键词:支持向量机遗传算法

申玉姝 曹晓卫 于洁 沙云菲 岳宝华

摘 要: 采用高效液相色谱-气相色谱-质谱联用法(HPLCGCMS)测定中部和下部烟叶的巨豆三烯酮、β-紫罗兰酮、氧化紫罗兰酮、茄酮等11种致香成分,应用遗传算法(GA)对筛选出的8种致香成分建立中部和下部烟叶支持向量机(SVM)分类判别模型.结果表明,中部和下部烟叶的SVM分类判别模型的建模、留一法及预报准确率分别为95.45%,89.39%和81.25%.利用Fisher判别矢量方法考察了中部和下部烟叶的空间分布规律,分析出中部和下部烟叶致香成分中,巨豆三烯酮、β-紫罗兰酮、氧化紫罗兰酮差异显著.

关键词: 烟叶部位; 致香成分; 遗传算法(GA); 支持向量机(SVM)

中图分类号: S 572; TP 18  文献标志码: A  文章编号: 10005137(2019)04042007

Abstract: Eleven different aromatic components including megastigmatrienone,betaIonone,Ionone oxide and solanone from middle and lower tobacco leaves were determined successfully via high performance liquid chromatographygas chromatographymass spectrometry (HPLCGCMS) system.By using genetic algorithm(GA),8 aromatic components were selected to build a support vector machine(SVM) classification model for discriminating middle and lower tobacco leaves.The results showed that the accuracies of modeling,leaveoneout,and prediction were 95.45%,89.39% and 81.25%,respectively.The spatial distribution of middle and lower tobacco leaves was investigated by Fisher discriminant vector method,which showed that megastigmatrienone,betaIonone,and Ionone oxide were evidently different in the middle and lower tobaccos leaves.

Key words: tobacco leaves stalk positions; aromatic components; genetic algorithm(GA); support vector machine(SVM)

0 引 言

煙叶的风格特征很大程度上取决于烟叶中的致香成分.长期以来,对烟叶香气质量及香型的评价,一直建立在评吸人员对烟叶燃烧所形成烟气的感官评价上,其主观性会导致一些误差,因此可以通过分析致香的化学成分来对烟叶质量进行更科学准确的检测[1].而烟叶致香成分众多、组分复杂,且含量较低[2],所以研究烟叶中的重要化学致香成分,一直是一项很重要的工作.

目前,由于气相色谱-质谱联用法(GCMS)具有定性和定量准确的优势,可以采用GCMS结合化学计量学方法进行烟叶致香成分及其影响因素的研究[3].2016年,杨艳芹等[4]采用GCMS测定烟草干馏香料中的致香成分,并对其进行了定性和定量分析.利用GCMS等方法检测出烟叶中不同致香成分之后,需要使用化学计量学方法进一步分析这些致香成分对烟叶的品质和感官的影响.对于烟草这个复杂体系,其致香成分综合影响着烟叶质量和感官,而且这些致香成分之间也不是简单的线性关系,因此常规的数理统计分析很难奏效,需要使用主成分、判别矢量、支持向量机(SVM)等化学计量学方法分析.随着化学计量学算法的不断发展,GCMS也与其相结合,被广泛应用于烟叶化学领域.2013年,ZHANG等[5]基于烟叶的GCMS数据,结合层次聚类算法、主成分分析和正交偏最小二乘判别分析方法,分析了我国不同省份烟叶致香成分含量的差异性以及影响因素.2017年,朱海滨等[6]采用GCMS探究了薰衣草油不同添加时期对烤烟致香成分和感官质量的影响.董惠忠等[7]研究了上部和中部烟叶致香成分差异性,发现3-羟基-β-二氢大马酮、巨豆三烯酮和茄酮为影响上部和中部烟叶差异性的主要致香成分.利用化学计量学方法研究出不同部位烟叶致香成分的差异后,在烟叶实际生产过程中,可以尝试增加或减少上部烟叶中的某些致香成分,进而提高其品质.

本研究将着眼于中部和下部烟叶致香成分的差异性,基于高效液相色谱-气相色谱-质谱联用法(HPLCGCMS)测定了88个烟叶样本中的11种致香成分含量.由于传统的液相色谱-气相色谱-质谱联用法(LCGCMS)联用技术不适合对易挥发的烟叶致香成分的检测,沙云菲课题组基于柱上进样恒流恒阳切换接口技术,开发了适合检测烟叶致香成分的装置.本研究收集到的样本数比较少,而且测得的致香成分比较多,因此利用遗传算法(GA)筛选出影响中部和下部烟叶的主要致香成分,并建立中部和下部烟叶的SVM快速分类判别模型[8],为烟叶的品质监控与优化,以及产品配方维护和烟叶分组加工提供参考[9].

1 实验和算法

1.1 实验材料和设备

实验所用烟叶样品由某烟草公司提供,来自9个产地的初烤烟叶,共计82种,根据烟叶生长部位分为中部和下部烟叶.烟叶样品统计结果如表1所示.随机提取其中16个样品作为独立测试集,剩余的66个样品作为建模训练集.

实验设备:Aglient1260型液相色谱系统(美国Agilent)配备自动进样器、二元泵和二极管阵列检测器;Agilent 5975 型气相色谱系统配备OnColumn进样系统和火焰离子检测器;AA3型连续流动分析仪(德国BranLuebee);CYCLOTEL 1093型旋风粉碎机(丹麦FOSS);PB 303S型电子天平(瑞士METTLER TOLEDO,精度为0.001 g).

1.2 实验方法

1.2.1 样品处理

称取烟叶粉末样品0.2 g于15 mL厚壁离心管中,加入5 mL甲基叔丁基醚:正己烷提取溶剂和0.2 mL α-紫罗兰酮内标工作溶液,涡旋振荡1 min,静置过夜,再次涡旋振荡,3000 r·min-1离心5 min,取上清液1 mL至色谱样品瓶待测.

1.2.2 GCMS分析条件

液相色谱柱:Styragel HR 0.5 (4.6 mm I.D×300 mm,Waters);流动相:二氯甲烷;流速:0.25 mL·min-1;进样量:10 μL;柱温:30 ℃;DAD检测波长:238,254和320 nm;LC切割范围:11.1~12.1 min.

气相色谱柱:DB5MS (30 m×0.25 mm I.D,0.25 md.f.),柱温箱初始温度为39 ℃,保持14 min,以5 ℃·min-1升到200 ℃,再以20 ℃·min-1升至290 ℃,保持5 min;色谱柱恒流模式,1.2 mL·min-1,溶剂蒸发流量为50 mL·min-1;12.9 min分析柱和预柱相联,50 min分析柱和预柱分离.

质谱条件:MS电离方式:EI;电离能量:70 eV;传输线温度:280 ℃;离子源温度:230 ℃;质量扫描范围:50~350 amu;溶剂延迟:25 min.

利用LCGCMS法测定烟叶样品中的不同致香成分,本研究选取茄酮、香叶基丙酮、β-紫罗兰酮、二氢猕猴桃内酯、巨豆三烯酮、新植二烯、β-法尼烯、氧化紫罗兰酮、3-羟基-β-二氢大马酮、3-氧代-α-紫罗兰醇和3-羟基索拉韦惕酮,共11种中性致香成分进行研究.

1.3 算法介绍

1.3.1 GA

GA是模拟达尔文生态进化论的自然选择和遗传机理的生物进化过程的计算方法,是一类借鉴自然界的进化规律(适者生存、优胜劣汰的遗传机制)演化而来的随机化搜索方法[10].其主要特点是:直接对结构对象进行操作,不存在求导和函数连续性的限定[11];具有更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则[12].GA的这些性质,已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域.

1.3.2 SVM算法

SVM算法是在VAPNIK等创立的统计学习理论基础上,结合HUBER稳健回归理论和WOLFE对偶规划理论形成的[13].该方法采用结构风险最小化(SRM)代替传统的经验风险最小化(ERM),具有全局优化、泛化能力强等优点[14],克服了神经网络的许多缺点,且在解决小样本、非线性及高维模式识别问题中表现出独有的优势[15],具有小样本学习、泛化能力强等特点,能有效避免过学习、局部极小点以及“维数灾难”等问题[16].因此,本研究尝试用SVM算法建立烟叶不同部位的分类模型,并进行可用性和预测性验证,以便更好地进行烟叶评价.

1.3.3 Fisher 判别矢量法

Fisher 判别矢量法是模式识别中使用较为广泛的一种线性映射,这种线性映射使数据中各类别之间的分离性较强,由一组判别矢量实现[17].Fisher 判别矢量法可直接应用于多类别(两类以上)的模式识别问题,对于两类别的模式识别问题,Fisher判别矢量法能得到模式识别投影图[18].对于样本型的数据分布属于“偏置型”结构,即两类不同的样本沿某个方向分布,Fisher判别方法也能得到分类效果较好的模式识别投影图[19].

2 结果与分析

2.1 SVM建模

2.1.1 核函数和惩罚因子C的选择

在SVM建模过程中,核函数的选择对模型的结果有着直接的影响,核函数一般有线性、多项式、径向基核函数等.此外,惩罚因子C的选择也会影响到模型的准确率,因此也需要对惩罚因子进行优化.

以SVM留一法的准确率作为挑选核函数和惩罚因子C的依据,留一法预报的正确率为:PA=NCNT×100%,其中,NT是样本总数;NC是预报正确的样本数.不同核函数的PA和C的关系图如图1所示.从图1中可以看出,多项式核函数中,当惩罚因子C为90时,PA最高,为89.39%.

2.1.2 SVM建模结果

考虑多项式核函数,惩罚因子C取90,随机提取16个样品作为独立测试集,剩余的66个样品作为建模训练集.利用GA进行变量选择,种群大小为50,交叉概率为0.80,变异概率为0.85,最大进化代数为100,变量初始概率为0.90.基于GA对致香成分进行变量选择,以SVM模型的留一法结果作为判别指标,最终选出了茄酮、β-紫罗兰酮、二氢猕猴内酯、巨豆三烯酮、新植二烯、β-法尼烯、氧化紫羅兰酮、3-氧代-α-紫罗兰醇8种致香成分作为中部和下部烟叶识别的主要影响因素,建立中部与下部烟叶的分类模型,如图2所示.

由图2可以看出,SVM分类判别中,有3个样本判别错误,准确率较高,为95.45%.36个中部烟叶中有2个被判别为下部烟叶,准确率为94.44%.30个下部烟叶中有1个被判别为中部烟叶,准确率为96.67%.

表2呈现了SVM分类模型的建模、留一法、预报结果的准确率,可以看出中部和下部烟叶整体的建模、留一法以及预报的准确率分别为95.45%,89.39%和81.25%,均在80%以上.

[7] 董惠忠,毕艳玖,赵晓华,等.基于致香成分的上部和中部烟叶分类判别 [J].上海大学学报(自然科学版),2019,25(2):309-316.

DONG H Z,BI Y J,ZHAO X H,et al.Classification and discrimination of upper and middle tobacco based on aroma components [J].Journal of Shanghai University (Natural Science Edition),2019,25(2):309-316.

[8] 张浩博,刘太昂,束茹欣,等.基于烟叶电子鼻-近红外数据融合的支持向量机分类判别烟叶年份 [J].光谱学与光谱分析,2018,38(5):1620-1625.

ZHANG H B,LIU T A,SHU R X,et al.Support vector machine classification and discrimination of tobacco years based on electronic nosenear infrared data fusion [J].Spectroscopy and Spectral Analysis,2018,38(5):1620-1625.

[9] HOU X W,WANG G L,SU G Q,et al.Rapid identification of edible oil species using supervised support vector machine based on lowfield nuclear magnetic resonance relaxation features [J].Food Chemistry,2018,80:139-145.

[10] 邓灿勇,陈志刚,赵明.遗传算法在烟草企业排产中的应用研究 [J].电脑与信息技术,2010,18(6):13-15.

DENG C Y,CHEN Z G,ZHAO M.Research on application of genetic algorithms in production scheduling of tobacco enterprises [J].China Computer & Communication,2010,18(6):13-15.

[11] 周莹,陈军华.基于多蚁群遗传算法的分布式数据库查询优化 [J].上海师范大学学报(自然科学版),2018,47(1):37-42.

ZHOU Y,CHEN J H.Query optimization of distributed database based on multiant colony genetic algorithm [J].Journal of Shanghai Normal University (Natural Sciences),2018,47(1):37-42.

[12] 李国友,夏永彬,张凤岭.遗传算法优化的RSBP神经网络在聚合釜故障诊断中的应用研究 [J].计算机与应用化学,2017,34(8):621-624.

LI G Y,XIA Y B,ZHANG F L.Application of RSBP neural network optimized by genetic algorithm in fault diagnosis of polymerization kettle [J].Computers and Applied Chemistry,2017,34(8):621-624.

[13] LU K L,HU B,ZHANG Q,et al.Prediction of fluoride adsorption capacity of cobaltaluminum layered bimetallic hydroxide based on support vector regression [J].Computers and Applied Chemistry,2017,34(8):577-582.

[14] 徐小华,胡晓飞,全晓松.支持向量机对烟草化学成分协调性的分类应用 [J].江苏农业科学,2014,42(7):431-432.

XU X H,HU X F,QUAN X S.Application of support vector machine in classification of tobacco chemical constituents coordination [J].Jiangsu Agricultural Science,2014,42(7):431-432.

[15] 章平泉,杜秀敏,金岚峰.支持向量机方法在烟叶可用性预测中的应用 [J].中国烟草科学,2011,32(4):19-22.

ZHANG P Q,DU X M,JIN L F.Application of support vector machine in prediction of tobacco availability [J].Chinese Tobacco Science,2011,32(4):19-22.

[16] 马志贤,吴中耀,游寒旭.基于SVM的X射线天文图像点源探测算法 [J].上海师范大学学报(自然科学版),2016,45(2):230-236.

MA Z X,WU Z Y,YOU H X.Xray astronomical image point source detection algorithm based on SVM [J].Journal of Shanghai Normal University (Natural Sciences),2016,45(2):230-236.

[17] 吴圣超,刘太昂,葛炯.化学成分-朴素贝叶斯分类算法的烟叶产地模式识别 [J].河南师范大学学报(自然科学版),2018,46(1):77-83.

WU S C,LIU T A,GE J.Patterns recognition of tobacco origin based on chemical compositionnaive bayesian classification [J].Journal of Henan Normal University (Natural Science Edition),2018,46 (1):77-83.

[18] 趙明富,唐平,汤斌.主成分分析联合Fisher判别在紫外-可见光谱法水质检测中的应用 [J].大气与环境光学学报,2018,13(6):436-446.

ZHAO M F,TANG P,TANG B.Application of principal component analysis and Fisher discrimination in water quality detection by ultravioletvisible spectroscopy [J].Journal of Atmospheric and Environmental Optics,2018,13(6):436-446.

[19] 代雪珍,卫军超,常在斌.基于Fisher判别分析的分类模型研究 [J].价值工程,2018,37(26):211-213.

DAI X Z,WEI J C,CHANG Z B.Research on classification model based on Fisher discriminant analysis [J].Value Engineering,2018,37(26):211-213.

(责任编辑:郁 慧)

猜你喜欢
支持向量机遗传算法
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
基于改进的遗传算法的模糊聚类算法