应用近红外光谱法结合波长筛选快速测定烟草绿原酸、莨菪亭和芸香苷含量

2020-01-02 02:15周文忠张峻松高占勇杨盼盼
江西农业学报 2019年12期
关键词:蛙跳绿原波长

周文忠,张峻松,邹 悦,刘 静,高占勇,杨盼盼*

(1.郑州轻工业大学 食品与生物工程学院,河南 郑州 450002;2.云南同创检测技术股份有限公司,云南 昆明 650106;3.红云红河烟草(集团)有限责任公司,云南 昆明 650231)

烟草中多酚类物质主要包含:绿原酸、芸香苷和莨菪亭,其中绿原酸占总多酚含量的75%~90%[1]。多酚在烟草的生长发育、调制特性、烟叶色泽、烟气香吃味和烟气生理强度等方面起着重要作用,是衡量烟草品质的一个重要因素[2]。因此,烟草中多酚类物质含量的检测显得尤为重要。目前,有文献[3]报道的烟草中绿原酸、芸香苷和莨菪亭含量的测定方法主要有高效液相色谱法(HPLC)、紫外可见分光光度法等,这些方法存在检测成本高、前处理复杂、难以实现快速检测等问题。

近红外光谱法[4-5]作为一种快速、绿色、环保的光谱分析方法,已广泛应用于农业、烟草、食品、制药和石化等各个行业。近红外分析技术也被应用于烟草中的多酚含量的快速测定,吴玉萍等[5]挑选244个样品建立了烟草中总多酚含量的近红外校正模型,外部验证集20个样品的预测值与实测值之间的平均标准偏差为0.10,且近红外预测值与化学法测定值之间不存在显著性差异。章平泉等[6]基于36份烟叶样品的近红外光谱,对比评价了不同光谱预处理方式和不同建模波段的建模效果。结果表明,绿原酸、新绿原酸和芸香苷近红外数学模型外部验证的平均相对误差和变异系数(RSD)均在5%以内。冷红琼等[7]采集200个样品的近红外光谱,使用偏最小二乘法(PLS),选择7500~4000 cm-1谱段,采用二阶导数和Norris滤波法(段长5,段间距3)进行光谱预处理,建立了烟草中绿原酸、芸香苷、莨菪亭及总多酚的近红外预测模型。结果表明:近红外光谱技术与常规标准检测方法测定值在显著水平0.05时,不存在显著性差异。侯英等[8]采用随机蛙跳算法对建模波长进行了筛选。因此,近红外光谱技术用于定量分析烟草中绿原酸、芸香苷、莨菪亭及总多酚具有较强的可行性。

进行近红外定量分析时,波长选择是十分必要的[9]。在增加建模样本量的基础上,本研究拟采用不同波长筛选算法:7500~4000 cm-1波长范围[7]、随机蛙跳算法[8](Random Frog)和间隔随机蛙跳算法[10](Interval Random Frog),基于模型内部评价参数和外部验证结果,优选出最佳的波长筛选算法,并用于建立烟草中绿原酸、芸香苷、莨菪亭近红外校正模型,以期进一步提高近红外校正模型的稳定性和预测的准确性。

1 材料与方法

1.1 仪器及材料

近红外光谱仪:Nicolet Antaris Ⅱ型(美国Thermo Fisher 公司);光谱采集及数据分析软件:RSULTTM集成软件和TQ Analyst 8.6(美国Thermo Fisher 公司);光谱数据处理及建模软件;MATLAB R2010a软件;样品旋风磨(美国FOSS公司)。600个陈化烟样品由云南中烟工业有限责任公司技术中心提供,随机挑选500个作为校正集样品,余下100个作为外部验证集样。

1.2 方法

1.2.1 多酚含量的测定 参照标准方法[11]测定600个样品中绿原酸、莨菪亭和芸香苷含量,作为建立近红外校正模型的基础数据。

1.2.2 样品前处理及近红外光谱的采集 参照标准方法[12]对样品进行预处理。设置仪器参数,采集样品近红外光谱。

1.2.3 异常样品的挑选及光谱数据预处理 采用TQ Analyst 8.6软件对样品近红外光谱进行预处理,预处理方法:多元散射校正(MSC)+二阶求导+Norris(5,3)平滑[13];基于蒙特卡罗采样的奇异样本回归诊断[14],采用MATLAB R2010a软件对校正集样本中奇异样本进行挑选。

1.2.4 特征波长变量的筛选及变量数的确定 采用间隔随机蛙跳算法、随机蛙跳算法筛选建立烟草中多酚成分(绿原酸、莨菪亭和芸香苷)近红外校正模型的特征波长。间隔随机蛙跳算法和随机蛙跳(Random Frog)算法[15]参数为迭代次数N=10000;开始运算的变量数Q=40。利用最小的交叉验证均方差(RMSECV)确定较优的波长变量数[16]。

1.2.5 校正模型的建立及评价 基于间隔随机蛙跳算法、随机蛙跳算法筛选的特征波长和7500~4000 cm-1范围波长,分别采用偏最小二乘法(Partial Least Squares, PLS)建立烟草中绿原酸、莨菪亭和芸香苷的近红外校正模型。由交互验证的均方差(Root Mean Square Error of Cross Validation, RMSECV)最小值决定偏最小二乘法(PLS)适宜主因子数。

校正模型的评价参数[17]:模型的决定系数(R2);校正均方根误差(Root Mean Square Error of Calibration, RMSEC);交叉验证均方差(Root Mean Square Error of Cross Validation, RMSECV);外部验证采用预测平均相对误差参数进行评价,以上过程均采用MATLAB R2010a软件完成。

2 结果与讨论

2.1 光谱预处理及异常样品的挑选

在建立校正模型之前对数据进行奇异值检测,剔除异常样品可以提高模型的稳健性[18]。模群迭代奇异样本诊断[14]是一种基于奇异样本点对预测残差和预测误差很敏感的原理,采用预测误差的分布为依据的诊断方法。光谱预测误差的均值-方差分布如图1所示(以绿原酸为例)。由图1可知,异常样本(outlier)个数为5个(样品编号:9、123、124、215和270),剔除异常样品后剩下的样本集样品595个(校正集样品:495个,验证集样品:100个)。采用上述方法对莨菪亭和芸香苷的异常样品进行剔除,莨菪亭和芸香苷样品均剔除异常样品4个,剔除异常样品后剩下的样本集样品596个(校正集样品:496个,验证集样品:100个)。建模集样品中绿原酸、莨菪亭和芸香苷含量范围分别为6.70%~28.71%、0.08%~0.71%和4.42%~17.07%。

剔除异常样品后,样品原始近红外漫反射光谱经多元散射校正(MSC)+二阶求导+Norris(5,3)平滑预处理后的光谱如图2所示。由图2b可知,经预处理后的近红外光谱在10000~9000 cm-1存在高频噪声,在进行近红外校正模型建立时应将此波段排除在外,因此选择9000~4000 cm-1波数范围内的光谱数据进行特征波长或波段的筛选。

图1 绿原酸近红外校正模型模群迭代奇异样本诊断图

图2 代表性样品近红外漫反射光谱(a)和经预处理后(b)的光谱图

2.2 特征波长变量的筛选

随机蛙跳算法能够利用少量的变量迭代进行建模,是一种非常有效的高维数据变量选择方法。间隔随机蛙跳算法是一种基于随机蛙跳算法,性能更加优越的波长变量筛选算法。两种方法通过输出每个变量选择可能性,根据变量重要性进行波长选择。采用随机蛙跳和间隔随机蛙跳算法分别对烟草中绿原酸、莨菪亭和芸香苷近红外校正模型的特征波长点进行提取,不同的波长点有不同的选择概率。以莨菪亭为例,不同波长点被选取的概率如图3所示。

由图3可知,间隔随机蛙跳波长筛选算法较随机蛙跳算法筛选出被选择概率大的波长点分布更为集中。通过模型交叉验证均方差(RMSECV)随变量数增加的变化情况,在RMSECV取得最小值时确定为较优的变量数。以绿原酸为例,RMSECV随波长变量数增加变化的趋势如图4所示。随机蛙跳算法和间隔随机蛙跳算法选出的莨菪亭近红外校正模型最优变量数分别为273和147。随机蛙跳算法和间隔随机蛙跳算法选出的绿原酸和芸香苷近红外校正模型较优的变量个数依次为:262、198和283、175。依据变量重要性分别选择最优建模波长数作为校正模型输入变量。

图3 采用蛙跳算法和间隔蛙跳算法计算出的不同波长点变量的选择概率

图4 交叉验证均方差(RMSECV)随变量数的变化

2.3 校正模型的建立及评价

为评价不同波长(波长点)变量条件下建立的烟草多酚校正模型的精度。本研究选择7500~4000 cm-1波长变量及通过随机蛙跳算法和间隔随机蛙跳算法筛选出波长点变量,分别采用偏最小二乘法(PLS)建立烟草中多酚类化合物绿原酸、莨菪亭和芸香苷的近红外校正模型。

以绿原酸校正模型为示例,随机蛙跳和间隔随机蛙跳算法筛选波长变量建立校正模型中交互验证均方差(RMSECV)随主成分数的变化见图5。由图5可知,随着主成分数的增加,两种算法筛选波长变量建立近红外校正模型的RMSECV逐渐降低,取得RMSECV最小值时对应的主成分数为最优的建模主成分数。随机蛙跳算法和间隔随机蛙跳算法最优的主成分数分别为11和12。

图5 烟草中绿原酸的近红外校正模型交互验证均方差(RMSECV)随主因子的变化

以绿原酸校正模型为例,分别采用7500~4000 cm-1光谱波长变量+PLS、Random Frog+ PLS和Interval Random Frog+PLS所建立校正模型的效果如图6~图8所示。莨菪亭、绿原酸和芸香苷依照上述步骤方法建立近红外校正模型的内部评价参数(表1)和用100个外部验证集预测的相对标准偏差(表2)。

由图6~图8和表1~表2可知,在光谱预处理方式、校正集样本、验证集样本和建模参数一致的条件下,以绿原酸为例,对比3种不同波长或波长筛选算法:7500~4000 cm-1、Random Frog和Interval Random Frog,决定系数由0.9462增加至0.9721;校正集的均方估计残差由1.1458降低到0.7741;交互验证均方差由1.1254降低到0.8210。100个外部验证集预测平均相对误差由8.337%降低到7.025%。3种波长或波长筛选算法建立的烟草莨菪亭和芸香苷近红外校正模型建模效果对比与绿原酸相似。以上结果表明,采用Interval Random Frog+PLS建立的近红外校正模型的内部评价参数(决定系数、均方估计残差RMSEC和交互验证均方差RMSECV)优于Random Frog+ PLS方法,后者又优于7500~4000 cm-1光谱波长变量+PLS。100个外部验证集样品验证结果表明Interval Random Frog+PLS优于Random Frog+ PLS方法,后者又优于7500~4000 cm-1光谱波长变量+PLS。

图6 烟草中绿原酸近红外校正模型效果图(7500~4000 cm-1+PLS)

3 结论

基于相同光谱预处理和建模方法,相同的校正集和验证集样品光谱分别通过7500~4000 cm-1、随机蛙跳算法筛选和间隔随机蛙跳算法筛选波长点变量建立烟草中绿原酸、莨菪亭和芸香苷的近红外校正模型,并对建模效果进行内外部评价。结果表明采用间隔蛙跳筛选输入变量时,模型的稳定性和预测准确性最优。通过波长优选进一步提升了烟草绿原酸、莨菪亭和芸香苷近红外校正模型的稳定性和准确性,为该方法的推广应用奠定了基础。

图7 烟草中绿原酸近红外校正模型效果图(Random Frog+PLS)

图8 烟草中绿原酸的近红外校正模型效果图(Interval Random Frog+ PLS)

表1 不同建模输入变量条件下建立的烟草中绿原酸、莨菪亭和芸香苷近红外预测模型评价指标的比较

表2 不同建模输入变量条件下建立的烟草中绿原酸、莨菪亭和芸香苷近红外预测模型外部验证评价指标的比较

猜你喜欢
蛙跳绿原波长
一种波长间隔可调谐的四波长光纤激光器
“三层七法”:提高初中生三级蛙跳能力的实践研究
不同银花类药材提取的绿原酸含量研究
杯中“日出”
HPLC法同时测定细叶亚菊中绿原酸和异绿原酸A的含量
不同甜叶菊品种叶中绿原酸类成分的比较研究
基于针孔阵列型的单次曝光双波长叠层成像*
三坐标测量在零件安装波动中的应用
绿原酸的生物活性及其应用