江西烤烟淀粉近红外检测模型的建立

2019-05-10 03:56张雄峰张启明何宽信

广东农业科学 2019年3期

李卓，张棋，张雄峰，张启明，何宽信

（1.江西省烟草科学研究所，江西南昌 330000；2.泸州市环境监测中心站，四川泸州 646000）

【研究意义】近红外光谱辐射区域介于可见光和中红外光之间（4 000～12 500 cm-1），轻型原子间的化学键（如C-H，O-H 和N-H）会发生振动而产生复杂重叠的倍频和合频谱带[1-2]。近红外光谱谱带重叠严重，很难将透射峰直接与特定结构的官能团相对应。近年来，随着数据处理技术的丰富，加上近红外光谱技术本身具有快速、高效、无损等特点，被广泛用于农产品中营养物质及功能性组分的测定及定量预报[3-7]。近红外辐射比中红外具有更强的穿透能力，能深入样品内数毫米，意味着近红外光谱能反映样品内部的某些信息[8]，为快速无损检测创造了条件。但近红外数据量较大且无明显规律，通常需要结合化学计量学方法对数据中的信息进行提取和利用[9]。淀粉是由D-葡萄糖通过苷键结合而成的多糖，存在于植物细胞内，尤其是种子、块茎和块根等[10]。淀粉也是烟叶中的重要组成部分，烟叶进入成熟期后，淀粉会转化为还原糖和有机酸，淀粉含量也是衡量烟叶品质的重要指标之一，通常认为，淀粉含量越高，烟叶的成熟度越低[11]。目前，烟草行业主要采用碘显色法（YC/T 216-2013）对烟叶中淀粉含量进行检测，基本原理是：烟叶样品用80%乙醇-饱和氯化钠溶液除杂质，再用40%高氯酸提取淀粉，酸性条件下淀粉水解生成糊精，糊精与碘发生显色反应并于570 nm处比色测定[12]。传统的碘显色法需要复杂耗时的前处理和实验准备：一方面，整个淀粉浸提过程相对耗时费力；另一方面，由于不同的淀粉（直链:支链）遇碘显色不完全相同（呈蓝色或呈紫色）[13]，因此在配制标准溶液时必须按照行业标准规定的淀粉标液中直链:支链1∶4的比例配制标准溶液，并且由于含有4%的高氯酸，随时间的推移淀粉会逐渐水解[14]，因此标液不宜保留过久。【前人研究进展】近红外检测手段操作简单、检测快速，几乎不消耗试剂、样品、标准品，降低了检测成本。利用烟叶的近红外数据可建立烟叶产地和等级的定性识别模型，也可建立烟叶中某些化学组分的定量预报模型。烟草行业内对于近红外检测手段的使用也在逐渐增多[15]，上海烟草集团、郑州烟草研究院、云南中烟等单位都建立了各自的近红外检测模型[16-18]，然而很多具体的建模细节和方法理论阐述不够充分，基于江西烤烟的近红外检测模型也尚未有报道。【本研究切入点】本研究以淀粉为例，首次将近红外预报模型建模方法应用于江西烟草，收集烟叶样品的近红外光谱数据和对应化学分析数据，对近红外光谱数据进行预处理，消除环境背景和仪器状态导致的噪音和随机误差，再对高维度的近红外光谱数据进行降维并选择合适的变量，最后建立校正曲线，并验证模型的准确性和稳定性。【拟解决的关键问题】旨在通过近红外光谱技术和化学计量学方法建立用于江西烤烟的淀粉近红外检测模型，同时将建模步骤具体化，并充分阐述方法的理论支撑。本研究对于江西烟叶的质量控制和其他烟草模型的建立具有重大指导和借鉴意义。

1 材料与方法

1.1 试验材料

选择江西2014年和2015年的上（B2F）、中部（C3F）烟叶烤烟样品共650个，其中2014年上部烟161个、中部烟161个，2015年上部烟164个、中部烟164个（表1）。

仪器：配备积分球漫反射采样系统的近红外光谱仪（AntarisⅡ型，赛默飞，美国）；连续流动分析仪（San++，SKALAR，荷兰）

1.2 样品制备

先用软毛刷将烟叶上的细土和砂粒刷去，抽去主脉，将烟叶用切丝机切丝，再放入烘箱中，在不高于40 ℃的烘箱中烘干，直至烟丝可用手指捻碎，取出烘好的烟丝，马上研磨，持续研磨时间不应超过2 min，然后用0.42 mm网过筛，得到粒径均匀的烟粉样品[19]。

1.3 光谱数据的采集

取10 g烟叶粉末，均匀填装进内径5 cm样品杯，用铜块压实，然后在FT-NIR分析仪上进行漫反射光谱采集。光谱采集时样品杯相对光源入射孔作偏心旋转，扫描次数64次，分辨率8 cm-1，扫描范围3 800～12 000 cm-1，步长为3.86 cm-1。以积分球镀金内壁作为背景，每个样品扫描前均扫描背景，扫描次数同样为64次，实验温度控制在25.0（±1.0）℃。

1.4 化学分析数据的收集

淀粉含量的化学分析数据由连续流动分析仪根据行业标准YC/T 216-2013检测得到[12]。

1.5 化学计量学方法

1.5.1 标准正则化标准正则化（Standard NormalVariate，SNV）常用于消除斜率的影响[20]，首先计算一条光谱的平均吸光度值，用不同波数点处的吸光度值与平均吸光度值的差值除以它们的相对标准偏差得到不同波数点处新的吸光度值，继而得到新的光谱。

表1 烤烟样品的产地信息Table 1 Origin information of flue-cured tobacco samples

式中，Xi为第i样品光谱的平均值，k=1，2…m，m为波长点数；i =1，2 …，n，n为样品数。

1.5.2 多元散射校正多元散射校正（Multiplicative Scatter Correction，MSC）常用于减少散射效应对数据响应的影响[21]，首先计算所有样品近红外光谱的平均光谱，然后将平均光谱作为标准光谱，每个样品的近红外光谱与标准光谱进行一元线性回归运算，求得各光谱相对于标准光谱的线性平移量（回归常数）和倾斜偏移量（回归系数），在每个样品原始光谱中减去线性平移量同时除以回归系数修正光谱的基线相对倾斜，这样各光谱的基线平移和偏移都可得到修正。

1.5.3 Savitzky-Golay（SG）平滑和 Norris Derivative（ND）平滑 SG平滑又称移动窗口平滑，是一种在时域内基于局域多项式最小二乘法拟合的滤波方法，利用中心点及其前、后各w个点进行最小二乘拟合，新点其实是这个窗口内各点的线性组合，由不同权值的2w+1个点进行加权而得。这种平滑方法最大的特点在于在滤除噪声的同时可以确保信号的形状和宽度不变。ND平滑又称直接差分法，是一种最简单的离散波谱求导方法，常常用于原始光谱求导前消除光谱变换带来的噪音[22]。

1.5.4 朗伯比尔定律和多元线性回归朗伯比尔定律（Lambert-Beer’s law，LBL）是光吸收的基本定律，是一元线性回归，当光程和光波长确定时，吸光度只与物质的浓度成正比。多元线性回归（Multiple Linear Regression，MLR）是一元线性回归在处理两个或者两个以上变量时的扩展，实际应用中往往存在多个重要因素的影响，因此在建模中的使用价值大于一元线性回归[23]。

1.5.5 经典最小二乘回归经典最小二乘回归（Classical Least-Squares Regression，CLSR）是通过最小化误差的平方和寻找数据的最佳函数匹配[24]。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小，由此得到回归直线，该方法外标法分析检测中最常用的回归方式。

1.5.6 逐步多元线性回归逐步多元线性回归（Stepwise Multiple Linear Regression，SMLR）是将变量逐个引入模型，进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，可将其删除，保证回归方程中只包含显著性变量。直到既没有显著的解释变量选入回归方程也没有不显著的解释变量从回归方程中剔除为止[25]。

1.5.7 主成分回归主成分回归（Principal Component Regression，PCR）通过奇异值分解将原始的图谱数据矩阵分解成得分矩阵、载荷矩阵和残差矩阵，即将原数据的特征变量进行线性组合，转化成一组称作为主成分（PCs）的正交变量，是响应和独立变量之间最小方差的超平面。主成分回归能对原始变量进行降维，并最大限度的保留原始数据信息，并能解决共线性问题和变量数限制问题，可以用于复杂体系的回归[26-27]。

1.5.8 偏最小二乘回归偏最小二乘法回归（Partial Least-Squares Regression，PLSR）是集主成分分析和多元线性回归优点的一种回归方法。它与主成分分析法都试图提取出反映数据变异的最大信息，主成分分析法只考虑一个自变量数据矩阵X，而偏最小二乘法还考虑响应数据矩阵Y，因矩阵X和Y都会投影到新空间，因此预测结果往往优于主成分回归[28-29]。

2 结果与分析

2.1 选择不同数据前处理方法的模型效果

在进行粉末样品的近红外漫反射光谱采集时，由于样品的均匀性和尺寸颗粒不同，光程也不一样，因此需要对光谱数据进行预处理以消除光程的影响，常用的方法有SNV和MSC。图1A和1B分别是烟叶样品的近红外原始光谱和SNV光谱，可以看到经SNV处理后，光谱偏移得到了很大改善。另外导数处理也可以一定程度消除基线偏移还可以分离重叠信息。图1C和图1D分别是样品的一阶和二阶导数光谱，可以看出，相比原始光谱，基线差异明显减小且重叠信息得到了分离。但高阶导数处理在放大信息的同时也会放大噪声，因此在导数处理之前通常还要对数据进行滤波（平滑）处理。滤波的作用是减小噪声，提高信噪比，我们选择了SG和ND两种滤波方式。如表2所示，在进行了不同的光程类型方式、平滑方法和导数阶数的组合建模后，我们发现选择MSC+ND（5，5）+一阶导数的组合建立的模型具有最小的均方根误差和最大的相关系数。

2.2 选择不同波数区间的模型效果

样品的近红外光谱扫描范围为3 800～12 000 cm-1，步长为3.86 cm-1，有多达2 127个数据点，其中既包含与目标检测物相关的有效信息，也包含很多影响拟合结果的无用信息，选择波数区间太宽，虽然能够保留较多的样品信息，但同时也会引入大量的噪音和冗余信息，反而会使模型的预测效果变差，选择波数区间太窄又会造成信息的丢失和不全，不能完全提取样品代表性的特征信息，因此需要对原始光谱数据进行取舍。波数区间的选择对模型至关重要，是建模过程中最难以确定的环节，它完全取决于建模样品的实际模型效果，需要反复尝试不同波段；除了要考虑模型的匹配程度，还要考虑模型的兼容性，因此在进行波数选择时，尽可能要选择波数区间段，而不是离散的波数点，并且要避免选择干扰较大的区间。图2B标出了C-H，O-H 和N-H等官能团的振动倍频和合频谱带，参考这些谱带波段，我们选择了10种波数区间或区间组合用来建立模型。如表3所示，当波数区间选为4 000～4 500 cm-1和5 800～6 400 cm-1的组合时，模型具有最小的均方根误差和最大的相关系数。根误差和最大的相关系数。LBL、MLR、SMLR、CLSR的误差较大，RMSEC均在2以上，且相关系数很差，可能有以下原因：首先LBL要求吸光物质为均匀非散射体系，吸光质点之间无相互作用，因此对于复杂体系使用价值有限；MLR虽然可以容纳更多的变量数，但仍不适用于非散射体系；SMLR虽然可以对变量进行筛选，但是也会出现共线性的问题；CLSR常用于构建标准曲线，但是也会受共线性的问题的影响。PCR的回归效果也不及PLSR，这可能是：虽然PCR通过数据降维产生新变量（主成分）解决了共线性问题和变量数限制问题，但是参与回归的主成分不一定一定与样品性质有关，因此预报能力有限，而PLSR特征向量与样品性质直接相关，在保证奇异值影响不大的情况下，预测能力往往好于主成分回归，更适用于复杂体系的回归。

图1 所有样品的近红外原始光谱（A）、标准正态化光谱（B）、一阶导数光谱（C）、二阶导数光谱（D）Fig.1 NIR(A), SNV(B), first derivative (C)and second derivative(D) spectra of all samples

表2 不同数据前处理方法组合参数的模型效果Table 2 Model effects of combination parameters of different data pretreatment methods

表3 不同波数区间的模型效果Table 3 Model effects of different wavenumber intervals

表4 不同回归方式的模型效果Table 4 Model effects of different regression types

2.4 主成分数的选择

PLSR需要在评估均方根误差的基础上选择主成分数，以尽可能少的主成分来反映原样本空间最大的信息。图2是均方根误差随主成分数变化的曲线图，在主成分数为9时，均方根误差达最小，累计贡献率达到99.1%。

图2 选择主成分数的碎石图Fig.2 The gravel map for selecting principal components

3 讨论

比较了不同的光谱数据预处理方法、波数区间、回归方式、主成分数后，确定了最佳的建模参数，如表5所示。图3A是模型的回归直线，横坐标为化学检测值、纵坐标为模型预报值，所有样品均集中在拟合直线附近，没有明显的离群值，模型相关系数达到0.9652，校正均方根误差为0.407，预测均方根误差为0.490。图3B是模型预测值和化学检测值的相对偏差分布，均在15%以内，将样品的相对偏差以0为中点，每隔2%分别进行统计，如图3B所示，样品的偏差分布接近高斯曲线，一定程度上反映了模型的稳定性。

表5 江西烤烟近红外淀粉模型信息Table 5 Information of NIR model for starch content in Jiangxi flue-cured tobacco

图3 淀粉模型的PLS回归图（A）与相对偏差散点图（B）Fig.3 PLS regression plot of the starch NIR model(A), scatter diagram of relative deviation （B）

为进一步验证模型的实用性，随机选择40个外部样品，通过比较它们的化学分析值和近红外模型预报值，评价模型的预测效果，规定相对偏差＜10%为预报结果通过。如表6所示，绝大部分样品的预测结果良好，相对偏差较小，只有两个样品的预测相对偏差超过10%，预报通过率达到95%，表现了模型良好的预测效果。

表6 外部样品的模型验证结果Table 6 The model verification results of external samples

（续表6）

4 结论

本文利用化学计量学方法对江西省烟叶样品的光谱数据进行处理并确定了定量模型的相关参数，最终建立了用于江西烤烟淀粉含量的近红外定量分析模型，该模型的相关系数达到0.9652，校正均方根误差为0.407，预测均方根误差为0.490，外部样品验证通过率达到95%以上，预测效果良好。该方法相比于传统的连续流动分析法具有操作简单、检测快速、成本低廉的优势，可以较为准确地检测江西省烟叶中的淀粉含量，具有很强的实用价值。