奇亚籽水分、脂肪、蛋白质和灰分的近红外光谱快速检测模型优化

2020-07-14 10:31彭彬倩庞月红沈晓芳
中国油脂 2020年7期
关键词:灰分校正预处理

彭彬倩,庞月红,沈晓芳

(江南大学 食品学院,江苏 无锡 214122)

奇亚籽(SalviahispanicaL.)原产于墨西哥南部等北美地区,是美国食品和药物管理局(FDA)认证的安全食品。2014年我国国家卫生和计划生育委员会将其列为新食品原料,正式进入我国市场。奇亚籽营养价值高,不仅可以直接食用,还可作为面包[1]、蛋黄酱[2]、酸奶[3]等产品的辅料。奇亚籽被认为是蛋白质和植物油的良好来源,特别是奇亚籽油富含不饱和脂肪酸,其中α-亚麻酸含量达60%以上,是n-3脂肪酸的天然来源[4],其应用前景和经济效益日益受到人们的重视。

近年来,国内对奇亚籽营养价值的深入研究[5-6],大大促进了奇亚籽加工业的发展,并对奇亚籽原料快速检测分选提出了新的要求。国标法测定样品各组分过程烦琐、耗时耗力、费用昂贵。近红外光谱法作为一种无损检测技术,具有多指标同时检测、快速无损、成本低等优点[7],在油脂[8]、谷物[9-11]、乳制品[12]等行业应用广泛,且已应用于多种谷物水分、蛋白质、脂肪和灰分等品质指标的检测[10, 13-14],但目前还鲜见基于近红外的奇亚籽水分等多品质参数快速无损检测的相关研究报道。

本研究以不同产地的奇亚籽为研究对象,测定奇亚籽中水分、蛋白质、脂肪和灰分,同时采集同份样品的近红外漫反射光谱,为搭建品质模型提供基础数据。在近红外光谱全波段的基础上筛选最佳光谱预处理方式,通过人为逐一排除法剔除干扰波段建立偏最小二乘定量模型。本研究可为奇亚籽行业实现在线品控分选提供研究依据。

1 材料与方法

1.1 实验材料

奇亚籽样品,收集自墨西哥、阿根廷、澳大利亚、巴拉圭、玻利维亚、秘鲁、厄瓜多尔和尼加拉瓜等国,共计103份,样品状态为籽粒。

Antaris II 近红外分析仪,购自Thermo Fisher科技(中国)有限公司。光谱采集软件为RESULT-Integration,建模软件为TQ Analyst,均为Thermo Fisher科技(中国)有限公司开发。

1.2 实验方法

1.2.1 理化指标的测定

参照GB 5009.3—2016《食品安全国家标准 食品中水分的测定》,采用105℃直接干燥法测定奇亚籽中水分含量。参照GB 5009.6—2016《食品安全国家标准 食品中脂肪的测定》,采用索氏抽提法测定奇亚籽中脂肪含量。参照GB 5009.5—2016《食品安全国家标准 食品中蛋白质的测定》中半自动凯氏定氮仪法测定奇亚籽中蛋白质含量,折算系数取6.25。参照GB 5009.4—2016《食品安全国家标准 食品中灰分的测定》,采用550℃马弗炉灼烧法测定奇亚籽中灰分含量。每个样品测3次取平均值作为实测值。

1.2.2 光谱的采集

使用具有积分球的Antaris II近红外分析仪(配有InGaAs检测器)以漫反射模式采集每个样品的光谱。每份样品籽粒称取25 g,置于圆形标准样品杯(直径5 mm,高2 mm)中,设定样品杯全程旋转扫描模式。整个实验在(25±1)℃的环境温度和38%左右的相对湿度下进行。所有光谱均采用背景空气光谱作为空白对照,每个光谱是32次扫描的平均值,光谱扫描范围为10 000 ~ 4 000 cm-1,分辨率为8 cm-1,增益为8×,原始数据集以3.857 cm-1间隔测量,得到1 557个变量。将样品杯中样品倒回样品袋,重新称取25 g样品重复扫描近红外光谱,3次采集得到平均光谱,以减少样品分布不均匀带来的误差。

1.2.3 光谱预处理及建模

样品集划分:根据光谱数据计算马氏距离剔除异常点之后的样本随机划分校正集与验证集,各81份和22份,保证两集的样本化学值均匀分布。

光谱预处理与特征波段筛选:为了提高相关有效光谱信息,削减无效干扰光谱,达到放大和分离重叠光谱信息的效果,采用多元散射校正(MSC)、标准正态变化(SNV)、一阶导数(1st)、二阶导数(2nd)、Savitzky-Golay滤波平滑(SG)和Norris微分平滑(ND)单一或组合方式,共计19种光谱预处理方法。其中,Savitzky-Golay滤波平滑设定多项式的取值范围为7、阶数为3,Norris微分平滑在段长为5、间距为5时进行。将全波段划分不同区间,采用手动法[15]筛选特征波段。

模型评判与验证:采用偏最小二乘(PLS)回归法建立奇亚籽水分、脂肪、蛋白质和灰分的校正模型。根据交叉验证均方根误差(RMSECV)确定主因子数和校正集相关系数(rc)作为直接衡量模型优劣的主要指标,并使用相对分析误差(RPD)对各组分模型进一步评估。若RPD≥2.0,说明模型建立优良,可用于日常实际定量检测;若2.0>RPD≥1.4,说明模型较好,但用于实际应用需进一步改良;若RPD< 1.4,说明模型不能用于定量检测[16-18],进一步,相对标准偏差(RSD)应当小于10%,最后利用验证集样品(不参与建模)的近红外光谱图,通过比较模型预测值与化学值进行验证。

2 结果与分析

2.1 理化指标

Williams等[19]认为样品化学值平均分布有利于建立稳健理想的校准模型,而不是一个高斯分布趋势,非高斯分布被认为是校准集的一个良好特征,从而所建模型在未来分析偏向平均值。奇亚籽水分、脂肪、蛋白质和灰分在初始样本集的分布如图1所示。由图1可知:水分含量范围在2.45%~8.65%之间,其中含量在4.50%~7.50%之间的样品共有84份,占总样本量的81.6%;脂肪含量范围在26.4%~36.7%之间,其中含量在31.5%~36.5%之间的样品共有93份,占总样本量的90.3%;蛋白质含量范围在17.2%~27.6%之间,其中含量在18.0%~26.0%之间的样品共有95份,占总样本量的92.2%;灰分含量范围在3.5%~5.6%之间,其中含量在4.1%~5.3%之间的样品共有91份,占总样本量的88.3%。本实验样本的各组分范围基本上覆盖了奇亚籽中可能出现的含量,数据离散度及波动性较大,虽然样品的分布不均匀,但样品在最大值和最小值之间连续存在。

图1 奇亚籽水分、脂肪、蛋白质和灰分在初始样本集的分布

2.2 校正集与验证集的划分

对近红外光谱定量分析而言,其数据异常可分为光谱异常和实测值异常[8],本实验借助TQ Analyst软件自带的马氏距离判定没有出现异常值。奇亚籽样本校正集和验证集参数见表1。由表1可知,103份奇亚籽的测量参数范围较广(样本生长地点、基因型和环境影响的变异性),水分的校正集和验正集化学值变幅范围分别为2.45%~8.65%、2.56%~7.95%,脂肪的变幅分别为26.4%~36.7%、26.5%~36.5%,蛋白质的变幅分别为17.2%~27.6%、17.7%~26.5%,灰分的变幅分别为3.5%~5.6%、3.7%~5.3%。可见验证集化学值变幅范围包含在校正集内,校正集所建模型范围可以用于验证集样品,且校正集与验证集的平均值和标准偏差相近,可见校正集与验证集内的样本分布相似,选择合理。

表1 奇亚籽样本校正集和验证集参数 %

2.3 光谱分析

图2为奇亚籽样本原始近红外光谱图,通过Antaris II 近红外分析仪采集近红外光谱范围为10 000~4 000 cm-1,12 500~10 000 cm-1之间的区域光谱信息较少,因此此区域没有被用于开发校准模型。由图2可知,每条光谱趋势相似,难以用肉眼评判特定波段峰值与指标含量的关系。在6 897 cm-1和5 181 cm-1处的谱带与—OH基团的第一倍频和组合频相对应,主要代表了水分含量;与脂类相关的谱带,即—CH2和—CH3官能团,在8 264 cm-1是拉伸振动的第二倍频,5 780 cm-1和5 681 cm-1是拉伸振动的第一倍频,拉伸和弯曲振动的组合频出现在4 329 cm-1和4 255 cm-1附近;4 859 cm-1和4 616 cm-1处吸收峰带与蛋白质含量有关[19-20]。剔除干扰光谱信息,加强有效信息均有利于建立合适而精确的模型。通过TQ Analyst软件将光谱进行预处理及波段的剔筛,从而利用偏最小二乘法建立各组分的定量模型。

2.4 光谱预处理

从原始近红外光谱仪获取的103份奇亚籽光谱数据除了样品信息外,还含有背景信息和噪声。为了获得优化的PLS校准模型,建模前需要对光谱数据进行预处理。在没有特征光谱的情况下,光谱预处理是建立PLS模型的变量之一。导数可重新求解重叠峰,从而提高分辨率和灵敏度。随着光谱预处理的选择不同,一阶导数主要解决基线偏移,二阶导数则解决基线漂移[21],平滑可用于降低随机噪声,从而提高光谱的信噪比,MSC和SNV处理可以补偿由于颗粒大小等因素引起的光谱散射效应[22]。

水分、脂肪、蛋白质和灰分不同光谱预处理方法的PLS回归模型参数分别见表2~表5。由表2~表5可知,优化后的模型具有较高的r值和较低的RMSECV和RMSEP(验证集预测均方根误差)值,可以较好地预测奇亚籽中4种分析物的含量。当不同光谱预处理下RMSECV接近的情况下,如果一味追求校正集相关系数的最佳,可能存在校正过度现象,不利于验证,因此在这种情况下选择低RMSEP为最优模型。优化结果如下:

水分:SG处理下模型最佳。此时,校正集相关系数为0.976,RMSEP为0.19%,RMSECV为0.32%。校正集RPD为4.6,RSD为5.5%。

脂肪:利用1st和MSC得到了最优PLS模型。此时,RMSEP为0.54%,验证集相关系数为0.970,RMSECV为0.95%,校正集相关系数为0.843,RPD为1.9,RSD为2.8%。

蛋白质:1st、SNV和SG组合处理结果最好。此时,RMSECV为1.33%,校正集相关系数为0.850,RMSEP为1.54%。

灰分:1st、SNV和ND组合处理结果最好。此时,RMSEP为0.17%,验证集相关系数为0.899。RMSECV为0.25%,校正集相关系数为0.798,RPD为1.6,RSD为5.5%。

主因子数变大可以防止欠配合,然而,主因子数过大往往会单方面使校正集搭建的模型过拟合,不利于预测集的结果,因此选择合适的主因子数很重要[23-24]。通过数据软件自动给出水分、脂肪、蛋白质和灰分含量模型主因子数分别为10、6、5、9。

表2 基于全波段的不同光谱预处理下水分指标建模结果

续表2

光谱预处理校正集rRMSECV/%RPDRSD/%验证集rRMSEP/%RPDRSD/%主因子数SNV+SG0.9850.255.74.40.9590.413.56.812SNV+1st+SG0.9800.295.14.90.9820.275.24.65SNV+1st+ND0.9830.265.54.60.9830.265.54.39SNV+2nd+SG0.9610.403.66.90.9500.443.27.33SNV+2nd+ND0.9820.285.34.70.9880.226.53.78

注:NONE表示无光谱预处理。下同。

表4 基于全波段的不同光谱预处理下蛋白质指标建模结果

续表4

光谱预处理校正集rRMSECV/%RPDRSD/%验证集rRMSEP/%RPDRSD/%主因子数SNV+2nd0.6941.821.48.10.5542.321.210.52SNV+SG0.8061.511.76.70.7381.911.48.66SNV+1st+SG0.8501.332.05.90.8311.541.86.95SNV+1st+ND0.8431.361.96.00.7631.811.58.26SNV+2nd+SG0.7601.651.67.30.6722.101.39.54SNV+2nd+ND0.8401.381.96.10.8251.591.77.26

表5 基于全波段的不同光谱预处理下灰分指标建模结果

2.5 特征波段的筛选

在预测不同固体样品中的花青素、可溶性固形物以及总糖含量[11]、藏红花素[25]、水分、脂肪、蛋白质、总酚类化合物、咖啡因和可可碱[26]等,均可以证明光谱范围的选择可以有效地提取对应分量的光谱信息,避免过拟合,大大提高了模型的精度。本研究采用人工筛选方法[15]将全波段分为11个大的区间:4 000~4 500 cm-1,4 500~5 000 cm-1,5 000~5 500 cm-1,5 500~6 000 cm-1,6 000~6 500 cm-1,6 500~7 500 cm-1,7 500~8 000 cm-1,8 000~8 500 cm-1,8 500~9 000 cm-1,9 000~9 500 cm-1,9 500~10 000 cm-1。结合TQ Analyst软件对波段进行了严格筛选,排除了与组分无关的波段。最后,将选定的谱区用于单谱区或组合谱区进行比较。

为了进一步评估光谱范围变量选择的效果,表6分别对4个优化PLS模型的选择范围、RMSECV、RMSEP、RPD和RSD进行了汇总。通过对比表2~表6中的RMSECV和r等参数,可以清楚地看出光谱范围选择对模型的影响。例如校正集中,水分模型的RMSECV、r、RPD和RSD在表2中分别为0.32%、0.976、4.6和5.5%。表6校正集中,在9 826~9 729 cm-1,8 665~8 217 cm-1和7 388~6 095 cm-1谱区下,RMSECV和RSD进一步降低到0.23%和4.0%,而r和RPD增加到0.987和6.3。对于脂肪、蛋白质和灰分,也得到了类似的结果。

由表6可以看出,RMSECV和RMSEP的值,校正集和验证集中的r、RPD和RSD值比较接近。对于水分和脂肪模型,RMSEP略小于RMSECV,对于蛋白质和灰分模型,验证集r相较校正集的略小,均方根误差略大。通过比较表2~表5和表6中均方根误差、r和RPD,光谱预处理和谱区筛选使模型有显著提升的效果。以水分模型为例,未经预处理光谱的RMSECV、校正集RPD、校正集和验证集r值分别为0.32%、4.5、0.975和0.983;采用SG预处理方法后,4个值分别为0.32%、4.6、0.976和0.992;利用人工筛选谱区方法预处理之后,RMSECV进一步降低到0.23%,校正集和验证集r值进一步提高到0.987和0.993,校正集RPD进一步提高到6.3。脂肪、蛋白质和灰分模型也有类似的情况。

表6 基于最优光谱预处理的特征波段下建模结果

2.6 可行性研究

为了进一步研究4种优化模型的可预测性,采用偏最小二乘法拟合得到PLS模型和化学法分析得到校正集和验证集4个品质指标的拟合线,见图3。由图3可知,散点与拟合线之间距离不大,无明显偏离点,可见大部分预测结果与实测值无显著差异,验证了定量模型可靠性,可在实际检测中实时反馈奇亚籽品质。虚线为验证集拟合线,实线为校正集拟合线,两条线高度重叠,其中水分模型最佳,r值达到0.98以上,其余指标的r值在0.9左右或0.9以上。结果表明,实验所建立的预测模型可以实现对不同产地奇亚籽的水分、脂肪、蛋白质以及灰分的快速无损检测。

图3 奇亚籽水分、脂肪、蛋白质和灰分的模型拟合线

3 结 论

本实验以产自墨西哥、阿根廷、澳大利亚、巴拉圭等地的奇亚籽为研究对象,探讨了基于近红外光谱的奇亚籽水分、脂肪、蛋白质和灰分的同时快速无损检测方法。选择合适的谱区范围和光谱预处理方法可以有效地提高模型的性能,4个模型验证结果为0.923 ≤rp≤ 0.993,0.15% ≤RMSEP≤ 1.10%,2.5 ≤RPD≤ 6.8。以上结果表明模型的预测值与实测值接近,预测效果良好。综上,该模型可用于食品工业的快速在线检测和评估,有利于奇亚籽原料的合理利用。

猜你喜欢
灰分校正预处理
基于灰分回控的智能密度控制系统在寨崖底选煤厂的应用
灰分在线检测对选煤智能化建设作用的思考
求解奇异线性系统的右预处理MINRES 方法
基于单种煤成焦灰分预测焦炭灰分的研究及应用
不同重量僵蚕总灰分含量的比较研究
污泥预处理及其在硅酸盐制品中的运用
劉光第《南旋記》校正
建立在校正系统上的强大实力Sonance所能士i12
在Lightroom中校正镜头与透视畸变
基于预处理MUSIC算法的分布式阵列DOA估计