基于近红外光谱的鸡蛋产地溯源

2020-11-18 03:47宋海燕张志勇韩小平山西农业大学工学院山西晋中030800
食品工业科技 2020年22期
关键词:识别率产地预处理

吴 鹏,宋海燕,杨 威,张志勇,韩小平(山西农业大学工学院,山西晋中 030800)

中国是世界最大的蛋品生产与消费国。我国连续20多年保持世纪第一产蛋大国的地位,占到世界鸡蛋产量的43%。同时人均的年平均鸡蛋消费量达到约20 kg/人左右,已经大大超过了世界平均水平[1]。因为鸡蛋营养价值含量高,价格低廉,深受广大群众的喜爱,在整个食品行业中都占有很重要的地位[2-3]。随着人们越来越注重食品安全,对鸡蛋产品的品质要求也越加严格。由于各类鸡蛋外表差别不大,所以市场上的很多不良商家为了牟取高额利益,往往以次充好,不仅损害了消费者的利益,同时也影响了市场的规则。因此,研究一种快速、无损的检测方法,实现鸡蛋的鉴别有很重要的意义。

食品产地溯源是建立食品质量安全的重要保障,近红外光谱技术操作简单、对食品无损、无污染,适用于对食品的品质分析及产地溯源的鉴别[4]。近些年来,近红外光谱技术在不断的发展创新,结合化学计量法在对各种食品、农产品等方面得到了广泛应用。有关利用近红外光谱技术对食品的品质分析在国内外已经有大量的报道,一些学者根据建立判别模型,对食品实现了产地溯源的研究[5-7]。姜亦南等[8]利用近红外光谱结合簇类独立软模式法(Cluster class independent soft mode method,SIMCA)对不同产地的三七作了研究,结果表明所建模型的样本识别率几乎达到100%,实现了对三七的产地鉴别;张智峰等[9]利用近红外光谱技术结合主成分分析对苦荞中的6种成分进行灰度关联分析,确定了对溯源影响最大的两种成分,实现对苦荞不同产地的溯源。孙淑敏等[10]利用近红外光谱分析结合偏最小二乘法判别分析建立了羊肉产地溯源,样本整体判别率为91.2%;宋雪健等[11]利用近红外漫反射技术对小米产地进行了溯源研究,结合最小偏二乘法建立的定量分析模型,对肇源、肇州两个地区的小米籽粒和粉末的正确鉴别率均在90%以上。

在以往研究中,利用SIMCA分类模型对鸡蛋产地的溯源鲜有报道。本文主要针对山西4个地区(晋中-太谷、晋西-吕梁、晋南-运城、晋北-朔州)的土养鸡蛋,利用近红外光谱技术分别获取其反射光谱信息,应用主成分分析结合SIMCA的判别分析方法对不同地区鸡蛋建立产地溯源模型。为进一步研究鸡蛋溯源提供技术支持。

1 材料与方法

1.1 材料与仪器

鸡蛋 所用样品均为一周内产的新鲜土鸡蛋;分别取自于山西朔州、吕梁、太谷、运城4个地区,鸡种均为柴鸡;所取鸡蛋蛋壳颜色基本相同(均为粉色),鸡蛋重量分布在50~65 g之间,蛋形指数在1.3~1.35。产蛋母鸡所吃食物均为山上的野生植物和虫子(自然放养)。

Field Spec3便携式光谱仪 美国ASD公司;530系列-M/N型标准卡尺 三丰精密量仪(上海)有限公司;ES-A系列标准精密天平 江苏巨立仪器有限公司。

1.2 实验方法

1.2.1 样品准备 将有缺陷(蛋壳有裂纹或者有瑕疵)的样本鸡蛋先剔除掉。用湿毛巾将剩余蛋壳表面的污渍清理干净,待其晾干,进行逐一编号。按地区将鸡蛋样本分别放入不同的托盘当中,等待检测。利用天平称重每个鸡蛋样品的重量并记录。用游标卡尺测量鸡蛋两端的距离作纵径,再测蛋中轴处直径作横径,纵径与横径之比求出每个鸡蛋样品的蛋形指数并记录。

1.2.2 光谱采集 采用Field Spec3便携式光谱仪对鸡蛋样品进行光谱采集。将光谱仪先预热30 min。将单个鸡蛋样本平放于托盘中,利用光谱仪的光纤探头与鸡蛋样本的赤道部位成45°角,并且与鸡蛋的垂直距离为20 cm,进行数据采集。每个鸡蛋样本在赤道部位正反面各取样一次。

1.2.3 光谱预处理 在采集光谱信息过程中,不可避免地会受到外界因素的影响,比如环境光线、样本差异、温度变化等其它因素的干扰;另外原始光谱信息量大,数据冗余多。因此,必须对原始数据用适当的方法进行预处理分析,这样才能使得建立模型更加完善[12-13]。本研究在350~2500 nm全波长范围内,先对原始光谱数据取平均值,在此基础上采用了多元散射校正(multiplicative scatter correction,MSC)、标准正态变量(standard normal variate,SNV)、Savitzky-Golay平滑滤波(SG)及它们之间相互组合,共6种预处理方法[14-15]。

1.2.4 模型构建及评价 簇类独立软模式(SIMCA)识别是针对每一类样本进行主成分分析,并计算各类样本间的马氏距离建立判别模型,依据该模型对未知样品光谱进行分类以确定相应类别。模型效果用识别率和拒绝率来表示,其中,识别率是指某类样品有多少落在该类模型的区域内,而拒绝率是指某类样品模型对于不属于该类的未知样品的拒绝程度[16]。

判别偏最小二乘法(partial least squares-discriminant analysis,PLS-DA)是在PLSR(偏最小二乘回归)基础之上建立的一种分类模型。在利用PLS-DA建立模型进行判别时,第一,需要对不同类别样本进行赋值作为变量的Y值;第二,对建立的Y值与光谱数据X进行回归分析,并建立PLS的回归模型;第三,根据所建立的回归模型计算未知样品的分类变量值,并将得到的分类变量值与其标准值比较,确定未知样品是否属于该类[17]。

1.3 数据处理

本次实验主要对采集鸡蛋样本数据利用多元散射校正(MSC)、标准正态变量(SNV)、Savitzky-Golay平滑滤波(SG)及它们之间相互组合进行预处理分析,以全部样本作为训练集,采用SIMCA模式识别的方法分别建立了朔州、吕梁、太谷、运城四个产地的判别模型,比较各种光谱预处理对模型精度的影响。在对选取最佳预处理后的光谱信息进行主成分分析,将4个地区的不同样本反应在二维平面内的投影图中。在主成分分析的基础上,对4个地区的样本建立PLS-DA判别模型和SIMCA识别模型,最终实现能够将4个地区的样本明显区分开,验证准确率达到100%。

2 结果与分析

2.1 鸡蛋的原始光谱分析

由于近红外光谱主要是含氢基团在近红外光谱区振动的合频与倍频的吸收,不同地区的鸡蛋,其养分含量会有差异,这是导致鸡蛋样本光谱差异的原因。从图1中可以看出4个产地的鸡蛋样本在620~880和1450~1960 nm波长范围有明显的波峰起伏。在625 nm处有较强的吸收峰,该吸收峰主要与水分子、醇分子、O-H基团的合频与倍频吸收有关,反映了鸡蛋中胆固醇含量的信息[18-19];而在1580、2100、2381 nm处的吸收峰主要与C-H、O-H基团的合频与倍频有关,反映了鸡蛋中蛋白质含量的信息。由图1可知,从350~2500 nm各样本的吸收峰及曲线的整体趋势保持一致,无法判断各地区样本的差异,因此需要对光谱数据做进一步处理。

图1 4个不同地区鸡蛋的全波段原始光谱图Fig.1 Full-band original spectra of eggs from 4 different regions

2.2 光谱数据预处理分析

通过对所有样本数据预处理分析[20-21],并在全波段范围内进行建模分析,如表1所示。

表1 不同预处理方法对建模的影响Table 1 Effects of different pretreatment methods on modeling

由表1中数据分析可以得出:通过以上各预处理方法的比较,发现太谷地区的样本利用SIMCA建立的模型识别率基本接近100%,拒绝率与其它地区相比也较高;吕梁和运城地区的识别率大多数达到95%以上,且吕梁地区的平均拒绝率可达到92%,而朔州地区的平均拒绝率仅在76%左右;4个地区中SG(3点)所建SIMCA模型的效果均优于其它方法。

如图2所示,为SG(3点)处理后的结果图,从图2中可以看出通过SG(3点)处理后,基本消除了基线漂移问题,谱线整体变得集中;在380~650 nm波段之前与1900~2500 nm波段之间,谱线还是较为分散,这也许是鸡蛋溯源的关键波段所在。

图2 SG(3点)预处理结果Fig.2 SG(3 points)preprocessed results

2.3 不同产地鸡蛋主成分聚类分析

通过对光谱数据预处理的基础上进行主成分分析[22],建立主成分得分图,确定最佳主成分数及方差累计贡献率,如表2所示。

表2 不同预处理下的主成分数及累计贡献率Table 2 Principal component number and cumulative contribution rate of different pretreatment

从表2可以看出,在不同预处理下,当主成分数为3时,其方差贡献率基本能达到95%以上,所以,在本研究中选主成分数为3,即可很好的说明原始光谱的信息。由表2可知,主成分数为3时,SG(3点)平滑的预处理方法方差贡献率最高,效果最好,如图3所示为第一、第二主成分得分图。

图3 PC-1和PC-2的主成分得分图Fig.3 Principal component scores of PC-1 and PC-2

如图3反映的4个地区的不同样本在二维平面内的投影,在主成分分析中,第一主成分、第二主成分、第三主成分的方差贡献率分别是78%、17%、3%,累计方差贡献率达到98%,因此能够充分表达样品的整体分布的特征。从图3可以看出4个地区的样本基本可以区分,其中太谷、吕梁地区的样本可以较明显的与其它地区分开。运城、朔州地区有部分重叠。故在主成分分析的基础上,再进行PLS-DA和SIMCA的模型分析。

2.4 建立PLS-DA判别模型

利用主成分分析,确定最佳主成分数为3时,对不同产地鸡蛋分别赋值建立PLS-DA的判别模型。将朔州、吕梁、太谷、运城的样本数据分别赋值为-2、-1、1、2作为变量的Y值。以R2和RMSEC作为判别标准。R2越大,RMSEC越小,说明整体样本模型准确度越高。根据已建的PLS-DA模型计算R2值结果如表3所示。

表3 PLS-DA判别模型识别效果Table 3 Recognition effect of PLS-DA discrimination model

由表3可知,在运城地区的鸡蛋样本中校正集中R2和RMSEC分别为0.9154、0.01965,表明运城地区的鸡蛋样本精确度最高。结果发现,4个地区鸡蛋样本的整体识别率分别率68.0%(朔州)、74.6%(吕梁)、72.0%(太谷)、80.5%(运城)。可以对不同地区鸡蛋进行较好的区分。

2.5 建立SIMCA识别模型

通过进行主成分分析,确定最佳主成分数为3。在主成分分析的基础上,用SIMCA法建立鉴别模型。模型验证结果如表4所示,在α=0.05的显著性水平下检验模型的可靠性。在对校正集进行预测时,在4个地区中,吕梁、太谷、运城地区的识别率均为100%,而朔州地区的识别率为95.8%。在拒绝非本类样品时,所有地区的拒绝率均达到100%。在对验证进行预测的时候,四个地区的识别率均达到了100%,在判断拒绝率时,吕梁和运城的拒绝率均达到100%,而朔州和太谷地区的拒绝率为98.6%。基本可以达到对四个地区鸡蛋样本正确识别的目的。

表4 SIMCA产地模型校正与预测效果Table 4 Calibration and prediction effect of SIMCA habitat model

利用建立PLS-DA和SIMCA模型对4个不同地区的鸡蛋进行识别。结果表明,在一定程度上2种模型均能够对不同地区的鸡蛋样本识别,PLS-DA对运城地区鸡蛋样本的识别率最高,达到80.55%。而SIMCA对4个地区的鸡蛋样本识别率基本达到了100%。由此可见,近红外光谱结合SIMCA模型对鸡蛋产地进行识别更好一些。

3 结论

本研究采用了近红外光谱反射法对山西省4个地区的散养鸡蛋进行了产地判别。利用标准正态变量(SNV)、Savitzky-Golay平滑滤波(SG)、多元散射校正(MSC)及其它们之间的组合方法对光谱数据进行了预处理,研究表明采用SG(3点)预处理方法能够取得较好的去燥效果。

在主成分分析的基础之上利用PLS-DA判别模型和SIMCA识别模式对4个地区的鸡蛋建立了分类模型。结果表明SIMCA模型能够对4个地区的鸡蛋正确识别,其识别率均达到了100%。由此可见,利用SIMCA模型进行鸡蛋产地识别是可行的,为鸡蛋产地溯源的研究提供了很好的理论依据。

猜你喜欢
识别率产地预处理
求解奇异线性系统的右预处理MINRES 方法
高COD二噻烷生产废水预处理研究
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
警惕“洗产地”暗礁
食物离产地越远越好
测定不同产地宽筋藤中5种重金属
提升高速公路MTC二次抓拍车牌识别率方案研究
基于预处理MUSIC算法的分布式阵列DOA估计
RP-HPLC法同时测定7个产地天麻中5种成分