拉曼光谱结合模式识别方法鉴别大米种类

2020-05-25 08:24桂冬冬张正勇吉昕妍蒋丙晨
中国粮油学报 2020年1期
关键词:籼米曼光谱拉曼

沙 敏 桂冬冬 张正勇 吉昕妍 蒋丙晨 刘 军 张 丁

(南京财经大学管理科学与工程学院1,南京 210023)

(南京理工大学化工学院2,南京 210094)

中国是世界上100多个水稻生产国中的“稻米王国”,我国约60%的人口以稻米为主食[1]。根据GB/T 1354—2018,大米按原料稻谷类型分为籼米、粳米和糯米3类。大米间化学成分的含量和糊化等理化特性有较大的差异[2],因而食味品质差别明显[3-5],只有某些籼米品种才能制作出品质优良的米粉[6],现阶段稻米食品加工原料的选择大多凭经验,盲目性较大,食品品质难以得到保证。随着物质生活水平提高,人们消费需求已从“要吃饱”转为“要吃好”,促使水稻生产从重“量”转向重“质”。中国在稻作栽培和稻作育种都是籼粳并重的国家[7],对于籼粳稻的杂交育种,如果对籼粳稻的特征特性认识不深,会导致测配选亲本困难及测配结果不理想,甚至育成品种亚种特性较典型籼粳型的变化,遗传规律及与经济性状的关系等难以确定。此外,早籼稻因生长期雨水充沛、病虫害少、灾害性天气不多,因此化肥、农药的施用量相对较少,故质量安全、品质明显高于粳稻和中晚稻,营养价值好[8]。因此,正确地了解籼粳分类和判别籼粳是籼粳稻产品加工和杂交育种等急需研究的问题[9]。

目前,在栽培稻籼粳亚种的分类鉴别中得到应用的方法有感官评价法、形态指数鉴定法、杂交亲和力鉴定法、同工酶基因数量化鉴定法、DNA分子标记鉴定法、氯酸钾抗性鉴定法、机动细胞硅酸体形态性状鉴定法、双峰乳突鉴定法等[3]。感官评价法鉴别大米种类不仅对鉴别的环境要求高而且主观因素干扰大[10]。形态指数鉴定法、同工酶基因数量化鉴定法、DNA分子标记鉴定法、机动细胞硅酸体形态性状鉴定法等方法需要收集多个指标形状进行分类。杂交亲和力鉴定法受环境尤其是温度的影响较大。且这些方法均需要一定的软硬件条件支撑,操作烦琐,耗时费力。因此,急需一种准确度高、快速高效、成本低的大米种类鉴别方法。

大米的化学成分与大米种类及生长环境的关系非常密切,且含量具有可定量、相对稳定的特点[11]。然而化学成分相对复杂,用单一或若干组分的信息难以鉴别产品[12],通常采用能够反映整体信息的指纹图谱结合多元统计分析方法[13,14]。拉曼光谱法因具有灵敏度高、操作简便、测试时间短、无损分析等优点,近年来逐步被用于大米的新陈鉴别、转基金鉴别、产地鉴别和掺假鉴别分析[15-19],但在大米种类鉴别方面的应用稀少。江南大学张辉课题组先后用Lab RAM HR Evolution型显微共聚焦拉曼光谱仪采集大米拉曼光谱,然后结合SIMCA和PLSDA 2种模式识别方法建立粳米、籼米、糯米分类鉴别模型,识别准确率均大于96%[20,21]。这些研究在采集大米指纹图谱时,对大米直接进行测试,而大米内外成分不一[22],且加工工艺如抛光等会导致大米表面成分的差异,因而,仅采集大米表面的拉曼光谱不足以反映大米的整体成分信息。Sha等[23]研究了大米粉碎粒度对拉曼光谱的影响,发现粉碎粒度为100~140目米粉的拉曼光谱间相对标准偏差最小,相似度最高,该粒度下米粉的均匀性最佳,所得拉曼光谱的稳定性最高,可为大米分析提供稳定、可靠的数据源。

本研究利用便携式拉曼光谱分析技术,采集粉碎粒度为100~140目米粉的拉曼光谱,借助模式识别方法海量提取大米拉曼光谱信息,建立大米种类简单、快速、准确的分类鉴别模型,以期为检测水稻种类提供借鉴,并最终帮助消费者选择所需种类和质量的大米。

1 材料与方法

1.1 材料

本实验共采集72份大米样品,均为常规稻,包括籼米28份(湖北9份、云南10份、海南9份);粳米25份(江苏10份、黑龙江10份、吉林5份);糯米 19份(湖北5份、安徽9 份、云南5份),生产日期为2018年。

1.2 仪器与设备

Prott-ezRaman-d3便携式激光拉曼光谱仪,激光波长785 nm;15B型立式粉碎机自带筛网网孔直径为0.6 mm;石英样品池(定制,长4 cm,宽2 cm,厚3 mm,正中央圆形凹槽直径1.5 mm,深度2 mm);筛子(100目和140目)。

1.3 方法

1.3.1 样品制备

准确称取每份大米20 g,待粉碎机预热运行1 min后,在30 s内缓慢加入大米,再粉碎2 min,确保大米粉碎完全。米粉依次经100目和140目筛进行颗粒分级,收集粒度为100~140目的米粉,用于后续谱图测试。

1.3.2 拉曼光谱谱图测试

经前期大量拉曼测试条件优化实验得峰形佳、峰强度高且样品无明显热损失的最佳拉曼光谱采集参数如下:功率450 mW,CCD检测器 -85 ℃,扫描范围250~2 339 cm-1,分辨率1 cm-1,曝光时间4 s,扫描次数3次,激光与样品表面的距离5 mm。

1.3.3 数据分析

为了降低实验仪器的噪声干扰,基于MATLAB 2016a平台利用wden小波函数对拉曼光谱数据进行小波去噪,随后进行数据归一化处理,然后分别采用主成分分析(PCA)[24-26]、层次聚类分析(HCA)[27-29]和支持向量机(SVM)[30-32]3种方法进行分析。主成分分析以得分矩阵中的特征主成分(PC1,PC2,PC3)投影到三维空间坐标系中,利用三维坐标系中各模式点的分布进行分类与判别。聚类分析采用凝聚的层次聚类分析方法,其中,距离度量的方法采用欧氏距离、标准化欧氏距离、城市街区距离和余弦距离,创建系统聚类树的方法使用平均距离法、最短距离法和最长距离法。

2 结果与讨论

2.1 3种大米的拉曼光谱分析

分别以籼米中的遮放贡米(ZF)、粳米中的七星粳米一号(JSJ)和糯米中的白莲坡糯米(NA)作为3种大米的典型,粉碎后取粒度在100~140目的米粉测试拉曼光谱。经wden小波去噪和mapminmax归一化预处理后的拉曼光谱图如图1所示,整体上看3种大米的拉曼光谱高度相似,峰的信号主要出现在250~1 500 cm-1范围内,因此后续分析均只考虑该波段内的数据。

图1 3种大米的拉曼光谱图

尽管高度相似,但3种大米在部分波段范围内有肉眼可见差异。以每个产地1个大米为代表,共9种大米的拉曼光谱对照图如图2所示,其中,实线代表糯米,短划线代表籼米,点划线代表粳米。糯米在425、455、1 410 cm-1附近区域内的吸收峰强度明显高于粳米和籼米,但在1 450 cm-1附近的光强却低于其他2种米,根据朗伯-比耳定律,糯米与其他2种米的部分成分含量差异略大。在455 cm-1附近区域,3种大米的最大吸收光强对应的波长位置有明显差异,说明这3种大米的部分成分在结构上存在差异。在1 410 cm-1附近区域,3种大米的吸收峰形状有明显差异,糯米和粳米的吸收曲线有明显峰顶,籼米的吸收曲线则较平滑,这些信号的差异给用拉曼光谱鉴别大米种类提供了可能。

图2 拉曼光谱局部放大图

2.2 PCA

3种大米的72个拉曼光谱数据依次去噪、归一化处理后经主成分分析,前15个主成分的贡献率如图3所示,累计贡献率达85.41%。其中,第一主成分解释了27.53%的原始信息,第二主成分解释了23.30%的信息量,第三主成分解释了10.34%的信息量,前3个主成分的累计贡献率为61.17%,包含了拉曼光谱数据大部分的信息。

图3 前15个主成分的贡献率图

将72个样本投影到以得分矩阵中的前3个特征主成分(PC1、PC2、PC3)构成的三维空间坐标系中(见图4)。可见籼米和糯米分布在粳米两侧,聚类特征较为明显,籼米和糯米可明显区分开。而粳米与籼米、粳米与糯米样本间分布区域有一定的重叠,较难实现精确分类。PCA分析可直观反映2种大米的相似程度,但三者之间分类界限不明显,还需要进一步建立相关的模型进行判别。

图4 3种大米PCA分析图

进一步地,根据前3个主成分的载荷图(图5)分析粳米、籼米、糯米分类的主要特征波段,可以得出420~560 cm-1、860~980 cm-1、1 000~1 200 cm-1、1 300~1 500 cm-1对粳米、籼米和糯米分类的贡献较大。该结果与图2肉眼可见拉曼光谱差异波段相比较基本吻合,多了860~980 cm-1波段,说明模式识别方法具备高效的特征提取和数据分析能力,可揭示指纹图谱数据中的隐含信息。据文献报道[20],这些差异来源如表1所示,可知3种大米可区分的关键成分为蛋白质和淀粉,与文献[9]所述大米的主要成分差异一致。总之,大米的拉曼光谱是多种成分的综合反映,每个谱带的强度、位置和宽度变化是由于不同组分的含量和微观结构的差异导致的。

图5 前3个主成分的载荷图

表1近似峰值及其对应的基团及振动形式[20-21]

近似峰值/cm-1基团及振动形式1 458C—H弯曲1 452CH2(或CH3)变形1 440~1 320C—O—H弯曲1 391,905支链淀粉1 360色氨酸1 342CH2扭曲1 314CH2摇摆1 253,850直链淀粉1 200~1 000C—O—H拉伸1 155C—C拉伸1 132,1 082,1 037,941α-环状糊精1 032脯氨酸1 004苯丙氨酸920~960α-和β-糖苷键的不同振动525S—S伸缩振动439,476,576淀粉中葡萄糖单元

图6 三种大米的聚类树图

2.3 HCA

数据经去噪、归一化及特征提取处理后,经HCA分析。分别使用不同的距离度量和不同的创建系统聚类树的方法,计算它们之间的同表象型相关系数,结果如表2所示,同表象型相关系数最大值为0.810 4,对应的距离度量是标准欧氏距离,创建系统聚类树的方法是平均距离法,所创建的聚类树的树状图如图6所示。

表2 不同聚类树创建方法的同表象型相关系数

图中,样本编号1~28为籼米,29~47为糯米,48~72为粳米。糯米样本分布在A区内,除了29号和31号样本之外全部归在一簇,可与籼米和粳米很好的区分开。其中,29号样本混在籼米样本簇中,31号样本自成1簇。粳米的25个样本聚成了2簇,其中1簇(B区域,8个样本)与籼米混在一起,另1簇与糯米比较类似(A区域),说明粳米与籼米和糯米均有一定的相似性,这一结果与前述PCA结果一致。籼米样本分布在B区内,除了19、26和28这3个样本外聚成了2簇,且这3个样本均混在A区的粳米簇中,说明粳米和籼米部分样本相似度较高,使用HCA方法容易误判。综上,HCA方法与PCA方法类似,也可直观反映3种大米间的差异情况,相较PCA而言,HCA可进一步对样本进行分类判别,如上分析,3种大米错误判别的样本数为糯米2个、籼米3个、粳米8个,归类准确率为81.94%,可见HCA方法判别准确率偏低。

2.4 SVM

为了提高识别准确率,引入支持向量机建立智能识别模型。采用随机函数随机选取37个样本作为训练集来训练模型(籼米14个,粳米13个,糯米10个),剩余的样本(籼米14个,粳米12个,糯米9个)作为验证集样本验证所建模型的准确性。以RBF为核函数,惩罚参数C和核参数g的寻优使用网格搜索法,具体参数设置:C的变化范围限定为[2-10,25],g的范围取[2-10,2],进行5折交叉验证,C和g的步进值均为0.5,最后参数选择结果图中准确率离散化显示的步进值为4.5。为提高模型的可靠性,将随机运行10次的平均值作为模型的识别准确率,结果如表3所示,模型平均识别率为98.86%,优于HCA方法(81.94%)。

表3 10次运行准确率

3 结论

为实现3种大米的准确、快速鉴别,从全国粳米、籼米和糯米的主产区分别选购72份大米样品,包括籼米28份、粳米25份和糯米19份,大米经粉碎取100~140目的米粉,采集米粉的拉曼光谱,依次对谱图数据进行去噪、归一化和特征提取后,综合运用主成分分析、层次聚类分析和支持向量机3种方法对粳米、籼米和糯米进行聚类与模式识别研究。拉曼光谱数据经PCA降维分析,可直观地将3种大米归为3簇,籼米和糯米可被区分开,但粳米与糯米、粳米与籼米不能区分。HCA分析表明粳米与籼米较难区分,糯米与其他2种米有较大差异,但3种大米的归类准确率为81.94%,鉴别效果不理想。SVM判别方法10次运行的平均识别率达98.86%。实验证明:拉曼光谱法结合支持向量机用于大米种类的分类与识别简单快速,在分析数据相对复杂的情况下,可快速建立分类模型并实现大米种类间的鉴定与识别。此外,拉曼光谱分析使用的是便携式拉曼光谱仪,本研究成果在现场快速检测上具有良好的应用前景。

猜你喜欢
籼米曼光谱拉曼
大米加工与品质对特香型白酒酿造指标与基酒品质的影响研究
馆藏高句丽铁器的显微共聚焦激光拉曼光谱分析
Preoperative maximal voluntary ventilation, hemoglobin, albumin, lymphocytes and platelets predict postoperative survival in esophageal squamous cell carcinoma
籼米品种对鲜湿米粉品质影响的研究
黑磷的多声子共振拉曼散射*
大米蛋白质和脂肪含量对鲜湿米粉品质的影响
拉曼光谱技术在食品质量安全检测中的应用
吹奏千年的巴拉曼
实用拉曼光谱引论
籼米淀粉酶法制备低聚异麦芽糖糖化转苷工艺研究