寒地粳稻种子的拉曼光谱鉴别方法研究

2021-09-02 06:33朱培培田芳明马文宝严陈慧子
中国粮油学报 2021年7期
关键词:曼光谱粳稻波段

朱培培 田芳明,2 谭 峰 马文宝 严陈慧子

(黑龙江八一农垦大学信息与电气工程学院1,大庆 163319)(农业部农产加工品质量监督检验测试中心2,大庆 163316)

黑龙江省粳稻产量占全国50%以上,近年来由于我国退耕还林政策和农业种植结构调整优化,导致水稻种植面积有所降低,故需要最大限度的对其产量进行提升,但因种子市场混杂,由种子质量问题而产生的纠纷屡见不鲜,种子质量的好坏直接关系到水稻产量的高低及品质的优劣,每年因其造成很大的经济损失,因此,对其进行品种鉴别一直是农业生产、种子检测和作物育种中的重要问题。

传统的种子品种检测方法如形态鉴定、显微鉴定、微形态鉴定及微性状鉴定,其操作简单,但是由于种子的鉴定特征在各个科属中存在的变异很难达到鉴别种子的目的[1]。逐渐发展起来的SSR分子标记法对水稻品种检测可靠性高[2],但该方法操作复杂,对操作人员技术水平要求较高,且无法批量分析。因此,简便、高效快捷地获取品种机理信息是解决农业上鉴别种子品种类别的重要手段。

快速、便捷、高效是光谱分析技术迅速在品种鉴别领域得到广泛发展的原因之一。目前,应用于水稻品种鉴别的设备和技术主要包括近红外光谱技术、高光谱技术、图像、多光谱成像技术等[3-9],拉曼光谱因操作便捷,灵敏度高、重现性好的特性和优势,使得该技术在文物考古[10]、石油化工[11]、医药[12-14]、食品[15,16]等领域获得了推广和应用。

目前,基于拉曼光谱技术的水稻品种鉴别方法主要以南方水稻为研究对象[17],通过籼稻进行品种鉴别,取得了良好的鉴别效果,但是该方法仅对籼稻与粳稻进行区分。应用拉曼光谱技术与化学计量学方法结合[18]虽实现对粳稻品种间鉴别,但是鉴别地域分布较为广泛。近红外光谱技术[19]可以准确、快速地针对寒地粳稻种子品种鉴别,但鉴别品种种类较少(3种),对多品种粳稻种子的鉴别需要进一步探究。

国内外很多学者利用拉曼光谱、近红外光谱技术对粳稻、籼稻以及糯稻等水稻品种进行了大量的研究[20-22],而多种类品种的粳稻种子鉴别较籼稻、糯稻复杂,在关于品种的水稻种子鉴别中开展南方水稻、杂交水稻和寒地少种类品种鉴别等研究较多,而关于寒地多种类品种的粳稻种子鉴别相对较少。因此,开展寒地多品种粳稻种子的拉曼光谱鉴别方法研究具有重要的应用价值。

1 材料与方法

1.1 材料

实验选用黑龙江省2019年主要种植的10粳稻种子为研究对象,样品由黑龙江省农业科学院提供,品种分别是垦稻32、龙粳21、龙粳29、龙粳31、绥粳18、绥粳27、中科902、空育131、垦稻41、龙粳46。

1.2 仪器

实验使用Advantage 532台式拉曼光谱仪,分辨率为1.4 cm-1,测量范围为200~3 400 cm-1,结合ProScope HR软件获取样本图像信息。因种子外部包裹着谷壳,拉曼光谱仪器无法穿透其谷壳直接进行光谱信息采集,故对水稻种子应用LJJM-2011精米机碾磨50 s,去除外部谷壳获得大米备用,数据分析软件采用Matlab2018a实现。

1.3 方法

1.3.1 实验方法

对精米机碾磨完成的样本进行挑选,去除破损、干瘪、畸形等大米;将挑选完成每种样品存储在不同编号的密封袋中,以减少外界因素对实验结果的影响;从每种样品中随机选取20粒作为该品种样本集;利用拉曼光谱仪对每种样品集中每个样本中部进行3次光谱数据采集,取平均光谱作为该样本的最终光谱值。

1.3.2 样品划分方法

实验采用光谱-理化共生距离(SPXY)样本划分法将预处理数据划分为训练集和测试集,其中训练集样本数为134个,测试集样本数为66个。

2 结果与分析

2.1 光谱数据预处理分析

实验获取了200~3 400 cm-1的光谱信息,由于200~400 cm-1和3 200~3 400 cm-1范围内无特征峰,为提高分类效果,将上述波段去除,保留400~3 200 cm-1的光谱信息作为原始光谱数据,如图1a所示。经过SG平滑、AIRPLS、一阶导(1-Der)、二阶导(2-Der)、MC数据预处理方法后光谱如图1b~图1f,由预处理结果可以看出,在400~3 200 cm-1波段范围内,水稻样本的光谱曲线形状相似,无法从光谱曲线上对品种进行直观区分,需要通过数学建模方法进行鉴别分析。

图1水稻样本预处理前后光谱分布

2.2 基于光谱预处理的建模分析

分别利用PLSDA和SVM方法对原始光谱数据和预处理数据进行建模,结果如表1和表2所示,基于原始光谱所建立的PLSDA模型比SVM模型测试集准确率高37.87%。SG、MC和SG+MC在每个模型中鉴别准确率分别为72.73%、95.45%和56.06%,其中SG和SG+MC在每个模型中鉴别效果均为最低,可能是因为SG只是对光谱数据进行平滑,MC是使数据变为均值为0的数据(故准确率与原光谱相同),两者都没有对光谱数据中无关信息或噪声问题处理。除以上情况外的10种预处理组合方法中,两种模型测试集准确率均达到89%以上,说明预处理后水稻品种信息在模型中均能较好的进行表达。

表1 基于PLSDA方法的不同预处理数据建模鉴别结果

表2 基于SVM方法的不同预处理方法建模鉴别结果

AIRPLS+SG、AIRPLS+1-Der、AIRPLS+MC、AIRPLS+SG+MC和AIRPLS+1-Der+MC五种方法在两种模型中测试集准确度均能分别达到95.45%和96.97%,但是AIRPLS+SG、AIRPLS+MC和AIRPLS+SG+MC方法在PLSDA模型中训练集均出现误判;AIRPLS+1-Der和AIRPLS+1-Der+MC两种方法虽然在两种模型中训练集准确度均为100%,测试集准确度分别达到95.45%和96.97%,但由于AIRPLS+1-Der方法相比较AIRPLS+1-Der+MC程序简单,建模也相对简便。因此,后续研究选择AIRPLS+1-Der 组合的预处理方法进行深入建模分析。

2.3 特征波段提取分析

2.3.1 SPA提取特征波段

由于原始及预处理数据量大,故研究特征提取方法,以减少建模数据量。采用SPA方法对样本拉曼光谱数据进行特征波段提取,结果如图2所示,最佳特征波数(图2b中“□”所对应的横坐标)对应均方根误差(RMSE)=1.722 6最小时个数为38,说明提取的特征波段包含粳稻种子的品种差别信息和真实值相比具有较高的相似性,因此,选取该38个波段及对应强度值作为后续建模数据。

图2 SPA提取特征波段

2.3.2 SR提取特征波段

利用 SR 特征提取算法提取特征波段,使最终样本集包含所有对因变量显著的变量,且包含的自变量要尽可能的少,最终得到一个最优的变量集合。

设n为观测样本数,X=(x1,x2,x3,…xm)为所有自变量构成的集合,A={xi1,xi2,xi3,…,xil}为X的子集,其中,m为自变量,xi独立抽取的样本,xil为独立抽取的样本数。

在计算过程中首先应使均方差S2最小:

(1)

其中,SE(A)为残差平方和。在此基础上遵循BIC准则,即BIC最小;

(2)

最后遵循R2准则:使R2最大;

(3)

最终通过逐步回归选取特征变量数为123个。

2.3.3 CARS提取特征波段

使用CARS算法(设置蒙特卡洛采样次数为50)进行特征选取后结果如图3所示。由于指数衰减函数EDP的作用,在前5次采样中波段变量数减小的速度较快,随后逐渐变缓,表明其在特征变量选取中具有“粗选”和“精选”两个阶段。在采样次数的增加初始阶段,五折交互验证RMSECV值逐渐变小,表明大量与水稻品种鉴别无关或部分共线的信息被剔除。在采样次数为 15时 RMSECV取得最小值[图3c中“*”垂线标示],随着采样次数的增加,RMSECV值逐渐增加,说明模型性能随着光谱数据中关键信息的刨除逐渐变差。因此取第15次MC采样后获得的变量确定为预测水稻品种鉴别的特征波段变量,共353个。

图3 CARS提取特征波段

2.4 基于特征提取的建模与模型运行时间分析

模型运行时间是衡量其好坏的一个重要因素,基于特征提取数据建模效果与模型运行时间分析见表3和表4。所有模型的训练集识别效果较好;基于CARS的特征提取方法建模效果好于其他几种,基于SPA和SR的特征提取方法,虽然降低了建模数据维数,但建模准确率较原始光谱差;SR特征提取数据建立的模型运行时间最短,CARS的次之,SPA的最长;相同的数据集,SVM方法建模的训练集与测试集鉴别准确率明显优于PLSDA方法,但在模型运行时间上,SVM方法略显劣势。

表3 基于不同特征波段提取方法所建PLSDA模型的鉴别结果

表4 基于不同特征波段提取方法所建SVM模型的鉴别结果

3 结论

本研究选用黑龙江省主要种植的10个品种的粳稻进行分类鉴别方法研究。在探究13种预处理方法及组合对模型影响中,AIRPLS+1-Der组合的预处理数据建模准确率高达96.97%;在探究3种光谱特征提取方法和运行时间对模型影响中,CARS提取的特征波段在模型中预测效果优于其他算法。特征提取算法中, SVM模型在此条件下,更适合对寒地多品种粳稻种子的拉曼光谱鉴别。

AIRPLS+1-Der的预处理方法和CARS特征提取方法在2种模型中均能实现对粳稻种子的快速鉴别,拉曼光谱技术满足了对黑龙江省多种类(10种) 品种粳稻种子高效、快捷、准确鉴别的要求。因此,本实验可为进一步开展拉曼光谱技术在其他农作物农业生产、种子检测和作物育种提供参考。

猜你喜欢
曼光谱粳稻波段
我国双季早粳稻实现“零的突破”
解读粳稻品种南方种植播期
基于PLL的Ku波段频率源设计与测试
基于拉曼光谱的面团冻结过程中水分分布的在线监测
小型化Ka波段65W脉冲功放模块
豫南粳稻机械化适应品种筛选及利用研究
M87的多波段辐射过程及其能谱拟合
播期播量对晚粳稻宁84农艺性状及产量的影响
日常维护对L 波段雷达的重要性
探测非透明介质下深层成分的拉曼光谱技术研究