基于形状特征的花椒分选

2022-01-27 09:57柴润泽
桂林电子科技大学学报 2021年5期
关键词:花椒准确率品类

柴润泽,叶 松,2,熊 伟

(1.桂林电子科技大学 电子工程与自动化学院,广西 桂林 541004;2.桂林电子科技大学 广西光电信息处理重点实验室,广西 桂林 541004;3.中国科学院安徽光学精密机械研究所 通用光学定标与表征技术重点实验室,合肥 230031)

花椒是一种分布广泛的香料、油料、药材兼用型经济作物,我国是花椒主产国,栽培面积和产量均为世界第一[1]。虽然我国是花椒主产国,但加工技术还比较落后,前期的花椒精选主要依靠人工挑选,机器的分选方式主要为震动筛选和比重风选,分选速度慢、准确率低,大大降低了生产效率。

随着机器学习技术快速发展,基于机器视觉的分选技术广泛应用于农产品的种植、管理和加工生产[2-4]。在花椒分选领域,吴莉莉等[5]利用概率神经网络对花椒颜色和纹理特征数据进行鉴别,正确识别率为93.33%;杨飞等[6]对花椒分级分类进行研究,提出了一种基于计算机视觉的花椒外观品质检测方法,该方法合理有效,程序设计可靠,识别效果良好,对椒籽、果梗正确识别率达100%,闭眼及果皮正确识别率分别达89%、96.8%;杨镇宇[7]利用LIBSVM建立花椒外观支持向量机(SVM)分类模型,实现了对椒籽率、闭眼率、果皮率和果穗率指标的自动检测。本研究对象为花椒毛料,其主要分为花椒壳、花椒籽、花椒刺、梗4个类别。基于花椒各类别的形态特征提出一种多特征向量下花椒精选建模方法,建立多个特征描绘子,在python平台开发基于SVM和DTree算法的分类模型,在C++环境实现模型分类器并对分类器分类效果评估,实现了基于形状特征的花椒快速分选。

1 材料与方法

试验中选择花椒的毛料,在色选机实际工作环境中采集物料的样本图像如图1所示。刺样本为类三角形,梗样本多数为细长条形,壳样本特点是类圆形开口,籽样本较小,为圆点形。为了能够更好地提取特征描绘子,在提取特征前先对样本图像进行预处理。

图1 花椒样本图像

1.1 图像预处理

为了能准确地获取物料的轮廓特征,需将采集的图像作二值化处理,使得目标与背景对比清晰。提取二值化目标图像的效果主要取决于阈值的选取,而实验中存在大量样本,若采用自动计算阈值的迭代方法,则会大大增加实验的时间复杂度,降低生产效率。因此,在实验过程中,采用手动确定阈值分割法进行二值化,提取的目标轮廓边缘较为理想。刺样本预处理后的图像如图2所示,其中图2(a)中二值化分割后物料点为1,背景点为0,图2(b)为目标轮廓图像。

图2 刺样本预处理后图像

1.2 建立形状特征描绘子

根据预处理后的图像提取物料形状特征,图像大小为1024像素×500像素,以每幅图像的左上角为原点,一个像素点为单位长度,建立坐标系,面积为A、轮廓周长为C、外接矩形长为L、宽为S,其中面积A表示物料单连通域所占的像素点数,周长C表示轮廓的像素点数。以此为基础,建立花椒样本的复杂特征描绘子圆形度、矩形度、细长度、对角线长[8]。特征描绘子定义与计算公式如表1所示。

表1 特征描绘子

1.3 特征描绘子自动提取算法

根据图像预处理流程和特征描绘子计算方法,基于C++、OpenCV开发自动提取特征描绘子算法,得到形状特征数据集。算法基本流程如下:

1)分类读取样本图像,并按类别标记标签;

2)将读取的样本图像二值化,寻找物料的轮廓,并求得轮廓的面积、周长、外接矩形长宽、中心位置;

3)经过多次循环,分别计算得到物料的4个特征,F=[ERDT];

4)对数据集进行去除异常值和标准化处理,求得所有样本有效训练数据集TrainData。

1.4 机器学习系统设计

花椒的分类是一种多分类问题,因此选用SVM和DTree 两种算法作为模型。SVM是机器学习分类问题使用最广泛的算法,在色选机分选中有大量应用,分类效果较为稳定,而DTree模型中每步的判定和执行结果非常直观且容易解释。将特征提取所获得的特征数据集用于分类算法的训练、验证和测试。机器学习系统的基本结构如图3所示。

图3 机器学习系统基本结构

1.5 算法评价

在机器学习分类问题中,混淆矩阵是评价模型好坏的工具,在分类正负样本不平衡的条件下,仅判断模型分类的准确率会出现误导的结果,混淆矩阵能够详细地表现出模型的好坏。其中:真正(TP)表示样本的真实类别是正类,且模型预测的结果也是正类;真负(TN)表示样本的真实类别是负类,且模型将其预测成为负类;假正(FP)表示样本的真实类别是负类,但模型将其预测为正类;假负(FN)表示样本的真实类别是正类,但模型将其预测为负类。由混淆矩阵衍生出各种评价指标,常见的主要有准确率Raccuracy、真正率Rprecision、召回率Rrecall和调和平均数(F1)[9]。

将花椒样本分为4类,其中壳和籽为良品类,刺和梗为次品类,类比二分类的混淆矩阵,建立分类器的混淆样本,如表2所示。

表2 花椒四分类混淆矩阵

本研究的目的是将壳和籽分别作为良品类分选出,分类模型的评价指标可与二分类模型相同。设样本总数为N,当将壳作为良品,其他类作为次品时,各指标计算如下:

(1)

将籽作为良品,其他类作次品时,各指标亦可按式(1)计算得到。

2 分类器模型设计

2.1 SVM模型

SVM是机器学习算法中非常重要的分类算法,具有非常强的泛化能力,是一种基于结构风险最小化的二分类器[10]。对于给定训练集D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{1,-1},构造最大间隔分类超平面ωTx+b=0 使得分类的错误达到最小,ω为法向量,b为位移量。

由于花椒分类为四分类,需对SVM进行多分类扩展,目前扩展方法多为采用各类树状结构将多组SVM有序排列形成决策路径,给出最终分类结果。针对花椒的多分类问题,可采用决策导向无环图法实现[11],能解决样本不对称问题并优化训练和决策时间的多分类扩展策略。

SVM核函数的选取影响分类效果,根据样本的线性和可分性选取不同的核函数,常用的核函数一般包括线性核函数、径向基核函数、多项式核函数和Sigmiod核函数[12],其中径向基核函数(或称高斯核函数、RBF核函数)对花椒数据集表现良好。径向基核函数常用形式为

K(x,y)=exp(-γ‖x-y‖2),γ>0。

(2)

径向基核函数是一种局部性强的核函数,无论大样本或小样本都有较好的性能,且其仅有一个可调参数γ。

核函数参数选择须经多次训练,先选用不同的核函数,设定核参数初始值,并进行训练和测试,再通过对比分类准确率进行参数调整,不断进行训练和测试,直到得到理想的模为止。经训练后发现,采用径向基核函数的分类准确率最高,核参数γ=0.5。

2.2 DTree模型

DTree模型是一种常见的机器学习方法,一棵DTree包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应决策结果,其他每个节点对应一个属性测试;每个节点包含的样本根据属性测试的结果被划分到子节点中;根节点包含样本全集,从根节点到每个叶节点的路径对应一个判定序列。

DTree模型用Gini系数衡量不纯度,Gini系数在特征数据越纯时值越低,其计算式[13]为

(3)

其中:G为Gini系数;k为类别;|D|为样本数;|Ck|为属于类Ck的样本数。

3 实验结果分析

3.1 不同特征组合分选可行性分析

选择圆形度、矩形度、细长度和对角线长这4个特征组成的特征向量,验证各特征的分类可行性,在SVM和DTree模型中分别求得单特征和多特征组合的分类结果,以分类准确率作为评价指标。各特征向量分类结果如图4所示。从图4可看出:

图4 不同特征组合分类效果

1)4种特征都有分类性,但单一特征的分类准确率不高,2种算法的对角线长分类准确率分别为92.78%、90.63%,与其他特征相比,这一特征的分类效果最好;

2)采用组合特征比单一特征分类准确率高,特征数量越多,分类准确率越高;

3)不同算法对于相同特征的分类准确率也不同,表明特征的选择对不同算法分类效果有较大影响,针对不同特征可选择准确率较高的模型。

3.2 不同算法的分类结果分析

仿真实验共采集1 149个样本,采用特征提取算法得到样本的形态特征数据集,数据预处理后将914个样本用作训练,235个样本用作测试,训练集和测试集的比为3.89∶1。分别训练2种算法的最优模型,得到训练集和测试集的评价指标。当将花椒作为良品类,其他3类作为次品类时,评价指标如表3所示,将籽作为良品类,其他3类作为次品类时,评价指标如表4所示。

表3 花椒为良品类时算法的评价指标 %

表4 籽为良品类时算法的评价指标 %

从表3、4可看出:

1)2种算法对于花椒样本建立的特征描绘子集合具有一定的可分性,其中SVM模型分类效果较佳,DTree模型分类效果稍差。

2)同一模型对不同良品类的评价指标也不同,当花椒为良品类时,SVM的分类效果较好;当籽为良品类时,DTree的分类效果较好,表明在要求分选出不同良品类时,可采取不同的最佳算法。

3)DTree模型最稳定,训练集和测试集的评价指标偏差较小,只有召回率的偏差较大,超过6%,其他指标偏差较小,而SVM各项偏差均超过5%,相比DTree模型较不稳定,存在过拟合风险。

4)不同模型对相同特征的分类效果不同,所以在对特征向量建立分类模型时,要选择多种模型进行对比,有助于确定最佳分类模型。

4 结束语

基于花椒的形状特征建立了多特征向量的分选算法,验证了SVM和DTree模型在数据集上的分类效果,分析了各模型的准确率、真正率、召回率和调和平均数等评价指标。实验结果表明:选用的圆形、矩形度、细长度和对角线长建立的特征向量分类效果明显,对花椒的各类别都具有高精度的分选性;在建立分类模型时,对相同特征向量采取不同的算法建模,可以得到相应类别的最佳分类效果;2种算法中,DTree模型分类效果稳定,SVM在某些指标下分类效果较好,但存在过拟合现象,泛化效果较差,需进一步优化。

实验所用样本是在色选机中采集的实际下落中的图片,符合花椒在生产中的实际情况,可应用到花椒的精加工生产过程中。该方法也可快速开发其他相似形状特征的分选算法,可推广到其他物料的精选加工过程。

猜你喜欢
花椒准确率品类
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
花椒泡脚好处多
参展推荐品类索引
如何识别假花椒?
韩城大红袍花椒
临夏花椒飘香
2013年三季度全国玩具品类进出口统计