基于YOLOv5的装载机物料细粒度检测优化算法

2024-02-21 01:55顾同成徐武彬李志恒惠翔禹
计算机集成制造系统 2024年1期
关键词:低质量细粒度注意力

顾同成,徐武彬,李 冰,3,李志恒,惠翔禹,何 心

(1.广西科技大学 机械与汽车工程学院,广西 柳州 545006;2.广西土方机械协同创新中心,广西 柳州 545006;3.广西柳工机械股份有限公司,广西 柳州 545116)

1 问题的提出

轮式装载机主要用于对物料的铲装、卸料和短距离运输,而频繁的铲装、运输、卸料和改变车辆方向致使装载机操作人员容易进入疲劳状态,进而产生工作效率的降低、安全等问题。因此,随着人工智能技术的发展,智能无人化的装载机自主铲装逐渐成为研究的重点。

相关研究表明,装载机在铲装散体物料过程中,不同物料种类,其不同物理属性和接触参数对铲装作业阻力的影响不同,当面向特定物料种类时采用最优铲装作业曲线能够最大限度降低铲装阻力,进而降低发动机功耗,达到节能、高效的目的[1-10]。曹丙伟[11]通过实机实验证明装载机在铲装不同物料时发动机功率不同,如图1[11]所示,并基于此将深度学习算法应用于装载机智能铲装,实现物料与发动机功率智能匹配。

图1 装载机铲装不同物料时发动机的功率

CAO等[12]通过使用反向传播神经网络算法建立物料识别模型,获得了92%的识别准确率,根据模型识别出物料类型,自动选择相应的发动机曲线。LI等[13]首先利用雷达图分析法综合分析不同物料对装载机铲装难度的影响,随后利用YOLOv4目标检测算法实现对石灰石、细砂、土壤、煤、铁矿石5种物料的识别,且其识别平均准确率达到93.03%。上述研究虽已实现物料目标检测,但均缺乏物料细粒度识别方面的研究。而目前,常见工业物料子类繁多且特征极为相近,如识别模型对细粒度特征聚焦不准确则无法实现对铲装轨迹和电机功率的精确匹配,另外装载机实际工作环境和条件会在一定程度上对待检测数据产生影响,因此要求模型必须具有较强的数据处理和抗干扰能力。

近些年,相关学者针对各自项目对YOLO系列算法进行了许多优化和改进。ZHAO等[14]通过将压缩激励注意力(Squeeze and Excitation module,SE)机制分别嵌入YOLOv5的Backbone、Head和Prediction输出端进性能对比,增强网络对车辆目标的辨识能力;HUANG等[15]利用卷积块注意力(Convolutional Block Attention Module,CBAM)机制改善遮挡目标与小目标的漏检问题,并利用α-IoU代替原GIoU(generalized intersection over union)边界框损失函数,最终在柑橘果实识别中获得较好的识别精度;SONG等[16]通过研究并设计了一种YOLOv5-MDC的轻量级目标检测网络,利用混合深度可分离卷积(Mixed Depthwise Convolutional,MDC)和SE机制模块对原网络进行改进,使得网络在重度粘连小麦籽粒上的检测精度得到较好的改善;SU等[17]提出基于YOLOv4的YOLO-J的PCB缺陷检测算法,通过更换主干网络及添加一系列优化改进方法,在减少了网络模型参数同时提高了对小目标PCB 缺陷的检测精度。WANG等[18]研究CBAM机制,将其嵌入YOLOv5特征提取网络中,提出YOLO_CBAM,提高YOLOv5算法对外侵杂草刺萼龙葵的识别准确率等。张明强等[19]提出一种简化版的YOLOv3网络Fast-Tiny YOLO,利用卷积、批归一化和Leaky ReLU组成基础残差卷积单元(Conv+BN+Leaky ReLU)构建特征提取网络,实现降低模型参数的同时提高了模型对空调外观检测任务的检测精度。

为解决装载机智能铲装过程中缺少对物料细粒度方面的高精度检测算法问题,本文以优化YOLOv5网络性能为目标,研究提高模型物料细粒度识别准确率以及网络数据处理和抗干扰能力的方法。物料细粒度识别具有“类内差异大,类间差异小”的难点,如图2和图3所示,严重影响目标检测准确率,增加检测难度。因此本文重点从以下两个方面强化网络性能:①提高网络对细粒度特征的提取和聚焦能力,使模型在预测过程中准确抓取具有代表性的细粒度特征信息;②对模型训练过程中高维语义信息特征图赋予权重参数,使网络在处理高维语义特征过程中更精准地把控细粒度特征所在的通道与空间信息。

图2 物料类内差异大、类间差异小(同一大类不同子类)

图3 物料类内差异大、类间差异小(不同大类不同子类)

YOLOv5分为YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x五种基础模型。YOLOv5s在COCO2017验证集上的mAP@0.5为56.8%,图形处理器(Graphics Processing Unit,GPU)检测速度为每张图片6.4 ms,且其参数量较小(7.2 M)。遵循模型参数量不宜过大,检测速度不宜过慢且检测精度不宜过低的原则,结合智能装载机物料识别过程,选择YOLOv5s为基础改进模型不仅满足智能装载机系统对检测实时性要求,还能降低模型在部署方面的难度,适用于工程项目。

本文总体技术方案分为5步:①以待检测数据是否含有噪声为前提,提出两种基于注意力机制的优化算法;②将YOLOv5s各结构与注意力机制实现功能耦合,提出改进的YOLOv5模型;③分别建立适用于目标检测训练的清晰高质量和含有噪声低质量两种物料数据集;④实验对比YOLOv5s采用各优化算法前后的准确率变化,分析低质量数据对模型准确率的影响,对比验证经本文提出的两种注意力算法优化后的YOLOv5s在高、低质量数据集上的检测准确率;⑤模型评估。

2 YOLOv5算法

YOLOv5算法根据各部分功能不同分为特征提取网络(Backbone)、特征融合网络(Head)和预测网络(Prediction)3部分,如图4所示为YOLOv5s网络结构图。

图4 YOLOv5s网络结构图

Backbone提取特征图(feature map)特征信息,随着网络深度加深,提取的特征越加抽象,末端由SPPF将输出的Feature Map串行池化经Concat拼接后输出高维语义信息。Head主要由融入CSP(cross stage partial)结构的FPN(feature pyramid networks)和PAN(path aggregation network)两部分组成。通过FPN构建特征金字塔,自顶向下逐一融合强语义特征,使Feature Map兼具低层纹理信息和高层语义信息,有利于网络对目标特征的聚焦。通过PAN构建路径聚合网络,自底向上逐一传递强语义特征,与FPN两两作用,从不同主干层对不同检测层进行参数聚合,大幅度增强网络学习性能。Prediction主要由3部分组成,分别负责Head网络输出的3个预测特征层,其3部分分别由大小为1,步距为1的卷积层组成,卷积核个数

C=3×(5+ncls)。

(1)

式中:5为目标框的横纵坐标、宽、高(x、y、w、h)4个参数与该目标的置信度一个参数的数量和;ncls为识别样本数据集的类别个数;3为Feature Map每一个Grid Cell框(网络会将预测特征层均分为7×7个Grid Cell)的3种预测锚框(Anchor Box)。

3 本文优化算法

本章首先提出双线性注意力机制,从多尺度特征图和多角度全局信息中获取多方面注意力特征,提高网络对细粒度特征的提取和把控能力;其次,设计新结构,将软阈值嵌入双线性注意力机制,增强网络对含噪声低质量数据的处理和抗干扰能力,网络在训练过程中自适应得到一组高维阈值组,利用软阈值过滤原特征图中分布在空间和通道方向的噪声信息,达到抗干扰的目的。

3.1 基于双线性改进的注意力机制

常见注意力机制包括:压缩激励注意力(SE)机制[20]、卷积块注意力(CBAM)机制[21]和高效通道注意力(Efficient Channel Attention,ECA)机制[22]。CBAM以SE机制在Feature Map通道方向上训练并添加注意力权重参数为基础,进一步在每一空间特征上训练并添加注意力权重,使网络更注重细节特征信息,更适用于细粒度特征提取;相较于ECA机制,虽其能加强通道之间的信息交流,但无法更进一步针对细粒度特征的提取过程优化网络性能。因此,本文通过选择改进CBAM机制优化YOLOv5s对物料的细粒度检测性能。

双线性思想可大幅提高卷积神经网络对细粒度特征的提取能力,如双线性卷积神经网络(Bilinear CNN,BCNN)[23]、双线性池化方式(bilinear pooling)等,利用双线性思想,改进CBAM机制,提出基于双线性改进的注意力机制(Bilinear CBAM,BCBAM),其结构如图5所示。

图5 双线性注意力机制原理结构图

BCBAM由空间注意力(Spatial Attention Module,SAM)与通道注意力(Channel Attention Module,CAM)两大模块组成。其中SAM模块分别利用1×1和3×3大小卷积并行处理,以获得不同尺度Feature Map,进而从多尺度高维特征信息空间中训练得到更细粒度且更具表现能力的特征注意力参数。SAM与CAM同时对输入Feature Map进行注意力特征子训练,分别从多尺度特征图和多角度全局信息中获取多方面注意力特征,提高网络对细粒度特征的提取和把控能力,最终经BCBAM处理输出既具空间又具通道注意力的Feature Map,式(2)~式(4)为BCBAM的原理表达式。

(2)

F′SAM=Sigmoid(Conv1×1(ReLU(LN(Conv1×1(F))))⊗Conv1×1(ReLU(LN(Conv3×3(F)))));

(3)

(4)

3.2 面向装载机工作工况环境的注意力优化算法

装载机作业工况环境复杂,图像采集传感器及信号传输元器件长期处在高负荷且环境恶劣的条件下,易使采集的数据带有噪声[24],产生低质量待预测数据。因此,本节进一步改进3.1节提出的BCBAM机制,增强算法对低质量样本数据的特征提取能力。

研究表明,利用卷积神经网络联合软阈值可以有效降低噪声等相关干扰特征对模型识别准确率的影响[25]。软阈值降噪原理公式如式(5)~式(6)所示。基于软阈值,改进BCBAM,缓解噪声对目标检测准确率的影响。如图6所示为嵌入软阈值的BCBAM原理结构图。

(5)

图6 嵌入软阈值的BCBAM原理结构图

(6)

嵌入软阈值的BCBAM(Soft_threshold BCBAM,St_BCBAM)结构上保留双线性处理方式,在BCBAM输出的Feature Map基础上对其空间和通道方向进行软阈值降噪,使输出Feature Map不仅具有空间和通道的权值分配,还能去除输入Feature Map中在空间和通道方向分布的噪点特征。St_BCBAM主要实现步骤为:利用CAM模块中Avg Pooling和Max Pooling分别得到的高维全局特征矩阵Xpooling∈(B,C,1,1)基于通道相乘后再与BCBAM机制的输出Xatt_out∈(B,C,W,H)高维注意力特征子基于通道相乘,得到软阈值降噪所需要的高维阈值组Γ∈(B,C,W,H),随后与输入BCBAM模块的Feature Map进行软阈值处理,软阈值将滤除图片中噪点的空间、通道特征值,进而实现对噪声多角度降噪的目的,原理总结如式(7)~式(8)所示。

Γ=Mul(Maxpool(Abs(F′))⊗

(7)

F″=St(Xin,Γ)。

(8)

式中:St表示软阈值处理;Mul为乘积计算;Abs为取绝对值;Γ为阈值组。

4 基于YOLOv5s的注意力嵌入方式

本章针对YOLOv5s网络结构,研究注意力机制(attention module)的嵌入方式,提出3种基于各结构改进的YOLOv5网络。

在Backbone中嵌入Attention Module,组成YOLOv5_B(YOLOv5_Backbone),其结构如图7所示,通过Attention Module对Feature Map注入注意力参数可为Backbone特征提取过程提供具有偏向性的特征矩阵,更易定位细粒度特征信息,与此同时,加快网络对目标特征的过滤效率,使网络对用以区分目标的主要特征进行充分学习。

图7 嵌入注意力机制的Backbone网络结构(YOLOv5_B)

通过将Attention Module嵌入Head结构,组成YOLOv5_H(YOLOv5_Head),可对上下文不同语义信息融合后的高维Feature Map进行注意力权重分配,更高效的从高维特征数据中获取有助于检测的细粒度语义信息,有利于网络对目标特征的聚焦,YOLOv5_H结构图如图8所示。

图8 嵌入注意力机制的Head网络结构(YOLOv5_H)

Feature Map首先通过Backbone实现由底层向高层、由表层到语义的特征提取,随后在Backbone与Head之间通过SPPF实现输出特征拼接(在YOLOv5s 6.0中,SPPF与原SPP相比,更换原并行池化为串行依次池化,提高处理效率,降低参数量)。

SPPF作为Backbone与Head之间的枢纽,对实现特征融合和特征传递起到至关重要的作用。本文在实现YOLOv5_B,YOLOv5_H的同时,进一步优化SPPF,使SPPF能够更具偏向性的接收、传递由Backbone处理的深层Feature Map,组成YOLOv5_F(YOLOv5_SPPF)。如图9所示为嵌入Attention Module的SPPF模块。

图9 嵌入注意力机制的SPPF网络结构(YOLOv5_F)

5 物料数据集及实验说明

本章首先分别建立清晰高质量和含有噪声低质量物料数据集,说明如何将数据图片整合成适用于目标检测训练和验证的样本,为第6章各实验提供数据集来源;其次阐述本文实验过程和模型评估方式,为本文结论提供可靠性支撑。

5.1 数据集介绍

针对装载机物料目标检测,本文采用常见工业装载机待铲物料数据集样本进行模型训练。将待铲物料数据集以粗粒度划分为矿石、煤矿、岩石3大类,然后根据其组成成分不同又可将其细粒度分为不同子类,如图10所示,图中从上到下的大类依次为:矿石、煤矿、岩石。

图10 各类物料的子类划分

为更接近真实复杂工况条件导致的低质量图片,通过数据增强算法为图片随机增加噪声,模拟现实工况下所获得的低质量样本,用以训练并验证本文提出的优化方式对低质量目标的检测准确率。如图11所示为添加噪声前后对比图。

图11 噪声添加前后的对比图

目标检测算法不仅可以检测目标种类,还可以检测目标在视野中所处的位置,因此,在准备用以训练的图片样本时,样本图片应同时包含不同物料种类并且应处在图片视野的不同位置。而在现实情况中,较难搜集处在同一视野的物料子类图片样本,因此采用图像拼接技术实现上述要求,图像拼接后的图片样本如图12所示。实验样本中拼接样式共4种:1×2,2×2,2×3,3×3。

图12 基于图形拼接的数据样本

为验证本文St_BCBAM算法可靠性,特准备两种数据集样本:①只含拼接后物料原图组成的数据集ImdNet1;②只含拼接后添加噪声的物料图片组成的数据集ImdNet2。ImdNet1和ImdNet2区别仅为有无噪声,样本数量和数据集划分均一致。

5.2 实验说明

5.2.1 实验步骤

步骤1利用原始YOLOv5s网络模型对物料进行细粒度识别,分析原始YOLOv5s物料识别性能。

步骤2将传统优化方法(SE机制、CBAM机制、ECA机制)与BCBAM分别嵌入YOLOv5s网络中的Backbone、Head和SPPF三部分,利用ImdNet1数据集分别训练并对比YOLOv5_B、YOLOv5_H,YOLOv5_F的mAP,得出最佳网络改进方式并验证本文算法对物料细粒度目标检测的优越性,同时与原始YOLOv5s检测结果对比,验证优化方式的可靠性。

步骤3在步骤2基础上,将优化方法改为St_BCBAM,利用ImdNet2对改进后的YOLOv5s进行训练,并与原始YOLOv5s在ImdNet2检测结果对比,讨论低质量图片对模型识别效果的影响,验证St_BCBAM能够提高YOLOv5s算法对低质量图片的检测能力,实现对低质量物料数据的高精度细粒度目标检测。

5.2.2 模型评估标准

实验采用精确度Precision(P)、召回率Recall(R)和均值平均精度(mAP)作为评价指标,其具体计算公式如式(9)~式(11)所示。衡量模型的关键参数为mAP(mean Average Precision),其为AP(Average Precision)的平均。mAP衡量指标分为mAP@0.5和mAP@0.5:0.95两种,与P值和R值不同,mAP能单独衡量模型的好坏,而P、R值则需两者共同决定。

(9)

(10)

(11)

式中:TP为正确预测为正样本的个数(正确预测为该物料的数目);FP为错误预测为正样本的数目(错误预测为该物料的数目);FN为错误预测到负样本的数目(错误将该类物料预测成其他类物料的数目);AP为平均精度;C为类别总数。

实验所用计算机配置为:Intel Core i7-9000K的CPU,一块显存6 G的GTX1060 GPU,在Windows 10系统、Python编程环境下运行,使用Pytorch深度学习框架进行细粒度模型的训练和验证。

6 实验结果分析

按5.2.1节实验步骤,首先进行步骤1,利用ImdNet1在原始YOLOv5s网络上实现物料细粒度检测,记录实验结果,为后续优化算法结果提供数据对比。随后进行步骤2,将SE机制、CBAM机制、ECA机制以及本文提出的BCBAM机制分别嵌入YOLOv5s网络中的Backbone、Head和SPPF三部分,得到YOLOv5_B,YOLOv5_H,YOLOv5_F,数据集为ImdNet1。如表1所示为实验结果。

表1 基于注意力机制改进的YOLOv5s对物料细粒度识别结果

经多次训练调参,为最大化网络性能,将初始学习率设置为0.01,选用随机梯度下降(Stochastic Gradient Descent,SGD),动量参数设置为0.937,权重衰减系数设置为0.000 5。网络在训练过程中通过反向传播、梯度下降算法不断更新迭代模型参数,使模型参数稳定于损失函数最小值区域,则物料识别模型训练完毕。

表1列出了YOLOv5_B,YOLOv5_H,YOLOv5_F在4种注意力机制下对物料细粒度检测的结果和评估参数。分析可知,将BCBAM机制嵌入SPPF中使网络对物料细粒度检测准确度提升最高,且在mAP@0.5及mAP@0.5:0.95方面均高于其他优化方式。现对每一种优化方式下最高mAP@0.5单独进行对比,如图13所示为两种mAP评估方式的模型性能对比结果,相较于其他优化方式的最优结果,本文BCBAM优化方式得到的物料检测模型达到93.2%的高精度细粒度检测,并且在mAP@0.5和mAP@0.5:0.95均分别超过原始YOLOv5s 6.0%和7.3%。

图13 各模型mAP@0.5、mAP@0.5:0.95对比柱状图

为了更好地反映出本文优化方式的优越性,实验时利用Wandb监控训练过程,如图14和图15所示分别为各优化方式mAP@0.5指标最高网络模型的mAP@0.5、mAP@0.5:0.95变化曲线对比图;如图16所示为训练过程中类别损失(class loss)、目标框损失(box loss)、目标损失(object loss)的变化曲线图;如图17所示为验证过程中类别损失(class loss)、目标框损失(box loss)、目标损失(object loss)的变化曲线图。图14和图15表明优化后的模型,其最终收敛情况大致相同,但BCBAM_YOLOv5_F在mAP@0.5及mAP@0.5:0.95两种指标上均高于其他优化方式的下的网络模型;如图16所示为模型训练过程损失下降情况,仅从最终收敛情况分析,优化后的网络在class loss和box loss两方面均大致相同,但在object loss方面BCBAM_YOLOv5_F无论是收敛速度还是收敛结果均优于其他优化方式;如图17所示为模型验证过程损失下降情况,同样仅从最终收敛情况分析,box loss和object loss均大致相同,而在class loss方面,BCBAM_YOLOv5_F同样优于其他优化方法。

图14 各模型验证过程mAP@0.5变化曲线对比

图15 各模型验证过程mAP@0.5:0.95变化曲线对比

图16 各模型训练过程损失变化图

图17 各模型验证过程损失变化图

由上述分析及图示易得,CBAM_YOLOv5_B与BCBAM_YOLOv5_F性能相近,因此,结合PR曲线对两种模型进一步分析,如图18和图19所示。PR曲线是通过将不同置信度下的P值R值连点成线所获,曲线与坐标轴围成面积越大则表明模型性能越优。图中细线代表模型对各类别的PR曲线,粗线则代表模型对所有类别的PR曲线,对比图18和图19分析可知,图18中BCBAM_YOLOv5_F模型的PR曲线与坐标轴所围面积大于图19中CBAM_YOLOv5_B模型的PR曲线与坐标轴围成的面积,由此得出结论,将BCBAM以YOLOv5_F的方式嵌入YOLOv5s所得的改进网络在性能方面优于CBAM_YOLOv5_B,且在常见工业物料数据集上尤其是对烟煤、褐煤、铅矿石、石灰岩的检测精度均能达到97%以上,对铅矿石的检测精度更是达到98.9%,因此BCBAM_YOLOv5_F满足装载机自动铲装时对物料识别准确率的要求。

图18 BCBAM_YOLOv5_F模型PR曲线

图19 CBAM_YOLOv5_B模型PR曲线

如图20~图22所示分别展示了YOLOv5s、CBAM_YOLOv5_B及BCBAM_YOLOv5_F物料细粒度识别效果图(检测IoU阈值与置信度阈值均为0.4)。为了展示模型对不同大小、不定位置以及不同种类的检测效果,特对检测图片进行如下不规则的随机组合,如此可表现网络对目标类别、目标框和目标本身多方面的识别效果。如下效果图对比可得,图20中YOLOv5s识别效果较差,出现漏检、误检和复检的情况,图21中CBAM_YOLOv5_B较YOLOv5s,无误检情况但出现漏检、多余目标框重复定位和定位不精准的问题。如图22所示BCBAM_YOLOv5_F的检测结果中,无漏检、误检现象,且大部分能够达到高置信度的检测。最后,对3种网络的目标检测实时性进行了对比,YOLOv5s检测的每秒帧数(Frames Per Second,FPS)最高为58.8,其次是CBAM_YOLOv5_B为55.9,BCBAM_YOLOv5_F最低为52.6。虽优化后FPS有所降低,但仍然满足智能装载机对物料识别实时性的要求,因此选择在牺牲部分实时性的前提下保障高的检测准确率。

图20 YOLOv5s

图21 CBAM_YOLOv5_B

图22 BCBAM_YOLOv5_F

步骤2得出结论,本文提出的BCBAM_YOLOv5_F性能最优。接下来进行步骤3,利用ImdNet2数据集,以原始YOLOv5s及BCBAM_YOLOV5_F进行实验,与St_BCBAM_YOLOv5_F进行对比,验证St_BCBAM机制优化后的网络对低质量数据检测准确率。

首先进行步骤3第一部分:验证加入噪声后的低质量数据集对模型检测精度的影响,实验结果如表2所示。

表2 基于注意力改进的YOLOv5s模型对低质量图片检测结果

对比同一类型网络在ImdNet1和ImdNet2的检测结果,原始YOLOv5s网络对低质量图片的检测精度相较于清晰图片,其mAP@0.5下降了6.90%,而BCBAM_YOLOv5_F相较于ImdNet1的检测精度,其同样下降4.5%,此现象也体现在mAP@0.5:0.9和PR值上。因此,得出结论,低质量图片会影响算法的特征提取过程,降低检测精度。

在此基础之上,进行步骤3第二部分:将St_BCBAM机制嵌入BCBAM_YOLOv5_F网络结构中,验证网络在训练过程中通过软阈值能够缓解图片噪声影响。实验结果表明,嵌入St_BCBAM机制后YOLOv5s算法对ImdNet2低质量图片数据集的检测效果:P为0.876;R为0.840;mAP@0.5为0.902;mAP@0.5:0.95为0.767。从结果分析,St_BCBAM_YOLOv5_F模型能够在一定程度上克服噪声对训练过程的影响,相较于未加入软阈值的BCBAM以及原始YOLOv5s,其在ImdNet2上mAP@0.5分别提高了1.5%和9.9%。如图23所示为YOLOv5s、St_BCBAM_YOLOv5_F和BCBAM_YOLOv5_F的mAP对比图,由图可得St_BCBAM_YOLOv5_F无论在mAP@0.5还是mAP0.5:0.95均超过其他两种网络模型。

图23 各模型mAP@0.5、mAP@0.5∶0.95对比柱状图

如图24和图25所示为步骤3中网络在ImdNet2数据集验证过程中的PR曲线。由图对比可知,在对低质量数据进行目标检测方面,St_BCBAM优化后的YOLOv5_F性能优于BCBAM优化的YOLOv5_F。

图24 St_BCBAM_YOLOv5_F模型PR曲线

图25 BCBAM_YOLOv5_F模型PR曲线

如图26和图27所示分别为St_BCBAM_YOLOv5_F和BCBAM_YOLOv5_F对低质量物料图片目标检测效果。与步骤2一致,为了展现模型对不同目标大小、不定位置以及不同种类的检测效果,对待检测低质量目标图片进行不规则随机组合。图26中,BCBAM_YOLOv5_F能够准确检测目标的位置和边界框但对目标种类检测方面出现误检现象,如图26左下角应为褐煤(lignite),但其错误地预测为烟煤(bituminous)。反观St_BCBAM检测效果(如图27),综合其目标位置、目标种类和目标框3个方面,均未出现误检问题,检测效果好,检测精度高。模型对低质量数据集检测实时性方面,St_BCBAM_YOLOv5_F检测时的FPS为50.0,满足装载机智能铲装对物料识别实时性的要求。

图26 BCBAM_YOLOv5_F低质量图片检测

图27 St_BCBAM_YOLOv5_F低质量图片检测

7 结束语

本文针对优化算法和结构改进两方面提出一种基于YOLOv5s改进的物料细粒度目标检测算法。①优化算法方面:首先改进CBAM,提出BCBAM注意力机制,以双线性结构使网络更聚焦于物料的细粒度特征,其次将软阈值与BCBAM结合,提出St_BCBAM机制优化网络模型对低质量物料图片的检测性能;②网络结构方面:针对注意力嵌入方式提出YOLOv5_B、YOLOv5_F和YOLOv5_H三种网络结构,分别实现对特征提取、高维数据处理以及特征融合3方面的优化改进。

实验结果表明,在高质量物料数据检测方面,本文的BCBAM_YOLOv5_F在mAP@0.5和mAP@0.5:0.95均分别超过原始YOLOv5s 6.0%和7.3%;在低质量物料数据检测方面,本文St_BCBAM_YOLOv5_F检测精度相较原YOLOv5s在mAP@0.5和mAP@0.5:0.95分别提高9.9%和8.9%;两方面物料检测模型FPS分别为52.6和50.0,均符合装载机智能铲装过程对算法实时性的要求。因此,在本文优化算法和结构创新下的YOLOv5s不仅提高了对物料细粒度的检测精度,而且更适用于高强度和高负荷的工作环境,模型鲁棒性和稳定性更强。

未来的研究工作中,将对BCBAM的泛用性及对其他网络的嵌入框架展开研究。另外,由于目前学术界缺乏公开的工程物料细粒度数据集,本文仅在自制细粒度数据集上进行了目标检测模型的训练和性能验证,未来将对改进后的YOLOv5在不同数据集上的泛化能力展开进一步研究验证。

猜你喜欢
低质量细粒度注意力
雷人画语
融合判别性与细粒度特征的抗遮挡红外目标跟踪算法
让注意力“飞”回来
细粒度的流计算执行效率优化方法
基于双线性卷积网络的细粒度图像定位
“扬眼”APP:让注意力“变现”
低质量的婚姻不如高质量的单身,是真的吗?(一)
支持细粒度权限控制且可搜索的PHR云服务系统
A Beautiful Way Of Looking At Things
破解学前教育低质量现象