基于移位窗口Transformer网络的玉米田间场景下杂草识别

2022-11-13 07:02武新慧张燕青王文俊
农业工程学报 2022年15期
关键词:杂草田间语义

王 璨,武新慧,张燕青,王文俊

·农业信息与电气技术·

基于移位窗口Transformer网络的玉米田间场景下杂草识别

王 璨,武新慧※,张燕青,王文俊

(山西农业大学农业工程学院,太谷 030801)

针对实际复杂田间场景中作物与杂草识别准确性与实时性差,易受交叠遮挡影响,像素级数据标注难以大量获取等问题,该研究提出基于移位窗口Transformer网络(Shifted Window Transformer,Swin Transformer)的高效识别方法,在实现作物语义分割的基础上快速分割杂草。首先建立玉米语义分割模型,引入Swin Transformer主干并采用统一感知解析网络作为其高效语义分割框架;改进Swin Transformer主干调整网络参数,生成4种改进模型,通过精度与速度的综合对比分析确定最佳模型结构;基于玉米形态分割,建立改进的图像形态学处理组合算法,实时识别并分割全部杂草区域。测试结果表明,该研究4种改进模型中,Swin-Tiny-UN达到最佳精度-速度平衡,平均交并比为94.83%、平均像素准确率为97.18%,推理速度为18.94帧/s。对于模拟实际应用的视频数据,平均正确检测率为95.04%,平均每帧检测时间为5.51´10-2s。该方法有效实现了玉米与杂草的实时准确识别与精细分割,可为智能除草装备的研发提供理论参考。

作物;目标识别;图像分割;语义分割;玉米;杂草识别

0 引 言

杂草是影响幼苗期作物生长的主要因素之一,及时进行除草作业可减少养分争夺、发育迟缓以及病虫害等问题,是保障作物稳产增产的必要措施[1]。当前大田除草方式依然以化学防治为主,除草剂等投入品的过量使用带来农业面源污染、作物农药残留和杂草抗药性增强等一系列问题[2-5]。为实现除草投入品的减量化,以精准喷药、机械除草和电击除草等为主要工作方式的田间除草装备被广泛研究[6-10]。当前智慧农业阶段,智能化的田间除草装备是组建无人农场作业装备系统[11-12]的重要环节。为实现无人参与条件下的精准除草,智能除草装备首先要实现作物与杂草的快速、准确识别。

基于机器视觉的识别方法在作物与杂草识别研究中被广泛接纳。通过建立机器学习模型[13-14],对图像中人工提取的特征向量进行分类,达到识别作物和杂草图像的目的。苗荣慧等[15]基于图像分块重构结合支持向量机模型实现对菠菜和杂草的识别。浅层机器学习类方法特征模式相对固定,泛化能力和环境适应性较差。近年来基于深层卷积神经网络的各类识别方法被广泛应用于相关研究中[16-17]。孙俊等[18]结合空洞卷积和全局池化提出多尺度特征融合模型,实现对多种杂草的识别。赵辉等[19]基于改进的DenseNet模型,解决玉米幼苗及其6种伴生杂草的种类识别问题。Jiang等[20]建立图卷积神经网络,对3种作物及其伴生杂草进行识别。上述方法实现了作物和杂草的图像分类,但无法识别并定位同一图像中的不同种类目标。为解决该问题,基于深度学习结构的目标检测方法被广泛采用[21]。彭明霞等[22]融合快速区域卷积神经网络和特征金字塔网络,提出复杂背景下棉田杂草高效识别检测方法。孟庆宽等[23]提出基于轻量卷积和特征信息融合机制的多框检测器对玉米及其伴生杂草进行识别。这类方法在作物与杂草间存在交叠遮挡情况下的检测效果欠佳,且生成的检测锚框出现大面积重叠时无法进一步分割不同目标区域。有学者进而采用基于深度学习的语义分割方法实现作物和杂草识别。Wang等[24]建立了一种Encoder-Decoder结构的语义分割网络,通过融合近红外与RGB增强图像,实现甜菜地的杂草识别。孙俊等[25]融合近红外与可见光图像,构建多通道深度可分离卷积模型识别甜菜与杂草。Khan等[26]建立CED-Net分割模型,并在4种数据集上进行测试。王璨等[27]基于改进的双注意力语义分割模型实现田间苗期玉米和杂草的识别分割。已有研究表明,语义分割能够在识别作物和杂草的同时得到各自的区域分割。但训练所需的像素级标注难度大,数据样本不易获取,且实时性较弱。

为解决上述问题,增强识别精度与实时性,本文提出基于移位窗口Transformer网络(Shifted Window Transformer,Swin Transformer)的识别方法。首先针对真实的复杂田间场景建立玉米语义分割模型。该模型基于先进的Swin Transformer主干,并采用统一感知解析网络(Unified Perceptual Parsing Network,UperNet)作为高效的语义分割框架。通过改进Swin Transformer结构,生成具有最佳精度-速度平衡的分割模型。模型的训练数据中无需对各类杂草进行额外的人工像素标注,样本获取难度大幅减小。然后通过组合改进图像形态学处理方法,提出简单有效的杂草识别算法,在玉米形态区域分割结果的基础上,实时分割出全部的杂草区域。本文方法可对交叠遮挡情况下的玉米和杂草目标进行识别,并得到各自区域的精细分割。通过复杂田间场景图像和视频对本文方法进行试验研究,以期达到更高的准确性和实时性,为智能除草装备的研发提供理论依据。

1 材料与方法

1.1 数据集生成

本研究以幼苗期玉米的田间图像为研究对象。为保证数据集的泛化性,所采集的图像包含环境差异、光线差异以及生长差异。图像采集地点为5处不同的玉米种植田,代表作业时的不同田间环境。一般情况下,玉米苗后除草工作在2~5叶期间进行,因此选择不进行任何除草作业的真实地块,在此期间进行3次图像采集,每次采集均分为3个不同时间段(07:00-09:00、10:00-12:00、15:00-17:00)完成,代表实际应用时不同的作物生长阶段以及光线条件。采用垂直俯视角度拍摄,设备距地面高度在50~60 cm之间随机变化,代表实际作业过程中因地形波动所可能引起的图像尺度变化。共采集幼苗期玉米田间图像1 000幅,包涵目标交叠在内的各种真实复杂情况。

将采集图像的分辨率统一调整为512´512像素,采用Labelme(v4.5.6)软件进行手工标注。仅标注图像中的玉米目标区域,其他部分均为背景。采用多边形标注法,于图像中的玉米目标轮廓上进行人工密集选点,连接绘制成贴合边界的封闭多边形区域,如图1b所示。其内全部像素即标记为玉米类别,其外全部像素自动定义为背景类别,生成标签如图1c所示。在作物杂草识别任务中,常规像素级标注除按上述方法标注玉米区域外,还须以同样的步骤对杂草像素进行标记,如图1d所示。在图像中包含大量杂草的情况下,待标注目标数量成倍增长。由图1c和1d对比可知,本文方法下的图像标注具有更少的目标数量以及标记类别,人工数据标注量大幅减少。

注:图1c包含玉米和背景标签;图1d包含玉米、杂草和背景标签。

按照PASCAL VOC 2012格式生成数据集。以7∶2∶1的比例将数据集划分为模型的训练集(700幅图像)、验证集(200幅图像)和测试集(100幅图像),各集合间无重复数据。

1.2 数据增强

为使模型得到更为充分的训练,进一步提升语义分割精度,本研究通过数据增强[28]方式对训练集样本量进行扩充。采用的方法包括:1)色彩抖动,随机调整图像的饱和度、亮度、对比度以及锐度;2)随机裁剪,以随机尺寸的正方形窗口(大于128´128像素)裁剪图像并通过双线性插值调整回原大小;3)随机旋转,以任意随机角度旋转图像并填充空余像素。通过上述方法将训练集样本量扩展为原来的15倍。

1.3 基于Swin Transformer的玉米语义分割模型

为准确识别田间场景图像中的玉米幼苗及其形态区域,本文提出的玉米语义分割模型基于先进的Swin Transformer主干网络,并采用UperNet作为其高效率的识别与分割框架。为进一步提高模型的准确性与快速性,通过对Swin Transformer不同改进变体的对比试验,探寻最佳的精度-速度平衡,确定最优模型结构。

1.3.1 Swin Transformer主干网络

Swin Transformer是一种采用全自注意力机制的视觉任务主干网络[29]。在语义分割方面的表现优于卷积神经网络(Convolutional Neural Network,CNN)架构的主干[30]。其与普通Transformer架构相比:1)可构建分层特征表达,实现模型的像素级密集预测;2)采用基于移位窗口的自注意力机制,建模能力显著增强。3)自注意力在分割图像的非重叠窗口内局部计算,同时允许跨窗口连接,加快了模型的推理速度。

建立Swin Transformer主干网络的基础形式,记为Swin-Base,结构如图2所示。网络首先通过块分割层将输入图像分割成不重叠的图像块。图像块大小为4×4,每个图像块的特征维度为4×4×3=48(原始值特征)。块分割大小的选择与网络各阶段输出特征尺寸相关,在本文输入图像分辨率下,2×2块分割仅能得到维度12的原始特征,包含较少的局部信息,网络各阶段输出特征尺寸均变为2倍,运算压力增大易导致显存溢出;3×3、5×5至7×7块分割在网络各阶段无法得到整数的特征图尺寸,变换中的取整操作会导致部分特征信息丢失或改变;8×8块分割在最终阶段的输出特征尺寸仅为8×8元素,对于输入图像尺寸来说,特征分辨率不足。网络阶段1由线性嵌入层和Swin Transformer模块组成。线性嵌入层将每个图像块的原始特征投影到维度128,Swin Transformer模块保持图像块的数量为128×128(特征图尺寸)。在该模块中,W-MSA和SW-MSA分别为使用常规和移位窗口划分的多头自注意力(Multi-head Self Attention,MSA)[31],MLP为带有GELU非线性激活函数的2层感知器(Multi-layer Perceptron,MLP),在每个MSA和MLP模块前应用层归一化(Layer Normalization,LN),且均有残差连接。模块使用移位窗口划分和向左上方循环移位的批处理方法。批处理窗口由特征图中不相邻的子窗口组成,使用掩蔽机制将自注意力计算限制在每个子窗口内。遵循文献[32]中的方法计算自注意力。

注:LN表示层归一化;W-MSA和SW-MSA分别表示具有常规窗口配置和移位窗口配置的多头自注意力模块;MLP表示多层感知器;Å表示按元素求和。

1.3.2 Swin Transformer的改进变体

为进一步增强推理速度,在Swin-Base基础上改进模型结构。选取架构的重要超参数进行敏感性试验。以网络合理性为前提设置各参数的可调档位。通过控制变量,考察调节各参数对于识别精度与速度的影响。每次试验通过固定的预训练权重初始化,重复3次。采用验证集平均交并比(Mean Intersection over Union,mIoU)和每秒处理帧数(Frames Per Second,FPS)作为精度和速度指标,结果如表1所示。

表1 参数敏感性试验

注:mIoU为平均交并比;FPS为每秒处理帧数。下同。

Note: mIoU is mean intersection over union; FPS is frames per second. Same below.

由表1可知,调整移位窗口大小对mIoU存在较大影响,极差达8.46个百分点,说明过大或过小的局部感受野均无法使模型维持较高精度;在推理速度方面极差为0.41帧/s,对于该参数变化不敏感。调整下采样比率可对FPS产生影响,极差为7.04帧/s;但同时mIoU极差可达到14.49个百分点,说明模型精度对于该参数变化更为敏感,较大的下采样比率会使特征分辨率下降过快,出现锯齿效应使mIoU大幅降低,较小的下采样比率无法达到特征池化效果,泛化能力降低导致精度下降。因此上述两项参数不宜调整,以保证模型精度。隐层通道数决定特征映射的维度,通过调整特征维度可对FPS产生较大影响,极差达5.49帧/s;mIoU的极差为2.56个百分点,相对不敏感。头部数量用于监督特征产生预测能力,mIoU和FPS的极差分别为1.05个百分点和4.86帧/s,推理速度对于参数调整更为敏感。Swin Transformer模块是网络核心,调整模块数量对mIoU和FPS均产生影响,极差分别为5.41个百分点和8.77帧/s,FPS对模块数量的变化更为敏感。因此模型推理速度对后3项参数均存在敏感性,且精度敏感性相对较弱。

基于各项超参数的敏感性分析,本文在保持Swin-Base移位窗口大小与下采样比率不变的条件下,通过调整隐层通道数、头部数量以及模块数量等部分参数改变模型体量,各项参数在相邻变体之间不做跨间隔调整,以在尽可能保持精度平稳的同时加快推理速度。为生成充分的变体模型进行对比试验,以每次减少计算复杂度的1/2为依据,等比调整模型体量。生成变体模型Swin-Small、Swin-Tiny以及Swin-Nano,网络大小与计算复杂度分别为Swin-Base的1/2、1/4和1/8左右。此外,为了加强模型对比的全面性,依照相邻模型计算复杂度之间的等比关系设置变体Swin-Large,网络大小与计算复杂度为Swin-Base的2倍左右。由此4个变体与基础模型的参数设置覆盖了敏感性试验中的全部可调范围,各模型结构超参数如表2中所示。

表2 Swin Transformer改进变体的结构超参数

注:Swin-Base为本文所建立的Swin Transformer基础网络;Swin-Large、Swin-Small、Swin-Tiny和Swin-Nano为在Swin-Base基础上生成的改进变体。下同。

Note: Swin-Base is the basic network of Swin Transformer established in this paper; Swin-Large, Swin-Small, Swin-Tiny and Swin-Nano are improved variants generated on Swin-Base. Same below.

对于全部模型试验,每个头部的查询维度均设置为32,每个MLP的扩展层均设置为=4。此外,构建经典的ResNet-101主干网络作为对比试验的基准。

1.3.3 UperNet语义分割框架

本文采用UperNet统一感知解析网络[33]作为语义分割的实现框架,所构建的模型结构如图3所示。该语义分割架构的特征提取器设定为基于Swin Transformer主干的特征金字塔网络(Feature Pyramid Network,FPN)。它利用Swin Transformer获取的多层次特征表示对应的金字塔层级,使用具有横向连接的自上而下的FPN体系结构,下采样比率与Swin Transformer保持一致。金字塔池化模块[34](Pyramid Pooling Module,PPM)位于FPN自上而下的分支之前,并与Swin Transformer网络的阶段4相连接,PPM能够带来有效的全局先验特征表达,与FPN结构高度兼容。该架构形式可与Swin Transformer获取的分层特征表达有效配合,基于高中低层语义信息的融合达到更好的语义分割效果。特征融合模块通过双线性插值将FPN输出的所有层次特征调整到同一大小,然后应用卷积层融合来自不同级别的特征。目标分割头被附加到融合特征图上,每个分类器前都有一个单独的卷积层。所有额外的非分类器卷积层都具有512通道输出的批量归一化[35],并应用ReLU[36]激活函数。模型输出是由像素分类预测标签所生成的类别掩膜,进而得到分割图。由此实现玉米田间图像的细粒化推理,在识别目标的同时获取目标区域的精细分割。

图3 UperNet语义分割框架

1.4 基于语义分割结果的杂草识别算法

玉米幼苗与杂草的植物属性,决定了两者在田间图像中具有相似的颜色特征表达。这增加了两者的识别与分割难度,但是根据该特性,从图像中分割出全部的植物区域是容易的。基于语义分割模型对玉米的精细分割结果,可利用图像形态学处理从全部植物区域中进一步快速分割出所有杂草。在该思路基础上对实现细节进行改进调整以提高杂草分割效果,本文提出了基于语义分割结果的杂草识别与分割算法,流程如图4所示:1)对原始图像进行超绿特征分割。计算归一化的超绿特征分量作为灰度值,并结合最大类间方差法实现二值化,提取出包含全部植物区域的分割掩膜;2)删除掩膜中的玉米区域。对语义分割模型推理出的玉米掩膜进行轻度膨胀修正边界后,将植物分割掩膜中对应于玉米掩膜位置的像素值置0,生成仅包含全部杂草区域的分割掩膜;3)优化杂草区域的分割掩膜。对杂草分割掩膜进行形态学闭运算,消除掩膜内可能存在的细小孔隙。再进行面积滤波,去除掩膜中的噪声区域。最后对掩膜进行膨胀处理,优化掩膜的区域形态;4)最终获得杂草掩膜与杂草分割图。

1.5 模型训练与性能评价

1.5.1 试验平台配置

全部模型的训练与测试均在本研究搭建的试验平台上完成,保证了对比条件的一致性。该平台的主要硬件配置:中央处理器(CPU)为AMD R5 3600X,主频3.8 GHz;运算内存64 GB;图形处理器(GPU)为NVIDIA GeForce RTX 2080Ti,显存11 GB。主要软件环境为:Ubuntu 20.04操作系统,Pytorch 1.6深度学习框架,CUDA 10.2通用并行计算架构,cuDNN 8.0.4用于深度神经网络的GPU加速库,Python 3.8编程语言,OpenCV 4.5.1计算机视觉库。

图4 杂草识别算法流程

1.5.2 模型训练策略

模型训练为端到端进行,输入为原始图像,输出为对应的识别分割图,中间过程无人为干预。Swin Transformer主干网络和语义分割框架通过解码器-编码器(Encoder-Decoder)结构组合成整体模型,同时进行训练。主干网络作为解码器负责特征变换与提取,除预训练数据集和目标数据集外不需要额外的监督信号训练。语义分割框架作为编码器对主干网络输出特征进行重构融合,并以此为依据产生分类预测。

模型通过迁移学习方式完成训练。主干网络中各层采用在ImageNet-1K数据集上预先训练的权重初始化[37],随后连同语义分割框架权重一起在本文数据集上进行调整,使模型更快收敛。训练微调的具体步骤为:1)设定随机种子初始化语义分割框架各层参数权重,给定随机初值;2)冻结主干网络的预训练权重,同时设定框架各层学习率为下述标准设置的10倍,在目标数据集上对模型进行训练,快速调整框架权重;3)主干网络和框架的学习率均采用下文标准设置,整体在目标数据集上进行训练,通过反向传播同时调整全部参数权重。ImageNet-1K是迁移学习中通用的大规模图像集,有效性在大量已有研究中被证实[21]。在本文任务中,其丰富的类别(包括植物大类)以及图像数量可直接将主干网络参数预训练到一个相对最优的权值空间,且极大增强提取特征的泛化性。在此基础上,利用目标数据的类别特点微调权值,更易达到全局最优解,兼顾特征差异性与泛化性。为进一步保证微调效果,本文通过前述数据增强方法大规模扩充目标训练数据,以使网络学习到足够的目标特征,充分适应本文任务。预试验显示,采用上述微调方法和单一训练相比,模型的像素识别准确率可高出3%~5%。

综合考虑物理内存与学习效率,设置每批次训练图像为2幅,总迭代次数为20 000。在训练中,模型采用AdamW优化器[38]、线性学习速率衰减的调度器以及1 500次迭代的线性预热。当前迭代的学习率的更新计算方法如下:

式中0为初始学习率,为当前迭代次数,为衰减周期即总迭代次数,为多项式衰减指数(Power)。初始学习率和多项式衰减指数分别设置为6×10-5和1。本文使用0.01的权重衰减(Weight decay)和0.9的动量(Momentum),学习率更新下限为0。全部模型均在上述标准设置上进行训练。

采用交叉熵损失函数(Cross-Entropy Loss)衡量训练过程中模型对于像素类别的预测概率分布和真实标签类别概率分布之间的距离,具体计算方法如下:

1.5.3 模型评价指标

为评价模型性能,本文使用mIoU和平均像素准确率(Mean Pixel Accuracy,mPA)作为模型识别与分割效果的量化评价指标。采用FPS指标评价模型的推理速度。

2 结果与分析

2.1 不同模型的训练表现

在UperNet框架结构下分别建立基于不同改进主干网络的语义分割模型,分别记为Swin-Large-UN、Swin-Base-UN、Swin-Small-UN、Swin-Tiny-UN、Swin-Nano-UN和ResNet-101-UN。不同模型在训练过程中的损失函数变化曲线如图5所示。

注:UN代表UperNet框架。

在试验中未能获得Swin-Large-UN的损失曲线,原因是较大的模型结构导致GPU运算发生显存溢出,无法完成训练,即使能够达到更高精度水平,也不符合研究应用需要,故首先排除。在图5中,Swin-Base-UN、Swin-Small-UN和Swin-Tiny-UN均能达到良好的训练效果,网络收敛情况良好,终止迭代时平均损失值约为7.74´10-3,相比于ResNet-101-UN(0.01)更低。三者的损失函数变化情况基本相同,说明Swin-Small-UN和Swin-Tiny-UN保持了Swin-Base-UN原有的数据学习能力,改进后训练表现未受影响。Swin-Nano-UN的训练损失在快速下降到0.70左右时出现停滞并不断波动,最终损失值为0.72,同Swin-Base-UN等相比高2个数量级。说明该模型的深度和参数量难以匹配本文任务,对于数据特征的拟合与泛化能力不足,难以收敛到全局最优点。

2.2 不同模型的验证表现

为排除随机性影响,对模型训练表现进行5次重复验证,每次试验均调整随机种子生成各模型语义分割框架的参数权值,随后按前文所述方法完成训练。于训练过程中,每2 000次迭代对各模型性能进行1次验证评估。采用模型在验证集上的mIoU和mPA作为评价指标,取5次试验的平均值。各性能指标随迭代变化情况如图6所示。

图6 不同模型的验证集表现

由图6a可知,Swin-Base-UN、Swin-Small-UN和Swin-Tiny-UN同ResNet-101-UN相比,初次验证时的mIoU均有不同程度提高,最终验证时的mIoU分别提高了4.32个百分点、4.51个百分点和3.08个百分点。表明这三者对于验证集的区域识别与分割表现均优于ResNet-101-UN。Swin-Nano-UN的表现与对比模型相当。由图6b可知,Swin-Base-UN、Swin-Small-UN、Swin-Tiny-UN和Swin-Nano-UN同ResNet-101-UN相比,初次验证时的mPA均有所提高,最终验证时的mPA分别提高了5.56个百分点、5.29个百分点、4.86个百分点和2.15个百分点。表明本文各模型对于验证集的像素识别精度均优于ResNet-101-UN,但Swin-Nano-UN相对其他变体模型性能较弱。

在变体模型中,Swin-Small-UN和Swin-Tiny-UN在mIoU和mPA指标上均可达到同Swin-Base-UN更为接近的验证集表现,说明这2种改进变体能够在更精简的模型结构下达到与基础模型相近的训练成效,符合模型改进目标。而Swin-Nano-UN的验证集表现同基础模型相比不够理想,精度衰减较大。验证结果表明,Swin-Small-UN和Swin-Tiny-UN在本文任务中可替代Swin-Base-UN,且建模能力远超基于传统主干的ResNet-101-UN模型。

2.3 不同模型的测试结果

利用测试集数据对完成训练后的全部模型进行测试,考察本文模型的实际泛化性能与快速性,结果如表3所示。在综合对比mIoU、mPA和推理速度的基础上,确定最佳模型结构。

表3 不同模型的测试集表现

由表3可知,Swin-Base-UN、Swin-Small-UN和Swin-Tiny-UN相比于ResNet-101-UN,mIoU分别提高了3.98个百分点、3.93个百分点和3.27个百分点,mPA分别提高了5.23个百分点、4.68个百分点和4.71个百分点,推理速度分别提高了0.98%、7.16%和24.36%。表明这三者对于本文任务有更强的实际泛化性能,在区域分割准确性、像素识别精度和推理速度上全面优于传统模型。Swin-Nano-UN相比于ResNet-101-UN,推理速度提高了31.85%,但mIoU降低了1.24个百分点,在主要精度指标上的实际泛化表现未高于传统模型。

在本文所构建的4个模型中,Swin-Base-UN具有最高的mIoU和mPA,但其速度最慢。Swin-Small-UN的准确性同Swin-Base-UN更为接近,但快速性提升有限。Swin-Tiny-UN在推理速度上获得了有效提升(18.94帧/s),同Swin-Base-UN和Swin-Small-UN相比分别提高了23.15%和16.05%。虽然其识别与分割准确性在4个模型中未达最高(94.83%),但是同最准确的Swin-Base-UN相比,mIoU和mPA仅降低了0.71个百分点和0.52个百分点,差距较小。Swin-Nano-UN达到了最快的推理速度,在Swin-Tiny-UN的基础上提高了6.02%,但mIoU和mPA降低了4.51个百分点和3.82个百分点,其主要精度指标仅能达到90%左右,差距较大。

在本文任务中,期望能够在保证模型准确率的前提下尽可能提升推理速度。Swin-Tiny-UN模型在推理速度上的提升同准确率上的细微差距相比是更明显的。继续减少参数量到Swin-Nano-UN会导致模型实际泛化能力不足,精度大幅降低。因此Swin-Tiny-UN模型达到了最佳的精度-速度平衡,为最佳模型结构。

2.4 识别与分割效果

为考察最佳模型对玉米田间图像的实际分割效果,在测试集图像上进行推理,将玉米幼苗的分割掩膜可视化在原图像上得到分割图,部分样本图像的识别与分割结果如图7中所示。

注:圆圈区域指示了ResNet-101-UN与Swin-Tiny-UN分割图的不同之处。

在图7a中,各原始图像均为真实的玉米田间场景。对比图7b和7c可知,Swin-Tiny-UN的分割效果同真实值间无明显差异,与Swin-Base-UN相比亦基本相同,此处不再展示。这说明最佳模型Swin-Tiny-UN以更快的推理速度达到了与改进前相同的识别分割效果。错误分割应主要集中在目标边界的个别像素上,对分割效果影响甚微,因此分割图与真实值间仅存在难以观察的像素级差异。进一步对比图7c和7d,可见ResNet-101-UN对玉米幼苗的中心区域和叶片末端容易产生错误分割,这会导致杂草分割算法的误判。上述分析表明,Swin-Tiny-UN模型在复杂田间场景中能够对目标进行准确识别与分割,同传统模型相比无论在整体还是局部均达到更好效果,为实现杂草识别与分割提供有力保证。

基于最佳模型Swin-Tiny-UN的推理预测,通过本文算法进一步生成杂草分割图,并对全目标识别与分割效果进行展示,结果如图8所示。

图8 杂草识别与分割结果

由图8可知,本文算法能够实现杂草区域的有效识别,同时分割出全部目标的区域边界。对于不同的测试图像,均达到较好效果。在完整保留玉米形态区域的同时,分割掩膜基本完全覆盖全部杂草区域,即使图中一些较小的杂草也可识别并分割其所在区域。所得杂草和玉米的分割区域在具备各自形态的同时互不交叠,有效解决复杂田间场景中各目标交叠、难以精确分割边界的问题。此外算法简单高效,基本不会对模型推理速度造成影响,具备较强实时性。由此实现精确快速的复杂田间场景下杂草识别与分割。

2.5 视频测试结果

为进一步考察本文方法在实际应用中的表现,利用田间实地模拟作业移动过程中采集的视频数据进行测试。视频分辨率为768´432像素,设定视频检测中被正确分割像素数占90%以上的帧为正确帧,正确帧数占总帧数的比例为正确检测率。统计结果见表4。

表4 视频检测性能

由表4可知,平均视频正确检测率可达95.04%,对于每帧的平均检测时间为5.51´10-2s。表明本文方法能够对田间移动作业过程中的视频流进行准确的检测,同时具备较好的实时同步性能。从视频中抽取部分帧的检测结果,如图9中所示。

注:在视频流中的随机位置,以15~30帧的随机间隔依次选取6帧图像。

对比图9中检测前后的视频帧可知,本文方法可对视频各帧中的玉米幼苗和杂草目标进行有效的识别与分割,检测效果受视频抖动影响较小,与图像测试效果基本保持一致,可用于移动作业中的实时检测。

2.6 与相关研究的对比

同文献[15]的研究相比,本研究模型的学习为端到端进行,直接通过输入原始图像得到识别与分割结果,无需人工设计与提取特征,具备更强的实际泛化能力。同文献[18-20]的研究相比,本研究不是对仅含有单一种类的作物和杂草进行识别分类,而是针对含有多类目标的复杂田间图像,识别并分割出图像中的作物和杂草区域,更接近应用实际。同文献[22-23]的研究相比,本研究除同样能够进行目标检测识别外,还可解决目标交叠情况下的进一步分割问题,实现对复杂田间图像中作物和杂草的准确识别与精细分割。同文献[24-25]相比,本研究不需要融合图像以及额外的近红外数据,仅通过常规的图像数据即可达到更好的效果,在同样的像素级识别与分割目标中,模型的mIoU分别提高了5.92个百分点和7.25个百分点。同文献[26]相比,本研究模型mIoU提高了11.39个百分点。同文献[27]相比,本研究在相同的图像分辨率和硬件条件下,推理速度提高了19.12%。综上所述,本研究在当前相关研究中具备一定的优势。

3 结 论

为实现复杂田间环境中玉米和杂草的有效识别与分割,探索具有更强实际应用能力的识别方法,本研究提出了一种基于Swin Transformer统一感知解析网络的田间玉米和杂草分割方法,精确识别目标并实时获取各自形态区域的精细分割。

1)模型引入Swin Transformer主干网络,并采用UperNet高效语义分割框架,改进Swin Transformer结构生成4种不同性能的变体模型。通过对基础模型Swin-Base-UN及其4种变体在训练、验证和测试当中的性能表现进行综合对比分析,确定Swin-Tiny-UN为达到最佳精度-速度平衡模型,mIoU和mPA分别达到94.83%和97.18%,与ResNet-101-UN模型相比,分别提高3.27个百分点和4.71个百分点,推理速度可达18.94帧/s。本文模型在区域分割精度、像素识别准确性以及推理速度上全面优于传统语义分割模型。

2)基于玉米形态区域分割结果,建立改进的图像形态学处理组合算法,实时识别并分割全部的杂草区域。本文方法在分割玉米的基础上分割杂草,模型训练数据不含杂草像素标注,缓解语义分割方法难以获取大量像素级标注数据的问题。图像分割结果表明,本文方法能够对复杂田间场景中的玉米和杂草进行准确快速的识别与分割,受目标交叠影响较小。同本研究之前提出的方法相比,在精度提升的同时,推理速度提高了19.12%。

3)对于模拟田间移动作业的视频流数据,本文方法的平均视频正确检测率可达95.04%,每帧平均检测时间为5.51´10-2s。表明本文方法能够对田间作业过程中的视频流进行玉米和杂草的识别检测,在实际应用条件下有较好的准确性和实时同步性。

[1] Machleb J, Peteinatos G G, Kollenda B L, et al. Sensor-based mechanical weed control: Present state and prospects[J]. Computers and Electronics in Agriculture, 2020, 176: 105638.

[2] 段小贺,韩建国,巴金磊,等. 玉米田化学除草现状及发展趋势[J]. 园艺与种苗,2019,39(8):54-56.

Duan Xiaohe, Han Jianguo, Ba Jinlei, et al. The current situation and development trend of chemical weeding in corn fields[J]. Horticulture and Seedlings, 2019, 39(8): 54-56. (in Chinese with English abstract)

[3] Gaines T A, Busi R, Küpper A. Can new herbicide discovery allow weed management to outpace resistance evolution?[J]. Pest Management Science, 2021, 77(7): 3036-3041.

[4] Saha D, Cregg B M, Sidhu M K. A review of non-chemical weed control practices in Christmas tree production[J]. Forests, 2020, 11(5): 554.

[5] Muola A, Fuchs B, Laihonen M, et al. Risk in the circular food economy: glyphosate-based herbicide residues in manure fertilizers decrease crop yield[J]. Science of the Total Environment, 2021, 750: 141422.

[6] 孙君亮,闫银发,李法德,等. 智能除草机器人的研究进展与分析[J]. 中国农机化学报,2019,40(11):73-80.

Sun Junliang, Yan Yinfa, Li Fade, et al. Research progress and analysis of intelligent weeding robot[J]. Journal of Chinese Agricultural Mechanization, 2019, 40(11): 73-80. (in Chinese with English abstract)

[7] Gerhards R, Andujar S D, Hamouz P, et al. Advances in site‐specific weed management in agriculture: A review[J]. Weed Research, 2022, 62(2): 123-133.

[8] Fennimore S A, Cutulle M. Robotic weeders can improve weed control options for specialty crops[J]. Pest Management Science, 2019, 75(7): 1767-1774.

[9] Bauer M V, Marx C, Bauer F V, et al. Thermal weed control technologies for conservation agriculture: A review[J]. Weed Research, 2020, 60(4): 241-250.

[10] Raja R, Nguyen T T, Slaughter D C, et al. Real-time robotic weed knife control system for tomato and lettuce based on geometric appearance of plant labels[J]. Biosystems Engineering, 2020, 194: 152-164.

[11] 李道亮,李震. 无人农场系统分析与发展展望[J]. 农业机械学报,2020,51(7):1-12.

Li Daoliang, Li Zhen. System analysis and development prospect of unmanned farming[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(7): 1-12. (in Chinese with English abstract)

[12] Wang T, Xu X, Wang C, et al. From smart farming towards unmanned farms: A new mode of agricultural production[J]. Agriculture, 2021, 11(2): 145.

[13] Wang A, Zhang W, Wei X. A review on weed detection using ground-based machine vision and image processing techniques[J]. Computers and Electronics in Agriculture, 2019, 158: 226-240.

[14] Bakhshipour A, Jafari A. Evaluation of support vector machine and artificial neural networks in weed detection using shape features[J]. Computers and Electronics in Agriculture, 2018, 145: 153-160.

[15] 苗荣慧,杨华,武锦龙,等. 基于图像分块及重构的菠菜重叠叶片与杂草识别[J]. 农业工程学报,2020,36(4):178-184.

Miao Ronghui, Yang Hua, Wu Jinlong, et al. Weed identification of overlapping spinach leaves based on image sub-block and reconstruction[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(4): 178-184. (in Chinese with English abstract)

[16] Yu J, Sharpe S M, Schumann A W, et al. Deep learning for image-based weed detection in turfgrass[J]. European Journal of Agronomy, 2019, 104: 78-84.

[17] Quan L, Jiang W, Li H, et al. Intelligent intra-row robotic weeding system combining deep learning technology with a targeted weeding mode[J]. Biosystems Engineering, 2022, 216: 13-31.

[18] 孙俊,何小飞,谭文军,等. 空洞卷积结合全局池化的卷积神经网络识别作物幼苗与杂草[J]. 农业工程学报,2018,34(11):159-165.

Sun Jun, He Xiaofei, Tan Wenjun, et al. Recognition of crop seedling and weed recognition based on dilated convolution and global pooling in CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(11): 159-165. (in Chinese with English abstract)

[19] 赵辉,曹宇航,岳有军,等. 基于改进 DenseNet 的田间杂草识别[J]. 农业工程学报,2021,37(18):136-142.

Zhao Hui, Cao Yuhang, Yue Youjun, et al. Field weed recognition base d on improved DenseNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 136-142. (in Chinese with English abstract)

[20] Jiang H, Zhang C, Qiao Y, et al. CNN feature based graph convolutional network for weed and crop recognition in smart farming[J]. Computers and Electronics in Agriculture, 2020, 174: 105450.

[21] Hasan A S M M, Sohel F, Diepeveen D, et al. A survey of deep learning techniques for weed detection from images[J]. Computers and Electronics in Agriculture, 2021, 184: 106067.

[22] 彭明霞,夏俊芳,彭辉. 融合FPN的Faster R-CNN复杂背景下棉田杂草高效识别方法[J]. 农业工程学报,2019,35(20):202-209.

Peng Mingxia, Xia Junfang, Peng Hui. Efficient recognition of cotton and weed in field based on Faster R-CNN by integrating FPN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(20): 202-209. (in Chinese with English abstract)

[23] 孟庆宽,张漫,杨晓霞,等. 基于轻量卷积结合特征信息融合的玉米幼苗与杂草识别[J]. 农业机械学报,2020,51(12):238-245,303.

Meng Qingkuan, Zhang Man, Yang Xiaoxia, et al. Recognition of maize seedling and weed based on light weight convolution and feature fusion [J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(12): 238-245, 303. (in Chinese with English abstract)

[24] Wang A, Xu Y, Wei X, et al. Semantic segmentation of crop and weed using an encoder-decoder network and image enhancement method under uncontrolled outdoor illumination[J]. IEEE Access, 2020, 8: 81724-81734.

[25] 孙俊,谭文军,武小红,等. 多通道深度可分离卷积模型实时识别复杂背景下甜菜与杂草[J]. 农业工程学报,2019,35(12):184-190.

Sun Jun, Tan Wenjun, Wu Xiaohong, et al. Real-time recognition of sugar beet and weeds in complex backgrounds using multi-channel depth-wise separable convolution model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(12): 184-190. (in Chinese with English abstract)

[26] Khan A, Ilyas T, Umraiz M, et al. Ced-net: crops and weeds segmentation for smart farming using a small cascaded encoder-decoder architecture[J]. Electronics, 2020, 9(10): 1602.

[27] 王璨,武新慧,张燕青,等. 基于双注意力语义分割网络的田间苗期玉米识别与分割[J]. 农业工程学报,2021,37(9):211-221.

Wang Can, Wu Xinhui, Zhang Yanqing, et al. Recognition and segmentation of maize seedlings in field based on dual attention semantic segmentation network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(9): 211-221. (in Chinese with English abstract)

[28] Takahashi R, Matsubara T, Uehara K. Data augmentation using random image cropping and patching for deep CNNs[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(9): 2917-2931.

[29] Gao L, Liu H, Yang M, et al. STransFuse: Fusing swin transformer and convolutional neural network for remote sensing image semantic segmentation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 10990-11003.

[30] Zhou H Y, Lu C, Yang S, et al. ConvNets vs. Transformers: Whose Visual Representations are More Transferable?[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 2230-2238.

[31] Xiao X, Zhang D, Hu G, et al. CNN–MHSA: A Convolutional Neural Network and multi-head self-attention combined approach for detecting phishing websites[J]. Neural Networks, 2020, 125: 303-312.

[32] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. Journal of Machine Learning Research, 2020, 21(140): 1-67.

[33] Xiao T, Liu Y, Zhou B, et al. Unified perceptual parsing for scene understanding[C]//Proceedings of the European Conference on Computer Vision (ECCV). Switzerland: Springer, 2018: 418-434.

[34] Long X, Zhang W, Zhao B. PSPNet-SLAM: A Semantic SLAM Detect Dynamic Object by Pyramid Scene Parsing Network[J]. IEEE Access, 2020, 8: 214685-214695.

[35] Wang J, Li S, An Z, et al. Batch-normalized deep neural networks for achieving fast intelligent fault diagnosis of machines[J]. Neurocomputing, 2019, 329: 53-65.

[36] Jiang X, Pang Y, Li X, et al. Deep neural networks with elastic rectified linear units for object recognition[J]. Neurocomputing, 2018, 275: 1132-1139.

[37] Morid M A, Borjali A, Del Fiol G. A scoping review of transfer learning research on medical image analysis using ImageNet[J]. Computers in Biology and Medicine, 2021, 128: 104115.

[38] Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers & distillation through attention[C]// International Conference on Machine Learning. New York: PMLR, 2021: 10347-10357.

Recognizing weeds in maize fields using shifted window Transformer network

Wang Can, Wu Xinhui※, Zhang Yanqing, Wang Wenjun

(030801,)

Weeds have been one of the main factors to affect the growth of crops in the seedling stage. Timely weeding is a necessary measure to ensure crop yield. An intelligent field weeding equipment can also be a promising potential deployment in the unmanned farm system at the current stage of intelligent agriculture. Effective recognition of crops and weeds has been a high demand to promote the development of intelligent weeding equipment. Previous research was focused mainly on object detection and semantic segmentation using deep learning. A great challenge is still remained in the performance of target detection, in the case of overlap images between the crops and weeds under the complex field. The reason was that the different target areas cannot be further divided when the generated anchor box overlaps in a large area. The pixel level annotation can also be required to train the semantic segmentation, where the data samples cannot be easy to obtain. The weak real-time performance cannot be conducive to practical application. In this study, an improved model was proposed using shifted window Transformer (Swin Transformer) network, in order to enhance the accuracy and real-time performance of crop and weed recognition. The specific procedure was as follows. 1) A semantic segmentation model of corn was established for the real and complex field scene. The backbone of the model was the Swin Transformer architecture, which was denoted by Swin-Base. The full self-attention mechanism was also adopted to significantly enhance the modeling ability in the Swin Transformer using the shift window division configuration. Self-attention was then calculated locally in the non-overlapping window of the segmented image block, where the cross-window connection was allowed. The computational complexity of the backbone presented a linear relationship with the image size, thereby elevating the inference speed of the model. The hierarchical feature representation was constructed through the Swin Transformer for the dense prediction of the model at the pixel level. 2) The Unified perceptual parsing Network (UperNet) was used as an efficient semantic segmentation framework. Among them, the feature extractor was the Feature Pyramid Network (FPN) using the Swin Transformer backbone. The multi-level features obtained by Swin Transformer were used by the FPN to represent the corresponding pyramid level. An effective global prior feature expression was added in the Pyramid Pooling Module (PPM). Better performance of semantic segmentation was achieved using the fusion of the hierarchical semantic information. The Swing transformer backbone and UperNet framework were combined into one model through the Decoder-Encoder structure, denoted by Swin-Base-UN. 3) The structure of the Swin-Base backbone was improved to enhance the inference speed. The number of network parameters and calculation cost were reduced to decrease the number of hidden layer channels, headers, and Swin Transformer blocks. Therefore, four improved models were generated, including the Swin-Large-UN, Swin-Small-UN, Swin-Tiny-UN, and Swin-Nano-UN. The model size and computational complexity of improved models were about 2, 1/2, 1/4, and 1/8 times of Swin-Base-UN, respectively. 4) Taking the segmentation of corn morphological region as the case study, an improved image morphological processing combination was established to recognize and segment all the weed regions in real time. The segmentation of corn was also used to segment the weeds. The weed pixel annotation was removed from the training data of the model. As such, a large number of annotation data at the pixel level was obtained in the semantic segmentation of the improved model, compared with the original one. A comparison was made on the performance of all models in training, validation, and testing. Consequently, the Swin-Tiny-UN was determined as the best model to achieve the optimal balance between accuracy and speed. Specifically, the mean Intersection over Union (mIoU) and mean Pixel Accuracy (mPA) on the test set were 94.83% and 97.18%, respectively, which increased by 3.27 and 4.71 percentage points, respectively, compared with the RestNet-101-UN using traditional Convolutional Neural Networks (CNN) backbone. The inference speed of the model was achieved by 18.94 frames/s. The best model of semantic segmentation was superior to the traditional one, in terms of the region segmentation accuracy, pixel recognition accuracy, and inference speed. The image segmentation showed that the improved model can be expected to accurately recognize and segment maize and weeds in complex field scenes. The average correct detection rate of the improved model was 95.04% for the video stream data in the process of field work, whereas, the average detection time per frame was 5.51´10-2s. Consequently, the improved model can be expected to detect the corn and weeds in the process of field work, indicating higher accuracy and real-time performance under practical application conditions. The findings can provide a strong reference for the development of intelligent weeding equipment.

crops; object recognition; image segmentation; semantic segmentation; maize; weed recognition

10.11975/j.issn.1002-6819.2022.15.014

TP274; TP391.41

A

1002-6819(2022)-15-0133-10

王璨,武新慧,张燕青,等. 基于移位窗口Transformer网络的玉米田间场景下杂草识别[J]. 农业工程学报,2022,38(15):133-142.doi:10.11975/j.issn.1002-6819.2022.15.014 http://www.tcsae.org

Wang Can, Wu Xinhui, Zhang Yanqing, et al. Recognizing weeds in maize fields using shifted window Transformer network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 133-142. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.15.014 http://www.tcsae.org

2022-02-23

2022-07-23

山西省基础研究计划项目(202103021223147);山西省高等学校科技创新项目(2020L0134);山西农业大学科技创新基金项目(2018YJ44)

王璨,博士,副教授,研究方向为智能农业装备关键技术及应用。Email:wangcan8206@163.com

武新慧,博士,副教授,研究方向为农业生物力学与智能农业机械。Email:wuxinhui0321@163.com

猜你喜欢
杂草田间语义
强降雨过后 田间自救指南来了
拔杂草
田间地头“惠”果农
“码”上办理“田间一件事”
田间地头有了“新绿”
语言与语义
“上”与“下”语义的不对称性及其认知阐释
水稻田几种难防杂草的防治
认知范畴模糊与语义模糊
杂草图谱