基于面向通道分组卷积网络的番茄主要器官实时识别

2018-06-05 06:54周云成许童羽邓寒冰

农业工程学报 2018年10期

周云成，许童羽，邓寒冰，苗腾

（沈阳农业大学信息与电气工程学院，沈阳 110866）

0 引言

因用途不同需要选择性收获不同成熟度的番茄果实[1]。为提高座果率，常在花的不同发育时期通过蘸花、涂花、喷洒花穗等手段用生长素处理番茄花蕾。为减低药物用量，番茄生产中需要根据主茎秆进行精确对靶施药[2]。采摘、对靶施药等番茄生产自动化的前提条件之一是实现多种形态的花、果、茎器官的有效识别，属于典型的计算机视觉问题。从AlexNet[3]开始，卷积神经网络（convolutional neural network, CNN）在计算机视觉上的应用越来越普遍。为了取得更高的精度，CNN的深度不断增加，结构也变得越来越复杂[4]，但这与模型大小和计算速度之间产生了矛盾。由于农业机器人等智能装备的存储和计算资源受限，在保证精度可靠的前提下，更小的模型和更高的识别速度至关重要。

基于颜色空间特征的图像分割法[5]和基于特征描述子的模式识别法常被用于目标检测识别。李寒等[6]用Otsu算法选取归一化红绿色差图像的阈值，对番茄进行分割提取，使用局部极大值法对番茄个数进行估计。梁喜凤等[7]用图像灰度均衡化法增强图像，用基于形态学梯度的边缘检测器提取番茄果实串边缘。Wang等[2]借助红色吊蔓绳用基于 HIS颜色模型的阈值分割法检测番茄主茎。熊俊涛等[8]在夜间LED光照下，用YIQ颜色模型进行荔枝果实识别。由于果实成熟度的差异、花龄的不同，番茄器官颜色在生长期内变化频繁，基于颜色空间特征的图像分割法识别目标较单一，难以胜任不同类型、不同形态番茄器官的同时检测。Zhao等[9]用Haar-like提取滑动窗内番茄植株图像特征，通过训练好的AdaBoost分类器识别成熟番茄，并进一步用平均像素值消除错误识别的目标。Zhu等[10]用尺度不变特征变换算子（scaleinvariant feature transform, SIFT）提取小麦图像块的稠密特征，并用 Fisher向量对特征进行编码，经线性支持向量机分类实现图像块内麦穗的识别。由于特征提取的非实时性[11]，基于特征描述子的模式识别法很难实现植株器官的实时检测。近几年，随着深度学习技术的发展，CNN在图像识别领域受到越来越多的重视。孙俊等[12]在PlantVillage图片集上使用CNN分类网络实现植株叶片病害识别。傅隆生等[13]利用CNN网络对田间多簇猕猴桃图像进行识别，单个果实识别时间为 0.27 s。周云成等[14]借鉴Fast R-CNN，设计了一个番茄主要器官检测器，识别一张图像需要0.357 s，该方法识别速度还无法满足实时性要求。CNN是一种数据驱动的深度学习方法，通过优化设计[15]和大量样本训练，具有实时识别多种目标类型的能力。

鉴于此，本文针对农业机器人等智能装备对实时性视觉识别的需求及问题，以番茄器官实时检测为例，借鉴已有研究成果，提出一种基于CNN的番茄主要器官实时识别网络模型，以特征统计可分性、计算速度、模型大小等为判据，分析典型CNN网络在番茄器官图像处理上的性能，并采用启发式设计策略优化设计识别网络基础结构。通过样本扩增训练改善基础网络的特征提取能力。以提高识别精度、召回率、识别速度，降低模型大小为目标，设计筛选识别网络总体架构，并在番茄植株图像上验证其有效性。

1 番茄图像数据采集

试验供试图像数据于2017年8月—12月采集自沈阳农业大学实验基地某辽沈IV型节能日光温室，番茄品种为“瑞特粉娜”，采用吊蔓式栽培方法。用分辨率为1 600×1 200 pixel的Logitech CC2900E高清摄像头采集花、果、茎3种器官RGB图像，构建番茄器官图像数据集。通过拍摄时调整角度、距离和焦距以及后期裁剪，使每幅图像只包含一种器官，并占据图像的主要幅面。采集过程中考虑器官的形态和果实成熟度，对现蕾、开花和座果期的花，未熟、转色、半熟、成熟和完熟期的果[1]，以及茎蔓的上、中、下部等不同形态的番茄器官进行成像，分别采集了花、果、茎图像4 100、3 850和3 812幅，每类器官的各形态图像均匀分布。番茄器官图像数据集主要用于目标识别网络的基础结构模型参数的训练与测试，每次试验随机选择数据集中70%的样本作为训练集，10%作为验证集，剩余20%作为测试集。

同时采集了2 250幅番茄植株图像，为增加样本多样性，用搜索引擎在互联网上搜集了750幅番茄植株图像，共同构成番茄植株图像数据集，该数据集主要用于目标识别网络的微调与测试，每次试验随机选择 90%的样本用于网络微调，剩余10%用于网络测试。

2 番茄主要器官目标识别网络模型

2.1 架构设计

综合借鉴Faster R-CNN[16]锚盒的概念和YOLO[15]、YOLOv2[17]目标回归预测的思想，设计了一个完全基于CNN的番茄主要器官目标识别网络（图1所示），以下简称为Y2TNet。该网络通过图像特征预测番茄主要器官的边界及类型。Y2TNet将输入图像均匀划分为 Sr×Sc个网格，并为每个网格输出B个预测器（B组预测值）。如果图像中 1个待检测目标的中心点落入某个网格，则由该网格对应的预测器来负责检测该目标。每个预测器输出1个边界框（预测框 b），由与 b中心点偏移相关的 tx、ty和尺寸相关的tw、th共4个数值构成。预测器同时输出b中包含待检测目标的置信度（由与置信度相关的数值 to表示），以及在b包含目标的条件下该目标分别属于C种分类（所有待识别的目标类型的数量）的类别得分，由C个数值tci，i=1,2,…,C表示。因此，Y2TNet的CNN部分输出特征图的维数应为[B×(5+C)]×Sr×Sc，B表示预测器层数，B×(5+C)为特征图的通道数，Sr×Sc表示高×宽。此处称Sr、Sc和B为Y2TNet的网络超参数。

图1 番茄主要器官目标识别网络（Y2TNet）架构Fig.1 Architecture of tomato main organs recognition network (Y2TNet)

2.2 目标边界框的预测

预测器通过输出预测框b中心点（用bx, by表示）相对于对应图像网格左上角坐标（cx, cy）的位置偏移来实现位置预测，用归一化值描述该偏移，即偏移范围为0~1，通过用Sigmoid函数σ使σ(tx)、σ(ty)落入该范围。每层预测器关联1种预定义尺寸（用pw、ph表示宽和高）的锚盒，锚盒尺寸的计算方法与YOLOv2相同。预测器通过预测 b相对于关联锚盒的非线性缩放因子来间接计算 b的宽和高（用 bw, bh表示），采用 λwσ ( tw)、 λhσ ( th)形式作为横纵方向上的缩放因子，λw、λh表示输入图像和最小锚盒的横纵比值。网格的左上角坐标用网格编号表示，锚盒尺寸用相对于输入图像的归一化尺寸表示，则 b的归一化坐标可通过 bx= ( σ(tx) + cx) /Sc、 by=(σ( ty) + cy)/Sr、 bw=pwλwσ (tw)、bh=phλhσ (th)计算得出。

2.3 目标类型的预测

预测器输出的置信度定义为 P (obj)×IoU(b, obj)，其中P(obj)表示预测框b中包含目标obj的概率，IoU(b, obj)表示b的精度，IoU（intersection over union）指交集面积比上并集面积，反映了预测框和目标真实框的吻合程度。若b中无检测目标，P(obj)=0，否则P(obj)=1，即置信度范围为 0～1，Y2TNet用 σ函数使 σ(to)落入该范围，即P(obj)×IoU(b, obj) = σ (to)。当 P(obj)=1时，Y2TNet用Softmax函数将类别得分 tci转换为条件类别概率P( ci|obj) = Softmax(tci)，然后用式（1）计算 b包含 ci类型目标的置信度 P ( ci)×IoU(b, obj)。

2.4 网络训练目标

通过最小化多目标损失函数实现 Y2TNet参数的优化训练。设= 1 表示在1幅图像上第j个目标真实框gj的中心点落入第i个单元格，且与i的第k个预测器的关联锚盒最佳匹配，即gj与该锚盒的IoU最大，则单元格i的预测器k负责预测真实目标j。网络训练的目标之一是使k输出的预测框逼近gj，该目标用如下的损失函数表示

式中M为当前图像的实际目标数；λs表示比例调整因子，由 gj的归一化尺寸（，表示宽、高）决定，即2 -，该因子会对小目标的预测偏差施加更大的惩罚，使预测框能精确覆盖小目标；、、、表示单元格 i的预测器 k输出的边界框预测值； σ ()、σ()是gj中心点相对于单元格i左上角坐标的归一化偏移， σ ()、 σ)是k的关联锚盒到gj的非线性缩放因子的组成部分。

网络训练的另一目标是使= 1 的预测器的置信度输出趋近于1，该目标对应的损失函数如下

式中表示单元格i的预测器k输出的置信度预测值。

同时，= 1 的预测器输出的条件类别概率的预测值训练目标用如下损失函数表示

式中 P| o bj）是预测器 k输出的概率预测值；P| o bj）表示目标j的实际类别概率，如j的类别为n，则 P| o bj） =1，否则 P| o bj） = 0 。

设= 1表示 i的第 k个预测器没有需要预测的对象，如k输出的置信度表明其预测出了对象，则是有问题的，因此另一训练目标是使k输出的置信度趋近于0。如果k的预测框与某个目标真实框的IoU大于一定阈值（本文取0.6），则设 pik= 0 ，否则 pik= 1。通过 pik= 0 保留k输出的置信度，用以说明其输出的预测框有一定的概率包含对象。该训练目标用如下损失函数表示

对于= 1的预测器k，为避免其输出的预测框与关联锚盒偏差过大，以提高目标召回率，使预测框中心趋近于k对应单元格i的中心，尺寸趋近于k的关联锚盒的尺寸。该目标用如下损失函数描述

Y2TNet的多目标损失函数L由上述5项构成。

式中{ti}表示网络预测值集合；λ2、λ5表示权重系数。L各项所占比重不同，由于= 1 的预测器数量有限，且置信度对于表示目标是否存在至关重要，因此设置λ2=5。因= 1的预测器占大多数，且相对于其他目标， L的5重要性较低，如果λ5较大的话，将使整个训练结果倾向于 L5，因此设置 λ5= 0 .01。

3 Y2TNet基础结构分析与设计

Y2TNet的特征提取器（图1虚线框）直接迁移自其他分类CNN网络的模型参数。通过把已经训练好的分类CNN网络的模型参数迁移到新的识别网络中，并通过微调实现识别任务[15-17]，即迁徙学习，可加快并优化识别网络的学习效率。因此分类CNN网络特征提取能力和分类性能的提升，也能促进识别网络性能的提升[18]。Y2TNet的实时性由其CNN部分的计算速度决定。本文首先用计算速度和特征提取能力等指标筛选、设计分类CNN网络并通过迁移将其作为Y2TNet的基础结构。

3.1 特征提取能力度量

分类CNN网络的分类依据主要是深层卷积提取的图像语义特征[19]。语义特征可分性越高，语义越明确，分类错误率也会越低。top-1、top-5分类错误率常作为评判网络分类性能的指标。由于不同CNN网络使用的分类器不同，且分类器通常不会被迁移到识别网络中，所以分类性能不能完全反映网络的特征提取能力。本文同时采用特征的统计可分性来度量网络的特征提取能力。类对间的可分性由 2个类别的特征在特征空间中的重叠程度决定[20]，而重叠程度和特征分布之间的统计距离相关，距离越大可分性越强。本文用J-M距离（Jeffries-Matusita distance）和巴氏距离（Bhattacharyya distance）表征类间的统计可分性。设类别 i、j样本特征属正态分布，则二者的J-M距离（Jij）如下

式中Bij表示i、j间的巴氏距离，其定义如下

式中μi、μj表示类别i、j的样本特征均值向量；Σi、Σj表示i、j样本特征分布的协方差矩阵； Σ = （ Σi+ Σj）/2。Jij＞ 1 .38表示i、j间的统计可分性强。

J-M距离在巴氏距离较大时会趋于饱和，此时巴氏距离可作为 J-M距离的补充。对于任意类别的图像样本，输入分类CNN网络，将分类器之前的最后一个输出特征图作为样本的特征向量，然后计算不同类别样本特征向量间的 J-M距离和巴氏距离，以分析类别间的统计可分性，进而度量CNN网络的特征提取能力。

3.2 基础结构性能分析与筛选

AlexNet[3]、VGGNet[21]、ResNet[22]、Inception[18,23-25]、Darknet[17]、Xception[26]、IGCNet[27]、DenseNet[28]、MobileNet[4]等是近几年提出的几种典型分类 CNN网络类型，其中Xception、MobileNet可看作IGCNet的特例，DenseNet是 ResNet的进一步发展。因此，本文选择AlexNet、VGG-16[21]、Inception v2[24]、Darknet-19、IGCNet、DenseNet共6种网络在番茄器官图像数据集上进行训练与测试，分析满足Y2TNet需求的基础结构网络特点。基于微软深度学习计算框架CNTK2.4[29]，用Python实现这6种网络。

样本多样性对提高CNN特征提取能力和避免网络过拟合至关重要[3]。由于番茄器官图像数据集只有 3种类型，为提高网络特征提取能力，需要对样本进行扩增，方法为用其他图像数据集并上番茄器官图像数据集构成图像合集，用合集对分类网络进行训练。Caltech256的类型和样本数量适中[30]，选用该数据集和番茄器官图像数据集构成具有 259个类型的图像合集。为验证样本扩增训练法的有效性，也便于与 Zeiler等[31]的卷积核可视化结果进行对比，分别用番茄器官图像数据集和图像合集对AlexNet进行训练和测试，网络输入为224×224 pixel的RGB图像，训练中采用的数据增广和预处理方法同文献[14]。在一台配有1路Intel Xeon E5-2640 CPU、1块Tesla K40c GPU和16GB内存的服务器上开展训练和测试试验，共进行5次交叉留存验证（下同），AlexNet的2种训练与测试结果如表1。

表1 样本多样性对AlexNet的影响Table 1 Effect of sample diversity on AlexNet

由表1可知，用图像合集训练的AlexNet比只用番茄器官图像数据集训练的结果在巴氏距离上有极显著提高（P<0.01），top-1错误率也有所下降，说明经样本扩增训练的AlexNet所提取的特征具有更高的统计可分性。对2种训练结果的AlexNet网络的第1层96个卷积核进行可视化，结果如图2。

图2 卷积核可视化Fig.2 Visualization of convolution kernels

经过训练的CNN网络会学习出具有方向选择性和频率选择性的卷积核[3,31]。图 2a表明，经番茄器官图像数据集训练的AlexNet的第1层卷积核，除少量外，大部分卷积核没有表现出选择性，说明网络没有得到充分的训练，未能学习出有效的过滤器（filter）来提取多样性的低层图像特征。图2b是经图像合集训练的卷积核，与Zeiler等[31]的研究结果相近，AlexNet有更多的卷积核表现出了选择性特征，这些选择性核可能与图像的边缘或方向特征的提取有关。表1和图2都表明增加样本的多样性可显著提高网络的特征提取能力，能够更好地提取番茄主要器官的特征。

用图像合集分别对AlexNet、VGG-16等6种网络进行训练，方法和环境同前，记录各网络CNTK模型文件大小。各网络在番茄器官图像测试集上的特征可分性、计算速度等结果如表2所示。

由表2可知，6种网络的输出特征的J-M距离都已饱和，说明各网络提取的器官特征均具有高可分性。从巴氏距离可以看出，IGCNet特征提取能力最强，VGG-16最低，其余 4种网络的特征提取能力也有显著差异。除VGG-16的top-1错误率稍高外，其他5种网络的错误率都相对较低。智能农业装备的计算和存储资源有限，AlexNet和VGGNet由于权重参数多，模型大，很难用在存储资源有限的设备上，也难以实现远程升级更新[32]。IGCNet的特征提取能力强，但计算速度慢，实时性低。DenseNet速度为38 帧/s左右，在目标识别任务中，输入图像通常大于224×224 pixel，计算量更大，因此其不适合作为Y2TNet实时识别的基础结构。综合以上分析，本文选择Inception v2、Darknet-19作为Y2TNet的备选基础结构。

3.3 面向通道分组卷积网络设计

由表2可知，IGCNet模型大小是Darknet-19的6.37%，但在番茄器官特征提取能力上显著高于后者，说明其网络参数更有效。相较于全连接卷积结构的 Darknet-19，IGCNet由交错组卷积（interleaved group convolution,IGC）块构成，通过面向通道的IGC块降低了网络参数数量。Inception v2也采用了面向通道的设计思想。Darknet-19比VGG-16更深、更宽，但通过使用1×1卷积核使网络在增加深度的同时降低了参数数量，模型大小远小于VGG-16，特征提取能力和分类性能也显著高于后者。受这些思想的启发，本文设计了1种面向通道分组卷积模块（channel wise group convolutional, CWGC），如图3所示。

表2 各网络在番茄器官图像数据集上的性能比较Table 2 Performance comparison of each network on image dataset of tomato organs

图3 卷积模块Fig.3 Convolutional block

图3 a所示的CWGC模块包括4组等宽卷积组，每组由3层标准卷积层构成，第一层采用1×1卷积核，以压缩参数数量并增加网络表达能力[32]，用 2层等宽的 3×1和1×3卷积核表达3×3卷积核，用来增加网络的深度和语义特征提取能力[18,25]。多个独立卷积组输出特征图合并（Concat）后，经ReLU激活，并由Batch Normalization(BN)[24]归一化后作为CWGC块的输出，其中BN用于加快网络的训练速度。与全连接卷积相比，在宽度和深度相同的前提下，CWGC模块可有效降低参数数量。基于CWGC模块设计了一个CWGCNet分类网络（图4），除CWGC模块外，网络的前两层卷积采用Conv-ReLU- BN结构[27]，用图像合集对其进行训练，在番茄器官图像数据测试集上的测试结果如表3。

图4 基于CWGC模块的分类网络(CWGCNet)Fig.4 CWGC-based classification network (CWGCNet)

表3 CWGCNet网络在番茄器官图像数据集上的性能Table 3 CWGCNet performance on image dataset of tomato organs

对比表2、表3，CWGCNet在输出特征的统计可分性上介于Inception v2和Darknet-19之间，模型大小只有后两者的39.7%和20.7%，且速度是后两者的1.9和1.8倍，说明CWGCNet在番茄器官图像数据集上有良好的图像特征提取能力和计算速度，该网络在可分性、模型大小、计算速度等方面有较好的平衡，和 Inception v2、Darknet-19共同作为Y2TNet的备选基础结构。

4 Y2TNet的训练与测试

4.1 识别网络总体结构

分别将完成训练的 Inception v2、Darknet-19和CWGCNet的分类器部分去除，将卷积部分的模型参数迁移到Y2TNet作为基础结构，并通过微调实现目标识别。Redmon等[17]研究表明，在迁移其他分类CNN模型参数基础上添加新的卷积层（附加层），可提高网络性能。本文采用 2种添加方案，一种和 YOLOv2相同，用 3个conv3×3-1024/1卷积层作为附加层，另一种方案是增加一个dropout-CWGC块（图3b所示），块的配置为CWGC-128-256-256×4，dropout丢弃率设置为50%，以避免网络过拟合。设置Y2TNet的网络超参数Sr=Sc=13，B=5。网络主要识别番茄植株图像中的花、果、茎目标，即C=3，此时 Y2TNet的输出特征图维数为 40×13×13。这要求Y2TNet的CNN部分的最后一个卷积层通道数应为40，因此额外增加一个 conv1×1-40/1结构的卷积层作为输出层。由此Y2TNet的CNN部分由基础结构、附加层、输出层3部分构成。根据Y2TNet的总体结构，当输出特征图尺寸为13×13时，其输入图像大小为416×416 pixel。

4.2 识别网络的训练

Y2TNet在基础结构（迁移模型参数）基础上添加了额外的卷积层，需要用番茄植株图像数据集通过最小化多目标损失函数L来进一步进行微调。基于CNTK2.4，用Python实现YOLOv2和5种结构的Y2TNet（表4所示）。采用手工方式对番茄植株图像数据集进行标注，用矩形圈选出器官的边界（真实框）并标注相应类型及形态。随机选择 90%的植株图像作为训练集，并用带动量因子的批量梯度下降法[18]训练各结构识别网络。每批量样本数为32，动量因子为0.9，初始学习率为0.01，每过20代迭代训练，将学习率降低10倍，直到学习率降低到10-6，经过120代迭代训练，各结构网络损失均收敛到稳定值。

表4 不同结构的Y2TNet识别网络Table 4 Y2TNet network with different structures

4.3 识别网络的测试与分析

用其余 10%的番茄植株图像测试各结构网络，运行环境同前。网络的多个预测器可能会预测同一个目标，用非极大值抑制算法[33]合并预测结果。用召回率和AP(average precision)、mAP(mean of AP)[34]作为网络性能评价指标。对于一幅植株图像，如果网络输出的目标预测框和目标真实框的IoU大于一定阈值（本文取0.5）且类型相同，即认为目标被召回，被召回的目标数与实际目标数的比值为召回率。结果如表5。

表5 不同结构的Y2TNet和YOLOv2网络识别性能比较Table 5 Recognition performance comparison between Y2TNet networks with different structures and YOLOv2

由表5可知，5种结构的Y2TNet都具有实时或准实时的处理速度，且具有较高的识别精度。Y2TNet-A和Y2TNet-B的基础结构相同，区别在附加层，前者的3×{conv3×3-1024/1}附加层参数量达 2.7×107个，网络过拟合的风险较高，Y2TNet-B的dropout-CWGC参数量为1.625×106，且用dropout来避免过拟合，因此Y2TNet-B的模型大小比 Y2TNet-A小 101.5MB，识别速度显著提高，精度也高于后者，Y2TNet-B在花、果、茎的召回率上也都显著高于Y2TNet-A，即Y2TNet-B具有更高的泛化效果。相似结果也表现在Y2TNet-C和Y2TNet-D上，说明相较于 YOLOv2的附加层方案，用 dropout-CWGC做附加层的改进是有效的。

表5的6种结构中，Y2TNet-A和YOLOv2的CNN部分完全相同，区别在锚盒非线性缩放因子形式和多目标损失函数上，为说明Y2TNet的缩放因子和损失函数对训练过程的影响，对这 2种网络的训练误差降落过程进行了比较（图 5），结果表明，在学习率相同的情况下，Y2TNet-A在训练初始阶段的误差降落速度快于YOLOv2，说明Y2TNet-A更容易收敛。同时由表5可知，这 2种网络的模型大小、召回率、识别精度和速度无显著差异，表明Y2TNet的缩放因子和多目标损失函数是可行的。

图5 YOLOv2和Y2TNet-A训练误差比较Fig.5 Comparison of training errors between YOLOv2 and Y2TNet-A

由表 5可知，在番茄器官识别任务上，6种网络中Y2TNet-D模型文件最小，识别精度最高，对花、果、茎的识别精度分别达到96.52%、97.85%和82.62%，识别速度最快，达62 帧/s，对花、果、茎的召回率分别为77.39%、69.33%和64.23%，召回率与Y2TNet-E相比无显著差异。Y2TNet-D在实时性、精度、模型大小上均有好的体现，与YOLOv2相比，Y2TNet-D的mAP提高了2.51个百分点，召回率提高了14.03个百分点，因此本文选择该结构模型作为Y2TNet的最终结构，用其分别在番茄植株测试图像和采样频率为60 帧/s的视频帧上进行测试，效果如图6。

由图6可知，Y2TNet-D可有效识别番茄植株图像中的花、果、茎器官，其输出的预测框（图 6中包围器官的矩形框）能较好的覆盖所识别的目标对象，且预测框内为对象的概率均在0.54以上。也可以看出，Y2TNet-D不但能够识别近景目标，对远景目标和部分被遮挡的器官也具有一定的识别效果。对于采样频率为60 帧/s的视频帧，Y2TNet-D也能够实时处理。用与表5相同的番茄植株测试图像分析 Y2TNet-D对不同形态器官的识别效果，结果如表6。

图6 Y2TNet-D的识别结果示例Fig.6 Y2TNet-D recognition results example

表6 Y2TNet-D对不同形态番茄器官的识别效果Table 6 Recognition effect of Y2TNet-D on different forms of tomato organs

由表6可知，Y2TNet-D可同时识别不同形态的番茄器官，且均具有较高的识别精度。番茄器官的形态、成熟度对识别精度有一定影响，其中开花期的花、完熟期的果和下部茎秆识别效果最好。网络可召回不同形态的番茄器官，其中对开花期的花检测效果最好，对完熟期的果也具有较高的召回率。

5 结论

本文提出一种基于面向通道分组卷积网络的番茄主要器官实时目标识别网络模型，以统计可分性、计算速度等为判据，结合样本扩增训练，筛选并设计识别网络基础结构，经番茄植株图像和实时视频帧识别试验，结果表明：

1）在番茄器官图像数据集上，用Caltech256对基础结构网络进行样本扩增训练，可显著提高网络的特征提取能力。

2）面向通道的分组卷积模块能够显著提高识别网络的召回率、识别速度和精度，并能大幅降低模型大小；Sigmoid形式的非线性缩放因子和相应多目标损失函数使识别网络更容易收敛。

3）所设计的番茄器官识别网络能识别不同成熟度和不同形态的番茄器官，对花、果、茎的识别精度分别达到96.52%、97.85%和82.62%，召回率分别达到77.39%、69.33%和64.23%，在Tesla K40c GPU上的计算速度达62 帧/s，具有实时识别能力。

4）与 YOLOv2相比，该文识别网络召回率提高了14.03个百分点，识别精度提高了2.51个百分点。

[1] 尹建军，毛罕平，王新忠，等. 自然条件下番茄成熟度机器人判别模型[J]. 农业机械学报，2009，40(10)：146－150.Yin Jianjun, Mao Hanping, Wang Xinzhong, et al. Judgement method on maturity of harvesting-tomato for robot under natural conditions[J]. Transactions of the Chinese Society for Agricultural Machinery, 2009, 40(10): 146－150. (in Chinese with English abstract)

[2] Wang Xinzhong, Han Xu, Mao Hanping. Vision-based detection of tomato main stem in greenhouse with red rope[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(21): 135－141. (in English with Chinese abstract)王新忠，韩旭，毛罕平. 基于吊蔓绳的温室番茄主茎秆视觉识别[J]. 农业工程学报，2012，28(21)：135－141.

[3] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J].Communications of the ACM, 2012, 60(6): 84－90.

[4] Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[EB/OL]. [2018-01-28] https: //arxiv.org/pdf/1704.04861.pdf.

[5] 赵杰文，刘木华，杨国彬. 基于HIS颜色特征的田间成熟番茄识别技术[J]. 农业机械学报，2004，35(5)：122－124.Zhao Jiewen, Liu Muhua, Yang Guobin. Discrimination of mature tomato based on HIS color space in natural outdoor scenes[J]. Transactions of the Chinese Society for Agricultural Machinery, 2004, 35(5): 122－124. (in Chinese with English abstract)

[6] 李寒，王库，曹倩，等. 基于机器视觉的番茄多目标提取与匹配[J]. 农业工程学报，2012，28(5)：168－172.Li Han, Wang Ku, Cao Qian, et al. Tomato targets extraction and matching based on computer vision[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2012, 28(5): 168－172. (in Chinese with English abstract)

[7] 梁喜凤，章艳. 串番茄采摘点的识别方法[J]. 中国农机化学报，2016，37(11)：131－134，149.Liang Xifeng, Zhang Yan. Recognition method of picking point for tomato cluster[J]. Journal of Chinese Agricultural Mechanization, 2016, 37(11): 131－134, 149. (in Chinese with English abstract)

[8] 熊俊涛，林睿，刘振，等. 夜间自然环境下荔枝采摘机器人识别技术[J]. 农业机械学报，2017，48(11)：28－34.Xiong Juntao, Lin Rui, Liu Zhen, et al. Visual technology of picking robot to detect litchi at nighttime under natural environment [J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(11): 28－34. (in Chinese with English abstract)

[9] Zhao Y, Gong L, Zhou B, et al. Detecting tomatoes in greenhouse scenes by combining AdaBoost classifier and colour analysis[J]. Biosystems Engineering, 2016, 148(8):127－137.

[10] Zhu Y, Cao Z, Lu H, et al. In-field automatic observation of wheat heading stage using computer vision[J]. Biosystems Engineering, 2016, 143: 28－41.

[11] 陈天华，王福龙. 实时鲁棒的特征点匹配算法[J]. 中国图象图形学报，2016，21(9)：1213－1220.Chen Tianhua, Wang Fulong. Real-time robust feature-point matching algorithm[J]. Journal of Image and Graphics, 2016,21(9): 1213－1220. (in Chinese with English abstract)

[12] 孙俊，谭文军，毛罕平，等. 基于改进卷积神经网络的多种植物叶片病害识别[J]. 农业工程学报，2017，33(19)：209－215.Sun Jun, Tan Wenjun, Mao Hanping, et al. Recognition of multiple plant leaf diseases based on improved convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017,33(19): 209－215. (in Chinese with English abstract)

[13] 傅隆生，冯亚利，Elkamil Tola，等. 基于卷积神经网络的田间多簇猕猴桃图像识别方法[J]. 农业工程学报，2018，34(2)：205－211.Fu Longsheng, Feng Yali, Elkamil Tola, et al. Image recognition method of multi-cluster kiwifruit in field based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(2): 205－211. (in Chinese with English abstract)

[14] 周云成，许童羽，郑伟，等. 基于深度卷积神经网络的番茄主要器官分类识别方法[J]. 农业工程学报，2017，33(15)：219－226.Zhou Yuncheng, Xu Tongyu, Zheng Wei, et al. Classification and recognition approaches of tomato main organs based on DCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017,33(15): 219－226. (in Chinese with English abstract)

[15] Redmon J, Divvala S, Girshick R, et al. You only look once:Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016: 779－788.

[16] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137－1149.

[17] Redmon J, Farhadi A. YOLO9000: Better, faster,stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 6517－6525.

[18] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016: 2818－2826.

[19] Lin T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017:936－944.

[20] 王长耀，刘正军，颜春燕. 成像光谱数据特征选择及小麦品种识别实验研究[J]. 遥感学报，2006，10(2)：249－255.Wang Changyao, Liu Zhengjun, Yan Chunyan. An experimental study on imaging spectrometer data feature selection and wheat type identification[J]. Journal of Remote Sensing, 2006, 10(2): 249－255. (in Chinese with English abstract)

[21] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].[2018-01-28] https: //arxiv.org/abs/1409.1556.

[22] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 770－778.

[23] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]// Computer Vision and Pattern Recognition.IEEE, 2015: 1－9.

[24] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]// In Proceedings of the 32nd International Conference on Machine Learning, 2015: 448－456.

[25] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4,Inception-ResNet and the impact of residual connections on learning[C]// Proceedings of Thirty-First AAAI Conference on Artificial Intelligence(AAAI-17), 2017.

[26] Chollet F. Xception: Deep learning with depthwise separable convolutions[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1800－1807.

[27] Zhang T, Qi G J, Xiao B, et al. Interleaved group convolutions for deep neural networks[EB/OL]. [2018-01-28]https: //arxiv.org/abs/1707.02725.

[28] Huang G, Liu Z, Weinberger K Q, et al. Densely connected convolutional networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017:2261－2269.

[29] Agarwal A, Akchurin E, Basoglu C, et al. An introduction to computational networks and the computational network toolkit[EB/OL]. [2018-01-28] https: //www.microsoft.com/en-us/research/wp-content/uploads/2014/08/CNTKBook-201 6027.pdf.

[30] Griffin G, Holub A D, Perona P. The Caltech 256[EB/OL].[2018-01-28] http: //www.vision.caltech.edu/Image_Datasets/Caltech256/

[31] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]// European Conference on Computer Vision. Springer, Cham, 2014: 818－833.

[32] Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and<0.5MB model size[EB/OL]. [2018-01-28] https: //arxiv.org/abs/1602. 07360.

[33] Neubeck A, Gool L V. Efficient non-maximum suppression[C]// International Conference on Pattern Recognition. IEEE Computer Society, 2006: 850－855.

[34] Everingham M, Gool L V, Williams C K I, et al. The pascal,visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303－338.