烟草病虫药害智能识别基准数据集构建及三维注意力模型设计

2021-11-22 09:15马俊红刘冬梅李永亮户艳霞卢灿华盖晓彤姜宁莫笑晗麻莉娜王挥华王宇航夏振远

中国烟草学报 2021年5期

关键词：药害病虫特征提取

马俊红，刘冬梅，李永亮，户艳霞，卢灿华，盖晓彤，姜宁，莫笑晗，麻莉娜，王挥华，王宇航，夏振远*

1 云南省烟草农业科学研究院，昆明市圆通街33号 650021；

2 云南省烟草公司曲靖市公司，曲靖市官坡巷51号 655000；

3 云南省烟草公司保山市公司，保山市正阳北路186号 678000；

4 云南省烟草公司大理州公司，大理市鹤庆路71号 671000；

5 北京航空航天大学，北京市海淀区学院路37号 100191

我国烟草侵染性病害有68 种，害虫有200 多种，其中危害较重且常发的主要有TMV 等病毒病、黑胫病、青枯病、赤星病、根结线虫病以及烟蚜、烟青虫等[1]。在烟草农业生产中，不仅病害、虫害等情况十分常见，农药混用不当、超范围使用、农药误用等也会造成药害情况的发生，给烟农带来巨大经济损失。病虫药害诊断是及时防治、减少损失的关键。传统烟草病虫药害诊断方法主要依靠人工判断，而烟农对专业诊断知识的掌握有限，经常导致防治措施不及时、不准确，直到灾害蔓延面积较大时才引起相关技术人员的关注。因此，开展病虫药害图像智能识别研究，实现精准的烟草病虫药害实时诊断，将大大提高烟农的诊断效率，减少损失，有助于提高烟叶产量和品质。

近年来，植物病虫药害智能识别问题已经逐渐引起专家学者的关注，许多针对植物病虫药害特征提取和分类的方法被先后提出。部分病虫药害的研究中通过手动[2-3]或半自动[4]的方式进行图像特征提取，但这种方式往往需要考虑环境因素对特征的影响[5]。深度学习技术的发展使特征自动提取成为可能[6-7]，但当前公开数据集中的图像通常在实验可控环境下采集得到，与实际使用环境存在差异，相关研究表明，使用公开数据集训练得到的模型在实际场景中应用时，识别精度出现大幅下降[8]。针对单一卷积神经网络在农作物病害识别上分类准确率不高的问题，龚安等[9]提出了多个卷积神经网络模型融合的方法，运用迁移学习固定底层模型参数并修改全连接层进行多模型训练，采用堆叠（Stacking）方法融合多个预测向量，得到较好识别结果。为提高害虫图像识别的准确率，张苗辉等[10]提出了一种基于深度学习和稀疏表示的方法进行害虫的检测分类识别。为了解决深度学习模型训练参数量过大的问题，Kouhalvandi L 等[11]将S 度量选择高效全局优化算法（SMS-EGO）和直接法（DIRECT）应用于深度学习模型的训练过程，有效提高病虫害识别模型训练效率，缩短模型迭代时间。针对烟草病虫害的自动识别，刘迦南[12]提出一种利用模拟退火算法对棉铃虫和烟青虫图像原始特征空间进行优化降维，利用支持向量机SVM 作为分类工具对成虫进行分类，该方法仅针对害虫中的两类四种成虫进行分类，虽然准确率较高，但识别种类有限，在实际的应用场景具有一定的局限性。曾嫱[13]提出了一种基于区域的活动轮廓模型方法，采用sqf 函数进行演化用于提取烟叶页面轮廓，采用高斯平滑Robert 交叉梯度锐化的方法增强病斑图像边界信息和纹理信息，利用Lab 颜色空间的形态学分割方法对病斑进行分割，通过对分割后的病斑图像进行特征参量提取，根据特征参数值来对病害种类进行识别，该方法能够较好地对烟叶病斑进行分割，但其模型不具有学习能力，泛化能力差，在实际应用过程中稳定性差。

因此，实现多种类的田间采集烟草病虫药害图像精准识别仍是一个具有挑战性的问题，不仅体现在部分类别的图像特征高度相似、田间拍摄图像内容复杂，常见烟草病害的发生部位、生长阶段等也具有多样性，使得单一种类的数据集规模难以满足分类网络训练需求。为解决上述问题，本文通过基于烟草病虫药害图像特征的深入分析构建了满足深度学习研究需求的细粒度图像数据集，并基于深度迁移学习技术和视觉注意力技术设计并实现了多重加权注意力模型，在烟草病虫药害图像识别中体现了良好的识别精度和泛化性能。

1 材料与方法

1.1 实验数据集构建

为了实现在复杂自然场景下对病虫药害进行识别，用相机和手机在烟草田间自然光照环境下拍摄获取烟草病害、虫害、药害的田间照片。为保证机器学习效果，照片种类覆盖云南烟草主要的病虫药害种类，体现不同时期的症状特征。依据烟草的苗期、团棵期、旺长期和成熟期四个生长阶段，分别对发病的初期、中期和后期的烟叶及不同发育时期害虫进行图像采集。利用网络爬虫技术在网络上下载烟叶病虫药害数据进行数据补充。除图片数据外，还获取了部分田间拍摄的视频数据。

1.1.1 数据预处理

在实际数据采集过程中，通常需要对数据进行一定的预处理操作来提高数据的可用性。采用统计平均帧间差分强度，提取局部最大值的帧作为视频的关键帧。对于拍摄过程中造成图片曝光过度造成失真数据，首先加载彩色图像进行归一化后转换为浮点型，然后利用gamma 函数对颜色空间进行非线性变换，将过曝图片颜色空间从BGR 转换为HLS 后，调整亮度值和饱和值实现对过曝图片进行处理。在数据增强上，通过随机裁剪的方式固定图片尺寸，再利用插值算法调整到需要的尺寸大小，通过对图像像素的空间位置做变换，对图像进行镜像处理实现水平、垂直、水平垂直镜像翻转操作，还通过以图像画面中心为基准点将图像进行任意角度的旋转变换，再对旋转操作后的图像取最大内接矩阵，消除旋转图像后造成的黑边，实现数据增强。

1.1.2 数据类别划分

针对特征相似度较高的病虫药害进行细粒度划分，根据迁移学习的理论思路，把预训练好的网络模型迁移到细粒度分类识别任务中。将预训练模型的网络权值作为初始权值，通过对细粒度划分的数据进行特征学习实现对网络权值的微调，最终得到细粒度分类网络模型。本文以烟草数据集可分为病害、害虫、药害、健康烟株类细粒度划分数据集。

1.2 模型结构设计

由于烟草病虫药害图像特征分布复杂，且难以通过数据标注为模型训练提供强监督先验信息，本文基于深度迁移学习技术与视觉注意力技术对模型结构进行设计，提出了三维加权注意力模型（Threedimensional Weighted Attention Model，TWAM），模型整体结构如图1 所示。

图1 TWAM 结构图Fig. 1 The architecture of TAWM

模型主要通过主干网络和三维注意力模块（Three-dimensional Attention Module， TAM）两部分完成输入图像的细粒度特征提取，其中主干网络产生输入图像的初始特征图，实现浅层特征提取，三维加权注意力模块输出初始特征图的三维注意力权重，实现三维注意力约束学习，在此基础上采用残差学习技术，将应用于产生描述高层特征的三维加权特征图，计算公式为：

最后通过全局平均池化层对特征图进行压缩，得到一维特征向量，最后添加全连接层完成特征向量与图像类别向量之间的映射，输出分类识别结果。

1.2.1 初始特征图获取

在ImageNet 等大型数据集上训练好的深度卷积模型具有较好的特征提取能力，为了快速获取田间拍摄的烟草病虫药害图像特征，本文运用深度迁移学习技术，将在ImageNet 数据集训练好的InceptionV3模型[14]作为主干网络，进行浅层特征提取，得到输入图像的初始特征图，作为后续高层特征计算的起点。在解决烟草病虫药害图像分类识别问题时，InceptionV3 模型明显优于其他经典卷积神经网络模型，本文在后续章节将给出相关实验数据。

为了使初始特征图具有更强的图像浅层特征描述能力，我们对初始特征图在主干网络中的提取位置进行了比较。根据InceptionV3 模型对原图进行卷积得到三种尺寸像素特征图，把这三种像素尺寸特征图分别作为了初始特征图，像素尺寸为35×35、17×17和8×8 等三种模型对比实验，模型训练与测试情况如表 1 所示。

表1 不同初始特征图像素尺寸模型测试Tab. 1 Test accuracy of models with different initial feature image pixel sizes

图2 初始特征图提取算法流程图Fig. 2 Flow chart of initial feature image extraction algorithm

1.2.2 三维注意力模块

由于主干网络产生的初始特征图对输入图像的浅层特征具有良好表现能力，但对细粒度特征描述不足，本文设计了三维注意力模块计算三维注意力权重，通过对浅层特征添加三维注意力约束产生描述丰富语义信息的高层特征，即三维加权特征图。该模块基于视觉注意力技术设计，在烟草病虫药害图像难以通过数据标注提供强监督先验信息的情况下，实现弱监督细粒度特征提取，其结构如图3 所示。

图3 三维注意力模块结构图Fig. 3 Structure chart of three-dimensional attention module

三维注意力模块包含通道注意力分支和空间注意力分支，分别进行通道维和空间维的注意力权重学习，最终组合两个分支的输出结果产生三维注意力权重。其中通道维注意力权重采用通道域注意力机制，通过经典的SE（Squeeze-and-excitation）模块[15]结构实现，空间维注意力权重通过编码-解码结构进行空间维掩码计算，实现空间域注意力机制。

通道注意力分支采用SE 模块[15]结构，将输入特征图的每个通道视为一个特征，由于每个特征对分类结果的贡献不同，因此学习通道维注意力权重来表述各个特征在产生识别结果过程中的重要性，通过为每个特征赋予不同的权重，实现对重要特征给予更多注意力。首先通过全局平均池化层对通道内部信息进行压缩，产生各通道的特征编码，然后通过两个连续的全连接层对编码向量进行非线性计算，生成不同特征之间的重要性分布权重，即通道维注意力权重。

空间维注意力分支采用卷积编码——解码结构，完成通道内部不同空间位置的注意力权重学习，通过为不同空间位置的特征元素添加注意力约束表达不同位置的重要性。在编码阶段，首先通过一个残差单元对输入特征图进行卷积编码，然后通过最大平均池化计算对特征图进行降采样，压缩空间维特征元素，产生空间维全局信息关注编码，然后通过对称的升采样和卷积计算结构，将编码元素映射至原输入空间，产生重构的注意力掩码，作为输入特征图各位置元素点的注意力权重。为了使得到的权重矩阵精准表达空间维注意力，规避通道维影响，将空间维权重矩阵激活函数设置为：

其中，i代表输入特征图通道编号，c指通道内部的空间位置编号，使用标准化处理权重矩阵通道维的方法，消除其通道维的注意力语义，最后使用Sigmoid 函数将处理后的权重系数归一化至[0, 1]空间，产生空间维权重WS。

最后，结合两个分支产生的权重矩阵产生三维注意力权重，其计算方法如公式（3）所示。

2 实验结果与分析

2.1 实验数据

按1.1 所述方法获取烟草病害虫药害及健康烟叶的图像，筛除模糊、特征不明显、光照不均衡、存在色差的图片数据，然后再进行图片分类，共收集照片130568 张，通过烟草病害和药害症状、害虫形态方法对数据进行清洗与分类。在烟草病虫药害数据分类中，完成数据清洗和人工分类的照片有52891 张，病害有效数据集为34258 张，包括真菌病害、细菌病害、病毒病、线虫病害以及非侵染性病害；害虫有效数据为11245 张，包括常见害虫及有益昆虫；药害有效数据为5211 张；健康烟株有效数据为2177 张，包括健康整株、茎、秆、叶。具体分类的数量及种类如表2所示。

表2 烟草病虫药害数据集分类Tab. 2 Classification of dataset of tobacco diseases, pests, and phytotoxicity

此外，原始数据集中不同类别的数据量差异很大，采用裁剪、随机旋转、随机翻转、高斯噪声等数据增强方法对训练集进行扩展。实验中每小类训练数据量为250 张，通过控制实际使用的增强数据量来保持数据平衡，将数据量不足的小类补充至250 张。在实验中，训练集、验证集与测试集的比例分别为81%、9%和10%，数据集由随机划分而得。其中，测试集是从原始数据集随机划分的由52 个类别数据联合组成的合并集，不包括增强的派生数据，每类数据量相等，皆为25 张。

2.2 实验设备与相关环境

本文需要搭建实验环境，注意软件版本号的对应，实验环境才能搭建成功[16]。本次实验机型为Lenovo-ThinkStation-P920，操作系统采用Ubuntu 系统[17]，使用TensorFlow1.13 框架[18]、CUDA[19]11.0 进行训练。本文使用的软硬件设备详细配置信息见表3、表4 和表5。

表3 实验使用显卡信息表Tab. 3 Information of graphics card used in the experiment

表4 实验主机硬件配置表Tab. 4 The host hardware configuration of the experiment

表5 操作系统平台与应用软件配置表Tab. 5 Operating system and application software configuration

2.3 实验结果对比

为了对比验证特征提取网络效果的好坏，本实验都采用预训练模型后的迁移学习。首先训练InceptionV3 网络测试，每批次训练70 张图片。由图4（a）可知，InceptionV3 准确率Top-1 为89%，比ResNet50 和VGG16 网络准确率高，InceptionV3 具有最优的识别效果。

图4 经典CNN 模型准确率和损失Fig. 4 Accuracy and loss of classic CNN model

为了充分利用InceptionV3 网络结构的优势，经过试验对比8×8 和17×17 后，最终我们将17×17网格阶段最终输出的特征图作为多重注意力模块的初始特征图。在数据集规模小的情况下，初始特征图借助了预训练模型较强的特征提取能力，在提升训练速度的同时也在最大程度上保证了特征的有效性，为细粒度特征的分析提供了良好基础。

在烟草病害数据集上实验，初步评价了各种经典卷积神经网络的学习能力，并选择了合适的模型作为初始特征图提供网络。为了证明TAM 的重要性，实验设计了单个注意单元的验证实验，并在烟草病害数据集上与现有的注意网络进行了比较，说明该方法的优越性。在实验中，实验使用早期停止规则来保存优化模型，即在验证集的精度在几个阶段后没有提高时停止训练。如图4 和表6 中的数据表明，在烟草病害数据集上训练的三个迁移学习模型中，InceptionV3比其他模型具有更高的测试精度。因此，基于迁移学习的InceptionV3 模型对于提高烟草病害识别模型的准确性和鲁棒性具有重要作用。

表6 基础CNN 测试准确率Tab. 6 Test accuracy of baseline CNN models

下面将TAM 与不同的注意力模块进行比较，分别为通道域注意力模块SEM（Squeese-and-Excitation Module）[15]和混合注意力模块RAM（Residual Attention Module）[16]，以证明其结构的有效性。实验数据（表7）表明，与迁移学习模型相比，加入SEM后模型准确率提高了1.4%，加入TAM 后，模型准确率提高了1.91%，而在主干网络基础上叠加包含多个卷积单元的RAM 后出现了明显过拟合现象。因此，TAM 不仅可以提高模型的细粒度特征提取能力，而且可以有效地防止过度拟合。

表7 不同注意模块模型的准确性Tab. 7 The accuracy of different attention models

最后实验将三维加权注意力模型（TWAM）与SE-InceptionV3 模型和剩余注意模型（RAM）进行了比较，以验证其整体结构的有效性。由于数据特征分布复杂，类间差异较小，数据集存在特征维度高、数据量不足的问题。因此，从头训练的SENet 在不到30 个迭代就得到了最优模型，但在测试集上的识别精度大幅下降，出现了明显过拟合现象。相比之下，混合注意力模型RAM 的稳定性更好，但得到的最优模型识别能力有限。如表8 和图5 所示，在烟草病虫药害图像识别研究中，TWAM 在识别精度和稳定性等方面都表现出了显著优越性。

图5 TWAM 准确率Fig. 5 The accuracy of TWAM

表8 TWAM 与基线模型比较Tab. 8 The comparison between the proposed TWAM method and the baseline model

在同等实验环境下，对数据集按每批次训练64张图片，总共1800 步进行训练，并将训练结果通过TensorBoard 进行数据可视化展示。如图6（a）所示，TWAM 准确率在训练至1700 轮时验证集准确率收敛至95.31%。与其他模型相比，TWAM 能够快速收敛得到最优模型，表现出良好分类精度与泛化性能，见图6（b）。除此之外，如表9 所示，TWAN 的精准度（Precision）和召回率（Recall）[20]都较高，说明TWAN 在具有较高准确率的同时具有较低的误判率和遗漏率。

表9 TWAM 效果评价Tab. 9 Effectiveness evaluation of TWAM

图6 TWAM 准确率和损失Fig. 6 The accuracy and loss of TWAM

3 结论

本文针对烟草病虫药害图像进行研究，从数据采集和模型构建上提出如下解决方案。

1）基于烟草病虫药害图像数据特征的统计与分析，对数据类别进行合理划分，规范数据集构建流程，采用多种图像处理技术解决数据质量不高、数量不足等问题，构建可供机器学习研究使用的烟草病虫药害图像数据集。

2）针对烟草病虫药害图像特征分布复杂、数据难以标注等问题，提出了基于深度迁移学习技术和视觉注意力机制的三维加权注意力模型。使用深度迁移学习技术解决特征维度过高问题，进行浅层特征提取，同时设计三维注意力模块，学习通道维和空间维注意力约束，生成描述高层语义特征的三维加权特征图，在弱监督情况下实现细粒度特征提取。

在本文构建的烟草病虫药害图像数据集上，提出的三维加权注意力模型表现出了良好性能，不仅识别精度优于其他现有方法，鲁棒性也较好。考虑到所用数据均为手机拍摄，原始图像素均较高，当前方法为控制模型计算量在进行特征提取前进行了压缩处理，可能造成部分信息丢失，未来可在高像素图像特征提取等方面进行深入研究，优化特征提取方法，进一步提高模型性能。

本文所提出的基于烟草病虫药害图像数据集的三维加权注意力模型具有较强的实用性，可用于烟草病虫药害图像智能识别系统，为烟农或不了解烟草病虫害信息的相关人员提供精准、实时的病虫药害图像智能识别，以便及时采取有效防治措施，减轻经济损失。