基于注意力机制的林木物候期识别方法

2021-07-30 02:15崔晓晖陈志泊王新阳

中南林业科技大学学报 2021年7期

崔晓晖，陈民，陈志泊，许福，王新阳

（北京林业大学 a.信息学院；b.林业智能信息处理工程技术研究中心，北京 100083）

林木的物候变化反应了其生长、发育规律，同时也是气候变化的重要指示器[1]。精准的进行林木物候期识别对林木病虫害防治、林区管理、林木培育及研究气候变化对森林生态系统结构和功能的影响均具有重要意义[2-3]。

传统的林木物候期识别主要是人工实地对观察点的林木物候进行记录[4]。该方法较为准确，但占用大量人力物力，相对低效，较难适用于长期物候监测。随着数码照相技术的发展及配套设施的完善，架设相机定时拍摄成为物候观测的新兴手段[5-7]。Lei等[8]以长白山阔叶红松林为研究对象，探讨了数字相机图像在物种尺度物候模拟及群落尺度物候模型改进方面的作用，研究表明，数字相机可提供精确地基于物种尺度的物候数据[9]。Gulac 等[10]采用方向梯度直方图（Histograms of oriented gradients，HOG）算法与支持向量机（Support vector machine，SVM）相结合的方法对玉米等植物像片的物候期进行分类，得出了最高100%分类正确率的分类模型。Yalcin 等[11]对土耳其物候观测网络图像数据集中6 种植物的物候期进行识别，选用预先训练的AlexNet 卷积神经网络（Convolutional neural networks，CNN）进行微调，取得了最高86.54%的识别准确度。Yang 等[12]设计CNN 模型处理无人机图像，对水稻物候进行识别，准确率达83.9%。

Gulac 等选用的机器学习方法虽取得了较好的分类效果，但其HOG 算法着重于图像的纹理特征，忽略了图像的色彩等特征，特征选取较为单一，特征对图像的描述能力有限，分类效果依赖于人工选取特征的优劣，方法的泛化能力较差[13]。深度学习的发展为图像分类提供了新手段，在林业领域已取得了一定成果[14]。CNN 是当前主流的深度学习图像分类方法，卷积网络可根据具体的分类识别任务对图像特征进行自学习的选取，提取的特征相较人工选取的特征具有更强的描述能力[15]，但其卷积后得到的特征信息没有得到区分，影响细粒度图像识别的精度[16]。

当前，植物像片物候期的识别研究多集中在生命周期较短的农作物，模型在林木物候期识别的精度、跨年份泛化能力尚未得到验证。鉴于林木各个物候期外形差异较小，其包含区分度的信息多集中在枝、叶等局部区域，本研究引入了在细粒度图像识别表现优异的注意力机制[17]，以提升模型对细微差异的感知能力。

本研究选取具有较高经济价值的的栎林[18-19]（Quercus）与槭林（Acer）作为研究对象，将深度学习与基于数字照相的林木物候观测方式相结合，针对传统模型的缺陷引入注意力机制，设计残差注意力网络模型，对像片中林木的物候期进行识别。本研究提出了具有较高的分类精度和较好的泛化能力的林木物候期识别方法，可为林木物候的长期观测提供借鉴。

1 数据材料

1.1 PhenoCam 数据集

研究选用的数据来自于PhenoCam 数据集，该数据集源于生态系统物候相机观测网络（https://phenocam.sr.unh.edu）。该项目是一个大范围的物候观测网络，通过在各个观测点布设高分辨率塔式相机进行长期的物候观测，在不同生态系统和气候区域内提供连续、实时的植被物候监测[20-22]。

1.2 像片预处理

本研究选取2017—2019年PhenoCam 数据集的栎林与槭林图像作为数据集。该数据集的图像采集设备为Star Dot Net Cam SC 型网络数码相机。该相机覆盖范围广，拍摄图像大小为1 296 像素×960 像素，栎林研究区的优势植物为马里兰得栎Quercus marilandica，槭林研究区的主要树种为糖槭Acer saccharum与美国红枫Acer rubrum。为减少背景及观测区内其他植物对识别效果的干扰，将图像中的林木区域作为感兴趣区（Regions of interest，ROI）划出，如图1所示，切除图像中的非ROI 部分，供下一步研究。

图1 林地像片感兴趣区示例Fig.1 Forest pictrues ROI examples

1.3 林木物候期的划分

为更精细地描述林木物候的变化，本研究参照相关资料[23]，将栎林物候期分为芽爆期、展叶初期、展叶末期、叶成熟期、落叶期与休眠期6 类，将槭林物候期分为芽爆期、展叶初期、展叶末期、叶成熟期、叶转色期、落叶期与休眠期7 类，样例如图2所示，物候期划分方式见表1。

图2 研究区各物候期像片示例Fig.2 Examples of research areas phenological photo

表1 林地物候期划分Table 1 Forest phenological stage division

1.4 样本数据集的构建

1.4.1 数据集的划分与标注

本研究将观测站点2017—2019年的图像选取为实验数据。2017—2018年数据用于对模型进行训练，训练集∶验证集∶测试集按8∶1∶1 的比例进行划分。2019年数据全部作为测试集，用于测试方法的泛化能力，不参与模型训练。

数码相机采集的林地图像分辨率较高，叶、芽等细节清晰，便于观察候应现象。因此，本研究采用人工视觉评估结合实地观测结果的方式对数据集进行标注。研究区的实地观测隔7 天进行1 次，对样本植株的物候期及候应现象进行记录。

1.4.2 数据增强

综合考虑数据集特点及训练时间因素，实验选择224×224 像素大小的图像作为模型输入。为获得指定输入格式的图像，实验将原像片的ROI进行随机裁剪，在修正数据格式的同时扩大了数据集。由于各物候期的时间长短差异明显，各类别数据的不均衡现象较为严重，如图3a 所示，影响模型的训练效果。为调整数据比例，本研究设计了随机裁剪公式，裁剪的次数与其物候期长短成反比，公式定义为

式中：mi为当前类别数据数量；ni为裁剪次数；Max为取最大值操作。

随机裁剪后，各类别训练数据集均放大至原最大类别图片数量的4 倍，此时各类数据比例如图3b 所示，数据不均衡问题得到了解决。

图3 栎林数据的分布Fig.3 Distribution of Quercus data

2 识别方法

2.1 残差神经网络（ResNet）

本研究设计的识别模型以卷积神经网络为基础。卷积神经网络由卷积层、池化层、全连接层组成，卷积层是网络的核心，通过对训练数据的学习可自动对图像特征进行提取，池化层则是对卷积层结果进行压缩，减少网络运算量，同时控制过拟合现象，全连接层可对之前经卷积池化后图像的特征进行整合，从而输出分类识别的结果。

当传统CNN 达到一定深度时，再增加网络层数并不能进一步提高模型效果，反而会降低模型收敛的速度，同时，过深的网络还会使得分类准确率下降[24-25]。ResNet 提出了残差学习的机制[26]，通过在权重层间增添短路连接与恒等映射机制解决网络因深度增加退化的问题，其基本组成单元如图4所示。残差网络学习目标映射与输入x之间的残差，引入ReLu 作为激活函数，较好地缓解了模型随深度增加退化的问题。

图4 残差单元Fig.4 Residual block

综合考虑分类效果及训练难度，实验选取优化结构的ResNet50 作为主干网络，其详细网络结构如表2所示。网络在预处理卷积层的最大池化后面增加了平均池化操作，对特征进行充分处理。为解决反向传播过程中梯度消失和爆炸问题，引入批规范化（Batch normalization，BN），在每个残差单元中的卷积操作后增添BN 操作，将数据调整至均值为0，方差为1 的正态分布。最后的全连接层依照分类类别数进行调整，

表2 ResNet50 网络结构Table 2 Network structure of ResNet50

2.2 卷积注意力模块的引入

为进一步提升模型对物候期的分类识别效果，本研究结合相关资料将卷积注意力模块引入ResNet[27-28]，深度学习中的注意力机制借鉴了人眼视觉的注意力机制，可提升高价值信息对分类任务的影响权重，其引入可对ResNet 中残差单元输出的特征进一步区分，关注重要的特征并抑制无用的特征。卷积注意力模块由通道注意力模块和空间注意力模块组成，该模块对卷积特征进行再处理，从不同的维度提升模型的效果。

通道注意力模块将经平均池化和最大池化后的信息送入权值共享的多层感知机（Multilayer perceptron，MLP）内，F为原由残差网络输出的图像特征，具有多个通道维度。通道注意力模块将F在空间维度进行压缩，从而分析F各个通道间的关系，如图5所示。模块对F的各个通道按信息传递效果进行再赋权，提升有效通道权重，抑制无用通道，其权重参数MC计算方式如下：

图5 通道注意力模块Fig.5 Channel attention module

式中：AvgPool 表示平均池化；MaxPool 表示最大池化；σ表示Sigmod 函数；MLP 表示多层感知机。

空间注意力模块着重于分析特征矩阵内的空间关系，将原特征F在通道维度上进行了平均池化与最大池化，并将两种池化的结果矩阵进行拼接，使用7×7 的压缩卷积核对结果矩阵进行卷积处理，经Sigmod 激活函数后得出空间注意力权重系数MS，以对F的空间按重要性进行区分，如图6所示。

图6 空间注意力模块Fig.6 Spatial attention module

卷积注意力模块由通道注意力模块与空间注意力模块以先后串行的方式构成，在每个残差单元的后面均放置此模块，如图7所示。残差网络经卷积操作后得到特征F，由通道注意力模块处理后得到特征F′，最终经空间注意力模块得特征F′′，F′′代替原有特征F进行残差运算，其公式为：

图7 卷积注意力模块引入后的残差单元Fig.7 Convolutional attention module integrated with a residual block

式中：⊗表示矩阵的对应元素逐个相乘；MC为通道注意力模块权重系数；MS为空间注意力模块权重系数。

2.3 实验流程

研究选取有无引入注意力机制的ResNet50 神经网络与他人研究中取得良好效果的物候期识别方法作为实验模型。为验证方法跨年份的通用性，2019年的像片不参与训练，仅用于测试效果，完整实验流程如图8所示。

图8 实验流程图Fig.8 Experiment flow chart

2.4 网络训练

本实验采用Pytorch 深度学习框架，版本号为1.5.0，选用RTX 2080GPU 加速训练。实验测试模型为HOG-SVM、AlexNet[29]与ResNet50 与引入注意力机制的ResNet50-Attention。神经网络训练迭代次数设置为120，每个批次训练的图像张数为25，采用随机梯度下降优化算法（stochastic gradient descent，SGD）训练模型，提升模型的训练速度，并引入动量进行优化。经实验调整优化，最终动量设置为0.9，权值衰减系数为1×10-4。为降低模型在全局最优点附近的摆动，网络的初始学习率设置为0.1，在完成30 轮迭代后进行学习率衰减操作，将学习率变为之前的十分之一。网络的损失函数为交叉熵，衡量网络的预测值与实际值的差异。

2.5 模型评价指标

本研究采用图像分类领域常用的准确率评估各个模型的识别精度，通过各个模型在2019年未经训练集的识别准确率比较模型的泛化能力。准确率公式定义为：

式中：TP为识别正确图像的数量；samples为总样本数；Acc为准确率。

3 结果与分析

研究选取在迭代中验证集上取得最高分类效果的网络作为定型模型进行测试，测试分别在2017—2018年测试集与2019年测试集展开，从不同角度对比各个方法的效果。

3.1 各模型2017—2018年测试集的识别效果分析

由表3可知，各模型在2017—2018年测试集上均取得了较好的识别效果，引入注意力机制的ResNet50-Attention 略微优于ResNet50、HOGSVM 两种方法。AlexNet 由于网络层级较少，模型较简单，网络表达能力较差，识别精度较低。

表3 各方法在2017—2018年测试集的整体准确率Table 3 Overall accuracy of each method on test dataset from 2017 to 2018

3.2 各模型迁移至2019年测试集的识别效果分析

2019年数据未参与各模型的训练，在该测试集上的实验测试模型的泛化能力。由表4可知，ResNet50-Attention 的准确率明显优于其他模型，在栎林研究区准确率达到90.58%，在槭林研究区准确率为89.27%，显著高于ResNet50、AlexNet与HOG-SVM 3 种模型。

表4 各方法在2019年测试集的整体准确率Table 4 Overall accuracy of each method on test dataset in 2019

2017—2018 测试集及草本植物物候期表现效果较好的机器学习方法HOG-SVM 在2019年测试集精度较低，仅为76.12%与68.72%。HOG-SVM方法提取的图像特征描述了林木像片各个物候期的形状与纹理，而对图像的色彩体现不足，草本植物的各个物候期形态差异明显，成年林木在各个物候期阶段躯干形态变化不大，变化多集中在树叶、芽等局部区域，对方法的精细识别能力要求较高，HOG 算法提取的单一特征较易被不同年份变化的干扰因素影响。ResNet50 网络在2017—2018年测试集的性能优异，但迁移应用至2019年测试集精度下降较大，在两个研究区分别下降17.08%与28.56%。ResNet50 网络实现了对图像特征的充分提取，但并未对特征进行有效的再赋权，影响了ResNet50 的识别精度。注意力机制的加入使得模型可在训练中自学习信息，对关键信息区域赋予较高的权重，降低干扰因素的影响，提升了模型在特征细微时的识别能力，较好地解决了ResNet50 迁移应用精度较差的问题，两个研究区较未引入注意力机制的ResNet50 准确率提升13.15%与21.86%。

为进一步分析模型表现，本研究将ResNet50与ResNet50-Attention 进一步比对。图9为两种模型在2019年测试集上的归一化混淆矩阵。图中的每列代表模型预测类别，行数为图像的真实类别；行列交点表示数据被归类为对应列类别占行类别数据总数的百分比，对角线结果为归类正确的数据占该类别数据总数的百分比。由图9可知，引入注意力前后模型在形态差异较大的物候期上识别均较为准确，均能较好地识别研究林区的休眠期。在芽爆期、展叶末期两类物候期的识别上，ResNet50 易发生错分现象，而ResNet50-Attention在该两类识别上效果均较优。展叶末期、落叶期两类物候期与其他物候期在图像特征上相接近，ResNet50-Attention 可更好地对细微的图像差别进行区分。ResNet50-Attention 在芽爆期、展叶初期、展叶末期、叶成熟期与落叶期易混淆的物候期的识别效果明显更优，同时在休眠期识别上与ResNet50 相差不大，整体上更适用于林木的物候期识别。

图9 两种模型在2019年测试集的归一化混淆矩阵Fig.9 Normalized confusion matrix of two models on test dataset in 2019

4 结论与讨论

4.1 结论

本研究提出基于注意力机制的林木物候识别方法，对像片中林木的物候期进行识别，并与传统图像识别方法的效果进行了对比。实验结果表明，注意力机制的引入有效提升了模型在跨年份数据集的识别精度，增强了模型的迁移应用能力。该方法准确率高，泛化性强，改善了传统方法细粒度识别能力、迁移应用能力较差的缺点，能对易混淆的林木物候期进行较为精准的区分，可对林木物候进行实时精准识别。

4.2 讨论

1）当前，基于数字照相的物候观测方式在国内的森林生态定位观测站尚处于推广阶段，相关研究相对较少[30]，本研究的林地林分组成相对简单。本研究后续将在更多的林区展开实验，测试模型在树种较多、林分组成复杂林地的识别效果。

2）本文对研究区林木物候期的划分不够精细，模型在更细化的林木物候期划分的识别效果有待进一步研究。未来将对研究区林木的物候区进一步细分，继续探索林木像片物候信息的提取，从而进一步为林木物候研究提供数据支持，为精准林业提供技术支撑。