基于自适应正则化的东北虎重识别方法

2022-04-21 05:18于慧伶钱成帅

计算机工程与应用 2022年8期

于慧伶，钱成帅

东北林业大学信息与计算机工程学院，哈尔滨 150040

重识别是一项有益于在自然环境下对野生动物进行识别与追踪的技术，将重识别技术应用于野生动物的信息采集和轨迹追踪等任务中，野生动物监测的成本以及人工部署和采集的危险性将显著降低。故近几年，研究人员逐渐把重识别技术应用于保护稀有野生动物以及追踪动物个体。例如，2005年，Arzoumanian等人[1]利用一种识别星型的天文学算法分析鲸鲨侧面特有的斑点图案，以探索鲸鲨重识别的方法。2007年，Ardovini等人[2]利用多曲线匹配的方法根据图片对大象进行重识别。2014年，Carter等人[3]采取了一种训练多个不同网络的集成方法根据龟壳图案实现了对绿海龟的重识别，目前该方法被用于监测绿海龟种群。2017年，Weideman等人[4]介绍了一种结合积分曲率表示和两种匹配算法通过鳍来识别鲸类的新方法。2018年，Korschens等人[5]成功地设计了一个能够帮助生物学家识别野外大象的系统。

近几年，有研究人员对东北虎进行了重识别，如2019年，Li等人[6]介绍了一个大型的野外东北虎重识别（ATRW）数据集，并提出了两个东北虎重识别基线方法，该方法在深度神经网络中引入了精确的姿态局部建模来处理东北虎较大的姿态变化，但该方法受限于东北虎的关节点标注。2019年，Liu等人[7]提出了一种基于由全局流（Global Stream）和局部流（Local Stream）两大部分构成的PPGNet，以局部流指导全局流学习和调整局部特征的方法，该方法采用三分支流网络结构增加了训练时的参数，从而对训练时的速度和效率产生了一定程度上的影响。

本文方法贡献了两个方面。首先，提出了一种基于局部分块和自适应L2正则化方法的网络模型（partbased convolutional baseline-AdaptiveL2，PCB-AL2），该模型只需输入一张图像即可完成从训练到推理的过程。其次，将局部特征和全局特征结合起来，通过局部特征指导全局特征的学习。本文在ATRW数据集上进行了多重实验，最终结果表明：相比于其他方法，本文方法在跨相机重识别上的效果更加出色，有效解决了东北虎重识别在跨相机追踪下精准度低的问题。

1 相关研究工作

对于东北虎重识别来说，由于不受限制的四肢运动以及处于复杂的自然环境和光照条件下，东北虎的姿态变化范围更广。此外，与人的外表不同，东北虎身上的条纹更加相似，并且更加模糊，没有辨别性较强的特征信息作为指导，故难以识别。

1.1 重识别方法

动物和人的重识别[8]都属于图片检索问题，目前基于神经网络的行人重识别方法大致可以分为两个步骤，第一步是提取特征，早期的研究主要是利用深度学习的方法[9]基于图像的全局特征进行提取[10-13]。该方法的主要思想是在训练模型时将行人重识别当作分类任务来学习行人特征，即首先通过卷积神经网提取图像中的行人特征，根据得到的特征判断是否属于同一个体。例如，Geng等人[10]设计的网络模型包括分类子网络和验证子网络，分类子网络用于对图像ID进行预测，根据分类误差训练网络，从而使网络具有提取行人有效特征的能力。验证子网络根据行人特征判断是否属于同一个体。该方法的优点在于稳定性强且易于训练，缺点是在复杂的背景环境下效果一般、性能较差。

以上所述都是基于全局特征的提取，即用整个图片得到一个特征向量。后来研究者们发现这类提取全局特征的方法往往会忽略一些不显著的细节，使模型的性能存在瓶颈。故有研究人员提出了第二类方法[14-17]，该方法基于行人的局部特征来完成重识别任务。研究初期，常用图片分块的方式提取出全局特征[14]，这种方法对图片的对齐程度要求苛刻，若两张图片没有对齐，则可能出现不同部位对比的现象，从而影响模型的性能。为解决图像对齐的问题，一些研究人员使用先验知识预先将行人对齐，比如使用人体骨架关键点提取[16]和人体姿态估计[15]以及MGN（multiple granularity network）[17]等方法。后续实验证明，通过引入一个额外的对齐模型，虽然加大了系统开销，但能够提取到更丰富的细节信息，从而提高了模型性能。

第二步就是对提取出的特征嵌入进行度量学习[18-23]，该方法的主要思想是使具有相同ID的行人图像特征距离小，而不同ID的行人图像特征距离大。如文献[18]使用对比损失训练一对孪生网络，网络以一对带标签的图像作为输入，若两张图像同属一个ID，则为正样本对，标签y=1，反之称为负样本对，标签y=0。另有通过最小化对比损失，使正样本对之间距离变小，负样本对之间距离变大。类似的方法还有Triplet loss[19-21]、Quadruplet loss[22]以及Group similarity learning（CRF+DNN）[23]等。

1.2 正则化方法

在训练网络阶段，正则化对神经网络参数起到约束的作用，并对目标函数施加惩罚，它是一种提高模型泛化能力的方法。Laarhoven[24]证明了在存在批处理归一化[25]和权重归一化[26]时，L2正则化会影响权重的大小，从而影响有效学习率。类似的，Hoffer等人[27]研究了在批处理归一化之前应用权重衰减是如何影响学习效率。结合权值衰减和批处理归一化将正则化范数约束到较小范围内，并导致权值方向更稳定的步长。在之后的研究中，Loshchilov等人[28]澄清了一个长期的误解，即在应用自适应梯度算法时，L2正则化等同于权重下降的说法并不成立。最近，Lewkowycz等人[29]对L2范数、学习率、训练次数和模型性能之间的关系进行了实证研究。

2 方法实现

2.1 网络结构设计

针对东北虎身体条纹等局部特征信息，传统的单分支网络结构主要学习局部特征信息，忽略了全局特征信息的影响，易发生过拟合现象。因此，与PCB（part-based convolutional baseline）网络[30]的单支路线不同，本文采用的PCB-AL2具有双分支网络结构：全局分支结构和局部分支结构，图1展示了这些分支的结构。首先，本文采用在ImageNet上经过预训练的ResNet-50作为骨干网络。它将被分为五个独立的部分，其中第五部分通过预训练剪裁得到24×8×1 024的特征图，本文把最后一个卷积层的步长设置为1，而不是默认的2，这将使特征图的维度增加二倍，得到24×8×2 048的特征图作为分支的输入。其次，给定一组图像，全局分支依次利用骨干网络中的结构进行训练，并在末尾附加目标模块，得到全局分支的特征向量D g。

图1 整体网络结构Fig.1 Overall network structure

除了全局分支结构，局部分支结构也被整合到网络中。首先，局部分支的输入是复制来自骨干网络中的第五部分，且不与全局分支共享权重。其次，现有的东北虎重识别方法主要基于身体条纹，故本文采用PCB中的划分方法，切片层显示地将特征图划分为六条垂直的水平条纹。最后，在每个水平条纹上使用卷积层进行维数缩减并在末尾附加目标模块，提取的特征向量沿着通道进行特征融合得到最终的局部分支特征向量D r。其中，剪裁层插入到全局平均池化层和批处理归一化层之间。剪裁层的工作方式与ReLU-n[31]相似，减轻了后续难三元组损失的优化困难。

图2展示了目标模块的结构，该模块将两个分支提取出的特征图分别转化为学习目标。全局平均池化层将特征图中的空间维度进行压缩，经过剪裁层和批处理归一化层后得到新的不含偏置项的特征向量。最后通过全连接层生成每个唯一标签的预测概率，从而使模型能够利用交叉熵损失（ID loss）函数进行优化。在推理过程中，提取批处理归一化层前的特征嵌入，将多个模块的特征嵌入连接起来作为特征表示，采用余弦距离度量两个样本之间的距离。

图2 目标模块的结构Fig.2 Structure of objective module

2.2 特征融合

为利用均匀分块的局部特征信息指导全局特征的学习和对齐，本文利用相应元素来融合两个分支的局部特征和全局特征：

其中，Z gr代表全局分支和局部分支的融合特征向量。

2.3 损失函数

2.3.1难三元组损失

三元组损失（triplet loss）是常用的重识别损失函数。如图3所示，一组三元组包括一个正样本对和一个负样本对，固定图片a（Anchor）、正样本图片p（Positive）和负样本图片n（Negative），a与p组合成正样本对，a与n组合成副样本对，则三元组损失表示为：

图3 三元组和难三元组原理Fig.3 Triplet and TriHard principle

其中，distance为欧氏距离，α为distancea,p和distancea,n之间的最小距离，根据实际需要设定的阈值参数。对于行人或野生动物重识别任务，交叉熵损失和三元组损失都被广泛应用到网络优化。在本文设计的网络中，同样在训练阶段使用这两种损失的组合对网络进行优化。

经已有实验验证，使用基础的三元组可能会使训练的特征过于简单，故使用Alexander等人提出的难三元组损失（TriHard loss）[32]。如图3所示，对每个图片a在一个批次里挑选距离最近的负样本图片n1和距离最远的正样本图片p1再训练网络，使相同身份的样本距离拉近，不同身份的样本距离拉远，旨在使网络能够学到更加丰富的特征信息从而提高泛化能力。难三元组损失表示为：

2.3.2整体损失

如图2所示，由全局分支训练得到的原始图像特征向量D g分别计算ID损失和难三元组损失，特征融合的Z gr分别计算ID损失和难三元组损失。

Z gr分别由全局特征和局部特征组成，因此损失的产生不依赖于某个单一分支的特征信息，而是由两个分支联合决定。在训练阶段进行反向传播时，由位姿部分流的融合特征计算得到的全局分支会出现梯度下降。因此，全局特征总是可以受到局部特征的影响来调整网络参数。也就是说，按垂直均分的局部分支在训练阶段对全局分支的特征学习起到了积极的引导作用。

对于ID损失，每个特征向量之后是批处理归一化（BN）层和全连接（FC）层。

2.4 引入自适应正则化

常规的L2正则化通常作用于全部可训练的参数上，对目标函数中的某些参数进行限制，防止模型过拟合，且不随反向传播的变化而变化，即正则化因子在整个训练过程中保持恒定。除此之外，还需要研究者对超参数进行优化，手动选择正则化因子。

如公式（4）所示，W包含所有可训练的参数，ωn表示数组组成的向量或矩阵。例如，全连接层中的核函数和偏差项分别是矩阵和向量。常规的L2正则化对目标函数施加了额外的惩罚项，用以下公式表示：

其中，Dλ(S)以及D(S)分别代表更新后和原始的目标函数，在本文提出的模型中，D(S)是ID损失和难三元组损失的加权和。另外，代表ωn的L2范数的平方，λ代表正则化系数代表正则强度。

正则化因子的比重与网络层的深度成正比，在较浅的层中应用较轻的正则化，在较深的层中应用较强的正则化。因此，可以进一步推广，即为每个定义一个唯一的系数，也可以对目标函数施加惩罚。其中每个参数ωn都与一个单独的正则化因子相关联。

由于ResNet-50中参数众多，手动调节正则化因子是不现实的。因此，可以将正则化因子作为可学习的参数，从数据中学习到适合的值。

为了使上述正则化因子自适应，本文使用通过反向传播来训练的变量来替代原始预定义的常数λn来获得直接拓展。但是，这种对λn没有任何约束的方法会导致Dλ(S)迅速下降，即L2正则化惩罚项在训练过程中占据主导地位，最终导致模型的崩溃，无法学习到有用的特征信息。

为解决上述问题，本文引入由文献[33]提出的自适应L2正则化函数，该函数可以保证正则化因子λn为非负值，函数定义为：

超参数A的作用是减轻正则化因子的灵活性，以避免正则化因子导致模型崩溃，其中θn∈ℝ{n=1,2,…,N}是可训练的标量变量。f(θn)采用的是hard sigmod函数，该函数如下：

2.5 优化方法

数据增强。图片被调整到输入大小时使用双线性插值方法，并将图片水平随机翻转，概率设为0.5。图像的顶部、底部、左侧、右侧都添加了零间隔，随后剪裁具有输入大小的随机部分。除水平翻转外，还利用随机擦除[34]进行数据增强。在训练过程中，去除原始图像的一个区域，提高模型的鲁棒性，特别是在遮挡的情况下。

Linner Warmup。在训练初期，学习率从一个较低的值线性增加到预先定义的学习率。在验证阶段，学习率调整为之前的1/10。一方面，Linner Warmup策略可以抑制初期训练时的梯度消失问题，防止过拟合；另一方面，周期性地降低学习率可以进一步提高性能。

标签平滑（label smoothing）。标签平滑正则与ID损失一起使用，即给定一组真实标签y∈{1,2,…,N}，只有当索引j和标签y相同时，one-hot编码标签n(j)等于1，否则等于0。标签平滑引入超参数α∈(0,1)，公式为：

3 实验验证与结果分析

本实验选择了高效、可扩展性强的TensorFlow框架，TensorFlow采用静态计算图机制，可以在训练阶段速度更快、效率更高，并采用GPU加速模型训练。通过数据增强，本实验将批处理大小设置为16，并对模型进行200个epoch的训练，初始化基本学习率为2×10-4，在30个epoch后学习率衰减到2×10-6直至模型收敛，hard sigmod中的参数b设置为2。将全局分支以及融合特征得到的ID损失和难三元组损失分别被加权为1.0、1.5、2.0、2.5，值得一提的是，本实验将每幅原始图像的大小调整为128×384时实验效果最佳。本实验使用ResNet-50作为骨干网络，并将最后一个卷积层的stride变为1，极大增加特征信息，便于模型学习。

3.1 数据集

ATRW由文献[6]提出，作为东北虎重识别的标准数据集，该数据集相比其他动物重识别数据集规模更大、注释更详细，且是在各种自然条件下制成。如图4所示，这对东北虎重识别的研究十分重要。该数据集包含了92只老虎，182个实体（身体两侧的花纹作为不同的实体）的3 649个边界框注释。在整个数据集中，与行人重识别数据集Market1501不同，并非所有的实体都是在跨摄像机下拍摄的，约有70个实体来自跨摄像机，其余来自单个摄像机的不同时间帧。在本文实验中，训练集中有70个实体来自单一摄像头，30个实体来自交叉摄像头，其余图像作为测试集，即训练集中包含1 887幅图片，测试集中包含1 762幅图片，其中测试集既是查询集也是图库集。为了扩大数据集，通过水平的翻转训练集中的图像来创建更多的“新实体”，因为同一只东北虎的不同侧面被视为不同的实体。

图4 ATRW示例Fig.4 ATRW example

3.2 评估准则

利用ATRW数据集，本文实验采用两个评估指标来衡量性能，即平均精度均值（mean average precision，mAP）和累计匹配特征（cumulative match characteristics，CMC）Rank-k精度。度量函数计算查询图片和图库样本之间的距离，并结合真实老虎实体和摄像机ID作为输入。由于查询样本在图库集中可能具有多个真实匹配项，因此考虑了准确率和召回率的mAP要优于Rank-k。根据查询图像出现在相机中的情况，本文将每个查询图像分为单一摄像机和跨摄像机两个部分，包括目标老虎只出现在单一摄像机中以及目标出现在多个摄像机中。

3.3 与现有方法比较

表1展示了PCB-AL2和现有方法的实验结果。首先，本文所提出的PCB-AL2网络模型在单摄像头环境下和交叉摄像头环境下的性能都优于现有方法。在单摄像头环境下，本文方法的mAP达到92.1%，相较于PPGNet的性能提升了1.5个百分点，rank-1和rank-5分别达到98.2%和99.7%；在交叉摄像头环境下，本文的方法mAP达到75.1%，相比PPGNet的性能提升了2.5个百分点，rank-1和rank-5也分别达到了96.3%和97.6%。

表1 本文方法在测试集上的结果与其他方法的比较Table 1 Comparison of results of method in this article on test set and other methods %

其次，利用自适应L2正则化机制对PCB-AL2模型进行训练。公式（7）中的振幅A设为0.005。一方面，PCB-AL2比采用姿势对齐等方法取得了不错的改进，特别是在交叉摄像头的环境下。另一方面，相比PPGNet模型使用的ResNet-101，本文提出的PCB-AL2使用的ResNet-50减小了计算量；相比PPbM模型，本方法不需要精确的姿态建模。由于将re-ranking[35]方法在推理过程中用于测试数据，mAP达到了92.1%。

综合来看无论是本文采用的基线方法还是PCB-AL2方法，在单摄像头环境下的各个评估指标都优于在交叉摄像头环境下的指标，mAP差距达到17.0个百分点。而对于单摄像头来说，它采集到的都是某只东北虎在某个摄像头下的连续图像，这些图像的背景、光照、遮挡等方面的差距不是很大。但对于交叉摄像头环境来说，它采集到的是某只东北虎被两个或两个以上摄像头拍的图像，也就是说不同摄像头拍到了同一只老虎，而不同摄像头采集到的老虎图片在时间、色调、拍摄角度、自然环境等诸多方面存在这明显的差异。在实际应用中，解决跨摄像头下的东北虎识别和追踪，提升算法在交叉摄像头环境下的性能具有十分重要的意义。

3.4 消融实验

为测试本文方法中各个模块对模型性能的贡献，本文设计了消融实验，通过将全局分支、三元组损失以及人工挑选的L2正则化作为模型的基准，以验证每个模块的效果。表2展示了消融实验结果，TriHard Loss的引入使模型性能在单摄像机和跨摄像机中都有显著提升，对比基础的三元组损失，这种提升是由于TriHard Loss剔除了训练集中的简单数据，更加精准地训练东北虎细粒度特征，以类似于相似性搜索的方式直接优化了模型。尽管标签平滑在单摄像机和跨摄像机只带来了小部分的提升，但在实验中发现，它能够有效防止模型过拟合。一方面，局部分支的加入使模型在单摄像机和交叉摄像机下的mAP分别提高了5.0个百分点，这表明只通过全局分支训练的模型忽略了东北虎身体条纹等局部特征信息，当结合局部特征信息和全局特征信息时，模型可以学习到更加细节的特征，从而性能得到显著提高。另一方面，通过使用在整个训练过程中保持自适应更新的L2正则化因子，不仅使模型得到更好的优化，还减轻了人工挑选的负担，使得两种摄像机下的mAP均有显著提升。

表2 使用ResNet50为骨干网络的消融实验Table 2 Ablation study of baseline using ResNet50 backbone %

4 总结

本文针对在自然环境下的东北虎重识别任务采用了一种新颖的基于局部分块网络和自适应正则化方法的模型（PCB-AL2）。该模型由全局分支和局部分支组成，通过局部分支提取东北虎身体条纹的特征信息来指导全局分支特征的学习。除此之外，本文引入一种自适应L2正则化方法，它与现有的经过人工挑选的恒定正则化因子不同，自适应L2正则化因子随反向传播的改变而自适应地更新，从而提高了模型的泛化能力，解决模型在训练时过拟合等问题。在数据集方面，采用基于东北虎条纹特征的数据扩充方法，增加了数据集的实体个数。最后本文在ATRW数据集上进行实验对比，结果表明，在单摄像头和交叉摄像头下，本文方法的性能都优于现有方法。单摄像头环境和交叉摄像头环境下的mAP分别达到了92.1%和75.1%。