基于孪生网络的轻量级高速跟踪算法

2022-01-22 10:39洛怡航赵振宇胡银记揭斐然万锦锦

电光与控制 2022年1期

洛怡航，赵振宇，胡银记，揭斐然，万锦锦

(1.光电控制技术重点实验室，河南洛阳 471000； 2.中国航空工业集团公司洛阳电光设备研究所，河南洛阳 471000)

0 引言

目标跟踪是计算机视觉的一个重要研究方向，广泛应用于视频监控、自动驾驶[1-2]等领域。然而，在跟踪过程中，目标会发生形变、遮挡等情况，所以目标跟踪仍面临严重挑战。目标跟踪算法主要可以分为基于相关滤波和基于深度学习的跟踪算法。相关滤波[3-4]算法的特点是效率高、速度快，主要根据信号间的相关性找到最大响应位置并将其作为跟踪目标，然而，相关滤波算法一般使用手工设计的特征，精度较低，当目标出现形变、遮挡等问题时容易跟踪失败。基于深度学习[5-6]的算法，通过卷积操作进行特征提取，每一步卷积操作都可以得到不同层次的特征信息,越深层的网络提取到的信息越丰富，模型的抗干扰能力越强。但网络的加深也会导致计算量大增，很多算法即使在高性能的服务器上运行速度也达不到10 帧/s，严重限制其应用发展。在此背景下，孪生网络因平衡了速度与精度之间的关系而引起广泛关注，孪生网络算法起源于SiamFC[7]，其将目标跟踪转为匹配问题，并训练了一个端到端的离线深度网络。通过相关操作获得一个单通道响应图，根据响应大小判断目标位置，在保持实时性的同时，精度也有很大提升。SiamRPN[8]引入检测算法，通过锚框的回归解决了SiamFC多尺度检测问题，极大地提高了定位精度。DaSiamRPN[9]通过构建正、负样本对提高了模型的泛化能力，并当目标丢失时，提出了一个局部到全局的搜索策略用以提高模型长时间跟踪的能力。SiamRPN++[10]在SiamRPN基础上使用ResNet50替代AlexNet作为主干网络，提高了网络的特征提取能力。

然而，SiamRPN++将ResNet50作为主干网络提高精度的同时也会带来巨大的计算量和参数量，无法在算力不足的嵌入式设备或移动端中运行。为了更好地实现工程应用，本文以SiamRPN为基准，在兼顾速度与精度的情况下，提出了一个轻量级网络架构，该网络架构在保持170 帧/s高速运行的情况下与目前排名靠前的跟踪器相比性能仍具有很强的竞争性，与常用的轻量级网络对比在精度、速度等指标下均具有明显优势，验证了所提算法的有效性。

本文对比AlexNet， ResNet和MobileNet等多个特征提取网络，选择参数量少、特征提取能力较强的MobileNetV2[11]作为主干网络；为更好地平衡速度与精度关系，加入组(group)卷积、通道重排(channel shuffle)操作进一步减少网络参数量与计算量，提高网络运行速率；在倒残差结构中加入注意力机制[12]动态调节模型通道权重，使精度在几乎不增加计算量的情况下有了很大提高；通过融合不同输出特征层的信息，提升网络模型对目标语义信息和细节信息的表达；最后通过Crop对输出特征图进行裁剪，减少互相关运算的计算量，同时去除目标周围背景干扰信息，提高跟踪性能。

1 基于孪生网络的轻量级高速跟踪算法

孪生网络是将跟踪问题转化为相似性匹配问题，其输入是两个不同分辨率大小的图像，Z是第一帧的目标模板图像，X是后续进行跟踪的搜索图像。将两张图像通过同一特征提取网络，得到两张不同大小的输出特征图。将模板图像的输出特征图作为卷积核与搜索图像的输出特征图进行互相关运算，输出一个相关性响应图，响应高的区域表示搜索图像中的该区域与原始目标拥有极高的相似性，将其作为后续的跟踪结果，即

f(Z,X)=φ(Z)*φ(X)+b

(1)

式中：f(Z,X)为相似度度量函数；φ(·)为经过特征提取网络的输出；*代表互相关运算；b为响应图上每个位置对应的取值。本文选取参数量少、特征提取能力强的MobileNetV2作为主干网络，通过组卷积和通道重排操作对1×1的点卷积进行优化处理，提高网络运行速率，在倒残差模块中嵌入注意力机制动态调节模型权重，提高模型的表达能力；最后将不同层级的特征层进行信息融合，在保留语义信息的同时，增加了浅层信息，提高了目标的定位能力，算法原理如图1所示。

图1 本文算法原理图Fig.1 Schematic diagram of the algorithm

1.1 轻量级网络MobileNetV2 的分析与改进

目前排名靠前的跟踪器使用ResNet50作为主干网络，精度有了很大的提升，可是深层的网络架构结构复杂、参数量大、对硬件的配置要求十分苛刻。目前，基于深度学习的实验都是在性能优越、拥有强大计算能力的服务器上进行，算力不足的移动设备无法满足繁重的计算任务。如果将AlexNet作为主干网络，网络的层数太浅，无法提取到丰富的语义信息，导致模型的抗干扰能力不足。为了使孪生网络算法在具有良好特征提取能力的同时，降低参数量与计算量，满足工程应用的要求，本文在表1中对比了不同特征提取网络，发现MobileNetV2在保持网络良好精度的情况下，所用参数量最少，十分适合嵌入式硬件设备的算力要求。

MobileNetV2的优势主要来源于深度可分离卷积。深度可分离卷积分为深度卷积(Depthwise Convolution,DW)和点卷积(Pointwise Convolution,PW)两部分。深度卷积首先对每个输入通道使用DK×DK×1的卷积核进行卷积运算，然后对输出特征进行1×1的标准卷积运算，生成新的输出特征图，原理如图2(a)所示。

表1 常用神经网络对比Table 1 Comparison of common neural networks

图2 本文卷积操作原理图Fig.2 Schematic diagram of the convolution operation

假设输入特征图的大小为DF×DF×M，输出特征图的大小为DF×DF×N，卷积核的大小为DK×DK，则标准卷积的计算量为

DK×DK×M×N×DF×DF

(2)

深度可分离卷积的计算量为DW和PW计算量之和，表达式为

DK×DK×M×DF×DF+M×N×DF×DF

(3)

两者计算量之比为

(4)

在本文中，DW的卷积核大小为3×3，所以使用深度可分离卷积的计算量是标准卷积计算量的1/9。其中，点卷积用于扩充、压缩通道特征，在深度可分离卷积中作为主要计算操作，本文对点卷积进行组卷积、分组重排操作，进一步降低计算量，原理框图见图2(b)。将输入特征与卷积核分别分成g组，使每一组卷积核只在对应的输入通道上进行卷积操作，避免了对全部输入通道数的卷积操作，减少1×1卷积操作参数量，不过当多个组叠加时，输出的特征信息仅仅来自其输入的一部分，各个通道信息之间并没有信息交流，学习到的特征具有局限性。为了打破这一限制，通过加入通道重排操作，将每个组均匀取样分为若干个子组(subgroup)，再将subgroup作为输入使每一组的特征含有上层不同组的信息，实现不同组之间的信息交流，在防止边界效应的同时，也极大地减少参数量。使用组卷积的总计算量数学表达式为

(5)

与原始操作相比，点卷积操作的计算量减少至原来的1/g，因此可以更好地部署于嵌入式设备。

1.2 基于注意力机制的倒残差模块

MobileNetV2提出的倒残差模块在保证参数量较小的情况下获得更加丰富的特征信息。然而在实验中发现，倒残差模块在进行DW卷积操作时，不同的通道对特定目标的响应是不同的，往往只有少数通道对目标具有高响应。而原始网络却将不同通道赋予相同的权重，限制了网络模型的辨别能力。

为了突出目标的重要信息，抑制无用信息，本文在倒残差结构中加入轻量级注意力机制，在没有明显跟踪延迟的情况下，适当增加参数量，提高网络对目标重要特征的敏感度，如图3所示。

图3 基于注意力机制的倒残差模块Fig.3 Inverted residual block based on attention mechanism

首先，通过全局池化对输入特征进行压缩，得到一个与输入通道数维度一致的1×1×C实数数列，C代表输入通道数；然后，通过2个全连接层和 Hard-σ函数将实数数列归一化到0～1之间，所得实数数列即为每个通道的权重，将所得权重与原始输入特征对应相乘即可动态调节各个通道的权重，提高网络模型对目标重要信息的辨别能力。

1.3 特征融合

用于目标分类的MobileNetV2需要通过5次下采样输出最后的特征图，如此多的下采样操作会使孪生网络算法在跟踪过程中输出的特征图具有很小的空间分辨率，存在容易丢失跟踪目标信息的缺陷。本文通过将网络架构进行微调，减少下采样次数，使输出特征图的空间分辨率控制在一定范围内，主干网络细节见表2。

表2 主干网络架构Table 2 Backbone network architecture

网络在第3次下采样后，后续的输出特征具有相同的空间分辨率。文献[13]研究发现,卷积神经网络不同特征层之间所含信息的作用不同，浅层特征对颜色、纹理等特征感知能力强，具有丰富的细节信息，利于目标的定位；深层特征具有丰富的语义信息，在背景干扰、形变等情况下具有很强的抗干扰能力。为了进一步提高跟踪的效果，本文通过将BottleNeck_3,BottleNeck_5和BottleNeck_7不同特征层之间的信息融合，使网络在保持丰富语义信息的同时，也具有良好的定位信息，提高跟踪精度。

同时,为了抑制背景信息干扰，进一步提高跟踪过程的鲁棒性,本文采用Crop操作，即将目标图像融合后的输出特征图以目标为中心进行7×7的裁剪，在保留目标有用信息的同时，有效去除了目标周围的背景信息。更重要的是，通过Crop操作，在模板图像的输出特征图与搜索图像的特征图进行互相关运算时，孪生网络是将模板图像作为卷积核与搜索图像进行互相关运算，原始庞大的15×15卷积核，缩小到7×7，在精度提高的同时，速度也得到有效提升。

2 仿真实验与结果分析

2.1 实验平台与参数配置

实验平台配置:CPU为Intel(R) Core(TM)i9-9900x, 基础频率3.50 GHz,内存16 GiB,GPU为NVIDIA GTX-1080Ti。训练数据集为CoCo，ImageNet DET，ImageNet VID，Got10k，YouTube。使用ImageNet 预训练的MobileNetV2网络模型参数作为主干网络初始化参数，为了保证输出特征维度一致，本文在模块BottleNeck_3，BottleNeck_5和BottleNeck_7后增加一个1×1卷积操作。采用随机梯度下降法优化网络参数，epochs次数设为50，批量训练大小为32，学习率由10-2衰减到10-5，训练损失函数由分类损失函数和回归损失函数组成，激活函数为Swish[14]。

2.2 OTB100与V0T2018测试实验

OTB100[15]是目标跟踪领域广泛使用的测试集基准库，由100个人工标注的视频序列帧组成,包含目标遮挡、形变、光照影响、背景干扰等11种不同的属性。该数据集有精度和成功率两个评估指标:精度为标注的目标中心与算法跟踪到的目标中心误差在一个特定阈值内的帧数占总帧数的百分比；成功率指跟踪框与真值之间的重合率。

VOT[16]是一个针对单目标跟踪的主流测试平台,它每年更新一次测试序列，标注精度也逐年提高，其评价标准为精度(A)、鲁棒性(R)和期望平均重叠率(EAO)。精度为跟踪算法在单个序列下的平均重叠率，鲁棒性为测试序列下跟踪失败的次数，期望平均重叠率为VOT最重要的指标，其综合考虑精度和鲁棒性，指算法在一个图像序列的非重置重叠的期望值。

为验证所提算法的有效性，本文在同一硬件环境下采用OTB100和VOT2018数据集对所提算法与常用跟踪算法(CCOT，SiamRPN，SRDCF等)进行对比实验，硬件环境如2.1节所述。性能指标对比结果如表3、图4所示，部分序列跟踪效果如图5所示。

表3 跟踪算法在OTB100与VOT2018测试集下的对比结果Table 3 Comparison results of tracking algorithms in OTB100 and VOT2018

图4 跟踪算法在OTB100测试集下的实验结果Fig.4 Experimental results of tracking algorithms in OTB100 test set

图5 跟踪算法可视化对比结果Fig.5 Visualized comparison results of the tracking algorithms

测试结果表明，本文算法跟踪速度高达170 帧/s，相比于SiamRPN基准算法，精度提高3.8%，成功率提高4.1%，EAO提高15.4%，跟踪性能有很大改善。与本文算法相比，SiamRPN++算法虽然在精度、成功率、EAO指标上取得更好的效果，但是该算法特征提取网络设计复杂，导致模型参数量较大，难以在嵌入式平台上部署，同时，该算法运行速度较慢，在现实场景中难以做到实时跟踪。而本文算法在跟踪精度略低于最优算法Siam-RPN++的情况下，运行速度得到极大提升，在现有嵌入式设备算力有限的情况下，具有更好的应用前景。

3 结语

为了使孪生网络算法应用于移动端或算力不足的嵌入式设备，本文提出了一种高速孪生网络跟踪算法，该算法通过对比不同主干网络的参数量和计算量，选取轻量级网络MobileNetV2作为主干网络。通过加入组卷积、通道重排操作对网络进行优化，提高网络的运行速率。通过在倒残差块中加入注意力机制动态调节模型权重，提高网络的辨别能力，最后通过特征融合、Crop等操作在减少背景信息的同时提高模型的鲁棒性。在OTB100和VOT2018测试集上的测试结果表明，在保持170 帧/s高帧率运行的情况下，本文算法在OTB数据集上的精度和成功率分别达到了0.885和0.670，在VOT2018数据集上EAO达到了0.398。相对于基准算法分别提升了3.8%，4.1%和15.4%。与目前排名靠前的跟踪算法相比，本文算法在具有领先跟踪性能的情况下，模型参数量少、运行速度快，具有很好的工程应用价值。后续将采用该算法在移动端或嵌入式设备硬件平台上进行实验，进一步验证本文算法的实用性。