基于关键特征信息感知和在线自适应掩模的孪生网络目标跟踪

2022-05-31 06:18何志伟聂佳浩杜晨杰高明煜董哲康

电子与信息学报 2022年5期

关键词：跟踪器性能特征

何志伟聂佳浩杜晨杰* 高明煜董哲康

①(杭州电子科技大学电子信息学院杭州 310018)

②(浙江省装备电子研究重点实验室杭州 310018)

③(香港理工大学电机工程系香港 999077)

1 引言

视觉目标跟踪一直是人工智能和计算机视觉领域的一项基本而富有挑战性的任务。近年来，视觉目标跟踪正广泛应用于智能视频监控、无人机、机器人等[1]。然而，由于各种挑战，例如目标被遮挡、尺度变化及背景杂乱等[2]，如何实现实时、准确的目标跟踪算法成为研究的热点和难点。

目标跟踪的核心问题在于从复杂的背景区分出前景目标，仅给定第1帧中任意目标的位置，跟踪器旨在后续帧成功区分并定位该目标[3]。近几年，基于相似性判别的相关滤波类跟踪器[4–7]受到研究人员的广泛关注。以KCF (Kernel Correlation Filter)[4]为代表的传统相关滤波跟踪器[4–6]利用手工制作的特征比较跟踪目标和搜索区域之间的相关性，相关性最大的区域即待跟踪目标，并采用在线更新模板机制来应对复杂场景的变化。但由于相似性判别过程所采用的特征是传统的浅层特征(如纹理、颜色等)，导致该类方法应对尺度变化、遮挡等复杂场景的能力有限。为了解决这个问题，

DeepSRDCF (Spatially Regularized Deep Correlation Filter)[7]等将卷积特征集成到相关滤波的方法中，利用图像高层次的抽象语义特征进行相似性判别，增强了跟踪器的鲁棒性、提高了准确率。然而，由于卷积特征的复杂性及其高内存开销，执行在线更新模板的时间代价昂贵，因此，这类跟踪器的跟踪速度(5～10 fps)低于实时要求(>30 fps)。

为了使跟踪器在兼顾准确率的同时保持实时速度，同为相似性判别的孪生网络[8]跟踪器[9–12]不断涌现，并成为当下主流跟踪框架。这类跟踪器摒弃了相关滤波类跟踪器中耗时严重的在线更新模板机制，采用端到端的离线训练方式，使模型具有泛化能力，无需通过在线更新模板以获取更多关于目标的先验知识，就能够从复杂场景中区分出前景目标。SINT (Siamese INstance search for Tracking)[9]第1次将孪生网络应用到目标跟踪领域，由于其采用了全局搜索策略，跟踪器准确率较高，同时相似性判别使用的样本大量冗余，严重影响跟踪器的实时性。SiamFC (Full Convolutional Siamese Networks)[10]是孪生网络跟踪器的进一步探索，它将相似性判别过程嵌入网络模型进行训练，通过全卷积的方式学习目标与搜索区域卷积特征的相关性，由于SiamFC相似性判别所采用样本几乎没有额外开销，因此跟踪器能实时运行(文献[10]的实验环境：86 fps)。此后的研究工作致力于提升孪生网络跟踪器的准确率，CFNet (Correlation Filter Siamese Network)[11]将相关滤波器融入孪生网络，使网络能够离线学习与相关滤波紧密耦合的抽象特征，以此对SiamFC进行改进。SiamRPN (Siamese Region Proposal Network)[12]在孪生网络的输出端嵌入区域建议网络 (Region Proposal Network, RPN)[13]，有效提高了跟踪器的性能。

上述孪生网络跟踪器虽然取得了一定的跟踪准确率，但仍然有限，还存在亟待解决的问题。首先，这些跟踪器利用较为浅层的AlexNet[14](去除全连接层)网络来提取用于相似性判别的卷积特征，导致模型学习到的特征缺乏更具区分性的表征能力，进而影响判别准确性；其次，孪生网络跟踪器摒弃了耗时的在线更新机制，导致其应对复杂场景变化的能力较弱，容易受到背景信息，尤其是相似物体的干扰，从而发生漂移。本文尝试直接使用ResNet[15]和GoogleNet[16]等网络替换AlexNet时，性能不增反降。经调查可知，这些深层网络是为图像分类任务设计的，不能简单应用于跟踪任务中。SiamRPN++[17]和SiamFC-DW[18]都证明了孪生网络跟踪器无法简单使用深层的特征提取网络的核心原因在于：卷积、池化等过程的填充操作使抽象特征缺乏平移不变性。因此SiamRPN++提出了一种简单有效的空间感知采样策略来打破这一限制，并成功使用ResNet50[15]来提高模型判别能力，但深层网络大量的参数导致其跟踪速度下降严重。基于与SiamRPN++相同的目的，SiamFC-DW提出了新的裁剪残差单元块(Cropping-Inside Residual units, CIR)来构建ResNet22[18]，以此缓和填充的负面影响，但同时也存在不足，该网络需要依靠大量的训练数据才能发挥其效果。另外，ATOM (Accurate Tracking by Overlap Maximization)[19]是结合孪生网络跟踪器和在线更新模板的典范，通过不断融合后续搜索图像作为模板信息的补充，随着场景的变化而适应性变化，以此来应对复杂场景。然而ATOM在准确性和实时性上两级分化较为严重，跟踪速度约30 fps。

为了提高孪生网络跟踪器的准确率，本文采用了不同于上述的改进策略，在保持实时性的基础上，创新提出了一种全新的关键特征信息感知模块来提高孪生网络模型的判别能力，该模块包括多尺度特征提取和注意力机制两部分。本文沿用了去除全连接层的AlexNet作为特征提取网络，提出一种多尺度下采样方式来提取目标的多尺度特征信息，并利用注意力机制增强目标的关键信息，用以捕捉目标最具区分性的抽象语义特征，然后利用该特征进行相似性判别，实验结果显示，跟踪准确率提升显著；此外，为了增强孪生网络跟踪器应对复杂场景的能力，本文还提出了一种低时耗的在线自适应掩模策略。与在线更新模板不同，本文通过互相关输出学习搜索图像中背景噪声的复杂度，根据复杂情况自适应地对搜索图像掩模，抑制了大量的背景噪声干扰，使得跟踪器能够在复杂的场景下保持鲁棒的性能。本文将提出的两点创新应用于Siam-FC，在OTB100[20], GOT-10k[21]测试集进行大量实验，结果展示跟踪器性能有较大的提升，获得了9.4% (OTB100), 26.1% (GO T-10k)的相对改进。

2 关键特征信息感知模块

孪生网络跟踪器SiamFC[10]可以用式(1)建模，

其中，x和z分别为输入的模板图像和搜索图像，φ表示特征提取网络，corr为互相关运算，R表示矩阵响应图，通过R中的最大值定位到目标中心位置。式中φ参数共享于模板图像和搜索图像分支。简单地使用AlexNet[14]作为特征提取网络不能充分挖掘孪生网络结构的潜力，于是本文提出了一种关键特征信息感知模块并嵌入AlexNet，如图1所示。为了证明该模块的通用性和有效性，本文还额外地以SiamFC-DW[18]为基准进行对比实验。

图1 本文跟踪器框图

本文选择在AlexNet第3层后嵌入该模块，原因在于前3层提取的特征都是较为浅层的图像特征，而后两层则是更加抽象的语义特征。本文设计的关键特征信息感知模块如图2(a)，首先通过多种尺度的最大池化下采样层来获取不同尺度的特征信息并融合，丰富卷积特征每个像素的感受野，以此提供更多关于目标位置信息的先验知识给跟踪器，本文采用的下采样池化核大小为3× 3 和5× 5。然而在不同尺度的特征信息融合过程中，同时带来了大量的干扰信息，导致跟踪器的性能不够稳定。如表1所示，在SiamFC基础上使用多尺度特征提取策略下以同样方式多次训练模型，并测试它们的性能，结果显示性能浮动较大且提升不够明显。

表1 训练模型在OTB100上的AUC性能(%)

图2 关键特征信息感知模块结构

为了得到稳定且更加鲁棒的性能，网络要选择性地对目标的关键特征信息增强并抑制无用特征信息，即只捕捉目标最显著的图像属性。一种简单有效的方式是对卷积特征的不同通道赋予不同的权重，可以用式(2)表示

本文还提出了另一种可替代图2(a)的结构，如图2(b)所示，与图2(a)不同的是，图2(b)通过多尺度最大池化下采样得到特征后并没有直接融合，而是对这些不同尺度的特征分别输入通道注意力进行权重赋值，最终将校准后的特征融合。本文以SiamFC和SiamFC-DW为基准算法对这两种结构进行对比。对比结果如表2，使用结构1的SiamFC相较于基准准确率提高了6.8%，且超过了表1中的最大提升4.3%，速度下降了17 fps；使用结构2准确率提高达到了7.5%，速度下降增加到30 fps，但也远超实时要求。SiamFC-DW在两种不同结构下分别提升了2.6%和4.0%，表明本文提出的关键特征信息感知模块在网络判别能力足够强大的基础上还有提升。

表2 两种不同关键信息感知结构对比

本文将图2(a)的结构1嵌入SiamFC的特征提取网络AlexNet后，经过端到端的训练，将模型应用在OTB100[20]的两个视频序列Bolt, Board上，并可视化模型学习到的互相关层输出的特征信息。如图3所示，每个视频序列随机抽取某几帧，上行是SiamFC模型学习到的特征可视化情况，下行是嵌入关键特征信息感知模块后模型学习到的情况。从中可以看出，嵌入该模块后，跟踪器关注的目标特征热点更加聚集，排除了大量干扰，有效提升了模型的判别能力。

图3 互相关层输出的特征可视化

3 在线自适应掩模

在特征提取网络中嵌入关键特征信息感知模块后，模型的判别能力有了质的提升。然而，跟踪器的性能在复杂场景下仍不够鲁棒，无法抵抗一些严重相似物体的干扰，如图3 Bolt的第5帧所示，跟踪器表现出了漂移到目标左侧的相似干扰物体上的趋势，这类干扰物体的突出特征会分散模型的注意力。因此，本文还提出了一种在线自适应掩模策略抑制干扰信息，突出前景目标，以此来应对复杂场景。如图1所示，该策略通过在线学习掩模参数以达到自适应的效果。相比于传统的图像掩模方式，本文的自适应掩模可以捕捉视频流中目标的动态变化信息。而传统的方法无法适应目标变化，抑制过程会给图像的前景信息带来损耗。

图4 在线自适应掩模示意图

表3 在线自适应掩模

4 实验结果

本文基于Python的Pytorch实验平台，PC配置CPU为Intel i7-10700F，GPU为NVIDIA GeForce RTX 1080Ti，内存大小12 GB。基准SiamFC以及本文提出的算法统一在GOT-10k标注训练集上训练。训练过程采用随机梯度下降(Stochastic Gradient Descent, SGD)优化器进行优化，epoch为50，初始学习率为1e-2，并以指数形式衰减，batch size为8。测试时使用了OTB100, GOT-10k数据集对本文跟踪算法测试分析。本文提出算法模型的关键参数可在图1查看。实验时关键信息特征感知模块采用具有代表性的图2(a)结构1。

4.1 性能评估指标

本文基于成功率(Success Rate, SR)和精度(Precision)两个性能指标来评估跟踪器性能。成功率通过计算跟踪预测框与实际标注框的重叠率(Intersection-over-Union, IoU)在给定阈值下的曲线下面积(Area Under Curve, AUC)；精度通过中心位置误差(Center Location Error, CLE)在给定的20个像素距离阈值下的成功跟踪率。

其中，S表示跟踪目标框的面积，pre表示算法预测框.truth表示实际标注框，L表示目标中心所在位置，使用的是欧氏距离。

4.2 定量分析

4.2.1 OTB100实验结果

OTB100是目标跟踪领域最常用的评估数据集，共包含100个视频序列，视频的具体场景有背景复杂(Background Clutter, BC)、光照变化(Illumination Variation, IV)、尺度变化(Scale Variation, SV)、遮挡(OCClusion, OCC)、形变 (DEFormation, DEF)、运动模糊(Motion Blur, MB)、快动作(Fast Motion, FM)、平面内旋转(In-Plane Rotation, IPR)、平面外旋转(Out-of-Plane Rotation, OPR)、离开视野(Out-of -View, OV)、低分辨率(Low Resolution, LR)11种，是最常用的评估数据集。实验将本文所提跟踪算法与当前主流的孪生网络跟踪器SINT[9], SiamFC[10], CFNet[11],SiamRPN[12], SiamFC-DW[18], SiamRPN++[17]和相关滤波跟踪器DeepSRDCF[7], SRDCF[6],Staple[5], KCF[4]进行对比。实验结果如图5所示，本文算法AUC=0.639, Precision=0.861，相较于基准算法SiamFC分别提高了9.4%和11.5%。

图5 10种算法在OTB100数据集上的跟踪性能对比

针对11种不同的场景，表4展示了本文跟踪算法跟主流孪生网络跟踪算法在这些复杂场景下的AUC对比。从表4可以看出本文算法几乎在所有场景下都取得了最优或次优的性能结果，并且在尺度变化、背景复杂和运动模糊场景下相较于基准提升近10.4%, 16%和19%，这进一步验证了本文所提的跟踪器模型具有很强的判别能力，能够在各种复杂场景下区分出前景目标。

表4 10种算法在OTB数据集上不同场景的AUC定量对比

4.2.2 GOT-10k 实验结果

GOT-10k是最新发布的大规模和多样性的目标跟踪评估数据集，评价指标包括平均重叠(Average Overlap, AO), SR。AO表示所有评估的边界框和标注框之间的平均重叠率，SR0.5和SR0.75分别表示阈值0.5和0.75下的SR。

10种算法的性能对比如图6所示，本文跟踪算法相较于基准算法SiamFC，AO由0.326增加到0.411，提升了26.1%。对比于主流算法SiamRPN,SiamFC-DW有12.0%和7.0%的性能优势。除次之外，本文还将SR0.5和SR0.75展示于表5，本文算法的SR0.5, SR0.75相较于SiamFC提升了39.4%和78.6%。

表5 10种算法在GOT-10k数据集上性能对比

图6 10种算法在GOT-10k数据集上的跟踪性能对比

4.2.3 消融实验

为了验证本文提出的两个创新点：关键信息特征感知模块(创新1)、在线自适应掩模(创新2)的有效性，以SiamFC算法为基准在OTB100数据集上做了消融实验。实验结果如表6所示，仅采用关键信息感知模块或在线自适应掩模的曲线下面积和Precision提升分别为曲线下面积(6.8%, .7%)，精度(7.6%, 6.0%)，而结合二者提升可达曲线下面积(9.4%)和精度(11.5)。

表6 本文算法在OTB100上的消融实验结果

4.3 定性分析

本小节直观地对比了本文算法和对比算法的跟踪效果，实验选取了基准算法SiamFC和在本文实验表现最优的算法SiamRPN, SiamFC-DW, Deep-SRDCF在OTB100数据集上的4个视频序列(Board,Soccer, Singer2, Dragonbaby)进行跟踪效果对比，这些序列都包含相似物体干扰、背景信息杂乱、目标形变等复杂场景。

对比结果如图7所示，每种颜色代表一种算法的预测框。Board序列中第30帧和40帧由于背景杂乱导致SiamFC漂移严重，而本文算法能够准确跟踪；Soccer序列存在大量相似干扰物，在第232帧只有本文算法精确定位了目标物体且重叠率最高；Singer2视频中目标形变以及背景颜色干扰严重，从第32帧开始所有跟踪器都漂移，只有跟踪器能在此复杂场景中区分出前景目标；Dragonbaby中男孩脸部存在目标形变及运动模糊等情况，在第44帧时，SiamFC, SiamFC-DW, DeepSRDCF都发生漂移，并且SiamFC在后续跟踪过程再也无法找回目标，而本文跟踪器却能保持准确的跟踪状态。

图7 5种算法的跟踪实例对比

5 结束语

本文为了提高孪生网络跟踪器精度，基于通道注意力机制，提出了一种通用关键信息特征感知模块来选择性地增强有用信息，并将该模块嵌入特征提取网络从而有效提高了网络模型的判别能力；本文还提出了一种低时耗的在线自适应掩模策略，以此来突出前景目标，很大程度上抑制了背景信息的干扰，在兼顾跟踪速度的同时进一步提高了跟踪器精度。通过OTB100和GOT-10k实验表明，本文提出的跟踪算法具备优秀的跟踪性能，并且能够在各种复杂场景下保持鲁棒性能。