抗遮挡目标跟踪的模型学习综述

2022-01-25 18:54谢郭蓉蒋镕圻

计算机工程与应用 2022年2期

谢郭蓉，曲毅，蒋镕圻

1.武警工程大学研究生大队，西安 710086

2.武警工程大学信息工程学院，西安 710086

目标跟踪作为计算机视觉领域研究的一个热点方向，在智能人机交互、视觉导航等领域中应用广泛，它是利用图像序列上下文信息，对目标外观与运动状态构建模型，并对目标轨迹位置进行预测与标定的任务[1]。由于跟踪场景干扰和目标运动状态具有不确定性，跟踪面临目标形变、尺度变化、平面内外旋转、光源变化、背景杂乱、相似干扰、遮挡等挑战因素，随着跟踪算法不断发展，目前目标形变、光源变化等问题已有解决方案，但缓解因遮挡导致的跟踪漂移问题仍未有明显起色，因此遮挡问题仍是目标跟踪的热点与难点问题。如表1为最近VOT跟踪算法竞赛最具挑战性的前三项属性场景的平均性能，包括遮挡（occlusion，OC）、尺度变化（size change，SC）、运动变化（motion change，MC）、光照变化（illumination change，IC）、相机抖动（camera motion，CM）。可见，遮挡作为实际场景中频繁出现的因素，最具有挑战性。

表1 VOT前三项最具挑战属性的平均性能Table 1 Average performance of top three most challenging attributes of VOT

跟踪遮挡目标极易漂移的原因主要有：（1）因遮挡物覆盖导致目标部分特征消失，此时易因模型难匹配而跟踪失败的问题。（2）遮挡物位置邻近目标，可能会在候选框内引入背景干扰信息，随着误差积累，模型易漂移至干扰物上。（3）当目标被完全遮挡时，为及时检测目标需扩大搜索范围，但因引入大量干扰物导致模型误判崩溃。

为实现模型在复杂场景下的稳健跟踪，应特别注意模型学习更新过程中拟合的有效性。一方面，模型需要及时拟合外观变化的目标并更新，以防跟丢目标对象；另一方面，要避免模型过拟合被遮挡受损样本及相似遮挡干扰物。实际上，学习提取有效信息以构建强判别力的跟踪模型，能缓解过拟合问题；结合恰当模型更新机制，有助于提高模型跟踪可靠性，这些对适应遮挡等复杂场景具有关键意义。

为提高跟踪算法在遮挡等实际场景下的性能，本文首先剖析了遮挡属性不利于跟踪的原因，指出了提高模型抗遮挡性能的根本思路，而后基于模型构建与学习的角度，分析了遮挡场景下跟踪效果更优算法的有效抗遮挡方案及各策略对长期遮挡的适应性，包括：（1）基于高质训练样本的跟踪算法。引入挖掘易误检负样本，提高模型抵抗遮挡等语义或非语义干扰能力；生成与管理多样高质正样本，提高模型泛化性能；生成类遮挡硬阳性样本，针对遮挡场景属性特点，使模型学习对遮挡不敏感的鲁棒特征。（2）基于有效学习策略的跟踪算法，通过基于时间一致性学习、空间自适应学习的稳定模型训练，避免遮挡等突变样本帧的受损信息影响模型性能；通过针对实例跟踪任务设计有效学习策略，学习可判别形变目标与类间类内干扰的长期鲁棒特征信息，避免跟踪期间模型漂移。（3）基于可靠更新策略的跟踪算法，通过手工设计准确置信度、自适应决策更新时机及时检测到遮挡等不可靠状态后调整方案，建立时序记忆库、自适应估计模板更新策略校正错误更新，提高长期跟踪等场景下模型跟踪稳健性；而后对各策略代表跟踪算法在数据集上遮挡、出视野等属性及所有序列的性能进行比较分析，剖析了策略提升各属性场景性能的本质原因，最后总结抗遮挡策略并提出了骨干网替换及迁移学习场景理解、运动轨迹先验信息的研究方向。

1 基于高质训练样本集的跟踪算法

目前主流跟踪算法主要有两类：基于深度学习跟踪算法和基于相关滤波跟踪算法，后者常通过结合深度特征提高模型判别力，因此这两类算法均基于数据驱动，提升训练样本质量可获得显著跟踪效果提升。实际上，许多跟踪算法扩充样本集方式为目标周围密集采样，这存在正样本缺乏多样性、正负样本类别不均两大问题，造成训练所得模型抗干扰能力、泛化性能差，易漏判被遮掩目标视觉特征、误判相似干扰物为正样本。针对这些问题，构造高质训练样本集的策略，使模型学习到可区分被遮挡目标与干扰物判别性信息，提高跟踪算法的抗遮挡性能。

1.1 易误检负样本引入与挖掘

跟踪场景总存在背景环境、遮挡物和相似物等干扰信息，这使模型容易在部分遮挡时漂移至遮挡物上，在严重遮挡、出视野后因漂移至语义干扰物上而难以恢复跟踪。实际上，限制模型抗干扰性能的原因之一，是跟踪任务存在训练样本分布不均衡的问题：（1）跟踪视频图像中，跟踪对象实例往往占比很小，存在大量非语义背景干扰信息，而这些大量简单负样本易主导模型训练过程，这让跟踪器倾向于学习非语义背景与语义样本差异，缺乏类间、类内判别信息而易漂移至语义干扰上。（2）用于跟踪模型离线训练的大规模数据集常用于分类检测任务，虽其提供了一定类间判别信息，但类内判别信息不足，因其不完全适用跟踪特定对象的实例级任务。

因此，提高跟踪模型抗干扰能力的思路之一，为引入或挖掘充足的易误检负训练样本，避免大量冗余简单负样本主导学习，从而引导模型注意判别正负语义样本的特征，主要方案有：（1）改进损失函数降低无效负样本的影响，这类算法有文献[2-4]；（2）挖掘少数易误判负样本，这类算法有文献[5-8]；（3）引入真实场景高质负样本，语义越相似越能使模型专注细粒度特征，此类算法有文献[9-10]。这些少量高质的有效硬阴性样本对提高模型判别力具有显著效果，有助于在目标遭遇严重遮挡、完全遮挡、出视野后，缓解跟踪器漂移至相似干扰物上的问题，为遮挡等复杂场景下的长时稳定跟踪发挥重要作用。如表2为高质负训练样本代表跟踪算法及其策略特点。

表2 高质负训练样本代表跟踪算法及其策略特点Table 2 Representative tracking algorithm for high quality negative training samples and strategies characteristics

应当指出，着眼负训练样本处理的策略，目的均为学习能区分背景干扰或语义相似干扰的判别性特征。其中，基于设计损失函数降低大量简单负样本主导影响的方式，能改善跟踪效果的同时加快训练收敛速度，但若无高质负样本引入，其性能提升将效果有限；在线硬负样本挖掘策略，其手动设置的阈值有应用场景局限性；引入高质量负样本能促使模型学习判别信息，一般数据增强操作，能应对光线、尺度、平移等简单挑战属性，但最有效方案是引入类间、类内语义负样本，通过缓解非语义背景与语义干扰样本不均衡问题，引导模型学习细粒度特征，更贴合跟踪任务模型学习实例对象信息的需求。

另一方面，上述策略通过使模型专注学习语义正负样本间的差异，增强跟踪器抗干扰能力。但跟踪器性能仍依赖于观测模型的质量，尤其在长期遮挡场景下，会放大误差积累作用，模型更易崩溃。实际上，硬阴性样本引入满足数据驱动要求，在长期部分遮挡时利于缓解判别目标与遮挡物，在长期完全遮挡下有助于缓解重检测的漂移问题。因此，有效的负训练样本处理策略，是解决短时和长时遮挡问题的一种有效途径。

1.2 多样高质正样本生成与管理

在遮挡等复杂场景下跟踪，一方面目标会因自身状态与外界干扰而发生表观变化，另一方面遮挡物会污染原正样本，满足多样性、高质量的正训练样本集，能使得模型充分学习到对遮挡、形变等不敏感特征，准确判别因遮挡而表观变化的对象。

跟踪观测模型鲁棒性与正训练样本质量息息相关，但由于采样框内常包含正样本周围的背景干扰，样本易被遮挡、形变场景污染，因此正训练样本质量往往不佳。为降低受损样本及干扰物不利影响，文献[9-12]通过类裁剪操作去除采样框内背景干扰，文献[13-15]以二值决策丢弃崩溃样本。虽其缓和了拟合错误信息问题，但其固定二值掩模及决策手段，忽略了样本间多样性与冗余性而丢失了许多有效信息。与其相比，算法SRDCFdecon[16]首次设计了联合学习目标外观模型、训练样本权重的学习函数，以连续权重捕捉中度遮挡等仍含价值信息的样本，结合对样本重要性权重的每帧优化更新，可重新确定样本权重进行错误校正，其联合学习函数如下所示：

其中，nk代表每帧平均采样数，ρk为k帧的先验权重，为k帧中提取的样本，L(θ;xk,yk)为样本损失函数，R(θ)为滤波器fθ的空间正则化项，等号右边第二项为样本权重正则项，样本权重αk以指数衰减最小化联合损失，其自适应性由参数μ控制。虽其训练样本净化策略有效提升了高质样本的重要性，在尺度变化，背景杂乱、遮挡等多种复杂场景下具有更优的跟踪性能，但该方法丢弃历史帧的方式仍有可能导致过拟合问题，其算法迭代过程也耗时较大。

维护样本多样性可提升模型泛化性能。但由于跟踪任务中仅第一帧被标记，模型常需要本身在线采集来扩充样本，但由于以下问题导致采集正样本缺乏有效性：空间上，密集采样和循环移位采样方式所得训练正样本高度重合；时序上，一段相邻帧中目标外观差异不大。简单暴力采样方式一味增加了无效正训练样本，损害模型泛化性，使其难判别因遮挡、平面内外旋转而形变的对象。有效维护样本多样性，学习鲁棒目标信息的方案主要分为：（1）基于组间差异最大准则的样本集建模，降低无效冗余样本和少量突变受损样本的负面影响，这类算法有文献[17-18]；（2）通过数据增强，生成位移旋转、形变等多类运动状态的目标样本，学习对遮挡等形变不敏感的鲁棒特征，此类算法有文献[10，12，17]；（3）自适应生成有效正样本，相比于人工设计的样本增量方案，能提供更适用于计算机视觉判别任务的样本信息，此类算法有文献[19-20]。如表3为基于有效处理正样本集的代表跟踪算法及策略特点和场景适用性。

表3 基于有效正样本集的代表跟踪算法及特点Table 3 Representative tracking algorithm based on effective positive sample set and its characteristics

应当指出，高质样本有利于模型学判别特征，增强抵抗遮挡物、背景干扰的能力；多样化样本能增强模型泛化性能，促使模型在遮挡等场景下鲁棒跟踪形变对象。然而，着眼于提高样本质量的方案中，正负信息难完全区分，即使是利用了更充分信息的重赋值样本方案，也无法避免过拟合问题，由于该方案未考虑跟踪时序信息，增强其复杂性可能也不能带来较大性能提升；相比前者，维持训练正样本多样性方案更贴近跟踪任务，样本组建模方案能去冗余信息，数据增强能补充类似运动状态样本、自适应生成方案能弥补训练数据集类别不足的问题，然而这种方案并未针对跟踪属性设计，因此无法判断补充和生成的样本是否可靠，并且还存在耗时大的风险。

另一方面，长时遮挡场景会为样本在线引入长期干扰信息，在线样本组建模、净化去污等提高样本多样性与质量的策略，在较长一段时间内模型依旧会拟合这些受损样本，通过二值掩模裁剪去除大部分背景干扰信息等操作，会因缺乏空间学习自适应性而过拟合。离线数据增强、自适应生成样本等策略，能改善长时遮挡场景跟踪性能，但其依旧依赖于目标模型的稳健性。

1.3 类遮挡硬阳性样本生成

训练数据集中，具有遮挡、形变等属性样本符合长尾分布，可供模型学习的对遮挡不敏感信息较少。生成类遮挡样本的策略，能通过遮掩、交换特征通道等方法模拟目标被遮挡效果，是提高遮挡目标跟踪稳健性的针对性方案，其可分为三类：降噪处理特征向量、对抗生成学习创建掩模、强化学习自适应决策。

算法TRACA[17]基于两种外部降噪准则处理特征向量，捕获输入特征分布的不同结构：一是通过随机移除固定数量通道的特征信息，让自动编码器学习如何恢复受损信息；二是随机交换空间卷积特征向量，其背景与目标区域的特征向量交换可模拟遮挡目标，两种处理方式能促进模型学习对遮挡、形变等不敏感特征，但其未考虑上下文聚类与特征压缩之间相关性，性能可能还有提升空间。

文献[20-21]通过对抗生成网络随机创建特征遮挡掩模，自适应丢失特征通道生成类遮挡样本。算法AFNT[21]设计对抗融合网络（AFN），其由对抗空间丢失网络（ASDN）与对抗空间变换网络（ASTN）组成，前者学习形变参数旋转目标；后者作用于原始特征生成连续热图，结合样本随机性与多样性进行重要性采样，生成对部分特征作置零处理的二值掩膜，提升了模型对形变、遮挡对象跟踪的稳健性，然而其生成的类遮挡、形变样本仍然与实际遮挡情况有一定差距，性能提升不明显。

相比上述方法，利用强化学习产生的硬性正样本更贴近实际场景中目标被遮挡的情况。算法SINT++[19]设计硬阳性样本变换网络（HPTN），依据MDP马尔科夫思路，对遮挡目标的背景区域和遮挡目标区域，利用强化学习自适应决策最优定位。其基于自适应决策生成类遮挡样本的方案具有启发性，然而与先进跟踪器相比，基本跟踪器设计较简单，导致跟踪效果与时效性均存在差距。如表4所示为不同生成类遮挡样本策略的性能比较。

表4 生成类遮挡样本策略的性能比较Table 4 Performance comparison of occlusion-like samples generation strategies

由表4可知，模拟遮挡策略生成的类遮挡训练样本对模型性能提升效果不同：随机去除特征通道效果不大，甚至还会降低性能；降噪处理特征通道、对抗生成学习创建掩模、强化学习最优生成遮挡区域的三种策略，相比未经处理的算法性能有明显提升；但对抗生成学习创建掩模方案生成的类遮挡样本，还不能证明其在跟踪任务中的可靠性；相比较而言，以降噪准则将背景与目标特征进行交换、强化学习寻找最优遮挡与被遮挡区域的两种策略，因同时考虑了背景遮挡物干扰信息引入和因遮挡目标表观特征变化的情况，更贴近于跟踪对象被遮挡的实际情况，性能提升略优于前者；除此之外，基于生成硬阳性样本方案的算法性能仍依赖于跟踪器的其他模块。

应当指出，生成硬阳性样本是针对遮挡问题的有效策略，但对其他跟踪挑战属性场景的性能改善不明显，而长期遮挡场景往往更加复杂，目前生成的类遮挡样本与实际场景存在一定差距，因此该策略可能对长期遮挡场景跟踪改善有限。

2 基于有效学习策略的跟踪算法

由于跟踪任务真实标注样本有限，算法常通过在线训练和预先在大规模数据集上训练模型或提取特征，这存在以下问题：一是部分数据集和网络框架训练有类间语义判别信息匮乏的局限，容易导致遮挡、背景杂乱的漂移问题；二是在线训练容易引入背景、遮挡物等污染信息，误差积累导致模型崩溃。设计有效且稳定的学习策略，是学习鲁棒特征与提高抗语义干扰性能，实现模型在遮挡等复杂场景下稳定跟踪的有效方案。

2.1 构建稳定模型的被动学习策略

算法在跟踪采集样本期间，可能会无意识引入目标旋转、形变等错位受损样本，遮挡、相似干扰等错误干扰样本，判别性能下降。在跟踪时期，训练学习的稳定性深度影响了模型抗干扰性能与判别力强弱，维持模型训练优化过程平稳性的方案主要有：（1）基于时间一致性的学习策略，训练期间约束模板，使模型倾向历史帧，缓解因错误学习短期形变、遮挡等邻近突变帧造成模型退化的问题，此类算法有文献[22-26]；（2）基于自适应外观学习策略，自适应判断学习未被遮挡的可靠区域特征信息，此类算法有文献[26-27]；（3）基于多模态专家的学习策略，能在遮挡时漂移或跟踪失败时校正模型，捕获长时序上的鲁棒特征信息。此类算法有文献[13，28-30]。

基于时间一致性的学习，能避免模型过度依赖邻近帧，缓解过拟合短期集中出现的遮挡等受损信息的问题，提高了跟踪变化外观较大对象的时序稳定性，对遮挡、平面内外旋转等属性应对较好。如表5为基于时间一致性学习的代表跟踪算法及其目标函数、特点和局限。其中，D、L分别为总特征通道数和每通道特征向量元素数，分别代表t帧训练样本、对应d通道特征向量的滤波器权重向量、对应第d通道特征向量的第i个元素的滤波器系数。向量y代表高斯分布期待响应，*代表空间相关操作，λ、η、λ1、λ2代表正则化参数。算法STRCF中，w͂代表高斯状空间权重矩阵，目的是使目标中心有较高响应。算法TRBACF中，P为对角二元矩阵，使相关运算符直接应用于真实前景与背景样本上。应当指出，基于时间一致性学习算法，虽弥补了模型易被遮挡等剧烈形变帧污染而崩溃的问题，但忽略了视频前后帧间物体的时序关联信息，且改善程度受特征质量的局限，对外观突变属性可能比较敏感，在较长时间遮挡或形变场景下仍无法避免模型退化问题。

相比上述方案保持时序稳定，空间自适应学习策略能在部分遮挡、背景杂乱等场景，使模型学习可靠目标区域而降低拟合干扰风险。预先定义空间正则化的相关滤波跟踪器会优先关注模板框中心，由于缺乏自适应性而无法抵抗目标受损区域信息[9，31]。文献[26-27]引入自适应空间正则化项抵抗部分遮挡，对被遮挡不可靠区域给予更大惩罚，鼓励过滤器将注意力集中在未被遮挡的可靠区域上，学习可靠目标空间信息。算法ASRCF自适应空间正则化的目标函数如下所示，其中，wr为参考权重矩阵，空间权重矩阵w具有自适应性，其余符号释义与表5中符号相同。

表5 基于时间一致性学习的代表跟踪算法及特点Table 5 Representative tracking algorithm based on time consistent learning and its characteristics

得益于自适应学习可靠空间信息，在杂乱、变形、遮挡等场景下，该类算法性能甚至优于不少时空正则化算法，但因忽略了时序鲁棒信息，性能还能进一步提升。

上述策略以设计函数增强训练稳定性，基于多模态专家的算法则通过维护外观模型集合，在遮挡、平面内外旋转等挑战场景下，选择可靠模型校正错误跟踪状态。算法TCNN[28]以树形结构卷积神经网络协作管理多个外观模型、估计目标状态，隔离局部分支中因严重遮挡等造成目标外观剧变的视频帧，保持可靠路径避免模型漂移，但其候选框生成依赖前帧位置，因此应对目标出视野问题不佳。算法MEEM[13]提出将跟踪器与其历史快照构成专家集合的多专家跟踪框架，引入频繁遮挡、外观变化等错误图像样本时，检测到专家间出现分歧后，以最小熵准则选择最佳专家，无需先验知识就可恢复并校正当前跟踪模型。算法MCCT[29]提出维护管理不同外观的多线索跟踪器框架，各专家融合不同特征，每帧均挑选最佳专家输出跟踪结果，由于多线索框架挑选各场景最适应的目标表征，因此改善了遮挡场景的性能，然而由于基本专家跟踪器简单，不易抵抗相似语义干扰。

应当指出，上述三种策略既能保持外观多样性，又可缓解遮挡形变物污染模型的问题。其中，时间一致性学习策略通过约束模板突变，减轻滤波器退化问题；与其相比，空间自适应学习策略能更灵活处理目标区域形变、部分遮挡，其抗遮挡性能效果更优；然而，上述两种依赖模板函数优化提升模型训练稳健性的策略，未利用跟踪大跨度时间的时序信息，且大多适用更新模式具有风险。多模态专家策略以保留维护多模态、专家，因能校正遮挡等形变剧烈样本帧的跟踪而更可靠，但其性能对模态、专家成分质量有较高要求，相应而来的是特征信息存储内存消耗的问题。

另一方面，在长期遮挡场景下，自适应空间学习策略能学习判断目标可靠区域，能缓解遮挡时长影响，捕获可靠外观变化，改善跟踪器效果。然而，基于多模态专家的短期跟踪器内存有限，其与基于时间一致性的跟踪器类似，防模型过拟合的范围限于近期突变帧，而这些算法往往配合较简单更新方式，因此极易长期学习错误信息，误差积累导致模型崩溃。

2.2 适于跟踪的主动学习策略

目标跟踪算法在线、离线训练特点不同：（1）在线训练可较好适应目标外观模型变化，但由于真实标注样本少，跟踪目标状态多变，判别力不足的模型在遮挡等复杂场景下易过拟合受损、错误样本，有耗时问题。（2）离线训练能以不变的目标通用表达，避免对错误帧的不当学习导致污染模型，对遮挡、平面内外旋转属性友好。但实际跟踪场景会同时出现多种挑战属性，仅靠离线训练集的固定外观模型往往难以抵抗，且难建模任意目标。

实际上，跟踪算法离线训练或预训练的数据集常用于检测分类任务，但检测与实例跟踪存在本质不同：一是检测任务需区分目标类别，比只需区分前背景差异的跟踪任务，有信息冗余；二是检测分类任务提供类间判别信息不足，而特定对象跟踪要求抵抗类间干扰，尤其在背景杂乱、遮挡、出视野等场景劣势明显。

因此，离线学习构建本质鲁棒目标模型，使其对遮挡、相似干扰等因素不敏感；在线学习防拟合错误受损信息，增强模型训练过程稳健性，是实现遮挡等场景稳定跟踪的本质方案，其思路可分为：（1）特征融合策略，合理考虑融合多层、多类型特征信息应对各类挑战属性，此类算法有文献[7，12，33-35]；（2）多域学习策略，以跟踪序列数据作为训练样本，多分支结构捕获对跟踪各域不敏感的鲁棒适用特征，此类算法有文献[6，36]；（3）对抗生成学习策略，学习识别长期鲁棒性而非判别性特征信息，此类算法有VITAL[2]；（4）干扰感知学习策略，增大对相似干扰物惩罚来优化学习样本质量，此类算法有文献[8，10]；（5）目标感知学习策略，专注构造特定跟踪对象模型，更贴近实例跟踪任务，此类算法有文献[35，37]，如表6为利用有效学习策略的代表跟踪算法及特点。

表6 基于主动学习策略的代表跟踪算法及特点Table 6 Representation methods based on aggressive learning strategies and its characteristics

应当指出，融合特征、多域学习等策略均着眼于构建鲁棒目标模型，学习对遮挡等属性不敏感信息，提高所有复杂场景下跟踪稳健性；干扰感知、目标感知策略则侧重增强抵抗干扰能力，弥补CNN网络提供类内判别信息不足的缺陷，在部分遮挡时防误判遮挡干扰物，全遮挡时防漂移到相似物上。然而，特征融合策略的简单融合方式易引入冗余信息掩盖特征的层次关联信息，大量参数也会增加过拟合风险；多域学习策略无法避免学习到遮挡样本对应的强判别性特征，导致模型退化；对抗生成学习捕获特征相对其他策略更具有长期鲁棒性，但其不适用低分辨率视频帧；干扰感知策略需配合负样本数据增广等手段，否则提升不明显；目标感知策略专注对象模型，能结合深度特征分离相同语义标签的不同对象，但其仍未利用跟踪上下文等有效信息，选取特定通道的表征方式仍不能避免语义相似干扰问题。

通过有效离线学习策略提升模型鲁棒性，是抵御长期遮挡问题的途径，但更关键的是固定相关模型要始终适应表观变化的目标对象，其中多属性学习、对抗生成学习因学习到对跟踪场景不敏感信息，因此有较好效果；而采用特征融合、干扰感知、目标感知等方案的相关算法能否长期避免拟合相似语义干扰，仍取决于其模型稳定性。

3 基于可靠更新策略的跟踪算法

由于遮挡、形变、尺度变化等属性往往同时出现在一段跟踪场景序列中，跟踪模型既要学习目标外观变化信息以防跟丢对象，也要避免拟合遮挡受损样本和干扰信息以防漂移。除训练策略之外，更新策略的有效性、稳定性同样关键，尤其在长期跟踪场景下更新策略质量的影响更为明显。因此，提高遮挡目标跟踪稳定性的方案思路为：通过有效决策机制为模型提供恰当更新时机，防遮挡等受损情况下的不当更新；稳健更新模型方案，适应对象变化外观的同时，校准漂移至遮挡等干扰的错误状态。

3.1 有效更新决策机制

复杂场景跟踪期间，当检测跟踪结果可靠时，以恰当学习率更新目标模型适应变化表观；不可靠时，则认为遭遇遮挡、出视野等情况，此时应避免模型错误更新。由此可见，能否准确判别跟踪状态非常关键，其主要包括手工设计置信度及自适应决策两种方式。

大多数算法使用手工设计置信度指标，决策更新时机。显然，对于依据置信度评估跟踪状态的更新方式，判断跟踪状态越准确，越有利于模型抵抗遮挡、相似干扰等样本污染，提高更新有效性。因生成式模型与判别式模型跟踪思路相异，其检测置信度也不同。如表7为生成式模型与判别式模型的基本思想、代表算法与置信度指标比较。

表7 生成式模型与判别式模型及其置信度比较Table 7 Comparison of generative model and discriminant model and their confidence

为提高对遮挡等干扰、漂移帧判断的准确性，更具针对性的置信度度量被不断提出，主要有在其基础上关联时序信息，可检测对应响应图波动的遮挡情况；增加质量评估可靠性，缓解模型误判遮挡物等语义样本；结合多类型置信度判断，通过更多关键信息提高多类型复杂场景的评估可靠性。如表8所示为代表性置信度指标及适应场景特点。为提高模型抗遮挡能力，应选用可反映目标是否处于遮挡状态的置信度指标。其中，最大响应值中s、y、w分别为候选图像、模板特征向量及滤波器权重。峰值旁瓣比（peak to sidelobe ratio，PSR）中gmax为峰值响应值，μs1、σs1分别是旁瓣的均值与标准方差。平均峰相关能量（average peak to correlation energy，APCE），Rmax、Rmin、Rw,h分别代表最大、最小、相应像素的响应峰值。置信图清晰平滑度指标与PSR与置信度平滑性（smoothness of confidence maps，SCCM）相关，其公式中代表第t帧的第i部分的响应图，代表置信度图的移位操作，Δ代表相邻帧置信度最大值移位，参数η权衡置信度图的清晰度与平滑度。定位不确定性估计指标中PSR(rt),max(rt)分别代表相关响应的峰值旁瓣比及峰值绝对值，为近Nq个跟踪帧的平均定位质量。

表8 代表置信度指标及特点Table 8 Representative confidence indexes and characteristics

虽然手工设计的置信度指标能在一定程度上改善跟踪稳定性，但缺乏自适应性，判别复杂场景跟踪状态往往存在误差。而基于自适应学习更新决策，通过训练网络学习最佳更新控制条件，在跟踪时根据当前帧更新需求判断更新节点，在更复杂的跟踪场景能获得更好收益，此类算法有文献[19，45-46]。算法LTMU[46]采用元学习方式学习何时更新，融合了几何、判别、外观，结合级联LTSM模块挖掘时序信息，学习有效控制更新条件和决策是否继续微调或全局搜索，在长时跟踪上得到了较大性能提升，但框架仍存在冗余和优化空间；算法PTrack[45]将跟踪视为部分可观察的顺序决策过程，基于数据驱动，基于强化学习方案学习何时更新外观、重初始化，以跟踪器决策动作为研究对象，通过强化学习学习最佳决策策略，虽然该算法在遮挡等场景下有较优性能，然而存在数据驱动的固有限制和较大耗时问题。

检测跟踪质量状态策略中，人工设计的置信度指标能有效检测到在遮挡、平面内外旋转等形变帧的不可靠跟踪状态，显著改善跟踪器的鲁棒性，但仍有较大的场景局限性，且因观测模型的质量与置信度设计相关，因此有时置信度指标高低也不能完全反映跟踪状态；自适应决策更新策略相比人工设计置信度，因让模型学会判断何时更新而可应对长时不确定性状态，在更复杂的长期跟踪场景，能决策模型初始化时机来处理全遮挡、长时遮挡、出视野等属性，但其网络结构复杂，存在时耗问题。

然而，依据时序信息判断的置信度指标不适用长期遮挡场景，因为很可能因为置信度变化不大而给予模型跟踪结果可靠的错误判断；而自适应决策更新或非时序置信度评估的方案，若能有效判断遮挡等不可靠情况，此时跟踪器能否保持长期遮挡场景的稳健性，取决于模型更新方案是否能继续学习可靠区域信息，因为简单降低学习率等更新方案很可能跟不上目标对象的变化外观。

3.2 稳定可靠更新方案

在遮挡、目标出视野等复杂场景下，跟踪模型不仅需要更新时机的准确判断，还需要防止不当更新方案累计误差。简单的线性更新策略，不仅导致对象信息随时间不断衰减，跟不上实际场景中对象表观的变化速度，还容易错误更新，在长期跟踪场景其劣势尤为明显。而基于时序记忆模型、自适应估计的更新策略具备从错误更新中校正恢复跟踪状态的优势，改善在遮挡等困难场景下的跟踪稳健性。

对于简单经典的更新时机条件，恰当的更新方案也能提高跟踪器的稳健性：低频更新算法，能更好抵抗环境语义干扰不利因素，更新方案需要专注拟合变化目标模型，以防损失大量在线外观信息而跟丢目标；高频更新算法，能及时拟合对象变化表观，更新方案需要注重的是如何从错误更新中恢复校正状态，以防错误累积导致模型崩溃。如表9为经典更新策略的优缺点分析及代表算法。

表9 经典更新策略优缺点分析及代表算法Table 9 Analysis of advantages and disadvantages and representative algorithm of typical update strategies

为保证跟踪器在遮挡等场景下的整体较优性能，那些更新决策方式简单的算法，往往会采取针对跟踪任务设计的更新方案或观测模型，不仅利用简单时机判别能较好适应变化表观的优势，也弥补其易致模型错误更新的缺陷。不更新模板的算法DaSiamRPN[10]，其得益于相似语义样本增广及干扰感知学习策略；使用逐帧更新算法VITAL[2]以对抗生成学习等策略学习长期鲁棒特征，更新时联合更新生成、分类网络；ECO[18]虽使用固定帧更新方式，但其基于外观差异建模的样本组与因式分解卷积操作，缓解了过拟合问题，且其样本组每帧更新，可捕捉间隔帧内的样本变化信息。依据简单置信度更新的跟踪算法，如算法MDNet[6]结合常规间隔长期更新与置信度短期更新，算法TCNN[28]依据各节点可靠度沿期望路径进行平滑更新，它们都只更新全连接层分支参数，避免过拟合问题。

文献[41，58-59]通过时序模型的建立维护及有效更新管理方案，存储各时序关键信息，在遭遇遮挡等外观突变或跟踪失败时激活调用，能发挥长时跟踪中校正错误更新，避免模型退化的作用。算法MUSTer[58]首次引入了ASMM记忆模型，基于时空一致性集成短时跟踪器，以关键点匹配与RANSAC估计作为长期跟踪组件，并以内点、遮挡点与匹配关键点的比例大小检测有无遮挡，虽然其关键点匹配模型能适用于平面内外旋转、部分遮挡等属性，但其仅对纹理特征足够明显的大目标友好，对于背景杂乱、快速运动等场景有局限性；算法短期记忆库存储孪生特征，采用先进先出的管理方式，跟踪不可靠时清空，长期记忆库存储孪生特征及语义特征，设置严格的长短期记忆库信息转移条件，以基于遗忘曲线的更新管理策略，保证其存储的特征具有长期鲁棒性；算法FuCoLoT[41]首次引入可有效作用于整幅图像的相关重检测器，通过维护管理在多时间尺度上训练的相关滤波检测器组，应对不同持续时间遮挡、目标消失等问题，并保留不被更新的初始过滤器，可从任何潜在污染模型中恢复，仅当检测可靠时，对短时跟踪器与检测器组进行线性更新。

实际上，对于离线性能较好的复杂跟踪器，简单在线更新方案反而可能会损害其性能。相比简单更新方案，自适应估计的更新策略对复杂场景具有更强灵活性与适应性，可分为：（1）自适应选择方案，以模型或特征池的最优选取为研究对象，能较好适应目标形态变化避免拟合漂移帧，此类算法有文献[30，35，53，60]；（2）自适应生成模板的更新方案，在部分遮挡等形变时可局部更新可靠区域，此类算法有文献[61-62]。如表10为基于自适应估计更新策略的代表算法及其特点。

表10 基于自适应估计更新策略的代表跟踪算法Table 10 Representative tracking algorithms based on adaptive estimation update strategy

应当指出，那些更新方式简单仍性能较优算法的关键，在于通过有效训练使观测模型有较好鲁棒性，从根本上避免错误更新的问题。但应对长时跟踪场景中严重遮挡、完全遮挡、出视野等属性，必须依赖于有效可靠的更新方案。相比简单线性更新方案，基于时序记忆模型、自适应估计的更新策略对遮挡等复杂场景下的跟踪性能提升显著，具备从错误更新中校正恢复跟踪状态的优势，改善在遮挡等困难场景下的跟踪稳健性。但基于时序记忆模型的更新策略仍有线性更新方案的局限性。在长期跟踪场景下，基于时序记忆模型及自适应选择的更新策略通过维护不受污模板或特征，初始化校正模型，而自适应生成模板的更新策略虽更灵活，但可能因需复杂网络设计而不如前两者有效。

另一方面，基于时序记忆模型的策略以长短期记忆库保留目标鲁棒信息，在长期遮挡后能调用关键信息重检测；而自适应估计模板方案虽对历史帧模板存在一定依赖性，但能够局部更新可靠区域，两者都能捕获长期目标外观，同时防止模型错误更新问题。

4 抗遮挡模型学习方案的有效性分析

为进一步分析遮挡等场景下，跟踪模型不同策略对提升算法性能的有效性，尤其对于遮挡、背景杂乱、出视野、平面内外旋转、形变等挑战场景属性的效果，选择了如下算法在挑战场景上性能比较：基于训练样本提质方面，选择了硬正样本生成SINT++、TRACA等，样本集管理ECO、SRDCFdecon等，高质负样本引入BACF、DaSiamRPN等算法；学习策略方面，选择了基于主动学习策略的VITAL、MDNet、ANT、DaSiamRPN、TADT等，基于被动稳定学习策略的LADCF、MEEM、TCNN等算法；更新策略方面，选择人工置信度评估LCT、CSRDCF等，维护记忆模型库更新的MUSTer等，自适应更新RDT、MemTrack等算法。如表11为各策略代表算法抗遮挡策略及相应数据集序列上性能及遮挡等六种挑战属性序列上跟踪成功率比较，其中OCC、BC、OV、IPR、OPR、DEF分别代表遮挡、背景杂乱、出视野、平面内旋转、平面外旋转、形变的场景属性，SM、SQ、SP、SN分别代表基于多样化样本、高质量样本、硬正样本生成、高质负样本引入的样本处理策略，LAT、LAD、LAM、LA分别代表目标感知、干扰感知、多域学习及其他主动学习策略，LPT、LPS、LP分别代表时间一致、空间自适应及其他被动学习策略，LF代表语义特征学习；UC、UM、UA分别代表人工置信度评估、基于记忆模板库、自适应更新策略。为比较策略有效性，引入基线算法，以S-N、LAD-N、LP-N、LF-N、U-N分别代表未采取样本处理、未干扰感知、未被动学习和仅用手工特征表示、简单经典更新方法作区分。

表11 各模型学习策略代表跟踪算法的性能比较Table 11 Performance comparison of representative methods with various model learning strategy

由表可知，对遮挡属性而言，数据处理、学习策略方面改进的性能提升效果明显超过更新策略改进方案。具体地，在训练数据处理方面，维护训练样本多样性的策略，对提升复杂场景下跟踪稳定性有显著作用，与其相比，生成硬正样本策略对遮挡目标跟踪效果的提升幅度差异不大，甚至其效果有时不如基于多样性样本管理策略的算法，负样本挖掘为辅助手段；在学习策略方面，设计网络提取长期鲁棒、判别力强特征策略以及多域学习场景属性的策略，能极大提升跟踪准确率与鲁棒性，遮挡场景下该类算法性能相较其他也具有明显优势，相比之下基于干扰感知、目标感知学习策略对性能提升稍显逊色，但在遮挡场景下可较好提升跟踪稳定性，基于时间一致性学习策略方案在遮挡等复杂场景下的增强效果，与其学习策略设计有效性相关较大；在更新策略方面，基于手工置信度评估效果不如自适应更新策略，基于长短期记忆库的更新策略的跟踪效果优于简单更新策略。

在背景杂乱、目标消失、平面内外旋转、形变等其他挑战场景属性下，各策略有不同改善程度：（1）着眼于训练样本提质的训练集净化、高质负样本引入策略，在背景杂乱属性下的性能改善相较其他具有明显优势，在出视野属性上提升并不显著；（2）维持样本多样性的样本集建模等策略，在背景杂乱、平面内外旋转、形变等属性上都能明显提升性能，在遮挡属性提升相对较少；（3）硬阳性样本生成策略虽能改善遮挡问题，但对整体跟踪序列上的性能提升并不明显，但硬阳性样本具有形变、旋转等属性时，对应场景跟踪性能可改善；（4）基于时间一致性学习策略在所有场景都能获得较明显改善，尤其是出视野属性，并且在各属性上提升程度优于训练样本去污等策略，但仍旧不如多域、多属性等主动学习策略；（5）除了背景杂乱属性，适用跟踪的主动学习策略在遮挡、平面内外旋转等属性上的性能均优于其他方案，与其相当的还有空间自适应学习策略，但目标感知学习策略的改善程度有时不如时间一致性学习策略；（6）依据人工置信度评估更新方案的跟踪器在背景杂乱属性上表现得比其他策略更优秀，但在遮挡、平面内外旋转属性上表现一般，在目标出视野、形变等属性表现不佳；（7）自适应更新策略更适用平面内外旋转等场景，在背景杂乱、遮挡等属性上表现不如其他策略优秀。

策略方案改善性能思路不同，因此对场景适应性不同：（1）时间一致性训练、多模态专家、空间自适应学习、置信度及自适应更新策略为捕获外观同时避免拟合突变错误信息，适应遮挡、平面内外旋转等外观变化重复的场景；（2）高质正负样本引入、干扰感知为提高模型抗干扰能力，适应背景干扰、出视野后重检测、遮挡等需要防止模型漂移的场景；（3）样本多样性管理为提高模型泛化性，适用形变、尺度变化等需捕获对象动态外观场景；（4）多域学习、多属性等策略构建对适用各跟踪属性场景的模型，力图适用各类场景。

实际上，应对背景杂乱、出视野、平面内外旋转、形变、长短时遮挡等问题各有侧重：（1）应对背景杂乱、出视野问题，要求有强抗干扰能力，背景杂乱属性中主要区分纹理等特征相似的干扰，一般手工置信度就能较好判断是否存在干扰物，训练样本集净化、高质负样本引入策略则从源头提高了模型抗干扰能力；（2）出视野后恢复跟踪，则要求模型具备判别语义干扰和判别可能表观已变目标的能力，对此时间一致性等学习策略能稳定捕获外观，因此能加以改善；（3）应对平面内外旋转、形变等属性，要求目标模型泛化性好，可拟合学习对象外观信息，可通过样本集多样性管理提高泛化性，记忆库保存重复外观模型的方式加以改善；（4）由于遮挡样本均为模型不应拟合的受损对象，要求模型鲁棒性好，避免拟合突变受损信息，以及抗语义和非语义干扰能力强，不漂移到遮挡或背景干扰物上；（5）长时遮挡会引入较长时间的遮挡物干扰及形变对象信息，此时仅能缓解对邻近突变帧拟合问题、关联时序指标判断状态的策略失效；（6）适应所有属性场景的最关键本质的方案为，构造鲁棒性、判别性好的目标模型，此时以高质多样训练样本处理来解决数据驱动局限，以长期鲁棒特征融合表征提高模型判别力，多属性、自适应、长短期记忆库等策略学习适用各场景属性下可靠信息等方案比较有效。

5 总结与展望

本文从基于高质训练样本集、有效学习策略、可靠更新策略的角度，对代表性跟踪算法的抗遮挡模型学习策略进行了分析，并对各方案应对背景杂乱、出视野、长短期遮挡等属性场景的改善程度进行了比较分析，指出提高算法在遮挡等场景下跟踪性能的本质方案为构造判别力强的鲁棒目标模型，其中主动学习对干扰不敏感信息的多属性学习、对抗学习、自适应空间学习等策略在多数复杂场景下优于其他，基于时间一致性学习等策略有场景局限性，先进数据处理与更新策略往往与学习策略配合，分别有助于提升目标模型质量和跟踪稳定性。目前，由于存在遮挡、目标消失等因素，即使是先进跟踪算法也无法完全适用实际复杂场景。着眼构建鲁棒目标模型的特征融合模块，虽其对跟踪性能影响最大，但因骨干网的固有局限，其性能提升也遭遇瓶颈。因此，通过设计适于跟踪的骨干网并替换，可能会带来较大提升。再者，相比计算机视觉，人类视觉依据对场景理解与目标运动规律的先验知识，可自发忽视场景不利干扰，在遮挡等复杂场景预测目标轨迹状态。随着对抗生成学习、元学习方法不断成熟，其有望捕获场景及运动信息，迁移到长期复杂跟踪任务中为其提供充足的先验多维信息。