基于相关滤波的目标跟踪的研究

2018-10-24 07:46董艳兵

电子设计工程 2018年20期

董艳兵

（1.中国科学院上海微系统与信息技术研究所，上海200050；2.上海科技大学信息科学与技术学院，上海201210；3.中国科学院大学北京101407）

目标跟踪是计算机视觉中非常有挑战性的任务之一，它的目的是估计一个目标在图像序列里的位置。它在很多应用中有扮演了很重要的角色，比如人机交互，监控和机器人[1-2]。有一些因素，比如光照变化，遮挡，背景杂乱和变形使这个任务变得复杂。近些年来，相关滤波[3]已经被证明比那些非常复杂的方法更有竞争力，因为使用非常少的计算资源就可以达到很高的帧率和性能。这主要是利用了两个图像块的卷积等价于在频域逐元素进行相乘。因此通过在频域对问题进行建模，对于图像的多次平移，可以通过一次计算得到理想的线性分类器的输出。从而使得相关滤波在目标跟踪中得到非常广泛的使用。

1 目标跟踪

1.1 目标跟踪的定义

目标跟踪是跟踪一个目标在图像序列中的轨迹，要求跟踪算法是无模型，短期以及因果性，具体含义是:

1）无模型（model-free）:唯一的训练样本就是第一帧中目标的位置，用矩形框表示。

2）短期（short-term）:当跟踪器没有跟踪到物体时，不进行重新检测操作。

3）因果性（causality）:跟踪器不使用任何将来的图像帧来进行计算。

1.2 目标跟踪的流程

在文献[4]中，作者将一个跟踪系统分解成5个部分，每部分如下：

1）运动模型：基于上一帧估计出来目标的位置，运动模型会在当前帧产生一个候选区域的集合。

2）特征提取器：提取每个候选区域的特征。

3）观测模型：估测模型会基于从候选区域提取的特征去判断候选区域是否为目标。

4）模型更新器：模型更新器控制着更新观测模型的方法和频率，平衡着模型的适应性和漂移程度。

5）集成后处理：当一个跟踪系统由多个跟踪器组成时，集成后处理会使用集成学习的方法从多个跟踪器的结果中得到最终的结果。

1.3 目标跟踪评测数据库

目标跟踪任务中，测试视频序列有着多样性的属性，用来检测跟踪器的准确性和鲁棒性，常见的属性有：光照变化，大小变化，遮挡，变形，运动模糊，快速运动，平面内旋转，平面外旋转，不在视野内，背景杂乱和低分辨率。

现在目标跟踪任务常用的数据库有Online Tracking Benchmark（OTB）和 Visual Object Tracking（VOT）。其中

1）OTB：两个版本，分贝是OTB2013和OTB100[5]，有彩色视频序列和灰度视频序列

2）VOT：从 2013[6]年开始，每年有一个挑战赛（Challenge），会更新数据集。

表1中列举了OTB和VOT数据库包含的视频序列。

表1 视频个数

2 基于相关滤波的目标跟踪方法

相关滤波是一种训练一个线性分类器用来区分图像块和它的平移是否为目标的算法，它很适合目标追踪这个任务，因为在频域的定义为目标追踪提供了快速的解，使得跟踪器每帧都可以训练一次。这种方法使用在样本上训练的滤波器对目标的外观进行建模，基于第一帧中以目标为中心的跟踪窗口选择要跟踪的对象，然后跟踪和滤波器的训练就在一起进行了。通过在下一帧对滤波器和搜索窗口做相关操作来跟踪目标，相关系数中最大值对应的位置就是目标的新位置，然后基于这个新的位置就可以对滤波器进行在线更新。

为了快速地构造一个跟踪器，相关性在频域通过快速傅里叶变换（FFT）计算，首先输入图像和滤波器的2维FFT可以定义为，其中f和h分别为输入特征和滤波器，为FFT。卷积定理表明空间域的相关操作在频域就是逐元素相乘。使用☉显示地表示逐元素相乘，*表示复数共轭，那么相关操作在频域就可以表示为：

2.1 Minimum Output Sum of Squared Error（MOSSE）

在MOSSE[7]方法中，需要一个训练图像fi和输出yi的集合，通常情况下，yi由高斯函数产生，这个高斯函数以fi中的目标为中心，用Yi表示yi的FFT，由公式（1）可以得到

式（2）中的除法是逐元素的操作。

在MOSSE中通过最小化实际的输出和理想的输出来求解H，这个最小化问题的形式是

式（3）的闭式解为

MOSSE中在计算的过程中使用的fi为灰度图。

2.2 Kernelized Correlation Filter（KCF）

在KCF[8-9]中，将滤波器的求解问题转化为一个岭回归问题，如下所示。

在KCF中，引入了核函数到（5）中，并且通过使用FFT加速了计算。在计算时使用的特征有Histogram of Oriented Gradient（HOG）[10]和灰度图，并且推导出了特征为多通道时的FFT计算公式。

在图1中给出了一个训练样本（高为240，宽为320）在水平（left或者 right）和竖直（down或者 up）方向上经过不同循环移动的得到的新的训练样本，从图中可以看出当移动像素个数不多时（20，20或者-20，-20），产生的样本和正常平移产生的样本比较相似，但当移动像素个数比较大时（120，320），产生的样本已经将目标拆成不同的部分，这样的样本是不合理的，这就是边界效应（boundary effect），KCF中通过在样本上余弦窗来环节这种效果，现在有很多工作提出了更加复杂的方法来处理边界效应。

图1 不同的循环移位的图片

2.3 Scale Adaptive with Multiple Features（SAMF）andDiscriminative Scale SpaceTracking（DSST）

在跟踪算法中，主要目的是跟踪目标的位置，同时目标的大小[11]对结果有很大的影响，如果目标缩小，滤波器就会学习到大量背景信息，如果目标扩大，滤波器只会考虑目标的局部纹理，这两种情况都有可能出现非预期的结果，导致漂移和失败。

在SAMF中，作者结合了HOG特征和Color Name（CN）去学习滤波器，然后计算在不同尺度下滤波器的最大响应值，从而找到目标正确的大小。

在DSST[12]中，作者训练了两个相关滤波器：平移滤波器和尺度滤波器，首先使用平移滤波器估计目标的位置，然后再使用尺度滤波器估计目标的大小，尺度表示如图2所示，其中有S个尺度，每个尺度特征为d维。为了加快计算，作者使用了PCA对样本的特征降维。

2.4 深度特征的使用和端到端的训练

在文献[1]中，作者通过分析跟踪算法不同部分的性能，发现特征表示对于跟踪算法的影响是最大的。近些年来，神经网络[13-14]在计算机视觉领域取得了极大的进步，凸显了神经网络强大的特征表示能力。

图2 不同尺度对应的特征

在 DeepSRDCF[15]中，作者使用了在 ImageNet[16]上预训练的VGG网络提取的特征来训练相关滤波器，取得了比传统手动设计的特征有更好的性能，但由于神经网络参数多，一次前向过程需要更多的时间，从而实时性无法保障，这也是神经网络类的方法需要去解决的问题。

尽管使用从预训练的网络中提取的特征可以提高跟踪的性能，但这些特征是在其他任务中训练的，比如分类，对于跟踪不一定是最好的。在CFNet和DCFNet中，相关滤波器被嵌入到神经网路中，作为神经网络的一层，可以反向传播，端到端的训练，使得训练得到的特征更适合跟踪任务。图3是DCFNet的网络结构。

图3 DCFNet网络结构

3 在OTB2013 上的实验

我们将在OTB2013上对上面介绍的方法进行评测，评价指标有重叠精度（Overlap Precision，OP），距离精度（Distance Precision，DP）和帧率（Fames Per Second，FPS）。OP表示一个视频序列中对目标预测出来的位置，大小与实际的位置，大小的Intersection Of Union（IOU）大于一个阈值的帧数的比例。DP表示对目标预测出来的位置与实际的位置的欧氏距离小于一个阈值的比例。FPS表示跟踪算法一秒能够处理的帧数。

这里给出 KCF，SAMF，DSST，DeepSRDCF，DCFNet在距离阈阈值为20个像素，重叠阈值为0.5时的OP，DP，以及每种方法的FPS，如表2所示。

表2 不同方法的OP，DP和FPS

从表2中可以看出，深度特征的引入使得OP和DP都有很大的提升，而且引入多尺度的信息后，OP有了明显的提高，从FPS中可以看出，KCF最快，SAMF和DSST引入了多尺度计算，FPS下降，DeepSRDCF使用了预训练的网络来计算特征，需要很大的时间消耗，因而无法做到实时。

图4 不同距离阈值曲线

图5 不同重叠阈值曲线

图4和图5展示了在距离阈值从0到50间隔为1取值时的DP曲线和重叠阈值从0到1间隔为0.05取值时的OP曲线。

4 结论

本研究介绍了目标跟踪的定义，常用的数据库，和基于相关滤波的目标跟踪的经典方法和最新的进展，并给出来了在OTB2013数据库上的评测结果和简短的分析。相关滤波目前仍是目标跟踪的主流方向，近些年来，深度学习和相关滤波的结合使得目标跟踪的性能有了很大的提升，但同时需要消耗更多的时间，如何减小计算时间是我们接下来的研究方向。