基于多层深度特征的尺度相关粒子滤波算法

2021-07-06 02:15马媛媛杨小军

计算机技术与发展 2021年6期

马媛媛，杨小军

(长安大学信息工程学院，陕西西安 710064)

0 引言

计算机视觉[1-3]已经研究了几十年，目标跟踪问题通常是在目标运动时估计目标在图像平面上的轨迹问题。虽然在文献中已经对建立鲁棒跟踪框架做了大量的努力，但当目标出现外观突变或遮挡时，跟踪器往往会受到影响从而导致跟踪目标失败。

近年来，基于判别式的相关滤波器被证明能够在跟踪速度上有显著提高且能精准跟踪目标，因此得到了广泛应用。为了跟踪，一个相关过滤器通过计算每个学习模板(或过滤器)相对于测试图像样本的点积来评估相似度。利用卷积定理可以加快相关滤波器的计算速度，它表明空间域的卷积可以计算为频域傅里叶变换的元素乘。虽然CSK[4]和KCF[5]方法在准确性和鲁棒性方面都达到了最优，但这些基于相关滤波器的跟踪器并不处理尺度变化。为了处理目标对象的尺度变化，Danelljan等人[6]提出了一种新的DSST跟踪器，通过分别学习平移和尺度估计的相关滤波器，提出一种新的尺度自适应方法来精确估计目标的大小。尽管DSST跟踪器在学习基于判别相关滤波器的鲁棒尺度估计方面表现良好，但在金字塔尺度表示中，它不能很好地处理局部遮挡和完全遮挡。

另一方面，粒子滤波[7-8]可用于处理大尺度变化和局部遮挡。通过增加粒子数来提高跟踪性能。但是，由于计算量的增加，跟踪效率会降低。将外观自适应模型[9]集成到粒子滤波框架中，其中粒子数取决于噪声方差。与之前的方法不同，粒子滤波框架的主要区别在于观测模型，在观测模型中采用相关滤波器来减少粒子的数量。

然而，由于粒子滤波采样过程计算量大，其实时应用受到限制。针对以上问题，该文提出了一种新的目标跟踪算法，用尺度相关滤波器来训练卷积神经网络特征，通过对所获得的置信图进行加权融合，以得出目标的位置。该算法有效克服了上述问题，具有较强的鲁棒性。

1 粒子滤波器

提出的粒子滤波框架是基于贝叶斯顺序的重要性抽样技术，该方法利用有限的加权样本集递归逼近后验分布，以估计动态系统的状态变量的后验分布。对象在时刻t状态变量的参数为st，yt。st表示目标状态变量，yt表示观测变量。因此，视频跟踪可以建模为这样一个问题：

st=p(st|y1:t-1)=

(1)

当一个新的观测变量产生时，用贝叶斯定理更新目标状态：

(2)

(3)

(4)

2 尺度相关粒子滤波器

2.1 尺度相关滤波器

KCF跟踪[5]的基本思想是在探索循环矩阵结构的同时，利用大量的负样本来增强检测器跟踪的鉴别能力，以获得高效率。KCF跟踪器使用在P×Q像素的图像x上训练的相关滤波器w来建模目标对象的外观，所有的循环移位Xp,q，生成高斯函数标签rp,q的训练样本。目的是找到最优权重w。

(5)

(6)

F,F-1分别表示傅里叶变换及其反变换，其中r={r(p,q)}。给定学习的α和目标外观模型x，通过计算响应映射，在新的一帧中进行任务跟踪。

通过使用基于KCF跟踪提出的区分尺度空间的跟踪器，计算图像位置尺度维度的分数。设S为尺度滤波器的大小，提取一个以P×R像素目标中心的图像补丁In，将训练样本ft,scale在规模水平n下的值ft,scale(n)设为In的d维特征描述符，然后构建尺度样本ft,scale，去训练一个尺度滤波器ht,scale。

(7)

为了估计目标的平移量，采用标准平移滤波器。通常情况下，两帧之间的目标尺度差相对于平移的差异较小。因此对给定的新的一帧，首先应用平移过滤器ht,trans，然后用尺度滤波器ht,scale估计目标新位置，用提取训练样本的方法在该位置提取一个尺度训练样本zt,scale，通过在傅里叶域计算最大尺度相关性得分，得到最终的尺度估计结果来估计当前目标状态。

(8)

其中，A,B是前一帧中更新的滤波器的分子和分母。

最后，利用下式对尺度滤波器进行更新，用新样本进行尺度变换。在这种情况下，使用一维高斯函数作为期望的相关输出。

(9)

(10)

其中，η为尺度滤波器模型更新的学习率，t为第t个图像块。

2.2 尺度相关粒子滤波器

通过尺度相关滤波器，利用粒子的循环位移信息，将粒子引导到目标物体的局部模式。为了简单起见，定义尺度相关滤波算子，对于状态：ScfRd→Rd。

(11)

(12)

使用加权权重，在时刻t目标对象的最佳状态估计为：

(13)

3 基于多层深度特征的尺度相关粒子滤波

3.1 目标特征的提取

当出现严重的遮挡或物体外观变异时，基于像素的浅层特征不能很好地处理。故采用已经训练好的卷积神经网络特征(deep convolutional neural network feature，CNN deep feature)[10-11]对目标的外观进行编码，这样特征既能有很好的层表达，又能保留准确的空间信息。由CNN层数与语义信息和空间细节的关系可以看出，在靠前的层中，更容易确定图像的一些定位信息，但是图像的语义信息并不丰富；而在靠后的层中，图像的语义信息更容易确定，空间信息则不易于获取。因此可以得出低层特征具有更多的空间信息，对目标能够进行更为精准的定位，而高层特征则具有较多的语义信息，能够更好地处理目标剧烈变化以及防止跟踪器漂移，可以对目标进行范围定位。

采用CNN提取目标特征，不仅保留其最后一层输出结果，同时中间层的输出也保留下来，具体保留的是3、4、5三个层。

在以目标为中心的帧中裁剪出搜索窗口，用CNN获取搜索的窗口特征。但在CNN中，由于池操作的存在，使得随着层深度的增加，特征的空间分辨率会逐渐减小。需要用余弦窗对每一层提取的特征通道进行加权，对特征进行升采样之后才能够提取特征。

(14)

其中，xi表示升采样后的特征图，hk表示升采样前的特征图，i表示位置，k表示k领域的特征向量，α表示插值的权值。

在此过程用到CNN的3、4、5层，每一层的输出特征为x(大小为M×N×D)，将M维和N维上的所有循环移位作为训练样本，每一个移位样本x(m,n)，都有一个高斯函数标签，然后可以通过公式(8)学习到跟x同样尺寸的尺度相关滤波器。

空间域的卷积对应于傅里叶域中的逐元素乘法，所以卷积层的滤波器频域表示可以写作公式(15)，Y是高斯标签的频域表示。这样使得目标函数最小化。

(15)

(16)

3.2 跟踪以及模板更新

文中算法是在粒子滤波和相关滤波的基础上提出的。首先，使用粒子滤波器的概率系统转移模型绘制样本并重新采样，然后使尺度相关滤波器应用于每个粒子，计算每个样本三层CNN特征的响应图进行融合，利用尺度相关滤波器的响应更新权重。最后，根据这些响应图计算加权平均得到目标的位置。

F(αk)t=(1-η)F(αk)t-1+ηF(αk)

(17)

(18)

其中，η是学习速率参数。

4 实验结果与分析

4.1 实验环境及参数

实验运行平台为MATLAB R2016b，所有实验均在Inter Core i7 CPU，主频2.00 GHz，8 GB内存的电脑上完成。实验对所有视频序列采用一致参数：正则化参数设置为λ=0.01，尺度金字塔取33层。另外，通过增加粒子数可以提高性能，但运行时性能会受到影响。设置合理的粒子数为6，这样可以有效地权衡跟踪器的准确性和效率。

4.2 数据和评估方法

选取标准测试数据集OTB100[12]中的视频序列进行实验，视频序列为Biker、Bird1、Bird2、Blurbody、BlurCar1、BlurCar2、BlurCar3、Box、Car1、ClifBar，这些视频序列包含目标变化中的各类颜色以及运动挑战，如运动模糊、尺度变化、快速运动和旋转、遮挡等。

为了评估这些跟踪器，在测试序列中从第一帧的基础真值位置初始化它们，并采用距离精度(distance precision，DP)、成功率(success rate，SR)作为评价指标[13]。其中距离精度(DP)表示中心位置误差(CLE)小于或者等于阈值像素T0的帧数(一般选取阈值为20像素)占视频总帧数的百分比。中心位置误差(CLE)如下，表示预估目标与实际目标中心的欧氏距离。

DP=lDP(CLE≤T0)/l

(19)

其中，lDP表示中心位置误差小于或者等于阈值的帧数，l是当前视频的总帧数。而成功率(SR)表示跟踪所得的目标区域MT和目标真实区域MG所得的重叠率大于等于阈值T1(一般设为0.5)，表示跟踪成功。通常用成功率图曲线下方的面积(AUC)去评估是否跟踪成功。

(20)

4.3 定量分析

将该文提出的算法与其他较为优越的算法进行比较。比较的算法有CSK[4]、KCF[5]、DCF[14]、fDSST[6]和SRDCF[15]。提出的算法由于使用多层深度特征的尺度相关粒子滤波器，因此在面对各种运动挑战时，更具鲁棒性。在不同的视频帧中，提出的算法都取得了较好的结果。跟踪结果精确度和成功率如图1所示。

图1 算法精确度、成功率

为了进一步验证提出的算法在跟踪过程中的鲁棒性，图2给出了该算法与其他算法在旋转、尺度变化、遮挡等各种干扰因素下的算法精确度与成功率的对比。

(b)尺度变化

(c)遮挡

(d)形变

从图2得出，提出的算法基于粒子滤波框架，对每一个模拟目标的状态分布的粒子，提取CNN特征，并用尺度相关滤波器来训练特征，对所得置信图进行加权计算，最后得出目标的位置。因此该算法能够在大多数干扰因素下取得较好的跟踪效果。

4.4 定性分析

为了体现提出的算法的跟踪性能，在标准测试数据集上选取了一些视频序列进行测试，对不同算法的跟踪结果进行对比，如图3所示。

(a)Bird2_1

(b)Biker_1

(c)BlurBody_1

(d)Bird1_1

图3 算法在不同视频下的跟踪结果

综合上述实验的对比结果，可知文中算法对目标在快速运动以及尺度变化和遮挡旋转方面更为优越。从图3中可以看出，在Bird2_1视频序列中，由于目标存在快速运动以及尺度的变化，对算法跟踪产生干扰，由99帧可以看出，文中算法较其他算法能够准确地跟踪目标。在Birker_1序列中，文中算法由于使用基于贝叶斯顺序重要性抽样技术的粒子滤波框架，能够更好地跟踪目标。在BlurBody_1视频序列中，存在运动模糊的干扰，但文中算法依然精确地跟踪到目标。在Bird1_1视频序列中第64帧目标在快速运动时被跟丢，但文中算法却由于跟踪精度较高，仍能有效地跟踪到目标，具有较好的鲁棒性，同时也说明，文中算法在处理快速运动时更为优越。

5 结束语

该文提出了一种基于多层深度特征的尺度相关粒子滤波方法。基于粒子滤波框架，对每一个模拟目标的状态分布的粒子，提取CNN特征，用尺度相关滤波器来训练特征，对每一层作置信度评分之后由粗到精地对所获得的三个置信图融合得到训练特征之后的响应图，最后根据这些响应图计算加权平均，确定目标的位置。该算法可以解决部分或者全部遮挡的问题，在准确性以及鲁棒性方面有较好的提高。在选定的视频序列上的对比结果表明，该算法得益于新的尺度相关粒子滤波器模式，优于相关的一些算法。