多特征融合的抗遮挡相关滤波目标跟踪算法

2024-01-02 07:54王慧炳左云波刘重阳

北京信息科技大学学报(自然科学版) 2023年6期

王慧炳,左云波,2,刘重阳

(1.北京信息科技大学机电工程学院,北京 100192;2.北京信息科技大学机电系统测控北京市重点实验室,北京 100192)

0 引言

目标跟踪是计算机视觉技术中的研究热点,在视频监控、视觉伺服、人机交互等领域有着广泛应用[1-3]。目标跟踪的目的是在给定要跟踪的图像序列的情况下,对视频帧中目标进行特征提取、建模,从而在后续帧中对目标可能存在的位置进行估计。尽管目标跟踪经过多年研究已经取得了很多的突破性进展,但是它仍是一个极具挑战性的课题。对目标跟踪算法的性能造成影响的因素有很多,主要有遮挡、目标尺度变化、背景复杂、光照变化等。

近年来,出现了大量的跟踪算法,其中相关滤波目标跟踪算法因其跟踪速度快、稳健性好,得到了广泛的应用。2010年,Bolme等[4]将相关滤波算法应用在跟踪领域,提出了最小输出平方误差和 (minimum output sum of squared error,MOSSE)滤波器算法,这是目标跟踪发展的一次重大突破。Henriquse等[5]进一步对相关滤波算法进行了改进,提出了核化跟踪的循环结构 (circulant structure of tracking with kernels,CSK)算法,该算法通过循环位移获得大量样本,并利用傅里叶变换大幅度提高了算法的性能。Henriques等[6]改进了CSK算法,使用了多通道的方向梯度直方图(histogram of oriented gradient,HOG)特征,提出了具有更好性能的判别分类器的核相关滤波(kernel correlation filter,KCF)目标跟踪算法。在KCF算法基础上,Danelljan等[7]提出了具有目标多尺度自适应策略的判别尺寸空间跟踪(discriminative scale space tracking,DSST)算法,以及Li等[8]提出的具有优良尺度策略的尺度自适应多特征(scale adaptive multiple feature,SAMF)算法,都有很稳健的效果。同时期Danelljan等[9]将颜色属性扩展到CSK跟踪器中,提出颜色(color name,CN)特征跟踪算法,极大地提高了跟踪算法的鲁棒性。随后,Ma等[10]通过加入检测机制,提出了长时相关性跟踪(long-term correlation tracking,LCT)算法,在目标遮挡和长时间跟踪过程下都有优良的性能。近几年,邱泽敏[11]提出的核相关滤波融合稀疏表示的目标跟踪,厍向阳等[12]提出的基于稀疏表示的相关滤波目标跟踪算法,以及黄月平等[13]提出的基于自适应标签和稀疏学习相关滤波的实时红外单目标跟踪算法,改进了局部图像块的稀疏表示,短时目标跟踪效果好,但无法有效应对遭遇长时严重遮挡或者短暂出视野的目标。

Henriques等提出的核相关滤波算法KCF通过引入核函数,实现了快速计算核函数相关性,从而能够快速训练和快速检测。KCF目标跟踪算法计算量小,跟踪效果好,鲁棒性优秀,故本研究对KCF算法进行改进。针对KCF算法在跟踪过程中存在遮挡和目标尺度变化跟踪性能弱的问题,本文通过将HOG特征和多尺度块局部二值模式(multiscale block local binary pattern,MB-LBP)特征加权融合,并将所得特征再次与CN特征进行二次加权融合的方式来增强特征表达能力;增加尺度滤波器用于目标尺度估计;利用峰值旁瓣比和目标重定位算法对被遮挡目标进行判定和检测。

1 相关滤波跟踪算法

在整个相关滤波跟踪过程中,由于跟踪方案在频域执行,不仅降低了运算成本,而且提高了跟踪速率。相关滤波器算法具体流程:首先输入视频帧,获取目标在首帧的图像块,并且训练相关滤波器,用于后续目标检测;然后对图像块进行特征提取,使用余弦窗口算法对图像边缘进行平滑处理;随后利用离散傅里叶变换(discrete Fourier transform,DFT)对其进行相关滤波操作;最后利用傅里叶逆变换获得目标位置的响应图,响应图得分最大位置即为跟踪目标在当前帧的位置,并再次对新目标训练、更新相关滤波器。

1.1 相关滤波理论

(1)

式中:⊗表示卷积;⊙表示矩阵间的乘法运算;*表示复共轭;F-1表示傅里叶逆变换。由式(1)可得输入x和相关滤波器h之间的置信地图,相关滤波器选择目标周围置信度最大的位置进行更新。假设y为期望的相关输出,k为目标的新样本,为了训练滤波器,相关滤波器h需要满足

(2)

因此可得

(3)

1.2 核相关滤波器

KCF算法将求解转化为岭回归函数的问题,其样本训练过程本质上是一个正则化最小二乘[14]问题。引入核函数将算法预测的目标位置和模型进行匹配,响应最大的位置便判断为目标所在位置。

1)分类器训练。设一组训练样本{xi,yi},其中xi和yi分别是样本和训练样本标签,分类器训练的目标是找到一个函数f(x)=wTx,使得正则化风险函数的值最小,即

(4)

式中:w为分类器参数;λ为正则化参数,用来防止过拟合现象;φ(xi)是Hilbert空间的映射。利用核函数方法将w转化为线性组合的形式:

(5)

式中:α为w的对偶空间变量,即滤波器系数。利用核函数k(x,x′)=〈φ(x),φ(x′)〉可以解决高维特征矩阵点积计算问题,分类器可进一步转化为

(6)

(7)

2)检测。训练阶段完成以后,对于第t+1帧,将算法预测的目标位置和模型进行匹配,响应最大的位置便判断为目标所在位置。得到的响应图表示为

(8)

3)更新。由于目标外观在运动过程发生变化,引入双线性插值的方式对滤波器系数α和目标外观模型x辅助更新,具体如下:

(9)

(10)

式中:γ为学习率;t为帧数。

2 改进的核相关滤波算法

KCF目标跟踪算法使用单一的HOG特征,在背景杂乱、目标运动过快的情况下,鲁棒性较差。其次,因其检测尺度固定,每一帧都进行模型更新,在背景杂乱、目标遮挡等情况下,模型容易受到污染,导致跟踪漂移。针对其不足,本文拟通过多特征融合,引入尺度自适应,通过遮挡判断,对跟踪目标进行重定位来提高跟踪算法的鲁棒性。

2.1 特征融合

KCF算法使用HOG特征提取目标特征时,使用灰度处理会损失图像颜色的表征能力。另外,因HOG特征主要获取的是图像的局部信息,在背景杂乱、运动过快场景下,跟踪效果急剧下降。近年来,局部二值模式(LBP)[15]特征开始广泛应运于目标检测和跟踪,但是LBP仅能表达局部的纹理特征。Liao等[16]在此基础上提出的MB-LBP特征弥补了传统算法的不足,图像的宏观特征得到了很好的表达,且准确率高、计算简单。但是MB-LBP会忽略一些局部的信息。MB-LBP特征良好的宏观表达能力正好可以和HOG特征互补,故本文提出将两种特征通过线性加权进行融合。融合过程为

fhm=(1-δ)fhog+δfmb

(11)

式中:fhog为HOG特征;fmb为MB-LBP特征;δ为HOG特征和MB-LBP特征融合过程中的权重系数,改进的算法中取δ=0.5;fhm为特征融合后的特征。

HOG特征和MB-LBP特征对输入的图像都进行了灰度处理,损失了对目标颜色的表达能力,并且在快速移动、运动模糊的情况下,鲁棒性较差[17]。将原始的RGB的3通道图像投影到11个颜色通道,可以得到CN特征。但是直接使用CN特征,会加大算法的运算量,并且对于区分目标和背景并非11个颜色通道都有意义。因此,本文将11个颜色通道的CN特征利用主成分分析(principle component analysis,PCA)自适应降维至二维,实时选择比较显著的颜色特征来描述目标,将计算量极大的CN特征简单化。CN特征不仅对目标的颜色信息有很好的全局表达,对于运动模糊和光照变化能够很好适应。HOG特征和MB-LBP特征融合以后的特征对局部纹理以及图像整体轮廓都有很强的表达能力,融合CN特征可以进一步提高算法对目标发生形变和快速移动时的表达能力。线性加权融合后的特征表示为

fhmc=(1-η)fhm+ηfcn

(12)

式中:fcn为CN特征;η为融合权重系数,改进的算法中取η=0.3;fhmc为最终融合的特征。

2.2 尺度自适应

传统的KCF方法,因为其检测尺度固定,当目标尺寸发生变化时,模型可能会学习到更多背景特征,受到污染,从而导致跟踪漂移,甚至丢失目标。针对以上问题,本文采用DSST算法中的精准尺度估计方法,即三维的尺度相关滤波器。滤波器的大小为M×N×S,其中M和N分别表示滤波器的高度和宽度,S表示尺度的数量。

图1为尺度滤波器,其中f是以前一帧确定的目标位置为中心,取得一系列不同尺度的图像块的特征;h是每次迭代更新模板;g是通过采用三维高斯函数构建三维的滤波响应输出。在目标跟踪过程的当前帧中,可以获取S个尺度上的特征组成一个M×N×S的特征金字塔z。根据所获得的响应输出g所在的位置即可确定估计的目标尺度信息。

图1 尺度滤波器Fig.1 Scale filter

本文算法先用位置滤波器确定目标所在的位置,然后再根据尺度滤波器确定目标变化后的尺度信息。确定当前帧预测的目标位置后,获取其中心点,并以该中心点为基准通过目标尺度变化金字塔计算目标尺度,以新预测的目标位置的中心点为基准获取目标尺度变化金字塔提供的尺度,尺度相关滤波器的响应图最大的位置即为目标估计尺度[18]。记当前帧的目标尺寸大小为P×R,尺度为S,我们将所获取的目标尺度金字塔表示为anP×anR,并将其标记为Jn。其中a表示一个尺度因子,取a=1.03。s为尺度滤波样本个数,取s=34。n的取值范围如下:

(13)

2.3 遮挡判定

在目标跟踪过程中,常常会发生目标遮挡的情况,从而导致模型被污染,出现跟踪漂移。甚至目标严重遮挡或者长时间被遮挡会直接导致跟踪失败。目标遮挡一直是目标跟踪的一大难点。判断目标是否被遮挡,从而采取不同的跟踪策略已经成为一种有效的手段。通过对目标跟踪过程中响应图的对比发现,当对目标进行跟踪的效果良好时,得到的高斯分布图具有很明显的稳定峰值,但是目标被遮挡时,所得到的高斯分布图会出现多个相似峰值,从而导致目标跟踪失败。

针对以上问题,本文通过计算峰值旁瓣比 (peak sidelobe ratio,PSR)[19]来对目标是否被遮挡进行判断。峰值旁瓣比主要是对峰值强度的测量。为了计算PSR,相关输出被分成作为最大值的峰值和旁瓣。通过设定一个阈值T,将计算得到的PSR值与设定阈值T进行比较,PSR值计算如下:

(14)

式中:P为PSR值;Fmax表示峰值;γ和β表示峰值旁瓣的平均值和方差。P>T时跟踪成功,且P越大表示峰值越明显,跟踪效果越好;当P

2.4 目标重定位

当跟踪的对象被遮挡或者受到干扰时,干扰物的特征会污染跟踪模型,出现跟踪漂移,甚至目标丢失。因此,经过遮挡判定后,如果P小于设定的阈值T时,需要进行目标重定位并且对此帧不进行模型更新。获取前两帧所跟踪对象的中心点,将所获得的两个中心点进行线性拟合,从而预测出目标被遮挡后可能出现的位置,即可进行目标重定位,并且保留上一次更新的模型,对下一帧再进行相同步骤的目标跟踪。

本文的目标重定位算法中,以遮挡前两帧的目标所在位置为基准,获得跟踪对象的中心位置,通过将所得的两个点进行线性拟合,判断下一帧目标可能出现的位置,并且对其所在区域进行跟踪算法操作,即可得到相应峰值最高的区域,将其作为目标重定位选取的最终位置。公式如下:

y(x)=ax+b

(15)

(16)

(17)

式中:(xi-1,yi-1),(xi,yi)为前两帧目标中心位置;(xi+1,yi+1)为预测目标可能出现的位置;t为当前帧获取的时间。选取相应峰值最高的区域,将其作为目标重定位的最终位置后,再次进行遮挡判定,满足P>T时,则认为跟踪成功,否则认为当前帧跟踪失败。此时,调整检测框尺寸为原先的υ倍,在新的预测区域内对目标进行重定位,这里取υ为1.5。

2.5 改进的核相关滤波算法步骤

1)初始化。获取跟踪目标的初始位置和尺度,并对第一帧目标位置所在的区域进行循环采样,获得用于训练的样本。

2)特征提取。分别提取目标的HOG特征、MB-LBP特征和CN特征,并根据本文算法进行融合。用本文算法多特征融合后获得的特征进行训练,得到位置滤波器,用提取到的HOG特征进行训练,得到所需的尺度滤波器。

3)遮挡判定。根据下一帧目标的预测位置,获得相关响应值,计算峰值旁瓣比,P>T时跟踪成功,P

4)目标重定位。如果在第三步判定目标遮挡或者丢失,进行目标重定位,否则,不进行本步骤并进行5)。

5)模型更新。目标定位后,利用尺度金字塔和滤波器对目标进行尺度估计,随后对位置和尺度滤波器分别进行更新。

6)跟踪结果可视化。将跟踪窗口可视化呈现,如果不是最后一帧,继续输入下一帧图像,重复步骤2)～5)。本文改进算法流程如图2所示。

图2 整体算法流程Fig.2 Overall algorithm flow

3 实验与分析

为了验证本文目标跟踪算法的有效性,本文在公开数据集OTB100上与主流目标跟踪算法CSK、KCF、DSST、SAMF进行了对比实验。算法之间的主要区别见表1。测试数据集包括目标遮挡、目标尺度变化、光照变化、快速移动等复杂场景。

表1 各算法主要特征Table 1 Main features of each algorithm

3.1 实验环境与参数

本文实验运行环境为Matlab R2015b,Window10操作系统64位,实验所用电脑配置为Intel(R) Core(TM) i5-5200U CPU @ 2.20 GHz 2.19 GHz,8 GB内存。CSK、KCF、DSST、SAMF跟踪算法所有参数均为默认。

实验中KCF算法的参数保持不变,正则化参数为0.01,学习率为0.02,CN为2维,灰度特征为1维;在一维尺度滤波器中,尺度因子的参数设置为1.03。

3.2 定性分析

通过选取3组视频序列,给出了5种算法的跟踪效果对比图,如图3所示。不同跟踪算法采用不同颜色的矩形框标出。

图3(a)为Coke视频序列,主要存在快速移动、旋转、光照变化、遮挡,从第28帧开始CSK、KCF发生漂移,在第79帧KCF重新找到了目标,从第100帧可以看到,由于目标发生旋转,只有SAMF算法和本文算法可以准确跟踪,从第276帧可以看到,目标物被遮挡后,KCF算法丢失目标,SAMF算法和本文算法仍然可以保持较好的跟踪性能。图3(b)的Walking视频序列主要发生了目标尺度变化和遮挡,在第171帧中目标尺度已经发生了变化,CSK、KCF由于缺乏尺度更新机制,跟踪模型受到了背景干扰,在第325帧中可以看到,由于目标物受到遮挡,SAMF算法和本文跟踪算法跟踪效果较好,其余算法都跟踪失败。图3(c)的Jogging视频序列发生了目标遮挡,除了本文算法以外,其他算法都无法跟踪被遮挡的目标,而本文算法可以很好地应对遮挡干扰的影响,能够更加精确地跟踪被遮挡目标。

图3 CSK、KCF、DSST、SAMF、本文跟踪算法的对比结果Fig.3 Comparison results of CSK,KCF,DSST,SAMF and OURS tracking algorithms

3.3 定量分析

本文采用成功率 (success rate)和精确度 (distance precision,DP)2个评价指标,对5个跟踪器进行定量评价。其中,获得成功率,首先需要计算重叠率,重叠率是目标预测矩形面积和目标真实矩形面积的交集和并集之比;重叠率大于阈值视为跟踪成功,序列中跟踪成功的帧数占总帧数的比例定义为跟踪成功率。各阈值下的成功率如图4(a)所示。DP是目标跟踪中心到目标真实中心的距离未达到一定阈值的帧的比例,DP越大,算法跟踪效果越好,如图4(b)所示。从图4(a)成功率曲线图中可以看到,本文算法成功率明显高于CSK、KCF、DSST、SAMF算法,和SAMF算法较为接近,并且从数据可以看出,由于使用了多特征融合,本文算法的成功率值主要在(0.4,0.9)之间,整体算法性能优于其他4种算法。从图4(b)中心定位误差精度图可以看出,本文算法精确度略高于SAMF算法,且明显优于其他算法。以上实验数据表明,本文算法以KCF算法为基本框架进行改进,通过多特征融合增强特征的表达能力,并且增加一个尺度滤波器,采用峰值旁瓣比作为遮挡评判,采用目标重定位算法重新检查被遮挡目标的位置,有效提高跟踪算法的整体性能。

图4 各算法的成功率和精确度对比Fig.4 Comparison of the success rate and distance precision of each algorithm

4 结束语

针对传统KCF目标跟踪算法,由于仅使用单一的HOG特征,导致在背景杂乱、目标运动过快的情况下,鲁棒性较差的问题,本文算法提出了多特征融合策略。HOG特征和MB-LBP特征融合后的特征对局部纹理以及图像整体轮廓都有很强的表达能力,再次融合CN特征可以进一步提高算法对目标发生形变和快速移动时的表达能力。针对传统的KCF方法由于固定的跟踪尺度和缺少解决遮挡问题策略,在目标发生目标尺度变化和遮挡时,会出现跟踪漂移,甚至跟踪失败的问题,本文算法加入尺度滤波器,并且针对遮挡问题增加了遮挡判定。针对目标重定位环节,提出了一种简单有效的目标重定位策略,在目标被遮挡的情况下,能够保持较好的跟踪性能。