施 伟 张 东 陈 庆 谭守标* 张 骥
1(国网铜陵供电公司运维检修部 安徽 铜陵 244000)2(安徽大学计算智能与信号处理教育部重点实验室 安徽 合肥 230039)3(安徽南瑞继远电网技术有限公司 安徽 合肥 230088)
一种快速精准的核相关滤波器跟踪算法
施 伟1张 东1陈 庆2谭守标2*张 骥3
1(国网铜陵供电公司运维检修部 安徽 铜陵 244000)2(安徽大学计算智能与信号处理教育部重点实验室 安徽 合肥 230039)3(安徽南瑞继远电网技术有限公司 安徽 合肥 230088)
针对核相关滤波器跟踪算法在目标尺度变化、快速运动及光照变化情况下跟踪性能降低的问题,提出一种基于前瞻性更新及快速异判技术的核相关滤波器跟踪算法。算法对目标历史状态以逐渐遗忘的方式加以更新,同时引入状态差分来提前应对环境变化,并且利用哈希编码匹配来控制分类器更新:首先对先前正确的目标进行哈希编码,新来一帧分类得到的最终目标同样进行哈希编码来计算相似度;然后依据相似度决定是否更新分类器或者重检测目标。实验结果表明,该算法不仅对尺度变化、快速运动有很强的鲁棒性.对其他属性如光照变化、遮挡等也有较强的鲁棒性。同时跟踪仍然保存很高的速度,平均的处理速度可达100帧/s,能实现快速精准的目标跟踪。
视觉跟踪 离散PID 哈希匹配 相关滤波器
视觉跟踪技术是机器视觉领域中的热门研究课题,在各行各业应用广泛。如在电力安全生产中,为避免作业人员进行危险操作,可利用视觉跟踪准确分析目标行为,发现异常行为及时报警,尽可能降低安全风险。由于位置、照明、运动、遮挡等因素的影响,目标视觉跟踪也是一个具有挑战性的任务。在视觉跟踪领域中,不同于多目标跟踪,单目标跟踪可以被看作是一个在线学习问题[1-2]。通过初始化一个目标框来训练一个分类器,把目标和周边环境区分开,实现目标的跟踪。这个分类器需要实时更新从而有效检测在随后图像帧出现的目标。
一种有效的跟踪方法是通过检测目标来跟踪[3-7]。这直接源于机器学习中强大的判别方法的发展,及其在在线训练检测方面的运用。这种检测器可以在线训练,因为它们提供大量和目标有关的背景信息。
在本文中,我们提出了一个鲁棒且高效的核相关滤波器跟踪算法,它在频域中使用了PID[8]更新和相关滤波器[9]思想构建检测器。为了有效地在频域处理图像信号,我们使用了一个经典的分析工具——循环矩阵。这意味着我们可以基于高斯核回归结合相关滤波器来追踪目标。此外我们使用了哈希匹配技术来预判跟踪出错情况并重新检测目标[10]。
1.1 相关滤波器追踪
相关滤波器已被广泛应用于许多场景,如目标检测和识别[11]。由于操作已经转换入频域进行,相关滤波的计算效率很高,引起了目标跟踪领域学者的关注。Bolme等在灰度图像上针对视觉跟踪提出了学习的最小输出误差平方和滤波器(MOSSE)[9],可以对每帧的图像目标编码更新。使用了相关滤波器,MOSSE跟踪器的计算速度可达到数百帧每秒。Heriques等提出了在核空间使用相关滤波器的方法CSK[12],在现有的benchmark库上测试达到了极高的速度。CSK方法建立在光照强度特征上,其改进版本KCF[13]利用HOG特征将效果进一步提高。Kalal等通过连续的相关响应将上下文信息转化为联系起来进行建模和滤波[14]。DSST跟踪器采用HOG特征学习自适应多尺度相关滤波器来处理目标对象的尺寸变化[15]。然而,这些方法没有解决的关键问题,就是在线模型更新。因此,这些相关跟踪器容易漂移和难处理长期闭塞的视角问题。
1.2 检测跟踪
最流行的检测跟踪方法是使用一个判别性的外观模型[3,7,14,16]。受统计学习方法的启发,它在线训练一个分类器,来预测目标是否存在于候选的目标图像块中。这种分类,是在待测试的很多候选块中找到与目标最相似的候选块作为预测的目标位置。此外,位置也可以直接预测[4]。典型的检测跟踪例子包括那些基于支持向量机(SVM)[5]、随机森林分类[7]。Bolme等[9]采用经典的信号处理分析的方法,得到快速相关滤波器。我们的算法正是基于相关滤波器进行下去的。
由于我们的目的是设计一种自适应算法来跟踪后续每帧中目标的位置。我们把这个任务看成在线训练并评估测试候选块,通过由相关滤波器得到的上下文联系来评估训练。此外,我们设计一个预判断器,使用高效计算的感知哈希来表示,用于检测异常并处理。
2.1 核相关跟踪
把相关过滤器考虑为一个分类器,它可以通过寻找输入xi和它的训练标签yi之间的相关性来进行训练。训练问题可以被视为一个岭回归问题或最大限度地减少目标损失问题:
(1)
其中λ是防止过拟合的正则化系数,l(·)是损失函数,参数向量w可以闭环表示为:
w=(XTX+λI)-1XTy
(2)
这里X是由训练样本组成的矩阵,y是其对应的标签向量,I是个单位矩阵。为了提高计算效率,w可在频域中求解:
w*=(XHX+λI)-1XHy
(3)
xH是x的Hermitian转置。为了进一步提高性能,可引入映射函数φ(xi),将输入数据x映射到一个非线性的特征空间中,则w=∑iαiφ(xi),w的求解就转换成α的求解。
f(xi)可表示为:
(4)
这里核函数k(xi,xj)=<φ(xi),φ(xj)>。假设x是个循环矩阵,那么k是个核矩阵可由Kij=k(Xi,Xj)得到,式(4)可求解:
α=(K+λI)-1y
(5)
同样,将求解转换到频域,来避免矩阵的求逆过程。若k是循环矩阵,则:
(6)
(7)
在接下来的一帧,可以用样本x和训练输出参数α来检测目标。假设新来样本z,可以计算:
(8)
f(z)是得分函数,在频域中更高效计算:
(9)
2.2 模型更新策略
为了提高模型的鲁棒性,克服跟踪目标自身形变、变速、遮挡、背景光照改变、颜色干扰等因素造成跟踪失败问题,需要对模型进行在线更新。常见的更新算法多是利用了本帧参数和前一帧或前几帧信息,表现为一种历史遗忘过程,如KCF算法[13]的αt=ηαt-1+(1-η)α,η是常量,大小代表学习率,能够很好地适应目标外观的变化。但是由于只有对前一帧的继承,没法对突发情况的预判,比如打斗、画面颤抖,也容易在遮挡情况下跟踪漂移,导致跟踪失败。
针对上述情况,本文提出一种能够表征历史信息和突发信息更新方式:
αi=P×α+I×∑α+D×(αi-αi-1)
(10)
Xfi=P×Xf+I×∑Xf+D×(Xfi-Xfi-1)
(11)
2.3 哈希匹配策略
(12)
mean_z是小矩阵的平均值,将z的每个值与均值比较,将大于均值的值设为1,小于均值的值设为0。改变矩阵维度为64×1的行列式,方便进一步计算。在得到上下两帧目标块的哈希编码x、y后,我们计算其汉明距离用来表示相似度:
(13)
其中Δ代表汉明距离,为了方便比较,可以将其归一化:
(14)
在计算矩阵的离散傅里叶变换时用的仅仅是余弦函数,如果正弦函数也使用,表征的哈希码效果会更好。
对于计算的汉明距离会与阈值比较,若大于阈值,则更新分类器;若小于阈值,仍然保持上一帧的位置,不更新分类器,同时扩大下一帧的样本采样,持续若干帧小于阈值,则利用正确目标的哈希编码重新检测目标位置。
本节将在公认的benchmark_tracker库[19]上比较本文算法与一些最先进的跟踪算法的性能。对比的跟踪算法包括CT[16]、TLD[14]、CSK[12]、Struck[4]、MTT[17]、OAB[6]、L1APG[18]。数据集是基准库中已经标记好的具有挑战性的视频。我们使用成功率作定量分析,从时间鲁棒性(TRE)和空间鲁棒性(SRE)来评估算法的鲁棒性能。成功率图的评估标准是边界框的重叠率。假设算法跟踪的边界框为γt,人工标定边界框是γa,重叠率被定义为S=|γt∩γa|/|λt∪λa|,其中∩和∪分别表示边界框的交集和并集,|·|指其框内的像素点个数。为了估量算法在一系列帧中的性能,我们计算重叠率S大于给定的阈值to(比如to=0.5)的成功帧的数量。然后使用每一个成功率图的曲线下面积(AUC)来给跟踪算法进行排序。为了更好地评估和分析跟踪方法的优点和缺点,本文用6种常见属性来标注所有序列进行分类,6种属性如表1所示。
三是统筹整合监督资源,加大监督检查力度。广西计划2018年开展两次扶贫资金专项督查活动。区直各成员单位应积极选派业务骨干参加实地督查,提高督查质量。各市专责小组要根据自治区的部署,自行组织督查组对自治区未抽查到的县(市、区)开展检查,实现检查范围的全覆盖。
表1 测试序列所标注的属性说明
评估跟踪器的方法是,根据第一帧中的准确位置进行初始化,然后在一个测试序列中运行算法,最后得出平均成功率。我们把这种方法称为一次通过的评估(OPE)。然而跟踪器可能对初始化非常敏感,并且在不同的初试帧给予不同的初始化会使其性能变得更差或更好。因此,我们使用时间鲁棒性评估和空间鲁棒性评估来评估跟踪器对初始化的鲁棒性,在时间上(即在不同帧开始跟踪)和空间上(即以不同的边界框开始跟踪)扰乱初始化。
对于我们的算法和对比的算法,所有评估都使用了源码的默认参数。实验环境是Intel i5 2400 CPU(3.1 GHz)。对于OPE,每个跟踪器进行了超过29 000帧的测试,对于SRE,每个跟踪器在每个序列中被评估了12次,对于TRE,每个视频序列被分为20个片段进 行评估。
3.1 整体性能评估
对于跟踪器的整体性能,我们以成功率图的形式展示在图1-图3中,其中我们使用AUC分数值来对跟踪器进行总结和排名。由于使用了成功率的AUC评分评估了整体性能,比单一阈值的成功率图和精确度图更加准确,下面我们只分析基于成功率的排名。
图1 OPE成功率排名
图3 TRE成功率排名
从图1-图3可以看出,OPE的平均性能略高于TRE的平均性能,因为我们测试的序列集是随机从基准库中选择的。当测试视频难度较大时,OPE一次测试的结果平均值可能更高,当测试难度降低,由于因为OPE所测试的帧数少于TRE的从第一个片段到最后一个片段的帧数之和,跟踪器在较短的序列中倾向于表现更好,TRE中的所有结果的平均值可能更高。另一方面,SRE的平均性能比TRE的平均性能更低,因为初始化误差可能会导致跟踪器使用了不精确的表观信息来更新,从而导致跟踪框逐渐漂移。由于使用了异常判断和具有前瞻性的更新算法,FSKCF在成功率上排名最高,其次是Struck,而TLD的变化较大,是由于其包含的重新检测模块能在长序列中表现得更好。 在速度上,FSKCF和CSK的速度最高,因为其循环矩阵的结构起到了关键的作用。
3.2 基于特性的性能分析
表2 8种算法在6种属性下的SRE成功率
在尺度变化上,FSKCF虽然能够稳定的跟踪目标,但是跟踪的准确度不高,即跟踪的目标区域可能远大于目标本身,这会影响后期的跟踪效果,甚至导致跟踪偏移。因为其目标框的大小不变,在后续工作中,将考虑根据目标尺寸自适应改变跟踪框尺寸来解决这一问题。同样发现具有尺寸特性的算法在处理快速移动问题时也具有优势。
此外,TLD在目标旋转的问题上,表现出其优越性。这是得益于其重检测模块,而FSKCF的表现则相对较弱,是因为判断异常成立后,其分类器短暂暂停更新,导致分类器不能及时处理目标旋转问题。如图4所示,football测试集第300帧对目标跟丢后,FSKCF算法错误地将与未旋转24号很像的38号作为目标识别重新跟踪。所以如何有效地处理平面内和平面外旋转问题,也将是FSKCF算法需要下一步研究的内容。
图4 红色框-FSKCF 绿色框-TLD 蓝色框-Struck
本文在核相关滤波器的基础上对目标跟踪进行前瞻性更新。同时采用快速哈希编码,在每次分类器更新前对跟踪结果进行有效检测,使用有效的跟踪结果来进行分类器的更新,并对目标遮挡和丢失做出相应策略,大幅提高跟踪性能。实验结果证明了本文算法的有效性和鲁棒性。算法也存在两方面的问题需要我们进一步深入研究:
1) 目标的跟踪框是固定尺寸的,虽然我们的更新策略使得跟踪器对尺度变化不敏感,但是FSKCF算法仍然不能获取十分精准的目标区域。后期考虑利用更有效的哈希编码方式来预测目标的尺寸大小,结合目标运动质心位置自适应的改变目标框。
2) FSKCF算法能够很好地对场景的突发情况进行预判,然而对目标自身变化没有有效的处理,比如目标平面外旋转、刚性形变。后期工作将考虑对目标哈希编码时不再使用简单灰度值,而是选择更有辨识力的特征来代替。
[1] Smeulders A W, Chu D M, Cucchiara R, et al. Visual Tracking: An Experimental Survey.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 36(7):1442-1468.
[2] Yang H, Shao L, Zheng F, et al. Recent advances and trends in visual tracking: A review[J]. Neurocomputing, 2011, 74(18): 3823-3831.
[3] Babenko B, Yang M H, Belongie S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619-1632.
[4] Hare S, Saffari A, Torr P H S. Struck: Structured output tracking with kernels[C]//2011 International Conference on Computer Vision. IEEE, 2011: 263-270.
[5] Avidan S. Support vector tracking[J]. IEEE transactions on pattern analysis and machine intelligence, 2004, 26(8): 1064-1072.
[6] Grabner H, Leistner C, Bischof H. Semi-supervised on-line boosting for robust tracking[C]//European conference on computer vision. Springer Berlin Heidelberg, 2008: 234-247.
[7] Saffari A, Leistner C, Santner J, et al. On-line random forests[C]//12th International Conference on Computer Vision Workshops (ICCV Workshops), IEEE, 2009: 1393-1400.
[8] Bennett S. A history of control engineering, 1930-1955[M]. Institution of Engineering & Technology Isbn, 1993.
[9] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]//2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2010: 2544-2550.
[10] 牛夏牧, 焦玉华. 感知哈希综述[J]. 电子学报, 2008, 36(7):1405-1411.
[11] Kumar B V K V, Mahalanobis A, Juday R D. Correlation pattern recognition[M]. Cambridge University Press, 2005.
[12] Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//European conference on computer vision. Springer Berlin Heidelberg, 2012: 702-715.
[13] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
[14] Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(7): 1409-1422.
[15] Danelljan M, H?ger G, Khan F, et al. Accurate scale estimation for robust visual tracking[C]//British Machine Vision Conference, Nottingham, September 1-5, 2014. BMVA Press, 2014.
[16] Zhang K, Zhang L, Yang M H. Real-time compressive tracking[C]//European Conference on Computer Vision. Springer Berlin Heidelberg, 2012: 864-877.
[17] Zhang T, Ghanem B, Liu S, et al. Robust visual tracking via multi-task sparse learning[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2012: 2042-2049.
[18] Bao C, Wu Y, Ling H, et al. Real time robust l1 tracker using accelerated proximal gradient approach[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2012: 1830-1837.
[19] Wu Y, Lim J, Yang M H. Online object tracking: A benchmark[C]// IEEE conference on computer vision and pattern recognition. 2013: 2411-2418.
A FAST AND ROBUST TRACKING ALGORITHM WITH KERNEL CORRELATION FILTER
Shi Wei1Zhang Dong1Chen Qing2Tan Shoubiao2*Zhang Ji3
1(DepartmentofOperationandMaintenance,StateGridTonglingPowerSupplyCompany,Tongling244000,Anhui,China)2(KeyLaboratoryofIntelligentComputingandSignalProcessing,MinistryofEducation,AnhuiUniversity,Hefei230039,Anhui,China)3(AnhuiJiyuanElectricPowerSystemTechCo.,Ltd.,Hefei230088,Anhui,China)
To solve the problems of scale variation, fast motion and illumination variation in the visual tracking, a Kernel Correlation Tracking algorithm based on forward looking updating and quick abnormality judging techniques is proposed. In this algorithm, history state information is updated gradually, and the differential signal of the target is adopted to early response to environmental changes. Meanwhile, the hash code matching is used to control the classifier updating: the previously correct targets have been hash encoded to calculate similarity of the hash code of the classification goal obtained by a new frame; and then the similarity is used to decide whether to update the classifier or whether to re-detect target. Experimental results indicate that the proposed algorithm not only can obtain improvement in scale change, fast motion, but also has strong robustness for other attributes, such as illumination variation and occlusion. Moreover, it still maintains high tracking efficiency with a speed of a hundred frames per second.
Visual tracking Discrete PID Hash match Correlation filters
2016-09-14。国家电网公司科技项目(5212D01502DB);国家自然科学基金项目(61201396,61301296)。施伟,高工,主研领域:电力调度管理。张东,高工。陈庆,硕士生。谭守标,副教授。张骥,工程师。
TP391.41
A
10.3969/j.issn.1000-386x.2017.07.024