多模态特征联合稀疏表示的视频目标跟踪

2015-02-18 08:01段喜萍刘家锋王建华唐降龙
哈尔滨工程大学学报 2015年12期
关键词:计算机视觉多模态

段喜萍, 刘家锋, 王建华, 唐降龙

(1.哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001; 2.哈尔滨师范大学 计算机科学与信息工程学院,黑龙江哈尔滨 150025; 3.黑龙江省智能教育与信息工程重点实验室,黑龙江 哈尔滨 150025)

多模态特征联合稀疏表示的视频目标跟踪

段喜萍1,2,3, 刘家锋1, 王建华2,3, 唐降龙1

(1.哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001; 2.哈尔滨师范大学 计算机科学与信息工程学院,黑龙江哈尔滨 150025; 3.黑龙江省智能教育与信息工程重点实验室,黑龙江 哈尔滨 150025)

摘要:针对复杂跟踪环境下,单模态方法不能很好地跟踪目标的问题,提出了一种基于多模态特征联合稀疏表示的目标跟踪方法。该方法对每个候选样本的多模态特征进行联合稀疏表示,将各模态重建误差之和用于计算候选样本的观察概率,并将具有最大观察概率的候选样本确定为目标。通过与其他一些流行跟踪算法进行对比实验,结果表明本方法在遮挡、光照变化等场景下均能可靠跟踪,具有更好的跟踪效果,从而验证了方法的可行性。

关键词:计算机视觉;视频目标跟踪;多模态;LBP;APG;模板更新;联合稀疏表示

网络出版地址:http://www.cnki.net/kcms/detail/23.1390.U.20151104.1636.006.html

唐降龙(1960-),男,教授,博士生导师.

视觉目标跟踪是计算机视觉中的热点问题,已被广泛应用于自动监控、汽车导航、高级人机交互等诸多领域。然而由于受到姿势、形状变化,杂波背景,亮度、视角变化,噪声及遮挡等因素的影响,实现健壮的视觉目标跟踪仍极具挑战。现有的视觉目标跟踪方法可被分类为产生式方法和判别式方法。产生式方法在一组候选目标中选择似然值最大的候选目标作为跟踪目标。其中,Ross等提出的IVT方法[1]递增学习一个低维子域以适应目标的外观变化。VTD方法[2]使用多个运动模型和多个外观模型来扩展传统的粒子滤波方法。判别式方法将跟踪问题看作一个两类别分类问题。其中,Boosting方法[3]通过在线特征选择跟踪目标。为避免跟踪偏差,在线半监督boosting方法[4]使用未标记样本提高分类性能;Babenko等人[5]将多示例学习引入到视觉目标跟踪中。Zhang等人提出的CT算法[6],利用压缩感知,在压缩域进行目标表示,具有实时跟踪性能。

在前述各类方法中,绝大多数为单模态方法,即使用一种特征来表示目标,忽视了目标包含的其他丰富特征。实际上,不同模态特征具有不同特点:基于区域的特征,如全局灰度或全局纹理,较为敏感,但不适于处理遮挡;基于形状的特征对噪声敏感,但不适于目标的快速运动;显著点特征适合于遮挡,但对目标本身的变化较为敏感[12]。而现有的多模态方法中,往往不能同时考虑到各模态特征之间差异与关联。为解决前述问题,本文提出一种基于多模态特征联合稀疏表示的跟踪方法。在表示每一候选目标时,同时考虑该候选目标各模态特征之间的差异与联系,通过求解具有2,1范型正则项的最小化问题,激活属于同一目标模板的不同模态特征,联合表示该候选目标,提高候选样本的表示精度及整个跟踪系统的性能。

1基于多模态特征联合稀疏表示的跟踪方法

1.1 多模态特征联合稀疏表示及观察概率

在视觉目标跟踪中,为定位目标,关键是估计每个候选目标的观察概率。下面将介绍多模态特征联合稀疏表示,及如何获取每个候选目标的观察概率。

(1)

式中:w=[w1w2…wK]∈RJ×K为对应的稀疏表示矩阵,λ为平衡重建误差与稀疏性的参数。这种表示有2个优点:1)使不同特征具有不同的稀疏表示,以反映它们间的差别;2)引入2,1正则项,使某些目标模板能够联合表示候选目标的不同特征,使与同一目标模板对应的稀疏系数联合稀疏,以反映不同模态特征间的关联。

考虑到跟踪过程中可能的噪声和遮挡,分别向各模态特征对应的目标模板集Tk中引入遮挡模板集Ik=I∈Rd×d,其中I为d维单位矩阵,每列为对应目标各像素位置的遮挡模板。指定Dk=[TkIk]∈Rd×(J+d)表示扩展后的对应于第k种模态特征的目标模板集。当发生遮挡时,目标同一位置的不同特征均会受到影响,与之对应的所有遮挡模板应被激活。因而,应对与同一位置的不同特征对应的遮挡模板对应的系数强加联合稀疏正则项。这样,式(1)可被扩展为

(2)

其中

(3)

其中,C为归一化因子。

假设给定一组候选目标{y(1),y(2),…,y(N)},则具有最大观察概率的候选目标被确定为目标。

(4)

1.2 模板更新

跟踪过程中,受到姿势变化、亮度变化、遮挡等因素的影响,目标外观可能发生变化。因而有必要对目标模板集进行更新以适应目标外观的变化。本文在设计更新策略时考虑了如下3个因素:

1)一般来说,由于跟踪的连续性和一致性,连续帧的目标外观变化不大。

2)受到姿势变化、遮挡等因素影响,目标外观可能变化很大。

3)能确保第1帧的目标状态是正确的。

综合以上3点,本文采用一种简单的更新策略:

1)保持第1帧的目标作为目标模板集中第1个目标模板T1,不更新;

(5)

否则不更新。

1.3 跟踪算法

步骤1:初始化。

步骤2:从第2帧开始,不断执行下列各步,直至最后一帧。

4)根据式(3),计算每个候选目标y(t,i),i=1,2,…,N,的观察概率P(y(t,i)|o)。

5)根据式(4),估计第t帧的目标位置。

6)根据1.2节,更新目标模板集。

2实验及分析

为验证本文方法的有效性,以2模态特征为例进行了2组实验。具体来说,第1组实验对比了本文方法与基于单模态特征的跟踪方法。第2组实验对比了本文方法与基于多模态特征单独稀疏表示的方法。实验中,设置参数λ和τ的值分别为0.02和0.4。

为对比本文方法与单模态跟踪方法,本文在图像序列PETS上对比了基于单模态灰度稀疏表示的方法、基于单模态LBP纹理稀疏表示的方法、MIL[6]、CT[7]及本文的基于多模态特征(灰度+LBP纹理)联合稀疏表示的方法,其中LBP纹理图像可从灰度图像计算得到。

(6)

式中:xi,i=1,2,…,P-1,表示像素xc的从左上角第1个像素开始,顺时针方向第i个8邻域像素值。由式(6)获得的LBP纹理图像中像素的取值范围为0~127。

图1 不同方法在PETS序列的第7、8、70以及107帧上的跟踪结果Fig.1 Different methods in frames 7, 8, 70 and 107 of the PETS sequence

PETS图像序列呈现了行走在马路上的行人,先后经过一根电线杆及相向驶来的汽车,发生遮挡。在第一次经过电线杆发生遮挡时,采用基于灰度稀疏表示的方法产生偏差,并最终导致跟踪失败;而此时采用基于LBP纹理特征稀疏表示的方法,及本文的基于多模态特征(灰度+LBP纹理)联合稀疏表示的方法能够继续跟踪。仔细观察,可以发现电线杆灰度特征和周围环境差别很小,并且行人的灰度特征不显著,因而在电线杆遮挡行人的数帧中,灰度特征分辨力变弱,从而导致偏差,并最终失败,如图1第7、8帧所示。在第50帧附近,相向驶来的汽车遮挡行人,此时LBP纹理特征的分辨力变弱,造成跟踪偏差,而本文方法能继续跟踪,如图1第70、107帧所示。可以看出本文的基于多模态特征联合稀疏表示的方法能够根据跟踪环境自适应地选择最具分辨力的特征进行跟踪,从而提高跟踪精度和鲁棒性。图1也给出MIL和CT的跟踪结果,可以看到,这2种方法在第7、8、70及107帧上产生了较大偏差。

为进一步衡量本文方法的有效性,图3(a)给出了本文方法与前述单模态方法的位置误差曲线。可以看到:基于单模态灰度与单模态纹理的方法先后产生偏差,并最终跟踪丢失;MIL和CT在跟踪开始就产生较大偏差;而本文方法偏差较小,效果较为理想。

为对比本文方法和基于多模态单独稀疏表示的方法,本文对比了2种方法在singer1图像序列上的跟踪结果。

(a)本文方法与单模态跟踪方法的误差曲线图

(b)本文方法与基于多模态单独稀疏表示的跟踪方法的误差曲线图图2 位置误差曲线图Fig.2 The position error curves

在singer1图像序列中,一位女歌手站在立式麦克风前全情投入地演唱歌曲,并伴随着音乐旋律而自然舞动。女歌手位置没有移动,但相对镜头有相对移动,这种情况下2种方法都具有较为理想的跟踪结果,如从第2帧到第106帧。然而从第107帧开始,在大约连续25帧中,舞台出现灯光的明暗变化。这种情况下,受到光照变化的影响,基于多模态特征单独稀疏表示的方法,产生的稀疏模式(稀疏系数)不可靠。而本文方法能够产生更为可靠的稀疏模式,从而得到更好的跟踪精度和结果。图3给出了有代表性的4帧结果。可以看到,以第2帧为代表的各帧,没有受到灯光明暗变化的影响,2种方法均具有较好的跟踪结果;以第109和131帧为代表的各帧,受光照变化的影响,本文方法能够产生更为可靠的结果。之后各帧中,二者结果相当,本文方法略好。

图3 2种方法在singer1序列的第2、109、131以及217帧上的跟踪结果比较Fig.3 The tracking results comparison between two methods in frames 2, 109, 131 and 217 of singer1 sequence

本文方法与基于多模态单独稀疏表示的跟踪方法的位置误差曲线如图3(b)所示。可以看到:从107帧到131帧,受光照变化影响,基于多模态单独稀疏表示方法产生的稀疏模式不稳定,偏差较大;本文方法能够产生更为可靠的稀疏模态,从而具有更好的跟踪性能。

相比于其他跟踪算法,基于稀疏表示跟踪算法的劣势在于其跟踪的时间开销大[9],而多模态稀疏表示涉及到多模态特征提取及多模态特征稀疏求解,其计算复杂度进一步提高,时间开销进一步加大。

3结束语

本文提出了一种基于多模态特征联合稀疏表示的目标跟踪方法。该方法考虑了目标表示的多模态特征,及它们之间的差异与关联,更为准确地表示了每个候选目标,从而准确地估计各候选目标的观察概率。本文的贡献有3个方面:

1)引入目标的多模态特征表示,实现了跟踪过程中多模态特征的互为补充,适合于跟踪环境的变化;

2)充分考虑了不同模态特征的差异与关联,更准确地表示了候选目标;

3)采用一种较为简单的策略实现目标模板的更新。通过2组实验的比较,本文方法较单模态跟踪方法及基于多模态特征单独稀疏表示的方法具有更好的性能。

参考文献:

[1]ROSS D A, LIM J, LIN R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1-3): 125-141.

[2]KWON J, LEE K M. Visual tracking decomposition[C]//2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco,USA, 2010: 1269-1276.

[3]GRABNER H, GRABNER M, BISCHOF H. Real-time tracking via on-line boosting[C]//Proceedings of BMVC. Edinburgh, 2006: 47-56.

[4]GRABNER H, LEISTNER C, BISCHOF H. Semi-supervised on-line boosting for robust tracking[M]//Computer Vision-ECCV 2008. Berlin: Springer, 2008: 234-247.

[5]BABENKO B, YANG M H, BELONGIE S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619-1632.

[6]ZHANG K, ZHANG L, YANG M H. Real-time compressive tracking[C]//European Conference on Computer Vision. Florence, Italy, 2012: 864-877.

[7]MEI Xue, LING Haibin. Robust visual tracking and vehicle classification via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(11): 2259-2272.

[8]MEI Xue, LING Haibin, WU Yi, et al. Minimum error bounded efficient1tracker with occlusion detection[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs,USA, 2011: 1257-1264.

[9]LI H, SHEN C, SHI Q. Real-time visual tracking using compressive sensing[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA, 2011: 1305-1312.

[10]WU Yi, BLASCH E, CHEN Genshe, et al. Multiple source data fusion via sparse representation for robust visual tracking[C]//2011 Proceedings of the 14th International Conference on Information Fusion (FUSION). Chicago,USA, 2011: 1-8.

[11]DUAN Xiping, LIU Jiafeng, TANG Xianglong. Multi-cue visual tracking based on sparse representation[M]//Intelligence Science and Big Data Engineering. Berlin: Springer, 2013: 427-434.

[12]WANG Yuru, TANG Xianglong, CUI Qing. Dynamic appearance model for particle filter based visual tracking[J]. Pattern Recognition, 2012, 45(12): 4510-4523.

[13]YUAN Xiaotong, LIU Xiaobai, YAN Shuicheng. Visual classification with multitask joint sparse representation[J]. IEEE Transactions on Image Processing, 2012, 21(10): 4349-4360.

Visual target tracking via multi-cue joint sparse representation

DUAN Xiping1,2,3,LIU Jiafeng1,WANG Jianhua2,3,TANG Xianglong1

(1. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China; 2. College of Computer Science

and Information Engineering, Harbin Normal University, Harbin 150025, China; 3. Heilongjiang Provincial Key Laboratory of Intelligence Education and Information Engineering, Harbin 150025, China)

Abstract:The single feature usually cannot distinguish the target from background well in the complex environment, and thus a multi-cue joint sparse representation based tracking method was proposed. The multi-cue features of each candidate target were represented sparsely and jointly, and the sum of their reconstruction errors was used to compute the observation probability of each candidate. The candidate with maximum observation probability was determined to be the target. Comparative experiments with other state-of-the-art tracking algorithms show that the proposed method can reliably track in various scenarios such as occlusion and illumination variation. It has better tracking performance, which verifies the feasibility of the proposed method.

Keywords:computer vision; visual target tracking; multi-cue; local binary pattern; accelerated proximal gradient; template updating; joint sparse representation

通信作者:段喜萍,E-mail: xpduan1999@126.com.

作者简介:段喜萍(1980-),女,讲师,博士研究生;

基金项目:国家自然科学基金资助项目(61173087);黑龙江省教育厅科学基金资助项目(12541238).

收稿日期:2014-12-04.网络出版日期:2015-11-04.

中图分类号:TP391

文献标志码:A

文章编号:1006-7043(2015)12-1609-05

doi:10.11990/jheu.201412012

猜你喜欢
计算机视觉多模态
基于深度卷积神经网络的物体识别算法
双目摄像头在识别物体大小方面的应用
机器视觉技术发展及其工业应用
危险气体罐车液位计算机视觉监控识别报警系统设计
多模态话语中的詹姆斯·卡梅隆电影
网络环境下大学英语多模态交互式阅读教学模式研究
多模态理论视角下大学英语课堂的构建