视觉显著运动目标初始定位方法

2015-04-17 02:46杨大伟宋程程

计算机工程与应用 2015年16期

关键词：人眼尺寸定位

杨大伟，宋程程

YANG Dawei,SONG Chengcheng

哈尔滨工程大学信息与通信工程学院，哈尔滨150001

College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China

1 引言

视频图像跟踪算法中初始定位的准确性直接影响后续的跟踪精度。人为划定目标需在每次跟踪前进行校准，花费大量的人力并且耗时较长。随着目标跟踪算法在自动识别、智能安全监控、障碍物检测等领域的广泛应用，自动检测人眼感兴趣目标并对其进行初始定位成为人们研究的重要课题。文献[1]中提出一种基于背景建模的目标检测方法，需对场景有一定的先验知识，且适用于背景变化小的视频序列；Viola 等人利用聚类分析方法将目标与复杂背景分离，在得到较高精度的同时增加了运算复杂性，在场景变换后需重新学习进行更新[2]；文献[3]提出基于图像分割的检测技术，不需场景的先验知识，但要人为指定检测目标的区域；同时，有学者提出基于运动矢量、分形、上下文等信息的检测技术[4-6]。目前跟踪算法中普遍应用帧间差分法，该方法计算简单、速度快，但精确性一般，在一定程度上会引入噪声[7]。

本文提出一种感知视频图像运动目标并自动获取初始位置的定位方法。通过二值化人眼视觉显著图将目标与背景分离，并据此计算显著目标中心位置及其尺寸。该方法能够自动提取视频中运动目标，并消除运动背景带来的干扰，为后续跟踪算法提供所需参数。

2 基于人眼视觉的显著目标提取

人类具有能够快速理解复杂场景的能力，是源于在进一步处理信息之前，中级和高级视觉神经选择可用的信息子集，最有可能地减少场景分析的复杂度。这种选择表现为视野内的局部区域，即人们关注的焦点也称显著区域[8]。本文利用基于人眼视觉显著性分析得到显著图像，对其提取可用于跟踪算法的视频运动目标初始定位参数。显著目标初始定位方法框图如图1 所示。

图1 显著目标初始定位方法

2.1 显著图像提取

显著图像表征人眼对图像不同位置的关注程度[9]。准确地提取显著图像将有助于快速并有效地处理后续图像信息。Itti 等人提出一种基于视觉注意的神经生物学模型计算显著图[10]，该方法通过不同尺度下的高斯金字塔提取图像或者视频序列的底层视觉特征，如：亮度、颜色、方向等，并通过模拟感受野的中心-环绕结构模型得到每个特征下的显著图像，最终通过归一化求和运算，得到整体显著图像。文献[11]中提出一种基于频域的显著图像提取方法，该方法基于有效编码理论，将图像信息经傅里叶变换至频域，去除大量图像共有的先验知识，保留图像中特有的显著信息并反变换至空间域，得到显著图像。基于全局对比度的方法在文献[12]被提出，该方法通过计算整幅图像各像素点的对比度值，将显著目标与背景分离，进而得到显著图像。利用图像灰度、颜色、频域等特征信息提取显著图像的方法也被提出[13-15]。

本文针对视频图像中运动的显著目标提取其初始定位参数，应用于粒子滤波器等视频跟踪算法中。除采用包含单帧图像信息的亮度特征外，同时增加包含视频图像运动信息的运动特征来获得显著图像。其中，亮度表征连续两帧之间的亮度差异；运动特征为Gabor 滤波后的当前帧与滤波后的前一帧之间的运动信息。运动信息的引入使得提取结果适用于视频中的显著目标提取。

图2 显著图像提取过程

当前帧n的亮度Ln=(Rn+Gn+Bn)/3。亮度特征L=Ln-Ln-1。

将各尺度下的特征通过中心环绕模型，即将特征图与中心环绕模型算子进行卷积，本文采用高斯差分函数（DOG）实现中线环绕模型的作用。

针对视频中显著图像提取结果如图3 所示。

图3 视频中显著图像提取结果

2.2 目标位置标记

目标的初始定位即获得其中心点位置并计算尺寸。针对不同的跟踪算法，目标初始位置的输入参数不同，本质均为对目标的表述，可以相互转化。本文以粒子滤波器的初始参数为例进行说明，参数为目标中心点位置、椭圆长轴、短轴以及角度，目标标记方法如图4 所示。具体实现步骤如下：

步骤1利用Itti 算法得到显著图像I，如图4（b）所示。

图4 目标标记方法

步骤2计算图像的前景与背景的最大类间差阈值Totsu，使显著图像以差别最大、错分概率最小分割为两部分[11]。以阈值T对I进行二值化处理，其中T=1.5Totsu。得到二值化图像Ib，如图5 所示。

图5 显著目标提取效果图

步骤3提取显著目标骨架。为保证显著目标的定位尺寸符合人眼对目标主体区域的认定，提取目标的核心区域，得到骨架IG，骨架提取方法见文献[16]。

步骤4计算骨架IG的最小外接矩形RE。外接矩形四个顶点坐标分别为(x1，y1)，(x2，y2)，(x3，y3)，(x4，y4)，矩形中心点为显著目标的中心点(X，Y)。其中，X=(x1+x2+x3+x4)/4，Y=(y1+y2+y3+y4)/4。

步骤5求取外接矩形R的任意两个连续顶点之间的距离，可得外接矩形长L=max(dis1,dis2)，宽W=min(dis1,dis2)，椭圆长轴2a=L，短轴2b=W，椭圆角度

图5 中显著目标中心位置为（119°，87°），椭圆长轴a=52，短轴b=36，椭圆角度θ=-1.8°。将得到的显著目标中心位置及长轴、短轴、角度信息输入粒子滤波器跟踪算法中，可完成显著目标的跟踪。其中，目标尺寸由二值化的显著图像确定，目标形态变化时，尺寸也会随之改变。

3 仿真实验和性能比较

为测试本文方法的有效性，分别将人为划定结果与本文方法及Itti 方法及SR 方法进行ROC 曲线下面积比较，ROC 曲线下面积为某一种方法准确性评价的指标，通过对同一需求的多种实验进行分析比较，做出最佳方案决策。所得ROC 曲线下的面积值越大表示该方法越优，即所得到显著区域越符合人为划定区域。

本文仿真以输入图像尺寸128×128，通过对58幅自然图像进行仿真实验[11]，平均ROC曲线下面积如表1所示。

表1 ROC 曲线下面积结果比较

对视频序列进行仿真测试。以输入White_Lady视频序列第一帧至第四帧为例，每一帧图像尺寸为384×288，左上角记为像素原点坐标，显著目标定位结果如图6。

图6 White_Lady 仿真结果

图6（a）～（d）分别为针第一帧至第四帧的显著目标提取结果，中心点及尺寸如表2 所示。

通过仿真结果可以看出，该方法能够有效地获得视频序列显著目标的初始位置及其尺寸，根据连续视频序列中目标形态的变化可自适应调节尺寸参数，适用于目标与背景均运动的情况，经过连续几帧图像序列后可自动消除运动背景带来的干扰。在目标与背景相互混叠或差别较小时，适当增加二值化阈值T能更加准确地描述显著目标区域范围。运动特征的引入使该方法适用于显著运动目标初始定位，目标静止时需减少或去除运动特征的使用以改善仿真结果。

表2 显著目标初始定位结果

4 结束语

本文提出一种基于人眼视觉的视频显著运动目标初始定位方法，利用图像亮度和运动特征通过人眼视觉注意机制得到显著图像，经过二值化处理分离显著目标与背景，从而获取计算目标的中心位置及尺寸。在不需要场景先验知识及人为参与的情况下，该方法能够准确地提取视频图像中显著运动目标初始位置及区域范围，自适应调节人眼敏感运动目标尺寸，为后续跟踪算法提供初始参数。

[1] Saleemi I，Shafique K，Shah M.Probabilistic modeling of scene dynamics for applications in visual surveillance[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2009，31（8）：1472-1485.

[2] Viola P，Jones M J，Snow D.Detecting pedestrians using patterns of motion and appearance[J].International Journal of Computer Vision，2005，63（2）：153-161.

[3] Shi J，Malik J.Normalized cuts and image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2000，22（8）：888-905.

[4] Kaplan L M.Extended fractal analysis for texture classification and segmentation[J].IEEE Transactions on Image Processing，1999，8（11）：1572-1585.

[5] 高常鑫.基于上下文的目标检测与识别方法研究[D].武汉：华中科技大学，2010.

[6] 刘龙，刘贵忠，刘洁瑜，等.一种基于MPEG 压缩域的运动对象分割算法[J].西安交通大学学报，2004，38（12）：1264-1267.

[7] Lee S U，Yoon Chung S，Park R H.A comparative performance study of several global thresholding techniques for segmentation[J].Computer Vision，Graphics，and Image Processing，1990，52（2）：171-190.

[8] Henderson J M.Human gaze control during real-world scene perception[J].Trends in Cognitive Sciences，2003，7（11）：498-504.

[9] Itti L，Koch C，Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，1998，20（11）：1254-1259.

[10] Itti L，Dhavale N，Pighin F.Realistic avatar eye and head animation using a neurobiological model of visual attention[C]//Optical Science and Technology，SPIE’s 48th Annual Meeting，International Society for Optics and Photonics，2004：64-78.

[11] Hou Xiaodi，Zhang Liqing.Saliency detection：A spectral residual approach[C]//2007 CVPR’07 IEEE Conference on Computer Vision and Pattern Recognition.IEEE，2007：1-8.

[12] Cheng Mingming，Zhang Guoxin，Mitra Niloy J，et al.Global contrast based salient region detection[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.IEEE，2011：409-416.

[13] Martins P，Carvalho P，Gatta C.Stable salient shapes[C]//2012 International Conference on Digital Image Computing Techniques and Applications（DICTA）.IEEE，2012：1-8.

[14] Federico P，Philipp K，Yael P，et al.Saliency filters：Contrast based filtering for salient region detection[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.IEEE，2012：733-740.

[15] Sun Xiaoliang，Liu Xiaolin.Learning based saliency weighted structural similarity[C]//2012 International Workshop on Image Processing and Optical Engineering，International Society for Optics and Photonics，83351H-83351H-83357，2012.

[16] Gonzalez R C，Woods R E.Digital image processing[M].Upper Saddle River：Prentice Hall，2002：672-674.