一种改进的时空线索的视频显著目标检测方法

2015-04-17 02:45秦利斌刘纯平王朝晖

计算机工程与应用 2015年16期

关键词：时空平面显著性

秦利斌，刘纯平，王朝晖，季怡

QIN Libin,LIU Chunping,WANG Zhaohui,JI Yi

苏州大学计算机科学与技术学院，江苏苏州215006

Shool of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China

1 引言

显著区域检测是计算机视觉的一项重要的技术，其目的是将静态图像或者视频中显著的物体与背景分离开来，为图像或视频中物体的快速定位、特征提取、图像和视频的分析等后续工作提供重要的基础。显著区域检测的研究是在人眼视觉注意模型研究的基础上对其做出的一个实用性的模拟过程，即人眼视觉注意模型是理论层次的概念级模型，而显著区域检测模型则是对视觉注意模型的量化表示。

显著性检测方法通常分为三类：自顶向下的方法、自底向上的方法和混合方法[1]。自顶向下的方法是由任务驱动的，在检测之前已知目标的先验知识。这种方法基于人脑的认知知识，是一个自发的过程。传统的基于规则或者基于训练的目标检测都是这类方法的例子。自底向上的方法通常被称作刺激驱动的方法。这类方法基于人类对外部刺激的反应，例如明亮的颜色、特殊的形状或者是反常的运动，这是一种强制的过程[2]。早期的显著区域检测大多以静态图像作为研究对象，而对于视频中的显著区域检测是近年来的主流研究。

视频的显著区域检测模型不仅要考虑视频帧内图像的空间显著性，而且要考虑视频帧间的时间显著性。传统的视频中显著区域检测是从静态图像的显著区域检测模型进行扩展，如Itti 等在经典Itti98 的基础上增加了运动特征及帧间闪烁[3]，从而将该模型的应用扩展到视频中的时空显著图的计算。Guo[4]将谱残差法做了相应改进并扩展到视频中，首先对视频中各帧分别提取运动、红绿对比色、蓝橙对比色和亮度等特征，然后使用四元傅里叶变换获取上述四种特征的相位谱，最终得到融合多个通道的显著图。Lu 等人[5]在他们的视觉显著模型中使用了底层特征如颜色、纹理和运动以及认知特征，比如皮肤和脸，同时也用了不同种类的图像。Cheng[6]等人在视觉注意模型中加入了运动信息，他们的模型分析水平方向和垂直方向的像素运动的大小。但是在实际应用中，通过静态叠加方式混合时空特征的方法，难以满足不同的应用需求，很多研究也表明时空特征的静态混合效果并不理想。Zhai 和Shah 提出一种利用特征点匹配的方法获取运动信息，并采用动态权重融合策略获取混合时空特征的显著区域检测方法[2]。Bioman[7]等提出检测视频中时间空间域上不规则性的方法，该方法并不直接采用实际的运动信息，而是将视频块的2 维和3 维纹理和训练数据集进行比较，从而得到视频中不规则运动的信息。Meur[8]等提出了基于视觉注意的时间空间域模型，通过分析仿射参量来生成运动显著图。Kienzle[9]通过对眼动数据的学习构建了基于时空兴趣的检测子，通过这些检测子对输入视频信号分别在时域和空域内滤波，从而检测得到其中的显著对象。Duan 等人[10]利用空间加权相异性来进行显著性检测。Mahadevan 和Vasconcelos[11]针对高度动态的场景，提出了时空显著性检测方法，以有效地提出前景中的显著目标。Mahadevan 和Vasconcelos[12]利用中心-周围的显著机制进行类似生物激励的目标跟踪。Ren 等人[13]利用稀疏重构过程去捕捉中心-周围高对比度的区域作为空间显著性，对于时间显著性则利用重构误差、稀疏性规则化和局部轨迹对比度进行运动显著性的测量，并将时间和空间显著性进行合并，在人眼固定视频数据库上具有较好性能。Décombas 等人[14]从时间和空间特征角度出发，利用局部对比度和全局稀少特征作为显著性，从颜色和方位提取空间特征，从运动维度和方向提取时间特征，提出时空稀少显著模型。因此从时空特征出发进行视频中显著区域检测方法的研究成为视频显著性分析的重点，不同的时空显著性检测方法各具特色。

本文基于Zhai 和Shah 提出的时空显著检测方法，提出基于HSL 颜色空间的视频空间特征显著性的描述方法，并结合原来的时间显著性计算方法，通过动态权重分配自动融合时、空显著性而得到最终的显著图，最终以显著图的搜索获取视频中的显著区域。

2 改进时空线索显著区域检测方法

Zhai 和Shah 提出的时空线索的显著模型是一种自底向上的视觉显著性检测方法。这种方法能够检测出视频序列中的注意区域和注意动作。图1 给出了基于时空线索的视频显著性检测的框架。本文依照Zhai 和Shah 提出的方法框架，在空间显著性的计算方面进行改进，获得了比原方法更好的显著区域检测效果。

图1 基于时空线索的视频显著性检测框架

2.1 时间显著图生成

运动是视频区别于静态图像的一个重要特征，时间显著性的计算就是要找出视频中的运动区域并且以显著度来定量表示运动区域的显著性大小。时间显著性检测中，时间显著图往往是计算图像像素之间的运动对比得到，传统的方法多数是基于密集光流场。如果场景中存在多个运动图层，那么边缘像素的光流就会很“嘈杂”，而且密集光流在纹理较少的区域可能产生错误。除此之外光流场对噪声的鲁棒性也比较差，而特征点的匹配（也称为稀疏光流）表示的运动轨迹则比较精确和稳定，因此Zhai 和Shah 提出了基于SIFT[15-16]特征特征提取与匹配和RANSAC[17]运动聚类的时间显著图生成的方法。在显著度计算中使用图像间的以平面运动作为运动片段的模型几何变换，该方法主要分为三步：

（1）用SIFT 特征提取与匹配算法得到特征点的运动轨迹。

（2）用RANSAC 算法进行运动聚类，得到运动平面。在这个过程中采用迭代的方式获取不同的运动平面。具体是将每次聚类的内点作为一个找到的运动平面，然后对该次聚类的外点继续采用RANSAC 聚类寻找新的内点作为运动平面，直到再也找不到符合运动平面聚类的内点为止。

（3）计算运动平面的显著度。运动平面的显著度是基于特征点的运动对比计算得到的。这和原来论文中的计算方式一样，主要是利用运动平面的单应性矩阵的几何变换误差来进行显著图的计算。

图2 给出了一组使用SIFT 和RANSAC 方法得到的运动平面显著性检测实验结果。

图2 时间显著图生成实验结果

图2 中第一列和第二列是视频序列中的两帧图片，第三列是时间显著图，从时间显著图上可以发现，前两行的例子中找到了运动平面，第三行的例子却没有找到。通过跟踪程序的运行发现，在第三个例子中两幅图片共有6 对匹配点，而要通过RANSAC 找到运动平面必须满足这6 个点全部是内点，但实际上仅有4 个内点，所以在这个例子中没有找到运动平面。因此这也是该方法进行时间显著性检测可能不能正确获取运动平面显著性的一个主要原因所在。

2.2 空间显著区域提取

心理学研究表明人类感知系统对颜色、亮度、纹理这些视觉信号的对比很敏感。在Zhai 和Shah 的空间显著模型中只考虑了图像的亮度信息而没有考虑颜色和纹理的信息，所以空间显著区域的提取的准确性不高，图3 是原有方法的一个失败的例子，可以看到图中的红色小汽车比较吸引人的注意，但最后的空间显著区域并没有覆盖它。为此，本文在空间显著性的计算中加入了颜色信息，为了更好地描述人眼的视觉特性，采用HSV颜色空间，从像素级和区域级两个层次来表示显著性。

图3 原始方法的一个失败例子

HSV 模型在1978 年由埃尔维·雷·史密斯创立，它是三原色光模式的一种非线性变换。HSV 在数学上定义为在RGB 空间中的颜色的R，G 和B 的坐标的变换。它比RGB 更准确地描述了感知和颜色的联系。在HSV 颜色空间中，H 指hue（色相），S 指saturation（饱和度），V 指value（色调）。从RGB 空间转换到HSV 空间的公式如下：

其中w1、w2和w3是权值，实验中对w1，w2和w3在0.1 到0.9 之间进行调试，由于亮度受到光照等因素的影响，使得同一目标也有可能呈现出不同的亮度特征，因此w3过大则会使得亮度分量在显著图生成中占主导，得到的效果和改进前的方法相比，没有显著提高，也不利于不同光照下的显著对象的检测，而w3过小则会使得在显著图生成过程中亮度这一重要的信息几乎不起作用，这样对于大多数情况都不能得到很好的效果，因此适当的约束亮度，增加色调和饱和度的权重，可以比较好的反映真实场景中的原始信息。在论文的实验中w1、w2和w3取0.4，0.3，0.3 时总体效果最好。

得到了像素级的显著图之后，找出其中的局部极大值点，以这些点为中心初始化矩形的种子区域，然后通过分析矩形内外两侧的能量，将矩形向矩形四边的方向扩展。这样矩形将会在像素级显著图的亮暗区域的交界处停止扩展。由于存在不同种子区域扩展后覆盖同一块显著区域的情况，通过分析矩形的重叠率，将重叠率高的矩形合并起来，最后，将矩形内像素的平均灰度值作为该矩形显著区域的显著度。图4 给出了原有空间显著区域检测和改进的空间显著区域检测的实验结果对比。从图4 可以看出改进的方法可以有效地找出静态图像中的显著区域。因为改进的方法中加入了颜色信息，更加符合人类的视觉特性，所以找到的显著区域比原来更准确，如图3 中的例子，在图4 中改进的方法得到了比较准确的显著区域。

图4 原有方法（奇数行）与改进方法（偶数行）空间显著区域检测结果对比

2.3 时空动态融合

得到了时间显著图和空间显著图，还需要将时间和空间的显著图通过一定的方法融合到一起形成包含时空显著性的时空显著图。本文依然采用原来论文中提出的动态权重融合的方式进行时空显著图的最终计算，采用两个动态权值kT和kS对时间和空间显著图进行融合。首先定义伪方差PVarT来衡量时间显著图中运动的大小，其定义如下：

kT和kS是根据PVarT来计算的，其定义为：

最后的时空显著图计算如下：

当时间显著图中运动较大，那么kT的值就比较大，时间显著度占主导，反之kS的值较大，空间显著度占主导。

3 实验结果与分析

本文实验环境如下：CPU 是Intel Corei3 2.13 GHz，内存为2.00 GB。所使用的操作系统是Microsoft Windows 7（32 位），开发环境是Visual Studio 2010、OpenCV2.4.2以及GSL1.8。为验证改进算法的有效性，对标准视频进行了实验，视频来自PETS2001、I2R、KTH 数据库以及优酷网。

图5 和图6 是一组对比实验的结果，图5 使用Zhai和Shah 的空间显著模型，图6 是本文改进的方法。

图5 原有方法的时空融合显著目标检测实验结果

图6 改进方法的时空融合显著目标检测实验结果

从图4 和图6 中显著目标检测的结果可以看出，图4中原始图像的第一、三、四行是背景复杂的图像，除了运动的前景本身之外，背景也存在运动，图4 中原始图像的第二行以及图6 中的示例图像是光照不均匀的情况，在本例中存在阴影，从原有方法和改进方法目标的检测结果来看，改进的方法的检测结果优于原有方法。因此本文所述方法对于光照不均匀和运动背景的情况，有不错的效果。相对于原有方法有明显改进。

从图5 和图6 的结果来看，图5 的最后两个例子的结果中没有比较准确地找到运动的物体所在区域。而图6 中则能比较准确地找到它们。这说明对于这组实验数据，用改进的方法得到的时空融合和目标检测的效果要好于原有方法。对于最后一个例子，由于运动目标少的特征点匹配太少（3 对），而RANSAC 需要至少4 对匹配点，所以在时间显著模型中没有找到其所在的运动平面，但由于通过改进的空间显著性检测比较准确地找到了运动物体位置，而且在融合的时候空间显著模型占主导，所以图6 中最后还是检测出了运动物体，并且使用高斯滤波平滑了噪声，使显著图连续性得到增强，所以对于运动目标的检测较为完整。而原有方法只对图像的亮度计算显著图，并且没有作高斯滤波，得到的空间显著区域较小，使得最后检测的目标不完整。对于第四个例子，在时间显著图中虽然找到了小车所在的运动平面，但这一运动平面显然并不准确，它还包含一大块小车以外的区域，表1 是该运动平面对应的单应性矩阵的内点。

从表1 中不难发现在这些内点中最后一个点的纵坐标和其他点的纵坐标差别很大，这个点显然不在目标红色小汽车上，这是一个异常的点，而它的运动和小汽车的运动相似，所以也被当作内点，由于这个异常点的存在，最终得到的运动平面与真实的运动平面有很大的差距，又因为显著度和运动平面面积有关，所以最终得到的运动平面的显著度与真实情况也会有一定差距。不过，由于改进的方法在空间显著图上比较准确地找到了这个目标，弥补了时间显著图计算的错误，所以最后得到的结果还不错。

表1 红色小车运动平面对应的单应矩阵的内点和匹配点坐标

从图4，图5 和图6 看到，由于改进的方法在空间显著图的生成过程中加入了图像的色彩这一人眼十分敏感的视觉信息，在显著度计算的过程中使用能反映人类视觉特性的颜色空间HSV，使得到的显著图更加能够反映人眼的真实的注意机制，因此最终得到的显著目标的检测效果比改进前有明显提高。

4 结束语

本文在充分分析Zhai 和Shah 提出的时空线索的显著区域检测方法的基础上，提出了一种基于HSV 颜色模型的空间显著区域提取方法，并将这一方法和Zhai和Shah 的时间显著区域提取和动态时空融合的方法相整合，实现视频显著目标的检测，提高了显著目标提取的准确性。

当然本文所用的方法也存在不足，首先使用SIFT特征匹配的方法无法保证提供足够的特征点匹配来计算正确的单应性矩阵；其次复杂场景中背景上较多的匹配点会影响运动平面的估计；再次是使用SIFT 特征提取与匹配的方法计算复杂度高，无法实时处理视频；最后是没有考虑在空间模型中加入纹理特征，使得空间显著区域的提取在背景纹理复杂的情况下变得不准确。这些方面都有待进一步的研究，来提高目标检测的效果和效率。

[1] Wolfe J M，Cave K R，Franzel S L.Guided search：an alternative to the feature integration model of visual search[J].Journal of Experimental Psychology，1989，15：419-433.

[2] Zhai Yun，Shah M.Visual attention detection in video sequences using spatiotemporal cues[C]//14th Annual ACM International Conference on Multimedia，Santa Barbara，USA，2006：815-824.

[3] Itti L，Koch C.Computational modeling of visual attention[J].Nature Review Neuroscience，2001，2（3）：194-203.

[4] Guo C，Zhang L.A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression[J].IEEE Transactions on Image Processing，2010，19（1）：185-198.

[5] Lu Z，Lin W，Yang X，et al.Modeling visual attentions modulatory after effects on visual sensitivity and quality evaluation[J].T-IP，2005，14（11）：1928-1942.

[6] Cheng W H，Chu W T，Kuo J H，et al.Automatic video region-of-interest determination based on user attention model[J].ISCAS，2005，4：3219-3222.

[7] Boiman O，Irani M.Detecting irregularities in images and in video[C]//ICCV，2005，1：462-469.

[8] Le Meur O，Thoreau D，Le Callet P，et al.A spatio-temporal model of the selective human visual attention[C]//ICIP，2005，3：1188-1191.

[9] Kienzle W，Scholkopf B，Wichmann F A，et al.How to find interesting locations in video：a spatiotemporal interest point detector learned from human eye movements[C]//Proceedings of DAGM-Symposium，2007：405-414.

[10] Duan Lijuan，Wu Chunpeng，Miao Jun，et al.Visual saliency detection by spatially weighted dissimilarity[C]//IEEE Conference on Computer Vision and Pattern Recognition（CVPR），2011：473-480.

[11] Mahadevan V，Vasconcelos N.Spatiotemporal saliency in highly dynamic scenes[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2010，32（1）：171-177.

[12] Mahadevan V，Vasconcelos N.Biologically inspired object tracking using center-surround saliency mechanisms[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35（3）：541-554.

[13] Ren Zhixiang，Gao Shenghua，Rajan Deepu，et al.Spatiotemporal saliency detection via sparse representation[C]//IEEE ICME，2012：158-163.

[14] Décombas M，Riche N，Dufaux F，et al.Spatio-temporal saliency based on rare model[C]//IEEE International Conference on Image Processing（ICIP），2013.

[15] Lowe D.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision，2004，60（2）：91-110.

[16] 王永明，王锦贵.图像局部不变性特征与描述[M].北京：国防工业出版社，2010.

[17] Fischler M A，Bolles R C.Random sample consensus：a paradigm for model fittingwith applications to image analysis and automated cartography[J].Communications of the ACM，1981，24（6）：381-395.