两种镜头检测算法的对比

2011-06-13 12:52徐磊

电子测试 2011年2期

徐磊

（重庆邮电大学通信学院，重庆 400065）

0 引言

基于内容的视频检索技术的第一步就是镜头边界检测。一个镜头就是同一个摄像机在同一个场景拍摄到的一组连续的帧图像，从内容上看这组帧图像是一致的[1]。镜头检测分为两种，一种是突变，就是两个帧图像之间直接切过去，没有多余的变化。一种是渐变，就是视频后期加入的特殊效果，例如淡入淡出、叠化、擦除、糙化/褪色等等，渐变发生时，是连续的多个帧之间缓慢变化[2]。

近年来，这方面的研究成果颇为显著，镜头检测算法常用步骤为：先把要检测的一段视频分割成一帧一帧的帧图像，然后通过数学方法提取每个帧的特征向量一个或多个，作为这个帧的特征值，最后进行帧与帧之间的对比，从而得出突变和渐变镜头边界[3-6]。本文主要对其中两种镜头检测算法进行了详细介绍，最后通过仿真结果进行对比并得出结论。

1 基于小波变换的边界检测算法

1.1 小波变换（DWT）

小波分析是当前应用数学和工程学科中一个迅速发展的新领域。与傅里叶变换相比，小波变换是空间（时间）和频率的局部变换，因而能有效地从信号中提取信息。通过伸缩和平移等运算功能可对函数或信号进行多尺度的细化分析，最终达到高频处时间细分、低频处频率细分，能自适应时频信号分析的要求，从而可聚集到信号的任意细节，解决傅里叶变换的许多问题。一幅帧图像通过小波变换可分解为4个分量：低频分量（LL）、水平高频分量（HL）、垂直高频分量（LH）、对角线高频分量（HH）。低频分量看起来与原始图很相似，但是尺寸要比原图小的多，水平分量包括图像的水平方向像素的信息特征，垂直分量表示的是图像垂直方向像素的信息特征，同样对角分量表示的是对角方向的信息特征。

1.2 特征提取

为了检测出两个帧图像是突变还是渐变，就必须寻找出一种两个帧之间的测量方法。由于视频种类的多样化，用一个特征向量代表一幅帧图像很难有效地检测出镜头边界。在这种方法中我们使用多特征向量，用颜色信息、水平、垂直、对角边界信息4个特征值作为一幅帧图像的特征向量。颜色和边界特征值在突变镜头发生时变化会很大，在渐变镜头发生时会有一串连续的帧图像发生变化。镜头内物体的移动和摄像机的移动以及闪光灯会造成镜头检测的许多错误，当这些情况发生时，颜色特征值会发生很大的变化，但是边界特征值变化很小，可以利用这一点来消除灯光变化和运动。

首先把每帧图像分很多小块，每一个小块尺寸为32×32像素，然后对每一块进行同一尺度的小波变换。通过小波变换结果中LL分量就可以计算两帧图像的颜色特征值，用HL、LH、HH分别代表变化后的水平、垂直、对角特征值。

1.2.1颜色特征值的提取

式中A(l) 代表一幅帧图像中第L块的低频系数LL之和，Cl(k) 是L中第k个像素的低频系数值，M是第L块中总的像素数。两幅连续帧图像中L块的颜色特征值的差别可以用如下公式计算获得，t代表t时刻的帧图像，t+1代表t时刻后的一幅帧图像。

最后，基于两幅帧图像的颜色特征值的差别得如下公式，N代表一帧中总的块数：

1.2.2 边界特征值的提取

根据式(1)～(4)计算，两帧图像的边界差值在水平方向、垂直方向、对角方向分别为、、

图1显示了突变镜头的检测结果，由图可见，在突变镜头发生时，有明显的峰值。前3个分量看起来还比较满意，但是最后一个对角分量就不好，这表明如果阈值选择得不好，效果就很差。

图2显示了小波变换中只有近似分量测试的视频突变镜头。很明显在这个分量上的测试效果非常好。

图1 算法一的突变镜头检测

2 基于颜色特征的镜头检测算法

颜色特征相对于运动来说有很好的不敏感性，因此它经常用于镜头检测。日常生活中，RGB颜色空间是使用最广泛的，但是它还不是最接近人们的视觉感知，HSV（色调、饱和度、数值）颜色空间是人们用来从调色板或颜色轮种挑选颜色（如颜料和墨水）所用的彩色系统之一。该颜色系统更接近于人们的经验和对颜色的感知。因此，首先要先将RGB空间转换为HSV空间。

具体算法如下，按照人们平时的视觉辨别能力，把H分量分为12份，S分量和V分量各分为5份，由此，两帧图像之间的相似度用如下公式计算：

式中，H(i)、S(i)、V(i)分别代表H、V、S分量中满足第i份的像素数的总和。

图3显示了此算法测试结果，总体看起来效果很好。

3 实验结果分析和结论

镜头检测算法经常用查准率和查全率以及F1来评估，它们的定义为，A：正确的检索结果；B：检测出错误的结果；C：漏检。

TREC-2001[9]视频数据库经常被用来评估镜头检测算法的好坏，这里包括了很多不同风格的视频片段，而且这些片段的年代和质量都不相同，最重要的是片段里的突变镜头和渐变镜头已经被NIST列出，不用人为的观察。本文采用了网站上提供的10个片段，包括动画、战争、娱乐、纪录片4种类型。由于检测渐变镜头算法还需要在上面两种算法基础上进行深一步的研究，所以在此只列出了突变镜头检测的结果。算法一和算法二检测的结果如表1和表2所示。

表1 评价算法一性能的结果

表2 评价算法二性能的结果

从实验结果可以看出，两种方法在检测突变镜头时算法二明显优于算法一，而且由于算法一步骤比较复杂，中间处理数据多，造成算法一在MATLAB里面程序运行时间要明显长于算法二。实践证明突变镜头比较容易检测，因此在研究检测突变镜头算法时，简单有效的颜色直方图对比就可以，没必要采用过于复杂的算法。在检测过程中，发现两种算法对摄像机运动都很敏感，比如在记录片中有很多都是摄像机的运动，这造成了很多误检，直接影响了算法的效率。在数字视频高度发展的今天，越来越多的视频加入了特殊的编辑效果，使检测算法变的更加困难和复杂，所以今后在渐变镜头方面的检测算法会成为人们研究的热点和难点。

[1]U.Gargi, R.Kasturi and S.H.Strayer.Performance characterization of video-shot-change detection methods[J].IEEE Trans.on Circ.and Sys.for Video Tech,2000,11:1-13.

[2]J.H.Yuan, H.Y.Wang, and B.Zhang.A formal study of shot boundary detection[J].IEEE Transactions on Circuits and System for Video Technology,2007,17(2):168-186.

[3]R.Zabih, J.Miller,K.Mai.A Feature-based algorithm for detecting and classifying scene break[J].Proc.ACM Mult.95, San Francisco,California,1995,11:189-200.

[4]H.J.Zhang, A.Kankanhalli ,S.Smoliar.Automatic portioning of full-motion video[J].Mult.Sys.,1993,2(7):10-28.

[5]Y.Liu, W.Wang, W.Gao , W.Zeng.A Novel compressed domain shot segmentation algorithm on H.264/AVC[C].Proc.Intl.Conf.on Image Proc.(ICIP2004)，Singapore,2004,10:2235-2238.

[6]A.Ekin, A.M.Tekalp and R.Mehrotra.Automatic soccer video analysis and summarization[J].IEEE Trans.on Image Proc., 2003,7:796-807.

[7]Jun Li, Youdong Ding, Yunyu Shi, Qingyue Zeng.DWT-based Shot Boundary Detection Using Support Vector Machine[C].IEEE 2009 Fifth International Conference on Information Assurance and Security43-438 2009.

[8]Zhiyi Qu, Ying Liu, Liping Ren, Yong Chen, Ruidong Zhang.A Method of Shot Detection Based on Color and Edge Features[C].IEEE 2009 Fifth International Conference on Information Assurance and Security2009.

[9]Videos in the 2001 TREC video retrieval test collection.http://www.open-video.org/.