监控视频的摘要提取方法研究

2010-06-25 09:38谢志扬

电视技术 2010年4期

姚彬，史萍，葛菲，谢志扬

（中国传媒大学信息工程学院，北京 100024）

1 引言

数字视频监控系统是以数字视频处理技术为核心，综合利用光电传感器、计算机网络、自动控制和人工智能等技术的一种新型监控系统。数字视频监控具有传统模拟监控无法比拟的优点。由数字视频监控系统生成监控视频多数是以原始的、未经编辑的形式存放在硬盘中，信息量非常大，用户对视频的查找和浏览极为不便。

视频摘要技术所解决的问题是如何使视频数据能够被有效表示和快速访问，利用对视频内容的分析来减小视频存储、分类和索引的代价，提高视频的使用效率、可用性和可访问性。因而，如何有效提取监控视频的视频摘要，缩短视频长度，节省用户的查找和浏览时间，是当今需要迫切解决的问题。

2 监控视频的特点

监控视频一般是用监控设备所拍摄的，由于拍摄者、拍摄工具、拍摄内容和拍摄手段的限制，形成了不同于其他视频资料的一些显著特点：

1）监控视频没有明显的结构特征。监控视频主要记录了某个特定空间内人物的活动情况等，没有人为设计的故事情节或是特定的结构特征。

2）监控视频一般无镜头切换或镜头切换不频繁。监控视频中经常发生的情况是对于某一个固定的地方做长时间的摄录，镜头切换往往发生在人物的位置变化的时候。

3）监控视频中含有大量冗余内容。监视视频包含了大量没有经过编辑的、原始的视频信息，可能会出现一长段时间内都是同一静止画面的无用内容。

4）监控视频的观众是一个固定的群体。监视视频的观众一般仅限于监控视频的管理者，他们对于视频摘要的要求更多的是对某一段时间内监视情况的回顾或者是对某个特征人物或物体的查找[1]。

根据监控视频的这些特点，笔者将监控视频分为运动片段和静止片段。运动片段包含了人物的活动情况，为有用的视频信息，静止片段中长段时间内都是同一静止背景画面，为无用的视频信息。本文中监控视频的视频摘要提取的主要目的是去除视频中的静止片段，缩短视频长度。

3 监控视频的摘要提取

对于视频内容的分析有像素域和压缩域两种思路。目前的视频摘要算法多针对像素域，如模板匹配法、基于块的比较、直方图比较等。在压缩域对视频进行分析可以大大降低计算复杂度和处理时间，提高效率[2]。由于监控视频的数据量非常大，处理时间为主要考虑因素，因而对视频的分析在压缩域进行。摘要提取算法如图1所示。

3.1 帧运动量的计算

图1 监控视频摘要的提取过程

为了将监控视频自动地分割为运动片段和静止片段，首先需要了解视频运动活动性的概念。视频的运动活动性是指视频序列给用户视觉上的感知运动强弱程度。很显然，监控视频中运动片段的运动活动性比静止片段要大很多。文献[3]以MPEG码流中宏块的运动矢量为基础，检测每个P帧中具有较强运动的块连接而成的区域大小，形成不同面积的活动区域的直方图，以此描述视频镜头的活动性。文献[4]用计算相邻两帧之间块运动矢量模的均值和相继三帧对应块之间的运动差矢量模的均值作为活动性描述。文献[5]提出一种基于局部活动性直方图（LAH）描述视频运动活动性的方法。该方法首先对视频进行运动分析得到二维运动矢量场，然后在此基础之上形成强度标记图（STI），并用一个空间模板扫描STI，得到局部活动性直方图来描述运动矢量的空间分布，最后结合运动矢量的强度信息和LAH形成视频运动活动性描述子。

笔者引入帧运动量的概念来描述视频中一帧图像的运动活动性。帧运动量由以下3个参数来表征：

块运动矢量模总和为

式中：m和n分别为当前帧中水平方向和垂直方向块的个数，0≤i≤m，0≤j≤n，vi，j（x）为当前块的运动矢量在水平方向的值，vi，j（y）为当前块的运动矢量在垂直方向的值，N为运动矢量模不为0的块个数。

当运动对象在图像中占据的面积较大时，块运动矢量模总和的值会特别大。当运动对象较小时，块运动矢量模总和的值不会特别大，但块运动矢量模均值仍会比较大。当这两者的值都不大，但最大块运动矢量模较大时，仍可判定该帧的运动量较大。通过这3个参数综合衡量一帧的运动活动性，可将所有视频帧分为运动帧（运动活动性较大的帧）和静止帧（运动活动性较小的帧）。

3.2 运动片段和静止片段的分割

由于对实时性的要求，监控视频的编码一般不采用B帧。运动片段和静止片段的分割采用图2所示的算法。

图2 监控视频片段分割流程

4 实验结果及分析

在目前的视频监控系统中，主流的压缩格式是MPEG-4，主流分辨力是CIF。本文实验选取MPEG-4，352×288的视频格式。实验结果如表1和表2所示。表1为原始视频与摘要视频的参数比较，可以看出无论在视频长度还是在视频大小上，摘要视频都比原始视频小很多，达到了前文所提到的缩短视频长度的目的。表2为人工在原始视频上划分的运动片段与视频摘要中系统自动划分的运动片段的比较。 00：00：05—00：00：07没有运动人物出现，但是画面中存在大量运动的阴影，因而也被作为运动片段分割出来；00：09：26—00：09：29，00：09：31—00：09：34两段运动片段之间的间隔较短，因而被分割到同一运动片段；00：16：58—00：17：11，00：19：40—00：20：02运动人物进入镜头后交替进行运动和停止两种状态，因而被分割为不同的运动片段；00：14：24—00：14：29，00：24：18—00：24：21，00：25：35—00：25：37，00：28：11—00：28：15，00：28：24—00：28：28，00：29：40—00：29：43 运动人物在图像背景中比较靠后的楼梯中出现，占整个画面比例太小，因而没有被检测出来。其他运动片段均被正确分割出来，起始点都较为精确，由于系统的算法和运动阴影的影响，结束点一般比人工划分的结束点延后几秒。

表1 原始视频与摘要的视频参数比较

表2 摘要提取结果

整体来看，生成的摘要视频去除了原始视频中大量静止的无用信息，保留了主要的运动信息，满足了监控视频的摘要需求。

5 小结

本文采用基于帧运动量计算和运动片段分割的方法来提取监控视频的摘要。实验结果表明，该方法具有快速、准确的特点，可应用于监控视频的内容分析及检索系统。进一步的改进工作包括自适应选取阈值、优化算法提高运动片段分割的精度，以达到更好的实用效果。

[1]张振领.基于内容的监视视频摘要技术研究[J].电脑知识与技术，2008（10）：154-156.

[2]张嫘，黄焱.一种压缩域原始视频资料的摘要方法[J].广播电视与技术，2008（1）：55-58.

[3]DIVAKARAN A，PEKER K，SUN Huifang.A region based descriptor for spatial distribution of motion activity for compressed video[C]//Proceeding of2000 IEEE InternationalConference ofImage Processing.[S.l.]：IEEE Press，2000：287-290.

[4]许先斌，汪长城，陈勇华.一种基于运动特征的快速镜头边界检测方法[J].计算机应用，2004（12）：4-6.

[5]曾炜，高文，袁禄君.一种新的视频运动活动性的描述与检索方法[EB/OL].[2009-09-20].http∶//www.jdl.ac.cn/doc/2002/%E4%B8%80%E7%A7%8D%E6%96%B0%E7%9A%84%E8%A7%86%E9%A2%91%E6%B4%BB%E5%8A%A8%E6%80%A7%E6%8F%8F%E8%BF%B0%E4%B8%8E%E6%A3%80%E7%B4%A2%E6%96%B9%E6%B3%95.pdf.