联合时空SIFT特征的同源视频检测*

2012-09-15 06:17张瑞年于洪涛李邵梅

电子技术应用 2012年3期

关键词：同源时空特征

张瑞年，于洪涛，李邵梅

（国家数字交换系统工程技术研究中心，河南郑州 450002）

联合时空SIFT特征的同源视频检测*

张瑞年，于洪涛，李邵梅

（国家数字交换系统工程技术研究中心，河南郑州 450002）

通过对视频帧序列时空特性的分析，采用“局部趋同，全局异化”的策略，提出了一种联合时域和空域SIFT点特征的特征提取方法。实验表明，基于该特征的同源视频检测方法对于一定的视频变化具有较好的鲁棒性和检测精度。

同源视频检测；视频帧序列时空特性；联合时空SIFT特征

近年来，随着网络技术和多媒体技术的快速发展，数字视频的产生、复制、修改和传播变得越来越容易。视频信息在版权保护、广播监测、内容跟踪和管理等方面的问题日益突出，同源视频检测技术作为应对此类问题的一个有效手段受到广泛关注。

同源视频检测的实质是判定两段视频是否具有相同的内容。现有的同源视频检测方法通常采用基于帧匹配框架，且一些图像匹配方法被广泛使用，如基于颜色直方图的方法、基于边缘的方法以及基于运动信息的方法[1]等，但这些方法都存在对视频色彩、格式、尺度变化鲁棒性差以及难以准确表征视频信息等问题。基于分块亮度顺序 OM（Ordinal Measures）[2]的方法相比于现有其他方法性能更优。该方法通过发现图像块间相对关系来构造不变视觉特征，但是局部变化通常会打乱图像块间的相对关系，导致这类方法失效[3]，且该方法受限于OM分块的数量，对视频内容的区分能力较弱[1]。

上述方法的核心问题是所选取特征的鲁棒性及区分性较差，采用鲁棒性及区分性更好的视频图像特征将有利于视频的准确表征，能进一步改善同源视频检测效果。近年来，在计算机视觉领域成熟的图像局部关键点检测算子和描述算子[4]受到广泛关注，并被应用于视频检测中[5，11]。其中SIFT特征在对象识别方面具有较好的性能[6-7]。但是基于单帧SIFT特征的视频检测方法没有充分利用视频特征的时空相关性，不利于视频的表征及检测效果。本文对视频帧序列的SIFT特征进行了时空特性分析，提出了一种视频联合时空SIFT特征。

1 视频序列的SIFT特征分析

1.1 SIFT特征提取算法

SIFT[8]（Scale-Invariant Feature Transform）是一种图像特征提取与匹配算法，该算法能处理两幅图像之间发生平移、旋转、尺度变化、光照变化情况下的特征匹配问题，且在一定程度上对视角变化、仿射变化也具备较为稳定的特征匹配能力。该算法已被证实在同类特征中健壮性最强[4，6]，能在不同图像中检测识别出相同的物体。SIFT特征在稳定性、独特性方面的优良性能，使得SIFT特征非常适合在连续视频帧中提取稳定性、区分性强的事物特征来表征视频信息，并能够准确地在特征数据库中予以匹配。

1.2 视频序列的SIFT特征时空特性分析

连续视频帧的视觉信息在时域和空域都是不断变化的，其中会有稳定相同的以及新出现的事物和特征。本文以视频帧图像的SIFT特征进行实验分析，对一段运动视频在空域上对每帧图像进行SIFT特征提取，在时域上统计帧与帧之间的SIFT特征匹配数量。实验结果如图1(a)所示，虚线表示每帧图像中SIFT特征的数量，实线表示相邻前后两帧图像相匹配的SIFT特征数量，‘*’线表示后续帧分别与首帧(也可认为是某一固定帧)特征相匹配的数量。该数据表明本实验视频具有以下特性：

(1)相邻的前后帧存在大量相匹配的SIFT特征，即帧间存在特征冗余。

(2)后续帧与首帧之间存在一定数量相匹配的SIFT特征，即后续画面中稳定出现的一些特征，如图1(b)所示。视频中可能会有台标、徽标等长时间出现且未发生变化的物体画面区域。

(3)序列帧间存在特征更新。虽然相邻帧相匹配的特征数量较多，但对于运动等画面内容变动较大的视频，随着帧间隔的扩大，帧间特征匹配数量会减少，即新的特征在增加。

(4)随着后续帧与首帧（或者某一固定帧）相匹配的特征数量的减少，其所占每帧特征总数的比例递减。进一步分析可知，当其减少到一定比例时，可以认为是大量新的视频信息取代了首帧（或者某一固定帧）信息，即新的代表帧甚至是新场景镜头的开始。

通过以上分析容易得出，本实验视频的上述特点具有一定的普遍性。

2 视频序列的联合时空SIFT特征表征及其度量

对于一段视频，仅提取单帧或者关键帧图像的特征会造成一定的视频信息损失，无法充分准确地表征视频。结合1.2节视频序列SIFT特征的时空特性分析，本文进行了视频联合时空SIFT特征构造。

2.1 联合时空SIFT特征的构造

视频联合时空SIFT特征有以下三种构造方法：

(1)对视频帧序列范围内的SIFT特征进行“趋同”处理。由1.2节实验视频特性(2)可知，视频帧序列中会重复、稳定出现一些事物特征，特别是对于镜头固定、画面内容变动不大的视频，此类特征能较准确地表达视频信息。于是以一定序列帧内某一帧为基准，按照式(1)提取帧间稳定出现的、即“趋同”的SIFT特征对视频进行表征。

其中Fi(i=1,…,n)为帧序列中每个单帧的SIFT特征集。显然，V是视频序列精简、稳定的SIFT特征集合。但由实验视频特性分析(4)可知，对于画面内容变动较大的视频而言，随着帧间隔的扩大，帧间趋同的特征数量会逐渐减少，用式(1)提取的特征来表征整段视频会造成一定的信息丢失，且当信息丢失到一定水平后，可以认为该特征集V已经无法准确地表征视频信息。

(2)对视频帧序列范围内的SIFT特征进行“异化”处理。由视频特性分析(3)可知，帧间的特征存在着新旧更替。若提取并整合这类不断更新的特征，即对特征进行“异化”处理，便能得到更充分表达所有视频帧信息的特征。于是按照式(2)，建立以首帧（或某一固定帧）为基准，包含后续帧中增量特征的非冗余特征集。

此方法提取的视频特征集包含了所有视频帧的特征，是对整段视频的较完整描述。但同时也会导致提取的特征数量过多、计算量大等问题，因此只适合离线操作。

(3)按照“局部趋同、全局异化”的策略提取SIFT特征。方法(1)、(2)所提取的特征虽然具有精简、稳定的特点，但存在信息丢失或信息全面但计算量大等问题。鉴于两者的优缺点，本文将两种方法予以结合，建立如图2所示的特征提取模型，即在整个视频序列的时域和空域范围内，采用“局部趋同，全局异化”的策略提取SIFT特征，以得到精确且较为充分的视频联合时空SIFT特征。

假设视频序列可以划分为s(s≥1)个区间。在每个局部区间内，采用式(1)进行特征处理，得到“趋同”的特征集 Vsi(i=1,2,…,s)；在序列全局区间内，对特征集 Vsi(i=1,2,…,s)采用式(2)处理，即在“趋同”特征集的基础上，将特征“异化”，吸纳新增特征，得到包含各 Vsi(i=1,2,…,s)增量特征在内的联合时空SIFT特征集V。这样得到的V是结合了视频帧序列中,在时域和空域上稳定、较为全面的SIFT特征集。

对于模型中区间的划分，可以通过检测视频序列帧间相匹配特征数量的跳变来实现。假设某段视频序列的总帧数为 n，首帧特征数量为 Ks0，第 i(i＜n)帧与首帧(或者新区间序列的首帧)特征匹配数量为 Ki，当(Ki/Ks0)＜η 时，即认为该区间截止，则第i帧为下一区间的首帧。其中，η为判决门限。不难发现,方法(1)是 η=0的特例，方法(2)是η=1的特例。经实验，本文中采取 η=0.3。

2.2 时空联合SIFT特征的同源度度量

假定两个进行同源视频检测的视频为A和 B，其时空联合的 SIFT特征数目分别为KeyNumA和KeyNumB，且相匹配的特征数目为KeyMatchAB,则定义同源度[9]θ为：

θ表明了两段视频的同源程度。在判断两个视频同源性的过程中，需要一个门限值θT来判定同源程度的高低。当θ＞θT时,则认为两个视频为同源视频。本文中，θT取值为 0.837 6。

3 实验及分析

实验环境：Inter 8核 CPU 2.93 GHz,内存 2.93 GB，采用Matlab与C语言混合编程。

数据集:在TRECVID2010提供的数据集中，抽取300个不同内容分类的源视频作为参考视频，每个视频时间长度在30 s～4 min之间不等。待检测视频共 100个，均从其参考视频或者其他非参考视频截取获得，并进行添加logo、提高亮度、画中画、画面模糊、画面尺寸、改变帧率、改变分辨率、画面翻转8种变化。

评价指标：NDCR[10]与平均检测时间。

(1)NDCR：即TRECVID官方评价提出的归一化检测错误率，其意义是评测漏检率和错报率加权调和值，即：

(2)平均检测时间：由一个查询遍历完所有参考视频所消耗的时间来衡量。

本文将联合时空SIFT方法与目前常用的分块亮度顺序(OM)方法进行同源视频检测的对比实验。如图3(a)中所示的联合时空SIFT特征方法的NDCR总体平均值为0.192 9,远低于OM方法的NDCR总体平均值0.872 1，即前者的检测精度高于后者。图3(b)中联合时空SIFT方法的时间消耗平均为1 000.46 s，远大于OM方法的122.75 s。

由实验可以得出，联合时空SIFT方法对亮度、尺寸、帧率、分辨率、画中画等视频变化都有较好的检测精度，明显好于OM方法。由于SIFT算法本身具有较大的计算量，而联合时空SIFT方法是在提取了SIFT局部点特征的基础上进行了一定的时域及空域的压缩，所以导致了检测时间明显高于OM方法。

SIFT特征具有良好的尺度、旋转、光照和仿射等不变性，是性能优良的特征匹配算子。视频帧序列中，单个图像帧的特征匹配并不能很好地解决所选特征存在的鲁棒性和区分性较弱的问题。本文对视频帧序列进行了SIFT特征时空特性分析，并采用“局部趋同，全局异化”的策略，提出了一种联合时空SIFT特征的视频表征方法。实验表明，使用本文所提出的联合特征进行同源视频检测，能应对如亮度、尺寸、分辨率等视频变化，且较现有的OM方法具有更好的检测精度。但基于该特征的方法也有些不足，如计算量较大等问题，且当参考视频数据库规模较大时，会导致检测时间较长。在进一步的工作中，将继续对本文所提出的方法进行优化研究，以提高处理速度及改善在大容量视频数据库中的应用。

[1]潘雪峰,李锦涛,张勇东,等.基于视觉感知的时空联合视频拷贝检测方法[J].计算机学报,2009,32(1):107-114.

[2]LAW T J,CHEN L,JOLY A,et al.Video copy detection:A Comparative Study[C].Proceedings of CIVR.Amsterdam:The Netherlands,2007.

[3]吴潇,李锦涛,唐胜,等.基于时空轨迹行为特征的视频拷贝检测方法[J].计算机研究与发展,2010,47(11):1871-1877.

[4]MIKOLAJCZYK K,TUYTELAARS T,SCHMID C,et al.A comparsion of affine region detectors[J].International Journal of Computer Vision,2005,65(1):43-72.

[5]孙晶,褚金奎.图像局部不变特征提取技术研究及其应用[D].大连:大连理工大学,2009.

[6]MIKOLAJCZYK K,SCHMID C.A performance evaluation of local descriptors[J].IEEE Trans.on Pat.Analysis and Machine Intelligence,2005,27(10):1615-1630.

[7]DOUZE M,JEGOU H,SCHMID C.An image-based approach to video copy detection with spatio-temporal post-filtering[J].IEEE Transactions on Multimedia,2008,12(4):257-266

[8]LOWE D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110

[9]徐波,孙军.基于视频印记的同源视频检测[D].上海:上交通大学,2008

[10]TREC Video Retrieval Evaluation Home Page[Z].(2011-4-15).http://www-nlpir.nist.gov/projects/trecvid/.

[11]Guo Junbo,Li Jintao,Zhang Yongdong,et al.Video copy detection based on trajectory behavior pattern[J].Journal of Computer Aided Design and Computer Graphics,2010,22(6):943-948.

Detection of coderivative video based on spatiotemporal SIFT

Zhang Ruinian,Yu Hongtao,Li Shaomei
(National Digital Switching System Engineering&Technological R&D Center,Zhengzhou 450002,China)

Video features extraction is the important part of detection of coderivative video.SIFT features are local features with excellent performance.By anglicizing the temporal and spatial characteristics of video frames sequences SIFT feature,this paper takes the ＂local convergence,global alienation＂strategy,and proposes a feature extraction method of spatiotemporal SIFT characteristics.Experiments of detection of coderivative video based on the method show that the proposed co-features has better robustness against certain changes of video sequences,and also has a better detection accuracy than some existing methods.

detection of coderivative video;spatiotemporal characteristics of video frames sequences；spatiotemporal SIFT characteristics

TN915

0258-7998(2012)03-0130-04

国家“863”计划资助项目（2011AA010603)

2011-11-23)

张瑞年，男，1985年生，硕士研究生，主要研究方向：电信网安全、通信与信息系统。

于洪涛，男，1970年生，教授，主要研究方向：电信网安全、通信与信息系统。

李邵梅，女，1982年生，助教，主要研究方向：电信网安全、通信与信息系统。