基于误差预测模型的半自动2D转3D关键帧提取算法

2018-05-15 08:31相凯吴少群袁红星

软件导刊 2018年4期

相凯吴少群袁红星

摘要：关键帧是半自动2D转3D的核心技术，现有方法没有考虑关键帧提取与深度传播间的相互影响，难以最小化深度传播误差。针对该问题，通过光流运动分析，根据颜色差异、运动差异与遮挡误差建立深度传播误差预测模型，提出传播误差最小化的关键帧提取算法。实验结果表明，基于误差预测模型的关键帧提取方法深度传播质量更高，平均PSNR改善了0.6dB以上。

关键词：3D视频；2D转3D；关键帧；深度传播；误差预测

DOI：10.11907/rjdk.172680

中圖分类号：TP312

文献标识码：A 文章编号：1672-7800（2018）004-0082-03

Abstract：Key-frame selection is one of core technologies in semi-automatic 2D-to-3D conversion. Existing methods cannot minimize depth propagation errors since they don′t consider key-frame′s impact on depth propagation. To address this issue， we predict propagation errors based on color dissimilarities， motion dissimilarities and occlusion errors， and select key-frames via minimization of propagation errors. Experiments demonstrate that our method can improve quality of depth propagation via the errors prediction model. The PSNR is improved by more than 0.6 dB compared with existing methods.

Key Words：3D video； 2D-to-3D conversion； key-frame； depth propagation； errors prediction

0 引言

3D在消费类媒体中占据着重要位置[1]，涉及3D内容制作、传输、存储、播放和显示等技术，对于国民经济发展具有重要意义。为了在3D影像产业链中占据制高点，目前迫切需要解决以下3个问题：显示终端、3D内容创建与3D标准制定。其中，随着3D电视频道的开通，3D片源不足已成为制约3D影像发展的瓶颈，而2D转3D技术是解决这一难题的关键。2D转3D流程如图1所示，其核心是深度估计。现有转换方法主要分为：人工转换、半自动转换和全自动转换[2]。人工转换能够产生最佳深度图，但也是最耗时、耗力且转换成本最高的方法；全自动转换因为无需人工干预而受到研究人员青睐，但现有的全自动转换难以估计出高品质的深度图，且存在场景适用性问题；半自动转换首先从原始2D视频中提取若干关键帧，然后对这些关键帧进行人工转换，再利用深度传播技术将关键帧深度扩散到非关键帧，最后对非关键帧深度进行人工优化，该转换方式是兼顾转换品质和效率的最佳折衷方案。半自动转换的核心问题是关键帧提取，这是最大限度减少人工成本和保证转换品质的关键，而现有研究对此关注较少。因此，本文从深度传播误差分析着手探讨半自动2D转3D的关键帧提取问题。

1 研究现状

现有的关键帧提取算法研究主要针对视频摘要、检索等应用。当前，关键帧提取算法可粗略分为序列法和基于聚类的方法。Vila等[3]利用Tsallis互信息和Jensen-Tsallis散度计算帧间相似度，并用一帧图像和同一镜头内其它帧所有图像间的平均相似度作为该帧的代表性测度，将最具代表性的视频帧选为关键帧；Yong等[4]提出一个对视频序列语义上下文进行建模的计算框架，通过比较帧间语义级特征和一个统计分类器实现关键帧提取；张晓星等[5]利用图像特征点检测与匹配的方法，将相邻图像的非匹配点作为帧间相关性的近似，将累积或平均非匹配点数超过设定阈值的帧判为关键帧；张建明等[6]采用全局运动特征与局部运动特征作为视频体特征，同时提取典型视频相应特征，采用粒子群算法自适应提取视频关键帧；雷少帅等[7]将序列法和聚类法结合起来，首先提取视频的时空切片，然后对切片进行K均值聚类，最后根据相似度从每个类中提取关键帧；王方石等[8]针对聚类关键帧提取的阈值问题，提出二次聚类方法，根据内容变化程度自适应确定聚类所需的阈值，并采用动态无监督聚类算法自动提取关键帧；罗森林等[9]以帧间颜色直方图差为特征进行子镜头检测，并对子镜头进行关键帧提取与聚类，在提升关键帧提取速度的同时，降低了关键帧提取冗余度；詹永照等[10]针对现有聚类方法对初始类划分敏感、易陷入局部最优、没有考虑时序性等问题，提出一种基于人工免疫的有序样本聚类算法。

目前，针对半自动2D转3D的关键帧提取算法研究还较少。Cao等[11]使用基于采样的关键帧提取算法（SKF），每隔一段时间从视频中提取一帧作为关键帧。SKF的优点是算法实现简单，缺点是采样间隔很难与视频内容匹配，导致选取的关键帧不具代表性，进而影响到后续的深度传播质量；Sun等[12]根据相邻帧的遮挡面积和SURF特征点匹配比例计算关键帧选取阈值，进而对候选的每个关键帧估计摄像机的投影矩阵，最后将具有最小重投影误差的候选帧作为关键帧。实验表明该方法可显著改善深度传播质量。然而，摄像机投影矩阵估计是个病态问题，Sun等[12]需要借助Lenz等[13]提出的标定方法进行投影矩阵估计。

现有面向半自动2D转3D的关键帧提取算法将深度传播与关键帧提取独立进行研究，没有考虑关键帧和深度传播对彼此的影响。为此，本文对深度传播误差进行建模，计算候选关键帧到非关键帧的深度传播误差，选择具有最小传播误差的视频帧作为关键帧。

2 本文方法

如图2所示，本文提出基于深度传播误差预测的关键帧提取算法，主要包括基于光流的运动分析、基于运动分析的深度传播误差预测，以及根据误差代价矩阵进行关键帧提取，对关键帧进行人工深度分配并传播到非关键帧。

2.1 深度传播误差预测分析

关键帧向非关键帧进行深度传播，首先需要建立帧间像素点的对应关系，大部分算法都采用运动估计的方法。本文通过前向光流和反向光流建立帧间像素点的匹配关系。假设第i帧图像用Fi表示，其对应的前向光流和反向光流分别为wfi和wbi。其中wfi表示Fi到Fi+1的光流，wbi为Fi+1到Fi的光流。利用前向光流wfi从Fi的像素点X=（x，y）处向后续帧Fi+1进行深度传播的误差概率定义如式（1）所示。式（1）中ci+1i表示利用光流建立从Fi到Fi+1的像素点对应关系的误差代价，其定义如式（2）所示，主要包括颜色差异、运动差异和遮挡误差，分别如式（3）—（5）所示。这里颜色差异假设匹配的像素点具有相似颜色，运动差异假设匹配的像素点运动具有一致性。对于非遮挡像素点，其前向光流和反向光流应大小相同、方向相反，因而遮挡误差项为0，否则这种非0值表示遮挡对深度传播的误差影响。

2.2 基于传播误差预测的关键帧提取

本文的关键帧提取算法是要寻找向其它帧传播误差概率最小的帧。为此，定义一个N×N的代价矩阵C，其中N表示总视频帧数。矩阵C第i行、第j列的元素定义如式（7）所示：

假设S表示候选关键帧，定义如式（8）所示的能量函数，其中l和r分别表示距离候选关键帧Fi左边和右边最近的候选关键帧索引。基于传播误差预测的关键帧提取即是最小化式（8）的求解过程。

3 实验结果与分析

实验数据来自微软提供的3D视频序列Ballet和Breakdancer[14]。将关键帧的真实深度向非关键帧进行传播，并与非关键帧的真实深度进行比较，以PSNR作为客观比较指标。其中深度传播采用简单的最近邻法，即某个非关键帧的深度由距离其最近的关键帧深度传播得到。实验中，与Cao等[10]基于采样的关键帧提取算法（SKF）、Sun等[11]的双阈值法（DT）进行了比较。如表1所示，与SKF和DT方法相比，本文方法获取关键帧的深度传播平均PSNR改善了0.6dB以上。这是因为SKF和DT提取关键帧时并未考虑深度传播误差的影响，而本文通过最小化传播误差选取关键帧，因而能够有效改善深度传播质量。

4 结语

关键帧提取直接决定了半自动2D转3D质量。现有方法将关键帧提取与深度传播割裂开来，难以最小化深度传播误差。本文从颜色差异、运动差异与遮挡误差着手，建立深度传播的误差预测模型，进而构造传播代价能量函数，通过能量最小化实现误差最小化的深度传播。实验结果表明，本文方法可有效改善深度传播质量。

参考文献：

[1] 王瑜.三维场景模型构建研究与实现[J].软件导刊，2017，16（7）：199-201.

[2] 吴少群，袁红星，安鹏，等.软分割约束边缘保持插值的半自动2D转3D[J].电子学报，2015，43（11）：2218-2224.

[3] VILA M， BARDERA A， QING X， et al. Tsallis entropy-based information measures for shot boundary detection and keyframe selection[J]. Signal， Image and Video Processing， 2013：1-14.

[4] YONG S P， DENG J D， PURVIS M K. Wildlife video key-frame extraction based on novelty detection in semantic context[J]. Kluwer Academic Publishers， 2013，62（2）：359-376.

[5] 张晓星，刘冀伟，张波，等.分布视频编码中基于帧间相关性的自适应关键帧选取算法[J].光电子·激光，2010，21（10）：1536-1541.

[6] 张建明，蒋兴杰，李广翠，等.基于粒子群的关键帧提取算法[J].计算机应用，2011，31（2）：358-361.

[7] 雷少帅，曹长青，古赟，等.基于时空切片的关键帧提取研究[J].太原理工大学学报，2012，43（3）：358-361.

[8] 王方石，须德，吴伟鑫.基于自适应阈值的自动提取关键帧的聚类算法[J].计算机研究与发展， 2005， 42（10）：1752-1757.

[9] 罗森林，马舒洁，梁静，等.基于子镜头聚类方法的关键帧提取技术[J].北京理工大学学报，2011，31（3）：348-352.

[10] 詹永照，汪满容，柯佳.基于人工免疫有序聚类的视频关键帧提取方法[J].江苏大学学报：自然科学版，2012，33（2）：199-204.

[11] CAO X， LI Z， DAI Q H. Semi-automatic 2D-to-3D conversion using disparity propagation[J]. IEEE Transactions on Broadcasting， 2011，57（2）：491-499.

[12] SUN J D， XIE J C， LIU J. Dual threshold based key-frame selection for 2D-to-3D conversion[J]. Journal of Computational Information Systems， 2013，9（4）：1297-1305.

[13] LENZ R K， TSAI R Y. Technology for calibration of the scale factor and image center for high accuracy 3-D machine version metrology[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 1988，10：68-75.

[14] ZITNICK C L， KANG S B， UYTTENDAELE M， et al. High-quality video view interpolation using a layered representation[J]. ACM Transactions on Graphics， 2004，23（3）：600-608.

（責任编辑：黄健）