基于人体区域深度信息的HEVC快速分割算法

2016-12-30 05:40宋晓炜蔡文静王晓宁刘洲峰
中原工学院学报 2016年6期
关键词:感兴趣复杂度编码

宋晓炜, 蔡文静, 杨 蕾, 王晓宁, 刘洲峰

(中原工学院, 郑州 450007)

基于人体区域深度信息的HEVC快速分割算法

宋晓炜, 蔡文静, 杨 蕾, 王晓宁, 刘洲峰

(中原工学院, 郑州 450007)

为了降低新一代视频编码的计算复杂度,减少不必要的CU(Coding Unit )划分,同时保证较好的视频质量,提出一种基于深度信息的快速分割算法。该算法根据深度信息区分人体区域,将人体区域作为感兴趣区域(ROI),在CU分割过程中,依据分割的不同区域快速做出抉择,以减少率失真计算量,从而降低CU深度划分的计算复杂度。实验结果表明,在输出比特率增加4.84%的情况下,采用该算法的HEVC(High Efficiency Video Coding)编码器比传统编码器平均编码时间降低63%,而编码后的视频质量基本保持不变。

HEVC;CU;感兴趣区域;深度信息

随着高清和超高清视频技术的快速发展,视频存储数据量越来越大,图像编码的比特数、传输带宽也随之增加,给视频的存储和传输带来了严峻考验。新一代高效视频编码器HEVC(High Efficiency Video Coding)[1]于2013年4月正式成为国际标准。它采用基于四叉树循环分层结构的编码单元、预测单元和变换单元[2]。其编码性能和效率比传统编码器显著提高,但编码复杂度却明显增加。为了实现HEVC编码器的应用,在保证编码视频主、客观质量的前提下,必须加快编码速度。

当前CU(Coding Unit )的深度值范围取决于先前已编码Slices和相邻CU的深度值[3-4]。为了快速得到高质量的视频,需要进行感兴趣区域编码,利用运动估计方法确定感兴趣区域。对感兴趣区域优先传输,虽然可提高码流的伸缩性能,但是视频恢复的质量较差[5]。林国川等利用Sobel算子检测分析纹理复杂区域和运动区域来区分感兴趣区域[6]。但是这并不完全符合人类视觉系统的识别习惯,容易错失某些重要部分的信息。现有改进方法虽然在很大程度上减少了CU遍历区间,但考虑到视频内容及其序列的差异性,仍有较大的改善空间。

本文在单一视频序列编码的基础上,首先通过加入深度图信息[7]对视频中人体区域进行区分,提取人体区域作为感兴趣区域,生成区分二值表;然后,利用感兴趣区域的二值信息进行不同深度的分割处理,通过提前终止分割来加速编码。

1 基于深度信息的人体区域分割

在视频传输及播放过程中,人眼最关注的往往是其中某一部分。该部分通常被称为感兴趣区域(ROI,Region of Interest)[8-9]。在视频传输过程中,如果该区域出现错误或者大范围失真,就会严重影响视频的观看质量。在感兴趣区域编码中,通常人工划定或者采用规则形状(矩形或圆形)给出一个大致的区域,但并不能精确地给出人眼真正感兴趣的区域。在本研究中,设定感兴趣区域为人体区域,并从深度图像中获取之。考虑到素材本身因素,实验采用两种方式获得人体区域,并进行验证。

深度图像是指从观察者视角看去所包含信息与场景物体表面距离相关的一种图像或一个图像通道,也称为距离图像[10]。与彩色图像相比,深度图像不受光照、阴影和色度等因素的影响而直接反映物体表面的三维特征。深度视频可以由基于飞行时间或结构光原理的深度相机获取。目前能够获取深度图像且性价比高的Kinect设备由微软公司在2010年发布[11]。其二代产品在2013年发布,本文采用的即为该设备。它能同时获取彩色图像、红外图像、深度图像,准确识别人体区域并进行标记。本文提到的Material1、Material2就是由该设备获取的。由图1可知,通过该设备准确提取人体区域作为感兴趣区域,不受外部环境的干扰。与其他选择人体区域的方法相比,该方法具有更高的区域选择准确性。

3D-HEVC[12]编码实验序列包含许多深度视频图像示例。根据深度图像的定义可知,深度图像的像素代表物体与摄像机位置的距离信息,人体区域应存在于某个像素范围。根据这个像素范围可对人体所处位置做出判断和分析。但是,这个判断也会将距离人体较近的物

图1 第二代Kinect提供的素材

体识别为人体区域,对实验结果造成影响。在图2中,图2(a)表示图2(b)中小方形区域的深度像素值,可以看出,深度图像中像素有不同的区间,故可以根据深度图像的信息设置参数来识别人体区域。在图3中,与图3(a)彩色图像相比,在设置参考阈值后识别出的人体区域(图3b)中,最近和最远的两个人体并没有被识别出来,这是因为在选取测试视频时仅选择了动态人体。在视频播放过程中,人们对运动的物体更为关心,故本实验仅对运动人体区域进行识别。由于视频含有与人体一样距离的桌子和椅子,因此这部分也被误认为人体区域,这将对实验结果的精确度造成影响。为验证本文算法的通用性,可暂时忽略这种方式所存在的误差。

(a)深度像素值 (b)深度图像图2 深度图像像素信息

(a)彩色图像 (b)提取的人体区域图3 彩色图像与提取人体区域的比较

从以上分析可以看出,通过深度图像处理,能够简单有效地识别人体区域,为视频编码的快速传输提供条件。这正是本文提出的快速算法的基础。在以上两种方法中,由第二代Kinect提供的素材更为准确,是本文实验验证的前提,而根据3D-HEVC提供的示例深度图像提取的人体区域在某些视频中存在较大误差。这里对示例测试序列中人体区域的提取,只用于验证本文提出算法的有效性及通用性。

2 基于人体区域的快速分割算法

在HEVC中,一幅图像被分割为若干互不重叠的编码树单元(CTU)。在CTU内部,可采用基于四叉树的循环分层结构。一个CTU可能包含一个或者多个CU。CU最大为64×64,最小为8×8。这种大小可变的CU在图像编码过程中具有极大的灵活性。CU的大小由不同的深度决定。图4所示为CU四叉树结构的划分过程[13]。在HEVC编码器中,每一帧图像都是从根节点编码树单元(LCU)的划分开始的。作为CU划分的根节点,LCU起始大小为64×64,深度Depth=0。通过CU预测编码,可得到当前率失真代价RD-Cost(Rate Distortion Cost);接着将CU进一步分割,得到4个子CU,其大小缩减为原来CU的1/4,深度增加1;再次进行预测编码,可得到RD-Cost。按递归方式划分,直到CU大小为8×8,划分深度Depth=3时结束。在HEVC中,可采用拉格朗日率失真优化决策决定最终四叉树结构的划分形式。在HEVC的官方标准测试模型HM中,想要确定最终的CU划分模式,需要完成四叉树的全遍历,即要进行85次RD-Cost计算,以及预测单元(PU)、变换单元(TU)的预测计算,使得编码器计算复杂度非常高。

图4 CU划分过程

通常,并不是图像的全部信息都受到同样关注,对图像进行整体处理会增加大量多余的计算量,延长编码时间。实际上,CU块大小的选择取决于图像的复杂度和运动的剧烈程度。对于背景静止或平稳区域,采用较大的CU块能够较好地表达图像信息,并且不会显著增加比特数;而对于不同目标背景或者复杂的运动区域,较小的CU块能够更好地表达图像的细节信息。为了降低计算复杂度,在HM中采用了多种快速优化方法,如提前终止策略、早期跳出策略、快速CBF策略、缩减AMP策略等[14]。

鉴于以上分析,本文提出一种基于深度图像感兴趣区域的优化改进算法,即从CU分割部分读取深度图信息,利用区分后的深度图信息对不同区域分配不同的深度值,并根据不同的深度值提前终止对CU的分割,从而降低整体计算的复杂度。

改进后的CU分割算法需要添加之前已经对人体区域进行分析的二值信息,将其中的人体区域作为感兴趣区域进行判断。其流程如图5所示。对CU进行编码之前,要判断CU是否在感兴趣区域之内,确定当前CU的深度值,并用Dcur表示当前CU的深度值。在这里,设定感兴趣区域的最大CU为16×16,深度值为2,不感兴趣区域的最小CU为32×32,深度值为1。其具体步骤为:①若当前CU在感兴趣区域之内,则对图像进行细化处理,即首先判断Dcur是否小于2,若Dcur<2,则设置Dcur=2;若Dcur不小于2,判断Dcur的值是否为3,若Dcur=3,则当前CU直接设定为最佳CU,否则需要通过比较Dcur=2和Dcur=3时率失真代价来确定Dcur的最终值;②若当前CU不在感兴趣区域之内,则对其采用大的CU分块进行编码,即首先判断Dcur是否大于1,若Dcur>1,设置Dcur=1;若Dcur不大于1,判断Dcur的值是否为0,若Dcur=0,则采用当前CU的大小,否则需要通过比较Dcur=0和Dcur=1时率失真代价来确定Dcur的最终值。

图5 改进后CU分割算法流程图

当编码深度值确定后,大小最佳的CU也随之确定。在比较率失真代价时,通过HEVC编码器设定的比较算法确定编码深度值,从而获取最佳CU。这种方法避免了HEVC编码器导致的计算复杂度增加,同时可确保在视频压缩过程中感兴趣区域(即本文设定的人体区域)的图像质量不下降。

3 实验结果与分析

将改进算法在HM10.0中实现,以标准测试序列和制作的素材序列为编码对象,测试其有效性。这里主要从峰值信噪比与编码码率增益以及付出的相应时间代价来衡量本文提出算法的性能,包括ΔPSNR、ΔBR、ΔT[15]。其中:ΔPSNR表示相对于标准算法峰值信噪比的差值;ΔBR表示相对于标准算法比特率差值的百分比;ΔT表示相对于标准算法时间差值的百分比。相应的正值和负值分别表示与HM10.0原始算法相比各类性能指标的增大和减小。

本实验对3个不同清晰度的6个视频序列进行编码。其中Material2、Kendo、Cafe视频序列识别的人体区域为2人,另外3个视频序列识别的人体区域为1人。本文算法的目的是通过减少CU分割来减少计算复杂度,然而相应的编码性能必然受到损失,特别是视频中感兴趣区域较少的情况。表1为相对于HM10.0编码的本文算法性能实验数据。

表1 本文算法性能实验数据

由表1可知,识别人体区域为2人时,损失的比特率较大,Balloons视频序列的比特率增量较大。这是由于对指定深度图像进行人体识别时,其画面较为复杂,包含较多不属于人体区域的其他区域,这对实验结果造成了一定的影响。Material2视频序列的比特率增量相对于其他2人区域序列较小,可以认为,人体区域识别精度对本文算法有较大的影响。测试数据表明,本文算法在平均编码时间减少63.17%的同时,比特率增加了4.84%,ΔPSNR只降低了0.359 6 dB。可见,对于时间的减少量来说,编码效率和图像失真的损失是可以忽略不计的。此外,感兴趣区域的精度也会影响实验结果。总体来说,本文算法对于CU的快速分割是有效的。

图6给出了各测试序列在编码30帧条件下所需的编码时间。从图6可以看出,在编码条件相同时,相对于HEVC HM10.0编码器,改进算法的编码速度提高很多,显著降低了编码复杂度。

图6 各测试序列编码30帧所需时间比较

为了更加直观地说明本文算法对视频编码图像质量的影响,图7给出了Dancer视频序列的主观质量比较。从图7可以看出,本文算法和HEVC算法相比,图像质量并没有明显下降,只是非人体区域的图像质量较为模糊,但对于视频播放过程中人眼的舒适度影响较小,保留了视频本身的观赏信息。

(a)改善前(HEVC) (b)改善后(本文算法)图7 主观质量比较

图8给出了Material2视频序列感兴趣区域和非感兴趣区域在相同编码条件下相对于原始序列在不同帧下的PSNR值比较。从图8可以看出,感兴趣区域的PSNR值在本文算法中相对于原编码器有所提高,但在非感兴趣区域却下降,从而验证了本文算法的合理性。相对于整幅图像来说,感兴趣区域一般都占用较小区域,故整幅图像在编码时PSNR值下降。

(a)感兴趣区域

(b)非感兴趣区域图8 Material2序列ROI与nROI区域PSNR值的比较

4 结 语

为了降低HEVC的计算复杂度,在视频编码过程中,本文利用深度图像对人体区域精细编码,使得编码后的图像序列在保证人眼舒适度的前提下显著减少CU深度划分复杂度。实验结果表明,本文提出的算法在保证比特率增加幅度较小、视频失真微弱的情况下,有效地提高了视频编码的效率。这说明,此算法可以推广到其他感兴趣区域而不仅限于人体区域。本文算法在面对较为复杂画面时,还有一些不足需要下一步改进。

[1] Sullivan G, Ohm J, Han W, et al. Overview of the High Efficiency Video Coding (HEVC) Standard[J]. IEEE Trans.Circuits Syst. Video Technol., 2012, 22 (12): 1649-1668.

[2] 赵耀,黄晗,林春雨,等. 新一代视频编码标准HEVC的关键技术[J]. 数据采集与处理,2014,29(1):1-10.

[3] 周承涛,田翔,陈耀武. HEVC编码单元尺寸快速选择算法[J].浙江大学学报(工学版),2014,48(8): 1451-1460.

[4] 王超超,王万良,岑跃峰,等. HEVC快速编码深度选择算法[J]. 计算机工程与应用,2016(5):204-208.

[5] 朱金秀,郝文瑞. 基于感兴趣区域的可伸缩性容错编码[J].计算机工程与设计,2009,30(21): 4901-4903,4920.

[6] 林国川,何小海,李向群,等. 基于感兴趣区域的HEVC压缩性能优化[J].电讯技术,2016,56(1):38-43.

[7] 斯晓华,王国中,赵海武,等. 深度图的快速自适应帧内预测模式选择算法[J].上海大学学报(自然科学版), 2015,21(2):197-205.

[8] Meddeb M, Cagnazzo M, Pesquet P B. Region-of-Interest Based Rate Control Scheme for High Efficiency Video Coding[C]//Proceed of IEEE Intern. Conf. Acoust., Speech and Sign. Florence: IEEE, 2014.

[9] Murshed M, Siddique M, Islam S, et al. High Quality Region-of-Interest Coding for Video Conferencing Based Remote General Practitioner Training[C]// The Fifth International Conference on Health,Telemedicine and Social Medicine.Nice:IARIA, 2013:240-245.

[10] 斯晓华,王国中,彭建华.面向绘制质量的深度图像快速帧内编码[J].电视技术,2015,39(5):9-12.

[11] 余涛. Kinect应用开发实践[M]. 北京:机械工业出版社,2013:200-202.

[12] Dmytro R, Miska M H. Description of 3D Video Coding Technology Proposal by Nokia[C]//ISO/IEC JTC1/SC29/WG11 MPEG2012/M22552. Geneva: ISO, 2011.

[13] 樊春晓,李甫,石光明,等.一种HEVC帧内预测编码CU结构快速选择算法[J].光电子·激光,2015(9):1740-1746.

[14] 万帅,杨付正. 新一代高效视频编码H.264/HEVC:原理、标准与实现[M]. 北京: 电子工业出版社,2014.

[15] Bjontegaard G. Calculation of Average PSNR Differences Between RD Curves[C]// VCEG-M33 ITU-T Q6/16. Austin:ITU,2001.

(责任编辑:王长通)

Fast Partition Algorithm for HEVC Based on Human Region Depth Information

SONG Xiao-wei, CAI Wen-jing, YANG Lei, WANG Xiao-ning, LIU Zhou-feng

(Zhongyuan University of Technology, Zhengzhou 450007, China)

To reduce the computational complexity of the latest video coding scheme while maintaining video compression performance, in this paper the depth information is utilized to reduce unnecessary partition and calculation. The proposed algorithm makes use of the body area distinguished by the depth information to reduce the calculation cost. The body area is set to the region of interest (ROI). The rate-distortion calculation cost could be reduced by quick decision based on the ROI partition during the process of CU partition. At the same time, the complexity of CU partition could be decreased. Experimental results show that the proposed algorithm can save 63% time at the cost of 4.84% average bit rate increase when compared with standard HEVC Codec.

high efficiency video coding;coding unit;region of interest;depth information

2016-10-10

国家自然科学基金项目(61440031, 61379113, 60902063);河南省基础与前沿技术研究项目(152300410132);河南省科技计划国际合作项目(144300510062)

宋晓炜(1978-),男,山西大同人,教授,博士,主要研究方向为立体图像/视频处理。

宋晓炜:博士,教授,硕士生导师,中原工学院青年拔尖人才,河南省学术技术带头人。2007年博士毕业于天津大学信号与信息处理专业,2012年至2013年,美国Texas A&M大学公派访问学者。主要研究方向为立体图像/视频处理。主持国家自然科学基金青年基金1项、国家科技重大专项子课题1项、河南省科技创新杰出青年1项。出版译著3部,授权发明专利6项,发表学术论文20余篇。

1671-6906(2016)06-0001-05

TN919.81

A

10.3969/j.issn.1671-6906.2016.06.001

猜你喜欢
感兴趣复杂度编码
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
更 正
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
一种低复杂度的惯性/GNSS矢量深组合方法
Genome and healthcare
求图上广探树的时间复杂度
某雷达导51 头中心控制软件圈复杂度分析与改进
出口技术复杂度研究回顾与评述
编读往来