基于像素递归失真估计的率失真优化模式选择算法

2014-06-11 07:09唐浩漾王文庆王曙光

西北大学学报（自然科学版） 2014年1期

唐浩漾，王文庆，王曙光

(西安邮电大学自动化学院，陕西西安 710121)

目前，视频处理技术广泛采用了基于预测编码和变换编码的块混合编码方法。变换编码通过将空域图像映射到频域系数的方法，有效去除了像素间的空间相关性，基于运动估计和运动补偿的预测编码则充分利用了相邻帧间的时间相关性，获得了较好的压缩性能。视频流经过混合编码后提高了编码效率，但在信道发生错误的情况下容易产生误码扩散现象，并导致重建视频质量的严重下降。

基于率失真优化的编码模式选择算法作为一种有效防止帧间误码扩散的手段早在H.263视频编码中就己经开始采用[1]。在H.264/AVC标准中，率失真优化算法被运用在最佳运动矢量判决、最佳参考帧选择、宏块最佳编码模式判决等方面[2－3]。其中基于率失真优化的宏块编码模式采用基于拉格朗日乘子法的率失真模型[4]，失真判决的衡量函数为绝对误差和SAD(sum of absolute difference)[5]。但SAD仅反映时域的差异，不能有效反映传输过程和解码器端可能引起的失真。因此本文提出一种基于像素递归失真估计ROPE(recursive optimal per-pixel estimate)的率失真优化模式选择算法，根据H.264/AVC的多模式划分特点对ROPE方法进行改进，准确估计了差错环境下的端到端失真，采用合适的率失真模型预测运动补偿编码的总码率并进行运动估计，并比较所有模式的RDO值以选择适当的编码模式。

1 率失真优化的宏块模式选择

以宏块为单位，视频编码中宏块编码模式选择的率失真优化问题的可以描述为

其中期望的总比特数是T，Di(mn)表示第i个宏块在某种选择参数 mn下编码产生的失真，Ri(mn)表示第i个宏块采用参数mn编码所需要的比特数。给定总码率R的上限，求每个宏块编码模式的失真度D，并将整帧所要求的码流以适当的策略分配给每个宏块。该率失真优化编码模式选择通过拉格朗日乘子法求解，用式(2)描述

在H.264/AVC的参考模型中，采用上述基于拉格朗日乘子法的RDO算法进行运动估计和编码模式选择。首先对所有帧间块模式进行运动估计，运动估计还涉及参考帧的选择，由式(3)确定

其中s是当前块像素值，mv是当前矢量，ref为选择的参考帧，r(mv，ref)为参考块的像素值，SAD为当前块与参考块像素差值的绝对值和，Rmotion包括运动矢量与其预测值的差值编码比特和参考帧的编码比特。

比较所有模式的RDO值，RDO值最小的模式为最佳模式。模式判决的RD函数计算公式为

其中:MODE为候选编码模式，λmode为用于模式选择的拉格朗日乘子，s是原始编码块，c是对应重构块，R(s，c，MODE)为码流位数。

2 基于像素递归失真估计的率失真优化模式选择

2.1 像素递归的端到端失真估计

ROPE算法使用一种基于像素的递归估计算法[6]，将视频传输失真分为由量化引起的编码失真和传输差错引起的差错扩散失真以及解码器端的差错掩盖失真。在H.264/AVC中，为了得到最小的预测误差，帧间预测时不再采用固定块模式而是采用可变块模式对每个划分的块进行运动估计和运动补偿，此外还采用了帧内预测技术，16×16的块有4种帧内预测模式，4×4块有4种帧内预测模式。因此，本文在ROPE算法基础上，针对H.264/AVC的多模式帧内和帧间编码特点，分别估计各种模式下的端到端失真。

2.1.1 帧间预测的端到端失真 H.264/AVC采用基于块匹配的运动预测方式，块的尺寸可以变化。H.264/AVC中总共规定了7种尺寸块模式(16×16，16×8，8×16，8×8，8×4，4×8，4×4)，用B表示某种尺寸块模式下的用于运动补偿预测的基本块，则基本块B的尺寸小于或等于16×16像素的宏块。每个基本块B的总失真度为该块内每个像素失真的累计和，即

相对于视频传输时的包丢失和差错扩散失真，预测残差的量化失真(即－)很小，近似为零，这样估计量化预测残差的最简单有效方法为设=。用ρ表示数据包丢包率。对于帧间预测模式的期望和方差可分别表示为

2.1.2 SKIP模式的端到端失真 SKIP模式的端到端失真估计类似于帧间预测模式，SKIP模式时每个宏块MB的端到端失真可表示为

2.1.3 帧内预测的端到端失真相对于其他视频标准，H.264/AVC引入了帧内预测技术，对含有较多细节信息的宏块采用4×4预测，有9种预测模式，对于较平坦的区域采用16×16的预测模式，有4种预测模式。因此计算˜pin的期望和方差时，需要计算多种帧内预测模式的预测失真。对于帧内编码模式的每一宏块，其端到端失真可表示为

2.2 帧间预测模式的运动估计

在H.264/AVC的参考模型中，采用基于拉格朗日乘子法的RDO算法对所有帧间块模式进行运动估计

其中Dmotion(B)为每个子块的端到端失真，λmotion为拉格朗日乘子，λmotion=0.85×Q2，Rmotion(B)为编码每种子块的码率，包括编码运动向量和预测残差的码率，即

采用运动预测后原始图像与预测图像之间帧差信号绝对值的平均值MAD(mean absolute difference)作为图像内容复杂度的度量[8]。图1为不同视频序列各宏块的RT与MAD的关系图，图1(a)为Claire序列(CIF格式)第6帧的RT与MAD的关系图，图1(b)为Foreman序列(QCIF格式)第34帧的RT与MAD的关系图。由图1的实验数据可知，RT与MAD之间不是简单的正比关系，当量化步长一定时，RT与MAD之间更接近一种常数项不为零的一般线性关系。使用量化步长作为失真的测度，将率失真方程近似为以下形式的二次模型

图1 不同序列的RT与MAD关系图Fig.1 Relationship between average texture bits and MAD for sequence

其中RT为编码纹理信息所需的比特数，Q为量化步长，b0，b1，b2为模型参数。然后根据实验数据的统计特性，在率失真函数中引入图像内容复杂度度量MAD[9]，则可以获得新的二次率失真模型为

该模型的表达形式说明，当量化步长一定时，编码纹理信息所用的比特数与MAD之间是一种线性关系，符合实验观察的结果。采用式(20)估计预测残差的比特率，并用绝对误差和SAD近似代替MAD，从而可按照下式估计

c1=b0，c2=b1Q－1+b2Q－2为该二次率失真模型的参数。求解RDO的拉格朗日代价函数，使代价函数获得最小值的运动矢量为该子块B的最优运动矢量。估计每个宏块内所有子块B的运动矢量，即得该宏块各种块模式划分下的运动矢量。

2.3 编码模式判决

每个宏块帧间预测模式的运动矢量确定后，在编码端进行相应的宏块模式选择，包括所有帧间预测模式、帧内预测模式和 SKIP模式。H.264/AVC总共要进行7种宏块模式的选择:SKIP，MB16×16，MB16 ×8，MB8 ×16，SUB8 ×8，INTRA 16×16和INTRA4×4。执行编码模式最终判决采用如下的率失真判决函数

式中，Dmode(MB)为端到端失真，R(MB)为宏块编码产生的比特数，λmode为编码模式的拉格朗日乘子，λmode=λmotion，将最小 Jmode(MB)所对应的宏块编码模式确定为率失真最优宏块编码模式。

3 仿真结果与分析

为了验证本算法的有效性，在基于H.264/AVC标准的测试模型JM15.1中进行了模拟实验。实验中采用2个具有代表性的CIF格式的标准测试序列，Foreman，Paris，分别代表不同的运动程度和纹理特性，每个测试序列编码的帧数都是300帧。视频帧的编码模式为IPPP，除了第1帧为I帧外，其余帧均为 P帧。差错模式采用VCEG-N79中提供的数据包丢包模拟文件，它包含4个平均包丢失率分别为3%，5%，10%及20%的错误图样[10]。

作为对比参考，同时给出了文献[11]中基于I帧随机更新的编码模式选择方法(记为MDIU)，H.264/AVC的参考模型[12]中率失真优化的编码模式选择方法(记为RDOMD－H.264)，本文的率失真优化的编码模式选择方法(记为RDOMD－Proposed)的实验结果。表1和表2为不同丢包率条件下3种算法的平均PSNR值对比。从表中可以看出，在各种丢包条件下，本文提出的方法始终优于其他两种方法，表中的平均PSNR增益为RDOMD－Proposed算法和RDOMDH.264算法的差值，可以看出对于不同的视频序列本文方法有1～2 dB左右的增益。

表1 不同丢包率的Foreman序列平均PSNR值对比Tab.1 Performance comparison on average PSNR(dB)for Foreman sequence

表2 不同丢包率的Paris序列平均PSNR值对比Tab.2 Performance comparison on average PSNR(dB)for Paris sequence

本文的率失真优化模式选择算法需要依次进行运动估计和编码模式选择，为测试本文中运动估计算法的效果，在H.264/AVC的测试模型中不再进行本文提出的帧间运动估计，只按照本文方法进行模式选择。本文把该测试方法记为RDOMD－Partial。

图2 4种方法PSNR性能比较Fig.2 Performance comparison for the four algorithms

图2 为在各种丢包条件下，4种方法应用于Foreman序列的PSNR性能比较。由图2可以看出，在各种丢包条件下，RDOMD－Partial算法和RDOMD－Proposed的 PSNR性能都优于 MD－IU和RDOMD－H.264方法，但 RDOMD－Partial算法的PSNR性能改进相对较小。由此证明本文能取得较高PSNR增益的一个重要原因是在帧间预测模式中采用了更优的多模式运动估计方法，多模式运动估计方法中对每个子块的失真和码率的准确估计，提高了整个编码模式选择方法的效果。

图3为丢包率为10%时，本文算法对Paris序列300帧压缩数据流的改进情况。从这些数据流的亮度信号PSNR值可以看出，本文算法相对于RDOMD－H.264算法有明显的改进，平均性能提高约1 dB，改善了整个视频流的差错恢复性能。

图3 Paris序列压缩数据流改进情况Fig.3 Performance for the Foreman video sequence with 10%packet lost rate

4 结论

本文结合 H.264/AVC中的多模式划分特点，提出了一种基于像素递归失真估计的率失真优化模式选择算法。根据H.264的多种帧内和帧间预测模式，对基于像素的递归失真估计方法(ROPE)进行改进，准确估计了差错环境下的视频失真，采用二次率失真模型预测运动补偿编码的总码率并进行运动估计和编码模式判决。实验结果显示，本文的模式选择算法提高了整个率失真优化编码模式选择方法的有效性，相对于H.264参考软件的模式选择算法，该算法显著提高了视频差错恢复性能，能有效改善视频传输的鲁棒性。

[1]ZHANG Z，SUN Q，WONG W C，et al.Rate-distortion-authentication optimized streaming of authenticated video[J].IEEE Transactions on Circuits and Systems for Video Technology，2007，17(5):544-557.

[2]KUMAR S，XU L Y，MANDAL M K，et al.Error resiliency schemes in H.264/AVC standard [J].Elsevier J.of Visual Communication and Image Representation，2006，17(2):570-576.

[3]HE Z H，XIONG H K.Transmission distortion analysis for real-time video encoding and streaming over wireless networks[J].IEEE Transactions on Circuits and Systems for Video Technology，2006，16(9):1051-1062.

[4]LU X，MARTIN G R.Fast H.264/SVC inter-frame and inter-layer mode decisions based on motion activity[J].Electronics Letters，2012，48(2):84-86.

[5]崔力.基于时域处理的视频质量评价方法[J].西北大学学报(自然科学版)，2012，42(1):47-51.

[6]LEONTARIS A，COSMAN P C.Video compression for lossy packet networks with mode switching and dual-frame buffer[J].IEEE Transactions on Image Process，2004，13(7):885-897.

[7]万帅，常义林.一种新的视频编码二次率失真模型及其性能分析[J].电子与信息学报，2007，29(5):1136-1139.

[8]PAUL M，FRATER M R，ARNOLD J F.An Efficient mode selection prior to the actual encoding for H.264/AVC Encoder[J].IEEE Transactions on Multimedia，2009，11(4):581-588.

[9]ZHANG Y，GAO W，LU Y et al.Joint source-channel rate-distortion optimization for H.264 video coding over error-prone networks[J].IEEE Transactions on Multimedia，2007，9(3):445-454.

[10]WENGER S.Common conditions for wire-line，low delay IP/UDP/RTP packetloss resilienttesting[OL].(2001-12-09)[2012-12-12]http://standard.pictel. com/ftp/video-site/0109-San/VCEG-N79r1.doc.

[11]KIM C S，KUO C C J.Feature-Based Intra-/Inter Coding Mode Selection for H.264/AVC [J].IEEE Transactions on Circuits and Systems for Video Technology，2007，17(4):441-453.

[12]KARSTEN S.H.264/AVC reference software[OL].[2012-12-12]http://iphome.hhi.de/suehring/tml/download/old－jm/.