视觉感知编码方法综述

2013-03-26 03:23赵志军

电视技术 2013年3期

关键词：宏块感兴趣编码

张倩，张远，赵志军

（中国传媒大学信息工程学院，北京 100024）

视觉感知编码方法综述

张倩，张远，赵志军

（中国传媒大学信息工程学院，北京 100024）

本文给出了视觉感知编码方法的综述。首先介绍了人类视觉系统（HVS）的特性，然后根据视觉感知编码方法所利用的视觉特性不同将其分为三类，并分别介绍了各类方法的研究现状。最后展望了视觉感知编码的应用前景和发展方向。

视频编码;视觉感知;HVS

随着宽带网络和高清晰显示器的发展，人们对视频画面的质量有了更高的期望，这也给视频编码技术带来了新的要求和挑战。如何在计算复杂度受限的情况下，得到最优的率失真性能是视频编码设计的核心问题。传统的视频编码算法主要采用帧内预测、帧间预测和熵编码等技术来消除视频中的冗余信息以达到改善视频编码率失真性能的目的。然而，传统的视频编码算法并没有充分考虑人类视觉系统（HVS）的特性。因此，如何有效地利用视觉感知原理，优化现有的编码算法具有重要的理论意义和应用价值。

本文主要结合国内外研究现状，对视觉感知编码方法进行总结。

1 人类视觉系统（HVS）

人类视觉系统由眼球、神经系统及大脑的视觉中枢三部分构成。当人们注视视频场景时，入射光首先由瞳孔和水晶体调节、聚焦，使景物在视网膜上成像，然后由视网膜上的神经元将光信号转化成神经信号并发送到视皮层，经过视皮层以及脑部其它相关区域的进一步处理后，形成对视频场景的感知。

近几年来，在视觉生理学、心理学的指导下，通过对人眼的某些视觉现象的观察和研究，人们发现了HVS的很多特性。在视觉感知编码中，一般应用到的HVS特性主要有:对比敏感度、掩蔽效应、中央凹特性、运动感知、视觉注意等［1－2］。

1）对比敏感度

对比敏感度（Contrast Sensitivity）是HVS最为基本的视觉特性，它包括空间对比敏感度和时间对比敏感度。空间对比敏感度是指HVS对空间视频信号的敏感程度，定义为观察者能够觉察到的测试激励信号的最小对比度值的倒数。时间对比敏感度是指HVS对信号运动频率的敏感程度。通常用对比敏感度函数（Contrast Sensitivity Function，CSF）来描述HVS对不同空间、时间频率的视频信号的敏感程度。

2）掩蔽效应

视觉掩蔽效应（Visual Masking Effect）是HVS较为重要的特性之一。它是指当另外一个视觉信号存在时，HVS会降低对目标视觉信号的敏感度，特别是当掩蔽信号与原始信号的频率和方向相同时，掩蔽效应最强。譬如，相对于低频的图像区域，高频的图像区域对视觉信号失真具有更强的掩蔽能力。

3）中央凹特性

在视网膜的中央凹（Fovea）上分布着密度极高的光感受器，并且其密度会随着离心率（Eccentricity）的增大而快速下降。因此，当人在注视视频场景中的某一点时，对于离注视点较近的区域，HVS感知的空间频率分辨率较高，而对于离注视点较远的区域，HVS感知的空间频率分辨率较低。

4）运动感知

HVS另外一个较为重要的视觉特性是运动感知。运动感知分为低级阶段和高级阶段。在视觉感知的低级阶段，HVS主要对局部视觉特征进行处理，如运动的速度、方向;在运动感知的高级阶段，HVS会对生物运动产生感知响应，譬如人的脸部和手部运动。

5）视觉注意

当注视视频场景时，人会快速地将注意力集中在感兴趣的视频内容或者对象上，这种现象称为HVS的视觉注意（Visual Attention）。视觉注意有两种工作方式:一种是由外部激励驱动的自底向上（Bottom－up）的处理过程，这种工作方式属于低级视觉研究范畴;一种是由任务驱动的自上而下（Top－down）的处理过程，这种工作方式属于高级视觉研究范畴。

2 视觉感知编码方法

视觉感知编码的目的是利用已知的HVS特性，最大限度消除人眼无法感知的信息，用更少的比特资源提供视觉感知质量更理想的视频图像。为此，研究人员提出了大量的视觉感知编码方法。根据编码方法所利用的HVS特性不同，把视觉感知编码方法归纳为3类:基于视觉敏感度的编码方法、基于视觉注意的编码方法和混合的编码方法。基于视觉敏感度的编码方法主要利用人眼敏感度的有限性消除视觉冗余;基于视觉注意的编码方法主要利用人眼对视频画面上不同内容或对象注意程度不同的特性，对视频内容进行自适应编码;还有部分编码方法是以上两种编码方法的综合，把这类编码方法叫做混合的编码方法。

2.1 基于视觉敏感度的编码方法

人眼的视觉敏感度是有限的，并且HVS对不同视频信号的失真也有不同的敏感程度。这就为消除视觉冗余提供了可能。目前，基于视觉敏感度的编码方法主要有3类:基于JND模型的编码方法、基于SSIM的编码方法和基于频域加权量化的编码方法。

2.1.1 基于JND模型的编码方法

JND（Just Noticeable Distortion）指人眼能够觉察到的最小失真，它表征了人眼对视频信号的敏感程度。JND阈值会受到视频信号的背景亮度、频率、运动、纹理信息等因素的影响。通过JND模型调节量化参数和比特分配可以达到消除视觉冗余的目的。现有的JND模型主要分为两类:一类是作用于像素域的JND模型;一类是作用于变换域（如DCT域、小波域）的JND模型。文献［3］提出的JND模型综合考虑了空域JND门限和时域JND门限，其中空域JND门限主要考虑背景亮度的自适应性和纹理的掩蔽效应，时域JND门限则通过估计帧间的平均亮度差异得到。文献［4］在文献［3］的基础上提出了非线性掩蔽效应相加模型（Non－linear Additivity Model for Masking，NAMM）的概念，构建了一个更加符合HVS特性的JND模型。它综合考虑了多种掩蔽效应同时作用的情况以及色度信息的掩蔽效应，基于人眼对边界的失真更为敏感的特性，该模型区分了边界区域和非边界区域，以避免因过高的估计边界区域上的掩蔽效应而导致主观质量下降。实验表明，将上述JND模型移植到运动搜索算法中可以提高运动搜索算法的效率，采用该模型对运动补偿后、DCT变换前的残差数据进行预滤波，可以提高视频的主观质量。

虽然像素域的JND模型可以给出原始视频图像一个非常直观的JND图，但是它不能包含描述HVS对不同频率敏感程度的对比敏感度函数（CSF），所以不能够精确地模拟HVS的特性。因此，变换域的JND模型成为当前的研究热点。文献［5］提出了一种作用在DCT域上的JND模型。该模型通过整合时—空域对比敏感度函数、眼动机制、亮度自适应性和掩蔽效应，估计出一个更加符合HVS特性的JND门限值。然而，文献［5］在估计JND门限值时只考虑了运动矢量的大小，而忽略了运动矢量的方向也会影响JND门限值的事实。文献［6］在文献［5］的基础上做出了改进:通过引入非线性校正得到一个更加精确的亮度自适应性函数;由人眼对平滑区域和边界的失真较为敏感的特性，将宏块分为3类，并通过掩蔽效应因子调节各类掩蔽效应的大小;在传统的时域CSF上考虑了视网膜运动补偿特性和运动的方向。

2.1.2 基于SSIM的编码方法

SSIM（Structural Similarity）是一种新的图像质量评价方法［7］，该方法把对结构信息的度量作为图像感知质量的近似。由于HVS的主要功能是从视野中提取结构信息，所以，与PSNR相比，SSIM的评价结果更符合人的主观感受。因此，可以用SSIM替换传统的图像质量评价方法优化编码算法。文献［8］提出了一种基于SSIM的运动估计算法，该算法在运动搜索时使用SSIM来寻找参考帧中的匹配块。相比传统的算法，该算法确定的数据块与当前块的匹配程度更高。文献［9］提出了一种基于SSIM的率失真优化算法。该算法在率失真优化过程中应用SSIM来衡量重建块的失真程度，据此得到更优的编码模式。由于该算法在运动搜索时仍然使用SAD来确定匹配块，所以并未引入过多的计算复杂度，但同时也限制了该算法在无显著运动和运动剧烈两种情况下的率失真优化增益;另外，采用静态的拉格朗日因子使该算法缺乏一定的内容自适应性。文献［10－11］均提出了基于SSIM的自适应率失真优化算法。文献［10］通过已编码帧的率失真模型来估计当前编码帧的拉格朗日因子。文献［11］将块分为平滑和非平滑两类，并计算一帧中不需编码系数的概率，由此根据输入视频序列的特性自适应确定拉格朗日因子。为了更加合理的分配比特资源，文献［12］将SSIM应用到码率分配和码率控制过程中。实验表明该算法在降低码率的同时保存了更多的图像结构信息，提高了视频的主观质量。文献［13］使用DCT域的SSIM系数来对DCT系数进行标准化，使之符合视觉感受的一致性，并基于这种标准化方法定义了一个新的率失真模型进行模式选择。由于标准化因子是由预测宏块得到的，因此量化矩阵可以根据视频内容的特性自适应的调整，同时并没有消耗额外的比特资源。实验表明，和H.264编码算法相比，该算法在节省比特资源的同时也保证了视频的主观质量。

2.1.3 基于频域加权量化的编码方法

基于频域加权量化的编码方法主要根据人眼对不同特性的编码单元敏感度不同的特点，将编码单元分为不同类型，比如纹理复杂类、平滑类、边界类等，不同的编码单元适用不同的量化权重。这样，在保证视频主观质量的同时降低了非敏感区域的码率。文献［14］根据宏块的特性将其分为6类，并且由不同的权重因子调整基本单元（BU）层码率分配的估计值进而调整量化步长。在H.264/AVC编码模式选择时，细节丰富的区域通常采取较小的宏块分割，而平滑的区域通常采取较大的宏块分割。文献［15］基于这点提出了一种宏块级自适应频域加权量化的方法，该方法根据周围宏块的分割模式将当前编码宏块分为3类，并分别采用不同的频域加权量化方案，不仅使编码结果更加符合人眼的视觉特性同时也没有因为引入频率权重因子而消耗更多的比特资源。但是，该方法采用的量化矩阵是预先设定的，不能根据输入的视频内容进行调整。所以，这种方法缺乏一定的内容自适应性。

2.2 基于视觉注意的编码方法

根据是否考虑HVS的中央凹特性，基于视觉注意的编码方法可以分为两类:基于感兴趣区域的编码方法和基于感兴趣区域和中央凹特性联合的编码方法。

2.2.1 基于感兴趣区域的编码方法

基于感兴趣区域（Region－of－Interest，RoI）的编码方法的基本思想是:在视频编码前，对输入的视频场景进行视觉感知分析确定感兴趣区域。在编码过程中，通过调整编码参数来分别控制感兴趣区域和非感兴趣区域的失真程度，进而改善感兴趣区域的编码质量。

在基于感兴趣区域编码的过程中，编码器依据视频场景中不同图像区域的感兴趣程度来分配比特资源和计算资源。因此，对输入的视频序列，如何确定感兴趣区域是一个关键的问题。经典的可计算视觉注意模型是通过一种或整合多种视频特征得到视频画面的显著性图（Saliency Map）进而确定感兴趣区域。视频特征主要包括以下几种类型:1）空间域视频特征，比如肤色、亮度;2）时间域视频特征，比如运动;3）综合考虑空间域和时间域的视频特征，这种方法更符合HVS的感知原理。

人脸是最常见也是最容易引起观看者注意的特征之一。适当地提高视频中脸部的编码质量能有效地改善视频整体的主观质量。文献［16］首先确定了肤色的判定阈值，并通过此阈值来识别人脸的区域。然后对非感兴趣区域进行低通滤波以减少背景的高频成分，最后通过控制宏块级量化参数来控制不同区域的编码质量。文献［17］在文献［16］的基础上将人脸以及人脸周围的宏块设定为感兴趣区域以避免脸部周围视觉感受的下降。在对视频内容进行编码时，该算法在宏块级使用一种线性QP值预测的方法来控制不同区域的编码质量。文献［18］由肤色和纹理信息得到显著性图，并据此确定感兴趣区域。然后在感兴趣区域与非感兴趣区域适用不同的量化参数、运动搜索范围、参考帧数目。实验结果表明，该方法可以降低计算复杂度并且保证视频的主观质量。由于这类方法没有考虑视频内容的时域特性，所以有一定的局限性。

由于人眼更倾向于关注视频场景中运动的物体，因此人对运动物体的失真比静态物体更加敏感。文献［19］根据运动矢量场得到运动显著性图，并由运动显著性图调节比特资源的分配。首先，作者根据不同模式的块的运动矢量场得到各自的运动显著性图并将其融合为一个整体的运动显著性图，然后由运动显著性图调整帧级和宏块级的码率分配。这样，更多的比特资源可以分配给运动信息显著的帧和宏块，进而提高视频的主观质量。

由于视频场景中的时域和空域的视觉信息都会对HVS的感知结果造成影响，近年来，基于时空域视觉特征融合的感兴趣区域编码方法越来越受到视频处理领域研究人员的关注。文献［20］提出了一种应用于实时视频通话的感兴趣区域编码方法。该方法由肤色和帧间差异快速地得到显著性图，当显著性图确定以后，更多的比特资源和计算资源可以分配到感兴趣区域中。所以，很多编码参数可以自适应地调整，比如:量化参数、宏块可选的编码模式、参考帧数目、运动搜索的范围、运动估计的精度。这样，在降低了编码复杂度的同时，保证了视频的主观质量。文献［21］考虑亮度、色度、纹理、肤色、运动矢量因素来构造显著性图，再通过一定的门限值判定得到感兴趣区域。然后将目标码率分别分配给感兴趣区域和非感兴趣区域，不同区域的宏块由所分配的码率得到一个初始的QP值。然后，为了提高整体的视频主观质量，根据一定的限制条件调整初始QP值确定该宏块的QP值并进行编码。文献［22］将纹理特征图和运动特征图融合得到显著性图，由于构造运动特征图时考虑了全局的运动信息，该显著性图可以较好的应用于有摄像机运动的视频内容中。然后，由显著性图得出不同宏块的视觉重要权重，并相应地采用不同的DCT系数抑制矩阵。在抑制过程中，根据宏块视觉重要程度的不同，宏块的高频系数也不同程度的裁减掉。这样，节省了非感兴趣区域的比特消耗，进而将更多的比特资源分配到感兴趣区域，提高主观的视频质量。

2.2.2 基于感兴趣区域和中央凹特性联合的编码方法

由HVS中央凹特性可知，相对于注视点中心区域，HVS对离注视点较远的图像区域的细节分辨能力较低，因此应当适当提高注视点中心区域的编码质量。将中央凹特性集成到基于感兴趣区域的编码方法中可以更好地消除视觉冗余并且提高视频的主观感受。文献［23］提出了一种类似具有中央凹特性的滤波器的来减小视频图像在空间上的分辨率，并应用滤波后的图像优化视频编码时的码率控制技术。文献［24］考虑颜色、方向、灰度、运动等因素构造了一个自下而上的显著性模型来确定视频图像中存在的注意焦点，然后以注意焦点为中心，通过模拟中央凹的空间分辨率变化规律，对视频内容进行低通滤波，最后对滤波后的视频进行编码。这样在注意焦点上保留更多图像细节的同时减少了背景图像的高频成分，提高了编码效率。文献［25］提出了一种自动选取注意焦点的可伸缩视觉感知编码方法，该方法可以根据视频场景自动地确定多个注意焦点，并根据视频的内容和网络带宽的情况进行可伸缩编码。该方法还应用了一种自适应的帧预测算法，该算法能够有效地减少帧间预测时的误差积累，减小预测误差，提高视频压缩算法的性能。

基于感兴趣区域和中央凹特性联合的编码方法虽然能够提供更好的主观视频感受，但是自动选取注意焦点和视觉注意力模型的计算复杂度很高，而编码的性能又主要依赖于以上二者的精确程度。所以，该方法很难应用于实时的视频通信场合中。

2.3 混合的编码方法

混合的编码方法是基于视觉敏感度的编码方法和基于视觉注意的编码方法的综合，其编码结果能够进一步提高视频的主观质量。比如文献［26］提出了一种包含视觉敏感性、视觉注意和中央凹特性的FJND（Foveated Just－Noticeable－Distortion）模型。由中央凹特性可知，随着离心率的增大，HVS对图像细节分辨能力将逐渐下降，所以JND门限也应相应提高。该FJND模型能够更好地消除全局的视觉冗余。实验表明，将其应用在H.264/AVC视频编码框架上可以明显提高视频的主观质量，并降低码率。类似的还有文献［27－28］。文献［29－30］提出了一种基于视觉失真敏感度的比特分配算法。由于人眼对运动的物体和结构性纹理较为敏感，此算法综合考虑了视频内容的运动注意特性和纹理信息，得到视觉失真敏感值并根据此值调整宏块级的量化步长。通过对视觉敏感度的分析可以把较少的比特分配到人眼对失真不敏感的区域，以达到节省比特的目的。文献［31］利用肤色检测算法，确定感兴趣区域，并结合亮度和纹理信息对失真的掩蔽效应，确定不同区域的量化步长。这样可以自适应的为视频内容的前景和背景分配比特资源。但是由于该方法忽视了时域上的视觉特征，而且只能应用在视频电话场合，因此使用范围较窄。文献［32］综合了视觉注意力模型、眼动机制、视觉敏感度模型和掩蔽效应模型得到一个时空域失真掩蔽度量值。该模型通过运动的强度和方向确定感兴趣区域，然后对于非感兴趣区域的宏块，由空间频率和块的运动速度筛选出人眼不敏感的DCT系数，通过上述系数的掩蔽门限得到该宏块的时空域失真掩蔽度量值并由此值调整宏块的量化参数。文献［33］提出了一种更加符合人眼特性的率失真优化算法。首先，该算法根据SSIM衡量重建块的失真程度，这与人对失真的主观感受更加相符。然后，通过DCT系数的标准差来确定拉格朗日因子，由于DCT系数的标准差能在一定程度上反映输入视频序列的特性，所以该方法具有一定的内容自适应性。最后，利用人眼对不同视频区域失真程度注意度不同的特点，利用视频画面的显著性图来确定宏块的显著性系数，并由显著性系数调整计算率失真代价时的失真权重。实验表明，该方法能节省相当的比特资源，同时能提高感兴趣区域的主观视频质量。

混合的编码方法能够更好地模拟HVS的特性，较大程度地压缩视觉冗余。但是如何降低计算复杂度是混合编码方法面临的一大难题。

3 结束语

本文介绍了人类视觉系统的特性，并总结了视觉感知编码方法的研究现状。分别详细介绍了基于视觉敏感度的编码方法、基于视觉注意的编码方法和混合的编码方法，并阐述了各类方法的优点和局限性。

随着视觉感知模型的发展和3D视频、计算机图形学以及高动态光照渲染视频等应用的普及，视觉感知编码技术的应用领域日益扩大。并且，由于人们对多媒体娱乐等视频应用的期望越来越高，给多媒体服务带了新的需求和挑战，如何应用视觉感知原理改善用户体验也是视觉感知编码的一项重大任务之一。

虽然研究人员在视觉感知编码领域已经取得了很大的成就，但是很多研究工作还有待完善。目前，视觉感知编码可从以下几个方面展开研究:1）更深入地探索人类视觉系统的特性;2）提高视觉感知编码的编码性能，进一步压缩视觉冗余;3）降低视觉感知编码的计算复杂度;4）随着3D技术的日益成熟，如何将视觉感知编码技术融入3D技术也是一个很大的挑战。更多跨学科的研究工作有望在视觉感知编码领域实现新的突破。

［1］WINKLER S.Digital video quality:vision models and metrics［M］.New York:John Wiley＆Sons，2005.

［2］郑雅羽.基于视觉感知的H.264感兴趣区域编码研究［D］.杭州:浙江大学，2008.

［3］CHOU C H，CHEN C W.A perceptually optimized 3－D subband codec for video communication over wireless channels［J］.IEEE Trans.Circuits and Systems for Video Technology，1996，6（2）:143－156.

［4］YANG X K，LIN W，LU Z K，et al.Just noticeable distortion model and its applications in video coding［J］.Signal Process:Image Commun ication，2005（20）:662－680.

［5］JIA Y，LIN W，KASSIM A A.Estimating just－noticeable distortion for video［J］.IEEE Trans.Circuits And Systems for Video Technology，2006，16（7）:820－829.

［6］WEI Z，NGAN K N.Spatio－temporal just noticeable distortion profile for grey scale image/video in DCT domain［J］.IEEE Trans.Circuits and Systems for Video Technology，2009，19（3）:337－346.

［7］WANG Z，BOVIK A C，SHEIKH H R，et al.Image quality assessment:from error visibility to structural similarity［J］.IEEE Trans.Image Prosess，2004，13（4）:600－612.

［8］MAI Z Y，YANG C L，KUANG K Z，et al.A novel motion estimation method based on structural similarity for H.264 inter prediction［C］//Proc.2006 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP 2006）.Toulouse，France:IEEE Press，2006:913－916.

［9］YANG C，LEUNG R，PO L，et al.An SSIM－optimal H.264/AVC inter frame encoder［C］//Proc.ICIS.Shanghai:［s.n.］，2009:291－295.

［10］HUANG Y，OU T，SU P，et al.Perceptual rate－distortion optimization using structural similarity index as quality metric［J］.IEEE Trans.Circuits and Systems for Video Technology，2010（20）:1614－1624.

［11］WANG S，MA S，GAO W.SSIM based perceptual distortion rate optimization coding［C］//Proc.VCIP .Huangshan:［s.n.］，2010:1－10.

［12］OU T，HUANG Y，CHEN H.A perceptual－based approach to bit allocation for H.264 encoder［C］//Proc.VCIP.Huangshan:［s.n.］，2010:7741.

［13］WANG S Q，REHMAN A，WANG Z，et al.SSIM－Inspired divisive normalization for perceptual video coding［C］//Proc.International Conference on Image Processing，2011.［S.l.］:IEEE Press，2011:1657－1660.

［14］MINOO K，NGUYEN T Q.Perceptual video coding with H.264［C］//Proc.39th Asilomar Conference on Signals，Systems，and Computers.Pacific Grove，CA:［s.n.］，2005:741－745.

［15］CHEN J，ZHENG J，HE Y.Macroblock－level adaptive frequency weighting for perceptual video coding［J］.IEEE Trans.Consumer Electronics，2007，53（2）:775－781.

［16］CHEN M J，CHI M C，Hsu C T，et al.ROI video coding based on H.263+with robust skin－color detection technique［J］.IEEE Trans.Consumer Electronics，2003，49（3）:724－730.

［17］CHI M C，JHU J A，CHEN M J，et al.H.263+region－of－interest video coding with efficient skin－color extraction［C］//Proc.Consumer Electronics，2006.［S.l.］:IEEE Press，2006:381－382.

［18］WANG Minghui，ZHANG Tianruo，LIU Chen.Region－of－Interest based H.264 encoding parameter allocation for low power video communication［C］//Proc.Signal Processing ＆ Its Applications.Kuala Lumpur:IEEE Press，2009:233－237.

［19］LIU Zhi，YAN Hongbo，SHEN Liquan，et al.A motion attention model based rate control algorithm for H.264/AVC［C］//Proc.Computer and Information Science.Shanghai:［s.n.］，2009:568－573.

［20］LIU Yang，LI Zhengguo，SOH Y C .Region－of－Interest based resource allocation for conversational video vommunication of H.264/AVC［J］.Circuits and Systems for Video，2008，18（1）:134－139.

［21］CHIANG J C，HSIEH C S，CHANG G，et al.Region－of－interest based rate control scheme with flexible quality on demand［C］//Proc.Multimedia and Expo（ICME），2010.［S.l.］:IEEE Press，2010:238－242.

［22］ZHENG Yayu，FENG Jie，MA Hanjie，et al.H.264 ROI coding based on visual perception［C］//Proc.Visual Information Engineering.Xi'an，China:［s.n.］，2008:829－834.

［23］LEE S，PATTICHIS M S，BOVIK A C.Foveated video compression with optimal rate control［J］.IEEE Trans.Image Process.，2001，10（7）:977－992.

［24］ITTI L.Automatic foveation for video compression using a neurobiological model of visual attention［J］.IEEE Trans.Image Proces.，2004，13（10）:1304－1318.

［25］WANG Z，LU L，BOVIK A C.Foveation scalable video coding with automatic fixation selection［J］.IEEE Trans.Image Process.，2003，12（2）:243－254.

［26］CHEN Z，GUILLEMOT C.Perception－oriented video coding based on foveated JND Model［C］//Proc.Picture Coding Symposium，2009.Chicago:IEEE Press，2009:1－4.

［27］CHEN Z，GUILLEMOT C.Perceptually－Friendly H.264/AVC Video Coding［C］//Proc.Image Processing（ICIP），2009.Cairo:IEEE Press，2009:3417－3420.

［28］CHEN Z，GUILLEMOT C.Perceptually－friendly H.264/AVC video coding based on foveated just－noticeable－distortion model［J］.IEEE Trans.Circuits and Systems for Video Technology，2010，20（6）:806－819.

［29］TANG C W，CHEN C H，YU Y H，et al.Visual sensitivity guided bit allocation for video coding［J］.IEEE Trans.Multimedia，2006，8（1）:11－18.

［30］SUN C，WANG H J，KIM T H，et al.Perceptually adaptive Lagrange multiplier for rate－distortion optimization in H.264［C］//Proc.Future Generation Communication and Networking（FGCN 2007）.Jeju:IEEE Press，2007:459－463.

［31］YANG X，LIN W，LU Z，et al.Rate control for videophone using local perceptual cues［J］.IEEE Trans.Circuits System Video Technology，2005，15（4）:496 –507.

［32］TANG C W.Spatiotemporal visual considerations for video coding［J］.IEEE Trans.Multimedia，2007，9（2）:231－238.

［33］WANG X，SU L，HUANG Q M，et al.Visual perception based lagrangian rate distortion optimization for video cxoding［C］//Proc.Image Processing（ICIP），2011.Brussels:IEEE Press，2011:1653－1656.

Overview of Perceptual Video Coding

ZHANG Qian，ZHANG Yuan，ZHAO Zhijun

（Information Engineering School，Communication University of China，Beijing 100024，China）

This paper reviews the methods of perceptual video coding.First，the physiological characteristics of HVS are introduced.Then，the development status of various methods of perceptual video coding is reviewed.Finally，future directions and challenges related to perceptual video coding are briefly discussed.

video coding;perception;HVS

TN919.81

【本文献信息】张倩，张远，赵志军.视觉感知编码方法综述［J］.电视技术，2013，37（3）.

国家自然科学基金项目（61001177）

张倩（1988— ），女，硕士生，主研视频编码;

张远（1973— ），女，教授，主研视频处理与通信;

赵志军（1970— ），女，副教授，主研数字电视技术。

责任编辑:魏雨博

2012－07－29