基于人眼感知特性的数字图像压缩技术研究

2011-06-25 09:39姚军财

电视技术 2011年15期

姚军财

（陕西理工学院物理系，陕西汉中 723000）

0 引言

图像压缩是指对要处理的图像源数据按一定规则进行变换和组合，从而达到以尽可能少的代码（符号）来表示尽可能多的数据信息的一种方法。数字化图像压缩技术主要包括变换、量化和编码等。国内外对数字图像压缩技术进行了大量研究，提出了很多变换、量化和编码方法[1-5]，早期的研究着重于改进图像信息编码算法，如香农编码、算术编码、预测编码等；由于图像信息的最终接受者是人，人眼对图像的认知是非均匀和非线性的，并不是对图像中的任何变化都能感知到，使得人观察图像时存在大量的心理视觉冗余，且人眼能很好地直接评价压缩效果的好坏，所以自20世纪90年代以来，基于去除心理视觉冗余的图像压缩技术及其应用得到了迅猛发展[6-10]。但是如何利用人类视觉系统的感知特性，这方面的研究到目前为止比较少。本文结合人眼对比度感知特性和图像离散余弦变换（DCT）特征[1-2]，提出了一种源图像频谱图的人眼最小可觉察误差阈值的计算方法，利用该方法计算出来的阈值来量化原始图像频谱图的各个8×8子块的信息，使得编码时变换域系数中尽可能多地出现零值系数，再通过Huffman编码方法实现编码。

1 人眼对比度敏感视觉特性

人眼观察图像的目的就是获得有用的信息，但人眼并不是对所有的视觉信息具有相同的敏感度，即人眼的分辨力是有限的；对图像而言，则不能完全区分各种颜色或灰度级，使得产生心理视觉冗余；则利用人眼视觉特性筛选出人眼不敏感的图像信息进行量化处理，有利于图像数据的压缩；同时又保证了压缩图像的观测效果。对人眼视觉特性的深入研究及由此建立的各种数学模型，一直是各种图像压缩算法的基础。

人眼对比度敏感是描述人眼视觉系统（HVS）空间传递特性的主要指标之一[6-10]，其数值到目前为止无法直接测量，通常用人眼主观上刚刚可辨别的亮度差与平均亮度的比值的倒数来描述；为了从数学模型上抽象出人眼对比度敏感视觉特性，一般采用不同条件下测量的人眼对比度敏感值与空间频率之间的函数关系来描述，其关系函数称之为人眼对比度敏感函数（CSF）。自20世纪50年代，国内外对人眼对比度敏感视觉特性做了大量的研究，到目前为止，人眼亮度传递特性得到了较好的结果，获得了一些CSF数学模型，其中最典型的有以下3个模型：1）Movshon模型：Movshon等人依据Ratches测量的数据拟合的参数模型。2）Daly模型：Daly等人以Meeteren和Vos测量的数据为基础拟合的参数模型。3）Barten模型：Barten等人对Van Meeteren测量的数据进行拟合的参数模型[8-13]。对比分析这几种模型在图像技术中的应用，早期的研究一般采用Movshon模型，但是此模型没有考虑亮度影响因素；而Daly模型是一种多参数模型，虽然到目前为止最适合于描述人眼对比度敏感视觉特性，但是其涉及到的影响参数太多，在图像技术中计算量太大，以致较少被采用。综合考虑CSF模型能否较好地反映人眼视觉特性及其在图像压缩技术中的实用性，Barten模型是比较理想的模型。Barten模型为f为视觉空间频率，单位为周/度，L为观察目标光栅的平均亮度，w为每度显示的大小。

式（1）表明人眼CSF模型受到平均亮度的影响，不同的平均亮度，CSF的曲线也会不同，图1a和1b分别是该模型对应的二维图像和三维图像的示意图。图1表明：曲线整体表现为人眼对中频区域较为敏感，对低频和高频区域，人眼对比度敏感程度急剧下降。则可以利用此特点，对图像的高、低频不敏感区域信息进行量化编码，达到压缩图像信息的目的。

2 基于人眼视觉特性的压缩方法

数字图像压缩技术主要包括变换、量化和编码等，其中最关键的是量化。由于图像具有局部自相似性，图像的频率变换能够体现图像的信息，并且能够去掉像素间较强的相关性，让图像的信息主要集中在少数系数上，因此文中采取的量化方法是在频域中对变换域系数进行修改，再对修改后的变换域系数进行离散余弦反变换，则在空间域中对应的图像像素值发生了变化，表现为亮度和色度产生了偏差；由于人眼观察图像存在可见度阈值，因此只要量化误差控制在可见度阈值范围内，就不会影响视觉观察的效果，从而达到实现压缩编码的目的。因此，要求知道图像每一个像素的基于人眼视觉特性的可容忍的误差（或偏差）水平。人眼对亮度光强变化的响应是非线性的，通常把人眼主观上刚刚可辨别亮度差所需的最小光强差值称为可见度阈值ΔL，将ΔL/L称为人眼对比灵敏度或对比度觉察阈值。也就是说，当光强L增大时，在一定幅度内人眼感觉不出来，必须要变化到L＋ΔL时，人眼才能感觉到亮度有变化，则ΔL便是图像每一个像素的最大可容忍误差；因此，如果恢复图像的误差低于ΔL，人眼就觉察不到其发生了变化，从而保证了压缩图像的质量，且有利于图像数据的压缩。因此，在压缩过程中，先采用下面的计算方法获得图像8×8块DCT变换后的每一点的可见度阈值ΔL，再把ΔL值与DCT变换后对应的系数进行比较，如果系数小于ΔL值，表现为人眼对其改变不能觉察，则可以直接记该系数为零，再依据量化零系数的分布情况采用Huffman编码算法实现，则可以达到压缩图像数据的目的。

在量化的过程中，要利用描述人眼视觉系统特性的Barten模型筛选出人眼对图像的不敏感像素点，达到在编码过程中，让不敏感的像素点用最短的码字长来描述，则需要利用Barten模型计算原始图像频谱图的可见度阈值ΔL。如何进行利用？就要解决以下两个问题：1）人眼视觉特性测量中观察目标光栅的对比度定义如何应用到图像中；2）如何将CSF数学模型中的空间频率与图像中的空间频率结合起来。下面对这两个问题进行阐述：

1）对比度的定义。在人眼对比度敏感阈值的测量过程中，一般采用显示器显示目标光栅，通过精确控制显示器的亮度和色度来实现测量时所需要的光栅的亮度和对比度，光栅的对比度采用Michole提出的亮度对比度定义[6-10]

式中：L1,L2分别为光栅条纹的亮度，Lˉ为整个光栅的平均亮度。

为了把视觉测量中的对比度定义应用到图像压缩技术中，首先对源图像进行8×8大小子块划分，然后对每个子块进行DCT变换[1-2]，取每个8×8大小子块图像的平均亮度作为该大小光栅的平均亮度Lˉ值，子块图像中的任意一个小的区域或任意一个像素点的亮度与平均亮度Lˉ的差值为ΔL，则其对比度均可用式（3）来描述。

2）空间频率。在图像处理技术中，图像的空间频率描述了图像像素值在空间中的变化特征，其定义是图像的像素亮度在单位空间距离内周期性变化的次数，单位一般用周期/像素或周期/米；但是在眼视觉光学的研究中，空间频率是指每度视角内观察目标中以亮暗作为正弦调制的栅条周数，一般用周/度来描述[6-10]。结合两种频率的定义和人眼对比度感知特性的实际测量过程，两频率的换算方法具体描述如下。

在人眼视觉特性的测量过程中，显示屏上显示的光栅图像的大小一般不变，但可以改变光栅条纹内的像素点的个数，通过改变其像素点的个数达到改变周期条纹的宽度，则不同的栅条宽度，光栅的空间频率的就不同，从而实现实验中需要的空间频率。则人眼观察目标光栅的空间视角θ的示意图如图2，计算方法为

式中：W是光栅图像的宽度，由于目标光栅是采用显示器来显示，W不便于准确测量，但可直接通过像素值换算来得到；D为观察者距离观察目标的距离。

图像的分辨力一般在显示器设置完成后为一固定值，用Kpixel/inch来描述，根据1 inch≈2.54 cm来换算，则光栅图像的每个像素所占的空间大小Δl和整个光栅的宽度W可用式（4）来计算

式中：W的单位为厘米（cm），Wi为光栅图像宽度的像素数。结合图像离散余弦变换特征和人眼视觉特性测量的实际情况，源图像频谱图的空间频率f可用式（5）来计算，其中n表示为图像中某一像素或区域的位置（n≥2）。

结合式（1）、式（2）和上面的频率换算方法，可计算出图像每一小区域或每一像素位置的人眼对比度觉察阈值C和可见度阈值ΔL。通过可见度阈值ΔL采用上面的方法便可实现量化，即采用把对于不敏感的信息DCT变换系数值直接记为零，使得最大限度的减小量化后描述图像像素的比特数，达到最大压缩的效果。其压缩方法流程图如图3。

压缩方法流程图具体说明如下：

1）对原始图像顺序的按8×8大小分割成一系列的子块，对于计算机图像处理中的数字图像一般其灰度用8 bit来量化。

2）对每一子块进行DCT变换。

3）首先取变换后系数精度与计算的阈值精度一致，再利用计算的阈值对每一子块变换后每一个系数进行比较，筛选出每一子块人眼不敏感的信息，量化其为零；具体为由于DCT变换后，频谱显示与分布图表现为低频区域幅度大，图像信息主要集中于此；高频区域有信息但很少，使得DCT系数集中在低频区域，越是高频区域系数越小；根据人眼视觉特性，计算的视觉阈值将许多能量较小的高频分量和部分中频分量量化为零。如此增加了变换系数中零的个数，同时保留了能量较大的系数分量，从而在保证观测效果的同时获得进一步的压缩。

4）对变换系数进行Huffman编码。

5）在经过信道传输或存储后，根据上面的逆过程操作，重建图像，获得解压后的图像。

3 实验结果及讨论

3.1 实验结果

实验选取大小为256×256的灰度图Lena图作为源图像，先对其进行子块划分，再对每一个子块进行DCT变换，之后根据上面提出的方法进行量化和编码，并利用Matlab进行编程实现，获得的结果如图4所示。

3.2 讨论

根据人眼视觉特性，峰值信噪比PSNR＞30 dB时，解压缩后的图像的保真度比较高，且PSNR越大，保真度越高，解压缩图像和源图像之间的差异就越小。用I代表原始图像，I′代表解压缩后的图像[1-2]，PSNR可表示为

计算可得，此压缩方案的PSNR为45.4775 dB。表明解压缩图像的保真度比较高，且从人眼视觉上看图像的损失是可以接受的。表明该基于人眼视觉特性的压缩算法是一种较好的算法。

在数字图像通信系统中，压缩比、平均码字长度、编码效率和冗余度是衡量数据压缩性能的重要指标，实验中计算得到的性能指标见表1。

表1 衡量图像数据压缩性能的指标

根据信息论中的信息源编码理论，一个编码系统的关键研究问题是平均码字长度要尽可能小，使编码效率接近1，冗余度尽量趋近零。编码结果的平均码字长越接近于信源的熵，其编码效率就越高；压缩比越大，图像数据占用空间就越小，压缩效果就越好，但是保真度不一定越高。为了提高压缩技术，综合考虑各方面的情况，最佳的编码技术是在提高压缩比的同时，要求平均码长小于或等于信源的熵，使得不丢失信息，不引起图像失真，且占用较少的比特数。由表1可见，实验得出的结果平均码长为1.3933，接近于信源的熵1.1231，编码效率达到0.8823，且压缩比在满足人眼观察效果的同时还能达到13.2299，表明该压缩方案是一种较好的方案。

4 结论

本文提出了一种基于人眼感知特性的DCT域图像压缩技术方案，方案利用人眼对比度敏感阈值来量化源图像频谱图的各个8×8大小子块的信息，再依据量化零系数的分布情况采用Huffman编码算法实现，并通过实验进行验证。实验结果表明，图像压缩效率和经该压缩算法压缩后图像的质量较高，同时又因为结合了人眼视觉特性，保证了压缩图像的观测效果，说明该压缩方案是一种较好的方案。当然，从实验得到的衡量数据压缩性能的指标即平均码长、冗余度、压缩比和编码效率上看，仍有待提高，但是随着人眼视觉特性研究的不断深入，结合HVS的感知模型来研究压缩技术必将得到更大的发展和应用。

[1]郑方，章毓晋.数字信号与图像处理[M].北京：清华大学出版社，2006.

[2]王新年，张涛.数字图像压缩技术实用教程[M].北京：机械工业出版社，2009.

[3]李书欣，王泉，吴延赞，等.基于HVS感知模型与数据压缩的可逆图像水印算法[J].电视技术，2010，34（6）：26-28.

[4]杨志高，易尧华，秦前清.基于视觉掩盖效应的自适应图像压缩算法[J].武汉大学学报：信息科学版，2006，31（9）：802-805.

[5]张晓娣，刘贵忠，曾召华，等.JPEG2000图像压缩编码系统及其关键技术[J].电视技术，2001，25（8）：13-17.

[6]姚军财，申静，何军锋，等.基于CRT显示器的人眼对比度敏感测量[J].液晶与显示，2008，23（6）：788-793.

[7]姚军财，申静，王剑华.CRT显示器亮度范围内对人眼视觉特性的实验研究[J].物理学报，2008，57（7）：4034-4041.

[8]NADENAU M.Integration of human colour vision models into high quality image compression[D].Lausanne，Switzerland：École Polytechnique Fédérale de Lausanne，2000.

[9]JOHNSON G M，FAIRCHILD M D.Measuring images：differences，quality and appearance[J].Proceedings of the SPIE，2003，5007：51-60.

[10]JOHNSON G M，FAIRCHILD M D.Darwinism of color image difference models[C]//Proc.of IS&T/SID 9th Color Imaging Conference.Scottsdale，Arizona：[s.n.]，2001：108-112.

[11]COMES S，MACQ B M.Human visual quality criterion[J].Proceeding of SPIE，1990，1360：2-13.

[12]姚军财.基于人眼视觉特性的印刷图像压缩技术研究[J].包装工程，2011，32（5）：69-72.

[13]申静.一种利用人眼视觉特性的数字图像水印技术[J].液晶与显示，2011，26（2）：234-240.