基于支持向量回归的立体图像客观质量评价模型

2012-04-29 06:38顾珊波蒋刚毅
电子与信息学报 2012年2期
关键词:视点立体主观

顾珊波 邵 枫 蒋刚毅 郁 梅

(宁波大学信息科学与工程学院 宁波 315211)

1 引言

随着图像编码技术和立体显示技术的迅速发展,立体图像技术越来越受到广泛的关注与应用[1,2],已成为当前的一个研究热点。立体图像技术利用人眼的双目视差原理,双目各自独立地接收来自同一场景的左右视点图像,并通过大脑融合形成双目视差,从而欣赏到具有深度感和逼真感的立体图像[3]。然而由于采集系统、存储压缩及传输设备的影响,立体图像会不可避免地引入一系列的失真,与单通道图像相比,立体图像需要同时保证两个通道的图像质量,对其进行质量评价具有非常重要的意义。然而,目前对立体图像质量还缺乏有效的客观评价方法,因此,建立有效的立体图像客观质量评价模型具有十分重要的意义。

立体图像客观质量评价方法主要可以分为两类:(1)基于深度或视差信息的立体图像质量评价[4,5]。然而,由于目前视差/深度估计技术的局限,如何有效地对深度图或视差图质量进行评价以真实地表征立体感知特性,仍然是立体图像客观质量评价中的难点问题之一;(2)将平面图像质量评价方法应用于立体图像质量评价[6,7]。然而,对立体图像的左右视点图像进行融合产生立体感的过程还难以用简单的数学方法来表示,并且左右视点图像之间还存在相互影响,对左右视点图像进行简单线性加权难以有效地评价立体图像质量。因此,研究符合人类视觉特性的立体图像客观质量评价模型是一个重要的研究问题。

人类视觉系统是一个极其复杂的信息处理系统,人眼往往会习惯性地对主眼所看到的事物更加敏感,文献[8]通过实验测量发现绝大多数人的右眼为主眼,也就是说人眼对立体图像中右视点图像的质量失真比较敏感,并且人眼对图像的认知是非均匀的,对不同类型的失真会产生不同的敏感度;文献[9]的实验结果表明不同的失真类型对于立体图像质量的影响是各异的,对于块效应,其立体质量评价分值大约是左右通道评价分值的平均值,而对于模糊失真,其立体图像质量主要取决于质量较好的那个视点,并且左右视点图像的质量差异会影响最终的立体感知效果;文献[10]通过主观感知实验验证了不同失真类型的立体图像的主观感知质量的权重偏好。因此,在设计立体图像客观质量评价模型时,一方面要考虑不同失真类型对立体图像质量的影响以提高质量评价效果,另一方面又要考虑如何通过左右视点图像质量的差异来反映立体感知效果。

本文根据立体图像的不同失真类型以及左右视点间的质量差异对立体感知的影响,提出了一种基于支持向量回归(Support Vector Regression, SVR)的立体图像客观质量评价模型。首先通过奇异值分解(Singular Value Decomposition, SVD)提取出立体图像特征信息,然后通过SVR建立立体图像特征与主观评价值的关系,从而预测得到立体图像质量的客观评价值。与现有的立体图像质量评价方法相比,本方法采用能较好地反映图像质量差异的奇异值作为立体图像特征信息,并结合SVR技术进行高维样本的非线性回归,避免了对人类视觉系统的相关特性与机理的复杂模拟过程,且能较好地反映立体图像质量。

2 基于SVR的立体图像质量评价方法

由于目前对人类视觉特性中影响立体视觉的感知因素仍然没有很好的认识,研究立体图像中各种感知特性对立体图像质量的影响是立体图像质量评价中的一个难点。本文通过建立立体图像特征与立体图像主观评价值之间的关系模型,探索影响立体图像质量的各种感知线索信息,提出了一种基于SVR的立体图像客观质量评价模型,其框架如图1所示。首先通过SVD提取出立体图像特征,然后通过 SVR建立立体图像特征与主观评价值之间的关系模型,获取最能反映立体图像质量的感知线索信息,最后根据获取的感知线索信息来预测得出立体图像质量的客观评价值。其中,立体图像特征提取、左右视点图像质量关系分析和基于 SVR的立体图像特征融合是本模型的关键技术。

图1 基于SVR的立体图像客观质量评价模型框图

2.1 立体图像特征向量提取

对于一个大小为M×N的图像,可以用M×N的矩阵I表示。通过奇异值分解法将矩阵I表示为I=USVT,其中U和V分别为M×M和N×N的正交矩阵,S为M×N维的对角矩阵,S矩阵的对角元素称为图像I的奇异值。由于图像奇异值具有较好的稳定性且能够较好地反映图像的质量变化情况[11],故本文使用奇异值作为立体图像的特征信息。记矩阵I的奇异值矢量T=(σ1,σ2,…,σi,…,σn),其中,n=min(M,N),σi表示矩阵的第i个奇异值。

其中Xl和Xr的元素值越大,表明图像失真越严重,图像质量也就越差。

由于立体图像是通过左右两个视点以及两者之间的深度信息表现出来的,而左右视点图像的质量差异能反映立体感的强弱,并最终影响立体图像质量[9]。因此,立体图像特征矢量X与左右视点图像特征矢量Xl和Xr的关系可以表示为

其中g(⋅)表示立体图像特征矢量与左右视点图像特征矢量的关系函数。

由于人类视觉系统的复杂性,对左右视点图像进行融合产生立体感的过程还难以用简单的数学方法来表示。本文通过实验发现,对左右视点图像特征矢量进行线性加权,并通过SVR预测得到的客观评价值与主观评价值之间具有较强的相关性,因此,将立体图像特征矢量X表示为左右视点图像特征矢量Xl和Xr的线性加权

其中wl和wr分别表示左右视点的权值比重。

2.2 左右视点图像质量关系分析

本文通过 SVR来建立对称立体图像左右视点图像质量与立体感知的关系模型,以客观评价值与主观评价值之间的 Spearman等级相关系数(SROCC)来评价立体感知质量的性能,左右视点的最优权值比重wl和wr通过式(5)确立

表1为通过式(5)确定的各种失真类型的最优权值比重。从表中可以看出,通过SROCC最优得到的权值比重满足wl≤wr关系,说明了人眼对右视点图像的质量失真比较敏感,对于以块效应为主的JPEG 失真,其立体图像特征矢量为左右特征矢量的加权平均,也体现了其立体质量评价分值大约是左右通道评价分值的平均值。

表1 客观评价模型中对应的各种类型失真的权值比重

2.3 基于SVR的立体图像特征融合

特征提取是立体图像质量预测的关键,而立体图像特征融合对建立有效的立体图像质量评价模型也具有重要作用。本模型中,基于SVR的立体图像特征融合过程主要包含以下2个阶段:

(1)训练阶段:输入SVR的训练样本{Xp,yp},其中Xp为第p组立体图像的特征矢量,yp为第p组的主观评分差值(Difference Mean Opinion Score,DMOS);p=1,2,…,pm,pm为训练样本数目。SVR首先选择一个非线性变换把原始空间中的数据映射到一个高维特征空间中,再在高维特征空间中进行线性估计,构造最优线性函数,其过程表示为

其中w={wi,i=1,2,…,pm}为函数的权重矢量,b为偏置项,k(X,Xi)为特征矢量X的核函数。

目前常用的核函数有多项式核、径向基(Radial Basis Function, RBF)核、多层感知机核[12]。RBF核函数是一个普适的核函数,适用于任意分布的样本,在本文使用指数径向基函数(Exponential Radial Basis Function, ERBF)作为核函数

其中γ为核参数,定义了从原始空间到高维特征空间中的非线性映射。

在ε-SVR[13]中,SVR引入ε不敏感参数使训练得到的预测值f(X)与目标值y的误差最小,从而优化w和b参数:

(2)测试阶段:提供qm组测试立体图像特征矢量Xq及对应的主观评分差值yq,q=1,2,…,qm,用测试样本{Xq,yq}来测试训练所得w和b参数性能,预测得到测试立体图像的客观评价值Q。

由于在主观质量评价实验中会引入一些非线性因素,需要将模型的客观评价值Q做4参数Logistic函数非线性拟合[14],最终得到客观模型预测值DMOSp

其中a,b,c和d为常量;abs()为取绝对值操作。

本文按照 VQEG 对客观质量评价方法的检验标准[14],利用非线性回归后的客观模型预测值DMOSp与主观评价所得的DMOS的相关性来度量客观评价方法的性能,使用以下4个性能指标对该模型进行评价:

(1)线性相关系数(CC):用Pearson线性相关系数CC来反映客观评价模型预测的精确性,其计算公式如下:

其中N表示测试的失真立体图像的数目。Pearson相关系数取值范围为区间[-1, 1],其绝对值越接近1,表明客观模型预测值DMOSp与主观评价所得的DMOS之间的相关性越好,客观评价模型预测越准确。

(2)Spearman等级相关系数(SROCC):用Spearman等级相关系数来衡量客观模型的单调性,其计算公式如下:

(3)异常值比率指标(OR):该指标主要反映客观模型的离散程度,即预测值 DMOSp与主观评价所得的 DMOS的差异大于某一阈值的失真立体图像数目所占的比例。OR值的范围为区间[0, 1],值越接近 0,则表明客观模型的一致性越好。如果第i幅失真立体图像满足以下条件:

则认为第i幅失真立体图像为异常值,其中,S(i)表示第i幅失真立体图像对应的DMOS值的标准差。

(4)均方根误差(RMSE):以RMSE来对客观模型的准确性进行度量,其值越小,表示客观评价算法对主观评分值的预测越准确,模型的性能越好;反之,则越差。

3 实验结果及分析

本文采用宁波大学建立的对称立体图像测试库进行测试,该测试库的原始立体图像由 Mobile 3DTV和MPEG提供[15],其选取考虑了相机间距、背景复杂度、亮度、清晰度、分辨率及立体感等因素,其中原始左视点图像如图2所示。该测试立体图像库分别对原始左右视点图像添加 5种失真类型:JPEG压缩、JPEG2000压缩、高斯模糊、高斯白噪声和H.264压缩,共得到312组失真立体图像,并给出了每组失真立体图像的DMOS值。

3.1 测试方法及SVR参数选择

图2 立体数据库中原始立体图像的左图像

SVR的性能取决于一组好的参数,如正则化参数C、不敏感参数ε以及RBF核参数γ等。正规化参数C和不敏感参数ε取C=100,ε=0.01; RBF核参数γ的选取应该反映输入样本值的范围,由于不同失真立体图像奇异值变化不稳定,γ的选取应能反映不同失真特征值的变化情况。根据实验数据统计结果,高斯模型失真,JPEG 2000压缩失真,JPEG压缩失真,白噪声失真和H.264压缩失真的γ值依次为54, 52, 42, 130, 116。

本文采用5-折交叉验证来测试本模型的评价效果。首先,将不同失真类型的立体图像分为互不相交的5组子集,然后利用随机选择的4组训练结果,对给定的一组参数建立回归模型,最后利用剩余一组立体图像估计参数性能。重复执行上述的过程,对每个子集进行测试,将5组测试数据的平均结果作为各失真类型的立体图像质量的客观评价值。

3.2 性能比较

为了验证本模型的有效性,将本模型方法与基于奇异值分解的质量评价方法[10](Mean Singular Value Decomposition, MSVD)和基于结构相似度的质量评价方法[16](Mean Structure Similarity Index Metric, MSSIM)的性能进行比较。由于 MSVD和MSSIM评价方法主要应用于平面图像质量评价,不能简单地应用于立体图像质量评价。因此,在本文中,对左右视点图像分别采用MSVD和MSSIM方法进行评价,将左右视点图像的评价值采用表1的权值比重进行加权,得到最终的立体图像质量的客观评价值。

表2给出了本方法与MSVD和MSSIM方法的各项性能指标,并对本方法采用5-折交叉验证法和10-折交叉验证法的测试结果进行比较。由表中数据可知,采用5-折交叉验证法和10-折交叉验证法的测试结果非常相近,说明了本文方法受训练样本数影响非常小,Duan等人[17]通过实验建议采用5-折交叉验证比较合适,同时考虑到算法的复杂度,本文采用5-折交叉验证法作为测试本模型参数性能的主要方法。并且,本文方法的CC值在0.93以上,SROCC在0.94以上,均方根误差RMSE接近6, OR值为0.00%,均优于其它两种方法的各个评价指标。不同失真类型下反映准确性和单调性的 CC和 SROCC评价指标如表3和表4所示,MSVD方法在某些失真类型下性能指标会优于本方法,但总体评价性能低于本方法。

图3为给出了3种评价方法的客观评价值Q与DMOS值的散点图,散点越集中,说明客观模型与主观感知的一致性越好。图中曲线代表 4参数Logistic函数非线性拟合结果,其表达式如式(9)所示。图3(a)和3(b)分别给出了本方法采用5-折交叉验证和 10-折交叉验证的散点图,其客观评价值Q越小,立体图像质量越好,本文提出的基于SVR的立体图像客观质量评价模型散点图比较集中,与主观评价数据之间的吻合度较高;图3(c)给出了MSVD方法的散点图,其客观评价值Q越接近于0,立体图像质量越好。图3(d)给出了MSSIM方法的散点图,其客观评价值Q越接近于1,立体图像质量越好。图3(c)和图3(d)的客观评价值与主观评价值总体呈现非线性关系,MSVD评价方法对评价较差质量图像时没有很好地区分开人眼对立体图像的主观感知,而 MSSIM 评价方法得到的客观评价值与主观评价值的相关性不高,两者对应点比较离散。

4 结束语

本文通过分析人类视觉特性和立体图像特征,提出了一种基于支持向量回归(Support Vector Regression, SVR)的立体图像客观质量评价模型。本模型通过分析左右视点图像质量关系建立立体图像特征与立体图像主观评价值之间的关系模型。本模型采用具有较好稳定性能够反映图像质量差异的奇异值作为立体图像特征信息,并结合SVR进行特征融合,避免了对人类视觉系统的相关特性与机理的复杂模拟过程,能较好地反映立体图像质量。实验结果表明,基于SVR的客观质量评价模型能够准确地预测人眼对立体图像的主观感知。在本文的基础上,接下来将考虑建立无参考的立体图像质量评价模型,从而进一步完善模型的评价性能。

表2 各评价方法的各项性能指标比较结果

表3 不同失真类型的CC性能指标比较结果

表4 不同失真类型的SROCC性能指标比较结果

图3 各评价方法的客观评价值Q与DMOS值的散点图

[1]Zilly F, Kluger J, and Kauff P. Production rules for stereo acquisition[J].Proceedings of the IEEE, 2011, 99(4): 590-606.

[2]蒋刚毅, 黄大江, 王旭, 等. 图像质量评价方法研究进展[J].电子与信息学报, 2010, 32(1): 219-226.Jiang Gang-yi, Huang Da-jiang, Wang Xu,et al.. Overview on image quality assessment methods[J].Journal of Electronics&Information Technology, 2010, 32(1): 219-226.

[3]Urey H, Chellappan K V, Erden E,et al.. State of the art in stereoscopic and autostereoscoic displays[J].Proceedings of the IEEE, 2011, 99(4): 540-555.

[4]Lambooij M, IJsselsteijn W, Bouwhuis D G,et al.. Evaluation of stereoscopic images: beyond 2D quality[J].IEEE Transactions on Broadcasting, 2011, 57(2): 432-444.

[5]Mittal A, Moorthy A K, Ghosh J,et al.. Algorithmic assessment of 3D quality of experience for images and videos[C]. Proc. IEEE Digital Signal Processing Workshop,Arizona, USA, January 2011: 338-343.

[6]沈丽丽, 侯春萍, 张卓筠, 等. 基于三维特征和结构相似度的图像质量评价方法[J]. 光电子⋅激光, 2010, 21(11): 1713-1719.Shen Li-li, Hou Chun-ping, Zhang Zhuo-yun,et al.. A stereo image quality evaluation method based on three dimensional characteristics and structural similarity[J].Journal of Optoelectronics Laser, 2010, 21(11): 1713-1719.

[7]Parvez Sazzad Z M, Yamanaka S, and Horita Y. Continuous stereoscopic video quality evaluation[C]. Proc. of SPIE, San Jose, California, January 2010, 7524: 75241E.

[8]Gündo?an N Ü, Yazici A C, and im?ek A. A study on dominant eye measurement[J].International Journal of Ophthalmology, 2008, 8(10): 1980-1986.

[9]Stelmach L B and Tam W J. Stereoscopic image coding:effect of disparate image-quality in left and right eye views[J].Signal Processing: Image Communication, 1998, 14(1-2):111-117.

[10]Wang X, Yu M, Yang Y,et al.. Research on subjective stereoscopic image quality assessment[C]. Proc. of SPIE, San Jose, California, USA, January 2009, 7255: 1-10.

[11]Shnayderman A, Gusev A, and Eskicioglu A M. An SVD-based grayscale image quality measure for local and global assessment[J].IEEE Transactions on Image Processing,2006, 15(2): 422-429.

[12]Zhang X G. Introduction to statistical learning theory and support vector machines[J].Acta Automation Sinica, 2000,26(1): 32-41.

[13]Scholkopf B and Smola A. Learning with Kernels: Support Vector Machines, Regularization, and Beyond[M]. MIT Press,Cambridge, MA, 2002: 17-19.

[14]Brunnstrom K, Hands D, Speranza F,et al.. VQEG validation and ITU standardization of objective perceptual video quality metrics [Standards in a Nutshell][J].IEEE Signal Processing Magazine, 2009, 26(3): 96-101.

[15]Smolic A, Tech G, and Brust H. Report on generation of stereo video data base[R]. Mobile3DTV Technical Report D2.1, 2010: 1-44.

[16]Wang Z, Bovik A C, Sheikh H R,et al.. Image quality assessment: from error visibility to structural similarity[J].IEEE Transactions on Image Processing, 2004, 13(4):600-612.

[17]Duan K, Keerthi S S, and Poo A N. Evaluation of simple performance measures for tuning SVM hyperparameters[J].Neurocomputing, 2003, 51(4): 41-59.

猜你喜欢
视点立体主观
“美好生活”从主观愿望到执政理念的历史性提升
念个立体咒
加一点儿主观感受的调料
立体登陆
Pop—Up Books立体书来了
视点
主观评述构式“很+x”认知研究
让你每天一元钱,物超所值——《今日视点—2014精萃》序
两会视点
寻找新的视点