融合相位一致性与二维主成分分析的视觉显著性预测

2015-12-13 11:46唐振民
电子与信息学报 2015年9期
关键词:分块一致性显著性

徐 威 唐振民

1 引言

人类视觉能够从海量复杂场景中高效地感知、捕获独特的重要信息,即显著性区域。而这种潜在的视觉注意机制如果能被计算机有效地利用,将大大提高图像、视频的处理效率。因此,各种显著性模型被提出,服务于各种应用,如目标检测[1]、视频缩放[2]等。而从最终应用方向和采用的测试数据集上考虑,现有显著性模型可分为显著性目标检测和人眼视觉关注点预测[3]两大类。前者追求准确地提取有意义的目标整体;而后者更倾向于模拟人眼获取最具吸引力的关键点及其邻域的信息,这正是本文研究的内容。

基于生物学假设,经典的Itti模型[4]对图像高斯金字塔分解后,提取颜色、亮度、方向特征,通过计算跨尺度的中央-周围差异,生成显著图。文献[5]使用类似特征,并提出基于图论的显著性(Graph-Based Visual Saliency, GBVS)算法。而文献[6]则通过独立成分分析获取图像特征,采用香农的自信息,提出了一种信息最大化(An Information Maximization, AIM)方法。文献[7]基于稀疏表示理论,提出了融合RGB和Lab颜色空间的局部和全局(Local and Global, LG)稀少性的算法。这些利用低层显著性特征的方法都取得了一定效果,但其对于人眼视觉关注点预测的准确性并不十分理想。

基于机器学习的方法更倾向于将高层的先验目标融入显著性计算。如著名的Judd模型[8]加入了人脸、行人等特定目标的检测,采用支持向量机分类,区分出显著性区域。而最近的整体深度网络(ensemble of Deep Networks, eDN)算法[9]通过在多层次的基于生物学假设的特征中大范围搜索使分类结果最优的特征组合,构造显著图。

如果转换思维,各种从频域角度分析图像显著性成分的方法取得了不错的效果。文献[10]将图像傅里叶变换后的残余幅度谱作为显著性区域,提出了谱残余(Spectral Residual, SR)方法。但文献[11]指出 SR方法中起主导作用的并非残余幅度谱,而是相位谱;接着提出了基于超复数傅里叶变换(Hypercomplex Fourier Transform, HFT)方法:在利用相位谱信息后,通过抑制非显著性背景区域,突出显著成分。

以上频域算法虽然运算速度较快,但预测准确性仍不高。本文也首先从频域考虑,但不同于文献[10,11]中直接利用图像傅里叶变换后的相位谱计算显著性,而是引入相位一致性(Phase Congruency,PC)分析图像中各点相位谱的变化特性,从而提取最容易引起视觉关注的特征点以及边缘特征,并采用快速漂移超像素改善相位一致性结果。接着融入颜色信息:通过计算Lab颜色空间中图像块的局部对比度以及相对于先验背景的全局对比度,进一步优化基于相位一致性的显著图。而为了更全面地考虑图像块的独特性,本文提出采用 2DPCA[12](Two-Dimensional Principal Component Analysis)分别在Lab通道上提取各图像块的2维主成分,通过计算2维主成分空间中某图像块与其邻域局部加权的差异,以及全局范围内与先验背景图像块的可区分性,得到基于 2DPCA的模式显著图。最后,根据空间离散度度量分配不同权重,将两种显著图融合。

2 基于相位一致性的显著性

角点和边缘这些低层特征在吸引视觉注意时起着十分重要的作用,这在文献[13]提出的检测显著性目标边缘的概率模型中有着详细的阐述。而从频域角度考虑,相位一致性对图像亮度和对比度具有不变性,能很好地提取上述低层特征。

相位一致性并不简单地基于亮度梯度,而是将图像傅里叶分量相位一致的点作为特征点,而这些点通常位于各种各样的边缘处。2维空间(如图像)的相位一致性定义为[14]

An为第 n个余弦分量的振幅。能量函数 En(x)=An( x)Δ φn(x)。而计算局部能量En(x),需要对信号带通滤波,得到其局部频域特征。Log Gabor函数因为很好的方向选择性,符合人眼视觉接收场模型,而被采用。而相位偏移函数 Δ φn(x)由式(2)得到:

φn(x ) 为点 x处傅里叶变换的局部相位,φ( x) 是x处所有傅里叶分量的局部相位的加权平均。W(x)和T分别为滤波器频带加权函数和估计噪声,具体设置参见文献[14]。ε为一微小正常量,为 0.001,防止分母为0。

在合适的尺度计算相位一致性,可突出主要的特征点和边缘,取得最佳的视觉效果,如图1所示的相位一致性图(PC图)。不同尺度下的PC 图的视觉效果差异较大:原尺寸下的 PC图在突出特征点和各种边缘的同时,也保留了大量不必要的纹理细节;中等尺度下的 PC 图(如图 1(d))突出了特征点和边缘集中的区域,杂乱无章的背景纹理被抑制;低尺度下的 PC图则赋予了变化剧烈的边缘区域更高的值。

而包含特征点和边缘的目标区域内部往往也具有显著性,如图 1(a)的画像内部;相对而言,人类视觉对图像边界处的特征点和边缘缺乏足够的关注,这些部分也往往缺乏显著性,如图 1(a)右边界的门框,但在 PC图中却无法区分对待。因此,本文采用超像素对其优化。

图1 不同的图像尺度下的相位一致性结果图

快速漂移(quick shift)[15]采用核密度估计方法,考虑图像中各像素点之间的颜色和空间的一致性,将这些视觉特征相似的像素点作为局部单元统一处理,且计算快速,结果稳定。如图 2(a)所示,各超像素用其所含像素的平均颜色表示。将 PC图中的值标准化为[0,1],假设第i个超像素中共含有K个像素点,PCk表示第 k个像素点的相位一致性值,则第i个超像素优化后的结果SPi为

将各超像素的SPi值分配到其中所含的像素点。见图2(b),分布相对集中的目标区域的PC值得到加强,而分布广泛且散乱的边界和背景区域的 PC值被削弱。

颜色特征在突出物体显著性时最为直观,已被许多经典的显著性方法使用[4,7]。计算图像块与其邻域的颜色对比度,可很好地度量该图像块的局部颜色显著性。将原图像划分为mn×的小块,第i个分块ri共有N个相邻分块,第j个分块为rj,见图3(a)。则其局部颜色显著值 Sl(ri)为

其中 Ds(ri,rj)-1为 ri和 rj的空间距离的倒数,表明相距越近,影响越大;Dc(ri,rj)表示 ri和 rj在 Lab颜色空间的距离。从图3(b)中可知,局部具有稀少性、与相邻区域颜色差异明显的区域被突出。

从全局角度考虑,本文根据文献[16],假设大部分位于边界位置的图像块为背景,也采用类似的策略对可能接触到图像边界处的显著性目标进行预判排除。但不同的是,本文通过计算各分块与先验背景在Lab颜色空间的距离,度量全局颜色显著程度。

图 2采用超像素优化相位一致性图(PC图)

在划分为mn×的小块的图像中,位于边界的图像块共有M个,构成了先验背景B。分块ri与属于 B中的图像分块 rj在 Lab颜色空间的距离为Dc(ri,rj)。定义 ri的全局颜色显著性为 ri与先验背景B中前k个(实验中k取值为5)空间加权的颜色距离最小的图像块的距离和。

图 3(c)中显著值高的点集中在目标区域(画像),图像边界区域(先验背景)的显著值得到有效抑制。

将 Sl和 Sg中各分块的显著值分配到其中所含的像素点,并标准化为[0,1]范围,与经过超像素改善的相位一致性结果进行融合,得到最终优化的显著图,如图3(d)所示。点x对应的显著值SPC(x)为

3 基于2DPCA的显著性

上述策略利用特征点、边缘和颜色信息计算显著性,却未考虑图像中其余内在可区分性特征的影响。为了弥补这些不足,本文分析图像块的内部结构。2DPCA[12]的主要思想是将2维图像经线性变换后投影到新的低维空间中,得到投影特征。较之PCA,其无需将2维图像转化为1维向量,可直接由图像矩阵构造散布矩阵,特征提取速度加快,鲁棒性强,可用于图像块间的模式可区分性。

2DPCA的计算过程如下所述:将图像块A(m×n的矩阵)投影到 n维线性列向量 X 上,即Y=AX, Y为m维投影向量。那么,可以采用式(7)所示的判定准则确定最优的投影方向为

图3 颜色显著性结果图

其中 Sx表示训练样本的投影特征向量的协方差矩阵,tr(Sx)为 Sx的迹。使判定准则取最大值的线性向量X被称为最佳投影轴Xopt。Gt是一个n×n的非负矩阵,称为图像散布矩阵。如果假设训练样本数为M,第j个训练样本为矩阵Aj,所有训练样本的平均图像块表示为A,则Gt可表示为只选取一个最佳投影轴不够充分,通常需要选择满足正交条件和使判定准则J(x)取最大值的前d个投影轴,得到图像块A的前d个主成分向量,进而组成图像块A的m×d维的特征矩阵。如图4所示,为图 1(a)中的图像在 L通道上的特征矩阵提取过程,将该图中所有的图像块作为训练样本计算平均图像块。

在主成分空间中计算各图像块之间的差异能很好地度量其模式可区分性。第 c个通道上(c∈{L,a,b}),图像块ri的特征矩阵为cif,它的第j个空间相邻分块rj的特征矩阵为cjf,共有N个邻域分块。则其在c通道的局部模式可区分性为

局部图像块有可能与其邻域在主成分空间具有相似性,但全局范围内却与大多数图像块有较大差异。图像块ri的全局模式可区分性由其与先验背景B中图像块在主成分空间的差异所度量。假设在第c个通道,先验背景B中(含有M个图像块)第j个图像块rj的特征矩阵为cjf,则有

得到ri的全局模式显著性

综合两者,得到ri基于2DPCA的显著性Sp(ri):

局部、全局以及最终的基于2DPCA的显著图如图5所示。

图4 2DPCA特征提取过程

4 融合策略

图像中的显著性目标较为集中,而背景相对分散。一般而言,视觉关注点也集中于图中某一区域。但简单的特征整合策略无法考虑这一点[4],因此,本文根据各显著图的空间离散程度分配合适的权重,进行融合。以基于相位一致性的显著图 SPC为例,将其值标准化为[0,1],其水平方向的空间离散程度VPC(h)为[17]

其中xh为点x的水平方向坐标,μh为水平方向的显著性中心位置,计算为

|SPC|为SPC中所有点的显著值之和,计算时,SPC中所有点的水平方向坐标也标准化为[0,1]。同样地,垂直方向的空间离散程度VPC(v)也如此计算,得到总体的空间离散程度:

基于 2DPCA的显著图Sp的空间离散程度Vp可通过类似式(14)~式(16)的计算得到。而空间离散程度越大,表明该显著图中具有较高显著值的点越分散,对最终显著图的贡献应该降低,则权重wi为

式(17)中 i ∈ { PC,p}, wi归一化为[0,1]。最终融合后的显著图见图6,其中点x对应的显著值计算为

5 实验结果和分析

本文在两个经典的人眼跟踪数据库 TORONTO[6]和MIT[8]上进行对比实验。TORONTO含有120幅分辨率为511×681的彩色图像,使用最为广泛;MIT包含1003幅分辨率从405×1024到1024×1024不等的风景和人物图像。这两个数据库的真实值(Groud Truth, GT)均由人工标注得到。本文将所提方法与其余5种经典的视觉关注点预测方法比较,分别为:GBVS[5], AIM[6], LG[7], eDN[9]和 HFT[11]。

5.1 量化性能比较

传统 AUC(Area Under the ROC Curve)[18]对于融入中央偏置的方法,往往取得较高值,如GBVS[5]。图 7(a), 7(b)分别为 TORONTO 和 MIT 所有的视觉关注图的叠加,其中存在明显的中央偏置现象。这种指标并不公平,因为简单的以图像中心进行高斯模糊,AUC值即可达到0.8左右[3,7]。为了克服这种影响,文献[7]采用了打乱的AUC(Shuffled AUC,SAUC)评价标准,对于以图像中心进行的高斯模糊,该评价取值仅为0.5,显得更加客观公正,本文也使用该指标比较。

图5 局部、全局以及最终的基于2DPCA的显著图

图6 融合后的最终显著图

图7 传统AUC受中央偏置影响的示意图

图8 为各算法在TORONTO和MIT数据库上的 SAUC结果。与文献[7]一样,本文也采用高斯平滑策略,即将高斯核函数的标准差σ在区间[0.01,0.13]变化,对显著图进行平滑,从而得到各算法最高的SAUC值。在TORONTO数据库上,本文算法的SAUC在σ=0.03处取得最大值0.709;而在MIT数据库上,σ=0.03处取得最大值0.686,均是所有算法中最高的。

此外,本文使用了标准化扫描路径分析(Normalized Scanpath Saliency, NSS)[3]、 相 关 系 数 (Linear Correlation Coefficient, CC)[3]和相似性(Similarity,Sim)[9]指标。各算法的NSS, CC和Sim值见表1。这3种指标受到中央偏置的影响较大[3,7],为了体现公平,本文如文献[9]一样,在比较完原始的结果后,再将中央偏置加入各算法显著图中(+中央表示),重新计算(TORONTO和MIT分别简写为T和M)。

表1 TORONTO和MIT数据库上各算法的NSS值

图8 SAUC与高斯核函数标准差σ的关系

NSS反映了视觉关注点处的响应值,该值越大,表明显著图效果越佳。在未添加中央偏置前,GBVS由于本身就融入了中央偏置原理,在两个数据上的NSS指标均为最高。而当加入中央偏置后,所有算法的NSS值都有所提高,本文算法在TORONTO和MIT数据库上的NSS值高达1.680(略低于HFT的 1.706,排第 2)和1.530(最高)。形成反差的是,GBVS等方法的NSS值提高得并不多。

CC用于度量显著图和对应的人眼视觉关注图之间的相关程度,该值越大,越相关。与NSS指标上的表现相似,本文算法原始的CC值并不高。当加入中央偏置后,本文算法的CC值有着显著的改善,在TORONTO数据库上达到了0.495,排第2,略低于HFT的0.502;在MIT数据库上最高,为0.329。

Sim 值度量了显著图和对应的人眼视觉关注图之间的相似程度,该值越大,越相似。本文方法的原始 Sim 值为 0.427(TORONTO)和 0.312(MIT),处于较高水平。加入中央偏置后,本文方法在TORONTO数据库上的相似性度量是最高的,为0.558;而在MIT数据库上为0.435,略低于GBVS的0.437。

图9为各算法在TORONTO和MIT数据库上部分代表性的显著图的视觉效果对比,其中FM表示各数据库给出的人眼视觉关注图(Fixation Map),由各图对应的GT经过高斯模糊处理后得到[7,10]。从中可看出,本文算法的大部分显著性区域与FM保持一致,最为精确。

5.2 参数分析

在计算相位一致性时的图像尺寸是一个重要的参数,见表 2。当图像较大时,相位一致性会更多地突出图像细节,但这些细节往往是非显著性部分,造成SAUC值较低;而尺寸过小,相位一致性却会丢失部分真正的显著性区域。当图像为64×64时,SAUC在TORONTO和MIT数据库上取最高值。

不同的图像分块大小,对于本文算法第2节中融入颜色信息和第3节中计算2DPCA的显著图存在影响,从而产生不同的SAUC值,见表3。当分块大小为16×16时,SAUC值表现最好。

表2 不同尺寸下的相位一致性对SAUC的影响

图9 各算法在TORONTO和MIT数据库上部分显著图的视觉效果对比图

表3 不同大小的图像分块对SAUC的影响

邻域窗口大小影响到第2节中局部颜色显著性和第3节中基于2DPCA的局部模式可区分性计算,见图10。观察可知,邻域窗口过大会降低显著性检测的准确性,最佳的邻域窗口半径为1,即33×邻域。

5.3 算法运行时间比较

本文实验环境为 Intel(R) Core(TM)i5-2410M CPU, 4G内存的PC。各算法在TORONTO和MIT数据库上的平均运行时间见表 4。综合运行时间和各项量化性能评价指标来看,本文算法具有一定优势。

图10 邻域大小对SAUC的影响

6 结束语

本文并不像传统频域算法简单地直接利用图像频域变换后相位谱计算显著性,而是分析图像中各点的相位谱关系,引入相位一致性,有效地提取角点、边缘这些最吸引人注意的特征;再经过快速漂移超像素优化后,相位一致性值高且集中的图像整体区域被突出;加之局部和全局的颜色对比度特征的融合,显著性区域的估计更为准确与稳定。通过2DPCA提取图像块的2维主成分后,计算图像块间局部和全局的差异,得到相应的模式显著性。基于空间离散程度的融合策略有效地融合了两者。在两种公开的人眼跟踪数据库上同5种经典方法的多种对比试验,证明了算法的有效性和准确性。下一步,本文将会融入更为复杂的特征,如对称性、形状,以及目标先验信息,进一步提高人眼视觉关注点预测的性能。

表4 各算法在TORONTO和MIT数据库上的平均运行时间(s)

[1] Li W T, Chang H S, Lien K C, et al.. Exploring visual and motion saliency for automatic video object extraction[J].IEEE Transactions on Image Processing, 2013, 22(7):2600-2610.

[2] Chen D Y and Luo Y S. Preserving motion-tolerant contextual visual saliency for video resizing[J]. IEEE Transactions on Multimedia, 2013, 15(7): 1616-1627.

[3] Borji A, Sihite D N, and Itti L. Quantitative analysis of human-model agreement in visual saliency modeling: a comparative study[J]. IEEE Transactions on Image Processing, 2013, 22(1): 55-69.

[4] Itti L, Koch C, and Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1998, 20(11): 1254-1259.

[5] Harel J, Koch C, and Perona P. Graph-based visual saliency[C]. Proceedings of the Annual Conference on Neural Information Processing Systems, Vancouver, Canada, 2007:545-552.

[6] Bruce N D and Tsotsos J K. Saliency based on information maximization[C]. Proceedings of the Annual Conference on Neural Information Processing Systems, Whistler, Canada,2006: 155-162.

[7] Borji A and Itti L. Exploiting local and global rarities for saliency detection[C]. Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition,Providence, USA, 2012: 478-485.

[8] Judd T, Ehinger K, and Durand F. Learning to predict where humans look[C]. Proceedings of the IEEE International Conference on Computer Vision, Kyoto, Japan, 2009:2106-2113.

[9] Vig E, Dorr M, and David C. Large-scale optimization of hierarchical features for saliency prediction in natural images[C]. Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, Columbus, USA,2014: 2798-2805.

[10] Hou X and Zhang L. Saliency detection: a spectral residual approach[C]. Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition,Minneapolis, USA, 2007: 1-8.

[11] Li J, Levine M D, An X J, et al.. Visual saliency based on scale-space analysis in the frequency domain[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013, 35(4): 996-1010.

[12] Yang J, Zhang D, Frangi A F, et al.. Two-dimensional PCA:a new approach to appearance-based face representation and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(1): 131-137.

[13] Jiang H Z, Wu Y, and Yuan Z J. Probabilistic salient object contour detection based on superpixels[C]. Proceedings of the IEEE International Conference on Image Processing,Melbourne, Australia, 2013: 3069-3072.

[14] Kovesi P. Phase congruency detects corners and edges[C].Proceedings of the Australian Pattern Recognition Society Conference, Sydney, Australia, 2003: 309-318.

[15] Vedaldi A and Soatto S. Quick shift and kernel methods for mode seeking[C]. Proceedings of the European Conference on Computer Vision, Marseille, France, 2008: 705-718.

[16] Wei Y C, Wen F, and Zhu W J. Geodesic saliency using background priors[C]. Proceedings of the European Conference on Computer Vision, Florence, Italy, 2012: 29-42.

[17] Cheng M M, Warrell J, Lin W Y, et al.. Efficient salient region detection with soft image abstraction[C]. Proceedings of the IEEE International Conference on Computer Vision,Sydney, Australia, 2013: 1529-1536.

[18] Shi T L, Liang M, and Hu X L. A reverse hierarchy model for predicting eye fixations[C]. Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 23-28.

猜你喜欢
分块一致性显著性
关注减污降碳协同的一致性和整体性
钢结构工程分块滑移安装施工方法探讨
注重教、学、评一致性 提高一轮复习效率
IOl-master 700和Pentacam测量Kappa角一致性分析
本刊对论文中有关统计学表达的要求
分块矩阵在线性代数中的应用
基于显著性权重融合的图像拼接算法
基于视觉显著性的视频差错掩盖算法
论商标固有显著性的认定
反三角分块矩阵Drazin逆新的表示