基于Object Proposals并集的显著性检测模型

2018-11-05 09:12赵闰霞蹇木伟齐强王静王瑞红董军宇

智能系统学报 2018年6期

赵闰霞，蹇木伟,2，齐强，王静，王瑞红，董军宇

近年来，显著性检测在图像处理和计算机视觉领域中愈发重要，并且得到了广泛研究和应用。显著性检测的本质是模拟人类的视觉注意机制提取图像中最引人注意的区域，目前已被广泛应用于图像分割[1]、目标识别[2]、像压缩[3]以及图像检索[4]等领域。

显著性检测方法通常可分为两种模型：自底向上 (bottom-up)[5−10]和自顶向下 (top-down)[11−12]。自底向上一般是快速的、数据驱动的显著性提取模型。Cheng等[5]提出了基于区域对比度的显著性检测算法，用于测量全局对比度差异；Harel等[6]提出了一种基于图形的显著性模型检测图像中的显著物体；Erdem[7]使用从局部图像块提取的图像特征的协方差矩阵来计算最终的显著性图；Murray等[8]设计了一种特殊的颜色外观显著性检测模型；Shi[9]通过图形模型提出了一种分层图像显著性目标检测方法，以产生最终显著性等级；Yang等[10]通过基于图形的流形排序实现图像元素(像素或区域)与前景或背景线索的相似性的排序。

与自底向上相反，自顶向下通常是慢速的、任务依赖的、目标驱动的显著性提取。自顶向下的方法通常依赖于学习框架，采用高层线索和先验知识进行显著性检测。文献[11]中提出了通过学习条件随机场进行特征组合，并引入动态显著特征以实现显著目标的检测。最近，文献[12]提出了一种结合字典学习和条件随机场的自上而下的视觉显著性模型。

一般情况下，使用基于学习框架的显著性检测模型的检测效果会比较好，但是其检测效果会很大程度上依赖于模型的训练样本，训练的过程也会使计算复杂度增加。非学习类的显著性检测模型通常是以底层特征为线索进行显著性检测，如对比度先验、中心先验、背景先验等。这些方法一般只对简单的场景有效，当背景与检测对象相似时，这类方法将无法准确地检测出目标物体。

本文提出基于Object Proposals并集的显著性检测模型。首先我们利用Object Proposals的有效信息预测背景区域的位置并得到背景图，然后基于纹理特征以及全局对比度进行显著性检测，最后将三者进行融合得到最终的显著图。

1 Object Proposals

Object Proposals是一系列包含目标对象的候选区域，它通常以预处理的形式广泛应用于各种视觉任务。Alexe等[13]提出了对象度量(objectness measure)的概念，量化一个图像窗口覆盖对象的可能性；Cheng等[14]提出二值化规范梯度(BING)特征，有助于用对象评分(objectness score)搜索对象。本文使用Edge Boxes[15]算法生成Proposals，得到的Proposals会包含丰富的对象级特征，我们利用这些特征判断显著目标的位置并预测背景区域。

对于图{像I，首先使}用SLIC算法[16]得到超像素图，。然后使用Edge Boxes[15]算法生成图像I的Proposals，这里面部分候选框能准确地标注到目标对象，但也存在大量的候选框包含太多的背景区域或者不包含目标对象。以图1为例，(a)中的3个候选框都标注到了目标对象，且包含的背景区域比较少；(b)中的候选框则没有包含目标对象；(c)中的候选框虽然包含了目标对象，但也包含了很多的背景区域。为了得到更准确的背景区域，根据目标分数对得到的候选框进行选择。一般分数靠前的候选框能够更准确地包含到目标物体，所以选择前N个候选框作为目标集合A，在实验中，N的取值为100。

图1 目标候选框Fig. 1 Object Proposals

在目标集合A中，针对图1(b)、(c)的现象，对包含大量背景区域的候选框进行删除。受文献[17-19]的启发，本文中使用基于超像素的边界连通性对候选框进行筛选。用BndCon(·)表示边界连通性，其本质是描述一个区域与图像边界的连通程度[20]。BndCon(·)的定义为

式中：Area(spi)的含义是区域中存在的超像素数目，而Lenbnd(spi)则是与边界相邻的超像素的数目。BndCon(spi)的值越大，则表明边界上的超像素数目越多，也就是该区域是背景区域的可能性越大。若一个候选框计算得到的BndCon(spi)很大，我们则认为这个候选框包含了很多背景区域，并从A中将其删除。最终得到的目标集合能尽量去除背景区域的影响，更新后的目标集合记作 A–。

2 基于Object Proposals并集的显著性检测

2.1 构建基于OP并集的背景图

o(bj)表示候选框bj的目标分数，若超像素spi属于候选框 bj，δ(·)则取值为 1，否则为 0。

通过计算A–中所有超像素的(pi)值，可以得到最终的OP并集，然后用φ划分目标对象和背景区域，如下：

第一个“用典”，即“清明时节雨纷纷”典故，其作用为渲染烦闷忧伤情绪，为全文定下悲清悄怆基调。后两个用典让听众脑中泛起清明雨下人愁苦的涟漪，勾画出孤独悲愁者的普遍形象。可以说典故的魅力一下子显现出来。

图2 本文的显著性检测模型Fig. 2 Our proposed saliency model

2.2 纹理显著性

纹理[21-22]通常反应的是图像的某种局部化性质，一般表现为图像像素点某邻域内灰度级或者颜色的变化。在图像中彩色像素并不是一个随机的组合，而是有一定含义的排列，不同排列会形成不同的纹理，这些纹理特征则可用于对图像中的空间信息进行一定程度的定量描述。

在本文中，使用选择性纹理[23]获得纹理显著性。首先，将纹理表达式通过k-means[24]算法进行聚类，并将聚类中心作为代表纹理[23]，最后每个纹理特征都可以用其最近的代表纹理进行表示。使用的滤波器组是高斯导数以及其希尔伯特变换沿着y轴旋转得到的，具体为

式中：μ是标准化常数，σ和l分别是尺度参数和方向参数。对于图像I的第i个像素Ii的纹理显著性定义如下：

式中ti和tj分别是像素Ii和Ij的纹理特征。图2中的第3列是选择性纹理检测[23]的结果，可以看出纹理显著性检测能够区分出不同纹理的对象，但结果依然会包含背景中的部分纹理内容，比如第3行的纹理检测结果。

2.3 全局对比度显著性

空间加权对比度在文献[5，18]中已被证明是有效的显著性检测方法。在文献[5]中是将图片分割成若干区域，计算区域及颜色对比度，再用每个区域与其他区域对比度加权和定义此区域的显著性。本文中直接在第1节中获得的超像素基础上进行计算。对于任意超像素spi，在CIE LAB色彩空间中计算超像素spi的颜色平均值ci以及平均像素坐标 di，并将 di归一化到[0，1]。对于超像素spi，其空间加权区域对比度为

式中：σp为空间加权参数，σp越小，空间权值的影响就会越大，这样就可以使较近的区域对当前区域的显著性值产生较大的影响。本文中，σp2取值0.2。图2中的第2列是全局对比度的检测结果，全局对比度图能进一步凸显前景区域，加深纹理检测图中的显著目标的显著程度。

2.4 显著性融合

将得到的背景图(2.1节)、纹理显著图(2.2节)以及全局对比显著图(2.3节)进行融合。首先将纹理显著图和全局对比度显著图进行融合，旨在结合二者的优势，相互补充，优化显著图。

式中norm(·)是对得到的显著图进行归一化。在这里选择“+”是因为纹理检测和全局对比度检测可以相互补充，此外，通过加运算可以使前景区域分布更均匀[19]。

在得到融合显著图Sal后，使用2.1节中得到的背景图对显著图Sal的背景区域进行抑制，从而提高显著图的准确率。

3 实验与比较

本文在MSRA1000公开数据集对本文的显著性模型进行了测试，并与一些经典的算法进行比较：SR[25]、HC[5]、FT[26]、LC[27]、GS[28]。实验过程中，使用的代码均采用作者公开的代码。

图3是将本文的显著性检测模型与其他5种算法进行比较的效果图。从图中可以看出在MSRA1000数据集上本文提出的显著性检测模型比SR、HC、FT、LC相比效果有很大提升；与GS相比，本文的显著性检测图前景分布更均匀，且背景区域得到了明显抑制。

图3 显著图的视觉效果对比图Fig. 3 Visual comparison of saliency maps

为了更全面地测试方法的性能，使用PR曲线、F-measure进一步与其他方法进行比较。

对于得到的显著图，设定阈值Tf∈[0，255]来得到二值分割图，并与ground truth进行比较得到准确率和召回率。除此之外，我们还记算了F-measure衡量总体的检测效果，

β2取值为0.3。由图4～5可知，本文方法与SR、HC、FT、LC相比，准确率和召回率、F-measure都有很大提升。与GS相比，由图5可以看出，在召回率相同时，大部分情况下我们的方法准确率更高，也存在小部分结果其准确率微低于GS，但从图4也能够看出在平均情况下，无论是准确度、召回率还是F-measure，本文方法均略高于GS。

图5 正确率–召回率曲线Fig. 5 Precision-recall curves

4 结束语

图4 统计指标的对比结果Fig. 4 Quantitative comparison results

本文提出的基于Object Proposals并集的显著性检测模型，首先利用Object Proposals计算背景图，然后将纹理和全局对比度结合进行显著性检测，最后利用背景图抑制背景区域得到最终显著图。实验结果表明，本文提出的显著性检测模型取得了较好的效果。