基于RCF的精细边缘检测模型

2019-10-31 09:21景年昭杨维

计算机应用 2019年9期

景年昭杨维

摘要：针对目前基于深度学习的边缘检测技术生成的边缘粗糙及模糊等问题，提出一种基于更丰富特征的边缘检测（RCF）模型（Richer Convolutional Features for Edge Detection）的端到端的精细边缘检测模型。该模型以RCF模型为基础，在主干网络中引入“注意力”机制，采用SE（Squeeze-and-Excitation）模块提取图像边缘特征，并且去掉主干网络部分下采样，避免细节信息过度丢失，使用扩张卷积技术增大模型感受野，并利用残差结构将不同尺度的边缘图进行融合。对伯克利分割数据集（BSDS500）进行增强，使用一种多步骤的训练方式在BSDS500和PASCAL VOC Context数据集上进行训练，并用BSDS500进行测试实验。实验结果表明，该模型将全局最佳（ODS）和单图最佳（OIS）指标分别提高到了0.817和0.838，在不影响实时性的前提下可以输出更精细的边缘，同时还具有较好的鲁棒性。

关键词：边缘检测;更丰富的卷积特征检测;深度学习;扩张卷积;注意力机制

中图分类号：TP391.41

文献标志码：A

Fine edge detection model based on RCF

JING Nianzhao*， YANG Wei

School of Electronic and Information Engineering， Beijing Jiaotong University， Beijing 100044， China

Abstract：

Aiming at the roughness and blur of edges generated by edge detection technology based on deep learning， an end-to-end fine edge detection model based on RCF （Richer Convolutional Features for edge detection） was proposed. In this model based on RCF model， attention mechanism was introduced in the backbone network， Squeeze-and-Excitation （SE） module was used to extract image edge features. In order to avoid excessive loss of detail information， two subsampling in the backbone network were removed. In order to increase the receptive field of the model， dilation convolution was used in the backbone. A residual module was used to fuse the edge images in different scales. The model was trained on the Berkeley Segmentation Data Set （BSDS500）and PASCAL VOC Context dataset by a multi-step training approach and was tested on the BSDS500. The experimental results show that the model improves the ODS （Optimal Dataset Scale） and OIS （Optimal Image Scale） to 0.817 and 0.838 respectively， and it not only generates finer edges without affecting real-time performance but also has better robustness.

Key words：

edge detection; Richer Convolutional Features for edge detection （RCF）; deep learning; dilation convolution; attention mechanism

0 引言

图像的边缘是图像的重要特征之一，准确的边缘检测是图像分割、目标区域识别、区域形状提取等图像分析工作的基础[1-2]，是机器视觉系统中必不可少的重要环节[3-5]。

早期的边缘检测算法建立在图像梯度运算的基础上，利用图像的一阶或二阶梯度信息提取图像的边缘，代表方法有Sobel算子[6]、Canny算子[7]等。这一类基于梯度的方法实时性好，但鲁棒性不强，容易受噪声、光照等因素的影响。随着统计学和信息理论的引入以及机器学习领域的发展，许多基于手工特征的方法被提出。Konishi等[8]基于数据驱动技术，将边缘检测表述为统计推断，利用图像特征的联合概率分布实现边缘的提取;Martin等[9]把图像的亮度、光照、纹理等局部特征输入到逻辑回归分类器中进行边缘的判定。这一类方法基于手工提取的图像特征，利用滤波器技术或分类器技术进行边缘的检测，性能比传统方法有了很大的提升，但是其成本高，步骤繁琐，实时性不好。后来，随着神经网络的复兴以及计算机算力的提升，基于深度学习的算法成为了该领域的主流方法。Ganin等[10]提出将卷积神经网络与最近邻算法结合起来进行边缘检测，该方法先利用卷积神经网络（Convolutional Neural Network， CNN）自动提取图像特征，然后再利用最近邻算法实现边缘的聚类;Shen等[11]将边缘检测看作一个多分类问题，根据边缘的不同形态将边缘分成多个子类，利用CNN进行边缘子类的检测，之后再利用随机森林技术将子类聚合形成最終轮廓图;Bertasius等[12]提出使用更多的高级特征可以提升模型的性能，将参与分类任务的预训练模型迁移到边缘检测模型中，并将网络分为两个支路，利用多尺度技术分别进行边缘的分类学习和回归学习，使模型的鲁棒性得到很大提升;Xie等[13]提出了第一个端到端的边缘检测模型HED（Holistically-nested Edge Detection），该模型基于全卷积神经网络[14]框架并尝试利用深监督技术[15]和多尺度学习技术解决边缘的模糊问题;Liu等[16]在HED模型的基础上提出基于更丰富特征的边缘检测（Richer Convolutional Features for edge detection， RCF）模型，通过融合更丰富的特征使输出的边缘更精细。

由于其强大的特征自动提取能力，基于深度学习的边缘检测技术比之前的算法在性能上有很大提升，对光照、阴影等影响因素的鲁棒性也随之增强。但是，像RCF或HED这类端到端的边缘检测模型以VGG16（Visual Geometry Group）[17]等传统分类网络为基础，不能提取图片的全局特征，因此表达能力受到一定的影响。另外，这一类模型采用过多的下采样并且没有充分融合多尺度特征，导致图像中的许多细节信息丢失，使输出的边缘线条粗糙且模糊。针对这些问题，本文提出一種基于RCF的精细边缘检测模型。该模型在RCF的基础上，引入SE（Squeeze-and-Excitation）结构[18]，提取全局特征，去掉主干网络的后两个下采样，避免细节信息多度丢失，并使用扩张卷积技术[19]增加主干网络的感受野，提高主干网络的表达能力，然后使用一个残差结构[20]充分融合深监督模块输出的多尺度特征，生成最终的边缘图。此外，该模型使用一种多阶段的训练方式在增强的伯克利分割数据集（Berkeley Segmentation Data Set， BSDS500）[21]和PASCAL VOC Context数据集[22]上进行训练，并在测试时使用图像金字塔技术，使模型性能进一步提升。

1 细边缘检测模型

1.1 RCF网络

RCF[16]以HED[13]为基础，实现了端到端边缘检测，是目前性能最好的边缘检测算法之一。如图1所示，RCF的结构分为三大部分：主干网络、深监督模块（Deeply-Supervised nets， DS）和特征融合模块（fuse）。RCF使用VGG16[17]的全部卷积层作为自己的主干网络，分为5个stage。通过这种全卷积结构[14]，主干网络实现了边缘特征的自动提取。RCF的深监督模块对每一个stage进行监督学习，并使每个stage输出一张边缘图，使该模型可以更好更快地收敛。RCF的融合模块则利用一个1×1的卷积层将深监督模块输出的5张边缘图融合并输出最终的边缘图。RCF输出的边缘图融合了主干网络每一层的特征，其效果要好于只使用部分特征的HED网络。

1.2 本模型

本模型的设计思想来源于RCF网络，并对RCF各个模块进行了针对性的改进。如图2所示，本模型可大致分为主干网络、深监督模块、特征融合模块三部分。

1.2.1 基于SE结构的主干网络

如图2中的虚线左边部分所示，本模型的主干网络以RCF的主干网络为基础，也分为5个stage，负责边缘特征的自动提取。然而RCF的主干网络采用的是VGG16的传统卷积结构（convolution， conv），由多个卷积层简单的堆叠而成。这种传统的卷积结构只能对局部感受野中的空间维度和特征维度的信息进行处理，不能提取图片的全局特征，表达能力会受到限制。因此，本模型引入可提取全局特征的SE结构并将主干网络分为前后两部分：前一部分（前两个stage）与RCF一样，采用传统的卷积和下采样组合的结构，充分提取边缘的低级特征;后一部分（后面三个stage）则采用类似“注意力机制”的SE（Squeeze-and-Excitation）结构[18]，提取更多的语义特征和全局特征。如图3所示，每个SE结构先通过全局平均池化操作Fsq把卷积层IN的每个二维的feature map压缩成一个实数ai，这个实数ai具有全局感受野，然后利用可学习的参数W为每一个实数ai生成权重，通过可学习的方式显式地建模feature map间的相关性，最后用学习后的全局特征B与原始feature map进行元素相乘，使OUT中每一个feature map的特征包含全局的信息 [18]。使用这种SE结构后，本模型可以提取全局特征来衡量feature map的重要程度，通过学习的方式提升有用的特征并抑制对当前任务用处不大的特征，从而提升主干网络的表达能力。另外，RCF主干网络有4次下采样，模型输出的图片精度只有原始图片的1/16，导致图片的许多细节信息丢失，使输出的边缘模糊不清。因此，本模型去掉主干网络后2个下采样，使用3×3的池化（pool）并将步长设为1。这样，本模型只有2次下采样，输出图片的精度是原始图片的1/4，保留了更多的细节信息，使输出的边缘更精细。与此同时，为了解决去掉下采样后感受野变小的问题，本模型在后两个stage中使用扩张卷积技术（dilation， dil）[19]，将扩张参数分别设为2和4，在不增加参数的情况下增大模型的感受野。

1.2.2 深监督模块

图2中的主干网络在提取特征的过程中，由于自身参数过多，训练时网络收敛速度慢，收敛效果也不太理想。因此，为了使主干网络能够更高效地提取特征，改善模型训练效果，本模型使用与RCF相同的深监督技术。如图2中的虚线右侧部分所示，将主干网络中的每一层特征通过1×1的卷积层进行特征压缩，并以stage为单位相加，然后再使用1×1的卷积进一步压缩特征，最后通过利用双线性插值技术初始化的反卷积（deconvolution， deconv）实现上采样，使每一个stage都输出一张边缘图;并且本模型对每一个stage输出的边缘图都进行监督学习，实现深监督学习。

1.2.3 基于残差结构的特征融合

图2中的特征融合模块负责对深监督模块输出的5个边缘图进行融合处理。每个stage生成的边缘图都使用了不同层次的特征，第1个stage生成的边缘图使用了大量的低级特征和很少的语义特征，而第5个stage生成的边缘图则使用了大量的语义特征和很少的细节特征。因此将每个stage输出的边缘图融合起来，可以更充分地使用模型特征，使输出的边缘更精确。然而RCF只采用一层1×1的卷积简单地按比例融合，对多尺度的信息处理得不充分，输出的边缘比较粗。另外，通过实验发现后两个stage输出的边缘图与标签图（ground truth）已经很相近，这就意味着后两个stage输出的边缘图与标签图之间的残差已经很小，因此，本模型的融合模块使用一种残差结构[20]，通过对每个stage输出的边缘图与标签图之间的残差进行处理，使多尺度特征更高效地融合。如图4所示，融合模块的输入是深监督模块输出的5张边缘图，将输入分成两个分支，其中一个分支通过3个卷积层对残差进行充分处理，然后与输入相加，实现多尺度信息的融合，再经过一个1×1的卷积进行特征压缩后便输出最终的边缘图。融合后的边缘图既保留大量的细节信息，在语义上也是完整的。此外，通过实验发现，在特征融合模块中使用非线性结构，比如ReLU（Rectified Linear Units）[21]等，会损失一些细节信息，导致输出的边缘图包含噪声，因此，该模块没有添加任何非线性结构。

1.3 精细边缘检测模型训练

1.3.1 数据集增强

本模型使用增强版的BSDS500[22]数据集和PASCAL VOC Context[23]数据集进行训练。传统的边缘检测数据集BSDS500由训练集、验证集和测试集三部分组成。其中，训练集包含200张图片，验证集包含100张图片，测试集包含200张图片。为了防止模型出现过拟合现象，对BSDS500数据集进行了增强处理。通过使用OpenCV工具包，对训练集和验证集的300张图片进行旋转、扩大、剪裁等操作，将数据集增强到28800张。另外，由于本模型对输入图片的大小信息不敏感，为了减少模型训练时的内存消耗，并实现批量训练，将所有的训练图片剪裁为209×273的统一大小。

1.3.2 像素级分类的损失函数

针对边缘检测这种像素级的分类问题，通常将图片的每个像素点的分类看作是一个二分类问题（边缘点与非边缘点），因此，本模型使用交叉熵作为每个像素点分类的代价函数。另外， BSDS500数据集中的每一个标签图（ground truth）都是由多个标记者标注而成，由于每个标记者对于边缘的认知不统一，因此该数据集中的边缘含有一些噪声。为了提高模型鲁棒性，本模型使用文献[16]中阈值法，即对标签图中的像素值进行归一化处理，将标签图变为边缘的概率图，并将概率值大于阈值η的像素点作为边缘点，将概率值为0的像素点作为非边缘点，而其他像素点作为有争议点，排除在外。与文献[16]相同，本模型每个像素点的损失函数表示为：

l（Xi ;W）= α·lb（1-P（Xi;W））; yi =0

0， 0 < yi≤η

β·lb（P（Xi;W），yi>η（1）

α=λ·Y+Y++Y-

β=Y-Y++Y-（2）

其中：|Y+|和|Y-|分别代表正负样本的数量，α、 β和超参数λ用来平衡正负样本数量差，Xi代表神经网络的激活值，yi代表標签图中像素点i是边缘点的概率值，W代表神经网络中可学习的参数。这种损失函数可以促使模型作出最有把握的判断，将有争议的像素点排除在外，提高模型的鲁棒性。另外，通过实验发现：如果将超参数η设为0.5或更大的值，有些标签图出现边缘不连续的现象;而将超参数η减小时，有些标签图的边缘开始受到噪声的影响。因此，超参数η大小的设定要根据该模型具体的使用场景而定。

1.3.3 多阶段训练方式

RCF使用单阶段的训练方式，将深监督模块每个stage的损失与融合模块的损失之和作为整个模型的损失函数。然而，这两部分损失的重要程度是不一样的，深监督模块输出边缘图并计算损失只是为了辅助主干网络更好地优化，起辅助作用;而融合模块输出的边缘图为模型最终的输出，这部分损失起决

定作用。RCF的这种简单相加的损失函数并没有体现出融合模块损失的重要性，因此，本模型使用一种多阶段的训练方式，先使用RCF的训练方式使网络达到一个较优的状态，然后去掉深监督模块的损失，只使用融合模块的损失继续进行训练，使模型达到最优的状态。通过这种多阶段训练方式，显式地提升融合模块输出的边缘图的重要性。具体过程如下：

1）先采用RCF的训练方式，损失函数为：

L（W）=∑Ii=1（∑Kk=1l（X（k）i;W）+l（Xfusei;W））（3）

其中：X（k）i代表第k个stage输出图片中的第i个像素点的激励值，而Xfusei代表融合模块输出的图片中的第i个像素点的激励值，|I|代表每张图片像素点的总数，K代表主干网络stage的数量，在这里K =5。利用该损失函数通过随机梯度下降算法训练本模型10个epoch，batch size设为16，基准学习率设为1E-6，每一层的学习率略有差异，momentum设为0.9，weight decay设为0.0002。另外，与HED和RCF网络不同，本模型在训练过程中没有使用任何预训练模型，只对参数进行Gaussian分布的初始化。

2）在第一步的基础上，只使用融合模块的损失继续对模型进行优化，此时本模型的损失函数为：

L（W）=∑Ii=1l（Xfusei;W）（4）

其中：l（Xfusei;W）代表融合模块输出的图片中的第i个像素点的损失函数，|I|代表每张图片像素点的总数。用该损失函数继续训练模型直至收敛，显式地提升融合模块输出的边缘图的重要性，基准学习率设为1E-7，其他的参数设置与第1）步相同。

1.4 与RCF比较

本模型与RCF的区别主要体现在3个方面：首先，RCF的主干网络采用传统的VGG16的全部卷积层，而本模型将主干网络分为两部分：前半部分采用下采样结构充分提取边缘特征;后半部分考虑到图片的精度问题不进行下采样，采用空洞卷积技术增大感受野并且采用SE结构提取图片全局特征。然后，在特征融合部分，RCF只使用一层1×1卷积进行特征融合，而本模型使用一种多层的残差结构，实现多尺度特征的充分融合。最后，RCF使用的是单阶段的训练方式，而本模型使用了一种多阶段的训练方式。通过上述几点的改进，本模型性能比RCF网络有了一定程度的提升。

2 实验

本文中的实验以Pytorch 0.4.0作为开发框架，系统为Linux，硬件设备包括一块NVIDIA TITAN Xp GPU，显卡内存为12GB和一块Intel i7-6800k CPU，内存为64GB。

2.1 图像金字塔技术

图像金字塔技术是计算机视觉领域中的一种重要技术，文献[16]和[24]均使用该技术并取得了很好的效果。在测试阶段，本模型也使用图像金字塔技术，将测试集图片分别剪裁为0.8×、1.0×、1.2×三种规模，分别输入到模型，然后将同一图片三种不同规模的结果加权求平均，得出最终的边缘图，增强模型的鲁棒性。

2.2 实验分析

边缘检测模型的检测指标主要包括：全局最佳（Optimal

Dataset Scale， ODS）和单图最佳（Optimal Image Scale， OIS）等。其中：ODS指测试集中所有图片使用固定同一阈值时的检测结果;OIS指对每一幅图像使用针对当前图片最佳阈值时的检测结果[25]。本文模型输出的边缘图通过非最大抑制[26]处理后，用Edge Box[27]工具包进行指标测量，各项指标与其他相关算法的对比如表1所示。

通过对比可以看出，本文模型通过对RCF和HED的改进，性能比RCF和HED有了一定的提高。本文模型的ODS分别比RCF和HED提高0.6%和2.9%，而OIS分别比RCF和HED提高0.8%和3.4%。另外，本文模型输出的边缘图与原始图片的对比如图5所示。

通过对比可知，本文模型可以精确地将图片中物体的边缘提取出来，并且在未使用图像金字塔技术和未进行非最大抑制处理的情况下，本文模型生成的边缘线条也非常清晰，达到了目前靠前的水平。

为了进一步查看本文模型各模块的改进效果，进行了相关实验，实验结果如表2所示。针对主干网络，将使用SE结构和空洞卷积的模型与RCF进行对比实验，实验结果表明使用SE结构和空洞卷积的模型分别使ODS和OIS指标提升了0.33%和0.42%，这也证明了本模型的主干网络能够提取更多的全局信息并且会保留更多的边缘细节信息。另外，本模型主干网络每个stage输出的边缘图与HED和RCF的对比如图6所示。从左到右，前两列为HED与本模型各个stage输出边缘图的对比，后两列为RCF与本模型各个stage输出边缘图的对比。从上到下，每一列的5张图分别为主干网络1～5 stage输出的边缘图。通过对比可以看出，HED和RCF各个stage输出的边缘图线条粗糙且模糊，对细节的处理欠佳;而本文模型生成的边缘图保留了更多细节信息，线条更清晰。

针对融合模块，在使用残差结构后，模型的ODS和OIS指标分别提升了0.21%和0.28%，这说明该融合模块可以更充分地融合多尺度的特征。另外，当去掉残差结构中的shortcut支路而只保留层叠结构时，发现模型收敛情况变差，边缘图出现很多噪声并且变得不清晰。这也证明了残差结构可以使网络参数更好地优化，避免梯度消失和梯度爆炸等问题。此外，当对融合模块增添ReLU等非线性元素时，边缘图会变得模糊，这说明该模块的非线性结构会损坏很多有用的边缘信息，造成网络性能下降。

最后，对本模型的多阶段训练方式进行实验，发现使用多阶段的训练方式后，深监督模块每个stage输出的边缘图会受到一定的影响，变得不清晰，但融合模块输出的边缘图却更精确，ODS和OIS分别提升了0.09%和0.12%，这也符合预期。

3 结语

本文提出了一个新的边缘检测模型。该模型基于RCF和HED的思想，在主干网络上加入SE模块，提升主干网络的表达能力，舍弃部分下采样，避免图片精度过度降低;采用空洞卷积技术提升网络的感受野，采用一种残差结构使多尺度特征充分融合;最后采用多阶段训练的方式使模型性能进一步提升。实验表明，本模型可以生成高质量的边缘图。

参考文献

[1]REN X F， BO L F. Discriminatively trained sparse code gradients for contour detection[C]// NIPS 2012： Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach， FL， USA： Curran Associates， 2012， 1： 584-592.

[2]張广燕，王俊平，邢润森，等.PSLIP新模型及在边缘检测和图像增强中的应用[J].电子学报，2015，43（2）：377-382.（ZHANG G Y， WANG J P， XING R S， et al. A new PSLIP model and its application in edge detection and image enhancement[J]. Acta Electronica Sinica， 2015， 43（2）： 377-382.）

[3]KOHLI P， LADICKY L， TORR P H S. Robust higher order potentials for enforcing label consistency [J]. International Journal of Computer Vision， 2009， 82（3）： 302-324.

[4]石美红，李青，赵雪青，等.一种基于保角相位的图像边缘检测新方法[J].电子与信息学报，2015，37（11）：2594-2600.（SHI M H， LI Q， ZHAO X Q， et al. A new approach for image edge detection based on conformal phase [J]. Journal of Electronics and Information Technology， 2015， 37（11）： 2594-2600.）

[5]PANTOFARU C， SCHMID C， HERBERT M. Object recognition by integrating multiple image segmentations [C]//ECCV 2008： Proceedings of the 10th European Conference on Computer Vision， LNCS 5304. Berlin： Springer， 2008： 481-494.

[6]FELDMAN J A， FELDMAN G M， FALK G， et al. The Stanford hand-eye project [C]// IJCAI ‘69： Proceedings of the 1st International Joint Conference on Artificial Intelligence. San Francisco， CA： Morgan Kaufmann， 1969： 521-526.

[7]CANNY J. A computational approach to edge detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 1986， 8（6）： 679-698.

[8]KONISHI S， YUILLE A L， COUGHLAN J M， et al. Statistical edge detection： learning and evaluating edge cues [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2003， 25（1）： 57-74.

[9]MARTIN D R， FOWLKES C C， MALIK J. Learning to detect natural image boundaries using local brightness， color， and texture cues[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2004， 26（5）： 530-549.

[10]GANIN Y， LEMPITSKY V. N4-Fields： neural network nearest neighbor fields for image transforms [C]// Proceedings of the 2014 Asian Conference on Computer Vision， LNCS 9004. Berlin： Springer， 2014： 536-551.

[11]SHEN W， WANG X G， WANG Y， et al. DeepContour： a deep convolutional feature learned by positive-sharing loss for contour detection[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2015： 3982-3991.

[12]BERTASIUS G， SHI J， TORRESANI L. DeepEdge： a multi-scale bifurcated deep network for top-down contour detection [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2015： 4380-4389.

[13]XIE S， TU Z. Holistically-nested edge detection [J]. International Journal of Computer Vision， 2017， 125（1/2/3）： 3-18.

[14]SHELHAMER E， LONG J， DARRELL T. Fully convolutional networks for semantic segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（4）： 640-651.

[15]LEE C-Y， XIE S， GALLAGHER P， et al. Deeply-supervised nets [EB/OL]. [2019-01-02]. https：//arxiv.org/pdf/1409.5185.pdf.

[16]LIU Y， CHENG M， HU X， et al. Richer convolutional features for edge detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2017： 5872-5881.

[17]SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2018-08-12]. https：//arxiv.org/pdf/1409.1556.pdf.

[18]HU J， SHEN L， ALBANIE S， et al. Squeeze-and-excitation networks [EB/OL]. [2018-08-12]. https：//arxiv.org/pdf/1709.01507.pdf.

[19]YU F， KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. [2018-08-12]. https：//arxiv.org/pdf/1511.07122.pdf.

[20]HE K M， ZHANG X Y， REN S Q， et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ：IEEE， 2016： 770-778.

[21]NAIR V， HINTON G E. Rectified linear units improve restricted Boltzmann machines [C]// ICML ‘10： Proceedings of the 27th International Conference on Machine Learning. Madison， WI： Omnipress， 2010： 807-814.

[22]MARTIN D R， FOWLKES C C， TAL D， et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics [C]// ICCV 2001： Proceedings of the 8th IEEE International Conference on Computer Vision. Washington DC： IEEE Computer Society， 2001， 2： 416-423.

[23]MOTTAGHI R， CHEN X， LIU X， et al. The role of context for object detection and semantic segmentation in the wild [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington DC： IEEE Computer Society， 2014： 891-898.

[24]FARABET C， COUPRIE C， NAJMAN L， et al. Learning hierarchical features for scene labeling [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2013， 35（8）： 1915-1929.

[25]劉胜男，宁纪锋. 基于超像素的点互信息边界检测算法[J]. 计算机应用， 2016， 36（8）： 2296-2300. （LIU S N， NING J F. Super-pixel based pointwise mutual information boundary detection algorithm[J]. Journal of Computer Applications， 2016， 36（8）： 2296-2300.）

[26]DOLLR P， ZITNICK C L. Fast edge detection using structured forests [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2015， 37（8）： 1558-1570.

[27]ZITNICK C L， DOLLR P. Edge boxes： locating object proposals from edges [C]// Proceedings of the 2014 European Conference on Computer Vision， LNCS 8693. Berlin：Springer， 2014：391-405.

This work is partially supported by the National Key Research and Development Program of China （2016YFC0801800）.

JING Nianzhao， born in 1994， M.S. candidate. His research interests include computer vision， information processing.

YANG Wei， born in 1964， Ph.D.， professor. His research interests include wireless communication， information processing.