基于深度学习的图像边缘检测算法综述

2020-11-30 05:48李翠锦

计算机应用 2020年11期

李翠锦，瞿中

（1.重庆工程学院电子信息学院，重庆 400060；2.重庆邮电大学计算机科学与技术学院，重庆 400065）

（∗通信作者电子邮箱190424278@qq.com）

0 引言

图像边缘检测是图像处理和计算机视觉领域中最关键的技术问题之一。已有的许多研究工作表明，边缘检测在图像高阶特征提取、特征描述、目标识别和图像分割等诸多领域都具有重要意义。如何快速准确地定位和提取图像边缘特征信息成为研究热点之一。针对这两个问题，研究者进行了大量的研究，提出了各种边缘检测方法，这些方法大致可以分为两类：传统方法和基于深度学习的方法，图1 列出了图像边缘检测研究的经典传统方法（时间轴上方）和基于深度学习的方法（时间轴下方）。

由于图像边缘包含大量的背景信息和重要的结构信息，传统的边缘检测方法往往将手工制作的底层特征（如颜色、亮度、纹理、梯度）作为边缘检测的优先级，比如：1）早期开拓性的方法，如Sobel算子［1］、Prewitt算子［2］，以及广泛采用的Canny算子［3］；2）基于信息理论人工设计得出特征的方法，如gPbowl-ucm 算法［4］、SCG（Sparse Code Gradients）算法［5］；3）结构化边缘检测算法：如SE（Structured forests Edge detection）算法［6］。虽然利用低层次特征的边缘检测方法已经取得了很大的进步，但其局限性也是显而易见的。随着深度学习技术［7］的发展，尤其是卷积神经网络（Convolutional Neural Network，CNN）的出现，CNN 具有在自动学习自然图像的高级表示方面具有强大的能力等优势，利用CNN 进行边缘检测已成为一种新的趋势。2015 年，Xie 等［8］提出了整体嵌套边缘检测（Holistically-nested Edge Detection，HED），用于以嵌套方式检测和提取自然图像的边缘；2015 年，Bertasius 等［9］将全卷积应用在语义分割，从而为全卷积在轮廓检测中奠定了基础；2015年，Bertasius 等［10］提出了一个端到端的卷积架构DeepEdge；2016年，Wang等［11］提出了基于卷积神经网络的深度条件随机域立体匹配方法；2017 年，Yu 等［12］提出了多尺度运动目标的边缘检测技术；2017 年，Chadha 等［13］提出了使用VLAD（Vector of Locally Aggregated Descriptor）和基于深度学习的描述符进行高效兴趣区域检索的方法；2018 年，Liu 等［14］提出了基于五层特征多样性的更丰富的卷积特征图像边缘检测提取算法；2018 年，Wang 等［15］提出了一种基于快速R-CNN（Region-CNN）框架的端到端边缘保留神经网络（称为区域网），用于突出的目标检测；2019 年，Fu 等［16］提出了一种用于显著目标检测的细分网络。

上述算法需要相当多的专业知识、精细的处理算法和网络架构设计，才能把原始图像数据转换成合适的特征向量，以此来构造边缘检测模型和分类器。近几年，利用深度学习技术［7］边缘检测任务有显著的性能提升。例如，在伯克利大学提出的数据集（Berkeley Segmentation Data Set and benchmark 500，BSDS500）［17］中，F-measure 最优数据集规模（Optimal Dataset Scale，ODS）的检测性能从0.598［18］提高到0.828［19］。尽管如此，边缘检测依旧是一个很有挑战性的技术问题，原因在于：

1）弱监督和无监督边缘检测：基于深度学习的边缘检测器的训练通常依赖于大量注释良好的图像。注释过程是耗时、昂贵和低效的。在弱监督检测技术中，只使用图像级的标注或部分使用包围盒标注对检测器进行训练，对于降低劳动成本和提高检测灵活性具有重要意义。

2）小目标边缘检测：在大场景中检测小目标一直是一个挑战。这一研究方向的一些潜在应用包括利用遥感图像对野生动物种群进行统计，以及检测一些重要军事目标的状态。

3）动态视频边缘检测：高清视频中的实时目标/跟踪边缘检测对于视频监控和自动驾驶具有重要意义。一般的边缘检测通常是针对图像而设计的，而忽略了视频帧之间的相关性。利用时空相关性进行改进检测是一个重要的研究方向。

图1 传统方法（时间轴上方）和基于深度学习的方法（时间轴下方）研究历程Fig.1 Traditional methods（above the timeline）and deep learning-based methods（below the timeline）

1 传统边缘检测方法

1.1 基于梯度和Laplacian边缘检测

边缘检测的本质是对图像中发生突变的部分进行识别和定位，突变的部分表示图像的重要信息（灰度变化）。基于梯度和拉普拉斯的边缘检测采用了滤波对图像进行卷积计算，从而得出图像灰度变化情况，根据原理的不同，大致可分为两类：一阶边缘检测算子和二阶边缘检测算子。

表1列出了典型边缘检测算子及它们的优缺点。

1.2 基于人工特征提取的边缘检测

图像边缘检测算子虽然具有使用简单、效果良好的优点，但是这些算子都是通过将灰度图像与局部导数滤波器进行卷积来检测边缘，仅仅考虑了图像的梯度特性，忽视了图像纹理等变化，容易造成边缘模糊及噪声敏感等问题。通过对高阶统计量的显式定向分析来抑制以上问题，提出了基于人工特征提取的边缘检测算法，如多尺度特征检测算法［26］、结构化边缘检测算法［27］。

1.2.1 多尺度特征边缘检测算法

2011 年，Arbeláez 等［4］将多尺度局部亮度、颜色和纹理结合应用到谱聚类框架中。在图像的每个位置应用直方图来计算x2值，定义了一个表示像素之间相似度的关联矩阵。从这个矩阵中得到一个特征值和编码轮廓信息的固定特征向量。使用分类器将卡方值与特征向量重新组合，获得全局Pb边缘检测算法（gPb-owl-ucm）。实验结果表明，在数据集BSDS500上ODS值为0.71。

2012 年，Ren 等［5］提出了一种新的算法（SCG），该算法使用稀疏编码，特别使用正交匹配追踪算法［28］和K-means 字典训练方法［29］来学习patchs 表示，直接取代patchs 分类器［30］，借鉴Pb 的思想将像素上的稀疏编码在每个方向的多尺度半圆上汇集，然后用线性支持向量机（Support Vector Machine，SVM）分类，最后，对SVM 输出进行平滑处理，并对其进行非极大值抑制，以生成最终的轮廓。实验结果表明，在数据集BSDS500上ODS值为0.74。

1.2.2 结构化边缘检测算法

2015年，Dollár等［6］将边缘检测问题转化为给定输入图像块的局部分割掩码的预测问题，提出了一种结构化森林快速边缘检测方法（SE），学习决策树的新方法是使用结构化的标签来确定树中每个分支的分裂函数。结构标签被稳健地映射到一个离散空间，在这个空间上可以评估标准的信息增益度量。每个森林预测一个边缘像素标签patchs，这些标签聚集在整个图像上计算最终边缘映射，由于聚合的边缘映射可能是漫反射，使用了局部颜色和深度提示来锐化边缘映射。在BSDS500 和NYUD（New York University Datasets）V2 数据集［31］上展示了最新结果（ODS值为0.75、ODS值为0.69）。

2015 年，Hallman 等［32］采用非参数输出，将随机决策树的鲁棒机制应用在小图像块中，精确检测不同候选方向和位置的直线边界，提出了一种面向边缘森林的边界检测算法OEF（Oriented Edge Forests）。尽管该算法忽略了大量感兴趣信息，如弯曲的边缘和连接处，但对于大而平滑的小块物体图像效果很好。在BSDS500数据集上ODS值为0.76。

2016 年，Zhang 等［26］使用有限的训练数据获得具有竞争力的检测精度，提出了一种基于结构随机森林（Structured Random Forest，SRF）的半监督学习轮廓检测方法（SemiContour），该算法采用快速稀疏表示方式和紧凑低维子空间表示嵌入到结构随机森林中，从而实现半监督学习。实验结果表明，在BSDS500数据集上ODS值为0.73。

2 基于深度学习的边缘检测算法

传统边缘检测技术已经取得了很大的进步，但也存在很多局限性。深度学习与传统边缘检测方法的最大不同在于它所采用的特征是从大数据中自动学习得到，而非采用手工设计。深度模型具有强大的学习能力和高效的特征表达能力，更重要的优点是从像素级原始数据到抽象的语义概念逐层提取信息，这使得它在提取图像的全局特征和上下文信息方面具有突出的优势，为解决传统的计算机视觉问题（如图像识别和图像边缘检测）带来了新的思路。基于深度学习的边缘检测算法分类及典型算法如图2所示，下面将分别进行介绍。

2.1 全监督学习边缘检测算法

全监督学习是利用已知类别的样本（即有标记的样本labeled sample），调整分类器的参数，训练得到一个最优模型，使其达到所要求性能，再利用这个训练后的模型，将所有的输入映射为相应的输出，对输出进行简单的判断，从而实现边缘检测的目的。目前大部边缘检测算法都是基于全监督实现的，根据算法实现过程中采用的整体设计思想以及关键技术不同，本文将其划分为6 类：基于谱聚类边缘检测算法、多尺度融合边缘检测算法、跨层融合边缘检测算法、网络重构边缘检测算法、基于编解码边缘检测算法和亚像素卷积边缘检测算法。基于谱聚类的边缘检测和亚像素边缘检测等方法检测精度高，但抗噪声性能较差；基于神经网络和基编解码边缘检测等方法解决了抗噪声性能差的问题，但检测精度不够。表2 从算法优缺点、基础网络、关键技术和测试数据集这几个方面对6种方法进行了归纳总结，下面将详细介绍这6类方法。

2.1.1 基于谱聚类边缘检测算法

谱聚类算法是建立在谱图理论基础之上，并利用数据的相似矩阵的特征向量进行聚类的方法。与其他方法相比具有明显的优势：思想简单、易于实现、具有识别非高斯分布的能力、可用于边缘检测算法中。

2015 年，Shen 等［33］利用深卷积神经网络（Deep Convolutional Neural Network，DCNN）来学习轮廓检测的判别特征［48-50］，提出了DeepContour 边缘检测算法，该算法根据轮廓斑块的固有结构将其分割成紧凑的簇，通过这种聚类方式产生轮廓块的中层形状表示，形成的类由形状标签分配，再通过不同的模型参数拟合不同形状的轮廓数据，采用分治策略［51］，降低多样性造成的训练难度。DeepContour 算法还采用了结构化森林［52-53］作为深度特征的轮廓与非轮廓分类器，在BSDS500上取得了最新的结果（ODS值为0.757）。

2.1.2 多尺度融合边缘检测算法

多尺度就是对信号的不同粒度的采样，在不同的尺度下可观察不同的特征，从而完成不同的任务。研究者一直都在设计各种各样的多尺度模型架构，也是目前比较流行的边缘检测技术，具体可分为以下4 种：多尺度输入、多尺度特征融合、多尺度特征预测融合和以上方法的组合。

2015 年，Bertasius 等［10］重用Ivan 等的［34］网络的前五个卷积层计算得到的特征，提出了一个端到端的卷积架构DeepEdge，该架构在多个尺度上同时运行，并结合来自图像的局部和全局信息，从而显著提高了轮廓检测的准确率。DeepEdge 架构将输入的4 个不同尺度的KNet［34］的卷积层计算得到的特征与一个分岔成两个分支的学习子网连接起来。在分岔子网络中，优化了两个具有不同学习目标的分支。其中一个分支的权值通过边缘分类目标进行优化，另一个分支的权值则通过训练来预测与人类标记的一致比例，即回归准则。结果表明，分类分支的预测结果具有较高的边缘回忆率，而回归分支的预测结果具有较高的精度。因此，融合这两个输出获得优秀的结果，ODS 值为0.753 和mAP（mean Average Precision）值为0.807。

2015 年，Bertasius 等［37］受到人类判断某个特定像素边界时会使用对象级别推理的启发，提出了一种精确、高效、适用于高级视觉任务的边界检测系统HFL（High-For-Low）。该系统展示了如何利用预先训练的对象分类网络、对象特征来预测边界。它是一个高对低的过程，其中高层次的对象特征通知低层次的边界检测过程。此外，HFL 证明了使用边界的语义性质可以帮助一些高层次的视觉任务，可以把这个过程看作是一个“低对高”的方案，在这个方案中，低层次的边界帮助高级别的视觉任务。HFL模型在BSDS500数据集上实现了当时最先进的性能（ODS值为0.767）。

2015年，Xie等［8］研究了一种新的边缘检测算法——整体嵌套边缘检测（HED），解决了视觉中长期存在的两个重要问题：1）基于整体图像的训练和预测；2）多尺度的特征学习。该算法通过深度学习模型执行图像到图像的预测，利用完全卷积神经网络和深监督网络，自动学习丰富的层次表示。在BSDS500 数据集（ODS 值为0.788）和NYUD 数据集（ODS 值为0.746）上使用该技术，大幅提高了检测速度（每张图像0.4 s），比最近的基于CNN的边缘检测算法快几个数量级。

2016 年，Liu 等［36］为了缓解边缘检测假阳性（非边缘像素被错误地预测为边缘）的困难，提出了RDS（Relaxed Deep Supervision）算法，使用不同的深度监管，从粗到细，不仅保持了高的性能，而且融合了网络的多样性，更好地进行边缘检测。该算法先在训练数据集中生成粗边注释，然后使用目标数据集对其进行微调，并且融合了Canny 检测器和SE 检测器。实验结果表明，在BSDS500数据集上ODS值为0.792。

2019 年，He 等［45］利用多尺度提出了一种双向级联网络BDCN（Bi-Directional Cascade Network）结构，在该结构中，单个层由具有特定比例的标记边缘进行监督，而不是直接对所有CNN 输出相同的监督。此外，为了丰富BDCN，还引入了尺度增强模块（Scale Enhancement Module，SEM），以生成多尺度特征，而不是使用更深的CNN。通过结合SEM 和BDCN，该方法在3 个数据集（BSDS500、NYUD V2、Multicue）上实现了较好的性能，ODS 值达到0.828，优于人类感知（ODS 值为0.803）。

2.1.3 跨层融合边缘检测算法

跨层融合就是在同一网络结构中浅层特征和深层特征相融合，深层特征具有高语义信息且感受野较大的特点，而浅层的特征具有位置信息且感受野较小的特点，融合两者特征可以达到增加深层特征的效果，让深层的特征具有较为丰富的目标边缘信息。

低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。因此把两者高效融合，是改善分割模型的关键。

2017 年，Liu 等［14］针对目前基于CNN 的方法通常只利用了每个卷积阶段最后一层的特征，导致很多有用的信息丢失，提出一种全卷积网络来高效地利用每一个CNN 层的特征RCF（Richer Convolutional Feature）。该网络贡献有两点：1）利用FPN（Feature Pyramid Network）思想结合高层和底层的特征映射进行边缘检测；2）优化损失函数，使其更具有一般性。实验结果表明，在BSDS500 数据集ODS 值为0.806（8 FPS），得到2017年最好边缘检测的效果。

2018年，Deng 等［44］针对目前基于深度卷积神经网络的边界或边缘检测方法普遍存在预测边缘较粗的问题，为了使CNN 在没有后处理的情况下产生清晰的边界，提出了一种新的边界检测方法LPCB（Learning to Predict Crisp Boundaries），该方法采用自底向上/自顶向下体系结构的端到端网络结构，该网络有效地利用了层次特征，产生了像素精度高的边界掩码，是重构边缘图的关键。实验表明，直接进行Crisp 预测不仅可以提高CNN的可视化结果，而且在BSDS500数据集（ODS值为0.815）和NYUD 数据集［49］（ODS 值为0.762）上都获得了更好的结果。

2019 年，Qu 等［46］基于Caffe（Convolutional architecture for fast feature embedded）框架和VGG16（Visual Geometry Group）模板，提出了一种基于视觉交叉融合（Visual Cross Fusion，VCF）网络的边缘检测方法。VCF 模型首先分别通过全连接层的参数降维和交叉融合来提取多层次结构特征，从而实现端到端的图像边缘检测；其次，为了最大限度地利用图像像素集，自定义分级加权交叉熵损失函数；最后，利用跨网络融合对图像边缘特征进行细化。实验结果表明，VCF 算法在BSDS500经典数据集上ODS值为0.808。

2.1.4 网络重构边缘检测算法

现在越来越多的CNN模型从巨型网络到轻量化网络一步步演变，准确率也越来越高。边缘检测不仅要求准确率，而且要求速度，都希望模型又快又准。研究者通过重构AlexNet［39］、VGGnet、Inception、ResNet［41］等网络架构追求速度与准确率。

2014 年，Ganin 等［38］针对自然边缘检测和稀疏目标分割等复杂的图像处理问题，提出了一种新的图像处理体系结构（N4-Fields），该网络把CNN 与最邻近搜索（Nearest neighbor search）结合，在网络最高层的输出使用最邻近搜索，在测试阶段N4 场将Patch 通过CNN，对于给定的每一个Patch，都会输出一个低维的向量。该方法在BSDS500数据集中的性能达到或超过了当前的水平（ODS值为0.753）。

2016年，Maninis等［40］提出了一种卷积定向边界结构COB（Convolutional Oriented Boundaries），该结构允许端到端学习多尺度定向轮廓，它从一般的图像分类卷积神经网络（CNN）开始，产生多尺度定向轮廓和区域层次，并且在层次分割中使用了一种新的稀疏边界表示，在性能上比最新技术有了显著的飞跃，并且很好地推广到未知类别和数据集。

图2 基于深度学习的边缘检测算法分类Fig.2 Classification of edge detection algorithms based on deep learning

2017年，Xu等［42］受到深度学习架构中利用图形模型的文章启发［54-55］，引入了注意门控条件随机场（Attention Gating Conditional Random Field，AG-CRF），它允许通过利用其他尺度的可用信息来学习每个尺度上的强特征图表示，这是通过将注意力机制［54］以gates［55］的形式无缝集成到多尺度学习过程中来实现的。直观的注意机制将进一步提高学习多尺度表示的质量，从而提高模型的整体性能。文章将提出的AG-CRF集成到一个两级层次的CNN 模型中，定义了一种新的基于注意力引导的多尺度层次深度网AMH-Net（Attention-guided Multiscale Hierarchical deepNet）用于边缘检测。与传统的CNN 相比，层次网络能够学习到更丰富的多尺度特征，而提出的AGCRF模型进一步增强了网络的表示能力。实验结果表明，在两个数据集（BSDS500和NYUD V2数据集［31］）上该方法能够学习丰富和互补的特征，从而优于当时先进的边缘检测方法。

2.1.5 基于编解码边缘检测算法

编码器解码器（encoder-decoder）结构是利用对称网络结构对图像语义解析的机制，其本质是利用深度学习技术中的卷积、池化等操作所构成的编码器来编码被捕获的像素位置信息和图像特征，再利用反卷积（deconvolution）或上池化（unpooling）等操作所构成的解码器来对其进行解析，还原图像的空间维度和像素的位置信息。

2016年，Yang等［47］受全卷积网络［56］和反卷积网络［57］在语义分割上启发，提出了一个全卷积编解码网络（Convolutional Encoder-Decoder Network，CEDN）。CEDN 可以在任意大小的图像上运行，用VGG16［35］初始化编码器，为了实现对图像大小的密集预测，解码器是通过交替的池化层和卷积层构建的，其中池化层采用最大池化。在训练过程中，修正了编码器的参数，优化了解码器的参数，使得编码器可以保持其泛化能力，以便学习解码器网络可以很容易地与其他任务相结合，如边框回归或语义分割。

2.1.6 亚像素边缘检测算法

亚像素技术就是在两个像素点之间进一步细分，从而得到亚像素级别边缘点的坐标，一般来说，现有的技术可以做到2 细分、4 细分，甚至更高，通过亚像素边缘检测技术的使用，可以节约成本，提高识别精度。

2017年，Wang等［19］为了解决卷积神经网络边缘检测输出模糊的难题，并试图提高HED［8］的定位能力，结合密集图像标记方面的最新进展［58-59］，提出了一种新的细化架构CED（Crisp Edge Detector）。该方法是一个具有自顶向下的反向细化路径的边缘检测网络，该网络使用高效的亚像素卷积逐步提高特征图的分辨率。细化路径为网络增加了额外的非线性，进一步降低了相邻像素内边缘响应的相关性。CED 算法在BSDS500 数据集上取得了很好的结果，在标准条件下超过了人类的表现，在更严格的评价标准下大大超过了当时最先进的方法。

表2 基于全监督学习的边缘检测算法对比Tab.2 Comparison of edge detection algorithms based on fully supervised learning

2.2 弱监督和无监督边缘检测算法

近几年，基于全监督学习的边界检测方法效果已达到人类视觉水平，但是全监督学习算法需要大量的训练数据，标注对象边界是最昂贵的原因之一。因此有必要放宽对图像进行仔细标注的要求，以使培训更容易负担，并扩展培训数据量。

2016年，Khoreva等［60］提出了一种生成弱监督约束条件的方法WSOB（Weakly Supervised Object Boundaries），并证明了仅使用边界框注释就可以达到高质量的对象边界，而不需要使用任何特定于对象的边界注释。该方法使用了一个决策森林［26］和一个对流边缘探测器［61］，利用所提出的弱监督技术，实现了对目标边界检测任务的最优执行，在很大程度上超过了当时先进的全监督方法。

2016 年，Li 等［62］提出了一种简单而有效的无监督边缘检测器来训练图像，该方法利用了帧之间的噪声半密集匹配。从边缘的基本知识（以图像梯度的形式）开始，然后依次在改进运动估计和边缘估计之间进行切换。利用大量的视频数据，证明了使用无监督方案训练的边缘检测器的性能接近于在完全监督下训练的方法。

3 边缘检测关键技术

3.1 卷积神经网络

CNN 本质是一个多层感知机，优点是使得图像可以直接作为输入，避免了传统识别算法中复杂的特征提取和数据重建的过程，在二维图像的处理过程中有很大的优势，如网络能够自行抽取图像的特征包括颜色、纹理、形状及图像的拓扑结构，在处理二维图像的问题上，特别是识别位移、缩放及其他形式扭曲不变性的应用上具有良好的鲁棒性和运算效率等。CNN 有三个关键的操作：一是局部感受野；二是权值共享；三是pooling 层，有效地减少了网络的参数个数，缓解了模型的过拟合问题。典型的卷积神经网络架构包括：LeNet5［63］、AlexNet［39］、VGGNet［35］、Google InceptionNet［64］、ResNet［41］等。卷积神经网络典型结构对比如表3所示。

边缘检测算法使用最多的卷积神经网络结构是VGGNet，VGGNet 是牛津大学Visual Geometry Group 在AlexNet 基础上做了改进，整个网络都使用了同样大小3×3 卷积核和2×2 最大池化，网络结果简单，参数较少，而且3×3 卷积核能更好地保持图像特征，如图3所示。

图3 VGG-16卷积神经网络结构Fig.3 VGG-16 convolutional neural network architecture

表3 卷积神经网络典型结构对比Tab.3 Comparison of classic convolutional neural network architectures

3.2 损失函数

损失函数是为了衡量模型预测的好坏，即用来表现预测值与实际值的差距程度。它是一个非负实数函数，通常使用ℓ(Y，f(x))来表示，损失函数越小，模型的鲁棒性就越好。

文献［8］，HED 为了抵消边缘和非边缘之间的不平衡，提出了类平衡交叉熵损失函数，如式（1）所示：

文献［14］，RCF为了提高性能提出了一个新的损失函数，该损失函数增加了一个参数，在正负样本比例基础上加权，如式（2）所示：

文献［46］，VCF 在HED 和RCF 的基础上提出了分级加权交叉熵损失函数，进一步提高了网络的性能，如式（3）所示：

其中：Y+和Y-表示边缘和非边缘数据集表示正样本比重表示负样本比重，γ 是优化参数，平衡正负样本。

以上三种边缘检测算法用的都是交叉熵损失函数，该函数只跟输出值和真实值的差值成正比，收敛较快，反向传播连乘，使整个权重矩阵的更新都会加快。

3.3 数据集

深度学习的另一个关键就是用富有挑战和典型的数据集来测试算法的可靠性。经过几年的研究，大量的数据集已被提出用来测试和评估计算机视觉算法。边缘检测常用数据集包括BSDS500、NYUD V2、Pascal-VOC［65］、Pascal-Context［66］等，为了提高检测精度，边缘检测算法训练的数据集数量越来越大［67］，数据集详细内容如表4所示。

表4 边缘检测常用数据集Tab.4 Datasets commonly used for edge detection

边缘检测算法使用最多的数据集BSDS500，该数据集可以用来图像分割和物体边缘检测，包含200 张训练图，100 张验证图，200 张测试图；所有真值用.mat 文件保存，包含segmentation 和boundaries，每张图片对应真值有5 个，为5 个人标注的真值，训练时真值可采用平均值或者用来扩充数据，评测代码中会依次对这5 个真值都做对比。最近很多边缘检测算法，如BDCN［45］、CRF［14］、HED［8］、VCF［41］等为了提高检测精度，对BSDS500 训练集和验证集进行了数据扩充，包括旋转、翻转、尺度缩放。

4 性能分析

边缘检测算法的结果需要统一的量化标准，即评价指标来说明。本章讲述了边缘检测4 个标准评估：最优数据集规模（ODS）、最佳图像规模（Optimal Image Size，OIS）、每秒帧数（Frames Per Second，FPS）和PR 曲线。ODS 为具有固定轮廓阈值的F-measure 值，当每幅图像的F-measure 值具有最优阈值时，得到OIS。P-R（Precision-Recall）曲线是应用最广泛的，它是对分类器的预测结果按照置信度进行降序排列，然后按此顺序对样例进行预测，计算出当前的查全率（Recall）作为x轴、精准率（Precision）作为y 轴，以此作图，绘制出P-R 曲线。在BSDS500 中边缘检测算法ODS 对比，如图4 所示。边缘检测算法的P-R曲线，如图5所示。

图4 BSDS500数据集上的边缘检测算法的ODS性能发展趋势Fig.4 ODS performance development trends of edge detection algorithms on BSDS500 dataset

从图5 可以看出，基于深度学习的边缘检测算法ODS 值基本上都高于传统边缘检测算法，VCF、RCF、LPCB、BDCN 4个算法超出人类视觉（Human 0.803）值，因此，基于深度学习的边缘检测算法具有很好的研究前景，尤其是多尺度多层次融合技术和损失函数选择和设置。

图5 BSDS500数据集上的P-R曲线Fig.5 P-R curves on BSDS500 dataset

5 结语

目前，深度学习技术已广泛应用在边缘检测领域。本文主要对基于深度学习的边缘检测的经典方法进行了较为详细的分类、梳理与总结，并对每类方法和代表性算法进行了研究、分析和对比，概括每类技术优缺点。对边缘检测关键技术进行了研究。在现有研究成果的基础上，该领域还存在如下一些具有挑战性的研究方向：

1）3D（3 Dimensional）数据集：3D 数据集比低维数据集更难创建。尽管已经有一些工作基础，但仍有更多、更多样化数据空间，更重要的是要注意现实世界数据的重要性。

2）信息融合检测：通过上下文建模，可以提高准确性。语义分割与多尺度融合取得了显著进展，但仍存在检测精度不高、边缘模糊等问题，需要进一步研究。

3）弱监督和无监督边缘检测：在弱监督检测技术中，只使用图像级的标注或部分使用包围盒标注对检测器进行训练，对于降低劳动成本和提高检测灵活性具有重要意义。

4）动态视频边缘检测：高清视频中的实时目标/跟踪边缘检测对于视频监控和自动驾驶具有重要意义。