基于深度学习的单图像超分辨算法比较探究

2018-02-25 02:39王梓欣牟叶王德睿

电子技术与软件工程 2018年7期

王梓欣牟叶王德睿

摘要卷积神经网络（ ConvolutionNeural Networks， ConvNets，CNN）在图像识别、目标检测、物体分类等方面已经被证实有效可行，于是人们尝试将CNN运用到更加广阔的领域，并取得了远超传统方法的性能。图像的超分辨重建就是一个典型的代表。传统的超分辨方法计算复杂，且对不同类型的图像具有较差的适应能力。将深度学习的方法应用到图像超分辨率重建上，大幅度提升了超分辨重建的效果，为超分辨重建领域开辟了一个新的方向。本文以SRCNN和VDSR为例，对基于深度学习的单幅图像超分辨算法比较探究。对两种网络的结构以及设计思想进行了详细分析，并通过实验比较验证了两种网络的优良性能。

【关键词】深度学习 CNN 图像超分辨SRCNNVDSR

1 绪论

图像的空间分辨率是度量图像质量的一个重要指标，高分辨率的图像往往包含着更加丰富的细节信息，对于观赏体验的提升以及后续的图像处理步骤都有着较大的帮助。拥有高分辨率的高清图像，一直是学术界和工业界不懈追求的目标。获取高分辨率图像最可靠的方法就是直接采用高分辨率传感器，然而，由于图像采集设施、存储编码算法以及网络传输带宽等因素的限制，直接获取高分辨率图像技术实现难度大，付出成本高。图像超分辨重建技术应运而生并得到快速发展。

早期，超分辨率主要采用基于插值的方法，之后基于重建的超分辨率算法被提出，这些方法在一定程度上提高了图像的分辨率，但是在对图像边缘、纹理特征等细节信息的处理上不够完善，重建结果偏向于平滑。

深度学习的出现使图像超分辨领域取得了较大的突破，越来越多的研究者使用深层的卷积神经网络对低分辨率（Low Resolution）图像进行超分辨处理，并在均方误差（MSE）、峰值信噪比（PSNR）等指标上取得了远超传统方法的效果。卷积神经网络拥有强大的特征提取能力，通过大量的数据集進行训练，可得到具有较好泛化能力的超分辨网络模型，为超分辨技术在实际生活中的应用提供了较好的技术支撑。总之，超分辨重建技术正在成为各领域的研究热点，在计算机视觉、图像处理、视频处理等领域，超分辨技术广阔的应用前景促进了超分辨技术的发展，超分辨技术的快速发展也为加速了相关技术的落地应用。

2 图像超分辨算法概述

图像的超分辨是计算机视觉领域的一个经典问题，其目的是从单张低分辨率的图像中获重建高分辨率的图像。图像超分辨重建的研究起源于20世纪60年代，最早是J.L.Harris和J.W.Goodman提出一种称为Harris-Goodman频谱外推的办法。上个世纪80年代开始，凸集投影图像复原（Pocs）方法、服从泊松分布的最大似然复原（泊松-ML）方法、泊松最大后验概率复原（泊松-MAP）方法等一系列关于超分辨的算法被提出，Hunt和Sementilli于1993年对超分辨的定义和特性进行了分析阐述，提出图像超分辨的能力取决于三个因素：噪声、图像的样频率以及空间限制。

近年来，基于总变差正则、迭代反投影、凸集投影、等超分辨算法不断被提出，这些算法不同程度地提升了图像的超分辨质量。由于对低分辨率图像及进行超分辨处理的解并不唯一，所以超分辨问题本质上是一个病态问题。目前典型的求解此类问题的方法多为引入先验信息加入约束条件以在一定程度上获得较优的解。目前最新的超分辨算法多使用基于实例的模型，这些算法通过探究相同图像的内在相似性或者通过学习低.高分辨率图像对映射函数来进行超分辨处理。

2014年，Chao Dong等通过构建一个具有3层卷积层的神经网络（SRCNN），仿照稀疏表示的步骤，提出了一种端到端的超分辨卷积神经网络，首次将卷积神经网络应用于超分辨问题并取得了优于传统方法的结果。在此之后，诸如FSRCNN、ESPCN、VDSR、DRCN等超分辨神经网络算法被提出。基于深度学习的超分辨算法取得了以往传统方法难以企及的性能提升。

3 卷积神经网络概述

卷积神经网络（CNN）的结构层次比传统的神经网络复杂，通过设置多个隐含层，网络可以获得更加优秀的学习能力，取得更加本质的数据特征映射。CNN的特点在于它所采用的局部感受野连接和权值共享策略，相比于传统神经网络，一方面网络参数大大减少，另一方面训练和前向测试的复杂度大幅度降低，避免了网络训练过拟合的风险。

卷积神经网络最早是为了解决二维图形的识别问题而提出的一种卷积方式，其通常是在有监督的方式下进行训练得到的。图1是经典的LeNet-5卷积神经网络结构，由YannLecun于1998发明。目的是用于对手写数字数据集MNIST的检测，具有极高的准确率。

一个典型的神经网络通常具有输入层、输出层与隐藏层。网络中的每一个神经元接受来自网络上一层的局部区域的感受野输入，通过卷积操作得到局部特征。在图像处理领域，卷积核可以提取出包括图像的轮廓、颜色、纹理、边缘等信息，由于卷积核的权值共享特性，所以这些提取得到的特征与图像的位置和角度无关。

4 SRCNN、VDSR对比分析

随着卷积神经网络的深入研究，更加复杂的卷积神经网络被应用在诸如目标检测、图像分割、语义理解、人脸识别等领域，极大地提升了图像处理领域的处理效果和处理效率。最早将卷积神经网络引入单幅图像超分辨重建的是ChaoDong等人[1-3]，该算法参考了基于稀疏编码的超分辨处理过程，提出一种具有三个卷积层的超分辨卷积神经网络，通过学习的方式全局优化网络参数，经过端到端的处理过程得到高分辨率图像。

4.1 SRCNN

SRCNN（ Super-Resolution ConvolutionNeural Network）是利用深度学习进行图像超分辨的开山之作，最初由ChaoDong等人在2014年的ECCV会议上提出，后续将相关成果完善后发表在TPAMI杂志。该工作提出了一种用于单幅图像超分辨的深度学习方法，直接学习高低分辨率图像之间的端对端映射，并且证明了基于传统稀疏编码的超分辨方法也可以看作是一个深层的卷积神经网络。

相比用于目标检测、语义理解、图像分割的复杂神经网络模型，SRCNN具有非常灵巧的结构设计[图2]：整个网络只有三个卷积层，具有较少的卷积核以及网络参数，甚至可以在CPU上进行网络运算，同时，训练完成的网络完全不需要求解任何优化问题，并且随着训练数据集的增加，网络的超分辨重建效果可以得到进一步的提升。

SRCNN并不能改变图像的大小，所以在利用SRCNN网络进行超分辨处理之前需要对图像使用双三次插值将其扩大到所需的大小，得到一个“具有低分辨率的大尺寸图像”。将此图像送入SRCNN网络进行训练或者测试，网络输出一个具有高分辨率的大尺寸图像。

网络结构参照稀疏编码可以分为三个部分：块特征的提取与表示、特征之间的非线性映射以及最后的重建部分。整个超分辨结构是由稀疏编码驱动设计的，但巧合的是，三层操作均具有与卷积层相似的形式。把三个操作放在一起，构成卷积神经网络的结构，并且采用求解神经网络梯度的方式对整个超分辨结构进行优化求解。

本文采用以下参数设置网络，块特征的提取与表示：本层使用的卷积核大小为9x9，输出特征数为64。特征之间的非线性映射：本层使用大小为lxl的卷积核，输出特征个数为32。重建：本层使用卷积核大小为5x5。

关于损失函数的设定，本文使用均方误差（MSE）作为损失函数，通过优化此损失函数得到的网络输出图像有利于得到较高的峰值信噪比（ PSNR）。

4.2 VDSR

虽然SRCNN成功地把CNN引入到超分辨问题中，但是SRCNN依赖于较小的感受野，这并不利于较大尺度的超分辨重建。只有三层的网络结构一定程度上也限制对更加复杂特征的提取与表示能力，而随着网络的层数加深，则可能带来梯度消失等问题。

2015年，K.He提出了用于解决较深层次网络梯度消失问题的残差网络模型（ Resnet），它引入了全新的结构以允许网络尽可能地加深。VDSR（ Super-Resolution Using Very DeepConvolutional Networks）借鉴了残差网络的思想，提出了具有更深网络层次的超分辨重建网络。多达20层的网络使整个网络拥有更大的感受野，可以根据更多的像素点去推测结果像素点。此外，通过只学习输入图像与网络输出图像之间的高频残差，可以避免学习低分辨率图像与高分辨率图像大量相似的低频部分，减少了训练时间。

VDSR将不同放大倍数的图像混合在一起同时送入网络进行训练，可以获得对不同放大倍数的超分辨能力。在对图像的边界卷积操作上，本文选择对图像边界补O，保证了特征图与网络的输出拥有一致的尺寸大小，实验结果证明，边界的补O操作使得卷积网络对边缘像素的预测能力有所提升。

5 实验测试

对于本文提出的卷积神经网络超分辨算法SRCNN、VDSR，在本章给出实验验证结果。实验平台为基于Linux系统下Ubuntu16.04下运行Tensorflow进行训练，采用显卡GTX1080Ti进行实验。

训练模型初始化参数服从高斯随机分布，SRCNN的网络结构图如图2所示，VDSR的网络结构图如图3所示。

本次实验的训练样本采用标准训练集291，首先对图旋转、镜像等操作，然后进行两至四倍下采样处理，将处理的到的图像进行双三次插值，然后裁剪图像大小至41x41，送入神经网络训练。训练结果如图4所示。表1展示基于深度学习的超分辨网络训练结果比较（PSNR值）。

6 总结

将功能强大的卷积神经网络引入超分辨重建领域，极大地提升了图像超分辨的成像效果。通过比较SRCNN和VDSR的重建效果以及指标，可以看出，使用了更深层网络结构的VDSR无论是在视觉效果还是在峰值信噪比（PSNR）指标上，相比于SRCNN均有所提升。这也说明，更深层次的网络能够根据更多的像素感受野来更好地预测目标区域的像素信息。残差结构也使VDSR在拥有更深层网络的情况下只需较少的训练时间即可达到较好的训练效果。

在SRCNN和VDSR网络之后，具有优良性能的超分辨网络层出不穷。以FSRCNN.ESPCN、 DRCN、 LapSRN、 SRGAN等为代表的超分辨网络取得了出色的效果，诸如递归网络、生成对抗网络等越来越丰富的网络结构也被引入超分辨重建领域。

参考文献

[l]Dong C， Chen C L，He K， et al. Learning aDeep Convolutional Network for ImageSuper-Resolution [M]. Computer Vision-ECCV 2014. Springer InternationalPublishing， 2014： 184-199.

[2]Kim J，Lee J K，Lee K M.AccurateImage Super-Resolution UsingVery Deep ConvolutionalNetworks [J]. 2015： 1646-1654.

[3] Dong C，Chen C L，He K，et al. ImageSuper-Resolution Using DeepConvolutional Networks [J].IEEE Transactions on PatternAnalysis &Machine; Intelligence， 2016， 38 （02）： 295-307.

[4] Dong C，Chen C L，Tang X.Acceleratingthe Super-Resolution ConvolutionalNeural Network [J]. 2016： 391-407.

[5]Lecun Y，Bottou L，Bengio Y，et al.Gradient-based learning applied todocument

recognition [J]. Proceedingsof the IEEE， 1998， 86 （11）： 2278-2324.

[6]赵小乐.单幅图像超分辨技術研究[D].西南科技大学，2015.

[7]韩小虎，基于深度学习的图像超分辨算法研究[D].河南大学，2016.

[8]王学文.基于学习的图像超分辨率算法研究[D].华中科技大学，2016.