梯度指导的快速轻型超分辨率重建密集残差网络

2021-01-08 07:35李素梅石永莲
关键词:倍数梯度分辨率

李素梅,马 力,石永莲

(天津大学电气自动化与信息工程学院,天津 300072)

单图像超分辨率重建(single image superresolution,SISR)是典型的计算机视觉问题,其目标是从低分辨率图像(low-resolution,LR)中恢复出高分辨率图像(high-resolution,HR).近年来,随着机器学习的广泛应用,基于深度学习的卷积神经网络(convolutional neural network,CNN)被用于SISR 领域,其原理是模仿人类大脑机制来解释数据.

Dong 等[1]提出的SRCNN 首次将深度学习应用于图像超分辨率,此算法通过CNN,端到端地学习LR 到HR 的映射,仅通过3 层卷积实现了远高于传统算法的重建效果.随后,Kim 等[2]提出了VDSR,其网络深度提升到20 层,效果明显优于SRCNN.为了控制模型参数,Kim 等[3]又提出了DRCN 结构,该结构采用梯度裁剪、跳线连接和递归监督的方式减轻了深度模型的训练难度.Tai 等[4]在此基础上提出DRRN 结构,该结构将网络深度加深至52 层,利用递归操作和参数共享策略来缓解深层网络带来的参数问题.Lai 等[5]提出LapSRN 网络,通过级联逐步学习得到不同放大倍数下的重建结果.基于ResNet,Lim 等[6]提出了一个极深极宽的网络EDSR,达到了最先进的性能.

上述方法虽然能够生成高质量的超分辨率图像,但仍有以下4 个问题亟待解决.第一,更深更宽的网络结构是目前主流的设计趋势,但在运行时需要较大的计算量和内存;第二,超分辨率重建领域常用的MAE 与MSE 损失函数,其重建图像存在边缘信息模糊或产生伪影的问题;第三,单独的深层网络不利于恢复图像的外部轮廓信息,单独的浅层网络不利于恢复图像的细节纹理信息;第四,随着网络深度的增加,在训练过程中更容易出现梯度消失/爆炸或过拟合现象,导致网络训练困难.

针对以上问题,本文提出一种快速轻型超分辨率(fast and lightweight super-resolution,FLSR)重建模型,用于实现快速、准确的图像超分辨率重建.同时,为改善重建图像边缘模糊问题,提出结合梯度损失与MAE 损失函数共同指导网络训练.此外,在FLSR模型的基础上结合分组卷积提出其增强模型FLSRG,增强模型具有更少的参数量和更高的图像重建质量.实验结果表明FLSR、FLSR-G 在超分辨率任务上达到了优异的性能.在公共数据集上的客观评价指标峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity index,SSIM)均超过VDSR[2]、DRCN[3]、DRRN 等[4]具有代表性的网络,大部分性能超过IDN 等[7]快速轻型网络.

1 网络结构

1.1 快速轻型超分辨率重建网络

快速轻型超分辨率(FLSR)重建网络结构如图1所示,包含一个3 层的浅通道和一个29 层的深通道,在结构的末端使用卷积层将深浅通道进行融合.浅通道由2 个卷积层和1 个反卷积层组成,其结构类似于SRCNN[1].不同之处在于浅通道无需进行图像预处理,而是直接利用反卷积进行上采样,实现端到端的映射.浅通道作为补偿通道,其目的是保留原始图像的整体轮廓信息.深通道的主要作用是学习图像的高频纹理细节,结合密集块和残差连接,达到增加网络数据流、降低参数以及加快网络收敛速度的效果. 深通道包含4 部分,分别是特征提取、非线性映射、上采样和多尺度重建.图1 中使用不同颜色来区分不同通道以及通道中的不同阶段,图中每个长方体下方的数字表示输出特征图的个数,长方体中的小块表示卷积核,数字表示卷积核的大小,同样大小的卷积核使用相同颜色.

图1 快速轻型超分辨率重建网络结构Fig.1 Fast and lightweight super-resolution reconstruction network structure

此外,在FLSR 的基础上结合分组卷积对密集块进行改进,提出其增强模型FLSR-G.接下来详细介绍本文所提算法.

1.2 网络模型

1.2.1 特征提取

在特征提取阶段,采用类似DenseNet[8]结构中的密集块作为特征提取块.FLSR 结构中的特征提取块结构如图 2(a)所示,FLSR-G 结构中增强块如图2(b)所示.绿色矩形表示普通卷积层,蓝色矩形表示分组卷积层,灰色矩形表示激活函数层,结构中采用PReLU 激活函数,红色加号表示恒等映射的跳线连接,这种连接方式不仅可以避免深度网络模型的退化问题,还可以加快网络的收敛速度.

图2 特征提取块结构Fig.2 Structure of a feature extraction block

该密集块直接从原始LR 图像中提取特征信息,一个密集块包含5 个卷积层.假设每个卷积层产生k张特征图,则一个密集块输出的特征图总数为k×5.为避免网络过宽,实验中的k 值设为64,相当于一个密集块可以生成320 张特征图.

卷积层可以表示为

式中:l 表示第l 个卷积层; Wl表示第l 层的滤波器;lG 是输出的特征提取图;∗表示卷积运算.

PReLU 可以被定义为一个通用的激活函数,即

式中 xi为第i 层激活函数的输入信号.激活函数的输出可以描述为

式中: Fl为最终输出特征图;Bl为第l 层的偏置.

1.2.2 非线性映射

非线性映射阶段包含5 个卷积层,其作用是非线性地将每个高维向量映射到另一个高维向量上.每个映射向量在概念上表示一个高分辨率小块,这些向量包含另一组特征映射.该阶段首先采用1×1 卷积核将特征提取阶段得到的高维特征映射到低维空间,之后的卷积层都是完成低维到低维空间的映射.非线性映射环节是影响SR 性能的重要环节,影响最大的因素是映射层的宽度(层中滤波器的数量)和深度(层数).权衡网络性能和网络规模之后,所有映射层设置相同数量的滤波器(n=12),滤波器的尺寸为3×3.

1.2.3 上采样

上采样是超分辨率重建算法中必不可少的步骤,其目的是将LR 图像放大至目标的HR 图像大小.实现上采样有两种方式:第一,在数据预处理阶段,先利用插值将图像放大到目标大小,随后送入网络中进行学习,但在预处理的过程中易引入噪声,噪声在深层网络中会被放大学习,导致过拟合,降低网络模型的性能;第二,在图像重建阶段利用上采样方法(如亚像素卷积[9]、反卷积[10])将图像放大至理想大小,这种方式能降低上采样引入噪声对网络性能的不良影响.因此,文中采用反卷积层来实现图像的上采样操作,具体结构如图3 所示.

若输入图像的大小为w×w,卷积核大小为f×f,步长为s,填充为p,此时反卷积层的输出计算公式为

式中 w' 表示反卷积层的输出.

反卷积是通过在每两个像素之间补上 s −1 个0而获得图像拉伸后的输入单元,实现图像放大.反卷积的步长太大会影响重建图像的质量,且在一定范围内反卷积核的大小与重建图像的质量成正比,受此启发上采样阶段采用15×15 大小的反卷积核,不同超分辨率任务采用不同的步长s=2,3,4.如图3 所示,整个上采样阶段包含2 个卷积层与1 个反卷积层,卷积层均采用1×1 卷积核来降低参数.

图3 上采样结构Fig.3 Upsampling structure

1.2.4 多尺度重建

重建是通过聚合前面阶段产生的HR 小块来生成最终HR 图像的过程.若能同时聚合不同尺度的特征则可以加强重建质量,因此,本文采用多尺度重建的方式,在重建过程中同时获取不同尺度的信息.

多尺度重建阶段具体结构如图4 所示.首先是4个64 维度的3×3 卷积,其作用是提取高维特征,接着使用1×1 卷积将特征映射到低维空间;其次是多尺度卷积,由4 个并列的卷积层组成,分别采用1×1、3×3、5×5、7×7 大小的卷积核,每个卷积层输出4 个不同大小的特征图,使用通道相加的方法得到16个特征图;最后再使用1×1 的卷积层,其作用是权重连接多尺度的特征,输出最后的重建图像.

图4 多尺度重建Fig.4 Multi-scale reconstruction

多尺度重建过程可以定义为

式中 F6(Yi)表示多尺度重建层,i=1,2,3,4.

图5 显示了采用不同大小卷积核提取的特征,由图5 可知,不同大小的卷积核对应不同大小的感受野,提取的特征从高频信息到低频信息各有不同.

图5 多尺度重建特征Fig.5 Multi-scale reconstruction feature

1.2.5 深浅通道融合

在网络中,深层通道恢复HR 图像的高频细节信息,浅层通道恢复图像外部轮廓信息.为提高重建图像质量,在网络的末端使用逐像素点相加的方式,接着采用单个1×1 卷积层来融合深浅通道的特征.融合层可公式化为

式中: FH为输出的高分辨率融合特征图; fk[⋅]为卷积操作;FL(Y ) 为输入的特征图.

图6 分别展示了深、浅通道及融合通道的网络输出结果.由图6 可知,深浅通道融合后得到的图像,细节信息更加丰富,更接近原图.由于人眼对亮度的敏感程度高于色度,故所有图像均转换至YCbCr 空间,单独对亮通道进行处理.

图6 融合层输出对比Fig.6 Comparison of fusion layer outputs

1.3 损失函数

在超分辨率领域,损失函数用于测量生成的HR图像与真实图像之间的差异,并指导模型优化.目前,超分辨率领域使用较多的是MAE 与MSE 两类损失函数.与MAE 相比,MSE 计算过程中包含像素差值取平方的操作,该操作会放大较大误差与较小误差之间的差距,导致MSE 对较大误差的惩罚力度更大,而更容易容忍较小误差.事实上,对于超分辨率任务,MAE 损失函数有更好的性能和更快的收敛速度[6].

MSE 和MAE 损失函数的公式分别为

式中: Yi表示真实图像;表示网络输出的HR 图像;N 表示N 对训练样本.由式(7)和式(8)可知,MSE与MAE 均是基于像素的损失函数.由于PSNR 的定义与逐像素差异高度相关,最小化像素损失即最大化PSNR,因此MAE 损失已成为此领域中使用最广泛的损失函数.但是,由于像素损失实际上并未考虑到图像真实质量,因此会缺少高频细节与边缘轮廓,并且MAE 损失通常导致纹理过于平滑以及图像边缘模糊等令人不满意的结果[11].

图像的边缘信息就是其像素值的梯度信息,为重建更加清楚的图像边缘信息,本文提出一种组合损失函数,结合图像梯度损失与MAE 损失函数共同指导网络学习,重建更加清晰的图像.

从人眼视觉感知出发,将MAE 损失与梯度损失结合,考虑图像边缘的同时最大化PSNR.人类视觉系统更适合从视野内提取结构信息,因此,图像中的结构信息对于人眼视觉感知最为重要.边缘作为图像结构信息的重要部分,是纹理结构发生突变的区域,也是图像信息最集中的区域.考虑到这一点,本文通过计算图像的梯度图来区分图像边缘区域与光滑区域.图像中边缘区域的像素点会有较大的梯度值,相反,图像平滑区域的灰度值变化较小,其相应的梯度也很小.设一幅图像为f,其在(x,y)处的梯度计算式为

式中 gx与 gy分别为像素点在x、y 方向的变化率.计算出每一点的梯度后,得到的梯度图像M 与原始图像f 具有相同大小.

梯度损失的计算式定义为

式中:h、w 分别为图像的高度与宽度;MGT与MSR分别是真实图像与超分辨率图像对应的梯度图.

因此,最后的损失结合MAE与梯度损失,定义为

式中α为加权系数,通过多次实验,本文将α设为0.5 以达到最佳性能.

1.4 参数设置

模型参数设置如表1 所示,第1 列表示深浅两个通道以及融合层,第2 列表示深浅通道的不同阶段,第3 列表示网络层以及网络参数的设置,分别是卷积核大小、网络层类型、层数、block 个数.比如,特征提取对应行的[3×3,(conv×5)×2]表示该阶段采用2 个5 层的block,每个block 包含5 个卷积层,卷积核的大小是3×3.

表1 网络模型参数设置Tab.1 Detailed description of the model parameter

2 数据集

2.1 训练数据集

本文使用公开基准数据集作为训练数据集,包含391 张原始图像,图像内容包含动植物、风景以及人物.391 幅图像分别由91 image[12]、General-100[13]和Berkeley Segmentation Dataset[14]组成.此外,采用旋转、水平镜像、比例缩放3 种不同的方式进行数据增强.利用双三次插值对原始图像进行下采样,生成多对LR/HR 图像作为训练样本.考虑到训练图像的大小,将LR 图像随机裁剪成48×48 大小的图像块,并根据不同的上采样倍数将对应的HR 图像分割成不同大小的块,作为网络的输入.

2.2 测试数据集

使用PSNR 和SSIM 作为客观评估指标,基于4个 标 准 数 据 集 Set5[15]、Set14[12]、BSD100[16]和Urban100[17]评估模型性能.

根据文献[12,18-20]可知,本文将每张彩色图转换到YCbCr 颜色空间,仅处理Y 通道.为了更好地呈现图像,其余Cr 和Cb 通道使用双三次插值进行上采样来填充.由于在亮度通道上进行超分辨率,因此也只在图像的亮度通道上计算PSNR 和SSIM.

3 实验结果与分析

本节主要讨论FLSR 与VDSR、DRCN、LapSRN、DRRN、MemNet[21]和 IDN 等方法的实验结果对比.分别从PSNR、SSIM、重建时间、计算复杂度等方面,对提出的模型进行定性定量的实验与评估.此外,对主观效果进行展示.测试阶段采用自集成策略[6],并在模型后添加‘+’表示.

3.1 客观评估结果与分析

表2 展示了FLSR 在公共数据集上×2、×3、×4倍率下PSNR/SSIM 的测试结果.由表2 可知,当放大倍数为2、3 时,FLSR+比现有的IDN、MemNet、DRRN 等代表性模型具有更好的性能,说明FLSR 擅长于放大倍数为2、3 的任务.

图7 展示了放大倍数为2 时,FLSR、FLSR-G 与当前具有代表性的模型在数据集Set5 上的模型性能、计算复杂度及参数量之间的比较.图中圆的大小表示参数量的多少,参数越多圆的面积越大,计算复杂度是在模型重建720 P 高分辨图像的情况下分析的.红色字体表示PSNR 值最优,蓝色字体表示次优.

由图7 可知,FLSR 网络有着轻量级参数和计算复杂度,其增强模型FLSR-G 与FLSR 相比在Set5数据集上重建质量有所下降,但其参数量降低为FLSR 的 53.96% ,计算复杂度降低为 FLSR 的32.86%.

图8 展示了放大倍数为2 时,FLSR 与当前具有代表性的模型在数据集Set5 上的平均PSNR 与平均重建时间的比较.由图8 可知,FLSR 的重建速度比VDSR、DRCN、DRRN 更快的同时PSNR 值高很多,说明了FLSR 可以满足快速准确超分辨率的要求.此外,FLSR+获得了最优PSNR 值.

表2 放大倍数为2、3和4时在数据集Set5、Set14、BSD100和Urban100的平均PSNR/SSIMTab.2 Average PSNR/SSIM for upscaling factors ×2,×3,and ×4 on datasets Set5,Set14,BSD100 and Urban100

图7 模型参数比较Fig.7 Comparison of model parameters

表3 展示了在4 个基准数据集上模型的平均运行时间.在重建时间方面,使用3.5 GHz Intel E5-2367 CPU(64 RAM),NVIDIA TITAN X(Pascal)GPU 12 G 内存)对比较算法的开源代码进行测试,并对机器上的运行时间进行评估.值得一提的是,在放大倍数为2 时,在Urban100 数据集中,FLSR 的重建时间大约比MemNet 快406 倍,而FLSR-G 比MemNet快420 倍.

图8 速度与精度的权衡Fig.8 Speed and accuracy trade-off

表3 放大倍数为2、3和4的运行时间比较Tab.3 Comparison of run times for upscaling factors×2,×3,and×4 s

3.2 FLSR与IDN的比较

如表2 所示,在客观指标PSNR/SSIM 方面,FLSR 模型在公共数据集Set5、Set14、BSD100 以及Urban100 上的评价指标大部分略高于IDN,尤其是放大倍数为2 和3 的任务,放大倍数为4 时性能略有降低.然而在模型参数量方面,FLSR 增强模型不但将参数量降低至IDN 的46%,而且图像的重建质量与IDN 持平,更加符合快速轻型的理念.模型的运行时间如表3 所示,FLSR 是IDN 的2 倍.主观效果方面,在放大倍数为2 的任务上,FLSR 的重建效果明显优于IDN,FLSR 重建的图像细节信息更加丰富,图像边缘信息更加锐利.

FLSR 不擅长高倍放大任务的原因在级联网络LapSRN[5]中有实验证明,使用一次上采样将图像放大到理想大小的网络,不擅长完成高倍重建任务.比如要将20×20 的图像放大4 倍至80×80,采用分级放大,先将原图放大2 倍至40×40,再放大2 倍至80×80 的放大方式,优于直接将20×20 的图像放大4 倍的方式.IDN 的优势来源于其独特的训练方法,其训练过程包括训练和微调两个阶段,不同阶段使用不同大小的子图像块.微调阶段采用的图像块大于训练阶段,这种方法相当于手动放大图像,其原理与级联网络相似,有助于提高网络性能尤其是在更大的上采样因子任务上.

3.3 FLSR深浅通道及损失函数的性能分析

3.3.1 深浅通道性能分析

表4 针对深浅通道结构对网络性能的影响进行了对比实验分析,其中浅通道模型表示仅采用浅通道进行重建,深通道模型表示仅采用深通道进行重建,无密集块深通道模型表示去除深通道的2 个密集块进行重建.FLSR 表示文中结构,即深浅通道融合的模型.

首先,针对浅通道层数选择进行分析说明.从表4 可以看到,SRCNN 与浅通道模型同为3 层结构,但浅通道模型的参数量更少且重建图像的PSNR/SSIM明显更高.这不仅说明反卷积优于预处理上采样操作,还说明浅通道模型能以极少计算量为代价,为重建图像提供原始图像的整体轮廓信息.其次,针对深通道的层数选择,提出无密集块深通道与深通道两个模型用做择优选择.综合3 个放大倍数重建结果可知,在PSNR 方面,深通道模型平均比无密集块深通道模型高0.45 dB;在SSIM 方面,深通道模型平均比无密集块深通道模型高0.004 6.因此,深通道模型是深通道的最佳选择.

由表4 可知,3 种放大倍数下FLSR(即融合深浅通道)与深通道模型相比,性能明显提升,且参数量与计算复杂度只有些许增加.深浅通道主观对比实验结果见第3.4 节.

表4 5种模型在公共数据集的性能对比Tab.4 Performance comparison of five models on public datasets

3.3.2 组合损失函数的性能分析

为证明梯度损失的通用性,本节在放大倍数为4时对4 种不同类型损失函数进行实验探究,结果如表5 所示.表5 中LMAE、LMSE、LMAE+Lgrad、LMSE+Lgrad分别对应MAE 损失、MSE 损失、MAE 与梯度损失构成的组合损失、MSE 与梯度损失构成的组合损失.

由表5 可知,MAE 与MSE 损失在结合梯度损失后,模型重建效果具有明显提升,说明梯度损失能有效指导超分辨率模型的训练,恢复低分辨率图像中损失的高频细节.梯度损失对于边缘模糊及伪影问题的主观解决效果,详见第3.4 节.

表5 放大倍数为4时不同损失函数下模型性能对比Tab.5 Comparison of model performance under different loss functions for upscaling factor ×4

3.4 主观效果展示与分析

为了更加直观地表达FLSR 重建图像的质量,本节列出了FLSR 以及其他优秀模型的实验仿真结果.对比算法的结果是通过原作者的公开代码重建得到,客观指标是由原作者提供的数值.

3.4.1 FLSR 与代表性模型的主观效果比较

图9 和图10 展示了重建图像的可视化比较,其放大倍数分别为2 和4.图9(a)~(h)上的红框表示选取区域,并在右下角放大以便观察细节差异;图10(a)为高分辨率图像,红框表示比较区域并在图10(b)~(h)上进行放大观察,图11~图13 的排列方式与此相同,不再赘述.从图9 中可以看出,FLSR+能够较好地恢复图像的细节.将该方法恢复的HR 图像与原始图像进行比较,重建细节与原始图像接近.此外,定量分析表明:FLSR +的 PSNR 达到39.89 dB. 这一结果略高于现有方法,如 VDSR、DRCN、LapSRN、DRRN、IDN 等.图10 证明相比于其他方法出现边缘模糊、线条丢失的情况,FLSR+较完整地恢复出图像的详细信息.

图9 Set14数据集的“monarch”图像Fig.9 The “monarch” image from the Set14 dataset

图10 BSD100数据集的“253027”图像Fig.10 The “253027” image from the BSD100 dataset

3.4.2 深浅通道的主观效果比较

由图11 可知浅通道模型的总体重建效果很差,只能恢复图像的部分低频信息,恢复图像高频细节信息的能力较弱.深通道模型总体重建效果较好,能够较好地恢复图像的高频细节信息,恢复图像低频轮廓信息的能力欠佳.结合深浅通道的融合模型FLSR重建的图像具有更清晰的外部轮廓信息与高频细节信息.

图11 BSD100数据集的“148026”图像Fig.11 The “148026” image from the BSD100 dataset

3.4.3 不同组合损失函数的主观效果对比

图12 和图13 展示放大倍数为4 的主观效果,选取的重建样本是纹理复杂、边缘信息丰富的Urban100 数据集,该数据集的重建更具挑战性.

由图12 可知,LMSE重建图像的中间区域有明显黑色伪影且下方绿色边缘模糊,然而,LMAE无此现象.当LMSE或LMAE与梯度损失共同指导网络训练时,重建图像的主观效果更接近原始高分辨率图像.LMSE与LMSE+Lgrad相比,后者黑色伪影明显去除;LMAE与LMAE+Lgrad对比,黑色区域的边缘更加清晰明显.因此,组合损失中加入的梯度损失可有效解决重建图像边缘模糊、有伪影的问题.同样地,由图13 可知组合梯度损失重建图像具有更多的细节信息,重建性能更佳.

图12 Urban100数据集的“image_004”图像Fig.12 The “image_004” image from the Urban100 dataset

图13 Urban100数据集的“image_090”图像Fig.13 The “image_090” image from the Urban100 dataset

4 结 语

本文提出了一种轻型的超分辨率重建算法,在速度方面,FLSR 模型不仅具有较好的重建准确率,还具有快速的处理速度.实验结果表明,该方法在以上两方面均优于VDSR、DRCN、DRRN 等几种基于CNN 的超分辨率模型;在参数量方面,结合增强块提出的增强模型FLSR-G 的参数量仅有330.21×103,是IDN 参数量的46%;在计算复杂度方面,通过充分的实验证明提出的FLSR 和FLSR-G 与其他同等层次的模型相比较具有更低的计算复杂度和更高的重建准确率;结合梯度损失与像素级损失共同指导网络模型训练,提高了重建图像的边缘信息清晰度,改善了伪影现象.实验结果表明所提方法在超分辨率任务上达到了优异的性能,在公共数据集上的重建效果超过VDSR、DRCN、DRRN 等具有代表性的网络,实现了快速轻型的重建目标.

猜你喜欢
倍数梯度分辨率
同样是倍数,为啥还不同
基于应变梯度的微尺度金属塑性行为研究
好画质不局限于分辨率 探究爱普生4K PRO-UHD的真面目
一个具梯度项的p-Laplace 方程弱解的存在性
内容、形式与表达——有梯度的语言教学策略研究
航磁梯度数据实测与计算对比研究
倍数魔法
如何表达常用的倍数
ARM发布显示控制器新品重点强化对分辨率的支持
数学题