基于双字典正则化的单帧图像超分辨率重建方法

2021-05-13 02:30张凯兵
西安工程大学学报 2021年2期
关键词:正则插值字典

崔 琛,张凯兵

(西安工程大学 电子信息学院,陕西 西安 710048)

0 引 言

图像SR重建是一种利用一幅或多幅LR图像重建一幅细节清晰、纹理丰富的HR图像的图像恢复技术。已有的超分辨算法可分为3种主要类型:基于插值的方法[1-2]、基于重构的方法[3-5]和基于实例学习的方法[6-7]。

基于插值的方法主要利用特定的基函数或插值核估计高分辨率图像中的未知像素。常见的插值方法有最近邻插值、双线性插值、双立方插值、Lanczos插值等。尽管基于插值的方法简单、高效,但该方法难以恢复LR图像中丢失的高频细节,导致重建的图像视觉效果模糊,通常情况下难以满足实际应用要求。

基于实例学习的方法借助机器学习技术,通过学习LR与HR图像之间的映射关系,实现LR图像到HR图像的转换。典型的实例学习方法有基于K近邻的方法、基于稀疏表示的方法[8-10]、基于流形学习的方法[11],以及基于深度学习的方法[12-14]。尽管基于K近邻学习和基于流形学习的SR算法结构简单,但对每个输入的LR图像块都需要搜索大量的训练集进行相似性匹配,因此计算时间复杂度和空间复杂度均较高,不利于实际应用。而基于稀疏表示的方法[15],首先从LR与HR图像对中学习超完备字典,然后求解基于l0-或l1-范数正则化的最小二乘优化问题实现SR重建。DONG等率先将深度卷积网络(SRCNN)用于图像超分辨重建,该方法通过特征表示层、非线性特征映射层和超分辨重建层实现端到端的SR重建,具有较好的重建效果[16]。尽管基于深度学习的SR方法能够有效生成新的图像细节,但其训练过程计算复杂度和空间复杂度较高,且对样本依赖性强,因此难以在资源和设备受限的情况下使用。

基于重构的方法通过求解图像降质逆过程恢复成像过程中丢失的高频细节[17-18],代表性方法有最大后验概率(maximum a posteriori, MAP)方法[19]、非均匀插值法[20]和凸集投影(projection onto convex sets, POCS)方法[21]。相比于基于插值的方法和基于实例学习的方法,基于重构的方法更有利于保持清晰的图像边缘,并有效抑制伪像的产生。文献[22]中提出了一种基于自适应稀疏域选择(adaptive sparse domain selection, ASDS)的算法,并利用空间自适应正则化和非局部结构相似性正则化对模型进行约束,进而提高SR图像的重建质量。文献[23]通过学习一组局部字典和非局部相似结构,进一步增强了重建图像的边缘细节。通常情况下,为了获得高质量的图像,基于重构的SR方法需要构造有效的先验知识约束未知超分辨图像的估计。受文献[23]的启发,采用图像自相似性SR算法,将自然图像中每一个小局部即图像块在这幅图像自身的其他位置或在其他尺度内搜索与其最相似的图像块,并计算相似性权值,并利用可控核、非局部相似权值和相关的局部字典,建立非局部字典回归正则化项。尽管文献[23]中方法有效,但不足之处是未利用到外部图像的信息恢复高频细节。

因此,为了获得边缘清晰、细节丰富的HR图像,本文提出一种新的基于重构的单帧图像SR算法,该算法具有2个特点:①考虑内部图像的局部正则化特性、非局部相似冗余特性和外部图像正则化特性,并将上述具有互补性的特性分别构造内部和外部正则化项实现图像的SR恢复;②将构建的内部和外部正则化项嵌入到基于重构的SR框架下,通过梯度下降算法求解局部最优解,估计需要的SR图像。

1 本文算法

1.1 算法概述

本文利用双字典构造正则化项,提出了一种新的基于重构的超分辨框架。首先,通过学习输入LR图像本身的局部结构及自相似性[19],构造基于内部字典的正则化项。其次,对大量HR图像进行聚类,设计出基于外部字典的正则化项。再次,利用非局部可控核回归(non-local steering kernel regression, NLSKR)来构造2个正则化项。最后,将2个正则化项合并到基于MAP的SR框架中进行优化[23]。由于上述2种先验具有较强的互补性,因此提出的算法能够根据给定的LR图像重建出高质量的SR图像。本文方法的总体框架如图1所示。

1.2 降质模型

图像从HR到LR的退化过程可用如下模型表示为

y=DHX+ε

(1)

式中:y为LR图像;D为下采样矩阵;H为模糊矩阵;ε为加性高斯噪声;X为HR图像。

单帧图像SR重建是在已知一幅输入LR图像的情况下恢复出相应的HR图像的过程,其本质为解决图像降质过程的病态逆问题。由于图像降质过程的不确定性,一幅LR图像可能对应于许多不同的HR图像。因此,利用有效的图像先验知识对该过程进行正则化约束是解决图像超分辨问题的关键。对一个给定的正则化项R(X),则SR问题的MAP估计可表示为

(2)

式中:γ为平衡重构误差项与正则化项的常数。

1.3 内部字典学习

在内部字典学习阶段,首先,使用Bicubic插值算法将输入的LR图像放大到与所需HR图像相同大小。其次,将放大后的图像划分为一组5×5的局部图像块。再次,采用K均值聚类算法将图像块划分为K类。最后,学习对应于每个类的局部字典,使其对类中的每个图像块具有较好的表示能力。因此,对于任一类别的图像块,可通过求解式(3)表示的最小化目标函数找到用于拟合该图像块的最优字典和拟合系数,即:

(3)

(4)

(5)

式中:s1≥s2≥…≥sm≥0为数据矩阵F(k)的奇异值;p为常数,p=2 048;n为图像块中的像素个数;σ为图像噪声的标准差。

1.4 外部字典学习

(6)

(7)

考虑到输入图像块可能存在模糊和噪声等退化因素,直接使用输入图像块与聚类质心进行欧式距离相似性匹配时鲁棒性较差。为了增强每个局部图像块选择子字典的鲁棒性,将式(7)进一步改进,得

(8)

1.5 内部和外部正则化项设计

受文献[23]的启发,本文采用类似的局部结构正则化和非局部相似度相结合的方法设计内部和外部正则化项。根据学习得到的内部或外部字典,SR回归模型可表示为

(9)

(10)

(11)

式中:c为一个中心位置元素为1、其他位置元素为0的向量,即[0…010…0];Xi为图像块第i个位置的像素。若将回归形式表示为正则化项形式,则式(11)可改写为

(12)

式中:第1项和第2项分别为内部和外部正则化项;Ω为X的整个图像区域;ai和bi分别为由式(10)获得的内部和外部回归系数组成的2个列向量;vi和Γi为由SN(i)中相似块的高频成分排列成的2个列向量。令I为单位矩阵,式(12)可进一步表示为

(13)

其中,矩阵A和B的值由式(14)计算得出:

(14)

1.6 目标函数优化

将1.5节中获得的内部和外部正则化项合并到式(2),对SR问题的MAP估计,其目标函数可表示为

(15)

X(t+1)=X(t)-τJ(X)

(16)

式中:t为迭代次数;τ为迭代步长。目标函数的梯度表示为

J(X)=(DH)T(DHX-y)+

λ(I-A)T((I-A)X)+

(17)

在算法实现过程中,采用Bicubic插值算法初始化HR图像。相似性权重矩阵A和B每P次更新一次。当迭代次数达到1 000或相邻2次迭代结果的均方误差(mean square error, MSE)小于预设的阈值5×10-6时,则停止迭代过程。

本文提出的算法如下:

1) 输入:LR图像y,放大倍数m,正则项更新次数P,最大迭代次数T,MSE阈值E0。

2) 初始化:使用双立方插值算法将输入LR图像放大m倍,得到初始HR图像X(0),同时设置初始迭代次数t=0。

3) 学习内部字典:利用K均值聚类算法将初始高分辨图像分为k类;通过式(4)和式(5)构造内部字典。

4) 学习外部字典:利用K均值聚类算法将收集的高分辨图像分为k类;计算每类的主成分;通过式(6)构造外部字典。

6) 优化:利用式(16)和(17)更新HR图像X(t+1),当t>T或X(t)

2 实验与分析

2.1 实验设置

为了模拟成像系统的图像退化过程,所有实验中首先对原始HR图像使用大小为7×7、标准差为1.1的高斯核进行模糊操作,然后使用3倍下采样操作,生成相应的LR图像。为确保实验的公平性,将文献[23]和本文方法的可控核回归(steering kernel regression, SKR)权重的局部分析窗口的大小均设置为5×5,用于计算相似度权重的图像块大小均设置为5×5,相似性邻域搜索半径均为20×20像素,文献[22]、文献[23]局部字典的类别K与本文方法中内部字典学习的类别K均设置为4。迭代过程中,文献[22]中正则化参数λ设置为4.7;文献[23]中迭代步长τ设置为1.25,正则化参数λ设置为0.05;本文中代步长τ设置为6.5,内部正则化参数λ设置为0.08,外部正则化参数γ设置为0.05。在文献[15]中将字典大小设置为1 024,相关的邻域数p设置为2 048,正则化参数λ设置为0.01。文献[16]中借鉴原文中参数设置。为了确保SR重建效率,正则项更新次数P均设置为200,最大迭代次数均为T=1 000。

2.2 实验结果

为了验证本文方法的有效性,将本文方法与ASDS[22],A+[15],SRCNN[16]和LLD[23]在用于文献[23]中的4个标准数据集上进行比较,其中4个标准数据集分别为Set5、Set10、Set14和BSDS100。Set5、Set10、Set14和BSDS100分别由5、10、14和100个图像组成。采用PSNR和SSIM指标[24]对重建图像进行客观质量评估。表1给出了5种不同方法得到的测试图像的PSNR和SSIM。如表1所示,本文方法的客观图像质量评估指标优于其他方法。

表1 不同超分辨方法的PSNR和SSIM值

进了进一步评估所提出方法的有效性,图2和图3分别展示了Set5中Butterfly和Set10中Parrots经不同算法处理后的SR比较结果。

(a)原图 (b)ASDS

(c)A+ (d)SRCNN

(e)LLD (f)本文方法图 2 不同方法处理后的Butterfly比较结果Fig.2 Comparison results of different methods on Butterfly

(a)原图 (b)ASDS

(c)A+ (d)SRCNN

(e)LLD (f)本文方法图 3 不同方法处理后的Parrots比较结果Fig.3 Comparison results of different methods on Parrots

图2、3中,基于ASDS的方法易生成模糊的边缘。A+的方法虽然能生成许多高频细节,但不能抑制明显的伪影和不期望的图像细节。SRCNN使用卷积神经网络实现LR和HR图像之间的端到端映射,当使用大量训练样本时,该方法可以获得较高的PSNR质量评价结果,但实际生成的图像较为模糊。LLD从给定的LR图像本身中学习了一组局部字典,然而,因缺乏足够的外部信息,该方法不能产生清晰的细节。根据图2和图3,可以看出本文方法能够在得到最高的PSNR和SSIM的同时,能产生最少的伪影和最清晰边缘,表现出最好的主观感知质量。

2.3 正则项的有效性

本文提出的SR方能法联合使用内部字典正则化项和外部字典正则化项提升SR重建质量。为验证该方法的有效性,分别对内部正则化项模型、外部正则化项模型和同时使用2个正则化项模型得到的SR重建图像的质量进行比较。分别使用上述3种模型对4个数据集中的图像进行SR重建实验,对比不同模型得到的PSNR和SSIM平均性能指标,对比结果如图4和图5所示。

图4 不同正则化模型PSNR对比结果Fig.4 Comparison of PSNR results obtained from different regularization models

图5 不同正则化模型SSIM对比结果Fig.5 Comparison of SSIM results obtained from different regularization models

从图4、5可以看出,同时使用2个正则化项获得的SR图像质量始终优于单一正则化项获得的SR图像。由于内、外部正则化项本质上具有互补性,因此有利于重建边缘更加清晰、纹理更加丰富的高质量图像。

3 结 语

本文提出了一种新的基于重构的单帧图像SR重建方法。该方法利用输入图像和外部HR图像分别构造内部字典和外部字典作为图像先验知识解决SR重建的不确定性问题,通过使用非局部回归模型设计2个具有互补性的正则项实现高质量的SR重建。在后续的研究中,可以考虑将多尺度相似性结构信息引入到本文提出的SR重建模型中,以获得更具竞争力的SR重建结果。

猜你喜欢
正则插值字典
保持双向等价关系的变换半群的一些结果
滑动式Lagrange与Chebyshev插值方法对BDS精密星历内插及其精度分析
字典的由来
基于pade逼近的重心有理混合插值新方法
任意半环上正则元的广义逆
sl(n+1)的次正则幂零表示的同态空间
大头熊的字典
不同空间特征下插值精度及变化规律研究
绿色建筑结构设计指南
正版字典