压缩图像增强方法研究综述

2023-11-20 10:58赵利军曹聪颖张晋京陈彬涛王安红
计算机工程与应用 2023年21期
关键词:图像增强伪影图像

赵利军,曹聪颖,张晋京,赵 杰,陈彬涛,王安红

1.太原科技大学 电子信息工程学院,太原 030024

2.中北大学 大数据学院,太原 030051

在图像采集、压缩、通信等过程中,由于各种客观因素的影响往往会导致图像质量变差,比如图像信息丢失、图像模糊、压缩伪影等问题,因此,非常有必要对低质量图像进行增强,使其可以满足人类视觉的要求,同时有助于计算机系统通过增强后的图像达到高精度的目标检测和识别。图像增强技术是指利用某种图像处理方法对不满足人类视觉需要或不宜被计算机识别处理的低质量图像进行处理,该技术致力于提高图像的清晰度,加强某些重点区域图像特征,削弱某些不重点区域的特征,进而达到图像增强的目的。

图像增强处理方法现在已经应用到生活的方方面面,人们已不满足于追求更高质量的图像,而是将图像增强处理应用于各个领域。例如,在航空航天领域,由于受到成像设备硬件、气候条件以及图像传输过程中遭到极端恶劣因素的影响,地面端所接收到的图像的质量往往较差,因此,需要对接受到的图像进行增强。在车联网系统中,需要利用采集到的图像进行检测、分类、识别、定位等处理,以满足人们对于车辆行驶过程中路况的了解。在生物医学领域中,由于受到医学设备的影响,采集到的图像往往有较大的噪声,不利于医生对医学影像的观察并根据图像作出正确的诊断,因此,需要对图像进行去噪处理,以及对器官、组织和病灶的检测、识别和分割。在古籍修复方面,由于一些客观原因造成的古画破损以及还原古物原本面貌等方面都需要使用图像增强技术。在工业方面,图像增强技术主要用于产品质量的检测、机器零部件的识别,以及零部件尺寸的测量等方面。由此可见,图像增强方法已经关系到人们生活的方方面面,与人们的生产生活紧紧相关。受到计算机等硬件设备的限制,早期的图像增强技术主要是利用信号处理的方法对图像的时域或频域信息进行处理。时域方法主要是针对图像像素级别的信息进行处理的方法,即直接对图像中各个像素进行处理,如滤波方法[1-4]、非凸低秩优化方法[5]、字典学习稀疏表示方法[6]、非局部均值滤波方法(non-local means,NLM)[7]等。频域方法利用傅里叶变换[8-9]、小波变换[10]、离散余弦变换[11]等方法将图像信息转换到频率域进行处理,针对图像的高频和低频信息进行有目的的增强。然而,这一时期的图像增强技术也仅仅只是追求图像高质量的视觉效果,它们无法满足计算机视觉的目标识别和检测等任务需求。

不同于传统的图像增强技术,随着计算机硬件设备性能的提升以及5G 通信技术的成熟,基于深度学习的图像增强技术近年来得到广泛的应用和发展。值得注意的是,压缩图像增强是图像增强领域的一个非常重要的分支研究。然而,在图像压缩过程存在的量化以及变换过程会带来严重的压缩伪影,比如细节丢失、振铃效应、模糊伪影和块伪影等,因此有必要对压缩后的图像进行质量增强。

一般来说,压缩图像增强方法可以分为两个大类:传统的图像增强方法和基于深度学习的图像增强方法。

1 传统的压缩图像增强方法

传统的压缩图像增强方法主要专注于解决图像噪声去除问题,同时提升图像的清晰度,增强人的视觉感观。传统的压缩图像增强的处理方法主要有空域法和频域法,如表1介绍了传统的图像增强方法的特点及优缺点。空域法是对空间域中的像素特征进行处理,其原理是:在一定大小的窗口内,分析中心像素与其相邻像素的关系来得到新的中心像素值的方法。典型的空域算法包括基于滤波的图像增强方法、非凸低秩模型[5]、字典学习方法[6]、非局部均值滤波方法[7]等。接下来,将依次介绍这些方法。

表1 传统的图像增强方法对比Table 1 Comparison of traditional image enhancement methods

滤波方法包括均值滤波[1]、中值滤波[3]、高斯滤波[2]和双边滤波[4]等。在均值滤波器中[1],中心像素值是邻域的平均灰度值。高斯滤波方法[2]的原理是随着邻域像素与中心像素距离的增大,滤波权值呈现高斯衰减的特性。这样做的优点是距离中心较远的像素点的作用小,而缺点是高斯滤波模糊了图像的边界信息。中值滤波对孤立噪声的处理效果比均值滤波要好,而且它能保留更多的边界信息,但是对局部细节如细线和小块的目标区域不友好。中值滤波[3]是将窗口中心点的灰度值用窗口内所有像素值的中值替代。双边滤波[4]是通过自适应的空域和值域卷积核来有效地保护图像的边缘信息,从而提高图像的信噪比。CONCOLOR 方法[5]利用非凸低秩优化模型来实现压缩图像的块效应去除,并且在不改变现有编解码器情况下就能将量化约束变换到可行解空间。K-SVD方法[12]利用K均值(K-means)和奇异值分解(singular value decomposition,SVD)相结合的方法,解决了在固定变换矩阵基底下图像不能自适应处理纹理信息的问题,但该方法的缺点是更新字典时所需的计算量较大。Chang等人[6]利用稀疏表示和冗余字典学习的方法来有效降低JPEG(joint photographic experts group)压缩伪影,但是经过该方法增强图像的高频信息恢复效果不好。考虑到基于图像滤波的增强方法只关注有限窗口范围内的像素信息,NLM算法[7]使用整幅图像的信息进滤波,该方法以图像块为单位遍历整幅图像,寻找与该块相似区域,再对这些相似的区域进行加权求和,这样就能获得滤波输出。

虽然空域增强方法对压缩图像的增强起到一定的作用,但是这种方法的计算复杂度高,噪声去除不彻底,图像增强质量不高,并且没有充分考虑图像信号和噪声信号的特点。于是一些学者开始利用图像信号和噪声信号的频率变换研究图像增强问题。频域增强是通过某一种或多种频率变换,将图像信号从空间域转换到频率域,然后利用频率特性将不同频率的噪声去除,之后再通过反变换将图像信号从频率域转换到空间域,以达到图像增强的目的。频域变换的方法主要有傅里叶变换(discrete Fourier transformation,DFT)[8-9]、小波变换(discrete wavelet transform,DWT)[10]和离散余弦变换(discrete cosine transform,DCT)[11]等。傅里叶变换的频谱图上的点表示某一点与邻域的梯度大小。因为傅里叶变换需要用到整个频域的信息,所以不能刻画信号的局部特征。由于傅里叶变换只能分析出一段信号的整体特征而无法确定成分出现的时刻,同时不能在时域进行分析,因此,对于突变和非平稳信号来说傅里叶变换的处理效果并不理想。DFT变换公式可以表示为:

其中,u=0,1,…,M-1;v=0,1,…,N-1。傅里叶反变换(IDFT)可以表示为:

DCT 变换是通过将多个不同的余弦函数求和来近似原始图像信号的方法,这里每个余弦函数的频率和幅值不同。由于DCT变换具有将空间域的信号转换到频率域的能力并且它能够很好地去除信号的相关性,因此,它非常适用于图像压缩。例如国际压缩标准JPEG就采用DCT变换。DCT变换可以表示为:

为了充分利用空域方法与频域方法的优点,Dabov等人[13]提出了BM3D(block-matching and 3D filtering)方法,这种方法利用NLM 计算块间相关性并且利用小波变换计算块内相关性,通过相似判定寻找与参考块相似的图像块,然后将其与相似块组合成形成三维数组,再对该三维数组进行协同滤波处理,最后将其聚合到原图像块的位置。

2 基于深度学习的压缩图像增强方法

不同于传统的压缩图像增强方法,深度学习压缩图像增强已经获得学者们的广泛关注。早期研究者关注如何设计复杂的网络拓扑结构来提升压缩图像增强模型的性能。然而,很难进一步提升这些模型性能,同时这些模型缺乏可解释性。近来,可解释的压缩图像增强网络模型充分地利用传统优化模型的可解释性和神经网络模型的高性能优点。接下来,将依次介绍这两种模型,再介绍网络优化方法。

2.1 经典的压缩图像增强网络模型

近年来,随着深度学习技术的深入研究和计算机设备性能的不断提升,基于深度学习的压缩图像增强方法得到广泛的研究,如图1。早期的深度学习压缩图像增强方法一般使用单域的网络结构加跳跃连接的方式提升神经网络的性能,进而提高图像的清晰度,如图1(a)所示。Dong 等人[14]开创性地将CNN 应用于JPEG 压缩伪影去除,并提出了具有三层网络结构的压缩图像增强方法ARCNN。但是,考虑到深层ARCNN 的训练比较困难,Zhang 等人[15]提出了DnCNN 网络,利用批归一化层和残差学习大大地提高了网络的训练速度。随后,Jin等人[16]利用图像的高低频特性将图像分解为低频图像和高频图像,然后将这两个图像分别输入到两个增强网络中,最后将两个增强后的特征图融合起来,得到一幅高质量的图像。然而,这些方法的网络架构相对简单,对压缩图像质量的提高效果不高。一些学者开始研究对抗生成网络模型或者Transformer模型来解决压缩图像质量增强问题[17-18]。例如,Rippel等人[19]首次利用对抗生成网络解决压缩图像的增强问题,提出一种面向低比特率压缩的自适应图像增强算法。Wang 等人[20]将U-Net 与Swin Transformer 相结合,构建了一种图像增强架构,即Uformer,该架构在Transformer 层中使用非重叠窗口自注意力来减少各种图像增强任务的计算量。Liang 等人[21]将Swin Transformer 和残差学习结合起来,开发了一种SwinIR 基线模型方法,致力于解决JPEG压缩伪影的去除问题。

图1 面向图像增强的卷积神经网络模型对比Fig.1 Comparison of convolutional neural network models for image Enhancement

如图1(b)所示,不同于单域压缩图像增强算法只进行图像域特征提取,多域图像增强算法从多个域同时使用两个或者三个网络去提高图像的质量。一些学者将频域和深度学习算法相结合来研究压缩图像增强问题。例如,Wang等人[22]首次将DCT域引入到JPEG伪影去除的工作,并且该方法结合深度网络的强大学习能力来实现JPEG 压缩伪影去除。Liu 等人[23]将小波变换引入到CNN 中,以更好地权衡感受野的大小和计算效率。Chen等人[24]提出一种用于JPEG压缩图像软解码的像素域和小波域神经网络。另一些学者使用两个深度学习网络恢复图像。例如,Kirmemis等人[25]提出了一种挑选最优网络的方法,该方法从三个压缩伪影去除网络中挑选性能最好的网络。DMCNN 网络[26]集成了双域网络与自编码器网络的特点,有效地去除了全局的压缩伪影。Zhang等人[27]提出一种隐式双域卷积网络IDCN,该网络将量化表作为一种先验信息输入到网络的各个对偶域关联单元。值得注意的是,IDCN 的扩展版本IDCN-f 能够处理经过不同量化参数压缩的失真图像。不同于以上方法,Zhang 等人[28]提出了一种具有维度扩展策略的通用模型,解决了低分辨率输入图像的模糊核和噪声水平之间的维度失配问题,并且解决了多重图像退化的增强问题。

虽然上述方法可以很好地实现图像增强任务,但是在现实的生活中不仅仅需要得到高质量的图像,也需要利用这些图像完成一定的任务,如自动驾驶车辆中需要利用这些图像进行道路的识别,信号灯的检测等等。很显然,单任务网络已不能满足实际应用的需要,这就需要利用一个网络实现两个甚至多个任务,如图1(c)所示。例如,Bai 等人[29]将图像压缩任务与图像分类任务联合训练,将部分网络共享,减少了网络训练的时间,降低了模型参数量的大小。此外,为了利用一个网络得到一系列增强图像以满足人类主观视觉的需要,于是Guo等人[30]提出了一种一对多的网络,解决了传统神经网络只能输出一种增强效果图像的问题。

尽管基于多任务学习的增强方法可以实现多个目标的输出,但其只是对多个网络的简单堆砌,这无疑增大了模型的计算复杂度,占用了较多的计算空间。对压缩图像增强任务而言,当使用不同的量化参数压缩图像时,多任务方法需要构建多个支路训练不同量化参数下的压缩图像增强网络。与之相比,单任务方法则需要重复多次训练来达到压缩图像增强的目的。由此可见,非常有必要训练一个网络来完成多个任务,如图1(d)所示。近年来,一些研究人员引入参数化网络来解决这个问题。例如,Fan等人[31]提出了一种解耦学习算法,联合地训练该算法的权重学习网络和基础网络,权重学习网络可以向基础网络分配相应的权重,以实现不同任务的图像增强。类似地,He等人[32]提出了一个单一深度学习模型,通过使用基础CNN模型和AdaFM的自适应特征修改层来解决任何退化的图像增强问题。AdaFM层只需调整插值系数即可实现平滑、连续和无伪影的恢复。此外,Wang等人[33]提出一种CFSNet网络来自适应地学习主模块和调谐模块之间不同层和通道的耦合系数,以更好地控制恢复图像的质量。

2.2 可解释的压缩图像增强网络模型

由于深度神经网络模型通常比较复杂、网络层数较深,因此,常常会导致网络模型的参数量过多、复杂度过高、不利于梯度的反向传播等问题,这种高度复杂的模型使得模型的作用及各层之间的关系较难解释。可解释模型的出现解决了这一问题,提高了模型的性能和鲁棒性。一般来说,可解释的图像增强网络模型按照优化算法展开方式可分为动量梯度下降法、半二次分裂法、近端梯度下降法和交替优化算法,如表2 所示。表2 总结了这些算法的典型方法和各自的优缺点。例如,DUMRN[34]在变换域进行图像稀疏表示,这样就能在去噪过程中保留重要的图像特征,使用多尺度方法来捕获不同级别的细节信息,并通过数据驱动的参数化正则化器自适应地处理不同水平的噪声。MoG-DUN[35]使用非局部自回归的图像先验模型来指导网络设计,解决了带有正则化的最小二乘问题,使用半二次分裂法将带有等式约束优化问题转化为不带等式约束优化的问题。MMNet[36]提出了一种记忆增强模型驱动的深度展开算法,该算法将全局和局部隐式先验作为最大后验概率模型来探索跨模态的多光谱和全色图像关系,并利用交替最小化算法来求解最大后验概率模型。MGDUN[37]提出了一种基于模型的多对比度深度展开网络,该算法将网络建模为最小化数据拟合误差和结构先验的优化问题,该方法可以在保持结构细节的同时有效地提高图像的分辨率。

表2 可解释的压缩图像增强网络模型总结Table 2 Model summary of interpretable compressed-image enhancement networks

如表2所示,一些研究者还使用近端梯度下降法来展开算法,并依据展开算法来设计可解释网络模型。例如,Fu 等人[38]提出了一种模型驱动的JPEG 压缩伪影去除深度展开算法,该算法使用卷积字典建立了一个用于去块伪影的最大后验模型,该算法还继承了数据驱动的深度学习方法的强大建模能力和传统模型驱动方法的可解释性,该方法可以自动地探索JPEG 伪影和图像内容的表征。ISTA-Net++[39]通过制定一种动态展开策略来处理具有不同观测率的压缩感知重建问题,该方法能够显著提高压缩感知的恢复质量。MADUN[40]提出了一种记忆增强深度展开算法,该算法设计了一种包含高通量短期存储器和跨级长期存储器记忆增强的近端映射模块来减少相邻级之间的信息丢失,这样就能增强网络表达能力。COAST[41]提出了一种投影增强策略,该策略可以实现在采样空间中任意采样,此外还提出一种可控近端映射模块来动态调整网络,从而有效地消除伪影。OPINE-Net[42]使用可学习的采样矩阵,并将正交约束和二元约束同时纳入到采样矩阵的构建中,同时通过图像块联合重建策略来有效地去除图像块伪影。DGUNet[43]在不损失网络可解释性的情况下,将梯度估计策略集成到近端梯度下降算法的梯度中,使其能够解决真实退化图像的增强问题。DGUNet 还设计了一种跨阶段的近端映射信息传递路径来解决大多数深度展开网络所存在的信息丢失问题。InDuDoNet+[44]联合了空间域和Radon域进行图像重建,并利用近端梯度技术来优化算法,该算法仅由简单的计算(如逐点乘法)组成,极大地促进了网络体系结构的展开。

除了以上方法,另外一些研究者使用交替优化算法对复杂的优化问题进行优化求解,并依据对应展开的迭代求解公式来设计可解释网络模型,如表2 所示。例如,UTVNet[45]通过学习基于模型的全变差正则化去噪方法中的平衡参数,同时通过展开相应的最小化过程来进行推断,这样就能恢复更精细的细节信息。DAN[46]设计了一种基于卷积神经的恢复器模块和基于卷积神经网络的估计器模块,通过反复交替展开形成了一种端到端可训练网络。URetinex-Net[47]通过数据驱动的方式拟合隐式先验,并将其分为四个子问题的求解来实现噪声抑制和细节保存。此外,一些学者还提出了其他算法。例如Ren 等人[48]将保真度问题转化为压缩图像恢复问题,再通过改进的布雷格曼迭代法解决压缩图像恢复问题,实现了良好的去块效果。受传统迭代阈值重建算法的启发,Aghabiglou 等人[49]在每次迭代时使用网络输出和初始零填充估计之间的误差来计算噪声水平参数,将自适应噪声水平参数引入到展开结构中。在展开算法的迭代过程中,噪声水平参数充当网络的图像操作强度的演化正则化器,从而提高了图像重建质量。根据上述分析可知,可解释的深度学习模型[50-51]能够极大提升图像增强模型的性能。

2.3 网络优化方法

深度学习通常需要模型优化使其能够有效地提取特征。一般来说,深度学习模型优化包括两个部分:数据项优化和正则化项优化。数据项优化是通过最小化损失函数来优化模型的参数,使其能够更好地预测训练数据。数据项通常包括均方误差、交叉熵等。数据项优化依赖于大量的数据集来训练模型。这些模型可用于解决去噪、超分辨率、去雾等问题。例如,Zhang 等人[15]提出了一种基于残差学习的卷积神经网络来去除图像噪声。正则化项优化是通过添加额外的约束条件来优化模型的参数,以减少过拟合现象。正则化项通常使用先验知识或模型约束来提高图像增强结果的鲁棒性和稳健性。例如,Zhang等人[52]提出了一种基于CNN的图像恢复方法,通过在优化目标函数中增加一个TV 正则化项来保持图像的边缘结构。Wang等人[53]提出了一种基于结构相似性的图像质量评价方法,该方法使用一个正则化项来对图像质量进行修正。在实际应用中通常将数据项和正则化项进行加权组合,得到总的损失函数,并使用梯度下降等方法对该函数进行优化,以获得最佳的模型参数。

为了消除压缩图像像素间的冗余,一般采用对神经网络模型优化技术来解决压缩图像像素间的冗余消除问题。另外,还可以通过低秩优化、字典学习和主成分分析(principal component analysis,PCA)方法来解决该问题。低秩优化方法将数据进行矩阵分解,通过将高维数据映射到较低维空间来减少计算复杂度和存储需求,有效地提高数据处理和分析的效率。Candes等人[54]利用了矩阵的低秩性和观测数据的稀疏性,通过求解凸优化问题来填充缺失的矩阵元素证明了最优的复杂度的问题。字典学习是一种稀疏表示方法,它通过构建基向量集合或字典,寻找数据的最优稀疏表示。与低秩优化不同的是,字典学习更关注数据的稀疏性和表达能力,它可以用来提取数据的特征并进行分类、聚类等任务。Michal等人[12]提出了一种K-SVD字典学习算法,该算法通过迭代更新字典中的基向量和系数来训练字典。PCA是一种线性的降维技术,它通过寻找数据的主成分来将高维数据转换为低维空间。PCA 通常被用来降低数据的维度、提取数据的主要特征等。与字典学习不同的是,PCA 是一种无监督学习方法,不需要人工标注的训练数据。Pearson 等人[55]提出了一种基于最小平方误差原则的多元统计分析方法,用于分析数据中变量之间的线性关系成为现代统计学和机器学习中一个重要的数据降维技术。邸云霞等人[56]在投影域和图像域进行主成分分析来提高图像的彩色表征能力,从而获取清晰的图像。

除上述方法外,一些学者从计算机硬件方向提高图像的处理速度,如肖汉等人[57]提出一种基于GPU 平台的直方图统计图像增强算法,大大提升了处理大幅面数字图像的处理速度。与CPU 串行算法相比,该算法有两个数量级的提高。对于深度学习解决计算机视觉问题需要海量的数据作为支撑的问题,研究了如何在少量或者低质量的训练数据中进行数据增广也是一项具有重大意义的工作,对于深度学习解决计算机视觉问题需要海量的数据作为支撑的问题,林成创等人[58]研究了如何在少量或者低质量的训练数据中进行数据增广的问题。

3 压缩图像增强方法的深度学习关键技术

随着深度学习模型的快速发展,学者们不再只是关注于复杂的网络拓扑结构设计,而是将更多的工作重心放在深度学习关键技术如对比学习、强化学习、课程学习、知识蒸馏、对抗学习和网络架构搜索,如图2。接下来,将依次介绍这些关键技术。

图2 图像增强的关键技术Fig.2 Key techniques for image enhancement

3.1 对比学习

对比学习[59]是指在没有标签的情况下,直接利用数据本身学习得到一个模型使得正样本与预测样本的相似度远远大于负样本与预测样本的相似度,如图2(a)所示。对比学习是一种无监督或自监督的学习方法。对比学习包括两种方法:生成式方法和对比式方法。其中,生成式方法以变分自编码器(variational auto-encoder,VAE)[60]和生成对抗网络(generative adversarial network,GAN)为代表,这类方法关注的是像素级重构,也就是说,将网络中的数据编码成特征再进行重构,重构的效果是通过像素级损失来进行定量化的衡量。对比式方法也称判别式方法[61],这类方法是将数据分别与正样本和负样本在特征空间进行对比,进而学习样本的特征表示。对比学习的难点在于如何构造正负样本、如何设计模型结构以及如何防止模型坍塌。为了解决这些问题,He等人[62]提出了将队列和动量编码器归结为一个大的字典,从而帮助对比学习。Grill等人[63]提出一种引导自身潜力的自监督学习方法,该方法使用在线网络和目标网络来实现相互作用并相互学习,这里没有使用负样本,仅仅使用正样本学习。类似地,SimSiam[64]解决了没有负样本的问题,并且不需要动量编码器和批大小。Ji等人[65]将对比学习应用于低级视觉的图像超分辨率任务中,将低质量的图像作为负样本,将真实图像作为正样本,并且没有使用预训练的网络就可用于解决图像增强任务。Wu等人[66]将对比学习从三个视图将图像分解为噪声部分和背景部分来构造负样本用于图像恢复任务中。Li 等人[67]将对比正则化与自编码器结合用于图像去模糊,对比正则化确保恢复后的图像更接近真实图像。Li 等人[68]引入了一种类内对比正则化方法构造类内负样本,将其作为图像恢复网络解空间的约束。Kaelbling 等人[69]提出了一种由基于对比学习的退化编码器和退化引导恢复网络构成的图像恢复网络,该码器和退化引导恢复网络构成的图像恢复网络,该网络可以在一个网络中恢复各种退化的图像。根据上述讨论可知,通过构造正负样本的方式,对比学习技术使得增强图像更接近于真实图像,从而极大地提升了图像增强任务的性能。

3.2 强化学习

在智能体与环境的交互过程中,强化学习[70]通过学习策略以实现特定目标的方法。智能体要通过不断试错的方式来获得最佳策略,而不是像有监督学习直接告诉智能体在什么环境下应该做出什么动作。强化学习就是通过学习一序列最优动作得到最大的长期奖励。对于强化学习而言,任一状态下做出的动作对当前状态和下一个状态都是有影响的,从而对整个执行过程的奖励造成一定影响,这一问题是具有挑战的。如图2(b)所示,从当前的状态St出发,在做出一个行为At之后,对环境产生了一些影响,它首先给智能体反馈了一个奖励信号Rt,接下来智能体更新环境状态智能体St+1,进而进入一个新的状态,再做出新的行为,形成一个循环。DQN[70]解决了强化学习存在高维状态空间的问题,但对于连续动作空间的效果不好。于是,DDPG[71]引入了actor-critic 架构来解决这一问题的。在训练过程中,Lillicrap等人[72]利用奖励函数单调递增来解决DDPG网络参数更新步长不易确定的问题。

除了机器人控制、交通、能源、金融、游戏等领域外,强化学习能够用于解决图像增强问题。例如,Yu等人[73]构建了一个功能强大且轻量级的工具箱,首先代理从该工具箱中选择一个工具并且使用它来恢复图像,然后代理根据之前的结果选择另一个工具重复恢复直到代理决定停止为止,这样就解决了现有网络只能完成单一任务的问题。Zhang等人[74]提出了一种将多个传统的去噪器集成为一个强的去噪器的深度强化学习方法,该方法将图像恢复问题转化为马尔可夫决策过程,该方法可以恢复具有多重组合失真的图像。Yu 等人[75]使用具有难度调节奖励的强化学习来选择最优路径进行图像恢复。Furuta等人[76]将深度强化学习扩展到像素级强化学习,该方法不仅考虑到了自身像素未来的状态,而且考虑到了相邻像素未来的状态,对图像压缩伪影去除、图像去噪、图像恢复等任务效果显著。由此可见,强化学习是进一步提升压缩图像增强任务的关键技术之一。

3.3 课程学习

类似于人类学习的过程,课程学习首先给简单的样本较高的权重,随着训练的进行,艰难的样本权重被逐步提高,将从容易的样本开始学习再进阶到复杂样本的训练过程称之为课程学习[77],如图2(c)所示。课程学习可以加速网络模型的训练,减少网络训练的迭代次数,提高网络模型的泛化能力,可以让网络训练到更好的局部最优状态。早期的课程学习主要依靠人工干预,不使用数据驱动的方法。例如,Kocmi等人[78]利用课程学习翻译生僻的单词和句子,这是一种比较困难的任务。自动的课程学习的出现很好地解决了人工学习的弊端,如Kumar等人[79]提出一种自步学习,根据样本的难易程度来实现由易到难的学习。Chang等人[80]将雨纹去除问题纳入到课程学习范式中,以一种从粗到细、从易到难的引导方式逐步学习雨纹信息预测。Shu等人[81]提出了一种局部到全局、容易到困难的课程学习策略,以确保神经网络首先关注噪声抑制,然后消除模糊,以实现退化图像的重建。很显然,课程学习也能够用于解决压缩图像的增强问题。

3.4 知识蒸馏

知识蒸馏[82]使用的是“教师-学生网络”的训练方法进行模型的压缩。教师网络可以看作是“知识”的输出者,其模型相对复杂,可以有多个模型集合而成,可以完整地学习真实数据内容,学生网络可以看作“知识”的接受者,可以学习教师网络的分布和真实数据内容,其模型相对简单、参数量较少,最后将学生网络应用于实际应用部署中,而不是教师网络,如图2(d)所示。Huang等人[83]认为神经元是具有选择性的,从而提出让教师网络和学生网络选择性迁移。Passalis 等人[84]利用匹配空间的概率分布进行特征的迁移。Lee等人[85]利用特征图之间的相关性进行蒸馏,并通过奇异值分解来提取特征。Zhu等人[86]提出了一种针对单图像超分辨率任务的与模型无关的元知识精馏方法,该方法通过具有可学习参数的知识表示网络,提供了一种更灵活和更准确的方法,帮助教师根据学生的能力传递知识。Xia 等人[87]提出一种基于知识蒸馏的盲超分网络,该网络的教师网络将成对的高分辨率图和低分辨率图作为输入,学生网络只输入低分辨率图,实现了任意退化图像超分辨率的提高。Li等人[88]提出两种异构蒸馏策略,能够提高轻量级模型和高噪声模型的图像增强性能。Cui等人[89]利用知识蒸馏的方法实现了从合成图像和真实雨图像中提取的雨条纹特征分布的一致性,可以缓解真实雨图中雨条纹过度去除或者去除不干净的问题。很显然,知识蒸馏技术能够被用于解决压缩图像增强问题,并且该研究具有很大发展空间。

3.5 对抗学习

在神经网络模型的训练过程中,加入对抗损失能够减少数据标注的需求量,让有标签的图像与无标签的图像同时优化模型。对抗损失分为一般对抗损失、随机对抗损失和虚拟对抗损失。一般对抗损失对数据进行两次损失计算,依次是对输入数据进行损失计算以及噪声图与输入向量的和的损失,这两次损失计算可以加强模型的鲁棒性。随机对抗损失随机生成一个形状与嵌入相同的向量,接着进行掩码操作,然后使用L2损失进行正则化处理生成噪声,最后将生成的噪声与输入向量相加进行损失计算。虚拟对抗与随机损失有点相似,但是引入了KL散度。对抗损失的计算流程及结构如图2(e)所示。

对抗损失的计算公式为:

其中,公式的第一部分为判别器的损失函数,lnD(x)表示判别器将真实数据判定为真的概率,ln(1 -D(G(z)))为判别器将虚假数据仍判定为假的概率。大多数的压缩伪影去除方法一般使用均方误差损失,经过仅仅使用该损失函数训练的网络增强之后的图像往往会出现图像过平滑效果。为了解决该问题,Galteri等人[90]提出利用GAN损失来训练JPEG压缩图像增强网络,该方法通过交叉训练全分辨率图像与小尺寸的子图像来更好地优化压缩伪影去除模型。为了实现高感知质量的图像压缩,张雪峰等人[91]根据比特率-失真-感知优化理论来设计损失函数,总损失包括三个部分:均方误差损失、VGG损失和对抗损失。在基于WGAN的图像恢复任务中,Ma等人[92]引入了一个额外的约束,用于校正生成器的训练梯度,提高了图像恢复任务的视觉质量。Zhang等人[93]发现在合成高分辨率图像的过程中总是存在块伪影,于是引入了小波鉴别器在频谱域进行判别来有效地减少图像伪影的出现。Yu 等人[94]提出了一种用于视频压缩伪影去除的对抗生成网络,该网络包含一个具有递归框架的生成器和一个相对论判别器。这里,生成器用于提升增强视频的一致性,而相对论判别器用于度量原始高质量视频帧和生成帧之间的关系。根据上述可知,对抗损失不仅用于解决压缩图像的增强问题,而且用于解决压缩视频的增强问题。由此可见,对抗损失约束学习是压缩图像增强网络性能提升的关键技术之一。

3.6 网络架构搜索

在网络模型训练的过程中,网络模型的参数严重影响着其性能的好坏。网络参数主要有两类:一类是训练的参数(如批大小,学习率,延迟因子等),另一类是网络结构的参数(如网络的层数,卷积的数量,卷积核的大小等)。然而,这些参数的设置往往需要经过大量的实验验证或者依靠人工经验的设置,这个工作量无疑是巨大而繁重的。因此,网络架构搜索(neural architecture search,NAS)[95-97]技术解决了这一难题,它将这一任务交给机器,让机器学习一个最优的架构。NAS的搜索过程为:首先确定搜索的空间,然后通过一定的搜索策略找出较优的网络结构,并对其评估,根据评估结果进行下一轮的搜索。

Lee等人[97]提出了一种包含外部学习和内部学习的神经结构搜索算法,外部学习通过初始化网络,使其能够适应图像的内部特征,而内部学习过程为测试图像找到一个有效的网络架构,并训练网络权值。Cheng 等人[98]提出了一种即插即用的神经结构搜索方法来研究单图像超分辨率任务,该算法不仅搜索了网络架构,还搜索了网络结构中的每个节点的激活函数、从节点和跳跃连接节点,隐式地控制网络结构中的节点数量,避免大量跳跃连接的出现。Wu等人[99]提出了一种编译器感知的NAS 图像超分辨率算法,该算法使用自适应超分辨率块进行深度搜索和每层宽度搜索,大大提高了收敛速度,满足了小型移动设备的需求。Cai 等人[100]将多尺度架构搜索和注意力搜索纳入统一的神经架构搜索框架中实现图像去雨任务,该任务通过基于梯度的搜索算法自动搜索网络的内部多尺度注意架构,同时联合优化外部损失、内部损失、架构损失、正则化损失和模型复杂度损失,实现鲁棒去雨性能和可控复杂度的模型。Ning等人[101]提出了一种结合模型引导设计与NAS 的算法,该算法采用高度可重用的宽度搜索策略和密集连接的搜索块,通过梯度下降自动选择各层的操作以及网络的宽度和深度,有效地增强图像去噪和压缩伪影减少的效果。Zhang 等人[102]提出了一种有效的硬件感知神经结构搜索的图像超分辨率算法,该算法支持在一个大的网络体系结构空间中进行搜索,包括网络的宏拓扑结构(例如,块的数量)和微观结构(例如,卷积核类型、通道维度和激活类型),能够适应多种小型移动设备的应用。不同于前面介绍的六种技术,网络架构搜索不仅能够极大地减少研究者设计网络所需要的时间,而且减少了研究者的模型调参工作量。

4 研究展望

如今压缩图像增强已广泛应用于自动驾驶、安防监控和数字媒体、医学图像处理等众多领域。压缩图像增强未来还面临一些挑战:

(1)随着5G时代的到来,图像视频的数据量也飞速提升,仅仅提高计算机存储量以及网络带宽并不是解决数据量大的唯一方法,消除图像像素间的冗余信息,提高压缩效率并提升重建图像的质量可以更好地减少计算机存储空间,占用较少的网络带宽。因此,如何消除图像间的像素冗余,如何在低比特率的情况下实现压缩效率的增强以及如何提升压缩图像的质量成为未来研究的课题之一。

(2)压缩图像增强旨在处理经过压缩编码的图像,然而这些图像在不同压缩质量下的失真程度是不同的,而且不同的压缩算法对不同类型的图像也会产生不同的影响。此外,现存的压缩图像增强算法还存在参数量大,模型复杂度高的特点。因此,需要研究不同类型压缩失真图像的增强问题、轻量化的小模型和低复杂度的深度学习模型。

(3)现有的大部分压缩图像增强模型常常根据实践经验来设计神经网络的拓扑结构,使得这些网络成为一种黑盒模型。很明显,这些模型往往缺乏数学模型支撑,并且缺乏合理的可解释性,这将极大地限制面向压缩图像增强的深度学习模型性能。尽管目前少数专家已经开始研究可解释的压缩图像增强模型并且取得一些初步的成果,但是这些方法还不能满足需求。由此可见,需要深入研究可解释的压缩图像增强模型。

(4)随着深度学习的发展,学者们研究的课题不仅仅只是为了提升压缩图像的质量,而更多的是用于实际场景,如检测、识别、定位和图像修复等方面,因此,如何将压缩后的图像应用于实际场景也是未来的研究课题之一。

面对以上问题和挑战,不仅需要科研工作者从计算机硬件方向着手研究计算速度更快、内存更大、价格更加低廉的硬件设备,而且还需要研究高效的压缩算法使其更好地应用于小型的移动端设备和各种复杂多变的场景。此外,对于深度学习解决计算机视觉问题需要海量的数据作为支撑的问题,研究如何进行训练数据增广也是一项具有重大意义的工作。综上所述,压缩图像增强的研究还面临着诸多挑战,需要充分利用现有的算法和技术手段,并且需要结合实际应用场景和需求,才能实现高效和高质量的压缩图像增强处理。

5 结束语

本文主要从传统的压缩图像增强方法和深度学习的压缩图像增强的方法两类方法入手介绍图像增强技术的发展与分类,并比较它们的优缺点。其次,介绍并分析了压缩图像增强的几种关键性技术。这些关键技术的深入研究能够推动压缩图像增强技术的深入发展,从而使图像增强技术在各个领域发挥重要作用。随着网络技术和硬件技术的不断快速发展,图像增强不仅追求图像质量的提高,而且追求将其应用于各种场所并且方便人类生产和生活。

猜你喜欢
图像增强伪影图像
改进的LapSRN遥感图像超分辨重建
图像增强技术在超跨声叶栅纹影试验中的应用
水下视觉SLAM图像增强研究
有趣的图像诗
虚拟内窥镜图像增强膝关节镜手术导航系统
核磁共振临床应用中常见伪影分析及应对措施
基于MR衰减校正出现的PET/MR常见伪影类型
基于图像增强的无人机侦察图像去雾方法
减少头部运动伪影及磁敏感伪影的propller技术应用价值评价
一种无伪影小动物头部成像固定装置的设计