基于深度学习的图像降噪技术在智慧水利中的应用

2024-01-11 00:47
广东水利水电 2023年12期
关键词:纹理噪声深度

涂 强

(广东省水利水电科学研究院,广州 510635)

1 概述

数字化时代的背景下,智慧水利已成为水利领域内的发展趋势。智慧水利的核心是数字孪生平台,它依赖于物联网平台提供的大量数据来支持复杂模型的运行。物联网平台搜集的图像数据,特别是从全省范围内的各类监控设备、无人机、摄像头、卫星等采集而来的图像,为数字孪生平台提供了丰富的基础数据源。这些图像数据的精度对于提高数字孪生中模型的鲁棒性和识别率具有至关重要的影响。

然而,由于传感器的多样性和环境因素的影响,这些图像数据常常存在质量不一的问题。例如,日落时的低光照、复杂的天气条件、不稳定的网络环境等因素都可能导致图像噪声的显著增加,进而影响模型的准确性和可靠性。在这种背景下,图像降噪技术显得尤为重要。

智慧水利系统中,图像降噪处理面临着独特的挑战。水利工程中的图像通常表现出纹理密集程度的两极化特征:水面图像的纹理非常稀疏,而岸边植物的纹理则非常密集。这种特殊的图像特征要求我们采用针对性强、效果显著的图像降噪算法,以确保数字孪生平台中的模型能够基于高质量数据运行,从而提升智慧水利系统的整体效能和准确性。因此,选取和优化适合智慧水利特点的图像降噪技术,对于提升数字孪生平台的模型计算精度和系统整体性能,具有至关重要的意义。

2 图像降噪技术的发展历史

降噪技术的发展经历了从滤波器、转换域等传统方法,近年来发展为机器学习广泛应用的各类方法的演变过程。最初,线性滤波器[1]、非线性滤波器和转换域[3]被用于图像应用,线性滤波器包括均值滤波器、高斯滤波器、盒式滤波器等;非线性滤波器包括双边滤波器、非局部均值滤波器等,它们简单易实现,但对图像边缘及噪声类型较敏感;转换域方法包括傅立叶变换、小波变换、Z变换和余弦变换等,它们噪声抑制及边缘效果较好,但计算复杂度及实现难度较高。随后,基于机器学习的方法,如非局部集中稀疏表示[4](NCSR)、马尔可夫随机场[5](MRF)先验知识、梯度直方图估计[6]等方法,被应用于图像降噪。这些方法虽然在图像降噪方面取得了一定成效,但它们存在一些局限性,例如需要手动设置及优化参数,以及模型效果针对单一降噪任务有较好的效果,而泛化性不足。

深度学习技术在1980年代首次用于图像处理[7],到2015年开始广泛应用于图像降噪领域,如(Dcnn)[8]等。其中,卷积神经网络(CNN)在图像处理中取得巨大成功。LeNet[9]作为CNN技术的先驱,使用不同尺寸的卷积核来提取特征并在图像分类中表现出色。随后,AlexNet[10]、VGG[11]和GoogLeNet[12]等深度网络架构被提出并广泛应用于各种低层次计算机视觉任务。特别是,生成对抗网络(GAN)[13]在处理真实噪声图像和复杂噪声图像方面表现出独特的优势。

在神经网络的初期发展阶段,受限于计算能力的不足,尤其是在处理高维度和大规模数据的任务时,神经网络并未能在图像降噪等复杂领域中得到广泛应用。随着1999年英伟达发布第一代GPU架构GeForce 256,标志着GPU时代的开始。GPU等并行计算技术的进步,以及如Caffe、Theano、Matconvnet、TensorFlow、Keras和PyTorch等软件工具的支持,从而使得我们能够有效训练各种复杂的神经网络,进而可使用深度学习算法有效处理复杂的图像数据。

3 基于深度学习的图像降噪技术

3.1 图像降噪模型机制

基于深度学习的图像降噪技术已经迅速发展,形成了多种不同的类别,从模型机制分类,主要包括以下几种:卷积神经网络(CNN)降噪、自编码器降噪、生成对抗网络(GAN)降噪、基于转换域的降噪、注意力机制降噪、深度递归网络降噪、弱监督和无监督学习降噪等。考虑到图像降噪技术应用到真实图像上的实际情况,本文将基于深度学习的图像降噪技术分为两大类:单一端到端的卷积神经网络(下称CNN)降噪和结合先验知识的CNN降噪方法,并将这两大类方法总结如下。

单一端到端CNN降噪,通过改变网络架构,如使用不同阶段特征的CNN[14]、双U-Net结构[15]、批量重标准化[16]和扩张卷积[17]等,可以有效去除真实损坏图像中的噪声。这些方法利用多尺度知识和特殊设计的网络结构,能够针对低光照条件下的遥感[18]和医学图像[19]以及未知真实噪声图像进行有效处理。此外,采用递归连接、残差结构、注意力机制等方法可以进一步提高对噪声图像的处理能力,同时CNN在无监督学习方面的应用也显示出处理无配对噪声图像的优势,显示出了在处理水利工程中的复杂江河湖海图像的潜力。

结合CNN和先验知识的降噪方法则可以更有效率地处理复杂的真实图像噪声类型。例如,半二次分割(HQS)和CNN结合[20]用于估计真实噪声图像中的噪声,或者通过多阶段降噪方法[21],先把高斯噪声和机内成像通道用来合成噪声图像,再进行噪声估计和图像恢复。针对特定场景如低光照图像增强,采用结合CNN和先验知识的半监督方法[22]也十分有效,如半监督学习方法和分层深度GAN(HD-GAN)的使用,首先使用聚类算法对江河湖海图像进行多类别分类,然后通过收集不同江河、岸边类别的图像建立数据集。此外,还可以使用GAN来处理得到的数据集进行图像降噪和分类[23]。这些方法通过结合深度学习的强大能力和先验知识的具体指导,实现了对复杂噪声条件下图像的有效降噪。

深度学习进入图像降噪领域以来,多种算法被开发出来以应对不同的噪声挑战。我们以经典的BM3D[24](Block-Matching and 3D Filtering)为对比对象,进行一些经典算法与深度学习算法之间的性能对比;WNNM[25](Weighted Nuclear Norm Minimization)采用低秩矩阵近似技术,特别适合处理高斯噪声;DnCNN[26](Deep Convolutional Neural Network for Image Denoising)通过卷积神经网络学习去除噪声,适用于多种噪声类型;BRDNet[27](Boosted Residual Dense Network)通过增强的残差学习和密集连接提高降噪性能,擅长处理复杂噪声模式;ADNet[28](Adaptive Denoising Network)是一种自适应降噪网络,能够根据不同噪声条件调整降噪策略;IRCNN[29](Image Restoration Convolutional Neural Network)作为一种多功能图像恢复网络,不仅能够降噪,还能恢复图像质量;DudeNet[30](Dual-Domain Network)结合了图像域和变换域的处理方法,通过在这两个域内同时进行降噪来提高效果,特别适用于处理复杂和多样的噪声环境。此外,还有CIMM[31]、EPLL[32]、MLP[33]、TNRD[34]、ECNDNet[35]、FFDNet[36]等较为有代表性的算法。

3.2 图像降噪的物理成像机制

在基于深度学习的图像降噪技术中,按成像的物理方式,可分为单帧降噪和多帧降噪,先引用图像信噪比(SNR)的公式:

(1)

式中:

Sn——散粒噪声(shot noise);

Rn——读出噪声(readout noise);

Qn——其他噪声(Other noises);

T——快门时间;

F——镜头光圈数值。

由式(1)可见,从物理角度分析,在光线捕获方面,单帧降噪和多帧降噪存在显著区别。单帧降噪处理的是单张图像,因此它所捕获的光子信息量Q受限于该图像的单次曝光时间T。相比之下,多帧降噪通过分析和处理一系列连续的图像帧,实际上延长了总的曝光时间T,从而能够捕获更多的光子信息。这种增加的光子信息量使多帧降噪在提高图像质量方面具有天然的优势,尤其是在低光照条件下。

单帧降噪的主要优点在于其处理速度快且计算要求相对较低,使其非常适合于实时或快速响应的应用场景,如实时监控和即时通信。此外,由于只依赖于单张图像,单帧降噪在处理时对拍摄时的震动或移动较为鲁棒,不需要考虑多帧间的对齐问题。同时,由于水利工程的地理位置遍布城市与郊野,受到网络传输条件限制,有许多监测点位只能使用4G、5G等蜂窝网络传输单帧图像,单帧图像在水利工程中的适用范围更广。然而,这种方法的局限性在于,由于可用信息量有限,其在处理复杂或高度噪声的图像时的降噪效果可能不如多帧降噪。

多帧降噪则在PSNR和图像细节恢复(下称SSIM)方面表现更为出色。通过分析和处理一系列连续的图像帧,能够在延长总曝光时间的同时捕获更多的光子信息,从而在PSNR和SSIM方面表现出色。这种方法尤其适用于低光照条件下的图像处理,能够有效地提高噪声抑制效果并恢复图像细节。然而,多帧降噪在处理如江河湖海中流动水面这样的动态场景时面临着特定的挑战和限制。

在江河湖海等流动水面的场景中,多帧降噪的优点在于能够通过合成多个帧的信息来降低噪声,提高图像质量,尤其是在低光照或远距离拍摄的条件下。这对于提高水文监测、海洋研究或自然景观摄影的图像清晰度和细节表现非常有帮助。然而,这种场景的主要缺点是流动的水面会导致连续帧之间的内容变化,给图像对齐和稳定性带来挑战。流动的水面会引入额外的动态变化,这可能影响多帧间的一致性和对齐,从而降低降噪效果。此外,处理这类动态场景需要更高的计算资源和更复杂的算法,可能不适合需要快速响应或实时处理的应用。因此,虽然多帧降噪在提高图像质量方面具有明显优势,但在动态水面等场景的应用中,需要特别考虑图像对齐和处理时间的问题。

基于深度学习的多帧降噪代表性工作为谷歌发布的KPN[37](Kernel Prediction Networks)方法,后来发展为L-KPN[38],通过更大的预测核心区域,对低质量图像的恢复PSNR更佳;M-KPN[39]通过预测核的动态变化,实现密集纹理区域采用小尺寸预测核,平滑纹理区域采用大尺寸预测核,在保持PSNR的前提下,图像的不同区域均能获得良好的SSIM还原;AME-KPN[40]将注意力模块整合到KPN模型中,输出每个像素的空间自适应核、残差图和权重图,细化特征图并利用图像连拍中的帧间和帧内冗余,以达到更好的降噪质量。近期的进展还包括NTIRE-BSRC[41]出现于NTIRE 2022挑战赛,它展示了超分辨率技术在多帧降噪的应用,特别是在低分辨率和高噪声环境下的应用;NERF-BSRC[42]方法利用神经辐射场(NeRF)技术处理低光照和高噪声条件下的图像,优势为极端低光下图像的质量恢复;MM-BSN[43]方法使用多掩码技术处理真实世界中的图像序列,以实现有效的降噪。以谷歌发布的KPN为代表及其基础上改进的一系列算法,特别适用于处理现实水利工程条件下,噪声模式复杂且多变,环境光不充足时的图像。

4 案例研究

通过本次案例研究,我们旨在评估基于深度学习的单帧和多帧降噪算法在实际应用中的表现,特别是在复杂的自然环境和挑战性的光照条件下。我们期望这项研究能够为水文监测、水质污染物识别和环境保护等领域提供更有效的图像数据源,从而提升这些领域的识别、分类模型的应用效果。

4.1 数据收集

实验的第一步是收集大量的弱光图像数据,这些数据将来源于不同时间段(如日出前后和日落时分)以及不同天气条件(如阴天、雾天)下的江河湖海等流动水面。为了确保数据的多样性和代表性,我们将使用多种类型的摄像头和传感器进行图像捕获,包括无人机搭载的摄像头和固定的监控摄像头。这些设备将提供单帧和多帧图像,以供后续的降噪处理和分析。

参考Intel实验室“Learning to See in the Dark”[44]中(SID)数据集的方式来生成我们案例研究的测试数据集。SID数据集包含5094张原始短曝光图像,使用索尼A7SII和富士X-T2两台相机拍摄。SID数据集中,每一组各档ISO的弱光噪声图像都有对应的长曝光参考(ground truth)图像。噪声图像和相应的参考图像在水利工程的江河湖海是多样化的,为了保证图像的质量,参考图像是以噪声图像100~300倍的曝光时间拍摄的:即10~30 s。由于参考图像的曝光时间必然较长,因此SID数据集中的所有场景都是静态的。

在案例研究中,采用无人机进行江河图像的拍摄。由于飞行震动,无人机的稳定性较差,无法采用SID数据集的方式:直接把索尼α7S II等相机固定在三脚架进行稳定,拍摄100~300倍曝光时间的参考图像,因此采用不同的方法来生成测试数据集,以评估不同降噪算法在江河湖海等流动水面场景下的弱光图像处理效果。首先,使用Dji Mavic 3 Mini无人机在江河湖海的上空捕获大量弱光图像,Dji Mavic 3 Mini的图像CMOS传感器较小(1/2.5英寸),与很多水利工程中的摄像头CMOS尺寸相近,很容易获得质量不高的噪声图像。这些图像覆盖多种低光照条件,包括清晨、傍晚以及阴天或雾天等环境,确保数据集的多样性和实际应用场景的代表性。

为了在无人机飞行条件下获得高质量的参考图像(Ground Truth),选用了Dji Inspire 3及其搭载的蝉思相机进行拍摄。由于Dji Inspire 3的传感器尺寸(4/3英寸)远大于Dji Mavic 3 Mini(1/2.5英寸),其面积约为后者的11倍,因此在相同的低光照条件下,Inspire 3所需的曝光时间会比SID数据集中的参考图像少得多。这一点非常符合无人机拍摄的实际工况,能够在远小于噪声图100倍曝光时间的条件下,拍摄出足够质量的参考图像。

图1 江河场景的参考及噪声示意

4.2 评估标准

在水利工程领域,图像识别和分类模型的准确率受到PSNR[45](峰值信噪比)和SSIM(结构相似性指数)这两个图像质量指标的显著影响。例如,在大坝裂缝识别、水面污染物识别和水面漂浮物分类等应用中,模型的性能高度依赖于输入图像的质量。高PSNR值意味着图像中的噪声水平较低,低噪声图片可以清晰地展示裂缝的形状、大小或污染物的颜色和纹理。图像中的噪声如果过高,可能会掩盖或扭曲这些关键特征,从而降低模型在识别和分类任务中的准确性。PSNR采用下式计算:

(2)

式中,分母为MSE均方误差的计算公式,反映的是降噪图像与参考图像的像素之间的差异。M、N为图像的像素长度、像素宽度,B为图像的动态范围DR,B=2n-1,n表示像素的动态范围的深度,即8bit图像的255级亮度。

同样,SSIM作为衡量图像与原始场景结构相似度的指标,在水利工程的图像处理中也扮演着关键角色。高SSIM值表明图像在结构、亮度和对比度方面与原始场景高度一致,这对于模型来说是学习和分析水面环境中各种物体和现象的重要基础。例如,在水面漂浮物分类任务中,图像的视觉质量直接影响模型对不同类别物体的判别能力。SSIM采用下式计算:

(3)

式中:

ux,uy——图像像素矩阵中x,y的平均值;

σx,σy——像素矩阵中x,y的标准差;

σxy——图像矩阵中x,y的协方差;

D1,D2——是一个常量,它们的作用为稳定比值。

4.3 案例实验

在案例研究中,第三步骤是进行实际的降噪实验。在收集了大量的弱光图像数据并确定了PSNR和SSIM作为评估标准之后,将这些图像输入到主流的单帧降噪和多帧降噪模型中,以评估其在实际应用场景中的表现。这一步骤的核心目的是比较和分析不同降噪技术在处理低光照条件下江河湖海等流动水面场景的效果。

在实验过程中,将使用如KPN、L-KPN、MM-BSN、AME-KPN等多帧降噪算法,以及一些经典的单帧降噪算法。这些算法将被用来处理我们收集的弱光图像,目的是降低图像噪声,同时尽可能保留重要的细节和特征,如水面纹理、污染物的形状和颜色等。通过对比降噪前后的图像,使用PSNR和SSIM指标来量化降噪效果,从而客观评估每种算法的性能。

4.3.1江河场景

江河场景使用Dji Mavic 3 Mini无人机在江河的上空拍摄傍晚时分的弱光图像,江河的水流缓慢流动,对多帧降噪的图像对齐具有一定的要求,拍摄8~16帧为一组的同参数图像作为多帧降噪模型的输入。参考图像由Dji Inspire 3及其搭载的蝉思相机进行拍摄。

江河场景实验结果如图1~图3及表1所示。多帧降噪算法如KPN、AME-KPN和MM-BSN在稀疏纹理区域(如流动水面)及密集纹理区域(如岸边树木建筑)的PSNR和SSIM指标都较高,这表明它们能够更有效地从多帧图像中提取信息,实现较好的降噪效果。相比之下,单帧降噪算法如BM3D、BRDNet在这些指标上的表现相对较差,部分原因可能是由于单帧处理无法聚合多个图像帧中的信息,从而物理上接收的光子信息量较少。在处理如江河湖海这样的动态纹理场景时,因为这些场景中的细节和纹理信息特别丰富,因此,在光线不足的条件下,多帧算法通过累积多个图像帧的信息来提升降噪性能,多帧的光信息量具有一定的优势,而单帧算法则受限于单个图像帧的光信息,无法获得更好的降噪效果。由于江河的水流动态较为缓慢,因此,多帧降噪的SSIM并未受到帧间对齐的影响,依然高于单帧降噪。在单帧降噪中,基于机器学习的BRDNet效果仍优于BM3D。

图3 典型的单帧降噪和多帧降噪算法稀疏纹理区域表现示意

表1 典型降噪模型在江河场景的性能表现

4.3.1湖泊场景

湖泊场景使用Dji Mavic 3 Mini无人机在湖泊的上空拍摄夜晚的弱光图像,湖泊的水面基本静止,拍摄8~16帧为一组的同参数图像作为多帧降噪模型的输入。参考图像由Dji Inspire 3及其搭载的蝉思相机进行拍摄。

江河场景实验结果如图4~图6及表2所示。KPN、AME-KPN等多帧降噪算法在稀疏纹理区域(湖泊静止的水面)的PSNR和SSIM指标远高于单帧降噪算法。这表明当拍摄对象静止时,多帧图像更为容易对齐,因此多帧算法在降噪同时保留细节方面更加有效,尤其是在低光照环境中。单帧算法如BM3D在密集纹理区域的性能相对较差,这可能是因为它们缺乏足够的信息来处理这些区域的复杂纹理。多帧算法通过利用多个图像帧提供的额外信息,在提高降噪效果的同时更好地保留了图像的纹理和细节。

图4 湖泊场景的参考及噪声示意

图5 典型的单帧降噪和多帧降噪算法密集纹理区域表现示意

图6 典型的单帧降噪和多帧降噪算法稀疏纹理区域表现示意

表2 典型降噪模型在江河场景的性能表现

5 结语

在水利工程领域的应用中,图像质量是提高图像识别和分类模型准确率的关键因素。基于深度学习的单帧及多帧降噪技术能够通过整合多个连续帧的信息来提高PSNR和SSIM值,这对于江河、湖泊等场景的图像处理尤为重要。由于这些场景往往存在光照不足或是动态变化的情况,多帧降噪通过累积更多的光子信息,能够在保留关键特征如裂缝形状、污染物颜色和纹理的同时,有效降低噪声水平,从而产生清晰度更高、质量更好的图像。

单帧降噪技术由于仅处理单个图像,其性能在光照不足或复杂场景下的表现不如多帧降噪。单帧降噪在计算上更为高效,适用于需要快速响应的场合,但由于缺乏足够的光子信息累积,难以达到多帧降噪技术在PSNR和SSIM上的表现。因此,在有条件进行多帧图像采集时,对于图像质量要求较高的水利工程应用,如大坝裂缝识别和水面污染物分类中,多帧降噪更能有效提升模型的识别和分类准确率。

尽管单帧降噪在PSNR和SSIM上的表现较弱,但由于神经网络对环境特征及训练集采用的传感器性质具有强大的学习的能力,基于深度学习的单帧降噪仍取得了相对BM3D等传统算法的显著进步,在不便于采用多帧降噪的场景下,仍具有良好的应用前景。

总体而言,深度学习技术通过学习大量的图像数据,对于多帧降噪,它可以有效地整合多个图像帧的信息,提取更多的细节和降低噪声;对于单帧降噪,通过其强大的特征提取能力,即便在仅有单一图像的情况下也能最大化地恢复原始图像的结构和纹理信息。深度学习的应用显著提高了图像降噪模型性能,进而提高了水利工程中依赖图像输入进行识别、分类的各个模型在实际应用中的可靠性和准确性。

猜你喜欢
纹理噪声深度
深度理解一元一次方程
噪声可退化且依赖于状态和分布的平均场博弈
基于BM3D的复杂纹理区域图像去噪
使用纹理叠加添加艺术画特效
深度观察
深度观察
深度观察
控制噪声有妙法
TEXTURE ON TEXTURE质地上的纹理
消除凹凸纹理有妙招!