基于多级残差注意力的X-ray图像超分辨率重建

2023-11-02 12:36张建波刘佳琦
计算机应用与软件 2023年10期
关键词:基本块特征提取残差

张建波 杨 璐 刘佳琦 张 祯

1(天津理工大学天津市先进机电系统设计与智能控制重点实验室 天津 300384)

2(机电工程国家级实验教学示范中心(天津理工大学) 天津 300384)

3(天津医科大学总医院重症医学科 天津 300052)

0 引 言

医学影像作为临床医学中发展最迅速的学科之一,从最初的X-ray到CT、MRI、CR等,医学影像设备及技术在不断地更新换代。由于我国医疗资源分布不均衡,多数基层医院及乡镇医院只具备X-ray影像设备,通常情况下均使用X-ray来完成日常体检以及各种肺部疾病的前期检查。但是在X-ray图像采集过程中,受到成像设备以及成像参数(辐射量)的影响,获取的图像分辨率往往有限。通过更新硬件设备来提升图像分辨率不仅成本高、难度大,而且实用性不强。而超分辨率重建技术可以有效提升图像质量,使医生能够更清晰地观察到相关病灶的细节信息,为相应的诊断及诊疗方案的制定提供便利。

超分辨率重建技术[1-3]旨在通过一幅或者多幅低分辨率的图像恢复出高分辨率图像[4-6],在医学影像、视频复原、军事侦察等多个领域已得到了广泛的应用。现有超分辨率方法主要分为基于插值[7]、基于重建[8]和基于学习[9]的方法。最常见的基于插值的超分辨率重建方法包括双线性插值和双三次线性插值,但经过插值获得的超分辨率图像往往过于平滑,容易在边缘处理上因丢失高频信息而出现细节模糊以及锯齿问题。基于重建的方法通常利用多帧图像及先验知识约束解空间进而完成图像的超分辨率重建,相对于插值方法的重建效果有一定改善,但是对配准算法和先验知识依赖性过高。通过学习高低分辨率图像之间非线性映射关系完成图像重建是目前主流的基于学习的重建方法,常见方法有Yang等[10]提出的稀疏编码方法、Chang等[11]提出的邻域嵌入法、Timofte等[12]提出的邻域回归法(ANR)等。Dong等[13]首次利用卷积构造出包含特征提取、非线性映射、重建模块的卷积神经网络SRCNN实现高效的图像的超分辨率重建,其计算复杂度低,且能够在保证高质量图像的同时完成图像快速重建。自SRCNN提出后,基于CNN的图像超分辨率算法逐渐成为主流图像重建方法。随着神经网络的不断深入研究,学者们陆续提出了FSRCNN[14]、VDSR[15]、D-DBPN[16]等超分辨率重建算法,并在自然图像超分辨率重建上取得了较好的效果。

虽然深度学习与超分辨率的结合在自然图像上获得了良好的重建效果[17],但是在语义简单且结构较为固定的肺部X-ray医学图像重建上仍存在特征提取时大量高频信息的丢失导致的重建图像边缘不清晰以及细节模糊等问题。针对上述问题,提出一种基于多级残差通道注意力的X-ray图像超分辨率重建方法。主要贡献归纳如下:

(1) 提出一种超分辨率重建方法MRAN(Multistage Residual Attention Network)。以残差神经网络为基础框架,去除原残差块中批归一化层并嵌入通道注意力机制,构造模型基本块,自适应地校正各信道的特征响应,强化肺部器官图像的纹理细节特征;利用多级残差学习逐步简化信息流,加速网络训练;设计多尺度融合模块进行特征提取,进而获取图像更加完整的结构信息;使用Bicubic生成图像与亚像素卷积图像融合,弥补信息提取时造成的特征损失,完成最终图像的超分辨率重建。

(2) 将提出的MRAN应用于肺部X-ray图像的超分辨率重建,实验结果表明,该方法取得了更高的PSNR和SSIM值,并且重建出的肺部图像边缘清晰、纹理丰富,更接近真实图像。

1 相关工作

1.1 残差学习

随着CNN的不断发展,学者们发现网络层次是影响网络性能的重要因素之一,网络的深度越深,模型的性能就会越好。因此学者们对于网络的设计更趋向于不断加深网络层次,以获取更高的评价指标值。这不仅加大了网络计算量和内存开销,还带来了梯度消失以及模型退化等问题。针对上述问题,He等[18]提出了ResNet模型,并且在模型中提出了残差学习的思想,通过添加跳跃连接(Skip Connection)的方式,保证信息实现更好的回传,加快网络的收敛速度。残差学习结构如图1所示。

图1 残差学习结构

残差学习将原先学习恒等映射φ(x)=x的任务转化为学习输入与输出之间的残差F(x)。相对于拟合恒等变化关系,拟合残差更加容易,这可以使学习任务变得更加轻松。在网络的反向传播中,通过添加跳跃连接使得各网络层之间梯度信息能够更好地传递,有效地缓解了梯度消失和网络退化问题。本文将进一步改进原始残差块,以残差学习方式简化学习过程,并以多级嵌套方式逐步添加跳跃连接,进一步简化信息流,加速网络的收敛速度。

1.2 通道注意力机制

近年来,由于注意力机制在建模全局依赖关系[19]以及降低无关图像域特征信息[20]方面表现出的良好性能,被广泛用于深度神经网络之中。通道注意力机制通过使用不同的激励权重对各个通道进行激励,使网络更加关注于高频信道特征,达到加速网络收敛和提升网络性能的目的。Hu等[21]提出的SENet表明在神经网络中,不同通道的卷积核所提取到的特征图是不同的,其对于超分辨率重建中恢复高频细节信息的重要程度也是不一样的。若在网络中同等处理各信道特征,会导致网络在处理高低频信息时缺乏灵活性,难以充分利用上下文信息进行有效的特征学习。

如图2所示,通道注意力机制主要由挤压、激励、注意力三部分组成。该模块首先对输入图像进行全局平均池化,完成各通道像素值的压缩,获取逐通道统计z∈RC,然后通过两个卷积层学习各个通道的激励权重,最后将激励权重与各通道像素进行Hadamard乘积实现对不同特征通道的调节,得到最终输出。具体实现如下:

图2 通道注意力机制

(1)

S=σ(W2δ(W1z))

(2)

Uc=Sc×Uc

(3)

式中:zc为z的第c个元素;Hsq表示特征压缩操作;uc(i,j)为特征图的第c个通道(i,j)位置的像素值;σ和δ分别表示Sigmoid和ReLU激活函数;W1和W2分别为激励权重。网络通过通道注意机制自适应的校正各个信道的特征响应,强化高频信息通道,利于超分辨率图像边缘细节的重建。对于肺部X-ray图像而言,其纹理细节特征对疾病的分类诊断尤为重要,因此本文将通道注意力机制嵌入到残差块中构成网络基本块,在保证强化高频信道特征的同时,加速网络收敛,进一步提高网络的性能。

2 方法设计

本文设计的X-ray图像超分辨率重建网络MRAN主要由三部分构成:特征提取模块、基于特征融合的通道注意力信息提取模块、重建模块。网络的整体架构如图3所示。

图3 MRAN网络整体结构

2.1 特征提取模块

特征提取模块用于从ILR中提取特征,该模块由双层3×3卷积构成,特征维度均为64。ILR为原始输入,由IHR经图像退化得到,特征F-1、F0的提取过程通过式(4)-式(5)实现。

F-1=Hconv(ILR)=σ(W-1×ILR+B-1)

(4)

F0=Hconv(F-1)=σ(W0×F-1+B0)

(5)

式中:W表示权重矩阵;B表示偏置项;σ表示非线性ReLU激活函数。相较于SRResnet以及EDSR等模型使用单层卷积完成特征提取,双层卷积提取的特征更加精细,能较好地抑制卷积层在进行特征提取时特征的丢失问题。

2.2 基于特征融合的通道注意力信息提取模块

信息提取模块将对特征提取模块传入的特征图进行深度特征提取和残差信息学习,该模块由多尺度特征融合模块和多级残差注意力基本块构成,FLF的提取过程由式(6)实现。

FLF=HDF(F0)

(6)

式中:F0为特征提取块提取到的特征;HDF为信息提取操作。经过信息提取模块进行信息充分提取后,获取的信息FLF经过全局残差学习得到特征FGF,FGF将用于最终高分辨率图像的重建。

2.2.1多尺度特征融合模块

在深层提取图像特征的过程中,各种特征信息往往是不同尺度的,但目前多数网络都是用单一卷积核来实现特征提取,这往往会导致信息提取过程中结构信息的缺失。本文对Inception结构[22]进行改进,使用不同大小的卷积核通过并行路径完成特征提取后进行特征融合,以此来获取图像更加完整的结构信息。本文设计的多尺度特征融合模块如图4所示。

图4 多尺度信息融合模块

在多尺度信息融合模块中,对于上层输出的特征,通过三种不同的卷积路线进行特征提取,其中以两个3×3卷积核替代5×5卷积核,在保证感受野相同的前提下,减少模型参数量。各卷积路线的输出特征维数分别为32、48、32,然后使用concat层进行特征信息融合。concat层按通道维度对各卷积路线的输出特征进行叠加,例如上述三条卷积路线共包含112个卷积层,则经过concat层后的输出可由式(7)获得。

(7)

式中:W表示权重矩阵;B表示偏置项;σ表示非线性ReLU激活函数,经过拼接后输出的特征图通道维数变为112维。最后,在保持concat层所有特征的前提下,使用1×1卷积核完成特征降维,从而缩减多尺度特征图的数量,进一步减少网络的参数数量。

2.2.2基于残差注意力机制的基本块

基础块是网络架构中的基本组成单元,也是图像超分辨率重建任务中重要的非线性特征映射模块,它直接影响图像的重建效果。本文以残差网络为基础实现网络架构搭建,删减原残差块中影响高频信息表达的批归一化层,嵌入利于高频信息提取的注意力机制模块,完成模型基本块RCAB(Residual Channel Attention Block)的构建。模型基本块RCAB如图5所示。

图5 基本块RCAB

RCAB基本块中将上层输入使用两个连续的3×3卷积核进行特征信息提取后,输入到通道注意力模块中,对各个通道进行不同的权重激励,获取特征Fd,LF。基础块通过通道注意力机制使网络强化高频信道特征,有利于图像细节的重建。使用残差结构完成实现Fd,LF与Fd-1的连接以获取输出Fd,进一步改善信息流,提升了网络表达能力。Fd获取过程由式(8)实现。

Fd=Fd-1+Fd,LF

(8)

如图3中虚线框所示,将6个RCAB基本块以多级嵌套方式进行残差连接,构成一个中级残差注意力模块。每个RCAB基本块的输出都将作为后续基本块的输入,并且后续RCAB基本块通过多级残差连接实现图像特征的复用,在每个中级残差注意力模块末端添加卷积层,进一步实现各级特征融合后的特征整合。网络中共设置了10个中级模块,每个中级块的输出将通过跳跃连接进行有效前传,使得所有块的输出都得到充分利用。

考虑到输入图像与输出图像具有较高的相似性,引入全局残差学习来解决网络难以收敛问题。各个中级模块的输出特征最终融合后使用卷积层进行特征整合,并与全局特征进行残差学习,减少网络冗余,进而获得用于最终重建的特征FGF。

2.3 重建模块

重建模块利用网络学习到的各层次特征,重建生成最终的高分辨率图像ISR。首先,使用Upsampler模块实现低分辨率到高分辨率的非线性映射,完成高分辨率图像Frec1的获取。本文的Upsampler模块是由亚像素卷积和3×3卷积层构成,通过从低分辨率到高分辨率的非线性映射实现图像超分辨率的重建。网络在进行特征学习时不可避免地存在一定程度上的特征损失。为弥补该损失,本文采用双三次线性插值方法对原始图片进行插值,生成高分辨率图像Frec2。最后,将所获得的两幅图片进行像素加法,获得最终的输出ISR。

2.4 损失函数

在MRAN模型训练中,优化网络的损失函数是整个网络模型的调度中心。本文采用均方误差(MSE)作为衡量模型输出的ISR与真实图像IHR之间差异的损失函数[23],如式(9)所示。

(9)

式中:L(θ)代表均方误差损失;F(Yi;θ)和Xi分别代表重建后的高分辨率图像ISR和原始高分辨率图像IHR;n代表训练样本总数目。在网络训练中,通过不断计算ISR和IHR之间差异,持续更新各层网络参数θ=(W1,W2,…,B1,B2,B3,…),最终获取最佳的网络参数模型。

3 实验分析与结果

本文使用Ubuntu系统,并在该系统下利用PyTorch框架进行模型搭建。服务器配置为NVIDA RTX 2080 Ti×2,软件配置为Cuda 9.2。在网络训练中,设置batch_size为8,初始学习率为1E-4,采用Adam算法[24]作为模型优化算法,设置每200个epoch时将学习率减半,保证模型在逐步迭代中达到最优。

3.1 数据集

使用两种不同的数据集进行实验仿真。第一种是美国蒙哥马利县公开的Montgomery County X-ray Set数据集,从中选取120幅纹理丰富、清晰度高的X-ray图像作为训练集的HR图像,使用图像退化获取LR-HR图像对用于网络训练,将剩余的18幅图像作为测试集,用于模型重建效果的测试。第二种是由NIH发布的Chest X-ray14数据集,包含十四种常见肺部疾病的X-ray图像,共计112 120幅。从中随机选取520幅图像,并以不同分辨率的图像对各个模型的重建效果进行测试,以此来充分验证模型的鲁棒性与泛化能力。

在模型训练中,为防止因训练数据集图像较少可能带来的模型过拟合问题,采用三种方法对训练集进行数据增强:(1) 图像旋转,旋转角度为90°、270°;(2) 图像翻转,将图像进行上下翻转和左右翻转;(3) 图片缩放,缩放比例为0.9、0.7。

3.2 量化指标

本文采用峰值信噪比(PSNR)和结构相似度(SSIM)作为量化指标,来客观衡量各图像超分辨率方法的重建性能。其中,PSNR是一种最常见的基于像素间误差灵敏度的图像客观评价指标[25]。而SSIM将失真建模为亮度、对比度、结构的组合,进而客观衡量ISR和IHR的相似度。本文采用这两种指标(式(11)-式(12))在YCbCr颜色空间的Y通道上评估模型重建图像的质量。

(10)

(11)

(12)

式中:MSE代表均方误差;H和W分别代表图像的高和宽;μ和σ分别代表两幅图像的均值与方差。PSNR与SSIM可以客观反映出重建图像相对于原始图像的失真程度,其数值越大,表明失真越小。通过计算各个模型在同一测试集上的平均评价指标值,可以客观地衡量各网络模型的超分辨率重建性能。

3.3 实验对比

为更好地评估网络性能,在同一台服务器上使用×2的拉伸倍数,将本文设计的MRAN网络与Bicubic、SRCNN、VDSR、LapSRN四种超分辨率重建方法进行比较。SRCNN具有三层卷积层网络结构,以双三次线性插值图像作为网络输入;VDSR在结合残差学习思想基础上,将网络层次增加至20层;LapSRN模型在网络中融入了拉普拉斯金字塔模型的思想,以搭建的24层网络实现图像的超分辨率重建。在对比实验的实现过程中,使用MATLAB interp2函数实现Bicubic方法,其余对比模型均根据相关作者的开源代码实现。

本文提出的MRAN模型相对于SRCNN以及VDSR等算法具有更深的网络层次,模型的复杂度更高。在少量增加模型参数的同时,使得模型性能得到较大的改善。MRAN模型可以实现端到端的模型训练,完成图像的快速重建,完全满足医学图像超分辨率重建对速度的要求。图6展示了网络训练过程中各模型的量化指标增长曲线,MRAN模型在逐步迭代训练过程中,能够在最短的时间内实现模型收敛,并且获得了更高的PSNR量化指标值。

图6 各模型的PSNR值随迭代次数增长曲线

表1展示了各模型在不同测试数据集上的平均量化指标值。可以看出,传统方法Bicubic重建出的超分辨率图像的评价指标值最低,而其余对比模型较于Bicubic都有了不同程度的提高。值得注意的是,本文提出的MRAN模型在PSNR和SSIM两个量化指标上,均超过了几种对比的超分辨率模型。充分说明,MRAN模型性能相较于其他模型有了一定的提升。

表1 不同测试集上各模型的平均量化指标值

为更加直观地说明各模型的超分辨率重建效果,使用各个模型对Montgomery County X-ray Set数据集中同一图像进行超分辨率重建,重建效果如图7所示。可以看出,图7(b)的重建效果最为模糊,而图7(c)虽然在一定程度上提升了模型的清晰度,但是边缘轮廓仍然不清晰,对于图像细节的重建效果不佳。图7(d)和图7(e)分别为VDSR和LapSRN两种算法重建出的高分辨率图像,其整体重建效果较为清晰,在边缘细节上也展现了良好的连续性,但是可能出现棋盘格子伪影现象。图像的超分辨率重建效果不佳,很大程度上是由于图像重建过程中对高频信息利用不足导致的。本文提出的MRAN算法模型能有效地提取LR空间中更多的有用特征,增强网络对高频信道的关注度,进而实现更好的重建效果。图7(f)是MRAN模型重建出的高分辨率图像,优于其他网络的重建图像,具有清晰的边缘和纹理细节,更加逼近真实的高分辨率图像。

图8和图9展示了各个模型在Chest X-ray14测试集上的重建效果。可以看出,本文提出的MRAN模型在不同像素的图像上获得了与Montgomery County X-ray Set测试集相近的重建效果。并且,重建效果均优于其他模型,更加接近真实的高分辨率图像,充分证明MRAN模型具有较高的鲁棒性和泛化能力。

(a) Original (b) Bicubic (c) SRCNN

(a) Original (b) Bicubic (c) SRCNN

4 结 语

本文提出一种基于多级残差注意力的X-ray图像超分辨率算法模型MRAN。通过使用注意力机制来改进原始残差块,构建模型基本块RCAB,在优化模型收敛的同时,使网络更加关注充满边缘细节的高频信道特征,进一步提升网络对于图像边缘细节的重建效果;使用多尺度特征融合模块,将不同卷积核提取的多尺度特征进行融合,更好地实现图像结构信息的完整提取;以多级嵌套方式进行残差学习,并使用卷积层对各基本块输出进行特征调和,加速网络收敛,进一步提升网络性能;将亚像素卷积图像和Bicubic生成图像进行融合,弥补特征提取过程中的特征损失,最终完成图像的超分辨率重建。实验证明,本文设计的模型在PSNR和SSIM上都有较大程度的提升,且重建出的图像细节更加清晰丰富,能够更好地帮助医生发现病变部位,从而提升诊断准确率。在未来的工作中,将针对图像的多尺度超分辨率重建进行研究。

猜你喜欢
基本块特征提取残差
基于双向GRU与残差拟合的车辆跟驰建模
基于级联森林的控制流错误检测优化算法
距离与权重相结合的导向式灰盒模糊测试方法
基于残差学习的自适应无人机目标跟踪算法
一种检测控制流错误的多层分段标签方法
基于递归残差网络的图像超分辨率重建
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
平稳自相关过程的残差累积和控制图
基于MED和循环域解调的多故障特征提取