融合类激活映射和视野注意力的皮肤病变分割

2023-11-20 10:58梁凤梅刘建霞
计算机工程与应用 2023年21期
关键词:视野像素皮肤

张 宇,梁凤梅,刘建霞

太原理工大学 信息与计算机学院,山西 晋中 030600

皮肤癌是常见癌症之一。拥有高转移率的黑色素瘤作为最致命的皮肤癌,发病率也最高,罹患该病的患者早期诊断治愈后存活率超95%,但晚期发现后5年存活率低于15%[1]。因此,皮肤病变的早期快速诊断与及时治疗对患者和医学研究都是至关重要的。

皮肤镜检查被广泛用于皮肤病变的无创早期诊断。然而,仅根据皮肤科医生经验对黑色素瘤进行检测,主观性相对较强且检测过程耗时。近年来,随着计算机视觉的发展,医学图像分割已成为计算机辅助诊断的重要组成部分,它可以帮助医生快速准确地诊断皮肤镜图像,提供医学图像的专业解释[2]。但是,由于图像对比度低、病变大小不一、颜色多变等因素的存在,导致病变边界模糊,分割精度较低;此外,气泡、头发、标尺标记、血管和照明等不同程度的干扰对分割皮肤病变图像造成了较大的困难。

皮肤病变图像的计算机辅助分割方法分为无监督法和有监督法两大类,传统无监督的分割方法主要有聚类、阈值分割[3]、区域生长法[4]和活动轮廓模型[5]等,但其获得的病变分割结果精度有待提高。近年来,有监督的深度卷积神经网络(convolutional neural network,CNN)方法已广泛应用于各个领域,尤其在医学图像分割领域。端到端的编码解码结构是医学图像分割中最常见的,基于CNN 的皮肤病变分割方法被广泛提出。Bi等人[6]提出了一种分级分割方法,利用浅层全卷积网络学习位置信息,通过深层网络学习病变边界等细节信息。Chen 等人[7]提出了基于DCNN 的图像分割方法DeepLab,后又在其基础上提出了DeepLabV2、Deep-LabV3 和DeepLab V3+[8]网络,其中DeepLab V3+模型主要由提取多尺度信息的空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)模块[9]和细化分割结果的解码器结构组成,该模型在图像语义分割中表现出较好的效果。Abraham 等人[10]提出一种基于Tversky 指数的新损失函数,结合U-Net 提高了皮肤病变分割精度,证明了损失函数的重要性。此外,基于注意力的网络已广泛用于计算机视觉中的不同任务,Tong等人[11]结合三重注意力机制,提出一种皮肤病变分割的U-Net扩展网络,证明了注意力可改善网络的语义分割结果。王雪等人[12]将多尺度特征模块融入U-Net 中,捕获病变中多尺度信息。Ashraf 等人[13]通过将三种深度学习模型相结合,对皮肤镜图像进行复杂的前后处理,同时结合测试时增强和条件随机场模块提高了病变分割精度。尽管现有的深度学习方法在皮肤病变分割方面表现出一定的性能,但临床中要实现皮肤病变自动分割诊断,仍需高精度的病变边缘分割作为支撑,也就是说,皮肤病变精确分割仍是一项极具挑战性的任务。

损失函数是深度学习模型中的重要组成部分,而在医学图像分割任务中最常采用交叉熵损失[14]或Dice 损失函数[15],合理选择或改进损失函数可有效优化网络模型。在图像分割任务中,将对分割结果优化贡献大的像素点(如边界像素)称为硬像素,其在训练过程中可产生较大误差。与之对应的容易被识别的像素点(如内部病变和背景像素)称为易像素[16-17],其在训练中产生误差较小。而在皮肤病变图像中硬像素和易像素之间存在严重的不平衡,使网络无法精确监督病变边界像素,导致分割结果边界模糊。

针对以上难点,本文对DeepLab V3+模型做部分改进以提高分割精度和边缘检测精度:(1)生成病变图像类激活映射图,输入到网络作先验信息;(2)利用视野注意力机制实现局部跨视野交互,提高网络对多视野中有益视野信息的关注;(3)调整网络结构,优化分割模型;(4)改进损失函数,提高对硬像素误差的关注。

1 算法原理与网络结构

1.1 类激活映射

深度学习模型在不断更新参数寻找最优解的过程中,训练会陷入低学习率区而导致耗时。皮肤病变区域通常只占皮肤镜图像的一小部分,图像中大部分是正常皮肤组织,且多带干扰因素,如头发、标尺、血液、血管和气泡等。为解决以上问题,本文将皮肤病变图像的类激活映射[18](classification activation mapping,CAM)作为先验信息,融合到网络编码器中。

类激活映射是一种可视化卷积神经网络工具,本文将关注的地方用暖色调显示,弱关注的地方用冷色调显示。改进Xception[19]网络来生成类激活映射图,将其预先在ImageNet 数据集上训练完成,且不参与整个模型的训练过程。为避免在生成CAM过程中丢失小病变信息和病变细节信息,去除Xception网络模型的最后一层池化层,如图1 所示,在其后接全局平均池化层(global average pooling,GAP),GAP 首先把网络生成的特征图转化为特征向量,不同的特征映射图分别生成不同的特征向量值W1,W2,W3,…,Wn(如图1),然后用这些特征向量值对相应的特征映射图进行加权,最后用热力图将加权后的特征映射按通道归一化生成类激活映射图。

图1 CAM结构图Fig.1 CAM structure

本文使用的DeepLab V3+模型中特征提取模块也为Xception网络,故生成的类激活映射与改进后的空间金字塔生成的特征映射分辨率相同,因此可直接融合到网络中作为先验信息。

1.2 视野注意力机制

视野(感受野)在深度学习网络中扮演重要角色,它反映输出特征图在输入图像中映射的具体区域大小。小视野特征图像包含局部信息,大视野特征图则包含全局上下文信息,但同时也包含一些无用信息。本文对ASPP 模块进行改进,原结构将不同感受野处理后的特征图直接拼接,忽略了它们之间的内部相关性,无法自适应地调整各视野间的特征响应值,导致网络无法精确提取病变轮廓,使得边缘分割不准等问题产生。为解决以上问题,本文对高效通道注意力(efficient channel attention,ECA)模块[20]进行改进并应用于ASPP模块上,设计出一种融合视野注意力的空洞空间金字塔池化模块(receptive field attention ASPP,F-ASPP),具体结构如图2所示。

图2 F-ASPP模块结构图Fig.2 Structure diagram of F-ASPP module

实际中ECA模块只采用全局平均池化来捕获不同通道间关系,其主要强调整体背景信息,而全局最大池化(global max pooling,GMP)可反映细节特征纹理,在特征提取中同样重要,故本文在进行视野注意力权重计算时,将5 个不同视野生成的特征立方体块Fn∈RH×W×C同时进行全局平均池化和最大池化,计算过程如式(1)和(2):

其中,H、W、C分别代表不同视野特征块的长、宽和通道,Fn(i,j,k)代表视野块中的特定位置的像素值。

然后将不同视野块生成的最大池化和平均池化特征图分别拼接为Fmp∈R1×1×5和Fap∈R1×1×5(见图2),并通过共享权值1D 卷积层转化为特征向量,计算过程如式(3),这样通过极少的参数,可获得不同视野下特征图之间的相关性;在网络模型有监督训练的过程中会不断更新1D卷积层的参数,直至达到最优解,进而自适应的调整不同视野特征图所占权重。再将处理后的Fmp和Fap按视野求和并用Sigmoid函数激活生成最终的权重值,最后将其与对应视野块中的每个通道进行加权,生成带视野注意力的特征图,实现局部跨视野交互,增加网络对不同病变大小的感知度和对不同区域病变边界的敏感性。

式中,Conv1D(·)为一维卷积层,其卷积核大小为3,σ(·)为激活函数。

同时,为减小模型参数量,将原ASPP模块中的3×3空洞卷积换为3×1 和1×3 的级联对称空洞卷积,如图2中左半部分所示,相比原结构此部分减少了33%的计算量。

1.3 网络结构改进

图3 为本文网络结构的整体框架图,以DeepLab V3+为主网络,主网络的骨干网络选择改进Xception网络,其生成的特征图的分辨率与CAM分辨率大小相同,同时将其末尾的两个深度可分离卷积替换为可分离的空洞卷积,这样可补偿去除下采样层带来的感受野减少的问题。再将CAM图与F-ASPP提取后的特征图连接,然后采用1×1 卷积层、批量归一化层和ReLU 激活函数(图3融合层)进行信息融合,即融合先验信息与深层特征信息。最后将融合后的特征图提供给网络的解码器,以实现更准确的病变分割。

图3 网络结构整体框架图Fig.3 Overall framework diagram of network structure

相对低分辨率表征来说,高分辨率表征包含更精细的空间信息,为充分保留高分辨率表征所特有的特征细节,本设计增加了两个解码器与编码器之间的跨层融合,分别加在1/2 下采样和1/8 下采样之后,见图3 中点画线。最后通过二倍上采样恢复原始图像分辨率和空间细节信息完成解码过程,输出最终分割结果,以上进行的拼接操作中的特征图分辨率均相同。

1.4 混合损失函数

在网络训练中,由于皮肤病变图像中硬像素和易像素之间存在严重的不平衡,若仅使用Dice损失函数虽然对类不平衡数据有很强的兼容性,但它对硬像素和易像素的关注度相同,无法精确监督病变边界像素,最终会导致分割结果边界模糊,为进一步优化网络,本文采用改进后的混合损失函数,具体如式(4):

其中,N表示像素数,pi表示第i个像素属于病变的预测概率,yi表示第i个像素的真实标签,ε表示平滑因子;Lrank为排序损失函数,λ为Lrank损失函数的权重值。

由于硬像素在训练过程中易产生较大的误差,合理处理后可为监督学习过程提供更多信息,而易像素在训练过程中产生误差较小,故在损失函数中融合排序损失来对硬像素和易像素增加额外的罚分约束。排序损失根据每批前向传播后的误差,分别对病变(正例)和背景(反例)的像素进行排序,根据排序动态选择病变和背景中误差最大的前k个像素作为本区域硬像素,考虑每一对病变和背景像素点,如果病变像素的预测值小于背景,则记一个“罚分”,若相等,则记0.5个“罚分”,计算过程如式(6)。这样可制约硬像素带来的更多误差,进而精确监督病变边界,提升网络性能。

其中,Ⅱ(*)为指示函数,在是否符合*中条件时分别等于1和0,f(H+i)和f(Hj)是输入图像的第i个病变硬像素和第j个背景硬像素的预测值。

2 实验与分析

2.1 实验设置

2.1.1 数据集和预处理

本文主要使用2017 年国际皮肤成像合作组织(ISIC-2017)制作的皮肤病变分割挑战数据集[21],它分别包含2 000 组训练、150 组验证和600 组测试集图像,每组数据都包含原图像、专家手动标注分割金标准(二值图像)等,且数据集中的图像均为分辨率在450×600 像素以上不等的RGB彩色图像。

为提高模型训练性能和降低计算成本,需对训练集中原图片扩充和缩放,故在训练前对图像作如下增强操作:从每张训练图像的中心以原始图像大小的50%到100%的比例随机裁剪,并在垂直和水平方向上随机旋转,在图像分辨率的[0.01,0.1]范围内进行仿射平移,从0°到10°内随机旋转等,最后将增强后的图像调整为224×224进行训练,且将原图像对应的二值标签作相同操作,这样将训练集扩充到40 000组图像。

同时,选择由IEEE EMBS 国际年会组织提供的PH2[22]数据集来验证本文所提算法的泛化性,其包含200组皮肤镜图像,且每组图像均包含原图像和经专家标注的诊断金标准(二值图像)等。此数据集仅用于测试,不参与模型的训练过程。

2.1.2 性能评价指标

本文使用Jaccard 指数(JA)和准确率(Acc)作为模型优劣的评价指标,JA指数表示预测结果与真实结果的相似性与差异性,JA 值越大,相似性越高,说明预测结果在细节(边缘)等方面与真实结果更相近;Acc表示模型判断病变与非病变区域的能力。同时采用Dice系数、灵敏度Se和特异性Sp作为补充评价指标,其定义如下:

上式均依据混淆矩阵计算得到,其中TP为真阳性,TP为假阳性,FN为假阴性,TN为真阴性。

2.2 实验参数配置

本实验所用设备CPU型号为AMD Ryzen74800H,显卡为NVIDIA GTX1660Ti,运行内存为16 GB,深度学习框架为pytorch-1.7.1。

训练细节:改进Xception网络预先在ImageNet数据集[23]上训练好参数,而主网络中的Xception在MSCOCO[24]上进行预训练,其余需要训练的卷积核均采用HE 初始化法初始化参数。训练阶段优化算法为Adam,一次训练所选取的样本数为8,epoch 为150,初始学习率设置为0.001,在连续5次迭代后损失函数都没有变化则学习率衰减为原来的一半。改进后的损失函数的超参数设置为λ=0.1,k=40。

2.3 对比实验结果及分析

2.3.1 与基础网络比较

为检验本文算法的有效性,将该算法与U-Net、SegNet 和DeepLab V3+这三种基于语义分割的基础网络在ISIC-2017和PH2数据集上分别进行对比实验。此三种算法均采用端到端的编码解码器结构,属于具有代表性的基础分割网络。对比结果如表1所示,表中最后一行为本文算法分别在两个不同数据集上各指标的表现结果,与其他三种基础网络相比,本文算法在两个数据集上各指标均远高于基础网络,表明此算法成功提高了皮肤病变分割精度,综合分割性能较基础网络更优,且有较好的泛化性。

表1 在不同数据集上与基础网络比较结果Table 1 Compare results with basic network on different datasets

为更直观反映本文算法的有效性,选择基础网络(U-Net、SegNet 和DeepLab V3+)和本文算法在ISIC-2017数据集上的部分典型分割结果图进行比较,结果如图4所示,白色为病变区域,黑色为背景。其中(a)为输入图像,(b)为真实标签,(c)~(e)分别为各算法的结果图,(f)为本文算法的结果图,图中红色矩形框所标注部分为较其他算法分割效果显著提高的部分(下同)。纵观图4 可知,与其他算法相比,本文算法对较小病变或特大病变的分割敏感性更强,对边缘轮廓感知更准确(如病例1和病例2);针对病变与肤色接近(病例3)和有干扰因素的病变(病例4),本文算法可确保病变区域分割准确;针对边缘模糊杂乱无章的病变情况(病例5),本文算法比其他算法分割结果更精确。通过对比,进一步证明本文算法在皮肤病变分割领域的优越性。

图4 不同算法分割结果图对比Fig.4 Comparison of segmentation results of different algorithms

2.3.2 与其他先进方法比较

为进一步验证算法的有效性,将本文算法与近几年发布的先进皮肤病变分割网络分别在ISIC-2017和PH2数据集上进行对比,对比算法的评价指标均来自各算法的原文献。对比结果如表2 所示,结果表明,在ISIC-2017数据集上,本文算法的JA、Acc和Se参数分别高于目前最先进的Ashraf 等人[13]提出的融合前后处理的病变分割算法2.1、8.4和5.6个百分点,而由于Ashraf等人算法牺牲Acc精度来提升Dice系数,故本文算法的Dice系数略低于此算法,但在可接受范围内。且本文算法的JA参数和Acc在所对比的近几年先进算法中效果最佳,分别达到0.826 和0.952,属于目前最优水平。同时,在PH2 数据集上对比也有相同表现,本文算法的JA、Dice系数和Acc 指标均高于近几年先进算法,分别达到了0.892、0.942和0.965,为目前最优水平,表明该算法有一定的泛化能力。

表2 在ISIC-2017和PH2数据集上与先进算法比较结果Table 2 Comparison results with basic networks and advanced algorithms on ISIC-2017and PH2 datasets

同时,为可视化所提算法与其他先进算法的对比结果,在ISIC-2017数据集上,选择所对比方法中最近两年的先进算法(Tong等人[11]和Ashraf等人[13]),将其与本文算法的分割结果图进行对比。结果图分别如图5 和图6,其中(a)为输入图像,(b)为真实标签,(c)为所对比算法的分割结果图,此结果图均来自各算法的原文献,(d)列为本文算法结果图。纵观对比结果图可以看出,在准确分割病变情况下,本文算法对病变的边缘轮廓分割更精确;对于分割有误的病例(如图6第1个病例),相比其他算法也呈现出较好的分割效果,充分体现了本文算法的先进性。

图5 与文献[11]所提算法分割结果图对比Fig.5 Comparison of segmentation results with reference[11]

图6 与文献[13]所提算法分割结果图对比Fig.6 Comparison of segmentation results with reference[13]

综合表1、表2和图4~图6可以发现,本文算法在皮肤病变分割领域的整体性能优于其他先进算法,尤其是JA和Acc指标在两个数据集上提升均最为明显,表明该算法对皮肤病变分割的预测结果与真实结果更接近,边缘分割更精确,在目前皮肤病变领域综合分割性能具有相对优势。

2.4 分解实验及分析

2.4.1 CAM可视化实验

为更直观反映所提CAM 对分割网络的有效性,选取部分原图像的CAM可视化结果与分割金标准进行对比,结果如图7所示,为方便对比,将图像分辨率做微小调整。

图7 CAM可视化对比结果图Fig.7 CAM visualization comparison results

从对比结果图可知,针对较小(第一列)、较大(第二列)、病变与肤色接近(第三列)和有干扰(第四列)的不同病变情况,与二值标签相比,所提模块均可生成较准确的病变激活映射图,在网络训练过程中可限制弱关注区域,为网络寻找全局最优解提供先验指导,获得病变的准确位置信息,因此算法融合CAM有益于分割精度提升。

2.4.2 视野权重计算方法对比

为验证所提视野注意力机制模块中,同时使用全局平均池化(GAP)和全局最大池化(GMP)计算特征权重的有效性,在ISIC-2017数据集上作了3组对比实验,即仅用GAP、仅用GMP 和两者兼用对不同视野特征立体块进行特征权重计算,并选择JA和Acc作为评价指标,实验结果如表3所示。

表3 不同方法计算视野权重因子对比Table 3 Comparison of visual field weighting factors calculated by different methods

从表3 中结果可知,同时使用GAP 和GMP 计算视野块特征权重时,JA 参数和Acc 最高,病变分割效果最佳,故本文算法在视野注意力机制中同时使用GAP 和GMP计算特征权重最有效。

2.4.3 消融实验及分析

此部分将原DeepLab V3+网络应用改进Xception网络并增加两条编码解码器间跳跃连接,损失函数仅采用Dice损失,作为基准网络(模型1),在ISIC-2017数据集上做了5组消融实验。其中模型2是在模型1的基础上增加CAM模块,模型3在模型1的基础上增加F-ASPP模块,模型4在模型1基础上增加排序损失,模型2、3和4分别为了验证本文提出的类激活映射作先验信息、视野注意力机制和混合损失函数对模型分割性能提升的有效性及每个模块对最终结果的具体影响,模型5为本文最终使用的模型。消融实验结果如表4所示。

表4 ISIC-2017数据集上消融实验结果Table 4 Ablation experimental results on ISIC-2017 dataset

对比结果表明,相比基准网络模型1,模型2 的Acc提高了0.011,JA参数也有所提高,表明该模型的整体像素分割性能提升,结合2.4.1小节对比结果,进一步证明使用CAM作网络先验信息可为网络提供准确的定位信息并消除病变图像的部分干扰;模型3 比基准模型1 的JA 参数提高了0.023,表明模型对病变分割的预测结果与真实结果更贴合,重合度更高,结合图4 中对较小或较大的病变分割结果对比图,进一步证明了融合F-ASPP模块后的模型可自适应地调整不同视野提取的特征图,增加网络对不同病变大小的感知度和敏感性;而模型4相比基准各参数均有小幅提升,证明了所提损失函数更关注硬像素的误差。在集成这几个模块的最终模型5中,JA参数和准确率最高,其JA参数比基准网络提高了4.0个百分点,准确率比基准网络提高2.1个百分点,表明所提模型在不同模块作用下病变分割预测结果与标准更相似,综合分割性能更好,进一步证明本文所提的模块针对皮肤病分割均是有效的。

2.5 损失函数超参数设置

所提损失函数中有两个重要的超参数,分别为选定硬像素个数k和Lrank损失的权重因子λ,为研究这两参数对分割结果的影响,本文将k分别设置为10、30、40、50 和100,λ分别设置为0.05、0.1、0.2 和0.3 做了大量实验,并以JA参数作为评价指标,结果如图8所示,实验结果表明,当λ=0.1,k=40 时,JA参数比其他各组实验都高,达到0.826,分割效果最好,故本设计中损失函数的超参数选取该组值。

图8 损失函数超参数设置结果图Fig.8 Loss function superparameter setting result diagram

3 结束语

本文针对复杂多变、形态不一的皮肤病变,提出一种基于DeepLab V3+网络改进的皮肤病变分割模型。该改进模型首先生成类激活映射图,作为先验信息融合到网络编码阶段,为网络提供准确的定位信息并消除毛发等干扰对分割造成的影响;结合高效通道注意力(ECA)模块对ASPP 模块进行改进,提出一种融合视野注意力的空洞空间金字塔模块(F-ASPP),自适应地调整各视野间的特征响应值,实现局部跨视野交互;最后在损失函数中增加排序损失,优化分割网络。通过在ISIC-2017 和PH2 数据集上的实验表明,本文所提网络对不同尺度病变和病变边缘的分割敏感度更高,综合分割性能最优,为临床上快速准确诊断皮肤病变和后续治疗提供了有力依据。

在未来的工作中,除了考虑如何将所提模型的分割结果合理应用于皮肤病变自动分类中,提高分类准确度,同时应适当对网络进行剪枝,选择合适的嵌入式设备与皮肤镜设备连接,制作可在临床实际中应用的皮肤病变自动分割仪器,提高医生诊断病变和后续治疗的效率。

猜你喜欢
视野像素皮肤
第二层皮肤
像素前线之“幻影”2000
皮肤“出油”或许就能减肥
高频超声在皮肤恶性肿瘤中的应用
居· 视野
“像素”仙人掌
ÉVOLUTIONDIGAE Style de vie tactile
我爱洗澡,皮肤好好
高像素不是全部
视野