基于Mask RCNN改进的全自动脑肿瘤分割

2021-12-30 08:33旭,王
关键词:掩膜胶质瘤像素

赵 旭,王 宏

(天津大学数学学院,天津 300072)

0 引 言

胶质瘤是一种源于胶质细胞或脊髓脑细胞的威胁性肿瘤,约占颅内肿瘤的35%~61%.大多数呈浸润性生长,具有形状不规则及不同组织学亚区等特点[1].根据世界卫生组织(world health organization,WHO)肿瘤分类,胶质瘤可以分为高级别胶质瘤和低级别胶质瘤[2].高级别胶质瘤通常是低分化或未分化的,肿瘤细胞生长和扩散速度快,属于恶性肿瘤;低级别胶质瘤是良好分化的,通常可以被很好地识别,肿瘤细胞生长缓慢[3].因此,准确地区分胶质瘤将直接影响患者的治疗效果.

胶质瘤的状态可通过脑图像呈现,其中最常见的是电子计算机断层扫描图像(computed tomography,CT)和核磁共振图像(magnetic resonance images,MRI).MRI适合用于观察软组织,对脑组织、炎症反应和脑水肿等含水量较高的组织显示较明显,因此其是诊断脑肿瘤的首选方法[4].MRI具有多模态的特点,如T1序列可清晰地分辨解剖图断层,T2序列可清楚地显示出病变的大小和位置[5].由于信息不够充分,单模态图像通常无法细分肿瘤区域,造成分割精确度较低.因此,可利用不同模态MRI,实现信息的有效互补.然而多模态MRI在增加了分割需要的必要信息的同时,也增加了大量的不必要信息,造成分割难度增加.本文基于多模态脑MRI的胶质瘤分割方法展开研究.

近年来,深度学习方法在解决自然图像集的分类、检测和分割等问题中,取得了飞速的进展.考虑到准确快速的医学图像处理和分析可以帮助医生可视化图像,及时发现人体内部的异常,使得深度学习方法在医学图像应用上具有一定的适用性.Gordillo等[6]研究表明了利用卷积神经网络在细胞核检测分类、脑组织分割和肝脏肿瘤等病理学检测上,取得了令人满意的结果.

图像语义分割任务一直是一个尚未完全解决的问题,其不仅要识别出图像中目标所属的类别,还要准确地分割出目标的形状和大小.最初,语义分割是在自然图像集上发展起来的,由于当时对输入要求尺寸固定,所以一般都是基于图像块进行分类的,即将输入图像分成小的体素块后送入全连接层,利用像素周围的图像块对每一个像素进行独立的分类[7].后来,Shelhamer等[8]提出了全卷积神经网络(fully convolutional network,FCN),用卷积层取代了全连接层,使网络可以接受任意大小的图像,并从抽象的特征中,恢复每个像素所属的类别,实现了无需全连接层就可进行密集像素预测,开启了基于像素级分类的图像语义分割方法,实现了分割速度与精度的提升;Ronneberger等[9]提出用于解决细胞和肝脏分割的U-Net网络,利用U形结构左边编码器提取图像浅层特征,右边解码器提取深层特征和跳跃结构结合浅层特征与深层特征进行分割,有效提高精度.目前,大部分基于深度学习的语义分割算法是通过训练端到端的单阶段算法实现,He等[10]提出了一个用于自然图像分割的2阶段算法.掩膜区域卷积神经网络(mask region convolutional network,Mask RCNN)算法先利用区域建议网络生成一系列候选区域,然后进行分类、定位和分割,该算法虽然收敛速度上比单阶段算法慢,但是由于区域建议网络已经起到了筛选作用,在一定程度上缓解了类别不平衡问题.

虽然自然图像的特性与脑图像不同,但考虑到Mask RCNN在通用对象实例分割中的有效性,本文将研究一种基于Mask RCNN改进的脑肿瘤分割方法,在Mask RCNN网络结构中引入了注意力模块,能在有效地检测脑MRI中肿瘤的同时,为每个实例生成高质量掩膜.

1 方 法

1.1 Mask RCNN模型结构

Mask RCNN是用于完成目标分类、检测和语义分割等多种任务的一种2阶段算法,其在Faster RCNN[11]的基础上,添加了一个用于预测目标掩膜的分支,即利用全卷积神经网络对RCNN建议的每一个感兴趣的区域完成语义分割,从而实现同时进行分类、定位和分割.Mask RCNN模型网络结构如图1所示.该模型结构简单,在有效检测图像目标的同时,只需要增加微量计算量,就可以为每个实例生成一个高质量的分割掩膜.迄今为止,其在指针式仪表自动读数[12],车辆损伤检测分割[13]等不同任务中获得了令人满意的实验结果.

图1 掩膜区域卷积神经网络(mask region convolutional network,Mask RCNN)结构

Mask RCNN采用了2阶段网络结构.第1阶段:首先利用骨干网络即深度残差网络(deep residual network,DResNet),从输入图像中提取不同阶段的特征图;其次利用特征金字塔网络自上而下及横向连接结构融合不同尺度的特征,使其同时具有强语义信息和强空间信息;再次对这些特征图上每一点像素设定固定数量的锚框,通过计算每个锚框与该图片上标注的真实框之间的交,获得多个大小不同的候选区域(region of interest,ROI);最后利用区域建议网络对候选的ROI进行二值分类(即前景/背景)及边框回归,过滤掉分类分数低的ROI,并将正负样本的比设定为1∶3,以缓解类别不平衡问题,同时减少了第2阶段对不必要信息的计算.第2阶段首先进行2次对齐操作:(1)对第1阶段选出的ROI进行对齐,把原图像中ROI与特征图中的像素对应起来;(2)把特征图上大小不同的ROI转换成统一大小.其次为了减少由池化过程带来的误差,通过双线性插值法从特征图上相邻网格点计算每个像素值,获取ROI包含的重要特征信息,完成分类、回归和分割任务.最后通过在全连接层上增加分割分支,对每个ROI上的每个像素进行分类和回归预测,并输出最终的二值掩膜.

1.2 损失函数

在训练过程中,每个采样的ROI损失函数(L)包含分类损失(Lcls)、回归框损失(Lbbox)和分割损失(Lmask)3个部分.分类和回归框损失包含:经过区域建议网络(region proposal network,RPN)后的分类和回归框损失;经过Mask RCNN头部的分类和回归框损失.Lcls计算公式为

式中Ncls是训练时取的小批量个数;pi是框预测为目标的概率;是像素的真实标签,当标签为负样本时取 0,为正样本时取 1;是 2个类别,即目标和非目标的对数损失,其公式为

式中lcls是对于每个锚框计算对数损失,然后除以总的锚框数量求平均.

Lbbox函数公式为

式中λ是用于平衡分类和回归损失的平衡参数;Nreg是锚框的数量;ti={tx,ty,tw,th}是一个向量,表示RPN训练阶段预测的锚框偏移量;是与ti维度相同的向量,表示RPN训练阶段相对真实锚框的偏移量;,式中R是光滑L1函数,记为L1S(x),其公式为

利用FCN对每个ROI的分割都输出K个分辨率,为m×m的二进制掩膜,每个类别各一个掩膜,避免不同类别掩膜之间的竞争.利用分类网络分支预测的目标类别标签,选择输出的掩膜,检测分类每个ROI,使用其分支的二值交叉熵误差作为掩膜Lmask函数,其计算公式为

式中c表示ROI对应真实类别Lmask是由第c层的掩膜定义的;pij表示真实标签为 1时第c层模型对(i,j)处像素预测为目标的概率.

1.3 改进Mask RCNN

近年来,注意力机制在图像识别、目标检测等任务中得到了广泛的应用[14-15],其只需增加微量计算量,就能使网络在学习时自动注意到图像中像素丰富的地方.Mask RCNN主要是通过增加FCN,实现对候选区域上逐像素的分类分割.由于一些脑肿瘤图像上肿瘤与非肿瘤区域间的平滑过渡,使得FCN无法捕获足够的肿瘤边缘信息,因此,在Mask RCNN的分割分支上增加通道注意模块(channel attention module,CAM)和空间注意模块(spatial attention module,SAM),引导模型分别在通道和空间维度上学习关注等问题.引入注意机制,可以使模型将注意力集中在内容丰富的像素,即有肿瘤的像素上并有效地抑制噪声.改进的分割分支分为4个步骤(图2),分别是:(1)对第1阶段中提取分辨率为14×14的ROI,经过4个卷积层提取特征图(X),X∈RW×H×C,其中W、H、C分别表示特征图的宽、高和通道数;(2)将X输入CAM模块,加强模型对通道上重要特征的注意力,输出通道引导注意特征图1(Xcag);(3)将Xcag输入 SAM模块,加强模型对重要特征位置的注意力,输出空间引导注意特征图2(Xsag);(4)利用2×2的卷积层对Xsag采样到28×28,最后利用1×1的卷积层对特征图上每一像素进行类别预测,得到最终掩膜预测图.其中CAM和SAM示意如图3所示[15].

图2 改进的Mask RCNN分割分支

图3 CAM和SAM示意

在CAM模块中,为了聚合特征图的空间信息,对X采用了全局平均池化和最大池化,得到2个通道描述Xavg,Xmax∈R1×1×C,然后分别送入一个 2层的神经元个数设为C/r,第2层神经元个数设为C,其中r表示压缩率.将2个特征对应元素相加,送入sigmoid激活函数,得到权重系数(Mc),即Mc(X)=σ(MLP(Xavg)+MLP(Xmax)),式中 MLP为中间神经网络,σ是sigmoid函数.将Mc和X相乘即可得到通道注意引导特征图(Xcag),Xcag∈RW×H×C:Xcag=Mc⊗X,式中⊗代表逐元素相乘.

在SAM模块中,首先对通道Xcag沿各自通道做平均池化和最大池化操作,生成池化特征图(Pavg,Pmax∈RW×H×1);然后将Pavg和Pmax对应元素相加级联到一起;其次利用3×3的卷积层和sigmoid函数得到权重系数(Ms),即式中σ是 sigmoid函数,F3×3代表 3× 3卷积层,◦代表级联操作;最后得到空间注意引导特征图(Xsag),Xsag∈RW×H×C:Xsag=Ms(Xcag)⊗Xcag.

2 数据集及预处理

2.1 数据集

文中使用的数据集是由2019年医学图像计算和计算机辅助干预(MICCAI)脑肿瘤挑战赛提供的Brats19数据集,包含259个高级别胶质瘤(high grade glioma,HGG)案例和76个低级别胶质瘤(low grade glioma,LGG)案例.每个病例都包含4个不同的 MRI序列,分别是 TI、T1ce、T2 和 Flair序列.所有图像集都是由1~4个评分员,遵循相同的注释方案手动分割,并且这些注释已经获得了经验丰富的神经放射科医生的批准.多模态MRI是通过不同的临床方案和不同的扫描仪从19个机构获得的,然后被共同配准到相同的注释方案后,重采样到1 mm×1 mm×1 mm,并颅骨分离[16].

2.2 预处理

由MICCAI脑肿瘤挑战赛提供的多模态MRI可视化后,观察到脑MRI中大部分切片上病灶很小,甚至没有.脑肿瘤区域示意如图4所示,相比于灰色的脑部区域,黑色的背景区域在整幅图像中所占比例很大,而肿瘤区域仅仅占据脑图像上很小的一部分.如果对这些黑色的背景区域不加以处理,不仅会消耗大量的存储空间,还会导致严重的类别不平衡问题.

图4 脑肿瘤区域示意

为了缓解类别不平衡问题,提高训练的准确度,在训练前对图像进行预处理去除无用信息.预处理主要分为5个步骤:(1)标准化多模态,不同模态的脑图像中强度值和对比度变化很大,在采用Z-Score方式对图像标准化之前,先去除图像中1%的最大和最小强度值;(2)切片,将Brats19提供的3D体素图切片为2D图像后,保留含病灶区域的切片,剔除了无病灶区域的切片;(3)裁剪,考虑到机器对内存的限制,对数据集进行裁剪,去除周围多余的黑色背景信息;(4)合并通道,为了充分利用图像多模态特征,根据分割协议[16],将 Flair、T1ce与 T2切片组合为三通道图像,将其及对应的真实分割图保存为.npy文件;(5)数据增强,为了增强网络的鲁棒性,对图像随机进行向左向右翻转和平移等数据,增强方法增加可用的数据集.

2.3 模型训练

文中所有实验都是以ResNet为Mask RCNN模型的骨干网络.编写的程序是基于Matterport Inc在MIT许可下发布的基于keras和Tensorflow的开源库[17-19].训练、验证和测试都是在机器NVIDIA Corporation GP102上实现.本文研究了以50层残差网络(ResNet50)和 101层残差网络(ResNet101)为骨干网络的Mask RCNN模型和改进Mask RCNN模型在脑肿瘤图像分割上的表现.

为了加快运行速度和特征学习的过程,本文使用了从MS COCO数据集上获得的预训练权重初始化模型[20],而非端到端的训练.该模型在训练时使用学习率为0.001、动量为0.9的随机梯度下降算法作为优化算法.为了提高分割的准确率,在单个GPU上使用2张图片作为小批量训练集.

2.4 超参数微调

本文使用的是240×240×155的3D脑MRI,其中240×240表示图像的大小,155表示图像的通道数.为了更好地适应模型,将其补零为256×256大小.本文研究的主要任务是要将脑肿瘤从背景区域中分割出来,所以将模型类别设置为肿瘤及背景2类.根据图像大小,把RPN网络的锚框大小设置为8×8、16×16、32×32、64×64和128×128共5种,锚框的长宽比设置为 1∶2、1∶1和 2∶1,以便更好地检测到肿瘤的位置.实验把Brats19的训练集拆分为训练集和测试集,把Brats19在Brats18训练集上增加的49例HGG案例作为测试集.

3 评估与结果

3.1 评估度量

本文利用Dice系数(dice coefficient,Dice)、Hausdorff距离(hausdorff distance,HD)、敏感性(sensitivity,Sens)和特异性(specificity,Spec)4个度量,预测掩膜与给定的真实掩膜的一致性,以评估模型.

Dice系数的公式为

式中PT表示正确预测为正样本,PF表示错预测为正样本,NF表示错预测为负样本,ytrue表示给定的真实掩膜轮廓,ppred表示模型预测的掩膜.Dice相似系数是集合相似度的度量指标,通常用于评估2个二进制集的匹配程度,值的范围是0~1,CDice=1时表示分割结果最好.

HD计算公式为

式中x和y是集合X和Y的点,d(x,y)是x和y的欧式距离.HD是测量度量空间内2个子集彼此间的距离.相比于对掩膜内部更敏感的Dice,HD对分割边界比较敏感.同时使用Dice与HD作为内部和边界的衡量,能提供更全面的分割精度视图.

Sens针对的是正样本,即真实分割值,表示样本中有多少被正确预测;Spec即背景,针对的负样本,表示背景中有多少被正确预测.这2个指标的公式分别为:

式中NT表示正确预测为负样本.

3.2 实验结果

本文分别对以ResNet50和ResNet101为骨干网络的Mask RCNN模型及改进的Mask RCNN模型进行训练,并分别用 ResNet50、ResNet101、IResNet50和IResNet101表示.在测试集上获取的实验结果如表1所示.以ResNet50为骨干网络的模型,由于层数少在训练时收敛速度更快,结果更准确.表明了使用更深的网络层并不能有效地提高检测精度,反而延长了模型的训练时间.这可能是由于脑图像与自然图像不同,其本身是一个固定的器官,语义信息比较简单且肿瘤大小相对于整个图像所占的面积较小.50层的骨干网络已经能够学习到图像中足够多特征信息,无需更深的骨干网络层.所以较少的网络层更有利于模型快速地进行学习图像特征,进行分类分割任务.本文也尝试迭代更多训练次数,实验结果表明并不能有效的提高Dice系数等评估度量,反而检测不出一些肿瘤图像中的肿瘤,存在过拟合的可能.

表1 不同Mask RCNN模型在测试集上的实验结果

改进ResNet50的Mask RCNN模型,在测试集上的结果比原模型Mask RCNN上的各个评估度量都有提高.从表1中可以看出:Dice系数和Sens比原模型提高了约1%;改进ResNet101的Mask RCNN模型在Dice系数和Sens上比原模型准确度高了约1%,表明了改进的Mask RCNN模型分割分支上增加的注意机制,能够有效地聚集到有效信息,即有肿瘤的区域,提高分割肿瘤的准确度.

利用不同层骨干网络的原模型及改进模型的预测及真实分割图如图5和6所示.以ResNet50为骨干网络的模型在预测脑肿瘤时,要比以Resnet101为骨干网络的模型在肿瘤边界分割更准确;以Resnet101为骨干网络的模型在预测时,会丢失一些不连续肿瘤信息.而且改进的Mask RCNN模型不管是以ResNet50还是以ResNet101为骨干网络,在预测阶段对肿瘤边界捕获的细节信息要比原Mask RCNN模型更好,证明了改进模型的有效性.

图5 高级别胶质瘤案例上的整个肿瘤

图6 不同Mask RCNN模型的预测轮廓与真实轮廓

4 结束语

本文提出了一种基于Mask RCNN改进的、全自动的多模态磁共振图像脑肿瘤分割算法.为了提高分割脑肿瘤的准确性,在Mask RCNN的分割分支上,引入了通道注意模块和空间注意模块,帮助网络在训练时,集中于重要的特征信息同时抑制噪声.使用ResNet50和ResNet101不同层次的骨干网络,结果表明:以ResNet50为骨干网络的模型已经足够从脑图像中提取肿瘤特征信息,用更深的网络层并不能提高脑肿瘤分割的分割精度,反而需要更长的训练时间达到收敛.改进的模型在Dice系数、敏感性上都比原模型提高了约1%,证明了引入注意机制的有效性.总的来说,本文提出的解决方案是取代脑肿瘤手工测量的一种有前途的方法.此外,这种分割方法还可以推广到其他医学图像分割任务上,如实时动态脑肿瘤、心脏分割等.文中为适应设计的模型结构,将MRI切片为2D图像作为输入,破坏了原脑MRI空间结构.如何利用3D网络结构直接对3D脑MRI图像进行有效的学习训练是值得进一步研究的.

猜你喜欢
掩膜胶质瘤像素
利用掩膜和单应矩阵提高LK光流追踪效果
像素前线之“幻影”2000
基于Mask R-CNN的回环检测算法
“像素”仙人掌
国内首条G11光掩膜版项目在成都高新区启动
光纤激光掩膜微细电解复合加工装置研发
ÉVOLUTIONDIGAE Style de vie tactile
TGIF2调控胶质瘤细胞的增殖和迁移
高像素不是全部
Sox2和Oct4在人脑胶质瘤组织中的表达及意义