基于半监督阶梯网络的肝脏CT影像分割

2018-04-09 03:16金兰依郭树旭马树志刘晓鸣孙长建李雪妍
吉林大学学报(信息科学版) 2018年2期
关键词:阶梯像素肝脏

金兰依, 郭树旭, 马树志, 刘晓鸣, 孙长建, 李雪妍

(吉林大学 电子科学与工程学院, 长春 130012)

0 引 言

传统的机器学习算法需要采用大量的有标记样本进行学习, 从而建立模型用于预测未知样本的标记, 即监督学习。监督学习是机器学习中被研究最多, 且应用最广泛的一种学习途径[1]。近年来, 随着计算机技术的飞速发展, 数据的收集和存储已变得相当容易, 使深度学习技术在人工智能的许多领域取得了卓越的成果[2]。

目前, 深度学习的方法大多采用监督学习模式[3-5], 而实际应用中, 获取大量有标记的示例可能需要耗费大量的人力物力。利用少量标注样本和大量未标注样本进行的机器学习, 即介于无监督学习和有监督学习之间的半监督学习, 减少了对人工标注的依赖。

在许多实际任务中, 标签数据很少, 标签可能需要人工注释、 特殊装置或缓慢的实验获得。半监督学习在标签实例较少的情况下, 可利用标记数据和未标记的数据实现与监督学习相同的性能水平[6,7]。因此, 半监督学习的现实需求非常强烈, 具有巨大的实践价值[8]。例如, 医疗影像仪器(如: CT(Computed Tomography)、 MIR(Magnetic Resonance Imaging)、 PET(Positron Emission Tomography)等)的诊断信息均以影像的形式表现, 医院中有大量的医学影像数据, 但若依靠医学专家把影像中的感兴趣区域全部标注是不现实的。因此, 利用计算机辅助医学影像分析, 把医学影像划分为若干个互不相交的连通区域, 使医学影像在整个区域内都满足局部特征, 从而提取出感兴趣区域, 为医学影像的特征提取、 识别、 三维可视化以及定量分析等提供分析基础。医学影像分割的主要目的是对人体组织影像进行符合解剖学和病理学意义的区域划分, 提取出病变区域, 为临床医生进行疾病诊断, 治疗效果评价等提供参考[9]。

半监督学习的处理对象是一个不完全标记的数据集, 主要关注当训练数据的部分信息缺失, 数据的类别标签缺失、 数据的部分特征维缺失的情况下, 如何获得具有良好性能和泛化能力[10]。一方面各种有监督学习和无监督学习的发展和改进提高了它们在半监督情况下的学习能力; 另一方面新的数学方法不断地引入到半监督学习中, 使半监督学习的研究蓬勃发展[11]。笔者使用的基于半监督学习方法的阶梯网络架构, 是在无监督学习算法基础上的改进。

半监督分类方法可归纳为以下几种: 生成式模型、 自训练和协同训练、 转导学习模型、 图正则化模型和神经网络模型等[12]。

生成式方法是以生成模型为分类器, 将未标记数据属于每个类别的概率视为一组缺失参数, 通常基于EM算法进行极大似然估计求解。在有标记数据极少的情况下, 此类方法往往比其他方法性能更好[13]。然而, 此类方法有一个关键问题: 模型假设必须准确, 即假设的生成模型必须与真实数据分布吻合, 否则利用未标记数据反倒会降低泛化性能[14]。此类算法可看成是在少量有标记示例周围进行聚类, 是早期直接采用聚类假设的做法。EM算法的贪心本质使其容易陷入局部极值, 因此算法对初始值的选择具有很强的依赖性。常用的解决方法是采用多组初值进行重复运算, 并从中选择最好的一组解, 或者通过复杂的优化算法(如分裂合并EM算法)获取参数的优化解。这些做法尽管降低了对初始值选择的敏感性, 但却引入了过多的运算负担。

Weston等[15]通过创建一个辅助的嵌入式网络, 在原始网络训练有标签数据而辅助网络则训练无标签的数据, 通过最小化全局监督任务和半监督嵌入网络的组合损失函数训练所有层的权重。Kingma等[16]通过对数据和标签的联合分布进行建模, 为半监督学习引入了深度生成模型。虽然这种模式难以用多层次的随机潜在变量进行端对端的训练, 但是与预训练的特征提取器相比效果明显提高。罗甫林等[17]提出半监督稀疏流型嵌入(S3ME)算法, 根据稀疏系数构建相似权重矩阵, 增加同类样本的贡献, 通过最小化数据之间的加权距离和, 提取高光谱影像特征。Li等[6]通过对半监督支持向量机的多个低密度划分进行聚类, 最大化最坏环境下的性能提升, 提出了安全半监督支持向量机(S4VM: Safe Semi-Supervised Support Vector Machine)的方法, 改善了使用未标记数据时半监督学习方法性能退化的问题, 提升了半监督支持向量机的安全性。Lee[18]在2013ICML会议中提出一种算法, 将未标记数据每次权重更新的最大预测概率所属的类别当做其伪标签, 并在网络上同时训练标记和未标记的数据。

笔者提出一种半监督学习阶梯网络方法, 该方法通过每层的横向连接, 利用无监督学习补充监督学习, 以达到对大量未标记数据的有效利用。将其应用于半监督腹部CT影像的肝脏分割, 取得了较好效果。

1 半监督阶梯网络的构建

1.1 超像素分割

超像素能捕获图像冗余信息, 降低后续处理任务复杂度, 超像素概念是指具有相似纹理、 颜色等特征的相邻像素块构成的图像块[19]。超像素利用像素之间特征的相似度将像素分组, 可获得图像的冗余信息, 大大降低了后续图像处理任务的复杂度。肝脏分割的重点难点在于肝脏的边缘分割, 而肝实质为一个纹理、 密度及像素值相似的连通区域。所以笔者利用超像素对实验数据进行预处理, 将图像分为1 500个超像素, 并对其进行分类, 提取了难以分类的肝脏边缘信息, 减少了数据量。

根据图像块的位置信息(x,y)、 像素值的均值(μ)和方差(σ)将其分为0,1,2共3类, 其中, 0为非肝脏区, 1为肝实质, 2为边缘区域。

(1)

(2)

(3)

其中s为种子点的间距,m为平衡参数;dμ,σ为像素点i和k之间的颜色差异;dxy为空间距离。Di计算得到的值越大, 则两个像素越相似。图1为选取400个种子点和选取1 500个种子点时的超像素示意图。

a k=400                     b k=1 500图1 超像素分割Fig.1 The segmentation of super-pixel

1.2 半监督阶梯网络

Valpola[20]提出一个支持深度学习的无监督学习架构----阶梯网络(Ladder Network)。阶梯网络是一个自编码器, 具有两个编码通道和一个解码通道。其中一条编码通道会对每层的输入增加噪声, 而另一条编码通道则不加噪, 但是共享加噪编码通道的权重系数。而解码通道的辅助任务即是对加噪的编码通道进行除噪, 在每层都具有从编码器到加噪解码器的横向连接且每层都对网络的成本函数有贡献, 其值由每层的编码器和未加噪解码通道产生的距离表示, 使深层网络的每一层都能得到有效的学习。Rasmus等[7]在此基础上, 将该网络与监督学习相结合, 提出了用于半监督学习的阶梯网络。

图2 半监督阶梯网络Fig.2 Semi-supervised ladder network

(4)

(5)

(6)

(7)

(8)

半监督阶梯网络的编码器和解码器可由任意的多层结构代替, 该实验搭建了基于多层感知机和卷积神经网络的半监督阶梯网络。

1.2.1多层感知器

多层感知器(MLP: Multi-Layer Perceptron)是一具有多层神经元、 前馈、 误差反传结构的神经网络, 是最早提出的一种神经网络模型, 适用于简单的分类问题(如二分类), 并取得了很好的学习和预测能力[21]。笔者实验中搭建了6层的感知机, 每层大小设为{784,1 000,500,250,250,250,2}。

1.2.2卷积神经网络

卷积神经网络(CNN: Convolutional Neural Network)擅于提取具有类别分辨能力的隐式特征, 大多数卷积神经网络在构建时遵循相同的构架, 即交替使用卷积层与池化层, 最后加上少量的全连接层。Springenberg等[22]经研究发现, 在小图像的识别中, 池化层可用增加步幅的卷积层替代而不降低准确率。因此, 笔者搭建了一个全卷积神经网络(All Convolutional Neural Network), 网络结构如表1所示。

表1 CNN参数设置

2 实验与分析

实验应用Ubuntu 14.04 LST操作系统、 16 GByte内存、 显卡为NVIDIA GeForce GTX 960、 CPU为i3的计算机平台。实验数据来自Sliver07公开数据集。

2.1 图像预处理

首先利用超像素分类对图像进行预处理, 分为高相似度的肝脏区域(即肝实质)、 非肝脏区域以及肝脏边缘(既有肝脏区域又有非肝脏区域), 如图1所示。预处理后的图像中像素的数量范围在8 000~26 000。每帧图片上分别选取50,100,200,400,600,800,1 000个patch, 进行监督训练, 即训练集全为标记数据, 在测试集上的测试结果如图3所示。

Patch个数对实验的影响如图3所示。可发现以选取200个patch为节点, 准确率的上升趋势逐渐减慢, 直至趋近平缓, 而所需训练时间仍然与每张图的所选patch数目成正比例增加。依据像素点的性质, 肝脏区域中的像素点为正例, 非肝脏区域为负例。训练集包含1 000帧肝脏图像, 每帧图像随机提取200个(正负例各100个)、 大小为28×28像素的子图像(patch); 测试集包含200帧肝脏图像, 并以图像中的所有像素点为中心提取patch。在TensorFlow上搭建半监督阶梯网络, 对预处理后的腹部CT影像的肝脏边缘区域进行分割, 并对分割后的图像进行可视化操作。

a 测试准确率                      b 训练时间图3 Patch个数对实验的影响Fig.3 The influence of patch number

2.2 标记样本对算法准确率的影响

图4 解码器权重取值  Fig.4 The weights of decoder

为确定解码器中每层的权重参数, 分别研究了解码器单层连接下,λl为0.1~10 000的6个量级时对模型准确率的影响。如图4所示, 当L=0时,λl在选取1 000时获得最大值; 当L=1时,λl在取值为10时达到最大值; 当L≥2时,λl在取值为0.1和1时取得较大值。经过多次实验, 最终确定解码器每层权重设为{1 000,10,0.1,0.1,0.1,0.1}。

为研究有标记样本对算法准确率的影响, 在训练集中设计了6个子集进行实验, 如表2所示。

表2 训练集

实验分别搭建基于MLP和CNN的半监督阶梯网络, 对表2的6个数据集进行10次训练, epoch为150。实验结果如表3所示。评价指标如表4所示。

表3 测试误差(均值±方差)

表4 评价指标(均值)

对表2中的第5组数据进行可视化, 在MLP和CNN方法下的分割结果如图5所示。笔者采用体积重叠误差(VOE: Volume Overlap Error)、 相对体积误差(RVD: Relative Volume Error)、 平均对称表面距离(ASD: Average Symmetrical Surface Distance)、 均方差对称表面距离(RMSD: Root Square Symmetric Surface Distance)、 最大对称表面距离(MSD: Maximum Symmetrical Surface Distance, MSD)5个评价指标对分割结果进行评价。由表4的数据可见, 在肝脏的边缘分割上, CNN的方法优于MLP。

a 原图         b 手工标注        c MLP分割结果       d CNN分割结果图5 肝脏分割结果Fig.5 The results of liver segmentation

2.3 未标记样本对算法准确率的影响

图6 未标记样本对准确率的影响Fig.6 The influence to accuracy   of unlabeled samples

实验研究了少量标记样本下未标记样本数量对算法的影响。从10张CT图像中选取正负样本比例为1 ∶1的2 000个patch作为有标记样本, 在余下的数据中选取1 000,2 000,5 000,10 000,20 000,60 000个未标记样本作为训练集进行训练。

测试结果如图6所示, 可见随未标记数据的增加, 影像分割的准确率逐渐增加。当未标记样本数量较少时, 增加未标记样本数量使得半监督阶梯网络提取的影像特征迅速丰富, 准确率增加较快; 而随未标记样本数量逐渐增多, 准确率增加缓慢, 能提取的影像特征逐渐饱和。

3 结 语

笔者提出一种可融合多层结构的半监督阶梯网络进行肝脏分割, 通过无监督学习提取未标记数据特征, 对标记数据的有监督学习进行补充。首先对肝脏CT图像进行超像素分割, 剔除肝实质与腹部的其他脏器, 保留肝脏边缘区域, 然后构建半监督阶梯网络架构, 分别嵌入多层感知机与卷积神经网络, 对肝脏CT影像进行分割, 取得了较好的结果。在标签占总数据的8%时, 像素分类的准确值为91.53%和92.04%。

参考文献:

[1]张敏灵. 多示例学习与多标记学习的研究 [D]. 南京: 南京大学计算机科学与技术学院, 2007.

ZHANG Minling. Research on Multi-Instance and Multi-Label Learning [D]. Nanjing: School of Computer Science and Technology, Nanjing University, 2007.

[2]万赟. 从图灵测试到深度学习: 人工智能60年 [J]. 科技导报, 2016, 34(7): 26-33.

WAN Wan. From The Turing Test to Deep Learning: Artificial Intelligence for 60 Years [J]. Science & Technology Review, 2016, 34(7): 26-33.

[3]MIDDLETON I, DAMPER R I. Segmentation of Magnetic Resonance Images Using a Combination of Neural Networks and Active Contour Models [J]. Medical Engineering & Physics, 2004, 26(1): 71-86.

[4]PEREIRA S, PINTO A, ALVES V, et al. Brain Tumor Segmentation Using Convolutional Neural Networks in MRI Images [J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1240-1251.

[5]DAN C C, GIUSTI A, GAMBARDELLA L M, et al. Deep Neural Networks Segment Neuronal Membranes in Electron Microscopy Images [J]. Advances in Neural Information Processing Systems, 2012, 25: 2852-2860.

[6]LI Yufeng, ZHOU Zhihua. S4VM: Safe Semi-Supervised Support Vector Machine [C]∥AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2010 [2017-12-01]. http://www.researchgate.net/publication/220484153_S4VM_Safe_Semi-Supervised-Support_Vector_Machine.

[7]RASMUS A, VALPOLA H, HONKALA M, et al. Semi-Supervised Learning with Ladder Networks [J]. Computer Science, 2015, 9(S): 1-9.

[8]姜震. 基于差异的半监督学习中有关算法与理论研究 [D]. 上海: 复旦大学计算机科学与技术学院, 2012.

JIANG Zhen. Research on Several Algorithms and Theories in Diversity-Based Semi-Supervised Learning [D]. Shanghai: School of Computer Science and Technology, Fudan University, 2012.

[9]樊万姝. 基于半监督模糊聚类的医学图像分割系统设计 [D]. 大连: 大连理工大学软件学院, 2013.

FAN Wanshu. A Medical Image Segmentation System Design Based on the Semi-Super Vised Fuzzy Clustering [D]. Dalian: School of Software Technology, Dalian University of Technology, 2013.

[10]崔鹏. 一种用于半监督学习的核优化设计 [J]. 软件工程, 2013(9): 40-41.

CUI Peng. A Kernel Optimization Design for Semi-Supervised Learning [J]. Software Engineer, 2013(9): 40-41.

[11]易星. 半监督学习若干问题的研究 [D]. 北京: 清华大学信息科学技术学院, 2004.

YI Xing. Several Theoretiacal Issues on Semi-Supervised Learning [D]. Beijing: School of Information Science and Technology, Tsinghua University, 2004.

[12]吴毓龙. 基于图的半监督学习的研究 [D]. 北京: 中国科学技术大学信息科学技术学院, 2008.

WU Yulong. Research on Graph-Based Semi-Supervised Learning [D]. Beijing: School of Information Science and Technology, University of Science and Technology of China, 2008.

[13]周志华. 机器学习 [M]. 北京: 清华大学出版社, 2016.

ZHOU Zhihua. Machine Learning [M]. Beijing: Tsinghua University, 2016.

[14]COZMAN F G, COHEN I. Unlabeled Data Can Degrade Classification Performance of Generative Classifiers [C]∥The IEEE Asia-Pacific Service Computing Conference. [S.l.]: IEEE Computer Society, 2002: 327-331.

[15]WESTON J, COLLOBERT R. Deep Learning via Semi-Supervised Embedding [C]∥International Conference on Machine Learning. [S.l.]: ACM, 2008: 1168-1175.

[16]KINGMA D P, REZENDE D J, MOHAMED S, et al. Semi-Supervised Learning with Deep Generative Models [J]. Advances in Neural Information Processing Systems, 2014(4): 3581-3589.

[17]罗甫林, 黄鸿, 刘嘉敏, 等. 基于半监督稀疏流形嵌入的高光谱影像特征提取 [J]. 电子与信息学报, 2016, 38(9): 2321-2329.

LUO Fulin, HUANG Hong, LIU Jiamin, et al. Feature Extraction of Hyperspectral Image Using Semi-Supervised Sparse Manifold Embedding [J]. Journal of Electronics & Information Technology, 2016, 38(9): 2321-2329.

[18]LEE D H. Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks [C]∥In Workshop on Challenges in Representation Learning, ICML 2013 [2017-06-21]. https://www.researchgate.net/publication/280581078_Pseudo-Label_The_Simple_and_Efficient_Semi-Supervised_Learning_Method_for_Deep_Neural_Networks.

[19]王春瑶, 陈俊周, 李炜. 超像素分割算法研究综述 [J]. 计算机应用研究, 2014, 31(1): 6-12.

WANG Chunyao, CHEN Junzhou, LI Wei. Review on Superpixel Segmentation Algorithms [J]. Application Research of Computers, 2014, 31(1): 6-12.

[20]VALPOLA H. From Neural PCA to Deep Unsupervised Learning [J]. Eprint Arxiv, 2015 [2017-07-26]. http://arxiv.org/abs/1411.7783v1.

[21]KIM T, ADALI T. Fully Complex Multi-Layer Perceptron Network for Nonlinear Signal Processing [J]. Journal of VLSI Signal Processing Systems for Signal Image & Video Technology, 2002, 32(1/2): 29-43.

[22]SPRINGENBERG J T, DOSOVITSKIY A, BROX T, et al. Striving for Simplicity: The All Convolutional Net [J]. Eprint Arxiv, 2014 [2017-07-26]. http://arxiv.org/abs/1412.6806.

猜你喜欢
阶梯像素肝脏
七种行为伤肝脏
肝脏里的胆管癌
像素前线之“幻影”2000
加州鲈肝脏养护
“像素”仙人掌
ÉVOLUTIONDIGAE Style de vie tactile
良师·阶梯·加油站
时光阶梯
艺术创意阶梯
高像素不是全部