应用于平扫CT图像肺结节检测的深度学习方法综述

2017-08-02 01:33胡伟俭陈为冯浩哲张天平朱正茂潘巧明

浙江大学学报（理学版） 2017年4期

关键词：网络结构结节准确率

胡伟俭，陈为，冯浩哲，张天平，朱正茂，潘巧明*

(1.丽水学院工学院，浙江丽水 323000； 2.浙江大学计算机学院 CAD&CG国家重点实验室，浙江杭州 310058)

应用于平扫CT图像肺结节检测的深度学习方法综述

胡伟俭1，陈为2，冯浩哲2，张天平2，朱正茂2，潘巧明1*

(1.丽水学院工学院，浙江丽水 323000； 2.浙江大学计算机学院 CAD&CG国家重点实验室，浙江杭州 310058)

肺癌是一种致死率很高的癌症.通过肺部平扫CT影像检测肺结节对肺癌早期诊断、治疗意义重大.全面介绍了一种革命性的图像识别技术——深度学习方法，在肺结节检测中的应用.首先，横向对比了不同卷积神经网络的结构及其在图像识别上的效果，其次着重分析了不同深度学习方法在训练肺结节分类器上的应用，包括faster-RCNN、迁移学习、残差学习以及迁移学习.还介绍了一些可用的肺部CT影像数据集供读者参考.

深度学习；肺结节；卷积神经网络；数据库

深度学习方法在图像处理领域取得了巨大的成功[1-2]，以深度学习为基础的CAD(computer aided diagnosis)系统在医学影像的识别与目标检测方面达到了极高的准确率.肺结节检测的经典流程见图1，由数据预处理与训练分类器两部分组成，其中数据预处理过程主要由传统的CV方法组成，深度学习方法则主要应用于训练分类器过程，即训练一个多层卷积神经网络进行肺结节检测.

文献[3]详细介绍了数据的预处理过程，在此不再赘述.肺结节检测的深度学习应用尚处于初级阶段，因此本文主要从(1)卷积神经网络(CNN)结构选取与效果对比，(2)利用Fast-RCNN与Faster-RCNN进行候选检测，(3)利用残差学习神经网络(ResNet)增加网络深度，(4)利用迁移学习进行参数初始化，(5)利用网络参数迭代方法与curriculum learning优化网络训练，这5个方面介绍可用于肺结节检测的前沿的深度学习方法，并在最后介绍可用的数据库.

图1 肺结节检测流程图Fig.1 Flow diagram of lung nodule detection

1 卷积神经网络结构选取与效果对比

1998年，LECUN等[4]首次提出卷积神经网络(convolutional neural network, CNN)LeNet模型.2012年，CNN在ImageNet竞赛中取得第一[1]，至此CNN成为图像处理与目标检测的通用神经网络，对于肺结节检测亦是如此.

文献[5]详细介绍并对比了主流CNN网络结构，包含AlexNet、BN AlexNet、Batch Normalised Network In Network(NIN)、ENet、GoogLeNet、VGG(-16,-19)、ResNet(-18,-34,-50,-101,152)、Inception-v3和nception-v4等.从准确率、图片处理速度、参数数目和内存占用量四方面对网络特点进行了总结，综合对比如图2所示.

图2 各神经网络综合比较Fig.2 General comparison of CNN architectures

1.1 准确率

由文献[5]给出的网络结构和准确率对比图可以看出，准确率最低的是AlexNet，最高的是Inception-v4.同时ResNet和Inception系列比其他网络结构的准确率至少高出7%.

1.2 图片处理速度

综合来看VGG系列的处理速度最慢，平均0.2 s才能处理1张图片，实时性差.而BN AlexNet在每批64张图片的情况下处理1张图最快可达0.006 s. Inception和ResNet处理单张图片平均可达0.02～0.1 s.

同时，对比准确率与图片处理速度，大部分的网络都位于一条直线上，说明加快处理速度相应地要牺牲准确率. 但是VGG系列和AlexNet网络结构位于直线下方，说明其准确率与处理速度综合表现不如其他网络.

1.3 参数数目

在神经网络的参数数目方面，VGG和AlexNet网络调用了大量参数，却未能发挥参数数量的优势，实现较高的准确率.而ENet、GoogleNet、NIN和ResNet网络结构，则能在大量参数优势的基础上取得较高的准确率.

1.4 内存占用量

VGG内存占用量通常为800 MB，且随着每轮参数迭代输入数据的增加而增加，最高可接近2 000 MB，相比之下NIN和GoogleNet占用内存最少，通常为200 MB，最高为500 MB.其余网络结构内存占用量均在300～1 000 MB.

总体而言，GoogleNet及其衍生的Inception系列具有消耗资源少、准确率中等的特点，ResNet系列和Inception系列具有消耗资源中等、准确率高的特点，这2类是目前综合性能最好的网络结构.而AlexNet和VGG虽然在准确率与计算资源上不如其他网络，但是因为提出时间早、结构简单，依然是现在应用广泛的网络结构.同时，这些网络结构的性能在各项指标上都全面超过了早期的LeNet结构.

具体到肺结节检测上，目前大部分研究都停留在LeNet结构或在LeNet基础上的改进.文献[6]使用了3D卷积神经网络，在LeNet的基础上增加了1～2层卷积层，分类准确率可以达到81.50%.文献[7]对图像进行加权处理，将3D的图像降维成2D，又在网络结构最末多加了1层全连接层，其AUC面积可达0.962.文献[8]取中心点的三视图，在加入了Dropout层的LeNet网络结构中训练，其应用于肺结节诊断问题的AUC面积可达0.94.文献[9]在候选检测出的立体区域选取9个角度的视图并放入网络中训练，同时在网络中加入Fusion层进行分组分类与整合，其AUC面积最高可达0.996.

总之，目前应用在肺结节检测上的卷积神经网络结构基本停留在对LeNet的改进上，导致使用LeNet结构的训练器假阳率(FP)很高，因此需要尝试用VGG、GoogleNet、Inception、ResNet等新的网络结构.在最新的Kaggle Data Science Bowl 2017中，第2名获奖者采用了C3D网络进行训练，ROC准确率达到了0.85，具体可见Github上的源代码(https://github.com/juliandewit/kaggle_ndsb2017).

2 Fast-RCNN&Faster-RCNN：候选检测

经典流程图图1中，采用了经典的RCNN目标检测模型，即经处理的图像需要先经候选检测进行疑似区域选取，再送入神经网络进行分类.其缺点是候选检测未与神经网络结合，训练速度慢、消耗空间大.

Fast-RCNN[10]与Faster-RCNN[11]基于RCNN模型进行了改进，旨在将候选检测纳入神经网络结构，其主要特点包括：

(1)Fast-RCNN

Fast-RCNN直接将图像送入神经网络，先对图像做5次卷积再选取候选区域，可以有效避免重复计算图像特征，从而提高训练速度.

(2)Faster-RCNN

Faster-RCNN提出区域生成网络(RPN)，代替Fast-RCNN候选区域选取步骤，将检测全过程纳入深度网络框架，大大提高了运行速度.

目前，尚未查询到有关Faster-RCNN在肺结节检测上应用的文献，但文献[12-13]分别运用Faster-RCNN结合残差学习进行人脸检测和行人检测，取得了良好的效果.肺结节检测同样具有样本特征丰富、正样本稀疏、目标尺度小等特点，因此可以尝试Faster-RCNN检测.

3 残差学习:增加网络深度

多层卷积网络的训练过程中往往会遇到梯度消失和梯度爆炸的问题.文献[14]提出采用Batch Normalization方法可有效解决梯度爆炸问题.文献[15-16]提出了解决梯度消失问题的新的网络结构：残差学习网络；文献[17]提出了基于残差学习的新型CNN结构：Inception-V4结构.已经在第1节中对这种结构的优缺点进行了比较，这里仅介绍残差学习网络的基本思想以及在肺结节检测中的应用.残差学习网络基于多层网络大部分目标函数都是恒等映射这一基本假设，将目标函数H(x)分解为

H(x)=F(x)+x，

(1)

式(1)中网络仅对F(x)进行学习，避免了BP算法导致的梯度消失，因此，残差学习可以将传统10层左右的网络加深到100～1 000层.

现有用于肺结节检测的神经网络层数都较少，也未见将残差学习应用于肺结节检测的相关文献，这可能是限制准确率的重要原因.然而在与肺结节检测相似的人脸识别领域，使用残差学习已达到了3.57%的错误率[15]，因此将残差学习应用于肺结节检测很有意义.

4 迁移学习:参数初始化

迁移学习，即将已训练好的模型参数迁移到新模型中来帮助新模型训练数据集[18].迁移学习方法可以替代随机初始化参数方法，将训练完成的参数分享给新模型，从而加快并优化新模型的学习.在训练神经网络的过程中，若数据集较神经网络的复杂程度小，就很容易出现过拟合症状.现有的肺结节检测数据库一般只有几千个样本，利用迁移学习方法，可以很好地解决上述问题，从而进一步降低错误率.文献[19]指出，应用迁移学习训练的神经网络在分类效果上普遍优于未应用迁移学习的.

目前，应用于肺结节检测的迁移学习主流方法是：利用相关领域容易获得的大数据集对神经网络进行预训练，然后用肺部CT影像数据集进行调整.文献[20]分别使用6个数据集对网络进行独立迁移学习训练，并比对了不同数据集的效果，指出使用迁移学习训练的肺结节检测神经网络其准确率较未使用迁移学习提高了2%.

5 参数迭代方法与curriculum learning

5.1 参数迭代方法

神经网络参数优化的本质是高维优化，针对特定问题的学习率的选取以及优化算法的选取会极大影响网络参数的收敛性.文献[21]指出，高维优化问题中根本没有那么多局部极值，而高维非凸优化问题之所以困难，是因为存在大量的鞍点.因此，能否在有限步内跳出鞍点也是优化算法要重点考量的.

下文通过比较几种主流优化算法，并结合肺结节图像特征，给出适用于肺结节检测的神经网络参数迭代方法.文献[22]对比了(a)梯度下降法，(b)随机梯度下降法，(c)Mini-Batch梯度下降法，(d)动量法(Momentum)，(e)Nestrov梯度加速法，(f)Adagard，(g)Adadelta，(h)RMSprop，(i)Adam 9种主流高维优化方法的优劣，从鲁棒性、跳出鞍点的能力、收敛速度和学习率四方面对上述9种优化算法进行了总结：

5.1.1 鲁棒性

在鲁棒性方面，(a)～(c)的收敛性依赖于稳定的初值与学习率递减函数，一旦这些条件被满足，(a)～(c)将稳定收敛至局部最优点或鞍点.因为(d)～(i)每一步计算量更大，总体上不如(a)～(c)鲁棒.同时，(e)可以视为(d)在收敛性上的改进，在使用(d)，(e)算法时，(e)算法比(d)更为鲁棒.

5.1.2 跳出鞍点的能力

在跳出鞍点的能力上，(f)～(i)都可以在有限几步内跳出鞍点，(d)和(e)在迭代次数足够多时也能跳出鞍点，但比(f)～(i)需时更长.(a)～(c) 3种算法几乎都无法跳出鞍点.

5.1.3 收敛速度

(d)和(e)算法基于物理中动量的思想，在下坡方向加速收敛，抑制震荡，总体上6种方法的收敛速度排序为(d)～(e)>(f)～(i)>(a)～(c).

5.1.4 学习率

(f)～(i)都为自适应学习率算法，即可以自动调整学习率，从而加大对罕见情况的学习力度，而(a)～(e)都需要设定学习率和设计学习率随训练时间递减的函数.对于(f)～(i)算法，其中，(f)和(h)都有可能在多次迭代后学习率收敛到0，而(g)和(i)是对(f)和(h)的改进.

具体到肺结节检测上，因为肺结节的形状、颜色、面积都有不同，有必要针对这些不同的形状、颜色和面积选取学习率，因此一般在具有自适应学习率特点的算法中选择综合表现最好的(i)Adam方法.同时，如果在迭代过程中参数出现了震荡的情况，则应采用(c)梯度下降法缓慢逼近收敛点.此外，还有一些使用非线性方法的优化算法[23-24]，因其计算量太大，一般不采用.

5.2 Curriculum learning

文献[25]提出了一种优化网络训练过程的curriculum learning方法.借鉴人类学习的方式，认为若训练集不是随机选取，而是按照一定规则进行排序选取，则可以加速神经网络的训练.比如，面对不同的学习任务，人们往往会将更多的学习精力放在自己做错的部分，而对已经掌握的部分不再重复学习.

具体到肺结节检测上，实质性结节颜色明亮，形态特征明显，容易区分，但毛玻璃结节灰度特征与周围肺部颜色相似，会出现血毛玻璃结节类训练集使用误差逆传播算法[26]对网络参数进行更新过程中初始梯度很小的现象，导致网络参数更新幅度很小.为解决这一问题，一般选取大量毛玻璃结节训练集进行训练，如果训练集每次都随机选取，那么神经网络在大量易于识别的结节上被重复训练，对于形态不规则(如表面凹凸不平或是有棘状突起)的结节情况类似.因此，可以采用curriculum learning方法减少易于识别结节的冗余训练，加强难于识别结节的训练.

目前，暂未发现针对肺结节检测的curriculum learning方法，但文献[27]提出的针对视网膜成像出血检测的训练集选取方法，可类似应用于肺结节检测，具体步骤如下：

(1)首先，对所有待训练样本赋予相同的选取概率，并随机选取n个样本进行训练，用训练好的参数对这n个训练样本进行预测，计算预测值与真值的偏差.

(2)更改这n个训练样本被选中的概率，降低偏差小的样本被选中的概率，提高偏差大的样本被选中的概率.

(3)依据选取概率重新选择n个训练样本进行训练，重复步骤(2)，直至网络参数收敛.

(4)该方法的效果依赖于神经网络的初始参数，因此实际使用时通常先随机选取训练集对神经网络进行若干轮训练，直到网络参数较稳定后再使用.

6 数据库介绍

数据库分为用于训练网络和用于测试两类，按照神经网络的训练要求，两者相互独立.

6.1 用于训练的数据库

以下5个为用于训练的数据库，其数据量均超过1 000(LTRC-ILD数据库为533)，且对肺结节有准确的标注.

(1)LIDC-IDRI数据库[28]

(2)The Nelson trial 数据库[29]

(3)LTRC-ILD数据库[30]

(4)Kaggle Data Science Bowl 2017训练数据集 (https://www.kaggle.com/c/data-science-bowl-2017)

(5)2017阿里天池大赛训练数据集

(https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.333.4.BWVodM&raceId=231601)

6.2 用于测试的数据库

以下3个为可用于测试的数据库，数据量相对较少，独立于训练数据库.

(1)ANODE09数据库[31]

(2)Kaggle Data Science Bowl 2017测试数据集 (https://www.kaggle.com/c/data-science-bowl-2017)

(3)2017阿里天池大赛测试数据集(https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.333.4.BWVodM&raceId=231601)

7 总结

对应用于平扫CT图像肺结节检测的深度学习方法进行了综述，介绍了现有研究成果以及可用于肺结节检测的前沿方法，其中有些方法(如迁移学习法)已经应用于肺结节检测，还有一些方法在解决与肺结节检测相似的问题(如人脸识别)中取得了优秀成果. 肺结节检测问题在20世纪已被提出，前人基于传统机器学习与计算机视觉方法对其进行了研究和完善，随着深度学习的兴起，不断涌现出新的网络结构与学习方法. 如何将前人的成果与深度学习方法相结合、如何选取合适的神经网络结构、如何应用前沿的深度学习方法来改善已有神经网络的分类效果，这些将成为该研究领域未来需要攻克的难题.

[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]// PEREIRA F ， BURGES C J C， BOTTOU L, et al. Advances in Neural Information Processing Systems 25. Nevada: Curran Associates Inc, 2012:1097-1105.

[2] 刘玉杰,庞芸萍,李宗民,等.融合抽象层级变换和卷积神经网络的手绘图像检索方法[J].浙江大学学报：理学版,2016,43(6):657-663. LIU Y J , PANG Y P, LI Z M, et al. Sketch based image retrieval based on abstract-level transform and convolutional neural networks[J]. Journal of Zhejiang University: Science Edition,2016,43(6):657-663.

[3] ELBAZ A, BEACHE G M, GIMEL’FARB G, et al. Computer-aided diagnosis systems for lung cancer: Challenges and methodologies[J]. International Journal of Biomedical Imaging,2013,2013(1):942353.

[4] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.

[5] CANZIANI A, PASZKE A, CULURCIELLO E. An analysis of deep neural network models for practical applications[J]. arXiv preprint arXiv:1605.07678,2016.

[6] ANIRUDH R, THIAGARAJAN J J, BREMER T, et al. Lung nodule detection using 3D convolutional neural networks trained on weakly labeled data[C]//SPIE Medical Imaging. Orlando: International Society for Optics and Photonics,2016:978532.Doi:10.1117/12.2214876.

[7] LEE H, LEE H, PARK M, et al. Contextual convolutional neural networks for lung nodule classification using Gaussian-weighted average image patches[C]// SPIE Medical Imaging. Orlando: International Society for Optics and Photonics,2017:1013423.Doi:10.1117/12.2253978.

[8] ROTH H R, LU L, LIU J, et al. Improving computer-aided detection using convolutional neural networks and random view aggregation[J]. IEEE Transactions on Medical Imaging,2016,35(5):1170-1181.

[9] SETIO A A A, CIOMPI F, LITJENS G, et al. Pulmonary nodule detection in CT images: False positive reduction using multi-view convolutional networks[J]. IEEE Transactions on Medical Imaging,2016,35(5):1160-1169.

[10] GIRSHICK R. Fast R-CNN[C]// IEEE International Conference on Computer Vision. Washington : IEEE Computer Society,2015:1440-1448.

[11] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.

[12] WAN S, CHEN Z, ZHANG T, et al. Bootstrapping face detection with hard negative examples[J]. arXiv preprint arXiv:1608.02236,2016.

[13] ZHANG L, LIN L, LIANG X, et al. Is Faster R-CNN doing well for pedestrian detection? [C]// European Conference on Computer Vision. New York: Springer International Publishing,2016:443-457.

[14] IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C] // Proceedings of the 32nd International Conference on Machine Learning. Lille: Computer Science,2015,37:448-456.

[15] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington: IEEE,2015:770-778.

[16] HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[C]//European Conference on Computer Vision. New York: Springer International Publishing,2016:630-645.

[17] SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[J]. arXiv preprint arXiv:1602.07261,2016.

[18] PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Educational Activities Department,2010,22(10):1345-1359.

[19] HOOCHANG S, ROTH H R, GAO M, et al. Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning[J]. IEEE Transactions on Medical Imaging,2016,35(5):1285-1298.

[20] CHRISTODOULIDIS S, ANTHIMOPOULOS M, EBNER L, et al. Multi-source transfer learning with convolutional neural networks for lung pattern analysis[J]. IEEE Journal of Biomedical & Health Informatics,2017,21(1):76-84.

[21] DAUPHIN Y N, PASCANU R, GULCEHRE C, et al. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization[J]. Mathematics,2014,111:2475-2485.

[22] RUDER S. An overview of gradient descent optimization algorithms[J]. arXiv preprint arXiv:1609.04747,2016.

[23] CHEN W, WANG Z, ZHOU J. Large-scale L-BFGS using MapReduce[J]. Advances in Neural Information Processing Systems,2014(2):1332-1340.

[24] 梁昔明,钱积新.大规模界约束优化的子空间截断牛顿法[J].浙江大学学报：理学版,2002,29(5):494-499.

LIANG X M ,QIAN J X . Subspace truncated-Newton algorithm for large-scale bound constrained optimization[J]. Journal of Zhejiang University: Science Edition,2002,29(5):494-499.

[25] BENGIO Y, LOURADOUR J, COLLOBERT R, et al. Curriculum learning[C]//Proceedings of the 26th International Conference on Machine Learning. Montreal: The International Machine Learning Society,2009.

[26] HECHT-NIELSEN R. Theory of the backpropagation neural network[C]// International Joint Conference on Neural Networks. Washington: IEEE,1989(1):593-605.

[27] GRINSVEN M J J P V, GINNEKEN B V, HOYNG C B, et al. Fast convolutional neural network training using selective data sampling: Application to hemorrhage detection in color fundus images[J]. IEEE Transactions on Medical Imaging,2016,35(5):1273-1284.

[28] ARMATO S G, MCLENNAN G, BIDAUT L, et al. The lung image database consortium (LIDC) and image database resource initiative (IDRI): A completed reference database of lung nodules on CT scans[J]. Medical Physics,2011,38(2):915-931.

[29] XU D M, GIETEMA H, DE K H, et al. Nodule management protocol of the Nelson randomised lung cancer screening trial[J]. Lung Cancer,2006,54(2):177-184.

[30] BARTHOLMAI B ,KARWOSKI R, ZAVALETTA V, et al. The lung tissue research consortium: An extensive open database containing histological, clinical, and radiological data to study chronic lung disease[R/OL]. The Insight Journal-2006 MICCAI Open Science Workshop. [2006-08-17].http://hdl.handle.net/1926/221.

[31] VAN G B, VAN A V D V S, DUINDAM T, et al. Comparing and combining algorithms for computer-aided detection of pulmonary nodules in computed tomography scans: The anode 09 study[J]. Medical Image Analysis,2010,14(6):707-722.

A survey of depth learning methods for detecting lung nodules by CT images.

HU Weijian1, CHEN Wei2, FENG Haozhe2, ZHANG Tianping2, ZHU Zhengmao2, PAN Qiaoming1

(1.EngineeringCollege,LishuiUniversity,Lishui323000,ZhejiangProvince,China; 2.StateKeyLabofCAD&CG,CollegeofComputerScience,ZhejiangUniversity,Hangzhou310058,China)

Lung cancer is one of the most aggressive cancers and detecting lung nodule by CT images at the early stage is of vital importance to treating lung cancer. This paper overviews the application of a revolutionary image recognition method, deep learning, in the detection of lung nodule. First, we contrast different convolutional neural network (CNN) architectures and their performance in image recognition. Then, we mainly focus on various deep learning methods including faster-RCNN, transfer learning, residual network and curriculum learning to train the classifier. We also introduce some available databases of lung CT images in the last section of our paper.

deep learning; lung nodule; CNN; database

2017-05-23.

浙江省自然科学基金资助项目(LY13F020019).

胡伟俭(1980-)，ORCID:http://orcid.org/0000-0003-1299-878X，男，硕士，讲师，主要从事人机交互研究，E-mail:13754252004@163.com.

*通信作者，ORCID: http:// orcid.org/0000-0002-2506-8293，E-mail：lsxypqm@163.com.

10.3785/j.issn.1008-9497.2017.04.001

TP 301

1008-9497(2017)04-379-06

Journal of Zhejiang University(Science Edition), 2017,44(4):379-384

应用于平扫CT图像肺结节检测的深度学习方法综述

1 卷积神经网络结构选取与效果对比

2 Fast-RCNN&Faster-RCNN：候选检测

3 残差学习:增加网络深度

4 迁移学习:参数初始化

5 参数迭代方法与curriculum learning

6 数据库介绍

7 总 结

7 总结