基于肺部CT图像的计算机辅助诊断系统构建

2018-10-29 11:40王洪洋朱海波高碧海
中国医学装备 2018年10期
关键词:分类器预处理结节

王洪洋 张 颖 朱海波 高碧海

随着我国工业发展、环境污染和人口老龄化加快,肺部疾病发病率也呈现逐年上升的趋势,成为威胁人类健康的主要因素之一。肺部疾病起病急,进展快,严重威胁着人类健康,并随着年龄的增长,其发病率逐渐增大[1]。临床上,高效的影像学检查和精准的临床诊断能够及时发现早期病变并采取治疗,从而有效避免病情恶化,降低病死率。

CT作为肺部疾病的常规检查方法,具有无侵入性、成像快、图像分辨率高等优点,成为筛查的重要手段[2]。较之传统X射线检查,在解剖结构上能够呈现出高对比度。如CT能够检测出直径<3 cm,圆形轮廓,边缘模糊的肺结节,甚至<1 cm的微结节[1-2]。但从CT图像产生的临床决策却往往与阅片医生经验、知识水平及临床主观判断密切相关,漏诊与误诊难以避免,人为因素也成为了影响此类疾病诊断的重要因素[3]。

图像计算机辅助诊断(computer aided diagnosis,CAD)系统可提高肺部1 cm左右病灶的确诊率,辅助医师提高早期肺癌诊断率约15%[1-4]。CAD系统能够提高不同大小肺部组织的检测灵敏度,因此构建CAD系统并应用于肺部CT辅助检查具有现实意义[1-2,5-6]。目前,CAD系统功能主要集中在图像增强、滤波、重建等方面,虽然能够提高图像质量,却未能根本解决肉眼观察带来的诊断误差问题;而肺部结节由于受到图像质量、图像背景及胸腔组织实质等干扰以及血管遮挡,难以直接定位[2,6]。因此,需要借助于CAD系统,定量分析图像信息,快速捕获临床感兴趣区域(region of interest,ROI),为临床决策提供量化依据和决策支持,降低医生工作量,提高诊断效率和患者就医体验。

1 CT图像CAD系统功能分析

基于肺部CT图像构建CAD系统,实现图像读取、图像预处理、图像基本操作、图像宏观信息描述、ROI轮廓分析、ROI特征提取、ROI图像分类器等模块功能,为肺部疾病的诊断和研究提供量化分析和辅助决策。

1.1 图像读取

读取、解析医学数字成像及通信(digital imaging and communication of medicine,DICOM)图像文件,并导出常规文件类型。

1.2 数据预处理

图像采集过程由于移动、噪声、拍摄位置等问题,会影响后续图像分类效果[1,4]。因此需要通过预处理方法消除无关信息,矫正运动伪影、噪声及介质衰减而导致的失真,增强信息的可检测性,从而提高图像特征提取和分类的可靠性,包括几何变换、归一化、平滑及增强等[7]。

(1)几何变换。用于修正图像采集系统中的系统误差及移动误差。

(2)归一化。通过归一化可以消除或降低环境噪声。

(3)平滑。降低图像中产生的随机噪声,针对图像灰度骤变的部分进行增强,突出图像细节。

(4)增强。通过选择性的增强及抑制,调整图像效果,便于图像特征抽取或识别。

1.3 图像基本操作

(1)图像空间变换。图像插值、图像缩放、图像旋转、图像剪切、旋转、大小调整、裁剪、定位和几何测量[7-8]。

(2)图像变换。包括傅里叶变换、离散余弦变换、Radon变换、沃尔什-阿达玛变换以及离散卡夫纳-勒维变换等功能,为后续处理提供支持[4,9]。

1.4 图像宏观信息描述

读取CT图像综合信息,包括患者信息(姓名、CT号、性别、年龄等)、图片信息包括扫描序号、管电压(kV)、管电流(mAs)、层厚、扫描架转角、平扫和(或)增强扫描、窗技术、关注区及CT值等信息[2,10]。

(1)轮廓分析。从待分析图像中分割出ROI,如CT影像中疑似结节区域。

(2)辅助诊断。通过将预先选择的图像特征参数输入分类算法,构建分类模型,实现ROI区域辅助诊断决策。

2 CT图像CAD系统设计

2.1 系统框架

系统构建采用B/S架构,后台编码采用java开发实现,便于跨平台部署和多用户访问。设计MVC采用模式,MVC框架采用Spring MVC,可将系统业务逻辑、数据模型及用户交互界面分离实现,便于系统服务开发、升级及迁移。数据库存储采用MySQL5.7,持久化框架采用MyBatis3.4.7;前端采用Bootstrap3及jQuery1.10实现。系统功能主界面如图1所示。

图1 系统功能主界面图

图像采集后存储入库,经数据预处理,获得图像宏观描述信息;在ROI分割算法处理后,形成各个ROI。根据特征提取算法提取对应域的特征信息并保存,将特征信息及宏观描述信息带入分类模型,获得分类信息产生辅助决策信息(如图2所示)。

图2 图像处理流程框图

2.2 功能模块

各功能模块包括图像读取和预处理。

(1)图像读取。CT图像符合DICOM标准,读取采用dcm4che3库处理图像,实现图像读写及保存。

(2)预处理。为降低图像噪声、眩光等不利因素,需要对图像进行预处理,提高图像对比度。系统开发预处理过程可通过设置选择对应的预处理方法,其中包括降采样、局部对比增强、自适应维纳滤波、自适应直方图均衡、增强滤波、快速傅立叶变换、小波变换、噪声矫正、Gabor滤波、直方图增强、伪彩色增强、灰度窗增强、拉普拉斯滤波及蝶形模糊滤波等[1-2,10-11]。

2.3 ROI分割

(1)为从待分析图像中分割出ROI,需要分别消除背景、骨骼肌肉、肺血管、心脏及肝脏等部分。首先胸部CT图像包含部分噪声信息,如背景以及骨骼和肌肉等高密度组织,影响了肺血管和肺实质的显示,同时也对肺结节特征的提取分析造成了干扰。因此,系统采用阈值法分割出图像背景、体腔及肺实质,考虑到Web项目需要适应多种应用场景,为了实现快速分割,加快数据加载,系统可结合应用需求选用自动区域增长算法。该算法通过选择阈值组,分割图像,获得肺实质轮廓图像;结合位置信息,分别于两侧主肺叶选择起始点,设定区域生长及终止条件,即根据CT值转换为灰度后,设定相似性准则作为生长条件,以及当未能发现符合生长条件的点后停止生长,实现左右两侧肺叶区域分割[12](如图3所示)。

图3 肺部CT原始图像

(2)由于存在机械牵拉、血管横截面重叠及肺部结节等原因,分割获得的肺实质伴有缺损,需要形态学修补。系统使用形态学的腐蚀和膨胀算法,实现肺实质空洞的填补和边缘平滑,分割后得到完整的肺部区域[1,12-13](如图4所示)。

图4 提取肺实质图像

(3)由于ROI(如结节)通常易于受到血管及其横断面等遮挡,对ROI显示造成影响,通常对医生的读片经验有较高的要求。因此,CAD系统不仅需要自动标记ROI轮廓,还应当降低相似组织干扰,提高读片效率及诊断的准确率(如图5所示)。

图5 血管及肺结节分割图像

(4)系统设置了多种ROI分割模块选择:Seedfilling定位法、阈值法、大津法、Rosin法、正则分布法、高斯参数法、矩量保持法、Kapur和熵法、Kittler聚类、拓扑稳定状态法、模糊聚类(fuzzy c-means,FCM)。系统默认采用Seed-filling定位法分割ROI[4,14](如图6所示)。

图6 Seed-filling定位法获得ROI分割步骤图

2.4 特征选择

为了判断ROI类型是否为结节、良性组织病变或恶性组织,系统根据已明确诊断的标注样本库训练算法模型,结合已有的临床知识和文献记载,从几何形状、纹理密度、社会环境等角度在候选区域上选择提取了36种特征值,为后续分类诊断提供条件[1,15](见表1)。

表1 特征选择参数列表

2.5 分类器

为了简化分类器,目前系统实现了ROI二分类,即:将ROI分类为结节及非结节。可选择的分类器有支持向量机(support vector machine,SVM)、人工神经网络(artificial neural network,ANN)及随机森林等[15]。分类器采用Apache spark mlib实现,spark基于内存的计算模型,较为擅长图像迭代计算,而mlib是Spark对常用的机器学习库,其目标是使实用的机器学习算法可扩展并容易使用。提供的工具包括:①机器学习算法,常规机器学习算法有分类、回归、聚类和协同过滤;②特征工程,即特征提取、特征转换、特征选择以及降维;③管道,构造、评估和调整的管道的工具;④存储,保存和加载算法、模型及管道;⑤实用工具,线性代数、统计及数据处理等。包含了系统所需实现的分类器算法,使用便捷。

3 CT图像CAD系统应用

3.1 数据集

系统样例采用了朝阳市第二医院2012-2017年共208例肺部CT[SIEMENS SOMATOM Definition AS+型CT(德国西门子公司)及UCT 760型CT(上海联影公司)]影像,共分割出ROI的513例。

将临床医生诊断结果作为标签,分割ROI诊断结果可分为结节和非结节。按性别、年龄组指标进行平衡后按照5∶2的比例随机分为训练组和测试组,分别用于训练及测试。其中训练组结节110例,非结节256例;测试组结节44例,非结节103例。

3.2 训练及测试结果

3.2.1 SVM分类模型

模型参数设置:设置s为C-SVC,c选择1,方法选择序列最小最优化(sequential minimal optimization,SMO),当核函数为rbf时,选择sigma为:{-1,-0.8,0.6,0.8,1};当核函数为mlp时,sigma选择:{-1,1};weights和bias均为1。模型训练中,训练组分别选择linear、quadratic、rbf及mlp的4种核函数,将训练组结节和非结节数据输入训练;训练完成后将测试组结节和非结节数据输入模型进行测试。选择linear为核函数,获得最高测试准确率(94.04%)及真阳性率(true positive rate,TRP)(96.96%),选取rbf作为核函数时,且Sigma设置为1,获得P值最高(100.00%),见表2。

表2 SVM模型分类效果

3.2.2 随机森林模型

设置ntree为316,mtry为6,将训练组结节和非结节数据输入训练;获得测试准确率为95.23%,TPR为96.96%,假阳性率(false positive rate,FPR)为5.88%,P值为91.42。

3.2.3 ANN模型

设置ANN模型输入层为36,隐蔽层为6,预测分类结果设置为二分类,即:0-0.5,0.5-1,分别对应结节与非结节。训练算法分别选用弹性梯度下降(flexible gradient descent,FGD)法、共轭梯度法fletcher-reeves(FR)、共轭梯度法ploakribiere(PR)、共轭梯度法powell-beale(PB)、量化共轭梯度(quantized conjugate gradient,QCG)法、步进割线(step secant,SS)法、莱文贝格-马夸特方法(levenberg-marquardt,LM)以及拟牛顿(Quasi-Newton,QN)法,目标误差设为0.01,学习率为0.1,最大训练周期为2000,网络测试集达到最小均方误差结束。经过训练的ANN模型拟合效果,测试准确率可以达到98.07%,TRP(100.00%),QN模型(隐层节点设置为7)可以得到最高的P(97.06%),见表3。

表3 分类效果比较(%)

ANN(QN,7)是具有最佳拟合效果和TPR的模型,测试准确率可达98.81%。SVM的准确率(rbf,rbf_sigma为1)可以达到100%。其所有受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)可达0.97,这可能是由于图像中纹理对分类结果相关性较高所致。同时,数据集本身可能会影响结果,如数据集来源单一,样本不平衡以及正例样本不足,见表4。

表4 模型分类效果评测(%)

4 讨论

随机森林的表现不尽如人意,但外推预测效果和交叉验证有差异,稳定性略差,这可能是由于选取较多反映纹理特征参数所致,在今后的研究中,可以尝试降维,观察分类效果。SVM的假阳性率高于其他算法,这可能是由于一些敏感数据缺失以及训练和测试集缺乏平衡,但其交叉验证结果更稳定,即AUC达到1,进一步的研究可尝试与随机森林结合。ANN具有较高的容错性,并且可以结合spark stream实现实时分析系统。在本研究中,当训练方法选择QN和隐藏层节点设置为7,整体性能较好。分析ANN三层模型具有较强的预测精度和稳定性,对于整体训练结果,当样本有限时,该模型受到影响较小[15-16]。

据统计,医学影像的疾病误诊率可达到10%~30%,在本研究中采用基于图像ROI分割、分类器为基础的CAD系统能够将样例诊断错误率降低至8%以下,其中假阴性率低于5%,假阳性率低于3%[17]。同时,通过调整分类算法及参数能够构建出假阴性率较低(测试样例为0.00%)的CAD系统模型。在临床筛查中,假阴性率往往更值得关注,但在确定的模型训练方法及样本状况下,假阴性率和假阳性率是此消彼长的关系,需要结合使用场景,兼顾二者,选择合理的算法及初始化参数构建模型,提高诊断质量。

5 结语

随着肺部疾病发病率逐年攀升,该病已逐渐成为我国人民身心健康的重大威胁,给患者生活和医疗环境带来巨大挑战。如何快速发现早期病变、及时采取治疗、从而有效避免病情恶化及降低病死率已成为当前新的挑战。作为肺部疾病检查的常规手段,CT以其无创、便捷及精准的特性,在临床上被广泛采用。然而,高强度的阅片工作,不仅要求医生具备较高的临床经验,同时需要具备高效的阅片效率[18-19]。而通过人工智能技术构建CAD系统,能够定量分析图像信息,快速捕获ROI,为医生决策提供量化依据和决策建议,从而确保了诊断效果和诊断效率[20]。CAD系统采用Web可视化界面,操作简便,并可降低使用门槛,增强用户体验,为类似系统的开发提供借鉴。

猜你喜欢
分类器预处理结节
求解奇异线性系统的右预处理MINRES 方法
乳腺结节状病变的MRI诊断
肺结节,不纠结
发现肺结节需要做PET/CT吗?
高COD二噻烷生产废水预处理研究
基于特征选择的SVM选择性集成学习方法
体检查出肺结节,我该怎么办
基于深度优先随机森林分类器的目标检测
基于预处理MUSIC算法的分布式阵列DOA估计
基于差异性测度的遥感自适应分类器选择