Prediction of near-term breast cancer risk based on virtual optical density image

2017-09-03 10:26,,
中国医学影像技术 2017年8期
关键词:光学灰度乳腺

, ,

(School of Medical Instrument and Food Engineering,University of Shanghai forScience and Technology, Shanghai 200093,China)

Prediction of near-term breast cancer risk based on virtual optical density image

ZHANGHongjun,YANShiju*,SONGChengli

(SchoolofMedicalInstrumentandFoodEngineering,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)

Objective To investigate the value of improving the prediction accuracy of near-term risk for developing breast cancer by transforming the original mammography image and fusing the different types of image features using the algorithm of machine learning. Methods The craniocaudal (CC) full-field digital mammography (FFDM) of 185 women were downloaded from the clinical database at the university of Pittsburgh medical center. Firstly, the original gray images were segmented and transformed into virtual optical density images. Then the asymmetry features were separately extracted from original gray images and virtual optical density images. Two decision tree classifiers of the first stage were trained based on the features extracted from two types of image. And the scores output from the two classifiers were used as input to train the second stage of one decision tree classifier. Leave-one-case-out method was used to validate the prediction performance of near-term risk of breast cancer. Results Using two-stage decision tree fusion method to predict breast cancer, the area under the ROC curve (AUC) was 0.9612±0.0132. And the sensitivity, specificity and prediction accuracy were 96.63%(86/89), 91.67%(88/96) and 94.05%(174/185). Conclusion The features extracted from virtual optical density image have higher discriminatory power of predicting breast cancer. Fusing the two kinds of image features twice by two-stage decision tree method can help to improve the prediction accuracy of near-term risk of breast cancer.

Virtual optical density image; Mammography; Image feature analysis; Breast neoplasms; Prediction of risk

乳腺癌是严重危害女性健康的疾病[1],在我国乳腺癌是女性发病率最高的肿瘤,且乳腺癌是癌症死亡的第六大原因[2]。构建科学的乳腺癌风险评估模型有助于乳腺癌的预防。传统的评估模型,如Claus模型、Gail模型、Brcapro模型及Tyrer-Cuzick模型[3]等,多需配合采用基因检测技术来获取相关数据,成本较高且无法评估个体女性近期患癌风险。基于图像特征的乳腺癌近期发病预测模型则无需采用基因检测技术,且可对个体女性近期患癌的风险进行预测。变换是一种常用的图像处理方法,从变换后的乳腺钼靶图像中可提取出更多有利于近期患癌预测的量化特征。与原始灰度图像相比,转换后的虚拟光学密度图像含有更多信息;与全数字化乳腺X线摄影(full-field digital mammography, FFDM)图像灰度值相比,光学密度更能真实地反映人体乳腺组织的密度信息。将图像的灰度值转换成光学密度已被应用于基因表达研究等领域并取得了较好的效果。但将此技术用于处理乳腺钼靶图像并将其用于乳腺癌预测的研究报道鲜见。本研究首先将FFDM原始灰度图像变换为虚拟光学密度图像,而后从原始灰度图像及虚拟光学密度图像中提取量化特征,采用两阶段决策树LADTree算法对2类图像特征进行融合,以提高乳腺癌近期发病风险预测精度。

1 资料与方法

1.1 图像资料 自匹兹堡大学医学中心的临床数据库中下载185例匿名女性筛查者的FFDM图像。所有图像均采用Hologic Selenia FFDM系统采集。每一受检者均分别接受2次FFDM检查,时间间隔12~36个月。经第1次检查,185名受检者均诊断为阴性;而在第2次检查中,基于阅片和病理学检查89例被确诊为阳性(即乳腺癌),96例仍被诊断为阴性。每次FFDM检查均可获得4幅乳腺图像,包括2幅左、右侧乳腺头足(craniocaudal, CC)位图像和2幅侧斜(midiolateral oblique, MLO)位图像。由于对MLO位图像进行乳腺区域分割时,胸壁肌肉与乳腺区域边缘检测效果不理想。本研究只采用每一受检者第1次检查的乳腺CC位图像。

1.2 图像分割 图像分割步骤:①绘制灰度直方图并采用迭代阈值法检测出乳腺组织与图像背景之间的最优边界曲线,而后移除图像背景区域;②对分割后的乳腺图像执行形态学腐蚀操作,移除皮肤区域。乳腺区域分割参照文献[4-5]的方法。

1.3 虚拟光学密度图像生成 由于原始灰度图像与虚拟光学密度图像间的转换是一种非线性转换,从转换前后的图像中提取的2类特征可能会形成有益互补。本研究采用机器学习算法对2类特征采用合适的方式进行融合,以获得更为理想的患癌风险预测效果。本研究拟将分割后的乳腺灰度图像变换为虚拟光学密度图像,并将其与原始钼靶图像结合用于乳腺癌近期发病预测。采用文献[6-7]中提供的相对光学密度(relative optical density, ROD)公式进行图像变换,公式为:

其中,GV表示分割后的乳腺图像的像素灰度值。图1、2分别为1例乳腺癌患者及1名阴性筛查者的原始灰度图像及对应的虚拟光学密度图像。

1.4 特征提取 本研究提取的图像特征包括(表1):①基本统计特征[8-9];②基于分形维数的特征[8-9];③纹理特征;④其他特征。其中常见的纹理分析方法包括统计方法、结构方法、模型方法及频谱方法[10],本研究采用统计方法分别从灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵及局部灰度差分矩阵中提取纹理特征[5,11]。依据表1所定义的特征,从原始灰度图像的乳腺区域、乳腺高密度区各提取76个特征,即从原始灰度图像中共提取152个特征(F1~F152)。同理,从虚拟光学密度图像中提取152个特征(F153~F304)。

同一受检者左、右侧乳腺图像对应特征值差的绝对值为不对称特征。本研究采用min-max方法[9]将不对称特征标准化到0和1之间。

1.5 特征分析与性能评估 分别采用简单融合方法和机器学习算法对图像特征进行融合及分析,比较其预测乳腺癌近期发病风险的性能。

1.5.1 简单融合 首先将提取的不对称特征分别与筛查者的状态(0表示阴性,1表示阳性)采用R软件进行相关分析,选出与筛查者状态显著相关(P<0.01)的特征,并以ROCKIT软件分别计算这些特征的ROC曲线下面积(area under the curve, AUC)值,再选出AUC>0.6(认为该特征具有评估双侧乳腺组织不对称及识别部分阳性患者的能力[12-13])的特征。以最大值、最小值及平均值3种不同的方法对AUC>0.6的特征进行简单融合,产生新的得分,并以此得分预测受检者乳腺癌近期发病风险。

1.5.2 机器学习算法融合 采用两阶段机器学习算法融合(图3)2类图像特征,所有机器学习部分均采用WEKA软件实现。在WEKA软件Explorer界面的“Classify”模块,选择“Attribute Selected Classifer”分类器,该分类器整合了决策树LADTree分类器、CfsSubsetEval属性子集评估器及BestFirst搜索方法。其中以决策树LADTree分类器作为基分类器对受检者是否患癌进行分类,CfsSubsetEval和BestFirst结合用于特征选择。特征选择的实验步骤:①采用BestFirst搜索方法遍历整个特征空间,以便搜索出对乳腺癌具有较高预测力的特征集合;②采用CfsSubsetEval属性子集评估器逐一评估该特征子集中每个特征的预测能力及它们之间的冗余度;③选出与类高度关联但相互间关联程度较低的特征。为获得可靠、稳定的模型,本研究在特征选择及采用分类器分类过程中均采用留一法进行交叉验证。并通过AUC、预测准确率、敏感度及特异度指标评估分类器的预测性能。

表1 各类图像特征定义

图1 患者女,48岁,乳腺癌 右侧和左侧乳腺原始灰度图像(A、B)及对应的虚拟光学密度图像(C、D)

2 结果

从虚拟光学密度图像中可提取出更多具有较高预测力的图像特征,见表2。采用简单融合方法和一阶段机器算法融合方法得到的实验结果显示,虚拟光学密度图像与原始灰度图像相比并无优势,其AUC均在0.7以下,见表3。采用两阶段机器算法融合所得AUC为0.9612±0.0132,其值明显高于单个特征的AUC及简单融合方法得到的AUC,ROC曲线对比分析见图4、5。采用两阶段机器算法融合预测乳腺癌的敏感度为96.63%(86/89),特异度为91.67%(88/96),准确率为94.05%(174/185),见表4。

表2 ROC曲线AUC>0.6的图像特征及其AUC值

表3 不同特征融合方法所得ROC曲线AUC值

图2 阴性受检者,女,37岁 右侧和左侧乳腺原始灰度图像(A、B)及对应的虚拟光学密度图像(C、D)

机器算法融合方法准确率敏感度特异度一阶段融合(基于原始灰度图像特征)56.7665.1748.96一阶段融合(基于虚拟光学密度图像特征)62.1658.4365.63两阶段融合94.0596.6391.67

图3 两阶段机器学习算法融合示意图

图4 不同特征融合方法所得ROC曲线对比 A.基于原始灰度图像特征的ROC曲线; B.基于虚拟光学密度图像特征的ROC曲线 图5 一阶段与两阶段机器学习算法融合ROC曲线对比

3 讨论

在个体女性乳腺癌近期发病风险预测研究中,Zheng等[14]提出的预测方法所得最大AUC为 0.761±0.025,Tan等[15]提出的预测方法所得AUC为0.725±0.018。本研究中,两阶段机器算法融合所得AUC为0.9 612±0.0 132,表明本研究提出的预测方法是一种有效的乳腺癌近期发病风险预测方法。

综合对比分析本实验结果可得:①从虚拟光学密度图像中可提取出更多具有较高预测力的图像特征;②与仅采用原始灰度图像特征或仅采用虚拟光学密度图像特征相比,采用两阶段决策树LADTree方法对2类特征进行二次融合可显著提高乳腺癌近期发病风险预测精度。

本研究目前仅采用图像变换方法将原始乳腺钼靶图像变换成虚拟光学密度图像,在今后的研究中,将进一步探索其他图像处理方法,以寻找更多有效的图像处理方法。此外,本课题组现阶段的研究侧重于图像处理及数据分析方法,暂时采用的是国外的图像资料,今后拟加强与国内医院合作,更多采用国内的图像资料对国内个体女性乳腺癌近期发病风险进行预测。

总之,本研究构建的预测模型有助于提高个体女性乳腺癌近期发病风险预测精度,有望降低临床诊断的假阳性率及假阴性率,为乳腺癌的早期诊断提供有价值的参考信息。

[1] 段骄楠,李小龙,陈首英,等.女性乳腺癌危险因素研究新进展.中国妇幼保健,2016,31(12):2571-2573.

[2] 李囡,范洋,翟士桢,等.18F-FDG PET/CT在原发乳腺癌患者治疗后随访中的应用.中国医学影像技术,2016,32(6):890-895.

[3] 赵洁玉,徐卫云.乳腺癌风险评估及预测模型的研究进展.临床外科杂志,2013,21(7):566-568.

[4] Tan M, Pu J, Cheng S, et al.Assessment of a four-view mammographic image feature based fusion model to predict near-term breast cancer risk. Ann Biomed Eng, 2015,43(10):2416-2428.

[5] Tan M, Pu J, Zheng B. Reduction of false-positive recalls using a computerized mammographic image feature analysis scheme. Phys Med Biol, 2014,59(15):4357-4373.

[6] Lazic SE. Statistical evaluation of methods for quantifying gene expression by autoradiography in histological sections. BMC Neuroscience, 2009,10(5):1-15.

[7] Vizi S, Palfi A, Hatvani L, et al. Methods for quantification of in situ hybridization signals obtained by film autoradiography and phosphorimaging applied for estimation of regional levels of calmodulin mRNA classes in the rat brain. Brain Res Protoc, 2001,8(1):32-44.

[8] Chang YH, Wang XH, Hardesty LA, et al. Computerized assessment of tissue composition on digitized mammograms. Acad Radiol, 2002,9(8):899-905.

[9] Wang XW, Lederman D, Tan J,et al. Computerized prediction of risk for developing breast cancer based on bilateral mammographic breast tissue asymmetry. Med Eng Phys, 2011,33(8):934-942.

[10] 孙君顶,马媛媛.纹理特征研究综述.计算机系统应用,2010,19(6):245-250.

[11] Vallières M, Freeman CR, Skamene SR, et al. A radiomics model from joint FDG-PET and MRI texture features for the prediction of lung metastases in soft-tissue sarcomas of the extremities. Phys Med Biol, 2015,60(14):5471-5496.

[12] Wang XW, Lederman D, Tan J, et al.Computerized detection of breast tissue asymmetry depicted on bilateral Mammograms: A preliminary study of breast risk stratification. Acad Radiol, 2010,17(10):1234-1241.

[13] Sun WQ, Zheng B, Lure F, et al. Prediction of near-term risk of developing breast cancer using computerized features from bilateral mammograms. Comput Med Imaging Graph, 2014,38(5):348-357.

[14] Zheng B, Sumkin JH, Zuley ML, et al. Bilateral mammographic density asymmetry and breast cancer risk: A preliminary assessment. Eur J Radiol, 2012,81(11):3222-3228.

[15] Tan M, Zheng B, Ramalingam P, et al.Prediction of near-term breast cancer risk based on bilateral mammographic feature asymmetry. Acad Radiol, 2013,20(12):1542-1550.

《中国医学影像技术》投稿要求(一)

1 总体要求 文稿应具有科学性、先进性、创新性和可读性,力求重点突出,论点明确,资料详实,数据可靠,结构严谨,写作规范,表达准确,文字精炼。文稿撰写应遵照国家标准GB 7713科学技术报告、学位论文和学术论文的编写格式,GB 6447文摘编写规则,GB 7714文后参考文献著录规则;专家述评4 000字左右,研究论著、综述类论文5 000字左右,经验交流一般不超过2 500字,个案报道不超过1 000字。

2 题目 力求高度概括、言简意赅且能反映论文的主题,文题字数一般不超过20个汉字,尽量不设副标题,题目中尽量不使用阿拉伯数字开头。

3 作者 作者姓名标注在文题下方,按贡献大小顺序排列,投稿后作者署名及顺序不得随意修改或变更。具备下列条件者可列为作者:①参加选题、研究工作并能解释论文有关问题者;②起草或修改论文中关键性理论或主要内容者;③能对编辑部的修改意见进行核修,并最终同意该文发表者。对研究工作有贡献的其他人可在致谢中列出。通信作者姓名旁应上标加注“*”号,其应对全文内容负责,还应具有对读者提出的质疑进行答辩的能力和义务。如有外籍作者,应征得本人同意,并附有本人签字。

4 单位 在作者的下一行写出单位的全称(具体到科室)、省市和邮政编码。署名作者分别在多个单位者,应分别写出各单位的全称(具体到科室),并用阿位伯数字在对应的署名作者右上角标注。

5 英文题目 应简明扼要,便于检索,与中文题名内容上应一致,以不超过10个实词为宜。除已得到整个科技界或本行业科技人员公认的缩略词语外,不宜使用缩略词语。

6 英文作者 用汉语拼音拼写,姓前名后,姓氏全部大写,名首字母大写,双名首字母大写。例如:王小五,写为:WANG Xiaowu。依据《中国人名汉语拼音字母拼写规则》(国家标准编号:GB/28039-2011),姓氏“吕”的汉语拼音应为“LYU”。

7 英文单位 应与中文单位对应,按查阅本单位官方网站或咨询相关职能部门,规范英文单位名称。

张红军(1987—),男,河南驻马店人,在读硕士。研究方向:医学图像处理。E-mail: hjz.vip@outlook.com

闫士举,上海理工大学医疗器械与食品学院,200093。E-mail: yanshiju@usst.edu.cn

2016-12-28

2017-06-01

基于虚拟光学密度图像的乳腺癌近期发病预测

张红军,闫士举*,宋成利

(上海理工大学医疗器械与食品学院,上海 200093)

目的 探讨对原始乳腺钼靶图像进行变换和采用机器学习算法融合不同类型的图像特征,以提高乳腺癌近期发病风险预测精度的价值。方法 自匹兹堡大学医学中心的临床数据库下载185例女性受检者头足(CC)位全数字化乳腺X线摄影(FFDM)图像。首先对原始灰度图像进行乳腺区域分割并将其变换为虚拟光学密度图像,而后从原始灰度图像和虚拟光学密度图像中分别提取不对称特征。基于此不对称特征分别训练第1阶段的2个决策树分类器,再以这2个分类器输出的得分值作为输入,训练第2阶段的1个决策树分类器。对乳腺癌近期发病风险预测性能采用留一法进行验证。结果 采用两阶段决策树融合方法预测乳腺癌的ROC曲线下面积(AUC)为0.9612±0.0132,敏感度为96.63%(86/89),特异度为91.67%(88/96),准确率为94.05%(174/185)。结论 从虚拟光学密度图像中可提取出对乳腺癌具有较高预测力的特征,采用两阶段决策树方法对两类图像特征进行二次融合有助于提高乳腺癌近期发病风险预测精度。

虚拟光学密度图像;乳房X线摄影术;图像特征分析;乳腺肿瘤;风险预测

R737.9; R814

A

1003-3289(2017)08-1226-06

10.13929/j.1003-3289.201612112

猜你喜欢
光学灰度乳腺
采用改进导重法的拓扑结构灰度单元过滤技术
滑轮组的装配
基于高频超声引导的乳腺包块导丝定位在乳腺病变中的诊断价值
乳腺结节状病变的MRI诊断
光学常见考题逐个击破
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
Bp-MRI灰度直方图在鉴别移行带前列腺癌与良性前列腺增生中的应用价值
Arduino小车巡线程序的灰度阈值优化方案
体检查出乳腺增生或结节,该怎么办
第2讲 光学知识专题复习