乳腺X线图像计算机辅助诊断技术综述

2022-03-02 08:31陈智丽潘以轩

计算机工程与应用 2022年4期

陈智丽，高皓，潘以轩，2，邢风，3

1.沈阳建筑大学信息与控制工程学院，沈阳110168

2.中国建筑第八工程局有限公司总包协调部，江苏苏州215000

3.深圳市赢时胜信息技术股份有限公司AMS事业部，北京100032

随着人口老龄化的加剧，癌症已逐渐成为危害人类身体健康的主要问题。世界卫生组织国际癌症研究机构（IARC）发布的GLOBOCAN2018 报告显示：2018 年全球有1 810 万新发癌症病例，其中乳腺癌排在新发病例的第二位[1]。在乳腺癌患者中，99%为女性，男性仅占1%。可见，乳腺癌是危害女性健康的主要杀手。全球乳腺癌的发病率从上世纪70年代末开始就一直呈上升趋势且趋于年轻化。我国乳腺癌发病的高峰年龄已提前到了40～49 岁，并且30～39 岁的乳腺癌发病率已达到了每10 万人中有13 位患者，这一数据是美国该年龄段发病率的两倍[2]。早发现、早诊断、早治疗是延长患者生命，提高生活质量的重要方式，因此乳腺癌的早期筛查和及时治疗十分重要。

目前，乳腺检查主要分为病理检查和无创检查两种。乳腺病理检查是利用细胞病理学检查和组织病理学检查，对乳腺病变的良恶性实现最终的确诊；无创乳腺检查主要分为乳房触诊检查和乳腺影像学检查。目前主要乳腺影像学检查包括超声影像（ultrasound imaging）、乳腺X 线摄影（mammography）、核磁共振成像（MRI）、计算机断层扫描（CT）、正电子发射型计算机断层显像（PET）等。乳腺X 线摄影检查在医学放射学中已经应用很多年[3]。虽然现在逐渐产生了很多其他先进的技术方法，但是乳腺X 线摄影仍是目前最简单且最有效的，可以发现早期乳腺癌病变特征的检查工具，也是现在唯一可以查出隐匿性癌症与早期原位癌的技术方法。在临床环境中，美国放射学会制定了BI-RADS（American College of Radiology’s Breast Imaging Reporting and Data System）[4]对乳腺X线图像进行主观评估。BI-RADS分为7个等级，BI-RADS 0到BI-RADS 6依次描述乳腺内肿块和钙化等异常表现的严重程度，数字越大，恶性程度越大。

在早期，乳腺X 线摄影技术广泛应用，医生需要在实践中学习积累大量的临床经验，进而可以解读患者的X光片所反映的乳腺结构和病理信息。因此，医生在诊断时具有主观性，且每位医生的经验水平也不尽相同，面对变化多样的乳腺异常结构，即使是专家也很难立刻做出准确判断，容易出现漏诊和误诊的情况。随着计算机的发展与普及，逐步成熟的计算机技术为医学图像分析与处理提供了足够的计算能力，能够一定程度上减少对医生经验水平的依赖。20世纪中期，以美国学者Ledley为首的研究团队首次将数学模型引入到临床医学[5]，初步提出了计算机辅助诊断（computer aided diagnosis，CAD）技术的数学模型，为CAD技术在医疗领域的发展开创了先河，开始了CAD技术的初步研究，在一定程度上辅助医生判读医学图像，排除了人为主观因素的影响，提高了诊断的准确率和效率。利用自动、精确、定量的计算机辅助图像分析技术，可以有效帮助临床医生和研究者高效准确地处理海量医学图像。

乳腺X 线图像中乳腺病变通常分为四种类型[6]：肿块、钙化、不对称和结构变形。乳腺肿块和微钙化是临床中比较常见的病变。微钙化是乳腺组织内微小的钙沉积异常，表现为高对比度的小亮点，并以聚簇状方式呈现；乳腺肿块则是灰白色的区域，其形状通常可以描述为椭圆形、不规则或分叶状等，边界情况通常可以描述为边界清晰、模糊或针状等。虽然微钙化点相对于肿块而言较小，但是由于肿块的大小、形状的多样性以及个体乳腺密度的不同，肿块可能隐藏在乳腺组织中，检测难度更大。相较于钙化而言，乳腺肿块的检测是一项更具有挑战性的工作。

1 乳腺X线图像数据集及评价标准

1.1 乳腺X线图像数据集

目前，受诸多因素影响，已公开的医学图像数据集少之又少。特别是乳腺X 线图像的数据集更是寥寥无几，主要原因有以下几点：一是乳腺X 线图像数据集需要由专业的放射科医生进行标注，对医生的专业性要求很高；二是因为我国乳腺癌普查还没有全面推广，相对大型的数据库都来自国外。表1是目前已公开的乳腺X线图像数据集[7]，但是对于深度学习的方法，乳腺X线图像的采集问题仍是需要解决的难点。

表1 已公开的乳腺X线图像数据集Table 1 Public datasets of mammographic images

1.2 评价指标

对于乳腺X 线图像病变检测、分割和分类，根据研究的重点不同，常采用以下几种不同的评价指标：召回率（Recall），又称查全率；精确度（Precision），又称查准率；灵敏度（Sensitivity，SEN），又称真阳性率（true positive rate，TPR）；特异性（Specificity，SPE），又称真阴性率（true negative rate，TNR）；准确率（Accuracy，Acc）；F1 度量（F1-score）等。

对于二分类问题，可将分类结果进行如下划分：真阳性（true positive，TP）表示样本本身为阳性且预测结果也为阳性；假阳性（false positive，FP）表示样本本身为阴性而预测结果为阳性；真阴性（true negative，TN）表示样本本身为阴性且被正确判断为阴性；假阴性（false negative，FN）表示样本本身为阳性而预测结果为阴性。分类结果的“混淆矩阵”（confusion matrix）如表2所示。

表2 分类结果混淆矩阵Table 2 Confusion matrix of classification results

另外，经常采用受试者工作特征（receiver operating characteristic，ROC）曲线来分析不同分类器的好坏。ROC曲线的x轴表示假阳性率（false positive rate，FPR），y轴表示真阳性率（true positive rate，TPR），ROC 曲线下面积用AUC（area under curve）表示，其面积越大代表分类器的性能越好，理想状况下的AUC 为1。图1 是ROC曲线与AUC的示意图。由于ROC曲线不能解决在一张图像上对多个异常评价的问题，对ROC曲线进行变形，引入自由响应接受者操作特征曲线（free-response receiver operating characteristic curve，FROC）[15]，以对每张图像的任意异常进行评价。FROC 曲线的x轴是FP/image_num（image_num代表测试图像张数），y轴是真阳性率。

图1 ROC曲线与AUC示意图Fig.1 Examples of ROC curve and AUC

此外，还使用P-R（Precision-Recall）曲线对模型进行分析，P-R曲线的x轴为Recall（召回率），反映分类器正确识别出的正样本数与真实正样本数的比例，y轴为Precision（精确度），反映分类器正确识别出的正样本数与识别出的正样本数的比例。图2 是P-R 曲线示意图。P-R 曲线下面积为平均精度（average precision，AP），反映模型在不同召回率下最高精确度的平均值，各类别AP的均值（mean AP，mAP）代表平均精度的均值。

图2 P-R曲线示意图Fig.2 Examples of P-R curve

在图像分割技术中，经常用到交并比（intersection over union，IoU）这一评价指标，见式（7），其中分子是图像的金标准与分割结果的交集，即TP，分母是图像的金标准与分割结果的并集，即TP+FN+FP，如图3所示。此外，还采用Dice系数这一像素级评价指标，见式（8），其取值范围在0～1 之间，Dice 越接近1，证明分割效果越好。式（9）为IoU和Dice系数之间的关系式。

图3 IoU示意图Fig.3 IoU diagram

2 应用传统方法的乳腺X线图像计算机辅助诊断

随着计算机技术的不断发展，计算机辅助诊断受到医学界的广泛关注。图4 为乳腺X 线图像计算机辅助检测与分类诊断的工作流程，主要包括乳腺X线图像预处理、病变检测、感兴趣区域分割、特征提取和选择、良恶性病变分类等，检测和诊断结果将提供给放射科医生作为参考，以得到最后的诊断结果。经过临床实验证明，乳腺X线图像计算机辅助诊断技术可以有效地提升乳腺癌诊断的灵敏度与准确率，大大减少漏诊和误诊，避免贻误患者的最佳治疗时间或造成过度治疗。

图4 乳腺X线图像计算机辅助诊断工作流程图Fig.4 Workflow of computer aided diagnosis of mammographic images

2.1 乳腺X线图像预处理

在进行乳腺X 线图像分析时，因为病灶的形态较小，又与乳腺腺体相连，而胸肌组织的灰度与病变的灰度相似，不易区分，所以诊断所需的乳腺X 线图像往往需要很大的分辨率，如果直接处理原始图像需要很长的运行时间，因此对医学图像进行预处理是十分必要的。在乳腺X 线图像的病变诊断中主要从以下几方面对图像进行预处理：去除背景和胸肌组织等干扰区域、去除噪声、图像增强及图像大小的调整等。

Akselrod-Ballin 等人[16]分割乳房组织，通过去除背景与胸肌并相应地裁剪图像完成对图像的预处理。Moayedi等人[17]通过扫过图像并剪切均值和方差小于某个阈值的水平和垂直方向的区域来删除具有明显结构噪声的深色背景区域，然后根据局部方差和诸如直方图拉伸之类的点操作的差异，从背景中分离出乳腺纹理，根据垂直和水平梯度的像素能量和区域增长算法，实现胸肌组织与乳腺组织的分割。Vikhe等人[18]基于小波的降噪以及自适应阈值技术进行肿块检测的增强和分割，实验结果表明，可疑区域的形状可以很好地保留，并且可以与高对比度区域和背景清晰地区分，不会模糊边缘。

由于乳腺X线摄影图像存在一些斑点噪声，导致图像的对比度和分辨率较低，肿块和钙化点与噪声点的边界划分不清晰，这就需要滤波处理来去除噪声。目前去除噪声的方法主要有均值滤波[19]、中值滤波[20]、各向异性扩散滤波[21]等。Hamissi等人[22]采用2D中值滤波方法来减少噪声，并进行对比度调整以增加图像的对比度。Rizzi等人[23]根据图像统计参数（即平均灰度像素值和标准偏差），通过小波滤波器对乳腺X 线图像进行阈值化处理。值得一提的是，与其他方法不同，该方法采用了不同的子小波，以提高细节的可见性并有助于特征的检测，而不会扭曲其外观和形状，特别是，双正交小波由于其在图像去噪中的良好性能而用于预处理阶段。

图像增强算法在图像预处理阶段被用于改善图像对比度和抑制噪声，以恢复图像大多数隐藏特征，提高图像质量。Papadopoulos等人[24]在检测乳腺X线图像中的微钙化时，在预处理阶段评估了五种图像增强算法，它们分别是对比受限的自适应直方图均衡化[25-26]、局部范围修改[27]、冗余离散小波[28]、线性拉伸[29]和收缩算法。实验结果表明，局部范围修改（AUC=0.932）和基于小波的线性拉伸（AUC=0.926）方法通过适当的参数调整，在MIAS数据库中实现了最高性能。以上的图像增强方法有一个普遍的现象，就是在图像增强的同时放大噪声，而如果先去除噪声再进行图像增强，微钙化点就容易淹没于背景和噪声中，导致假阳性过高。Jain 等人[30]通过组合的方法来抑制高密度脉冲噪声，然后将具有多态自适应增益的非线性增强算子传递到已经去除噪声的图像上，以增强乳腺病变的对比度，实验结果显示图像质量得到提高，在合理抑制背景的情况下增强感兴趣区域。Sharma等人[31]在预处理阶段，将原始数据集中的大尺寸乳腺X 线图像通过最近邻插值法缩小到1 024×1 024像素，然后通过二值化对图像背景进行处理，最后裁剪提取128×128固定大小的感兴趣区域。

近年来，乳腺X 线成像技术发展迅速，全域数字乳腺X线摄影如今已经取代了传统的模拟胶片时代，图像质量显著提高，除个别图像外，噪声较少。考虑噪声点与钙化点相似，在执行病变检测任务时，可不去除噪声。但是由于胸肌与肿块有相似的灰度特征，在病变检测之前，一般仍要去除胸肌、标签等干扰，并且对图像进行归一化处理，增强图像的对比度。

2.2 乳腺X线图像病变检测

2.2.1 肿块病变检测

Mudigonda等人[32]提出了一种基于密度分层的肿块检测方法，通过分析乳腺X线图像定向结构信息进行肿块检测。由于不同种类肿块的纹理密度不同，导致检测效果不同。该方法对于良性肿块的检测成功率较低，仅为63%；而对于恶性肿块的检测敏感度非常高，使得整体的检测准确率达到74%。Varela等人[33]在不同尺寸下使用模孔滤波器对乳腺X线图像进行处理，通过选择最优尺寸来提高肿块检测算法的灵敏度和特异性。在基于病变和基于病例两种情况下对模型进行评估，当每幅图像的假阳性为1.02时，灵敏度分别达到了88%和94%。

Eltonsy等人[34]提出了形态学同心层分析策略，这种方法的优点是在保持假阳性率尽可能低的同时，恶性肿块的检出率高于95%，但是这种方法在处理低对比度图像时漏检率高。目前，基本所有方法使用的人工设计的特征集都是由肿块固有特征衍生出来的。当使用这些方法直接处理致密腺体型乳腺X线图像时，往往会出现误判（假阳性区域过多）和漏判（真阳性率较低）的情况。Gao 等人[35]尝试通过形态成分分析（morphological component analysis，MCA）的方式将乳腺X线图像分解为分段平滑分量和纹理分量，提取分段平滑分量，可以抑制图像中血管和乳腺组织的干扰，然后改进了同心层标准的肿块检测方案，实现对隐藏在乳腺组织中对比度低的肿块的检测，提升肿块的检出率。此外还引入肿块区域的高斯特征和纹理特征，进一步减少误报率。

上述基于传统方法的肿块检测技术，由于主要提取图像的底层特征，很难检测对比度较低的肿块。目前应用传统方法的肿块检测主要存在致密性腺体导致假阳性过高，以及对病灶区域过度检测等问题。

2.2.2 微钙化病变检测

众所周知，相较于肿块，乳腺的微钙化更小，数字乳腺X 线摄影技术由于其优越的灵敏度可以改善微钙化的检测[36]。Oliver 等人[37]提出了一种基于知识的方法，可以自动检测乳腺X 线图像中的单个微钙化和团簇。具体做法是首先创建单词字典，单词字典由包含微钙化的图像与一组滤波器进行卷积得到。该字典可代替表示已知微钙化的病例，随后将其用于表示未知图像，通过将含有微钙化的正样本与负样本与字典中的单词进行卷积以生成训练数据，并将其用作GentleBoost 分类器的输入。最后用训练好的分类器进行微钙化检测，进而扩展微钙化检测方法用于检测钙化簇。实验评估采用ROC 曲线分析（用于微钙化检测）和FROC 分析（用于微钙化簇检测），使用两个数字化数据库和一个全域数字数据库，实验结果充分证明了该方法的有效性。Rizzi 等人[23]提出了两阶段分解小波滤波用于检测微钙化。第一阶段根据图像统计数据（平均灰度像素值和标准偏差）对乳腺X 线图像进行阈值化，保留所有可疑微钙化，并降低背景噪声。而第二阶段为了定位奇异点，重构图像采用另一种小波分解，每个分解层次采用硬阈值技术处理，来识别真实的微钙化，以减少假阳性检测。该方法的性能在MIAS 数据库上进行验证，FROC分析在假阳性率为1的情况下，灵敏度能达到98%左右。

Yu 等人[38]结合基于模型特征和统计纹理特征对簇状微钙化进行检测。首先，使用小波滤波器和两个阈值检测可疑的微钙化区域；然后，从可疑区域提取基于马尔可夫随机场和分形模型的纹理特征，以及统计纹理特征，并通过反向传播（back propagation，BP）神经网络对其进行检测。使用MIAS 数据集中的20 张包含微钙化簇的图像进行测试，经FROC曲线分析，假阳性率是1.0时的敏感度能达到90%，结果表明了组合基于模型特征和统计纹理特征能够有效地进行微钙化簇检测。Malar等人[39]使用极限学习机（extreme learning machine，ELM）对微钙化进行检测，并将其与使用灰度空间相关性矩阵和Gabor 滤波技术提取的不同特征向量进行比较，对MIAS 数据库55 张图像中的120 个感兴趣区域进行训练。结果表明，与贝叶斯分类器和支持向量机（support vector machine，SVM）等其他方法相比，ELM有更好的检测性能，准确度达到94%，并且训练时间显著减少。另外，ELM还避免了局部最小值、学习率不正确和过度拟合等问题。Cheng等人[40]使用模糊逻辑技术检测微钙化。他们使用全局和本地信息生成模糊图像和增强图像，然后通过曲线检测算法去除不相关的乳腺结构，最后使用迭代阈值定位微钙化。

在临床中，微钙化点的大小、形状、分布等特征为医生的诊断提供重要参考信息，精准的微钙化检测是计算机辅助诊断系统的关键步骤。然而乳腺X 线图像组织复杂，背景不均匀，且噪声与微钙化相类似，使得微钙化检测工作仍存在一定困难。

2.3 乳腺病变区域分割

乳腺病变区域分割是乳腺X 线图像计算机辅助诊断技术的基础工作，是后续乳腺病变特征提取和分类的前提。有关临床资料显示，肿块的边缘特征反映了其生长方式和生物学特征。一般来说，形状规则的肿块为良性；相反，恶性肿块往往具有不规则的边缘。因此分割算法的准确性，对后续的特征分析和分类有很大影响。已有很多研究者关注并投入到乳腺X 线图像乳腺病变区域分割这一领域[41]。

基于传统方法的乳腺X 线图像肿块检测和分割算法主要有区域增长[42-43]、主动轮廓算法[44]、阈值分割[45]、分水岭方法、水平集方法[46]、边缘检测等。Kupinski 等人[47]根据区域增长算法提出了两种新的病变分割方法，一种是径向梯度指数（radial gradient index，RGI）算法，另一种是概率算法。这两种方法通过利用形状约束规范化所分析的可疑区域，以解决与常规区域增长相关的问题，并且通过使用单个基于特征或概率的效用函数来简化可疑区域选择过程。这两种新方法明显优于常规的区域增长分割，在交并比为0.3时，常规的区域增长技术仅确定了62%的病变，而基于RGI和基于概率的分割方法分别正确地分割了92%和96%的病变。Xu 等人[48]提出使用迭代阈值法来提取可疑区域，通过Canny边缘检测提取粗糙的肿块区域，最后使用主动轮廓对肿块进行精准分割，实验表明该算法比常规方法具有更好的性能。另外，Yu等人[49]结合中值滤波、形态学和Sobel边缘检测等操作获得肿块初始的粗糙边缘，然后使用梯度矢量流（gradient vector flow snake，GVF-Snake）和梯度图调整分割出最终肿块。

由于乳腺X 线图像中的恶性病变具有不规则的外观，呈现针刺形状，影响诊断，Karssemeijer 等人[50]提出了一种基于像素方向图统计分析的分割方法，如果发现指向某个区域的像素增加，尤其是在许多方向上发现这种增加时，则将该区域标记为可疑，使用多尺度方法在每个像素处确定图像强度图的方向。在给定的比例下，可以从三阶二阶高斯导数运算符的输出获得准确的基于线的方向的估计，而在其他情况下，图像噪声会生成随机方向。像素方向图用于构造两个对直线的径向模式敏感的算子。使用分类器对这些运算符的输出进行组合，可以检测出针刺形状。这种方法检测出90%的恶性病例，但是假阳性率较高。

为了降低病变区域背景与前景灰度分布相近带来的影响，不少学者提出了基于无边缘活动轮廓模型的乳腺肿块分割方法。Tunalı 等人[51]对图像添加了低值像素，对采用的边缘停止函数Chan-Vese 主动轮廓算法进行了改进，有效地对乳腺X线图像中的良性和恶性肿块进行了分割，使用DDSM（digital database for screening mammography）数据集中的60张图像进行验证，最终的分割结果交并比达到75.1%。Dubey等人[52]比较了两种不同的半自动方法，即水平集方法和基于控制的分水岭方法，应用这两种方法对肿块区域进行分割。实验结果表明，标记控制的分水岭分割方法显示出比水平集更好的结果。Chu等人[53]使用形态学增强技术对乳腺X线图像进行预处理并消除背景，应用简单线性迭代聚类（simple linear iterative clustering，SLIC）方法对肿块可疑区域进行分割，将肿块与背景分组，利用基于规则的分类方法对可疑区域进行预筛选，并应用正则化水平集对潜在病变轮廓进行细化。实验结果表明，该方法可以通过降低假阳性率的方法来提高灵敏度。Jen等人[54]提出基于新型异常检测分类器（abnormality detection classifier，ADC）的乳腺X 线图像异常特征检测方法，对分割后的乳腺X 线图像使用灰度值量化的方法提取五个特征来检测感兴趣区域，应用主成分分析（principal component analysis，PCA）来确定权重。实验结果表明，将该方法与特征权重调整相结合进行检测，在MIAS 数据集和DDSM 数据集上的灵敏度分别为88%和86%。Davies等人[55]使用局部阈值化处理从图像中正常的乳腺结构背景中分割出钙化层，并对分割对象进行分析，提取出钙化簇。

上述传统的病变区域分割方法大致可以分为基于区域、基于阈值、基于边缘、基于特征模型、基于特定理论等几类。考虑病变区域往往形状不规律，边界不规则，且病变内部存在灰度异质等情况，单独依靠某一类分割方法很难得到理想的结果，综合不同方法以提高分割精度是今后研究的趋势。此外，病变检测方法常与分割算法相结合，在确定存在病变的同时分割出病变区域，以提升计算机辅助诊断效果。

2.4 乳腺病变的特征提取、选择与分类

特征提取的目的是通过一系列的运算，从原始图像数据中抽象出对解决分类问题有效的特征表达。传统意义上的特征提取主要包括：基于人工设计的图像特征表达和基于浅层学习的图像特征表达。几种常见的人工设计的特征提取方法有颜色（灰度）特征、纹理特征和局部特征提取方法。颜色（灰度）特征对图像大小、方向和视角变化不敏感，计算过程简单，易于获取。纹理特征刻画的是图像或感兴趣区域的颜色和亮度在空间上的分布规律。

2.4.1 肿块的特征提取、选择与分类

Rangayyan等人[56]采用边缘锐度特征描述肿块边缘点灰度的变化程度，并与紧密度和傅里叶描述符等形状特征相结合，实现肿块良恶性分类。Yang等人[57]首先对肿块进行边缘分割，然后将分形维数用于肿块良恶性的分类，取得了较好的结果。Rashe 等人[58]提出基于多分辨率小波分解的方法将肿块识别为良性或恶性。首先将图像进行多级小波分解，然后取每级变换的低频系数作为图像特征。Nanni等人[59]分别使用局部三值模式和局部相位量化直方图作为图像特征，对肿块进行良恶性分类。Verma等人[60]提出了基于模糊神经网络的乳腺X线图像特征提取系统，在基于熵、标准差和像素的特征组合的基础上对乳腺微钙化图像进行良恶性分类。Eltoukhy等人[61]提出一种统计测试的方法。首先，将分解一组乳腺X线图像后获得的系数用于构建K×N矩阵，其中K是图像数量，N是每个图像的系数数量，根据其分类能力对要素（列）进行排名；然后，应用动态阈值来优化特征数量，从而可以有效地实现分类准确率。该方法取决于提取可以最大程度上区分不同类别的特征。

纹理特征是识别图像中感兴趣区域的重要特征。Mudigonda等人[62]比较整个肿块区域和仅包含肿块边缘的带状区域的纹理特征和梯度特征在肿块良恶性分类上的性能，发现从仅包含肿块边缘的带状区域提取的纹理特征具有较好的分类性能，在MIAS数据和本地数据组合的数据库上准确率达到了76%。Jagadeesh 等人[63]提出两种复杂的特征提取方法，首先使用Sech 模板方法选择乳腺中的可疑区域进行阈值化分割，然后使用灰度共生矩阵（gray-level co-occurrence matrix，GLCM）和光密度特征提取局部强度关系和离散光度分布的信息。Punitha 等人[64]提出了使用优化区域生长技术的自动检测乳腺肿块的方法，其中使用名为DFO（dragon fly optimization）的群体优化技术生成初始种子点和阈值。使用GLCM和灰度游程矩阵（gray-level run-length matrix，GLRLM）技术从分割的图像中提取纹理特征，并将其输入到使用反向传播算法训练的前馈神经网络（feed forward neural network，FFNN）分类器中，将图像分为良性和恶性。使用DDSM数据库评估提出的检测技术的性能，将得到的ROC 分析结果与其他区域生长方法进行了比较，该系统的灵敏度高达98.1%，特异性达到97.8%。

2.4.2 微钙化的特征提取、选择与分类

用于乳腺X 线图像微钙化点特征提取与识别的方法很多，主要有应用小波变换的微钙化点提取技术、应用形态学的微钙化点提取技术和应用统计学习的微钙化点检测技术等。万柏坤等人[65]首次应用基于统计学习理论的支持向量机算法实现了乳腺X 线图像中的微钙化检测。使用ANN与SVM算法对214个微钙化点进行检测，实验结果表明SVM 算法具有更准确的检出率。Pal 等人[66]提出了钙化的多阶段检测系统，利用特征选择技术从87 个钙化特征中挑选出一组良好的特征。使用反向传播神经网络找到钙化和正常区域，然后在这些图像的每个可疑像素处计算钙化点的局部密度（称为山势），并将山峰的峰值用于将乳腺X线图像分类为钙化或正常。在17 张乳腺X 线图像上进行了测试，结果表明该系统运行良好，并且对于每张异常图像，能够非常准确地定位钙化区域。对于乳腺X 线图像中的簇状微钙化，Kim 等人[67]采用纹理分析方法进行检测，他们将提出的与周围区域相关的纹理分析方法与传统的纹理分析方法（如空间灰度相关方法、灰度相关方法）进行比较，利用这些方法提取的纹理特征将感兴趣区域分为包含簇状微钙化和正常组织。选用三层反向传播神经网络作为分类器，用ROC曲线作为评价指标，实验结果表明，在分类精度和算法复杂度方面，周围区域依赖方法优于传统的纹理分析方法。Chen 等人[68]提出一种基于拓扑特征的乳腺微钙化簇良恶性分类方法，在不同尺度下，构建微钙化簇的图形表示，进而应用图形学理论提取微钙化簇的拓扑特征，最后应用k近邻分类器区分良性和恶性微钙化簇，在MIAS和DDSM数据集上均取得了较好的分类结果。

综上，可以看出乳腺病变的分类主要集中于对肿块和微钙化这两类病变的良恶性分类。上文中的病变分类方法只针对某一类病变，无法对其他类病变进行良恶性分类。但是在乳腺癌的实际临床诊断中，往往需要综合考虑肿块、微钙化等多类病变，需要同时对多类病变进行良恶性诊断。目前面向多类病变分类方法的研究较少，分类结果也较低，是今后的研究方向。

2.5 总结

目前，应用传统方法的乳腺X线图像分析和计算机辅助诊断面临两个问题：一是基于人工设计特征的医学图像分析方法具有一定的主观性，需要具备一定的医学诊断知识，而且不能有效地提取出图像中的高维特征，无法满足复杂函数模型建模的要求；二是基于传统方法的病变检测和分割方法是对一种或者几种乳腺病变的显著特征进行特征提取，针对特征明显的病变有很好的检测能力，然而实际中面对外观多样的乳腺病变情况泛化能力低，不能有较强的鲁棒性，很容易造成漏检。因此，将不同的模型提取的特征进行融合，可以弥补模型自身的局限性，结合不同的特征可以更好地拟合出病变特点，能够更好地提高检测的精度，但是增加了算法的复杂度，容易出现过拟合的情况。综上，基于传统方法的乳腺X线图像分析仍存在一些问题，尚不能很好地应用在实际临床诊断中。

3 应用深度学习方法的乳腺X线图像病变检测与分类诊断

3.1 深度学习

人工神经网络（artificial neural network，ANN）是受到动物视觉皮层组织的启发而产生的一系列可训练的多层结构，而各种各样的深度结构则衍生于传统的前馈ANN。Hirose 等人[69]提出了被用于分层结构神经网络的人工神经网络反向传播算法，掀起了机器学习的第一次浪潮，使基于统计模型的机器学习重新焕发了生机，随之而来的是浅层学习在机器学习中的广泛应用。这些浅层结构虽然相比于过去基于人工规则的系统展现出很大的优越性，但当处理复杂问题时，则表现出特征学习能力不足、维数灾难、易陷入局部最优等缺点。

自2006 年Hinton 等人[70]首次提出深度学习的概念以来，机器学习相关的应用迅速增长，解决了上述浅层结构长期对研究者的困扰。研究发现多隐层网络具有优异的特征学习能力，能学习得到数据中更本质的特征[71]。深度学习利用分层结构处理复杂的高维数据，每层由包含特征检测器的单元组成，低层检测简单特征，并反馈给高层，从而检测出更复杂的特征。深度学习算法可以直接从训练数据提取特征，使得特征提取、特征选择及特征分类三个核心步骤可以在同一个深层结构的最优化中实现，从而极大地减少特征提取的工作量以及主观因素的影响。深度学习相关研究掀起了机器学习研究的第二次浪潮。

深度学习算法最早应用的领域便是图像处理。最初，卷积神经网络等神经网络在时间延迟网络[72]、支票读取系统[73]等小规模的应用问题上取得了当时最好的结果。在1996 年，Sahiner 等人[74]第一次利用包含一个输入层、两个隐藏层和一个输出层构成的卷积神经网络，结合反向传播算法更新卷积神经网络权值参数，实现了对人工标注的乳腺肿块区域和乳腺正常组织区域的分类。由于当时深度学习网络对像素数量巨大的图像内容理解不理想，使其在计算机视觉领域的相关研究一直停滞不前。图形处理器（graphics processing unit，GPU）和并行处理算法的发展，特别是2012年的ImageNet比赛中出现的AlexNet[75]，使深度学习在图像处理领域的应用日益增多。随着深度学习模型和算法的不断发展和优化，深度学习在乳腺X线图像分析领域的应用也愈加广泛[76]。

目前应用广泛的深度学习模型有自编码器（autoencoder，AE）[77]、深度置信网络（deep belief networks，DBN）[78]、卷积神经网络（convolutional neural networks，CNN）[79]、深度残差网络（residual neural network，ResNet）[80]和密集连接网络（dense convolutional network，DenseNet）[81]等。

3.1.1 自编码器

自编码器是人工神经网络的一种形式，用于无监督学习模型，主要分为降噪自编码器（denoising autoencoder，DAE）和稀疏自编码器（sparse autoencoder，SAE）。自编码器由编码器（encoder）和解码器（decoder）两部分组成，通过隐藏层减少维度空间，在输出层重构输入图像以学习图像数据的特征表示。深度自编码器的概念是Hinton 等人[70]对单层自编码器的结构进行改进后提出的，并给出了具体的预训练以及参数调优的方法。目前，自编码器广泛应用于乳腺X线图像的分割与检测。

3.1.2 受限玻尔兹曼机与深度置信网络

受限玻尔兹曼机（restricted Boltzman machines，RBM）是一个双向图模型，由Smolensky[82]在1986 年提出，并且被广泛用于特征提取、特征选择与图像分类。Nie 等人[83]在2016 年提出了卷积受限波尔兹曼机（convolutional restricted Boltzman machines，CRBM）[84]，并将其应用到了眼周识别领域。康丽萍等人[85]提出了稀疏受限玻尔兹曼机（sparse restricted Boltzman machine，SRBM），通过归一化输入数据均值决定稀疏系数及稠密数据集（稀疏系数超过阈值的数据集），自动完成原始稠密数据集到稀疏数据集的转化。判别式受限玻尔兹曼机（discriminative restricted Boltzmann machine，DRBM）[86]可以看作是多个受限玻尔兹曼机以级联的方式构成的一种深度学习框架，可以直接用于分类，相当于深度学习的最后一层，目前已经成功应用在数字识别、文本识别等领域。

深度置信网络是一个概率生成模型，建立了一个观察数据和标签之间的联合分布，具有灵活性和易拓展的优点。它的核心部分在于非监督贪心逐层训练算法。这种算法能够在某种程度上避免局部最优的问题，而且无监督学习的训练方式使其具备对未标记数据进行训练的能力，从而有效解决以误差反向传播为代表的浅层学习结构的局限性（如局部最优、过拟合和无法训练未标记数据等）。

3.1.3 卷积神经网络

卷积神经网络（CNN）是一种最成功的深度学习模型，尤其是应用在面向分类任务的监督学习时，性能尤其突出。Litjen 等人[87]在2017 年使用CNN 实现了多种图像处理任务。早在1989 年，LeCun 等人[88]就提出了CNN，其为多层感知器的变形，和ANN 类似，也是由许多基础单元堆叠组成的。CNN是一种包含卷积层的深度神经网络，其网络架构包括非线性卷积层、池化层和全连接层。与常规神经网络不同的是CNN的层次具有宽度、高度和深度，CNN最大的特点是采用了权值共享的策略，其权值共享的网络结构使之更类似于生物神经网络，不仅降低了网络模型的复杂度，而且减少了权值的数量[89]。将合适的输入数据输入到CNN中即可对其进行训练，CNN 会逐层地计算参数并生成一个最终的输出。训练的目的是使网络的预测输出和实际输出之间的差异最小化，训练的误差会通过反向传播算法反向流向整个网络从而更新网络的参数。卷积神经网络是深度学习技术中最具代表性的网络结构之一，该结构特别适用于分析、处理图像任务，并在计算机视觉领域取得了突破性的进展，甚至在很多视觉分析任务（如手写字体识别、人脸识别、物体识别等）中都取得了可以和人类认知相比拟的结果。

3.2 应用卷积神经网络的乳腺X线图像病变检测

3.2.1 应用卷积神经网络的肿块检测

Dhungel等人[90]提出了一种使用级联的深度学习和随机森林分类器（random forest，RF）检测乳腺肿块的方法。首先将多尺度深度置信网络（multi-scale deep belief networks，m-DBN）与高斯混合模型（Gaussian mixture model，GMM）相结合，选择可疑区域。之后将候选框输入级联网络，主要是两个深度卷积神经网络的级联，级联网络产生的特征被支持向量机使用，这种特定图像区域和SVM的组合被称为R-CNN[91]。最后由两级随机森林分类器级联处理经过深度学习分析的区域，从级联分类器选择的区域提取形态和纹理特征，再使用关联成分分析（connected component analysis，CCA）将在随机森林分类器中获得的区域合并在一起，产生新的结果。在DDSM-BCRP 数据集和INbreast 数据集上进行测试，实验结果表明该方法在有效地减少假阳性的同时，可以保持较高的真阳性检测率。

Ren 等人[92]提出了Faster R-CNN，引入一个区域建议网络（region proposal network，RPN）[93]。RPN是一种全卷积网络，与Fast R-CNN 共享全图像卷积特征，对RPN 进行端到端的训练，以生成高质量的区域建议，具有更快的检测速度和更高的检测质量。Akselrod-Ballin等人使用Faster R-CNN 模型进行了一系列实验，分别为乳腺肿块的检测与分类和乳腺肿块和钙化的检测与分类。Akselrod-Ballin 等人[94]对Faster R-CNN 进行了改进，首先对图像进行预处理，分割乳腺组织，去除背景和胸肌，并相应地剪裁图像；然后将多个重叠的子图像用于训练和测试修改后的Faster R-CNN，将子图像获得的结果整合到整个图像中；最后产生具有置信度概率分数的检测和分类结果。另外，Akselrod-Ballin 等人[16]还提出了在Faster R-CNN 基础上构建多级特征融合，将底层的特征与高级语义特征相结合，在DDSM数据集和INbreast 数据集上进行训练，得到了AUC 为0.97 和0.91 的好结果，与之前的模型相比，具有更高的检测速度和检测精度。Ribli 等人[95]提出了一种无需任何人工干预即可在乳腺X 线图像上检测和分类良恶性病变的系统。该系统运用迁移学习的方法，使用在ImageNet数据集上预训练的VGG16网络参数，结合Faster R-CNN在DDSM 和INbreast 数据集上进行训练，得到AUC 为0.95，在数字乳腺摄影DREAM挑战赛中排名第二。

大部分的CNN网络模型规定输入图像的大小都小于乳腺X 线图像的大小，直接对图像进行下采样，会造成图像部分信息的丢失，尤其不适合小病变检测。Jung等人[96]使用RetinaNet作为基础模型，针对乳腺病变中的小肿块进行检测，通过旋转、翻转、剪裁等方式，对数据进行增广，在INbreast数据集上进行训练。实验结果证明RetinaNet能够降低假阳性率，提高肿块检测的准确率，对小肿块有比较好的检测效果。

Redmon等人[97]提出了一种新的目标检测方法YOLO（you only look once）。该网络使用整个图像的特征来预测每个边界框，同时还可以预测图像中所有目标类的所有边界框，可以实现端到端的训练和实时速度，同时保持较高的平均精度。YOLO 系统将输入的图像划分为S×S个网格，如果目标的中心落入某个网格单元，则该网格单元负责检测该目标，每个网格单元检测目标边界框并输出这些边界框的目标置信度分数。Al-Masni等人[98-99]对YOLO 模型进行了改进，提出一种区域深度学习技术，用于肿块的自动检测和分类。该系统主要分为4个阶段：对图像进行预处理，使用24个卷积层（内核大小为3×3）进行特征提取，使用置信度模型进行肿块检测，最后使用全连接神经网络（fully connected neural network，FC-NN）进行肿块分类。一组带有肿块RoI（region of interest）及其类型信息的乳腺X线图像用于训练YOLO。训练后的基于YOLO的CAD系统可以检测肿块并将其类型分为良性或恶性。实验结果显示所提出的基于YOLO的CAD系统能够以96.33%的整体精度检测肿块位置，良性和恶性病变分类准确度为85.52%。Al-Masni 等人声明该系统是能够同时进行检测和分类的CAD 系统，且能够克服一些具有挑战性的乳腺癌病例，例如存在于胸肌或密集区域的肿块。YOLO网络以其出色的检测速度而广受欢迎，YOLOv3[100]的速度比RCNN快1 000倍，比Faster R-CNN快100倍。Djebbar等人[101]使用YOLOv3 网络对肿块进行检测和分类，对DDSM数据集进行扩充，最后实验整体的检测精度达到99.7%，良性和恶性病变分类精度达到97.0%。

有时由于高昂的成本和放射线专家的缺乏，导致乳腺X线图像并不包括专业医生标注的病变的位置信息，输入的数据只有图像中病变类别的注释信息，这样的训练称为弱监督学习。Choukroun 等人[102]描述了一种弱监督学习系统。提出的方法主要利用深层多实例学习（multiple instance learning，MIL）卷积神经网络，通过全分辨率处理乳腺X 线图像。这种方法仅需要提供整个图像的标签，就可以根据评分对整个图像进行分类，并在弱标签数据集上进行训练的同时以全分辨率定位病变。该方法在INbreast 数据集和不公开的数据集上进行了验证，得到了理想的检测和分类结果。Hwang等人[103]提出一种弱监督的自迁移学习框架（self-transfer learning，STL）。该框架使用加权损失函数作为目标函数共同学习分类器和定位器，随着训练的不断进行，增加定位器与训练器的训练比重，防止定位器陷入局部最优状态。STL框架不需要在图像上标注位置信息，仅在图像级标记的数据集下即可实现RoI的准确定位，也不需要任何类型的预训练网络，而且分类网络和本地化网络之间的权重共享。实验结果显示STL 框架在分类与定位检测方面，明显优于其他方法。

对比传统的肿块检测方法，深度学习方法可以省略特征提取的工作，由网络根据损失函数自动优化参数，学习合适的特征，以提升检测性能。例如一阶段的YOLO网络对肿块病变进行检测时，不但具有较高的精度，而且对比其他网络检测速度更快。但是因为医学影像已知数据量少，不能满足深度学习的训练要求，所以迁移学习不可或缺。

3.2.2 应用卷积神经网络的微钙化检测

Mordang 等人[104]为了克服微钙化点像素与其他乳腺组织像素大类不平衡（微钙化点像素样本过少）的问题，采用了使用两个CNN的强反差挖掘策略，并与当前检测微钙化点效果最好的级联分类器进行了比较。考虑到CAD系统的性能受不同传感器采集的乳腺X线图像的噪声特性和外观的影响，他们使用了三个不同的数据库。结果表明，使用CNN的CAD系统对微钙化点的敏感性明显高于使用级联分类器的CAD系统。Wang等人[105]开发了一种深度神经网络（deep neural network，DNN）用于检测乳腺X 线图像中的微钙化簇，该网络既考虑到微钙化的局部图像特征，也学习到反映图像周围信息的上下文特征。网络由两部分组成，一部分用于提取局部特征，另一部分用于学习上下文信息。最后将两部分提取到的特征进行组合，对微钙化的位置进行定位。检测结果说明，深度学习提取到的特征比人工制作的特征具有更好的性能。Samala 等人[106]设计了深度学习卷积神经网络（deep learning convolution neural network，DLCNN），以区分乳腺X 线图像中的真实钙化和假阳性。用DLCNN网络训练和测试时，数据集为手动标记的真实微钙化，并在排除真实钙化的可疑区域选取假阳性，通过改变卷积层中的滤波器数量、滤波器内核大小和梯度计算参数来选择DLCNN 网络结构。然而选择DLCNN网络并不是简单的问题，它的参数量众多，因此训练和测试时计算时间较长，需要更高性能的计算机进行操作。Cao等人[107]利用改进的Faster R-CNN完成乳腺肿块和钙化的检测。采用最新的焦点损失函数[108]代替Faster R-CNN 原始的损失函数，以减少原始Faster R-CNN 产生的误报。ResNet50 作为模型的主干网络，使用DDSM、INbreast和BCDR三个公共数据集和一个私人数据集中的数据随机划分进行训练和测试。通过不同数据集之间的检测结果的对比发现，不同数据集之间专业医生标记的微钙化的方式存在差异，会对模型的检测准确性和灵敏度有一定的影响。

由上可见，深度学习方法比传统方法的特征提取能力更为显著。由于微钙化点非常小，在构建微钙化检测网络时，要重点提升网络对微小目标的检测准确率，可通过多尺度特征融合、合理的锚框设计、放大小目标特征等方法提高小目标检测精度。表3 综合比较了基于深度学习的乳腺X线图像病变检测方法。

表3 基于深度学习的乳腺X线图像病变检测方法比较Table 3 Comparison of abnormality detection methods in mammograms based on deep learning

3.3 应用深度神经网络的乳腺X线图像分割

Dhungel等人[109]使用了CNN与DBN结合浅层学习模型的混合模型，成功地在浅层学习模型的基础上大幅度提升了对乳腺X 线图像病变区域分割的准确率。该混合模型的Dice系数为0.90，而浅层学习模型的Dice系数只有0.86。此外，Dhungel等人[110]同样测试了DBN结合浅层学习模型对乳腺X 线图像的分割结果，最终的Dice系数为0.88。由此可以看出DBN作为一个在结构上包含多层非线性运算单元的概率模型，在处理图像数据时具有更强的建模和表征能力，相比高斯混合模型的Dice系数提升了0.02。由结果可以看出，在推理和训练时间方面，条件随机场（conditional random field，CRF）模型比结构支持向量机（structured support vector machine，SSVM）快，这表明将CRF 模型与深度学习潜在特征结合使用时，具有很强的优势。

Kallenberg等人[111]在卷积神经网络的基础上改进形成了卷积稀疏自编码器（convolutional sparse autoencoder，CSAE）。这是一种无监督的学习方式，采用了种群稀疏和存在稀疏相结合的稀疏方式，可以在未被标记的样本中学习到多层次的特征，在乳腺密度数据集和纹理数据集上的分割结果都远远优于传统的需要大量先验知识的阈值分割方法，而且性能相比CNN 也有一定的提高。Petersen等人[112]提出了一种使用稀疏化激活函数的多尺度去噪自编码器（multiscale denoising autoencoder，MS-DAE），并将其应用于乳腺密度分割。他们通过与人工的BI-RADS 和类似Byng[113]的半自动密度评分对比，评估其方法的临床应用价值。结果表明，在分割任务中，多尺度去噪自编码器可以有效自动地学习丰富的特征表示，且自动密度评分优于人工分级。

Yan等人[114]提出了基于区域的肿块分割技术，采用嵌套和密集跳跃连接的卷积编码器-解码器来对候选肿块区域进行分割，通过一系列嵌套的密集卷积块来建立连接，增强特征融合，防止反向传播期间中间部分出现梯度消失问题，确保更好的分割精度。这样的结构遵循U-Net++实现了具有嵌套和跳跃连接的深度架构，与最近提出的条件残差U-Net[115]、条件GAN[116]、级联U-Net[117]一样，都是标准U-Net[118]的扩展。它们在本质上一样，都是从编码器到解码器的快捷连接，将下采样的特征图与同维度上采样的特征图拼接，实现高低层次特征的融合。Min 等人[119]提出一种同时进行乳腺X 线图像肿块检测和分割的系统，不需要人工处理。该系统基于多尺度形态学进行筛选，将灰度图转换成伪彩色图像，以增强可疑区域的对比度；然后利用Mask R-CNN进行传递学习，同时检测和分割伪彩色图像的肿块，在INbreast数据集上进行评估，Dice系数为0.88。

Cao等人[120]为了帮助医生有效识别肿块和钙化，提出基于深度学习的综合解决方案来进行肿块检测和钙化分割。对于肿块和钙化的检测，首先将Faster R-CNN与特征金字塔[121]、焦点损失函数和非局部神经网络[122]相结合，将该方法与同类型的方法在三个公共数据集（CBIS-DDSM、BCDR和INbreast数据库）和一个内部数据集上进行比较，最佳的检测结果mAP=0.933，Recall=0.976。对于钙化分割，首先设计了窗口调整、乳腺区域提取等预处理；然后进行钙化分割，将U-Net 模型[123]进行组归一化（group normalization，GN）[124]，包括三个上采样阶段和三个具有跳跃连接的下采样阶段。每个阶段都有两个卷积层，每个卷积层后面都有一组归一化和ReLU[125]。因为医生一般对钙化的标注区域比实际的钙化点要大得多，常用的交并比并不是很好的评价指标，所以该论文使用新的实验指标——预测交集（intersection over prediction，IoP）在内部数据集上进行验证。论文将组归一化后的U-Net模型与经过批处理归一化（batch normalization，BN）和层归一化（layer normalization，LN）的U-Net模型进行对比。当每幅图片的假阳性高于1 时，经过组归一化的U-Net 的召回率高于其他两种类型的U-Net 网络，为0.737。此外，论文还根据钙化的标签面积和形状对标签进行划分，“血管”形状的钙化检测结果最好，当每幅图片的假阳性不小于1 时，“血管”形状的钙化召回率为0.971，其次是大面积的钙化，最后是点样钙化。实验结果表明该方法解决了不同的放射科医生之间由于钙化标注不一致和标签不完善导致的问题。

上文的U-Net网络尽管使用有限的数据集训练，却能在乳腺X线图像分割中取得良好的表现。但是，目前对U-Net模型的改进有限，模型的准确率和稳定性还有待进一步提高。各种分割方法的比较见表4。

3.4 应用卷积神经网络的乳腺X线图像分类

传统的特征提取需要靠人工设计的特征来表达图像中的内容，而深度神经网络则可以自动地提取图像中的优质特征，这对于乳腺X 线图像分类来说，避免了征象不明显和难以提取高维特征的问题，有利于对图像中的病变进行良恶性分类。目前已有堆栈式自编码器和不同结构的CNN模型被用于乳腺X线图像中病变的良恶性分类。此外，深度学习模型大多可以和非负矩阵分解（nonnegative matrix factor，NMF）[126]、多核学习（multiple kernel learning，MKL）[127]、Liebenberg-Marquardt 学习函数[128]、支持向量机等方法相结合，从而达到优化分类的效果。

为了解决医学图像数据集样本数量偏小的问题，Carneiro 等人[129]利用未配准的乳腺X 线图像的多视图（CC位和MLO位）以及分割后的微钙化和肿块区域，采用ImageNet 预训练单独的CNN 模型，然后使用从分割后的图像和多视图中学习到的特征，训练最终的CNN分类器。最终，该分类器使用BI-RADS 评分来估计患者患乳腺癌的风险，在INbreast和DDSM数据集上进行测试，将微钙化和肿块病例分为良性或恶性（每个病例至少具有微钙化或肿块）。在INbreast数据集上的AUC=0.91±0.05，在DDSM数据集上的AUC=0.97±0.03。Arevalo等人[130]采用了CNN 结合SVM 分类器对乳腺X 线图像中的肿块进行分类，得到的AUC为0.86，而利用人工提取特征结合SVM的分类方法的AUC仅仅为0.799，表明了应用深度学习的特征提取方法，特别是CNN 的特征提取性能要优于传统的人工特征提取，其分类性能较传统方法有了很大的提高。Arevalo等人[131]在他们之前工作的基础上，对CNN的卷积层数进行了调整，探索不同数量的卷积层对特征提取结果的影响，发现在一定程度内加深网络的深度能提升模型的分类性能。

Fonseca等人[132]采用了一种用于乳腺X线图像的结构搜索过程技术[133]，评估了改进型HT-L3 CNN 网络的性能。网络搜索空间有729个备选结构，用72小时找到了其中三种最好的结构。使用得到的最优结构自动提取特征，并用其训练SVM 分类器。Kooi 等人[134]与Huynh 等人[135]利用迁移学习从医学图像中提取肿瘤信息，使用CNN 首先通过非医学数据进行预训练。分类过程分为两个阶段：首先，应用随机森林和生成似然图像来检测候选区域，从而进行进一步检查；然后将这些图像用作参考系统和CNN 的种子点。实验结果表明，添加位置、上下文信息等手动设计的特征能提高卷积神经网络的性能。Jiao 等人[136]使用CNN 在LSVRC（large scale visual recognition competition）图像集上训练，然后使用乳腺肿块图像进行微调。肿块的特征被提取于模型的不同层次，然后通过两个SVM分类器进行决策，最终融合不同的决策结果来完成分类。Lévy等人[137]使用经过迁移学习的CNN 对预分割后的肿块进行分类，CNN模型的层数由少到多逐渐增加。并且研究了数据增强和数据背景信息对实验结果的影响，得出了加倍异常边框对肿块的二值分类有影响的结论。

Wang等人[138]采用堆栈去噪自编码器分别在有肿块的乳腺X 线图像和无肿块的乳腺X 线图像上回顾性分析微钙化点。使用深度学习模型对图像进行分割，针对肿块和微钙化分离或组合的这三种情况分别提取到15、26、41个微钙化和肿块特征。在他们的工作中输入比较分类器的是特征而不是原始图像，并就分类和识别乳腺病变的性能和精度与SVM、k近邻和线性分解分析方法进行了比较，结果表明组合的方法准确度高于标准微钙化判别方法。Bekker 等人[139]从事乳腺微钙化簇的良恶性分类，使用CC 和MLO 两个视图，每个视图的简单分类器作为其初始决策，决策结果通过一个单神经元层，非线性组合得到全局决策。Fotin 等人[140]采用CNN模型和传统的采用直方图、梯度、纹理和形状特征结合决策树的方法对乳腺X线图像分类的特异度进行对比，应用CNN模型的平均感兴趣区域特异度对于疑似恶性肿瘤与恶性肿瘤分别为0.893和0.930，而传统的分类方法的特异度对于疑似恶性肿瘤与恶性肿瘤分别为0.832和0.852。由此可见CNN 能够在很大程度上提高病变分类的准确率、灵敏度和特异度。Dubrovina 等人[141]将组织分类应用于胸大肌、纤维腺组织等乳腺组织分割。他们将常规CNN 的全连接层转变为卷积层，通过这种方式在保持了分类精度的同时，极大地提高了运算速度。

由上可见，卷积神经网络的分类能力要优于传统方法，然而融合卷积神经网络提取的深层特征与传统方法提取的特征有助于提高分类结果。在进行肿块与钙化病变的良恶性分类时，将形状、纹理等传统特征与CNN模型进行融合效果会更好。表5 将上述基于深度学习的各种乳腺X线图像分类方法进行对比。

表5 基于深度学习的乳腺X线图像分类方法对比Table 5 Comparison of mammographic image classification methods based on deep learning

3.5 总结

目前，随着计算机存储和数据处理能力的增强，如何从大数据中挖掘出所需的信息成为首要的问题。深度学习可以充分利用大数据，以有监督和无监督的方式学习数据特征，成为大数据时代的强大推动力。“大数据+深度学习模型”目前已成为研究热点，未来将应用于各个领域。而对于乳腺X线图像分析而言，一个重要的问题则是大规模数据集的收集，有限的数据量成为深度学习在乳腺X 线图像计算机辅助诊断中的发展阻碍。许多研究者已尝试应用数据增广、迁移学习、小样本学习等方法解决数据缺乏的问题。

此外，深度学习依赖于含有多隐藏层的人工神经网络，如何衡量分析精度和网络运行复杂度之间的关系也是今后研究的一个方向。为了更好地提取特征，有效的训练算法和持续的优化策略，设定和微调优化网络结构参数在深度学习中对于特征学习非常重要[142]。算法自身的改进和硬件系统性能的提升，结合复杂推理表示学习的系统，引入操作大量向量的新范式来代替基于规则的表达式操作，与其他方法的融合等，都能使深度学习的能力得到提升。

医学图像CAD系统为临床医生提供具有参考价值的辅助信息，可以帮助临床医生快速、准确、高效地做出诊断决策。作为机器学习领域的新兴技术，深度学习可在很大程度上改进浅层学习中存在的问题，大幅提高CAD 系统对医学图像特征学习的能力。因此，深度学习应用于乳腺X 线图像CAD 系统，将成为乳腺X 线图像计算机辅助诊断技术发展的新方向。

4 总结与前景展望

乳腺X线图像分析作为医学图像分析的一个分支，有着和大多病症相似却又不同的处理方式。病理的复杂性和病灶X线表现的差异性，使得人们需要在专门的领域研究相关的图像处理技术和病变诊断技术。本文从传统方法和深度学习两方面全面综述和分析了乳腺X 线图像计算机辅助诊断技术的发展现状。首先讨论了应用传统方法的乳腺X线图像分析中的病变检测、分割和分类方法；之后从深度学习的基本理论出发，结合乳腺X线图像分析领域这一应用方向，探讨深度学习在乳腺X线图像分析方面的应用潜力；随后介绍了几种常见的深度神经网络，在此基础上结合深度学习在乳腺X线图像病变检测、分割和分类等方面的应用，阐述了深度学习的优势。

随着乳腺X 线图像计算机辅助诊断技术研究的深入，目前的研究还存在以下问题或改进方向：

（1）应用传统方法的乳腺X线图像计算机辅助诊断技术在特征提取方面存在瓶颈。传统方法以定义提取有效的特征为前提，不需要复杂的训练过程，可以快速地进行结果预测，但是传统方法只提取了图像的浅层特征，对于具有不同密度特征的乳腺组织，产生了大量的不确定信息。另外，传统方法一般只提取一种或者几种人工设计的特征，泛化能力低，不能应用在其他的数据集中，模型的鲁棒性差。将不同的模型提取的特征进行融合，可以弥补模型自身的局限性，结合不同的特征可以更好地拟合出病变特点，但是其算法复杂度增加，还可能出现过拟合的情况。

（2）乳腺X 线图像病变区域和正常组织对比度较低。乳腺病变周围组织形式丰富（如致密组织、胸肌组织等），乳腺肿块可能隐藏在周围腺体中，在检测时容易受到噪声和周围组织的影响。因此无论是传统方法还是深度学习方法，在检测前对图像进行对比度增强等预处理是十分必要的。在预处理过程中还要注意在减少噪声的同时，增强图像的视觉效果，保留图像中的微小病变。

（3）医生对乳腺X 线图像中病变的标注习惯不同，缺乏标准的标注信息。例如，参考已知的数据集，乳腺微钙化标注的信息参差不齐，微钙化的标注信息很大程度上取决于放射科医生标记的偏好，对于聚集在一起的微钙化点，有的医生偏好标成一处，有的医生将它们标记成小点。这种情况限制了模型的学习，影响模型的准确率和灵敏度。

（4）缺乏大型公开的、已经标注的高质量乳腺X 线图像数据库。无论是深度学习方法还是传统方法，都需要大量的标注后的数据进行训练。如何利用无监督或者半监督学习、小样本学习、数据增广以及迁移学习等方式缓解目前数据匮乏的问题，是深度学习方法在乳腺X线图像分析应用中的一个研究方向。

（5）人工定义特征与深度特征的融合或有助于提高深度学习模型性能。利用传统方法提取人工定义的病变的显著特征，并将其迁移到深度学习模型进行分析，比使用单一方法效果要好。针对医学图像来说，相对于速度而言，模型检测或分类的准确率和精度是非常重要的评价指标。

对于逐年升高的乳腺癌发病率和死亡率，女性对于乳腺癌的筛查意识也在提高。乳腺X 线图像计算机辅助诊断技术可辅助放射科医生做出更准确的诊断，结合BI-RADS分级标准对乳腺X线图像进行评估，有效降低医生阅片的压力以及不同医生之间诊断的差异，从而提高乳腺癌诊断的效率和准确率，使更多的患者得以早发现、早治疗，进而降低患者的死亡率。

在未来，随着深度学习理论研究的不断深入，可以对深度学习的高级语义特征进行更具体的分析，加上获取到大规模的高质量数据集，利用先进的网络模型对病变的检测和分类诊断性能会有大幅度的提升。因此，应用人工智能技术的医学图像分析与诊断，特别是乳腺X线计算机辅助诊断技术具有广阔的发展空间和研究价值，需要科研人员继续探索和努力。