基于卷积神经网络的乳腺癌风险预测研究

2022-03-29 05:54房文靖张中正

科技创新与应用 2022年7期

王怡，房文靖，张中正

（1.鲁东大学生命科学学院，山东烟台 264025；2.鲁东大学数学与统计科学学院，山东烟台 264025；3.鲁东大学农学院，山东烟台 264025）

根据国际癌症研究机构（IARC）公布的全球肿瘤流行病的数据统计GLOBOCAN[1]，2020全球男女各年龄段（性别）按年龄标准化估计发病率中居于首位的是乳腺癌，高达47.8%，乳腺癌在女性癌症发病率中位列首位。全球新增癌症病例约1 930万例，其中女性乳腺癌占11.7%，成为全球确诊率最高的癌症[2]。乳腺癌早期治愈率高达90%[3]，因此应早发现、早诊断、早治疗[4]。钼靶图像获得成本较低，尤其在伴簇状钙化乳腺癌患者中的诊断价值较高，为疾病诊断提供有效依据[5]。利用基于深度学习的乳腺癌钼靶图像进行分类诊断，对于辅助医生诊断方面具有重要指导意义。

关于乳腺癌预测的传统方法有Cox比例风险回归模型[6]、L-BFGS算法[7]、Logistic回归模型[8]、Gail模型[9]、meta分析法[10]和Claus模型[11]，这些模型通过回归进行风险预测，基本都是地区性的，不具有普适性。

目前人工智能开始应用于乳腺癌预测。刁继尧[12]基于Spark数据集，采用SVM模型准确率达到87.8%。陈胜等[13]基于乳腺癌威斯康辛数据集，通过sklearn封装的逻辑回归算法准确率为97.9%。海金金[14]采用S-DenseNet数据集的乳腺癌病理学分级算法，AUC达到80.51%。董永峰等[15]使用BCDR-F03数据集，基于特征融合的卷积神经网络乳腺癌图像分类，AUC达到89%。郑群花等[16]基于乳腺癌病理图像，采用卷积神经网络和迁移学习模型进行乳腺癌病理图像分类，识别率达99.74%。

1 数据来源及预处理

1.1 数据来源

本文采用的乳腺钼靶图像来自CBIS-DDSM[17]（DDSM的乳房成像子集），它是用于筛查乳房X光检查（DDSM）的数字数据库的更新和标准化版本。DDSM是一个由2 620个扫描胶片乳腺X光检查研究组成的数据库，它包含正常、良性和恶性病例，并带有经过验证的病理信息。CBIS-DDSM包括由经过培训的乳腺技师选择和策划的ROI边界框以及培训数据的病理诊断信息。

1.2 数据预处理

1.2.1 图像转换

原始的DDSM乳腺钼靶数据为DIOCM格式，数据中既包含乳腺钼靶影像数据，也包含一些病人，设备等参数信息。在数据预处理过程中，从DICOM数据库中下载乳腺钼靶钙化图像，通过MicroDicom DICOM viewer 3.4.7 x64[18]转换为bmp格式。其中乳腺钼靶良性钙化图像为540张，恶性为554张，如图1所示。对这些图像进行随机旋转平移扩充翻倍。

图1 乳腺钼靶钙化影像

1.2.2 图像去噪——高斯滤波

医学影像中大多噪声属于高斯噪声，而高斯滤波[19]适用于消除高斯噪声。用一个指定的模板（或称卷积、掩膜）去扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。噪声属于低能量部分，通过滤波器将能量低的排除达到平滑效果。采用高斯滤波器，系统函数为平滑的，避免使用理想滤波器所产生的振铃现象[20]。

2 算法原理

本文以CNN以及Resnet网络为模型对乳腺钼靶钙化图像进行良恶性分类。

2.1 卷积神经网络

卷积神经网络[21]结构一般包括卷积层、池层和全连接层。通过局部连接和权值共享，降低了模型的参数和复杂度。卷积神经网络算法流程图如图2所示。

图2 卷积神经网路算法流程框图

2.2 Resnet残差网络

因深度学习网络存在“退化”，到达一定的深度后，层数的加深导致效果退化。因此产生了Resnet网络以解决“退化”问题。Resnet残差网络[22]其内部的残差块使用跳跃连接来缓解梯度消失问题。不仅避免了退化问题，且错误率和计算复杂度也降低。通过直接将输入信息绕道传到输出，保证信息完整性，整个网络则只需要学习输入、输出差别的那一部分，简化了学习目标和难度。Resnet18由basic block残差路径构成。Resnet50主要使用“bottleneck block”，先降维再升维，减少了参数数目和现实运算量。

3 结果与分析

本文采用CNN（batch_size=32/64）、Resnet18（batch_s ize=32/64）和Resnet50（batch_size=32/64）6个模型进行乳腺癌风险预测统计建模。结果见表1。

表1 各个模型的AUC值及测试集和验证集的准确率单位：%

目前最好的模型是CNN_64，测试集准确率为99.74%，验证集准确率为53.24%，AUC为59.29%。模型性能较为良好，但是数据扩充、图像去噪和模型等可继续改进。

4 结论

本文采用的乳腺钼靶图像数量对于训练神经网络较少，扩充后数量仍有限，下一步计划采用GAN等其他方式进行数据扩充，预计扩充之后会显著提高模型准确率。本文实验是在CNN网络和Resnet网络上进行，CNN和Resnet在图像识别和分类方面有很大潜力。强大的泛化学习能力可以帮助医生诊断疾病。计划下一步采用其他卷积神经网络、迁移学习模型进行识别分类，以期获得更高的准确率。