多模态X 线影像组学列线图预测乳腺肿块良恶性的价值

2023-05-31 03:49牛焕东朱卫峰袁宏涛王锡明

中国中西医结合影像学杂志 2023年3期

牛焕东，徐菡，朱卫峰，袁宏涛，黄程，王锡明

1.滨州医学院医学影像学院，山东烟台 264003；2.山东第一医科大学附属省立医院影像科，山东济南 250001；3.山东省烟台芝罘医院放射科，山东烟台264000

乳腺癌是女性癌症中发病率和死亡率最高的肿瘤［1］，严重威胁患者的身心健康，早期诊断并及时治疗能有效改善预后［2-3］。目前，全数字化乳腺X 线摄影（full-field digital mammography，FFDM）因其处理快、成本低、易于操作等优点已广泛应用于乳腺癌的筛查及诊断中［4］，但致密型乳腺因腺体遮挡，FFDM对其检出率较低；数字乳腺体层合成摄影（digital breast tomosynthesis，DBT）技术可在很大程度上解决这个难题，提高乳腺疾病的检出率和诊断准确率，具有重要的临床意义［5-6］。DBT 与FFDM 联合应用已被临床广泛认可［7-8］。在近几年开展的大量关于FFDM、DBT 应用价值的研究中，传统影像学表现及形态特征方面的研究占较大比例［9-11］。影像组学基于更深层次的数据挖掘分析，为影像诊断提供全新的视野，在乳腺方面也有大量相关研究［12-13］。而对多模态X 线影像组学结合临床危险因素建立联合预测模型的诊断价值却鲜有报道［14-15］。本研究旨在探讨FFDM+DBT 影像组学特征+临床危险因素建立的联合预测模型评估乳腺肿块良恶性的价值，以期为临床医师术前提供一种无创且有效评价乳腺肿块良恶性的方法。

1 资料与方法

1.1 一般资料

回顾性分析2018 年6 月至2020 年6 月于山东第一医科大学附属省立医院就诊的女性乳腺肿块患者391 例，其中选择2018 年6 月至2019 年12 月就诊的313 例患者作为训练集，选择2020 年1—6 月就诊的78 例患者作为验证集。训练集中良性91 例，恶性222 例；验证集中良性30 例，恶性48 例。为解决训练集中良恶性样本分类不平衡的问题，用随机欠采样方法删除恶性样本131 例，最终训练集中恶性与良性患者各91 例。最终260 例患者纳入模型，年龄27～77 岁；恶性139 例，其中浸润性导管癌108 例、导管原位癌9 例、浸润性导管癌伴导管原位癌6 例、浸润性小叶癌7 例、乳头状癌5 例、黏液癌2 例和髓样癌2 例；良性121 例，其中乳腺纤维腺瘤49 例、乳腺导管内乳头状瘤23 例、乳腺病17 例、乳腺炎性病变11 例、良性分叶状肿瘤10 例、硬化性腺病6 例和乳腺囊肿5 例。纳入标准：①术前完善的FFDM 及DBT 检查资料，临床资料完善；②病理良恶性诊断明确。排除标准：①影像资料质量不理想；②FFDM 及DBT 检查前有乳腺手术、化疗、放疗、激素治疗、靶向治疗既往史。

1.2 仪器与方法

应用Siemens Mammomat Inspiration 数字化乳腺X 线摄影机行影像检查，采用头尾位（CC 位）及内外斜位（MLO 位）。患者先获取单一体位FFDM 图像，在相同条件下自动完成DBT 检查。X 线球管于乳腺上方按顺序旋转摄影，在-25°～25°夹角内每旋转2°自动曝光扫描一次，经后处理重建最终获取多幅不同角度的低剂量DBT 图像，层厚1 mm，被检乳腺的腺体厚度决定层数。

1.3 ROI 勾画

由1 名主治医师（医师1）和1 名高年资住院医师（医师2）使用Deepwise 科研平台（深睿医疗）分别在CC 位、MLO 位图像上手动勾画肿块边界（图1），其中每一体位FFDM 图像仅需勾画单幅图像，而DBT 图像需逐层完整勾画肿块边界。

图1 ROI 手动勾画方法示意图注：患者，女，49 岁，术后病理为良性乳腺纤维腺瘤。图1a 为全数字化乳腺X 线摄影（FFDM）头尾位勾画示意图（箭头）；图1b 为数字乳腺体层合成摄影（DBT）头尾位勾画示意图（箭头）

1.4 影像组学特征提取

在Deepwise 科研平台上进行影像组学特征的提取。随机选出的90 例患者图像先由2 名医师同时勾画ROI，然后分别提取2 名医师勾画ROI 的影像组学特征并行一致性评估；1 个月后由医师2 再次勾画ROI，并提取ROI 内影像组学特征，对该医师前后2 个时间段所勾画的影像组学特征进行一致性评估；筛选一致性较高的影像组学特征进入下一步数据分析。剩余170 例患者ROI 的勾画由医师2 完成。

1.5 影像组学特征筛选与模型构建

对训练集中影像组学特征行单因素ANOVA、Mann-Whitney U 检验，运用最小绝对收缩与选择算子（least absolute shrinkage and selection operator，LASSO）算法进一步筛选出主要的影像组学特征作为预测良恶性乳腺疾病的诊断价值标签。共建立3 类预测模型：第1 类模型，通过筛选相关影像组学特征建立FFDM、DBT 及FFDM+DBT 的逻辑回归预测模型，分别为模型1、模型2 及模型3。第2 类模型，用logistic 回归筛选临床危险因素，利用筛选的临床危险因素构建临床预测模型（模型4）。第3 类模型，用影像组学特征结合临床危险因素建立联合预测模型（模型5）。

1.6 统计学分析

运用SPSS 22.0 软件和R3.6.1 完成统计分析。正态性检验采用科尔莫戈罗夫-斯米尔诺夫（Kolmogorov-Smirnov，K-S）检验进行，符合正态分布的计量资料以表示，偏态分布的计量资料用M（QL，QU）表示；用χ2检验或Fisher 确切概率法对计数资料进行比较。通过组内相关系数（intraclass correlation efficient，ICC）评价观察者一致性，比较不同医师之间及不同时间段之间影像组学特征的一致性，当ICC＞0.75 时为一致性较高。采用单因素方差分析及Mann-Whitney U 检验行单因素分析。用ROC 曲线评价各预测模型的性能，DeLong 检验评价不同预测模型AUC 的显著性差异。用R 软件生成列线图、决策曲线（DCA）及校准曲线，用校准曲线评价模型的实用性，用DCA 分析评估模型的临床净收益。以P＜0.05 为差异有统计学意义。

2 结果

2.1 2 组一般资料比较

训练集与验证集肿块大小、位置比较差异均无统计学意义（均P＞0.05）；2 组年龄、腺体密度、有无钙化、仅DBT 清晰显影、触诊是否质硬不规则、触诊是否单发等特征差异均有统计学意义（均P＜0.05，表1）。单因素logistic 回归分析显示，训练集中，良恶性患者年龄、触诊是否质硬不规则及触诊是否单发差异均有统计学意义（均P＜0.05，表2）；采用多因素logistic 回归对上述临床危险因素进行分析，年龄、触诊是否质硬不规则及触诊是否单发差异均有统计学意义（均P＜0.05，表3）。

表1 训练集与验证集患者临床资料比较

表2 训练集良恶性患者临床资料的单因素逻辑回归分析

表3 训练集良恶性患者临床资料的多因素逻辑回归分析

2.2 特征筛选与模型评估

训练集与验证集中的FFDM、DBT 及FFDM+DBT影像组学特征一致性较高（ICC＞0.8）。FFDM 2 个体位组合数据集共3 124 个特征，其中2 562 个特征具有较高的一致性；DBT 2 个体位组合数据集共3 984 个特征，其中3 274 个特征具有较高的一致性；FFDM+DBT 2 个体位组合数据集共7 108 个特征，其中5 836 个特征具有较高的一致性。最终筛选出19、15、20 个影像组学特征分别纳入模型1、模型2、模型3。多模态的模型3 筛选的影像组学特征与其对应的特征系数见表4。

表4 模型3（多模态影像组学模型）中包含的特征及参数

模型1 在训练集与验证集的AUC 分别为0.90、0.80，准确率分别为83.52%、75.64%；在验证集中，模型1 的特异度及敏感度分别为83.30%、70.80%。模型2 在训练集和验证集的AUC 为0.90、0.88，准确率分别为81.32%、75.64%；在验证集中，模型2 的特异度及敏感度分别为96.70%、68.80%。模型3 在训练集与验证集的AUC 分别为0.91、0.90，准确率分别为84.07%、79.49%；在验证集中，模型3 的特异度及敏感度分别为80.00%、91.70%。模型4 在训练集和验证集的AUC 分别为0.82、0.85，准确率分别为76.92%、78.21%；在验证集中，模型4 的特异度及敏感度分别为70.00%、91.70%。模型5 在训练集与验证集AUC分别为0.96、0.93，准确率分别为87.91%、84.62%；在验证集中，模型5 的特异度和敏感度分别为96.70%、75.00%。

DeLong 检验示：在验证集中，模型3 与模型1 的AUC 差异有统计学意义（P=0.043）；模型1 与模型2、模型2 与模型3 的AUC 差异均无统计学意义（均P＞0.05 图2，表5）。在验证集中，模型5 与模型4 的AUC 差异有统计学意义（P=0.047），模型3 与模型4、模型3 与模型5 的AUC 差异均无统计学意义（均P＞0.05，图2，表5）。绘制模型5 的列线图（图3）。DCA 示当验证集阈值概率在0.12～0.93，模型5 具有较高的诊断价值及临床净收益（图4）。校准曲线显示模型5 具有良好的临床实用性（图4）。

表5 验证集5 种预测模型AUC 两两差异DeLong 检验P 值

图4 模型评价注：图4a 为验证集联合模型决策曲线（DCA）。图4b 为验证集联合模型校准曲线，图中45°斜虚线表示诊断的理想预测性能，另一条虚线表示列线图的预测性能，实线则表示列线图预测偏差的修正，2 条虚线越接近表示预测准确率越高

3 讨论

FFDM 因价格低廉、检查便捷，是乳腺癌筛查及术前诊断的常规检查方法，也是钙化类病变的最佳检查方法，但其对致密型腺体背景下肿块类病变的检出率及准确率不理想。DBT 通过机架的旋转获得断层图像，重建出类三维图像，突破FFDM 二维图像组织重叠的局限性，明显提高了病变的检出率及准确率。影像组学可高通量地提取病变图像的内部特征，对病变特征进行深层次分析，旨在为疾病的诊断提供更多规范化的客观依据，进一步提高疾病诊断的准确性［16-19］。本研究构建了乳腺肿块的多模态X 线影像组学特征联合临床特征的列线图，最终结果显示影像组学、临床特征联合预测模型的诊断效能最优，AUC=0.93。DCA 显示联合模型具有良好的临床应用价值。

3.1 影像组学模型效能比较

本研究比较了FFDM、DBT 及FFDM+DBT 3 种模态的影像组学模型的效能，结果显示，FFDM+DBT的诊断效能（AUC=0.93）优于单一FFDM 模型（AUC=0.80）及单一DBT 模型（AUC=0.88），且DBT 模型优于FFDM 模型，DeLong 检验进行3 组模型的AUC 两两比较，仅FFDM+DBT 模型与FFDM 模型间差异有统计学意义（P=0.043）。与FFDM 比较，DBT 图像可避免病变与正常组织的重叠，清晰显示病变边缘，提供更多的形态学特征，生成类三维图像，可获取更多病变内部的纹理特征。从FFDM+DBT 建模的20 个最优特征权重看，部分FFDM 特征也占较高权重，表明尽管FFDM 提供的特征信息数量与细节不及DBT，但部分权重较高的特征对最终结果也有重要影响，2 种模态联合呈现出最佳的诊断能效，与之前研究［20］结果一致。本研究比较了各模型的特异度及敏感度，在验证集中，多模态影像组学模型预测恶性肿瘤的效能有所提高，说明FFDM 结合DBT 组学纹理特征不但减少了腺体重叠的干扰，且能提供更丰富的诊断信息，提高诊断效能，尤其是恶性肿瘤的检出率。

3.2 影像组学模型、临床模型及联合预测模型的比较

本研究采用logistic 回归分析对患者病史及相应的体格检查行临床危险因素分析，最终证实触诊是否质硬不规则及触诊是否单发可作为临床预测因子对模型进一步优化，构建了临床模型、影像组学与临床预测因子结合的联合模型，而之前的研究多局限于影像组学联合模型性能的比较，或是对乳腺MRI 联合临床模型的分析，乳腺X 线多模态影像组学联合临床模型的研究则鲜有报道［21-23］。相对于乳腺MRI 费用高、检查时间长、存在对比剂风险等因素，基于乳腺X 线基础的诊断模型具有广泛的临床适用性。另外，本研究联合模型的AUC 显著高于临床模型及影像组学，这表明联合模型中年龄、是否触诊质硬不规则及触诊是否单发这些临床危险因素能进一步提高对病变良恶性的预测效能。本研究中临床预测因素对联合预测模型列线图的贡献权重较小，后续研究可进一步挖掘更具权重的临床危险因素。

3.3 训练集中自变量分类不平衡解决方法

自变量分类不平衡导致模型偏颇预测是在机器学习的分类模型训练过程中的常见问题。为解决该问题，研究者多采用系统性过采样算法处理数据不平衡问题［24］，此算法存在的缺点是训练集中部分数据为合成数据，非患者的真实数据，因此预测模型的准确性会受到一定影响。本研究训练集中恶性患者多于良性患者，样本分类不平衡，笔者用随机欠采样方法删除训练集中部分恶性样本，使训练集样本分类变量数据平衡；同时验证集中样本分类变量保持不变，保证模型在验证集中不存在过拟合现象，从而客观反映患者的真实病理分布情况。

本研究的局限性：①为单中心回顾性研究，需加入多中心数据进一步研究验证；②人工勾画ROI 存在一定主观性及不稳定性，且效率低；今后将采用自动勾画方式提高性能及效率；③有监督机器学习算法较为单一，以后可运用深度学习进一步探索。

综上所述，FFDM+DBT 影像组学特征结合临床危险因素建立的联合预测模型可高效预测术前预测乳腺肿块的良恶性，为临床医师提供了一种术前无创评价乳腺肿块良恶性的方法。