基于深度学习的影像组学预测直肠癌T2与T3分期

2023-11-29 10:18吴树剑俞咏梅范莉芳张虎陈国仙徐静雅亚胜男

磁共振成像 2023年11期

吴树剑，俞咏梅*，范莉芳，张虎，陈国仙，徐静雅，亚胜男

0 前言

直肠癌是最常见的恶性肿瘤之一，且近年来发病率持续上升[1-3]，在癌症导致死亡中排第二位[4]。直肠癌的主要治疗方式包括化疗、放疗及手术治疗，T分期对治疗方案的选择尤为重要。根据美国国立综合癌症网络及2020年中国结直肠癌诊疗指南[5]建议，T2期直肠癌如无淋巴结及远处转移，建议采用全直肠系膜切除术，而T3期直肠癌属于局部晚期，无论有无淋巴结或远处转移术前均需先行新辅助放化疗[6-7]。因此，术前准确鉴别诊断直肠癌T2与T3期对于临床治疗方案的选择及患者预后均具有重要价值。

常规MRI 对直肠癌的T 分期具有重要价值[8]，但是由于肿瘤周围组织中经常发生促纤维化增生反应，导致常规MRI 对直肠癌T2、T3 期的诊断准确率并不高。近年来人工智能在医学图像处理中应用越来越广泛[9-12]，机器学习尤其是深度学习（deep learning, DL）在直肠癌的分子分型、预后预测及治疗后疗效分析中发挥重要作用。BILAL 等[13]利用ResNet-34 DL 网络模型预测直肠癌基因状态，结果显示预测高突变、微卫星不稳定及染色体不稳定的ROC 曲线下面积（area under the curve, AUC）分别为0.81、0.86、0.83，该研究表明DL 可以从基因层面对患者进行分层，有利于对患者实施精准靶向治疗；YU 等[14]分析临床病理因素与直肠腺癌患者生存时间的关系，结果显示年龄、性别、婚姻状况、肿瘤分级、手术情况和化疗情况是影响生存的独立风险因素（P＜0.05），构建的DeepSurv DL 模型的C 指数为0.824；YUAN 等[15]利用ResNet-3D 算法构建支持向量机（support vector machine, SVM）分类器预测结直肠癌发生同步腹膜转移的风险，结果ResNet-3D 结合SVM 分类器的准确率为94.1%，AUC 在测试集为0.922（0.912-0.944），敏感度为93.8%，特异度为94.4%，阳性预测值为93.8%，阴性预测值为94.4%，该性能明显优于常规对比增强CT（AUC=0.791）。

尽管既往研究表明DL在直肠癌的相关研究中已突显潜力，但HE 等[16]研究显示深度卷积神经网络（convolutional neural networks, CNN）随着网络深度的增加，其训练精度下降，但基于残差连接的深度神经网络可以弥补CNN导致的精度退化问题，使神经网络能够更好地表达。本研尝试基于MRI 轴位高分辨T2WI 图像利用具有残差连接的ResNet-18 DL影像组学结合不同机器学习算法构建模型术前预测直肠癌T2 与T3 期，为临床医生制订个体化治疗方案提供参考依据。

1 材料与方法

1.1 研究对象

回顾性分析皖南医学院第一附属医院（弋矶山医院）2018 年1 月至2022 年12 月术后病理证实为直肠癌患者的完整资料，纳入标准：（1）患者均行直肠癌根治术，且术后病理证实为T2、T3期直肠癌；（2）患者均无盆腔手术史，也未接受盆腔放、化疗或靶向治疗；（3）术前MRI影像、临床及病理资料完整；（4）MRI影像图像清晰，能够满足观察与测量。排除标准：患有盆腔或其他部位良性或恶性肿瘤。最终，共361例患者纳入研究，T2期100例，T3期261例，男236例，女125例，年龄22～88（63.3±10.7）岁，将以上患者按7∶3 采用分层抽样随机分为训练集（262 例，T2 期72 例、T3 期190例）与测试集（99例，T2期28例、T3期71例）。本研究遵守《赫尔辛基宣言》，并通过了皖南医学院第一附属医院（弋矶山医院）伦理委员会审核，免除受试者知情同意，批准文号：（2021）伦审研第98号。

1.2 临床资料收集

收集患者的基本资料，包括性别、年龄及术后T 分期，术后T 分期根据美国癌症联合委员会第8 版分期[17]标准：T2，肿瘤侵犯固有肌层，但未穿透肌外膜；T3，肿瘤突破固有肌层外膜，到达直肠周围系膜脂肪内。术前1 周内采集患者外周静脉血，使用VIDAS 全自动免疫荧光分析仪对癌胚抗原（carcinoembryonic antigen, CEA）、碳水化合物抗原（carbohydrate antigen 199, CA19-9）水平进行全自动分析，CEA截断值为5 ng/mL、CA19-9的截断值为37 U/mL。

1.3 MRI扫描方法

所有患者在术前均使用美国GE signa HDxt 3.0 T MR 扫描仪和8 通道阵列线圈进行直肠检查。检查前患者禁食、禁水6 h，并在扫描前排尿及肠道准备，腹部适当加压以减少呼吸运动伪影。扫描序列及参数：⑴轴位高分辨T2WI参数，TR/TE 4000 ms/80 ms，FOV 240 mm×240 mm，层厚3 mm，层间距1 mm；矩阵384×320，激励次数（number of excitation,NEX）4 次；扩散加权成像（diffusion weighted imaging, DWI）参数，TR/TE 5000 ms/88 ms，层厚4.0 mm, FOV 216 mm×288 mm，矩阵大小128×130，弥散b 值0 和1000 s/mm2，NEX 10 次。在高分辨T2WI测量肿瘤长径（longest diameter, LD），在DWI 衍生的表观扩散系数（apparent diffusion coefficient,ADC）图像上测量ADC值。

1.4 图像分割与特征提取

以DICOM 格式将图像从影像服务器中导出，使用ITK-SNAP（3.6.0版本）软件的灰度调节工具对图像进行归一化处理，在轴位高分辨T2WI图像肿瘤显示最大层面由两名放射科医师（有10年工作经验的主治医师与15年工作经验副主任医师）分别手动沿肿瘤边缘缓慢勾画并保存感兴趣区（region of interest, ROI）（图1）。使用一站式科研平台（onekey AI）提取手工影像组学（hand-crafted radiomic, HCR）特征，每幅图像提取1562个特征，对两名医师提取的HCR特征利用组内相关系数（intra-class correlation coefficient,ICC）进行一致性检验，保留ICC＞0.80 的特征。同样利用onekey AI平台基于ResNet-18卷积神经网络模型提取DL影像组学特征，经过训练共提取512个DL特征，分别对HCR特征与DL特征进行Z-score标准化。

图1 卷积神经网络图像分割和激活图。1A：原始图像；1B：图像分割；1C：激活图。图2 ResNet网络模型残差块。Fig.1 Convolutional neural network image segmentation and activation graph.1A: Original image; 1B: Image segmentation; 1C Activation diagram.Fig.2 ResNet network model residual block.

1.5 DL模型

本研究选择ResNet-18 模型作为DL 特征提取的基础模型，ResNet 网络又叫残差网络，由多个残差块组成（图2），是最经典的卷积神经网络模型。18代表的是模型的深度，包括17个卷积层和1个全连接层。

如图2 所示，特征以X 向前传播，经过一个残差块学习的特征为F（X），则输出的特征为F（X）+X，在前向传播过程中，每一层均考虑了上一层提取到的特征信息，解决了传统的图像识别网络因网络层数堆叠很深模型难以收敛的问题。

1.6 机器学习模型的构建

首先利用单因素与多因素logistic回归分析筛选临床影像学独立危险因素；然后分别基于HCR 特征、DL影像组学特征利用Spearman秩相关、最小绝对收缩和选择算子算法（least absolute shrinkage selection operator, LASSO）回归降维筛选预测直肠癌T2 与T3 期的最优特征（图3）；最后基于临床影像特征、HCR 特征、DL 影像组学特征及三者组合特征分别采用SVM、K 最近邻（K-nearest neighbor, KNN）、极端梯度增强机（extreme gradient boosting,XGBoost）三种算法共构建12个机器学习模型。利用AUC 评价模型在训练集和测试集的预测能力，选出最优机器学习模型为输出模型，并绘制模型的临床决策曲线（decision curve analysis, DCA）。

图3 最小绝对收缩和选择算子算法回归降维筛选最优组学特征，手工影像组学特征降维（3A、3B），深度学习影像组学特征降维（3C、3D）。Fig.3 The least absolute shrinkage selection operator is used to select the optimal radiomics features, while HCR features (3A, 3B) and DL radiomics features (3C,3D) are reduced in dimension.

1.7 统计学分析

采用SPSS 23.0及Python（3.5.6）软件进行统计学分析。首先采用Shapiro-Wilk检验对数据进行正态性检验，符合正态分布的计量资料用±s表示，不符合正态分布用M50（P25，P75）表示，比较采用独立样本t检验或Mann-WhitneyU检验。分类变量采用χ2检验或Fisher 检验。单因素或多因素logistic 回归筛选独立危险因素，并计算比值比（odds ratio, OR）和95%置信区间（confidence interval,CI），Spearman秩相关及LASSO 回归降维筛选最优组学特征。利用SVM、KNN 及XGBoost 三种机器学习算法构建预测模型，通过AUC、敏感度、特异度及准确度评价各模型的诊断效能，DCA 评价模型的临床适用性。P＜0.05 表示差异有统计学意义。

2 结果

2.1 一般资料

训练集共262 例患者，男174 例，女88 例，年龄22～85（63.1±10.6）岁；测试集99 例患者，男62 例，女37 例，年龄32～88（64.0±10.8）岁。两者一般资料比较差异均无统计学意义（P值均＞0.05），具体结果见表1。

表1 训练集与测试集一般资料比较Tab.1 Comparison of general information between training and testing sets

2.2 临床影像特征危险因素分析

训练集T2 与T3 期直肠癌临床影像特征比较，结果LD（χ2=-3.802）、CEA（χ2=4.818）及CA19-9（χ2=8.245）差异有统计学意义（P值分别为＜0.001、0.028、0.004），详见表2。进一步对以上3 个指标行单因素与多因素logistic回归分析，单因素logistic回归CEA（OR=1.878, 95%CI: 1.065-3.309,P=0.029）、CA19-9（OR=6.562, 95%CI: 1.526-28.220,P=0.011）及LD（OR=1.515, 95%CI: 1.208-1.900,P＜0.001）；多因素logistic 回归CA19-9（OR=1.447, 95%CI:1.150-1.820,P=0.002）及LD（OR=5.117, 95%CI:1.159-22.584,P=0.031）为预测直肠癌T2 与T3 期的独立危险因素。

表2 训练集T2与T3期直肠癌临床影像特征比较Tab.2 Comparison of clinical imaging features between T2 and T3 stages of rectal cancer in the training set

2.3 机器学习模型的构建

通过Spearman 秩相关及LASSO 回归对HCR 与DL影像组学特征降维后分别获得12个与7个最优组学特征，利用SVM、KNN及XGBoost分别基于临床影像特征、最优HCR与DL特征及三者组合特征构建12个机器学习模型（表3），构建的模型中组合特征模型AUC均高于单独特征模型（图4），组合特征模型中训练集XGBoost算法AUC最高，作为本研究的输出模型，DCA显示训练集与测试集阈值概率为0～1时临床均有获益（图5）。

表3 三种分类器构建的12个机器学习模型预测效能的评价Tab.3 Evaluation of the predictive performance of 12 machine learning models constructed by three classifiers

图4 支持向量机（4A）、K 最近邻（4B）、极端梯度增强机（4C）三种机器学习算法基于组合特征构建模型的ROC曲线。AUC：ROC曲线下面积。Fig.4 Three machine learning algorithms, support vector machine(4A), K-nearest neighbor (4B) and extreme gradient boosting machine(4C), are used to construct the ROC curves of the model based on the combined features.AUC: area under the ROC curve.

图5 训练集（5A）和测试集（5B）的极端梯度增强机分类器组合特征模型的临床决策曲线。蓝色曲线表示模型实际预测结果，黑色斜线假设全部为T3期，水平虚线假设全部为T2期。Fig.5 The clinical decision curve of the XGBoost classifier combination feature model includes a training set (5A), a testing set (5B), with the blue curve representing the model's actual predictions.The black diagonal line assumes all stages are stage T3, and the horizontal dashed line assumes all stages are stage T2.

3 讨论

本研究基于高分辨T2WI 的HCR 特征与ResNet-18 的DL 影像组学特征，并结合临床影像特征，通过SVM、KNN 及XGBoost 三种常用的机器学习算法构建12 种预测模型，用于术前预测直肠癌T2 与T3 期。结果发现，构建的所有模型中组合特征模型的AUC均高于单独特征模型，其中组合特征模型以训练集XGBoost 算法构建的模型预测效能最高（AUC 为0.998），测试集也达到了很高的预测水平（AUC 为0.966），敏感度、特异度及准确度均较高，确定为本研究的最佳模型。既往关于直肠癌T 分期的研究多局限于预测T1-2 与T3-4 期，针对亚分期T2 与T3 期的研究相对较少，且效能偏低。本研究有望成为一种新的无创方法术前预测直肠癌T2与T3期。

3.1 临床影像特征预测直肠癌T2 与T3 期的价值分析

肿瘤标志物检测创伤小，短期内可重复检测，合理地利用肿瘤标志物检测对肿瘤的筛查、诊断、分期及预测预后均有重要价值。已报道的与直肠癌相关血清肿瘤标志物有10 余种，但CEA 和CA19-9 是最常用的两种。CEA 是由正常直肠细胞产生的高分子量糖蛋白，作为细胞间黏附分子，可以促进直肠癌细胞的聚集，CA19-9 是一种高分子量糖脂，主要影响细胞黏附功能，两者在肿瘤的发生发展中均起重要作用[18]。本研究T3 期CEA 与CA19-9 水平升高的比例明显高于T2 期，这可能是因为CEA 与CA19-9 水平越高提示肿瘤细胞的增殖能力越强，标志着肿瘤分化越差，恶性程度也越高，T3期直肠癌恶性程度比T2期更高，整体分化水平更差。既往研究[19-20]也表明CEA、CA19-9 可用于直肠癌的诊断、预测预后及复发监测。LIN等[21]基于放射组学列线图术前预测直肠癌T分期的研究发现，单因素分析CEA（OR=4.08, 95%CI:1.85-9.00）及CA19-9（OR=5.83, 95%CI: 1.33-25.62）差异均有统计学意义（P＜0.05），多因素分析CEA为独立危险因素（P=0.044），CA19-9差异无统计学意义（P=0.416）。在本研究中单因素分析CEA 及CA19-9 差异均具有统计学意义（P＜0.05），多因素分析CA19-9为独立危险因素，CEA未被纳入，与LIN等研究结果略有不同，这可能是因为本研究对象为T2与T3期直肠癌，但LIN 等研究对象为T1-2 与T3-4 期。既往研究[22]表明肿瘤细胞侵袭力与肿瘤大小呈正相关，所以，肿瘤越大侵袭性越强，肠壁浸润越深，相应T分期也越高。本研究T2 期肿瘤LD 小于T3 期，且LD 是预测两者的独立危险因素，与以往报道一致。

3.2 DL 影像组学的机器学习预测直肠癌T2 与T3 期的价值分析

影像组学是一种无创、定量、客观的图像分析方法，它可以从单个或多个医学图像中提取人眼无法直接识别的高通量定量特征，并将这些特征与临床信息结合起来，提高疾病的诊断和预后评价[23-25]。DL 通过自动提取高阶图像特征，可用于肿瘤分割、预后预测和治疗反应评价[26-28]。机器学习属于人工智能的子领域，通过利用算法和统计数据来训练计算机处理数据并得出预测结果，已广泛应用于直肠癌的相关领域研究中[29-32]。本研究利用SVM、KNN 及XGBoost 三种机器学习算法基于HCR与DL影像组学特征构建的预测模型AUC介于0.791～0.893，均达到比较理想的预测水平，高于临床影像特征模型（AUC介于0.634～0.786）。将临床影像特征、HCR及DL影像组学特征联合构建组合特征模型，组合特征模型的AUC介于0.955～0.998，均高于单独特征模型，这说明联合特征较单独特征在预测直肠癌T2与T3期中价值更大。此外本研究发现训练集基于组合特征的XGBoost算法效能最高，为本研究的输出模型，XGBoost 算法是基于GBRT（gradient boosting regression tree）对boosting 算法的改进，运算速度更快，具有较强异常值鲁棒性，更高预测准确度，是目前常用的机器学习模型之一。既往已有较多研究利用DL及影像组学术前预测直肠癌T分期。HOU等[33]利用MRI DL影像组学术前预测直肠癌T1-2与T3-4分期，构建的影像组学模型AUC最高为0.869，其效能明显高于放射科专家（AUC为0.685）；YUAN等[34]利用影像组学预测T1-2 与T3 分期，结果测试组模型AUC 最高为0.920；WEN 等[35]同样利用MRI 影像组学构建5个预测直肠癌T分期的机器学习模型，模型的AUC在0.841～0.893之间。以上研究与本研究略有不同，本研究对象为T2、T3 分期。既往有关直肠癌T2 与T3分期的报道较少，且效能低于本研究。邱勇刚等[36]利用T2WI 及DWI 影像特征鉴别T2 与T3 期直肠癌，准确度最高为88.52%，本研究的准确度最高为97.0%；孙伯尧等[37]基于ADC序列影像组学构建多种机器学习模型鉴别诊断T2 与T3 期直肠癌，模型的AUC 最高为0.836，本研究AUC最高为0.998。

3.3 局限性分析

本研究仍存在以下几点不足之处：首先，本研究为单中心数据，研究的人群分布及范围比较局限，研究结果还需多中心进一步验证，这是后期研究的方向；其次，本研究HCR 及DL 影像组学特征提取是基于单层图像勾画，三维图像可能反映肿瘤的异质性会更加全面；最后，本研究为回顾性分析，可能会存在一定的选择偏倚。

4 结论

综上所述，本研究基于MRI 轴位高分辨T2WI 的ResNet-18 DL 影像组学利用SVM、KNN 及XGBoost 三种机器学习算法，构建了12个预测直肠癌T2与T3期的预测模型，三种机器学习算法构建的模型中组合特征模型效能均优于单独特征模型，其中训练集XGBoost 分类器构建的组合特征模型效能最高。本研究结果表明基于深度学习的影像组学能够术前无创、精确预测直肠癌T2 与T3 期，有望成为临床对直肠癌患者术前评估的个体化决策支持工具，为患者制订个体化临床治疗方案提供参考依据。

作者利益冲突声明：全体作者均声明无利益冲突。

作者贡献声明：俞咏梅设计本研究的方案，对稿件重要内容进行了修改；吴树剑起草和撰写稿件，获取、分析或解释本研究的数据；范莉芳、张虎、陈国仙、徐静雅、亚胜男获取、分析或解释本研究的数据，并对稿件重要内容进行了修改；亚胜男获得安徽省高校自然科学基金项目资助。全体作者都同意发表最后的修改稿，同意对本研究的所有方面负责，确保本研究的准确性和诚信。