基于CT 的放射组学特征预测肺腺癌EGFR 突变状态

2023-05-31 03:49刘俊忠贺光辉李小山王于臻
中国中西医结合影像学杂志 2023年3期
关键词:放射学组学分类器

刘俊忠,王 琦,贺光辉,李小山,王于臻

1.山东省潍坊市人民医院放射科,山东 潍坊 261041;2.山东省潍坊市第二人民医院介入放射科,山东 潍坊 261041;3.山东省潍坊市第二人民医院放射科,山东 潍坊261041

近年来,有关肺癌的病理和分子方面的研究取得了很大进展[1]。肺癌基因中表皮生长因子受体(epidermal growth factor receptor,EGFR)的发现促进了患者个体化靶向治疗的开展[2-3]。肺腺癌中存在EGFR 突变的患者对EGFR 酪氨酸激酶抑制剂(tyrosine kinase inhibitors,TKI)反应良好[4-7],而未突变患者不宜接受TKI 治疗[8]。目前,临床上仍通过活检或手术切除等侵入性方法分析EGFR 突变状态。然而,以上方法存在活检样本数量少和取样错误风险等局限性[9-10]。此外,因肿瘤的异质性,从特定部位获得的组织样本可能无法代表整个肿瘤[11-13]。

CT 是肺癌筛查和诊断的首选成像方法。有研究表明,与EGFR 突变相关的因素有女性、非吸烟状态、磨玻璃样混浊、支气管充气征、气泡状透亮区、胸膜回缩等CT 征象[10,14-16]。但这些研究有一些局限性。

放射组学利用人工智能中先进的数学算法从医学图像中提取高通量的图像特征,并量化这些参数,相关的图像特征可作为临床研究决策参考[17-18]。有些研究报道尝试利用基于CT 的放射组学模型预测EGFR突变状态[11,19-22],但受样本量相对较小、准确率低、放射组学特征较少或缺乏验证数据集的限制而无法有效评估整个肿瘤的异质性。此外,尽管有证据表明包含这些影像特征可能会提高模型的诊断效能[11,20],但之前的模型中并未包含临床风险因素和放射学特征。因此,本研究基于术前CT 放射组学特征建立预测肺腺癌的EGFR 突变状态的模型。

1 资料与方法

1.1 一般资料

回顾性分析2015 年1 月至2021 年12 月经组织病理学确诊的肺腺癌患者的术前肺CT 增强扫描图像和临床资料。纳入标准:①根据2015 年WHO肺癌分类,组织学亚型为腺癌的患者;②有薄层CT(1.25 mm)图像和完整的临床数据,可用于PACS;③年龄>18 岁;④在活检或术前2 周内接受胸部CT 扫描;⑤无其他恶性肿瘤病史;⑥CT 扫描前未接受肺癌相关治疗(如化疗、放疗或免疫治疗)。排除标准:①未检测EGFR 突变的患者;②腺癌以外肺癌组织学亚型的患者;③大量胸腔积液或炎症导致肿瘤边界难以划定的患者;④CT 图像质量较差的患者。

共纳入420 例,其中男219 例,平均(58.46±9.99)岁;女201 例,平均(56.30±8.51)岁。将患者按7∶3 的比例随机分为训练集294 例和验证集126 例。临床变量包括年龄、性别、吸烟史[包括非吸烟者(从不吸烟)和吸烟者(以前和/或现在吸烟者)、癌胚抗原(CEA)水平和5 个CT 图像特征(分叶征、毛刺征、胸膜凹陷、病变大小、支气管血管束截断)。

使用EGFR 检测试剂盒(北京SinoMD 基因检测技术有限公司,中国)检测EGFR 突变。基于聚合酶链反应的方法用于确认EGFR 外显子18、19、20 和21 的突变。

1.2 CT 图像分析

由2 名分别具有5 年和14 年胸部肿瘤诊断经验的放射科医师采用盲法独立评估PACS 上所有患者的放射学特征。如有分歧,经讨论达成一致意见。在肺窗(窗宽1 500 HU,窗位-500 HU)和纵隔窗(窗宽300 HU,窗位40 HU)中分析。

1.3 放射组学特征选择与模型构建

使用ITK-SNAP 3.8 软件(http://www.itksnap.org)对CT 图像ROI 行三维手动分割。使用开源软件Python3.6.3(https://www.python.org)提取病变容积感兴趣区(volume of interest,VOI)中的放射组学特征。从每个VOI 中提取1 586 个放射组学特征,分为3 大类:一阶特征、形状特征和纹理特征,包括灰度共生矩阵特征(GLCM)、灰度游程矩阵特征(GLRLM)、灰度大小区域矩阵特征(GLSZM)、相邻灰度差矩阵特征(NGTDM)和灰度依赖矩阵特征(GLDM)。

首先在训练集和验证集中对所有放射组学特征进行标准化处理,然后应用最小绝对收缩与选择算子算法(LASSO)回归选择与预测相关的特征。最后将选择的放射组学特征数据输入分类器,用于构建放射组学特征模型。本研究使用3 个分类器,即逻辑回归(LR)、决策树(DT)和支持向量机(SVM)。使用10 倍交叉验证选择效能最好的模型。

训练集中与EGFR 突变状态相关的临床和放射学特征行单因素逻辑回归分析;最相关的变量使用多因素logistic 回归分析进行筛选。通过多因素分析,利用与EGFR 突变状态相关的独立危险因素(临床因素和放射学特征),建立临床-放射学(clinicalradiology,C-R)模型。将C-R 模型与最佳放射组学模型相结合,建立临床-放射学-放射组学(clinicalradiology-radiomics,C-R-R)模型,并绘制C-R-R 模型列线图。

1.4 统计学分析

数据分析均使用R 语言(3.6.6 版本)和SPSS 25进行。χ2检验或Fisher 精确检验用于分析分类变量。独立样本t 检验和 Mann-Whitney U 检验用于分析连续变量。各模型结果比较采用ROC 曲线分析。以P<0.05 为差异有统计学意义。

2 结果

2.1 2 组一般资料及影像特征比较(表1)

表1 训练集与验证集一般资料及影像特征比较

所有患者、训练集和验证集的EGFR 突变率分别为51.9%(218/420)、51.7%(152/294)和52.4%(66/126)。训练集与验证集之间EGFR 突变率及其他临床和影像学特征之间差异均无统计学意义(均P>0.05)。

2.2 单因素及多因素logistic 回归分析及C-R 模型构建

单因素分析显示,EGFR 突变体组和野生型组间在吸烟史、空泡征、毛刺征和胸膜凹陷方面差异均有统计学意义(均P<0.05,表2)。多因素逻辑回归分析显示,与EGFR 突变状态的独立危险因素是吸烟史、空泡征、毛刺征和胸膜凹陷(均P<0.05,表2);并以此建立C-R 模型。

2.3 放射组学特征预测性能和验证

通过LASSO 回归降维共提取10 个潜在预测因子。在训练集中,上面选择的放射组学特征用于构建3 种不同的放射组学模型,以通过LR、DT 和SVM 分类器预测EGFR 突变。3 个分类器中,SVM 分类器具有最高的诊断效能。

将C-R 模型与SVM 的放射组学模型结合,建立C-R-R 模型,并绘制列线图(图1)。

图1 临床-放射学-放射组学(C-R-R)模型预测表皮生长因子受体(EGFR)基因突变的列线图 图2 训练集(图2a)与验证集(图2b)中逻辑回归(LG)、决策树(DT)、支持向量机(SVM)、临床-放射学(C-R)模型和C-R-R 模型预测EGFR突变状态的ROC 曲线

绘制ROC 曲线评估训练集与验证集的放射组学特征和C-R、C-R-R 模型性能(表3,图2)。训练集中C-R-R 模型明显优于其他模型;在验证集中C-R-R模型表现最佳,与C-R 模型比较差异有统计学意义(P<0.05),而与其他分类器相比差异均无统计学意义(均P>0.05)。在预测EGFR 突变状态方面,C-R-R 模型的敏感度、准确率、AUC 均高于其他分类器与C-R模型,LR 分类器的效果优于DT 分类器和C-R 模型。

表3 放射组学特征、C-R 模型和C-R-R 模型性能

基于AUC 值最高的放射组学模型结合1 个 临床变量和3 个放射学特征构建列线图(图1)。

3 讨论

本研究构建的C-R-R 模型,具有临床和放射学特征,同时融合放射组学特征,可准确预测肺腺癌的EGFR 突变情况。本研究中使用了3 个分类器(LR、DT 及SVM)计算放射组学特征效能,其中SVM 分类器诊断效能最高。C-R-R 模型是根据294 例患者的数据开发的,为进一步验证其诊断效能,又在126 例患者的验证集中评估了该模型。在训练集和验证集中,C-R-R 模型的AUC 最高,说明C-R-R 模型在预测肺腺癌的EGFR 突变情况方面具有较高的价值,可指导个体化靶向治疗。本研究中EGFR 突变率为51.9%(218/420),与以往研究[10,14-15]一致。在训练集和验证集中,该比率分别为51.7%(152/294)和52.4%(66/126)。

EGFR 突变状态与性别及吸烟史等临床因素显著相关,女性患者和非吸烟人群更易发生EGFR 突变。多因素logistic 回归分析显示,吸烟史、空泡征、胸膜凹陷和毛刺征等因素是EGFR 突变的独立预测因素(均P>0.05)。空泡征在腺癌EGFR 突变患者中更常见,而胸膜凹陷在野生型患者中更常见,这与之前的研究[10,14]一致。

为了构建放射组学特征,本研究从1 586 个组学特征中提取出10 个与EGFR 突变相关的独立组学特征,验证集证实其是相对稳定的。纹理和高维特征与腺癌的EGFR 突变状态具有较强的相关性[20]。纹理特征不能被人类视觉系统识别,也不能被理解为特定的含义[21-22]。本研究表明,包括original_firstorder_Skewness、exponential_glrlm_SRE 和wavelet.LLL_glszm_ZE 在内的放射组学特征在EGFR 突变组中较高,这些特征均与EGFR 突变显著相关。wavelet.LLL_firstorder_Kurtosis 与CT 图像中的峰度有关,而wavelet.LLL_glszm_GLNN 特征可能与灰度值有关,而该值越低,强度值的相似性也越大。这表明提取的肿瘤图像的纹理越精细,肿瘤组织内的异质性越大,EGFR 突变风险的可能性也越高。这与文献报道[11]一致。尽管肉眼无法观察到纹理特征,但某些纹理特征组合可用放射学特征来体现。

对放射学特征的评价,能够在一定程度上体现肿瘤的基因型,放射组学特征可预测EGFR 突变状态[7,10,14-15]。此外,某些文献表明放射组学特征和肿瘤基因型之间存在关联[11,18-20]。然而,当手动勾画肿瘤ROI 时,因为部分病变太小而无法完整或全部包含其中,这些遗漏的部分可能会导致提取组学特征时得到信息量减少,无法全面体现肿瘤组织的异质性。在本研究中,由放射组学特征构建的C-R 模型在训练集中的AUC 为0.88,C-R-R 模型的AUC 提高至0.95。这说明模型中含有临床及放射学因素、组学特征能够提升模型的诊断效能。另外,应用3 种不同的分类器来评估放射组学模型的性能,其中SVM 分类器的诊断效能最高。Yang 等[11]报道的EGFR 突变状态的组学模型AUC 较低,在训练集和验证集的AUC 分别为0.82 和0.77,但其模型缺乏验证,限制了在临床上的应用。本研究构建的C-R-R 模型在训练集和验证集中的诊断效能均较好,且性能稳定。

本研究的局限性:①因为回顾性研究的性质及机器设备和参数的不同,需前瞻性研究来验证。②未纳入其他病理亚型,主要因为EGFR 突变多发生于肺腺癌患者中。③图像勾画均由放射科医师手动完成,而自动分割可更快捷方便地提取特征。

综上所述,放射组学特征与肺腺癌EGFR 突变高度相关。基于CT 放射组学特征结合临床变量和影像学特征构建的C-R-R 模型在预测EGFR 突变状态方面有较高的诊断效能,可为符合靶向治疗条件的肿瘤患者提供参考。

猜你喜欢
放射学组学分类器
《放射学实践》入选中国科学引文数据库(CSCD)核心库
《介入放射学杂志》投稿须知
《介入放射学杂志》投稿须知
口腔代谢组学研究
BP-GA光照分类器在车道线识别中的应用
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
代谢组学在多囊卵巢综合征中的应用
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别