漆安琪,张海捷,殷 夫,杨丽洋,崔维维,杨姗姗,文 戈
1南方医科大学南方医院增城院区医学影像科,广东 广州 511300;2深圳市第二人民医院PET/CT 中心,广东深圳 518052;3深圳大学信息工程学院,广东 深圳 518052;4南方医科大学南方医院影像中心,广东 广州510515
肾透明细胞癌(ccRCC)是肾细胞癌中最常见的亚型,占比超过70%,恶性程度普遍较高,相比其它亚型预后也较差[1]。ccRCC的核分级与患者的5年生存率存在相关性,通常核分级越高,其生存期会越短[2-3]。目前,ccRCC分级系统采用的是世界卫生组织/国际泌尿病理学会(WHO/ISUP)的最新核分级系统[4-5]。该系统是根据核仁突出的情况,是否存在细胞的多形性以及横纹肌样或肉瘤样形态来划分的四分类的分级系统。研究表明,ccRCC患者的低级别(1~2级)核分级之间[6-7]和高级别(3~4级)核分级之间[2],他们的生存率并没有差异,因此WHO/ISUP核分级系统也可被简化为此二分类标准。在临床治疗方面,低级别ccRCC患者可采取相对保守的治疗,如射频消融、局部切除术或腹腔镜手术、保留肾单位手术或主动监测;高级别ccRCC患者可能需要接受更多的根治性干预如手术切除和更密切的随访[8],因其肿瘤具有更高的侵袭性和死亡率[9]。术前明确患者的WHO/ISUP核分级,对指导其治疗和临床决策至关重要。
目前确定ccRCC的WHO/ISUP核分级的金标准是通过组织病理学检查。然而,通过细针穿刺活检确认核分级仍存在一些局限性[10-11]:活检具有侵入性,可能会导致肿瘤扩散、出血以及感染等多种风险[12-13],并且穿刺活检经常会低估肿瘤分级[14],对于位置较深或体积较小的肿块,由于肿瘤独有的异质性,可能会出现病理结果不太准确的情况[15]。因此,无创并且精准的术前预测ccRCC的病理分级的方法将对患者的治疗具有重要的临床意义。研究发现,影像组学通过其自身的影像组学特征(RFs)可反映肿瘤异质性的特点,可有效用于病理检测、寻找致癌基因以及评估预后[16-17]。
在影像组学中,特征数量通常大于实验样本,故通常需要选择合适的特征选择的方法以减少对预测模型的干扰。随着机器学习的发展,支持向量机、决策树、随机森林等机器学习方法,已广泛用于影像组学的特征筛选,但仍然存在一些局限性。其中,最大的缺陷是忽略了冗余特征的相关信息,这意味着一些同样重要的RFs会被舍弃。同时,大多数机器学习的特征选择方法都是基于包装式的框架,容易出现过拟和。最后,现有的机器学习的方法通常是黑箱操作,选择特征的可解释性不强。因此,需要一个更可靠的特征选择方法以改善上述问题。
近年来,基于差异化网络分析的特征选择方法,在大规模数据分析方面表现出了出色的鲁棒性,广泛应用于相关疾病的生物标志物的识别[18]。差异化网络分析以网络拓扑结构为中心,通过比较两个不同群体网络之间的结构差异来选择特征,特别在处理小样本和不平衡样本问题时表现突出。然而目前少有文献报道其在影像组学中的相关应用。本研究旨在利用差异化网络分析选择特征,并以此构建ccRCC的WHO/ISUP核分级预测模型[19]。除此之外,本文希望探讨通过此新的特征选择的方法所选择的RFs 与ccRCC 的无进展生存期(PFS)是否存在相关性,使影像组学预测模型及其特征具有更强的可解释性。
本研究为回顾性研究,已获得南方医科大学南方医院伦理委员会审核批准,并免签患者的知情同意书。回顾性分析了2015~2021年南方医科大学南方医院收治的肾细胞癌患者的临床、病理、CT、随访资料,包括:年龄、性别、肿瘤最大径、T 分期、生长模式以及WHO/ISUP核分级。纳入标准:筛选病理检查为肾透明细胞癌的患者纳入研究;依据2016版WHO/ISUP标准,由2位病理学医生独立对组织标本进行重新阅片,并进行核分级(1~2级定义为低级别,3~4级定义为高级别);有完整CT平扫和增强图像资料。排除标准:由于组织病理资料不全而无法进行重新核分级的肾癌患者;在CT检查前已做过治疗的肾癌患者;单侧或双侧肾脏出现2个或2个以上病变的患者;肿瘤的囊性成分特征达到75%以上的肾癌患者;病理组织学中包含混合特征的肾癌患者,如同时含有透明细胞和乳头状特征等。最终共有175例患者被纳入研究,其中训练集105例,测试集70例。经统计,诊断为低级别ccRCC(按WHO/ISUP 标准为1~2级)有122例,高级别ccRCC(按WHO/ISUP标准为3~4级)有53例。训练集和测试集患者所有特征的差异均无统计学意义(P>0.05,表1)。
表1 训练集与测试集患者的临床信息Tab.1 Patient's clinical information between the training set and test set
本研究病例采用西门子64 排CT(Siemens Somatom Definition CT)以及飞利浦256 层iCT(Philips Brilliance ICT)进行CT图像采集。嘱患者仰卧位,在屏气后进行CT平扫及三期增强扫描。扫描范围从膈顶到双肾下极,使其包含有完整的肾脏及主要供血血管及邻近组织。管电压120 kV;管电流150~320 mA;层厚5 mm;层间距5 mm;视野360 mm;矩阵512×512。首先进行平扫期(NCP)扫描,在常规平扫结束后,根据患者体质量经肘前静脉注射造影剂(碘海醇或优维显),剂量为2 ml/kg,以2.5 ml/s的速度注射。在造影剂注射后的30~35 s 扫描皮髓质期(CMP)、60~70 s 扫描实质期(NP)、190~200 s扫描排泄期(EP)。
由2名具有腹部影像诊断经验的的放射科医生(医生A:10年,医生B:15年),使用ITK-SNAP软件对CT图像进行手动分割获取感兴趣区。在手工勾画感兴趣区时,其轮廓需与肿瘤边缘保持2 mm的距离,以减少邻近组织的干扰,如正常肾组织或周围脂肪[20]。
为了评估分割图像中提取特征的鲁棒性,进行一致性检验。医生A和B分别随机为30张图像绘制感兴趣区,1周后医生A再次重新分割同一批图像,计算两位放射科医生提取的RFs的组内和组间相关系数。结果显示,组内和组间相关系数均大于0.75,表示图像分割的一致性很好,因此剩余的图像由医生A执行分割。所有图像在提取特征前,均进行了重采样、归一化和滤波去噪的预处理。影像组学的特征提取基于PyRadiomics软件平台实现。
本文首次使用了一种基于Glasso的差异化网络分析方法进行RFs选择。Glasso是一种经典的最大熵网络构建模型[21],通过稀疏惩罚极大似然估计的方法预测协方差矩阵的逆。它明确地从一个概率模型出发,利用联合似然从多个条件中估计协方差矩阵的逆,并以此作为推断的网络结构。其一般形式可以写成:
其中M是估计网络,C是样本协方差矩阵,tr表示矩阵的轨迹,det表示矩阵的行列式,λ是正则化参数。矩阵M中的元素描述了在去除间接影响后仍然存在的成对特征的相关性,从而提供了特征之间相互作用的更健壮的描述。
特征选择的的具体流程如下:首先根据RFs的不同阶段(NCP、CMP、NP、EP和ALL-P)构建5个实验组。其中,NCP、CMP、NP和EP组的样本仅包含相应期相的RFs,ALL组的样本包含上述4个期相的所有RFs。在各个实验组中,根据WHO/ISUP核分级把样本分为低级别组(1~2 级)和高级别组(3~4 级)。然后,利用Glasso分别构建各实验组中的高级别和低级别网络。通过比较高低级别网络拓扑结构之间的差异,构建各实验组的WHO/ISUP高低级别的差异化网络。
一个WHO/ISUP核分级差异化网络示例图(图1)显示,在高级别和低级别网络中,特征A和C均存在连接,这意味着在这两个网络中,特征A与C的连接关系没有发生变化,即没有差异性。最后,根据各实验组中构建的高低级别差异化网络结构,通过节点度的直方图选取各自的RFs,即网络中排名较高的节点被选择为重要的RFs(图中红色标记)。本实验中所选特性的数量被设置为不超过15个。
图1 WHO/ISUP核分级差异化网络示例Fig.1 A sample of WHO/ISUP grade differential networks.
各模型均在训练集上进行5次分层10折交叉验证以检验其性能,并在测试集上进行独立测试。每次10折交叉验证中,训练集分为内部训练集和内部验证集(9:1)。其中交叉验证的数据划分中保持相同的类分布。之后将各实验模型在5次交叉验证中的平均性能作为其在内部训练集和内部验证集上的最终性能,最后在测试集中进行测试。
在本实验中,首先通过差异化网络分析特征选择得到NCP、CMP、NP、EP和ALL期相的RFs,之后通过Logistic回归方法构建预测模型,最后筛选出其中性能最好的模型。通过ROC 曲线以及曲线下面积(AUC),进一步分别与最小绝对收缩和选择算子(LASSO)、随机森林和支持向量机模型等机器学习对照模型以及临床特征模型行比较,评估所选模型的性能。
进一步通过生存分析,探索WHO/ISUP核分级预测模型中所选RFs是否与PFS相关,以验证所选特征的可解释性。首先,进行Kaplan-Meier分析;然后,采用单因素和多因素Cox比例风险回归模型研究与PFS相关的影像组学特征因素;最后,使用风险评分可视化描述所选择的RFs。
采用SPSS22.0软件进行统计学分析。分类数据以n(%)表示,连续数据以均数±标准差表示。采用非参数Mann-WhitneyU检验或独立样本t检验比较连续数据的组间差异;采用Fisher精确检验(样本量≤5)或者卡方检验分析分类数据的组间差异。以P<0.05为差异有统计学意义。在生存分析中,使用surviminer软件包中的surv-cutpoint函数自适应选择了连续数据的最佳cut-off值,统计结果以及建模均由R 软件执行,包括‘rms’,‘ggplot’,‘survival’,‘rmda’以及‘proc’软件包。
每个患者从单期CT图像中提取107个RFs,包括18个一阶统计特征、14个形状的特征、24个灰度共生矩阵特征、14个灰度依赖矩阵(GLDM)特征、16个灰度运行长度矩阵(GLRLM)特征、16个灰度大小区域矩阵特征、5个相邻灰度差矩(NGTDM)特征。因此从4期CT图像中共提取428个RFs(4×107)。
通过差异化网络分析特征选择,NCP、CMP、NP、EP和ALL-P模型分别选取7、10、9、5和8个RFs。不同期相的差异化网络(图2,其中红色节点表示所选的RFs)。
图2 不同期相的差异化网络图Fig.2 Differential networks of different phases.
根据差异化网络分析构建的不同期相模型在训练集、验证集和测试集的ROC曲线分析(图3)。在训练集中,NCP模型的AUC为0.78,表现最佳,优于其他模型(P<0.05)。在验证集中,NCP模型(AUC=0.76)仍为最佳,优于其他单期模型(P<0.05)。最后在测试集中,NCP模型(AUC=0.75)依然是最好的两个模型之一,另一个是ALL-P模型(AUC=0.76),性能均优于其他模型(P<0.05),但二者间的性能差异无统计学意义(P=0.063)。结果表明,NCP 模型具有良好的鲁棒性,对WHO/ISUP核分级的预测能力较好,被选为最终模型。模型公式为NCP=-3.7×X1+6×X2+1.97×X3+2.62×X4+1.94×X5+6.73×X6+4.2×X7。NCP模型选择的RFs的相关信息(表2)。
图3 不同期相模型在训练集(A)、验证集(B)以及测试集(C)上的ROC曲线Fig.3 The ROC curves of different phase models in the training set (A),validation set (B) and test set(C).
表2 采用差异化网络特征选择的NCP期相模型的RFsTab.2 The RFs of NCP phase model using the differential network feature selection
NCP模型与其它机器学习模型(LASSO、支持向量机和随机森林模型)在训练集、验证集和测试集中的ROC曲线(图4)。在训练集中,NCP模型和随机森林模型AUC分别为0.78和0.84,优于其它对照组模型,但二者差异无统计学意义(P>0.05)。在验证集中,所有机器学习模型的性能均发生了急剧下降,而NCP模型波动较小,在所有模型中表现最佳,AUC为0.76,优于其它模型(P<0.05)。最后在测试集中,大部分机器学习模型的性能同样有大幅度降低,特别是支持向量机和LASSO模型,预测性能下降明显,但NCP模型依然保持稳定。
图4 NCP 模型与其他机器学习模型在训练集(A)、验证集(B)以及测试集(C)上的ROC曲线Fig.4 The ROC curves of NCP model and other machine learning models in the training set (A),validation set(B)and test set(C).
NCP模型与临床对照模型(CICFs模型)及两者联合模型(CICFs-NCP模型)在训练集、验证集和测试集中的ROC曲线(图5)。在训练集、验证集和测试集中,NCP模型均为最佳(AUC分别为0.78、0.76和0.75),优于其他模型(P<0.05)。NCP模型不仅具有良好的鲁棒性,同时在联合了NCP模型后,临床模型的性能有了提高。
图5 NCP 模型、临床对照模型及联合模型在训练集(A)、验证集(B)以及测试集(C)上的ROC曲线Fig.5 The ROC curves of NCP model、clinical control model and combined model in the training set (A),validation set(B)and test set(C).
NCP模型的RFs的Kaplan-Meier生存分析结果显示,除特征X2(P=0.23)外,其余所有的RFs在高低分组间的差异有统计学意义(P<0.05,图6)。
图6 NCP模型RFs的Kaplan-Meier分析Fig.6 Kaplan-Meier analysis of the RFs of the NCP model.
单因素分析结果显示,X1、X3、X4、X5、X6、X7,是PFS的风险因子(P<0.05),将其纳入多因素Cox 回归分析;多因素结果显示,X3 以及X6 仍具有显著性(P<0.05),是PFS的独立风险因子(表3)。
表3 NCP模型中RFs的单变量和多变量Cox回归分析Tab.3 The univariate and multivariate Cox regression analysis of the RFs of the NCP model
NCP模型特征在不同数据集上的ccRCC患者风险评分分析(图7)。其中a表示每个患者的风险评分分布;b表示ccRCC患者的生存状态与生存时间的关系(按风险评分排序);c表示RFS的热图,从红色到绿色表示水平从高到低。模型在训练集(图7A)、测试集(图7B)以及所有数据集(图7C)上的风险评分基本一致,所选特征有较好的鲁棒性。其中X3为危险因素,其表达分布与危险评分相似;相反,X6是一个保护因素。
图7 在训练集、测试集和全数据集上,ccRCC患者基于NCP模型RFs的风险评分分析Fig.7 Risk score analysis of ccRCC patients in the training set,test set and all data set based on the RFs of the NCP model.
ccRCC作为最常见的肾癌病理亚型,具有侵袭性最强、肿瘤相关致死率最高的特点[22],因此,能在术前通过无创的预测方法准确判断ccRCC患者的病理核分级,对患者的后续针对性治疗具有重要的意义。
本研究引入了差异化网络分析方法选择高低级别的RFs并构建预测模型。实验结果表明,基于差异化网络分析构建的NCP模型具有良好的预测能力和出色的鲁棒性,与3种经典的机器学习模型和临床模型相比具有很强的竞争力。相比于其他特征选择方法在验证集和测试集性能较训练集急剧下降不同,基于差异化网络分析构建的NCP模型表现稳定,在训练集、验证集以及测试集中的AUC分别为0.78、0.76以及0.75。其中一个原因可能是我们的特征选择方法更关注的是RFs的高低等级网络的拓扑差异,而不是在训练集中的预测性能,避免了模型的过拟合。另一方面,我们的方法使用Glasoo构造网络模型,充分考虑了特征间的高阶相关性,能有效处理小样本问题,因此确保了所选RFs具有更强的鲁棒性和良好的泛化性能。
在差异化网络分析中,不同的网络构建方法可能导致截然不同的结果。最常见的构建方法是Pearson相关系数网络模型。然而,Pearson相关性在反映两个特征的相关性时可能具有误导性,因为它忽略了其他特征的影响[23]。Glasso 的提出解决了这一问题,它依赖于Boltzmann的熵最大化概念来支持统计推断,对缺失信息形式的依赖最小[19]。基于此构建的网络模型可以描述在去除间接影响后,特征间仍然存在的相关性,因此能提供更可靠的信息。基于上述原因,Glasso被用来构建WHO/ISUP的高低级别网络。
本研究基于Glasso的差异化网络分析方法构建了一种无创的WHO/ISUP核分级预测模型,可以仅通过NCP扫描,即可有效预测患者的核分级。实验结果表明,该NCP模型能在术前有效预测肿瘤的核分级,有助于对ccRCC的治疗做出更准确的决策。针对影像组学的相关研究,我们的结论与既往研究[20,24]一致,他们也发现NCP期相的相关特征能更好的反映分级。同时,更多数基于传统的机器学习方法的研究小组则认为,来自增强期或联合期相的RFs表现更佳。例如,有学者通过LASSO筛选CMP和NP期相特征构建分级预测模型[25];有研究发现通过机器学习的方法构建了基于NCP、CMP和NP期相的混合模型的性能比单一期相模型的预测性能更佳[26]。
本文首次探讨了WHO/ISUP 核分级预测模型的RFs与ccRCC的PFS之间的关系,以往大多数研究只是单独探讨预测核分级或生存分析,而不是将二者结合起来研究。例如,有研究只是通过相关机器学习方法构建了分级预测模型[27-28],有研究则只探讨了1~3期肾透明细胞癌术后复发的相关生存分析实验结果[29-30]。本研究在分级预测模型的基础上,通过生存分析实验,探讨了用于分级的特征与预后的关系,结果表明,核分级模型中选择的几乎所有RFs都能有效预测PFS。其中X3是PFS的危险因素,X6是PFS的保护因素。以上结果证明了用于预测分级的RFs与ccRCC的PFS存在关联,验证了本文使用的特征选择方法有较强的可解释性。
综上,基于差异化网络分析特征选择构建的平扫期模型不仅可以有效预测肾透明细胞癌的WHO/ISUP核分级,同时该模型的特征也能很好的预测无进展生存期,有较强的可解释性。但本研究仍有值得改进之处:首先,本研究是一项单中心的回顾性研究,仅纳入了175例ccRCC患者,研究结果仍存在抽样误差。其次,模型的性能还需要与其它的网络构建方法、基于过滤的特征选择方法进行比较,来进一步深入验证差异化网络分析的有效性。此外,仅使用PFS的保护或危险因素来证明RFs的可解释性还不够充分。最后,本研究构建的NCP模型如果应用于实际临床诊断,仍需其他大规模的外部数据来进一步验证。