基于支持向量机的肝外胆管癌术前淋巴结状态预测模型构建

2023-08-04 03:49林泰安罗亚梅黄志伟要小鹏
西南医科大学学报 2023年4期
关键词:放射学淋巴结样本

林泰安,罗亚梅,黄志伟,杨 录,要小鹏

1.西南医科大学医学信息与工程学院(泸州646000);2.西南医科大学附属医院 放射科(泸州646000);3.核医学与分子影像四川省重点实验室(泸州 646000)

胆管癌(cholangiocarcinoma)是一种较为罕见的肝胆恶性肿瘤,具有扩散转移快、预后差、生存周期短等特点[1-2]。根据解剖位置通常分为肝内胆管癌(intrahepatic cholangiocarcinoma,iCCA)和肝外胆管癌(extrahepatic cholangiocarcinoma,eCCA)。过去20 年间,大多数国家的胆管癌发病率呈逐年上升趋势,尤其是东南亚地区,其中eCCA占所有原发性肝癌的5%~30%[3-4]。目前,外科手术切除是eCCA患者获得长期生存的唯一治疗手段。根据文献报道,淋巴结转移(lymph node metastasis,LNM)被认为是胆管癌切除手术最重要的预后因素之一,因此在术前准确识别eCCA患者淋巴结转移状况对确定最佳治疗方案和预后效果评价极为重要[5-8]。

当前,临床上大多采用计算机断层扫描(CT),正电子发射断层扫描/计算机断层扫描(PET/CT),以及磁共振成像(MRI)进行胆管癌放射学诊断,尤其是MRI 能更直观的显示病灶的形态学特征,在胆管癌病变评估和术前检查中普遍应用[9-11]。传统的影像诊断主要依靠医生的主观判断进行定性分析,易受主观因素影响而导致诊断结果出现偏差,进而产生误诊和漏诊。近年来,随着人工智能技术的不断发展,影像组学(radiomics)结合传统影像学和机器学习算法构建医学图像预测模型已成为研究热点,许多学者利用其对乳腺癌[12-13]、直肠癌[14]、肺癌等[15]患者的淋巴结转移进行了预测研究,取得了很好的预测效果。

上述研究主要是进行定性预测,而利用MRI 影像数据开展定性和定量预测的研究较少。因此,本研究针对eCCA 患者,提取MRI 影像中DWI、T1WI、T2WI 和ADC 四种序列的图像特征,结合病理结果利用支持向量机(support vector machine,SVM)算法建立模型,用于预测eCCA患者术前淋巴结状态。

1 对象和方法

1.1 研究对象

本研究属于回顾性研究,获得西南医科大学附属医院伦理委员会批准,收集选取了2011年11月至2021年12 月于西南医科大学附属医院接受根治性手术切除的101 例eCCA 患者病例资料(其中男性56 例,女性45例,平均年龄57岁)。搜集数据包括患者临床症状、MRI图像和病理结果(包括淋巴结状态)。为保护患者隐私,所收集到的数据信息都进行了脱密处理。纳入标准:①患者术前未接受化疗等其他抗肿瘤治疗;②患者病变部位病理分析结果证实为肝外胆管癌。排除标准:①术前2周内无MRI影像;②MRI图像模糊;③存在不明或不明显的病变;④患者MRI资料不完整。

在最初收集的172例eCCA患者数据中,排除了71例,主要原因是检查信息不足,例如,没有术前完整的MRI图像(n=38)、MRI图像模糊(n=10)、存在不明或不明显的病变(n=5)以及缺乏部分淋巴结病理活检数据(n=18)等。最终有101 名患者数据可用于构建eCCA 的淋巴结预测模型,如图1 所示。将eCCA 患者分为两分类样本,其中淋巴结转移组为正样本,标记为1[LNM(+);n=29;label=1];淋巴结未转移组为负样本,标记为0,[LNM(-);n=72;label=0]。

图1 病例纳入和排除流程图Figure 1 Flowchart of case Inclusion and exclusion

1.2 感兴趣区域的勾画

本研究采用开源医学图像特征提取软件MaZda(version 4.6)对MRI 图像的感兴趣区域(ROI)进行勾画。先将患者影像数据导入MaZda 软件,根据医师判断手动沿ROI 边缘分别对DWI、T1WI、T2WI 以及ADC序列的图像进行勾画。为降低人为因素所导致的主观偏差,选取经验丰富的放射科医师在预先不知病理结果的情况下完成勾画,如图2所示。

图2 MaZda软件勾画ROI示意图Figure 2 ROI delineated by MaZda software

1.3 特征提取与筛选

1.3.1 数据预处理 本研究采用MaZda 软件对ROI 区域进行放射学图像特征提取,从每个序列的MRI 图像可以提取302个图像特征,共计获取1 208个放射学图像特征。为消除不同数据量纲影响,利用MATLAB 软件采用最大-最小算法(Max-Min algorithm)对1 208 个特征进行归一化。

1.3.2 SMOTE 算法 根据机器学习的基本理论,如果数据样本存在严重的不平衡性,预测结果易出现偏异性,主要体现在预测结果会向样本量较多的一类倾斜。为有效解决样本数据不平衡问题,研究人员提出了合成少数类过采样算法(Synthetic Minority Oversampling Technique,SMOTE)来解决该类问题[16]。本研究中,淋巴结转移患者(n=29)与未转移患者(n=72)数据量很不平衡,直接影响预测模型的泛化性。从小样本数据的角度看,适合采用SMOTE 算法来实现样本数量平衡。通过计算出少数类样本的m 个近邻值,从近邻值中随机选取n个样本进行随机线性插值来构建新的少数类样本,并将其与原数据合成,产生新的训练集,实现分类样本的数据平衡。

1.3.3 特征筛选 由于少样本高维度数据中存在大量的冗余特征,会直接影响预测模型性能。本研究采用Spearman 相关性分析和最大相关最小冗余特征算法(Max-Relevance and Min-Redundancy,mRMR)对放射学图像特征进行初次筛选和二次筛选,尽可能降低冗余特征对预测模型的影响。首先,采用Spearman 相关性分析遍历所有特征,计算两两相邻特征间的相关系数r。同时,将∣r∣≥0.9的特征从特征数据集中排除,完成特征初步筛选。其次,使用mRMR 算法对剩余特征进行筛选,计算特征之间、特征与变量之间的互信息量分布,通过互信息量排序保留了前20个特征作为优选特征(表1),完成二次筛选。

表1 筛选后的图像特征表Table1 Image features after screening

1.4 预测模型的构建

支持向量机(Support Vector Machine,SVM)是VAPNIK 在1995 年所提出的机器学习算法,它的本质是利用核函数建立数据高维空间的非线性映射模型,对小样本数据分类有很好的预测效果[17]。本研究以放射学图像特征为自变量,术前淋巴结状态标签为因变量,采用SVM 算法建立预测模型。在建模过程中采用Matlab 计算软件进行数据预处理和特征选择,根据小样本数据划分训练集和测试集的准测,按照8:2的比例将病例样本分为训练集和测试集[18]。为提高预测模型精度和泛化性,在建模过程中通过网格搜索和交叉验证优化惩罚因子和核函数参数,并在测试集中利用受试者工作特征曲线(ROC)评价该模型性能。

2 结果

2.1 特征选择

利用Mazda 软件对患者每个MRI 序列影像分别提取302个放射学图像特征,总共获取1 208个放射学图像特征,然后进行归一化处理,消除量纲影响。由于上述特征中存在冗余信息和噪声信息,会对预测模型造成偏差,故通过筛选特征数据显示原始数据的本质结构特征。首先,使用SPSS软件进行Spearman相关性分析,筛选出具有高度相似性的特征,共计824 个,删除后所得特征共计384 个。然后,利用最大相关最小冗余特征选择法(mRMR)筛选剩余的384 个放射学图像特征,根据计算互信息量结果,最终选取20 个特征用于建立预测模型,如表1 所示,其中序号1-10 为T1WI序列图像特征,序号11-15 为T2WI 序列影像特征,序号16-20 为ADC 序列放射学图像特征,任选一组特征图形化描述,如图3所示。

图3 Skewness_T2WI层特征直方图Figure 3 Histogram of Skewness_T2WI layer feature

图3 参数c,g优化等高线图Figure 3 Contour plots of optimized parameters c,g

2.2 模型建立

在本研究中,eCCA 患者淋巴结无转移病例为72份,淋巴结有转移的病例为29 份,通过SMOTE 算法设置合适的采样倍率N[LNM(-),N=2;LNM(+),N=5]后,总共构建了新样本289 份[LNM(-),n=144;LNM(+),n=145],从而基本实现了样本数据量平衡。从289 份新样本数据中任意选择一定数量样本作为训练集,剩余的作为测试集,训练集与测试集之比为8:2。

本研究采用SVM 算法,选用径向基(RBF)作为核函数,以筛选后的病灶放射学图像特征为自变量,淋巴结转移标签为因变量建立预测模型。将训练集中的两分类样本[LNM(+);LNM(-)]输入SVM模型进行建模,通过优化惩罚因子c和RBF核函数参数g,以获取预测模型最优的预测效果。

2.3 优化参数

为提高预测模型的性能,通过网格搜索和交叉验证优化惩罚因子c和RBF核函数参数g,以获取SVM模型最优的预测效果。通过程序计算可知不同的c、g值,对应不同的预测精度,如图3所示。从中搜索预测精度最好的一组c、g 值,即为最优参数,则预测模型的最优参数为:c=0.57435、g=5.278,预测精度为86.6337%,如图4所示。

图4 SVM 参数选择结果图Figure 4 Results of SVM parameter selection

2.4 机器学习模型预测性能评价

为评价SVM 预测模型性能,我们利用接收器操作特征曲线(ROC)来评估分类准确性,该模型的预测性能如图5 所示。预测模型训练集的AUC 为0.98,准确率为89.2%,灵敏度为92.9%,特异性为89.4%。预测模型测试集的AUC 为0.83,准确率为82.2%,灵敏度为82.1%,特异性为80.9%。

图5 训练集和测试集ROC曲线Figure 5 ROC curves of training and testing groups

3 讨论

eCCA是一种高度侵袭性的恶性肿瘤,其病因可能与肝部胆管结石、原发性硬化性胆管炎等疾病有关。尽管eCCA患者的临床治疗策略不尽相同,但是根治性手术切除仍然是eCCA 患者比较有效的治疗方法。一般情况下,eCCA患者存在术后预后差、5年生存率低等情况,早发现早治疗对根治eCCA 有重要的临床意义。在临床诊断中,LNM是否转移被认为是预测eCCA患者术后生存率的重要因素之一[19]。

超声波、CT、PET/CT 和MRI 等医学影像技术的飞速发展,为肿瘤患者在诊断、治疗、疗效评估、复查检验等方面提供了更精准可靠的方法。然而,这些影像技术仍然受限于放射科医生的主观评价,诊断结果易受医生个人经验、临床水平等因素影响,缺乏定量评价。由于eCCA无特异性症状和肿瘤标志物,超声检查对识别胆管源性和转移灶有一定的缺陷,检查结果不明显[20]。尽管CT和MRI在eCCA术前检查方面有一定的优势,但对病灶体积小、强化方式特异性差的病例仍有较大的误诊漏诊率[21-22]。PET/CT 价格昂贵,在良性病变如胆道感染或硬化性胆管炎中可能会受到假阳性结果的影响[23-24]。因此,利用机器学习算法对eCCA患者术前淋巴结状态进行预测是一种可行的定性异质分析方法。

影像组学的本质就是通过从影像数据中提取高维、定量影像特征,然后利用机器学习算法量化描述病灶异质性。HUANG等[25]通过随机森林算法预测iCCA的淋巴结转移状况,其敏感性为35.2%,特异性为91.8%,准确性为46.1%。本研究利用SVM 预测对eCCA患者淋巴结是否转移进行了定量分析,计算结果显示AUC 为0.92,具有优良的预测性能。尽管大量研究表明LNM 与eCCA 患者的预后密切相关,但淋巴结清扫术(lymph node dissection,LND)的临床效果仍有一定的争议[26]。YANG等[27]的研究发现在147例患者中,54.4%(80例)接受LND,其中42.5%(34/80)被发现有淋巴结转移(LNM)。因此,对eCCA 患者LNM 进行术前精准评估代表了未来个性化治疗的重要方向。本研究仍有一定局限性,首先是数据样本较少,且患者数据来源于同一所医院,样本不可避免存在偏倚性;其次,病灶的ROI分割自动人工勾画,存在一定的主观性偏差;另外,本研究输入特征只包含了影像组学特征,而缺少了患者临床特征,会降低预测模型的泛化性。下一步,我们将开展多中心、多组学和多任务的研究作为工作重点,旨在建立性能更优异的预测模型,以提高本研究的临床应用价值。

4 结论

本研究中,我们利用放射学图像特征建立了一种预测肝外胆管癌术前淋巴结状态的机器学习模型,该模型在训练集和测试集中都显示出较高的准确性、敏感性和特异性,具有良好的预测性能。该模型可有助于对eCCA患者进行个性化预测,辅助临床医生评估手术价值并做出适当的临床决策。同时,也有助于对eCCA患者进行精准治疗,避免由于前期症状不明显而导致错过最佳手术时机,进而尽最大可能延长患者术后生存期。

猜你喜欢
放射学淋巴结样本
《放射学实践》入选中国科学引文数据库(CSCD)核心库
喉前淋巴结与甲状腺乳头状癌颈部淋巴结转移的相关性研究
用样本估计总体复习点拨
《介入放射学杂志》投稿须知
《介入放射学杂志》投稿须知
淋巴结肿大不一定是癌
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本
颈部淋巴结超声学分区