基于列线图探索脑内皮黏附分子表达水平在结肠癌预后预测中的作用

2022-07-21 07:57戈雨桐哈文韬魏晓为周琎南京医科大学附属南京医院暨南京市第一医院肿瘤科普外科江苏南京210006
中国肿瘤生物治疗杂志 2022年5期
关键词:线图结肠癌生存率

戈雨桐,哈文韬△,魏晓为,周琎(南京医科大学附属南京医院暨南京市第一医院.肿瘤科;.普外科,江苏 南京 210006)

结肠癌是全球高发的消化道恶性肿瘤之一,2020年癌症统计报告显示,中国结直肠癌发病率、病死率在全部恶性肿瘤中分别位居第3及第5位,且呈逐步上升趋势[1-2]。目前,结肠癌的预后分析以及治疗方案的确定主要依赖于临床分期。然而在真实世界中,相同分期的患者生存率依然会存在较大差异[3]。因此,建立高效精准的风险预测模型对于结肠癌的临床精准诊疗具有重要意义。脑内皮细胞黏附分子(cerebral endothelial cell adhesion molecule,CERCAM)为免疫球蛋白超家族细胞黏附分子中的一种[4],其表达升高已被证实与膀胱癌及头颈部鳞状细胞癌的不良预后呈正相关[5-6],而CERCAM与结肠癌患者预后的关系尚少见报道。本研究拟基于TCGA数据库,探索CERCAM与结肠癌预后的关系,并通过Cox回归分析,建立具有良好预后判断价值的可视化模型——列线图(Alignment Diagram)并予以验证,以协助临床医生对患者进行早期风险分层,为结肠癌个体化治疗、病情监测提供理论及临床依据,以期改善患者整体生存。

1 资料与方法

1.1 研究资料

TCGA Colon Cancer(TCGA COAD)数据库包含了551例结肠癌患者的详细临床特征数据。利用UCSC Xena网站(https://xena.ucsc.edu/)下载TCGA COAD数据及GTEx数据库中的正常组织数据,去除重复病例及生存期无数据患者,最终获取279例结肠癌组织样本及345例正常组织样本的CERCAM基因表达及临床特征数据纳入分析,利用GraphPad Prism8.0.1(GraphPad Software,San Diego,California USA)软件绘制柱形图比较癌症组织及正常组织中CERCAM表达差异。收集2013年2月至2019年6月南京市第一医院收治的4例结肠癌患者的癌及癌旁组织样本进行免疫组化染色,每组内每张切片随机挑选3个200倍视野进行拍照。应用Image-Pro Plus 6.0软件分析得出每张照片棕黄色阳性的平均光密度值,并进行统计处理。对CERCAM基因进行GO功能和KEGG通路富集分析,间接预测CERCAM的功能,设置检验显著性阈值为P<0.05。

1.2 结肠癌患者的数据的描述性统计及临床基线特征的组间差异比较

对279例结肠癌患者的数据行预处理,包括删除缺失值,回归估计法填补数值型数据,众数填补离散型数据,并按7∶3的比例将数据集随机分为训练集(n=196)及测试集(n=83),同时采用X-tile3.6.1(Yale University,New Haven,CT,USA)软件确定训练集最佳界值,根据最佳界值将CERCAM在肿瘤组织中的表达情况分为低表达(≤9.71,n=130)和高表达(>9.71,n=66)。之后对数据全集进行描述性统计,根据癌组织样本CERCAM表达高低比较临床基线特征的组间差异,符合正态分布的计量数据用均数±标准差表示,不符合正态分布的采用中位数及四分位数间距表示。组间样本均数比较采用独立样本t检验,不符合正态分布的数据采用非参数检验(采用曼-惠特尼U检验或Wilcoxon秩和检验),计数资料使用χ2检验(采用皮尔逊χ2检验或费希尔精确检验),均采用SPSS25.0(SPSS Institute Inc.,Chicago,IL,USA)软件进行分析。并根据CERCAM表达水平应用Kaplan-Meier法绘制生存曲线。

1.3 采用Cox回归分析法筛选结肠癌预后危险因素

在训练集上进行单因素和多因素Cox回归分析。首先,使用Cox回归模型对患者的相关临床病理特征进行单因素分析,包括年龄(≤60岁、>60岁),性别,BMI(≤24、>24),CERCAM表达高低,肿瘤位置(右半结肠、横结肠、左半结肠),微卫星状态(MSS、MSI-L、MSI-H),病理类型(结肠腺癌、结肠浆液腺癌),淋巴浸润,送检淋巴结个数(≤15个、>15个),血管浸润和TNM分期。将单因素Cox分析中有统计学意义的变量纳入多因素Cox分析筛选预后相关的风险因素,以P<0.05为差异具有统计学意义。以上分析均采用R(version4.1.0)软件,应用survival及caret程序包进行数据处理。

1.4 构建列线图与验证

基于上述建立的多因素Cox分析模型,将具有统计学意义的独立危险因素引入R软件(version4.1.0),应用survival及rms程序包构建列线图模型,根据每一变量的不同分类向上投射到小标尺(分)即可得出每一项的分值,将各项分值相加即为总分值,根据总得分值向下投射即可预测该结肠癌患者1年、2年及3年的生存率。列线图利用多个特征联合预测结局标签,用以诊断或预测疾病的发生与发展。为了验证此列线图的能力,通过一致性指数(concordance index,C-index)来计算模型预测值与真实之间的区分度,一般情况下C-index在0.50~0.70为准确度较低;>0.70~0.90为准确度中等;>0.90则为高准确度。对列线图进行1 000次自举重抽样,并绘制1、2、3年校准曲线(calibration curve)来检验模型一致性。为了评估列线图对1年、2年及3年生存率的预测能力,采用R软件中的survival及timeROC包进行时间依赖性受试者工作特征(ROC)曲线的绘制,利用ROC曲线下面积(AUC)值来定量地评价列线图的预测能力。最后根据Cox回归结果对训练集患者赋予风险得分,根据中间值对患者进行危险分层,应用Kaplan-Meier法绘制生存曲线。

2 结果

2.1 CERCAM基因在结肠癌组织中呈高表达且与癌症信号通路有关联

通过对TCGA COAD数据库和GTEx数据库中279例结肠癌组织样本及345例正常组织样本进行分析,结果(图1A)显示,肿瘤组织中CERCAM基因的表达水平低于正常组织,且差异具有统计学意义(P<0.001)。免疫组化法检测结肠癌组织以及对应癌旁组织中CERCAM的表达水平,结果(图1B)与TCGA及GTEx数据库相一致。通过GO及KEGG通路富集分析得知,CERCAM与癌症信号通路以及PI3K-Akt信号通路的活化有关联(图1C)。

2.2 不同CERCAM表达水平研究对象的特征分布差异

合并肿瘤组织CERCAM基因表达数据集及临床病理数据集得到完整的数据库,对数据进行预处理后,最终获得279例完整肿瘤组织样本资料,按7∶3的比例将数据集随机分为训练集(n=196)及测试集(n=83),两组数据除了结肠癌的病理类型存在差异,余特征分布均较一致。并且根据后续预后分析得知,结肠癌的病理类型不是独立危险因素,不在本研究所构建的预后模型因素之内。根据训练集确定CERCAM表达界值,全集中不同表达量患者临床病理特征分布如表1所示:两组之间患者性别、年龄、体重指数(body mass index,BMI)、肿瘤位置、微卫星状态、送检淋巴结个数、M分期及病理分期无明显差异,两组患者的总体生存期(OS)及疾病具体生存(disease specific survival,DSS)(P=0.032)、无瘤间期(progression-free interval,PFI)(P=0.002)、生存状态(P=0.001)、病理类型(P=0.002)、淋巴浸润(P=0.001)、血管浸润(P=0.029)、T分期(P=0.003)、N分期(P=0.01)差异存在统计学意义;CERCAM高表达的患者OS、DSS、PFI更差,患者生存状态多为死亡,且淋巴浸润、血管浸润、T4、N2分期较低表达患者更多。通过Kaplan-Meier法绘制生存曲线,将CERCAM表达水平与OS关系可视化,如图2所示,高表达患者与低表达组相比生存率更低(P<0.000 1)。

表1 CERCAM表达水平与结肠癌患者临床病理特征的关系

2.3 独立危险因素的筛选

2.3.1 单因素Cox回归分析结果 将训练组196例结肠癌患者的年龄、性别、BMI、CERCAM表达高低、微卫星状态、病理类型、淋巴浸润、送检淋巴结个数、血管浸润、TNM分期等因素纳入Cox回归进行单因素分析,结果(表2)显示,CERCAM表达、淋巴浸润、血管浸润、T分期、N分期、M分期及病理分期是结肠癌患者的预后影响因素(P<0.05)。

表2 结肠癌患者生存状态与OS的单因素Cox分析

2.3.2 多因素Cox回归分析结果 将单因素分析中P<0.05的预后影响因素(CERCAM表达高低、淋巴浸润、血管浸润、T分期、N分期、M分期及病理分期)进一步纳入Cox回归行多因素分析,结果如表3所示,CERCAM表达高低(HR=2.23,P=0.015)、T分期(HR=5.64,P=0.015)、M 分期(HR=2.62,P=0.022)是结肠癌预后的独立影响因素,CERCAM高表达、T4期、M1期均为结肠癌预后的危险因素,其中血管浸润(HR=2.30,P=0.089)不具有统计学意义。

表3 结肠癌患者生存状态与OS的多因素Cox分析

2.4 绘制结肠癌预后的列线图

根据多因素Cox回归结果,将独立危险因素包括CERCAM表达高低、T分期、M分期纳入列线图的构建之中,血管浸润为结肠癌预后的一个危险因素,虽无统计学意义,考虑到血管浸润的可用性及临床意义,在不影响模型辨别性能的情况下,将其纳入最终列线图之中。图3显示了对训练集患者1、2、3年生存率的预测,结果提示CERCAM高表达、M1、T4、有血管浸润者得分均较高,累计总分对应较低的生存率。为了更直观表达列线图的作用,举一实例说明:一位CERCAM表达量为9.8(44分)、T4M0(100分)、肿瘤组织无脉管浸润(0分)的结肠癌患者,其总得分为144分,对应的1年生存率约为80%、2年生存率约为56%、3年生存率约为40%。

2.5 列线图验证

基于训练集构建的列线图C-index为0.73,与测试集的0.71较为接近,并且均优于单纯的TNM病理分期(训练集0.64、测试集0.66),且优于不包括CERCAM构建的单纯基于临床病理危险因素的列线图(训练集0.70、测试集0.68)。在训练集以及测试集的校准曲线中,1、2年生存率都表现出了较好的一致性,由于生存期达3年的患者例数较少,3年生存率预测有一定偏倚(图4)。为了更直观的比较列线图对1、2、3年生存率的预测能力,采用R软件中的survival及timeROC包进行时间依赖ROC曲线的绘制,结果如图5所示,训练集患者1、2、3年生存率AUC分别为0.772、0.756、0.756均接近1,表示区分度高,即列线图预测性能良好。同时,训练集曲线与测试集曲线表现较为一致,无过拟合。

2.6 根据风险分层绘制生存曲线

利用R软件,根据多因素结果对训练集患者赋予风险得分,根据中间值将患者危险分层,高风险患者97例,低风险患者99例,由图5生存曲线可知,高风险组与低风险组相比有更低的生存率(P<0.000 1),在测试集中同样可以得到一致的结论(P=0.015)(图4)。

3 讨论

CERCAM,又称糖基转移酶25家族成员3(glycosyltransferase25familymembers 3,GLT25D3),是一种在脑微血管中高表达的黏附分子,可协助白细胞穿越血脑屏障[7-8]。亦有研究显示其为hsa-let-7a的靶基因,在急、慢性肝衰竭的病理生理过程中发挥关键作用[9]。CERCAM在肿瘤中的研究相对较少,人类蛋白质表达图集(The Human Protein Atlas)显示其具有较低的癌症特异性,与肾癌、尿路上皮癌、卵巢癌、头颈部肿瘤等不良预后相关[7]。研究[5]显示,在头颈部鳞状细胞癌中,敲低CERCAM后可诱导E-钙黏蛋白上调,同时锌指E盒结合蛋白、波形蛋白和Twist转录因子重组蛋白下调,提示CERCAM可能通过诱

导上皮间充质转化参与肿瘤发生发展。研究者[6]进一步发现,CERCAM过表达显著增强膀胱癌细胞活力、DNA合成和细胞侵袭,并可能通过调控PI3K-Akt信号通路参与膀胱癌发病进程。

CERCAM在结肠癌中的研究尚处于起步阶段。有研究[10]发现,CERCAM在结肠癌肝转移肿瘤微环境中表达上调,并与一类衰老相关的miRNA下调存在一定关联,但其具体功能尚不明确。CERCAM与结肠癌预后的关系目前少见报道。本研究通过提取TCGA和GTEx数据库数据进行分析发现,结肠癌组织中CERCAM基因的表达水平低于正常组织,且差异具有统计学意义。然而,本研究进一步发现CERCAM的高表达与结肠癌患者预后不良相关,CERCAM高表达组患者OS、DSS、PFI更短,患者存活率低,淋巴浸润、血管浸润、T4、N2分期患者较低表达组更多。这一点揭示了CERCAM既可能在癌症发生与进展的两个过程存在不同的作用机制,又可能因为CERCAM过表达患者对治疗敏感性降低从而导致患者预后较差,这需要进一步验证。为了进行功能层面的探究,进行通路富集分析发现,CERCAM与癌症中蛋白聚糖(proteoglycans in cancer)以及PI3KAkt信号通路活化密切相关。目前,关于CERCAM通过PI3K-Akt信号通路在膀胱癌发生、发展中的作用已经被证实,但关于癌症蛋白聚糖信号通路以及PI3K-Akt信号通路在结肠癌中的作用还有待于进一步验证。为了评估CERCAM及其他相关临床病理数据在结肠癌中的预后评估价值,本研究通过Cox回归分析发现,除T4期、M1分期等常见因素外[11],CERCAM高表达同样为结肠癌独立预后不良风险因素,血管浸润为危险因素[12-14]。以上针对CERCAM定位、预后及功能的探究揭示,CERCAM在结肠癌发生发展及预后预测中的作用至关重要。为了进一步明确CERCAM与结肠癌预后的关联性和重要性,构建涵盖CERCAM的预后评测模型并建立列线图,对其进行评估与验证。列线图又称诺莫图(Nomogram图),其通过回归分析将多个预测指标进行整合,并采用带有刻度的线段来量化风险[15-16]。与传统的TNM分期系统相比,有大量研究[16-20]显示列线图可更为精确地预测癌症的预后。本研究通过拆分训练集、测试集,计算C-index以及绘制校正图和ROC曲线等发现,基于CERCAM所构建的列线图较传统预后模型表现良好且性能稳定。而且,本研究还根据多因素结果对患者进行危险分层,绘制生存曲线可知,高风险组与低风险组相比有更低的生存率(P<0.000 1),说明该模型有较好的区分度。

本研究基于CERCAM表达水平构建预测结肠癌患者生存率的列线图,该列线图基于在线共享数据库建立而成,通过这个简易且区分度高的评分系统,医务人员可以对结肠癌患者进行生存预测,区分存在生存差异的风险亚组从而达到个体化治疗或护理的目的。尽管如此,本研究构建的列线图仍存在数据的局限性,因为本研究基于TCGA数据库,对获得CERCAM的表达量数据和临床病理数据并进行统计分析,未进行外部验证,后续将在多单位患者招募、前瞻性数据收集,以及纳入更多危险因素方面进一步努力,以期改进该模型预测性能;此外,由于TCGA数据库缺乏涉及高风险患者的肿瘤转移能力、免疫功能状态以及放化疗敏感性相关数据,本研究未能进一步具体阐释CERCAM在结直肠癌中的具体作用机制。

总之,本研究探究了CERCAM在结肠癌预后的预测作用,建立并验证了一种新的列线图,用于预测结肠癌患者的生存率。通过这个模型,临床医生可以更精确地估计患者的生存率,并确定需要个体化治疗方案的患者亚组。

猜你喜欢
线图结肠癌生存率
肿瘤复发,为何5 年是一个坎
一些图运算的调和指标与调和多项式的线图∗
腹腔镜结肠癌根治术治疗结肠癌患者疗效及对免疫功能、应激反应及胃肠激素的影响研究
预测瘢痕子宫阴道试产失败的风险列线图模型建立
探讨腹腔镜手术在横结肠癌治疗中的临床应用效果
“五年生存率”不等于只能活五年
日本首次公布本国居民癌症三年生存率
助“癌”为虐的细菌
日本癌症患者十年生存率达59%左右
腹腔镜治疗结肠癌27例临床观察