胃腺癌相关关键基因的筛选及其调控通路研究

2022-04-05 02:05王思月张洪梅胡文倩张雪梅
华北理工大学学报(医学版) 2022年2期
关键词:通路关键样本

王思月 张洪梅 胡文倩 张雪梅

1华北理工大学公共卫生学院 河北唐山 063210;2华北理工大学临床医学院

胃癌为我国高发消化道癌症,且根据全球癌症统计数据,胃癌在全球范围内也是发病率和死亡率位居前五位的癌症[1- 2]。胃腺癌(Gastric adenocarcinoma, GAC)是胃癌中最常见的一种病理类型,占胃癌总病例数的90%以上[3- 5]。少数GAC患者可以通过手术治愈,但大多数晚期患者无法手术,晚期复发难治性GAC可通过术前术后辅助化疗、靶向治疗和免疫治疗有效干预,但治愈率仅在40%左右[6- 7]。因此需进一步对GAC中的关键基因进行筛选鉴别,了解其发病机制,以探索对GAC患者的早期诊断有价值的肿瘤标志物。

本研究基于基因表达数据库(GEO)中与GAC有关的数据集,筛选差异表达基因(DEGs)和可能影响GAC患者预后的关键基因,并分析预后关键基因对GAC进展的影响,以期为GAC的分子机制研究及预后判断提供依据。

1 材料方法

1.1数据处理和DEGs的筛选 在本研究中,GAC数据来源于GEO数据库基因芯片数据GSE118916,该数据集包括15个GAC组织和15个癌旁组织标本。使用R语言Limma程序包筛选病例样本、对照样本之间的DEGs。DEGs筛选依据为FDR<0.05,|log2FC| >1.5,使用R语言ggplot2程序包绘制火山图及热图。

1.2KEGG和GO富集分析 对GAC的DEGs进行生物学功能富集,使用R语言ClusterProfiler程序包聚类分析,京都基因组百科全书富集分析(Kyoto Encyclopedia of Genes and Genomes, KEGG)揭示DEGs的生物学意义及与GAC相关的关键通路(P<0.05)。通过DAVID进行基因本体(GO)功能富集分析,并以矫正后P值排序,取前5个进行绘图。

1.3PPI网络构建及关键基因的识别 通过STRING和Cytoscape (版本3.8.2)构建DEGs的蛋白相互作用网络(Protein-protein interaction network, PPI)(score>0.9)。应用Cytoscape插件MCODE(Molecular Complex Detection)筛选PPI网络中有紧密作用的模块(Node score cutoff=0.2, degree cutoff=2, k-score=2, max depth=100)。利用Cytoscape插件cytoHubba插件分析了网络的拓扑结构,并得到了degree,按照degree排列前十的基因确定为关键基因。

1.4关键基因的表达与GAC患者生存的关系分析 UALCAN(http://ualcan.path.uab.edu)是基于癌症基因组图谱(TCGA)数据库中的31种癌症类型的3级RNA序列和临床数据的在线数据库。用于分析查询基因在肿瘤和正常样本中的相对表达差异以及预后的关系[8]。本研究运用UALCAN数据库预测关键基因的表达与GAC患者生存时间的关系。

1.5预后关键基因的表达与TNM分期关系分析 在线数据库GEPIA(http://gepia.cancer-pku.cn/)包含来自TCGA和GTEx项目的33种癌症类型的9736例肿瘤样本和8587例癌旁样本的RNA测序数据。GEPIA为研究者提供基因信息查询、基因差异表达分析、基因的相关性分析等研究数据[9]。通过该数据库分析预后关键基因mRNA水平与GAC肿瘤分期TNM之间的关系。

1.6预后关键基因的调控通路分析 根据候选基因的表达中位数,将GAC组织分为高表达组和低表达组。使用R语言ssGSEA程序进行基因集变异分析(P<0.05),分析与候选基因表达相关的通路。

2 结果

2.1DEGs的筛选 分析数据集GSE118916中的15对肿瘤样本和正常组织样本,采用R程序包Limma根据筛选阈值FDR<0.05,|log2FC|>1.5进行DEGs识别。微阵列显示两组样本数据中704个基因差异表达,其中上调基因422个,下调基因282个,见图1A。层次聚类分析显示了样本间DEGs的表达模式,可见GAC肿瘤组织中的基因表达与肿瘤相邻组织中的基因表达有明显的异质性,见图1B。

图1 两组样本之间的差异分析

2.2DEGs的 KEGG通路富集分析 将筛选出的704个差异基因进行KEGG通路富集分析,共富集到26条通路。DEGs主要主要涉及补体通路Complement and coagulation cascades),ECM-受体相互作用(ECM-receptor interaction)、蛋白质的消化吸收(Protein digestion and absorption)、黏着斑(Focal adhesion)以及参与疟疾(Malaria)的形成。其中17个基因富集在补体通路(C3、C7、C3AR1、FGG、A2M、C5AR1、FGA、SERPINA5、SERPINE1、ERPING1、C1R、C1QU、PLAL、F2R、F2RL2、ITGB2、SEPRPINB2)。纤维连接蛋白1(FN1)、COMP、整合素α1(ITGA1)、整合素α7(ITGA1)、分泌型磷酸蛋白1(SPP1)、血小板反应素家族(THBS1、THBS2、THBS3、THBS4)、细胞黏合素C(TNC)与胶原蛋白家族成员(COL1A1、COL1A2、COL2A1、COL4A1、COL4A2、COL6A1、COL6A3、COL6A5)参与ECM-受体相互作用和黏着斑信号传递途径,其中ECM是肿瘤微环境的重要的组成部分。见图2。

图2 KEGG通路富集分析

2.3DEGs的GO富集分析 将704个差异表达的基因通过DAVID进行GO功能富集分析,结果显示DEGs主要富集的生物学过程(BP):细胞外基质组织(extracellular matrix organization)、细胞粘附(cell adhesion)、炎症反应(inflammatory response)、胶原蛋白分解代谢(collagen catabolic process)、白细胞分泌(leukocyte migration)。细胞定位(CC)显示主要位于细胞外来体(extracellular exosome)、细胞外基质(extracellular matrix)、胞外区(extracellular region)、蛋白质的细胞外基质(proteinaceous extracellular matrix)、细胞表面(cell surface)等区域。主要参与肝素结合(heparin binding)、蛋白质结合(protein binding)、整合素结合(integrin binding)、钙离子结合(calcium ion binding)、细胞外结构基质(extracellular matrix structural constituent)等分子功能(MF)。见表1。

表1 差异基因GO功能富集分析结果

2.4PPI网络构建和关键基因确定 利用网站STRING分析DEGs之间的相互作用关系,构建PPI网络,以相互作用与综合评分大于0.9为意义显著的条件。利用Cytoscape软件,根据cytoHubba插件估计差异基因的核心程度,去掉单独存在的基因,形成239个节点956条边的PPI网络,见图3A;颜色越深代表差异基因degree分数越高。根据Cytoscape中的MCODE插件寻找紧密连接的区域,筛选出PPI中最重要的模块,共由60个基因组成(Score=17.356),见图3B。根据cytoHubba算法筛出排名前10的基因作为关键基因(hub genes),分别是C3、FGG、FGA、TIMP1、PENK、FN1、GNB4、COL1A2、COL1A1、SAA1,见图3C。

图3 DEGs和关键基因PPI

2.5关键基因对GAC患者生存影响 使用UALCAN数据库分析10个核心基因对GAC患者预后的影响,结果显示C3(P=0.031)、PENK(P=0.013)、FN1(P=0.0076)、GNB4(P=0.00079)、COL1A2(P=0.029)的表达与GAC患者总体生存率相关,且C3、PENK、FN1、GNB4、COL1A2高表达的GAC患者总体生存率较低。而FGG、FGA、TIMP1、COL1A1、SAA1(P>0.05)的表达不影响患者的总体生存率,见图4。

图4 GAC关键基因生存分析

J,SAA1。P<0.05为差异有统计学意义。

2.6预后关键基因与GAC进展分析 进一步分析了C3、PENK、FN1、GNB4、COL1A2 基因mRNA表达和GAC患者个体分期的关系。C3(P=0.0013)、GNB4(P=0.00109)、COL1A2(P=0.0292)与GAC的TNM分期有关,PENK(P=0.354)、FN1(P=0.105)与GAC的TNM分期无关。见图5。

图5 预后关键基因mRNA表达与TNM分期的关系

2.7预后关键基因的调控通路分析 GSEA结果显示,GNB4高表达组相关调控通路富集在ECM-受体相互作用、黏着斑、肥厚性心肌病、肌动蛋白细胞骨架调节、转化生长因子-β信号,见图6A。COL1A2高表达组主要富集在ECM-受体相互作用、黏着斑、癌症通路、转化生长因子-β信号、干细胞Wnt信号途径等通路,见图6B。C3高表达组相关调控通路富集在黏着斑、干细胞Wnt信号途径、Fcγ-R介导的吞噬作用、癌症通路、细胞溶酶体等途径,见图6C。

图6 GSEA单基因富集分析

3 讨论

GAC是起源于胃黏膜的恶性肿瘤[10],有各种表型和基因型组的一种异质性疾病(Cell Cycle-Targeted Cancer Therapies)。随着遗传学和分子生物学的快速发展,关于GCA的发生机制逐渐被揭示,大量的生物学标记物被用于GAC的早期筛查和诊断[11-12],但仍不完备。为进一步探索有意义的GAC预后生物标志物,本研究采用生物信息学方法分析出GEO数据库中GSE118916数据集的DEGs,得到704个差异基因,其中上调基因422个,下调基因282个。使用Ualcan数据库分析Cytoscape软件评估出的10个核心基因为GAC患者预后的影响因素,结果显示C3、PENK、FN1、GNB4、COL1A2基因的表达与GAC总体生存率相关。其中C3、GNB4、COL1A2与GAC的肿瘤分期也有关。

C3是补体激活级联中心分子,C3激活后通常作为有效的促炎过敏反应蛋白,刺激免疫细胞的招募和激活,导致区域炎症和细胞裂解的形成[13];然而,C3可能在肿瘤微环境中也发挥作用。多项研究表明,它通过调节有丝分裂信号通路,促进细胞增殖和再生,维持血管生成和肿瘤发生[14-15]。本研究证实了C3基因的mRNA表达水平越高,肿瘤患者的分期越高,预后越差。Yuan等的研究与本研究结果相似,胃癌组织微环境中C3沉积、激活与局部炎症、肿瘤细胞侵袭相关。局部C3沉积激活了JAK2/STAT3信号通路,与肿瘤的不良预后相关[16]。提示C3基因作为预测GAC复发和生存的生物标物已得到初步证实,但仍需要进一步的验证。

GNB4是异质三聚体G蛋白的重要组成部分,在G蛋白偶联受体介导的信号转导中发挥重要作用。Wang B等[17]发现,GNB4有助于克服乳腺癌的抗雌激素抵抗,并通过DNA甲基转移酶3B (DNMT3B)进行DNA甲基化沉默。研究也报道GNB4表达上调与尿路上皮癌患者的预后不良相关[18]。但到目前为止,关于GNB4在GAC中的作用报道甚少。

I型胶原α2 (COL1A2)是编码I型胶原的前-α2链。胶原纤维是细胞外基质的主要成分,对细胞的重塑、肿瘤相关成纤维细胞发挥着重要作用[19]。与本研究结果一致,Zang[20]等研究发现COL1A2在胃癌组织和癌旁组织表达具有差异性。COL1A2与COL6A3、THBS2的沉默通过PI3k-Akt信号通路抑制胃癌细胞增殖、迁移和侵袭,同时促进细胞凋亡[21]。

综上所述,本研究中应用生物信息学方法挖掘出与预后相关的5个关键基因及其相关调控通路,发现GAC组织中C3、PENK、FN1、GNB4、COL1A2基因表达水平均显著高于癌旁组织,其中C3、GNB4、COL1A2与GAC与患者总体生存率和肿瘤分期均有关。

猜你喜欢
通路关键样本
DJ-1调控Nrf2信号通路在支气管哮喘中的研究进展
基于改进TF-IDF算法的基因通路富集方法
AngⅡ激活P38MAPK信号通路在大鼠NSAID相关小肠损伤中的机制研究
硝酸甘油,用对是关键
高考考好是关键
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
蒋百里:“关键是中国人自己要努力”
“官员写作”的四个样本