基于生物信息学筛选小细胞肺癌相关关键基因

2022-04-05 02:05纪珊珊王思月胡文倩张雪梅张志
华北理工大学学报(医学版) 2022年2期
关键词:细胞周期通路关键

纪珊珊 王思月 胡文倩 张雪梅 张志

1华北理工大学附属唐山工人医院肿瘤内二科 河北唐山 063000;2华北理工大学公共卫生学院

2020年全球癌症统计结果显示,肺癌新发病例和死亡病例均位居第二位[1],严重威胁人类健康和生存质量。肺癌分为非小细胞肺癌(non-small cell lung cancer,NSCLC)和小细胞肺癌(small-cell lung cancer, SCLC)两大类,其中SCLC只占肺癌总数的15%[2]。SCLC经一线化疗后具有高复发和高转移率的特点,经二线化疗后具有低有效率和短缓解期的特点,使得SCLC的5年生存率较低,预后较差。寻找SCLC发病过程中的关键基因,对于理解其发病机制进而为发现可能的诊断或预后生物标记物提供重要的理论依据。

基因表达阵列作为一种高通量、高效的基因组技术,已广泛应用于研究重大疾病相关的关键基因[3]。SCLC的发生发展过程必然伴随着特定基因表达的变化。随着基因测序技术的发展,海量表达数据被提交到公共数据平台供广大研究人员使用。本研究旨在使用公共数据平台提供的SCLC基因表达数据筛选与SCLC发生发展密切相关的关键基因,为后续生物学功能研究提供分子靶标。

1 数据来源与方法

1.1数据来源 基因表达综合数据库(Gene Expression Omnibus,GEO)是由美国国立生物信息中心创建并维护的大型基因表达数据库(http://www.ncbi.nlm.nih.gov/geo),可提供经芯片、二代测序和高通量测序产生的海量基因表达数据。在数据库中提取含有SCLC癌组织和癌旁组织基因表达数据信息的数据集GSE43346(23个癌组织和43个正常组织)和GSE40275(15个癌组织和43个正常组织)用于后续分析。

1.2SCLC差异基因筛选及数据处理 使用GEO2R在线程序分析SCLC癌组织和正常肺组织之间的差异表达基因(differentially expressed genes,DEGs),筛选条件为P<0.01,∣Log2FC∣>2,并用GraphPad Prism作图软件(版本8.0)对DEGs进行可视化分析绘制火山图。使用维恩(Venn)作图工具(https://bioinfogp.cnb.csic.es/tools/venny/)将两个数据集中表达上调或下调的基因分别取交集,筛选出共同的上调或下调的共有DEGs。

1.3GO富集分析和KEGG通路分析 DAVID富集分析数据库(https://david.ncifcrf.gov/)可为研究人员提供基因生物学功能注释以了解生物学意义[4]。使用DAVID数据库(版本6.8)对SCLC的DEGs基因进行本体(Gene Ontology,GO)功能富集以及京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析(FDR<0.05)。

1.4构建蛋白质相互作用网络和关键基因模块 使用STRING(Search Tool for the Retrieval of Interacting Genes,https://www.string-db.org/)数据库(版本11)构建SCLC的DEGs蛋白质相互作用网络(Protein-Protein Interaction Networks,PPI),得分大于0.9,FDR<0.01作为标准。将筛选得到的基因输入Cytoscape软件(版本3.8.2)对PPI网络进行可视化分析。然后使用其中的分子复合物检测算法(Molecular Complex Detection,MCODE)分析重要的功能模块。其筛选阈值Degree Cut - off、Node Score Cut - off 和K-core 均为2,Max Depth为100。使用cytoHubba插件寻找子模块关键基因(根据degree值排序,选取前10位)。

2 结果

2.1确定DEGs 图1A和1B为SCLC的DEGs火山图。在GSE43346和GSE40275两个数据集中,SCLC癌组织中的上调基因分别有662和381个,下调基因分别有783和461个。将两组数据集获得的DEGs合并分析发现,共同上调基因有151个,共同下调基因有81个,见图1C、1D。

图1 GSE43346 和GSE40275数据集中DEGs的火山图和维恩图

2.2GO富集分析和KEGG通路分析结果 使用DAVID数据库对232个DEGs进行GO富集分析。结果显示232个差异基因主要参与细胞分裂、有丝核分裂、细胞增殖、DNA复制和有丝分裂细胞周期G1/S过渡等生物过程(biological processes,BP)。DEGs主要构成细胞核、细胞质、核浆、细胞质基质以及黏着斑等细胞组分(cellular component,CC)。主要发挥蛋白质结合、ATP结合、DNA结合、蛋白激酶结合和微管结合等分子功能(cellular components,MF)。见表1。

表1 DEGs的GO富集分析

KEGG通路富集分析显示,DEGs主要富集于细胞周期、HTLV-I感染、癌症通路等。其中17个基因富集在细胞周期通路中(CDKN2C、PCNA、 GADD45B、CDKN2A、 PLK1、 BUB1B、TTK、CDC7、CCNA2、CCNB2、CCNE2、PTTG1、CHEK1、 MCM4、MCM6、BUB1、MCM2)。12个基因富集在HTLV-I感染(ZFP36、FZD3、CDKN2C、 PCNA、PTTG1、RRAS、CDKN2A、POLE2、CHEK1、ITGB2、BUB1B、TGFBR2)。11个基因富集在癌症通路(FZD3、EDNRB、LAMA2、MSH2、CCNE2、GNG4、EPAS1、CDKN2A、ZBTB16、CKS2、TGFBR2)。见图2。

图2 DEGs的KEGG通路分析

2.3PPI网络构建和关键基因的选择 使用DEGs构建的PPI含74个节点和881条边,见图3。使用Cytoscape中的MCODE插件分析相互作用蛋白关联性最强的区域,筛选出其重要的核心模块,包括32个节点和441个边,见图4A。该模块主要富集于细胞周期、卵母细胞成熟抑制因子、孕细胞介导的卵细胞成熟信号通路。在该模块中,位列前10的关键基因是CCNB2、BUB1、CCNA2、KIF11、BUB1B、NDC80、TOP2A、ASPM、PLK1和KIF20A,见图4B、4C。

图3 PPI网络图

图4 核心功能模块分析和关键基因

3 讨论

本研究基于高通量测序数据筛选出可能在SCLC发生发展过程中起重要作用的十个关键基因:CCNB2、BUB1、CCNA2、KIF11、BUB1B、NDC80、TOP2A、ASPM、PLK1和KIF20A,其有可能成为潜在生物标志物和治疗靶点。

PLK1(Polo-like kinase1)是广泛存在于真核细胞中的丝氨酸/苏氨酸蛋白激酶家族成员[5],是细胞周期的关键调控因子,也是癌症发生、发展中重要的致癌基因[6]。PLK1在细胞周期中发挥多种作用,如控制G2/M检查点,协调中心体,调节纺锤体组装和染色体分离等[7]。研究表明,通过抗体、RNA干扰或激酶抑制剂阻断PLK1的表达可以有效抑制肿瘤细胞的增殖,并诱导肿瘤细胞凋亡[8-9]。PLK1抑制剂可诱导DNA损伤并在SCLC中发挥强大的抗肿瘤活性[10]。因此,PLK1可能是一种很有前途的SCLC治疗靶点。

TOP2A(Topoisomerase II Alpha)是一种细胞周期依赖性蛋白[11]。多项研究发现TOP2A基因表达与许多肿瘤的发生和发展密切相关[12-14]。Nicos等[15]研究发现,TOP2A rs13695与SCLC患者在化疗期间发生中性粒细胞减少的风险相关。有学者研究表明,TOP2A表达被认为是SCLC患者的预后因素[16]。蒽环类、依托泊苷等细胞毒性药物以TOP2A为靶点,调节染色体凝聚和染色单体分离[15]。依托泊苷作用于TOP2A蛋白,阻止DNA复制和转录,导致细胞凋亡[17]。

CCNA2(CyclinA2)、CCNB2(CyclinB2)是细胞周期蛋白家族的成员,可通过调控细胞增殖和凋亡在多种实体肿瘤发挥作用[18]。Li等发现,CCNA2在调节CDK6介导的细胞周期通路和EMT进展中发挥重要作用[19]。目前虽无直接研究结果证实CCNA2在SCLC中的作用,但已有学者发现CDK6突变可影响SCLC患者的生存[20]。这一结果间接证明CCNA2可能在SCLC中发挥作用。同样,目前也无CCNB2在SCLC的研究。但有研究发现,miR-205可通过靶向CCNB2抑制癌细胞的增殖和迁移[21]。同时另有学者研究发现miR-205可影响SCLC患者的预后[22]。因此我们预测CCNB2、CCNA2可能是SCLC患者的潜在生物标记物。

BUB1(Budding uninhibited by benzimidazoles-1)和BUB1B(BUB1 mitotic checkpoint serine/threonine kinaseB)是纺锤体组装的有丝分裂检查点的关键因素[23]。研究表明,BUB1与AURKA在晚期卵巢浆液性癌中显著共表达[24]。Lu等发现敲低AURKA基因的表达,可抑制人SCLC细胞增殖从而达到抗肿瘤效应[25]。有关研究显示,FOXM1通过结合并激活BUB1B启动子来转录调节BUB1B的表达[26]。既往研究显示FOXM1高表达的SCLC患者预后较差,并且在小鼠异种移植瘤模型中发现FOXM1可影响SCLC的形成[27]。Yin等证实在SCLC中,FOXM1的转录驱动会使硼替佐米和卡非佐米诱导的MCL-1上调,进而促进肿瘤发生[28]。这些研究提示BUB1和BUB1B可能成为SCLC预后生物标志物和潜在分子靶标。

KIF11(Kinesin Family Member 11)[29]、KIF20A(Kinesin Family Member 20A)[30]是驱动蛋白相关蛋白家族的成员。在四聚体微管交联、细胞有丝分裂、细胞周期和分化等方面具有重要作用[31-32]。已有研究证实p53和GSK3β在SCLC肿瘤发生和发展过程发挥着重要作用,有研究发现CRC细胞中KIF11敲降产生的效应可能是p53信号异常激活或GSK3β信号异常失活导致的[33-35]。KIF20A通过调节JAK/STAT3信号通路促进癌细胞恶性行为并增强对化疗的抵抗力[36]。而JAK/STAT3信号通路在SCLC进展中至关重要[37]。因此,我们猜测KIF11和KIF20A可以作为潜在的致癌基因和生物标志物。

NDC80(Nuclear division cycle 80)是一种异四聚体蛋白复合物,是细胞分裂周期的关键调控因子[38]。最近的一项研究推测,NDC80可能通过阻碍有丝分裂的进展来参与癌症的形成[39]。Sugimasa等[40]证实了这一假说,他们发现NDC80的组分NUF2通过调节有丝分裂中期染色体排列来促进肿瘤的生长。有发现NDC80可以与ZW10互作蛋白相互作用,参与SCLC的形成,NDC80还是NEK2的关键相互作用蛋白,NEK2与SCLC侵袭有关,并与患者的生存相关[41-43]。以上与我们的推测一致,NDC80可能在的SCLC发展中起着至关重要的驱动作用。

ASPM(Abnormal spindle-like microcephaly-associated)也称为异常纺锤体微管组装,位于染色体1q31上,编码ASPM蛋白,在多种癌症表达异常[44],如肝细胞癌[45]、NSCLC[46]等。ASPM是一种Wnt调节剂[47]。研究人员发现Wnt信号的激活是复发性SCLC化疗耐药的一种机制[48]。这提示ASPM可能成为SCLC生物标志物和潜在分子靶标。

综上所述,基于生物信息学分析,本研究确定了两数据集中SCLC组织和正常肺组织之间常见DEGs的相关信号通路和关键基因,它们可能在SCLC的发生发展中发挥重要作用。这些发现可能为进一步发现SCLC潜在的生物标志物和生物学机制的研究提供新的线索,也为进一步确定SCLC的诊断和治疗干预方法提供方向。

猜你喜欢
细胞周期通路关键
DJ-1调控Nrf2信号通路在支气管哮喘中的研究进展
基于改进TF-IDF算法的基因通路富集方法
AngⅡ激活P38MAPK信号通路在大鼠NSAID相关小肠损伤中的机制研究
硝酸甘油,用对是关键
高考考好是关键
植物细胞周期如何“刹车”?
高危型人乳头瘤病毒单一类型感染和多重感染对宫颈癌中细胞周期蛋白、抗凋亡蛋白表达量的影响
“细胞增殖(第二课时)”说课稿
RNA干扰HDACl对人乳腺癌MCF—7细胞生物活性的影响
蒋百里:“关键是中国人自己要努力”