食管鳞状细胞癌基因组芯片生物信息学分析及靶向药物预测

2020-04-07 05:32
关键词:信息学靶向位点

上海交通大学基础医学院医药生物信息学中心,上海 200025

食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCC)是一种常见的恶性肿瘤,具有较高的发病率和死亡率。临床上,该疾病仅在出现某些症状后才能被确诊,且预后较差。因此,理解ESCC的发生机制、探寻其早期检测的生物标志物并开展靶向药物预测对于该疾病的诊断及治疗十分重要。目前,传统药物因存在选择性差、毒副作用强、易产生耐药性等问题,使得其临床应用效果不佳。近年来,变构药物因毒性弱、选择性好等特点引起了越来越多研究者的关注,但针对其变构位点的研发仅借助实验手段则未能获得较好的结果。因此,本研究拟通过生物信息学的方法对变构位点进行预测。然而,以往针对ESCC的生物信息学分析存在数据集单一、数据样本量少等问题,且很少就其分析结果开展靶向药物预测等更深入的研究。基于此,本研究以基因表达综合数据库(Gene Expression Omnibus,GEO,https://www.ncbi.nlm.nih.gov/geo)下载的数据集为材料进行生物信息学分析,筛选出与ESCC发生密切相关的关键基因,并对该关键基因做进一步的靶向药物预测,从而识别其潜在的变构位点,为ESCC的靶向药物研发提供一定的参考。

1 材料与方法

1.1 数据获取

GEO是存储高通量基因表达数据、芯片和微阵列的一个公共数据库,隶属于美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)[2]。本研究从GEO中下载获得2个数据集GSE38129、GSE20347,其均来自人类ESCC组织与正常组织的mRNA阵列。GSE38129共包含60组样本,30组为正常组织,其余30组为ESCC组织。GSE20347共包含34组样本,17组为正常组织,其余17组为ESCC组织。

1.2 差异表达基因的筛选

使用R语言limma包筛选2个数据集中正常组织和ESCC组织的差异表达基因(differentially expressed genes,DEGs)。基因表达的差异用P值和差异倍数(fold change,FC)的对数(logFC)表示。P<0.05表示差异具有统计学意义。本研究将P<0.05且|logFC|>1的基因视为DEGs。

1.3 蛋白质相互作用网络的构建及关键基因的筛选

使用在线数据库STRING(https://string-db.org)对组织中蛋白质间的相互作用进行分析,构建DEGs的蛋白质相互作用(protein-protein interaction,PPI)网络。采用Cytoscape软件对PPI网络进行可视化分析,并使用Cytoscape的MCODE插件对PPI网络进行密集度分析,筛选出最显著的模块[3-4]。随后,使用Cytoscape的CytoHubba插件,用最大团中心性(maximal clique centrality,MCC)方法根据打分值的高低筛选出排名前20的关键基因[5],用于后续开展进一步的靶向药物预测。

1.4 GO和KEGG富集分析

用R语 言clusterProfiler包 对DEGs做GO(Gene Ontology) 和 KEGG(Kyoto Encyclopedia of Genes and Genomes)功能富集[6],分析其涉及的相关通路,富集分析的结果以参数P<0.05作为入选标准。

1.5 靶向药物预测

AlloSitePro(http://mdl.shsmu.edu.cn/AST/)是一种基于口袋特征和微扰模型来预测蛋白变构位点的在线网站,亦是一种便携的变构工具,可为不同蛋白质及感兴趣的复合物中的各种变构效应研究提供帮助[7]。本研究使用AlloSitePro预测蛋白的潜在变构位点,而后使用Schrodinger软件对筛选得到的变构位点进行小分子虚拟筛选,以获得能够结合在变构位点上的小分子化合物,实现对基于结构的变构药物设计的靶向预测。

2 结果

2.1 DEGs分析

本研究运用R语言对数据集GSE38129、GSE20347的DEGs进行筛选,结果显示,前者共筛选出785条DEGs,后者共筛选出1 061条DEGs;2个数据集共有670条相同的DEGs,其中342条为下调基因、328条为上调基因 (图1)。

图1 2个数据集的DEGs的Venn图Fig 1 Venn diagram of DEGs in the two datasets

2.2 PPI网络构建及关键基因筛选

本研究通过将DEGs输入数据库STRING,构建PPI网络;并用Cytoscape的MCODE插件对PPI网络进行分组,形成多个模块,最终筛选出最显著模块(即评分最高模块)基因。随后,运用Cytoscape的CytoHubba插件对PPI网络进行分析,即使用MCC方法筛选出排名前20的DEGs,记为关键基因;通过观察关键基因在2个数据集的热图发现,其在癌症组织的表达量均有所上调(图 2)。

图2 最显著模块基因的PPI网络和关键基因的PPI网络及热图分析Fig 2 Analysis of the PPI network of the most prominent module genes and the PPI network and the heatmaps of key genes

2.3 GO和KEGG富集分析

本研究使用GO富集分析,以P<0.05作为阈值,发现DEGs富集于细胞外结构的组织、细胞外基质的组织、有丝核分裂、核分裂等通路;最显著模块基因的GO富集分析主要富集到有丝核分裂、细胞器裂变、染色体隔离等通路(图3)。同时,我们使用KEGG对DEGs进行富集分析,结果发现主要富集于细胞周期、ECM-受体相互作用、p53信号通路、IL-17信号通路、DNA复制等通路;最显著模块基因的KEGG富集分析主要富集到以下通路,包括细胞周期、p53信号通路、DNA复制(图4)。

图3 DEGs及PPI网络最显著模块基因的GO富集分析Fig 3 GO enrichment analysis of DEGs and the most prominent module genes in PPI network

图4 DEGs及PPI网络最显著模块基因的KEGG富集分析Fig 4 KEGG enrichment analysis of DEGs and the most prominent module genes in PPI network

GO和KEGG富集分析的结果显示,PBK是与细胞周期通路相关的基因。在ESCC中过表达的PBK可能促进肿瘤细胞增殖,导致ESCC患者生存率下降,被认为是ESCC潜在的治疗靶点[8];同时,PBK在其他癌症如肺癌、乳腺癌、膀胱癌等多种类型癌症中的表达均有上调[9-12]。PBK既属于最显著模块中的基因,又属于关键基因,GO和KEGG富集分析的结果显示PBK被富集到了细胞周期等与癌症相关的通路,且通过观察热图发现PBK在2个数据集中表达量均上调;继而推断,PBK在ESCC的发生、发展中发挥着重要的作用。

2.4 靶向变构药物预测

本文选取AlloSitePro预测结果中打分最高的变构位点进行基于分子对接的虚拟筛选,图5显示了PBK的活性位点及预测的潜在变构位点。

图5 PBK的活性位点及由AlloSitePro预测的潜在变构位点Fig 5 Active site of PBK and potential allosteric site predicted by AlloSitePro

本研究用Schrodinger软件的Glide模块获取了打分最高的100个化合物,其中化合物1(Compound 1)打分为-7.05分,结构如图6A所示。我们利用PLIP(proteinligand interaction profiler)软件[13]分析化合物的结合模式发现,该化合物甲氧基上的氧可以与残基K169的侧链形成氢键,嘧啶二酮上的羰基可以与残基E210的主链形成氢键;同时,该化合物的苯环和正丙基可以与残基T209、I207的侧链形成疏水作用(图6B)。因此,通过上述相互作用的研究表明,Compound 1可能与PBK的潜在变构位点靶向结合,是一种潜在的靶向PBK的变构药物。

图6 潜在变构化合物及其与PBK的疏水作用Fig 6 Potential allosteric compound and its hydrophobic interaction with PBK

3 讨论

在过去的几十年里,微阵列技术和生物信息学分析被广泛应用于基因突变筛查、肿瘤发生的相关基因及通路研究以及治疗靶点的筛选等。本研究通过对GEO数据集GSE38129、GSE20347进行分析,筛选出670条DEGs;其中包含基质金属蛋白酶3(matrix metalloproteinase 3,MMP3)、MMP9、MMP13、MYBL2(MYB proto-oncogene like 2)、COL11A1(collagen type Ⅺ alpha 1 chain)、CHEK1(checkpoint kinase 1)等,在ESCC发生与发展中扮演着重要角色。研究[14]显示,MMP3、MMP9和MMP13在肿瘤的侵袭转移中起着关键作用。MYBL2是ESCC的一个重要致癌基因,可以促进细胞的增殖和转移[15]。COL11A1可通过ECM-受体相互作用通路参与ESCC的发生与发展,可作为治疗ESCC的靶基因。CHEK1(又名CHK1)是细胞周期的关键检查点[16],在卵巢癌、肺癌等多种癌症中过度表达,被认为是癌症治疗的潜在目标[17-18]。

对DEGs的GO和KEGG富集分析结果显示,前者主要富集到细胞外结构的组织、细胞外基质的组织、有丝核分裂、核分裂等通路,后者则主要富集到细胞周期、 ECM-受体相互作用、p53信号通路、IL-17信号通路、DNA复制等通路。研究[19]显示,IL-17A(IL-17)信号通路可促进肿瘤的进展。细胞周期是细胞进行分裂和复制的过程,与细胞的增殖密切相关,不受控制的细胞增殖是癌症的特征之一[20]。对DEGs构建PPI网络,用Cytoscape的MCODE插件对PPI网络进行分组,筛选出最显著模块基因,再用Cytoscape的CytoHubba插件筛选出20条关键基因。其中,PBK既属于最显著模块基因又属于关键基因。通过对GO和KEGG富集分析做进一步分析显示,PBK与细胞周期等与癌症相关的通路有关,且PBK在2个数据集中的表达量均上调。随后,本研究采用AlloSitePro算法对关键基因PBK的蛋白表面潜在变构位点进行预测并就化合物进行虚拟筛选,结果显示获得了潜在靶向PBK的变构分子Compoud 1,为ESCC的靶向治疗提供了新的思路。

综上所述,本研究采用生物信息学的分析方法对在ESCC组织和正常组织的基因表达谱进行筛选,发现了可能参与ESCC发生与发展的DEGs;随后,对该基因进行功能富集分析和蛋白互助网络分析,揭示出一些可能参与ESCC发病机制的富集通路和关键基因;并通过对关键基因的潜在靶向药物进行预测,实现对开发治疗ESCC药物的进一步探索。由于本研究仅进行了生物信息学分析而并未对分析结果开展试验验证,因此在未来的工作中可能需要通过扩大样本数量、开展进一步的试验来验证我们的推测。通过对GEO数据集的生物信息学分析我们发现,本研究结果或将为ESCC肿瘤发生机制的探索提供一定的帮助,关键基因的发现亦可能作为潜在的生物标志物用于临床ESCC的诊断与治疗。

猜你喜欢
信息学靶向位点
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
新型抗肿瘤药物:靶向药物
如何判断靶向治疗耐药
维生素D受体基因Bg1I、Cdx-2位点多态性与桥本氏甲状腺炎的相关性
鸡NRF1基因启动子区生物信息学分析
基于网络公开测序数据的K326烟草线粒体基因组RNA编辑位点的鉴定与分析
携IL-6单克隆抗体靶向微泡破坏技术在兔MI/RI损伤中的应用
生物信息学辅助研究乳腺癌转移相关lncRNA进展
PBL教学模式在结构生物信息学教学中的应用
一种改进的多聚腺苷酸化位点提取方法