COL1A1在胃癌中的表达及临床意义

2019-03-06 02:47马艺珲李国琛
中国卫生标准管理 2019年2期
关键词:差异基因胶原胃癌

马艺珲 李国琛

胃癌为全球常见的消化道恶性肿瘤,位于癌症致死原因的第二位[1]。尽管近年来诊疗技术不断进步,但是目前患者的长期生存率还有待提高,其中胃癌的侵袭和转移是造成预后较差的重要原因[2]。高通量测序及基因芯片技术的发展及公共数据集的完善,为胃癌诊断指标,治疗靶点及预后评价指标的筛选提供了更多的可能性[3]。本研究对Gene Expression Omnibus(GEO)及Cancer Genome Atlas(TCGA)现有的一系列胃癌相关数据集进行了生物信息学分析,结果提示编码胶原蛋白的一系列基因家族存在表达异常,可能参与胃癌的发生发展。其中Ⅰ型胶原α1(COL1A1)基因与胃癌患者的TNM分期及预后具有密切关系,现报道如下。

1 材料和方法

1.1 数据集纳入

从Gene Expression Omnibus(GEO)下载4个独立的胃癌患者组织标本mRNA芯片数据。4个数据集的访问编号为GSE13861,GSE13911,GSE19826及GSE54129(具体信息见表1)。同时下载Cancer Genome Atlas中胃癌数据集(TCGA-STAD)的患者组织标本mRNA数据集临床信息。TCGA-的数据用于分析正常组织和癌组织之间的基因差异,TNM分期与基因差异的关系及生存分析。

1.2 胃癌癌周正常组织及癌组织间差异基因的分析

使用R统计分析软件结合Limma程序包利用线性模型对GSE13861、GSE13911、GSE19826及GSE54129四个数据集中胃癌癌周正常组织及癌组织间差异基因进行筛选。表达差异倍数大于2倍且P<0.05的基因定义为具有变化的差异基因。利用韦恩图对四个数据集中获取的显著变化的差异基因进行取交集操作,以便整合四个数据集的结果。

1.3 基因富集分析(Gene Ontolog,GO)及KEGG信号通路分析

对四个数据集的显著差异基因进行取交集后整合,将得到一份整合后的癌周正常组织及癌组织间显著差异的基因列表。对这些基因进行进一步的GO富集分析,以便明确这些基因涉及的生物学过程,功能及分子定位(细胞组分)。同时进行KEGG信号通路分析以明确这些基因参与哪些信号通路的调控。GO富集分析及KEGG信号通路富集分析使用DAVID Functional Annotation Bioinformatics Microarray Analysis在线工具进行(https://david.ncifcrf.gov/)。

1.4 蛋白网络分析

利用String数据库(https://string-db.org),对上述整合后显著差异基因编码的蛋白质进行网络分析,获取各基因编码蛋白质间的调控网络。Cytoscape软件(版本号3.5.1)计算网络节点的连接度。

1.5 统计学分析

统计学分析采用R统计学软件(版本号3.4.2)。癌周正常组织及癌组织间的差异使用独立样本t检验及贝叶斯检验。TNM分期间的基因表达差异使用单因素方差分析。生存分析使用Kaplan-Meier法结合log-rank分析。以P<0.05为差异具有统计学意义。

2 结果

2.1 胃癌癌周正常组织及癌组织间存在显著表达差异的基因

四个GEO数据集中胃癌癌周正常组织与癌组织相比,差异具有统计学意义(表达倍数>2或<0.5且P<0.05)的基因个数及上调/下调情况如表1所示。通过对四个数据集取交集发现,共105个基因在四个数据集中均存在显著表达的差异。其中34个基因上调,71个基因下调。

2.2 胃癌癌周正常组织及癌组织间差异表达基因的富集分析、相关信号通路及调控网络

本研究四个数据集中均存在显著表达差异的105个基因进行了Go基因富集发现,对这些基因参与的生物学过程,分子功能及细胞定位(细胞组分)进行了分析(图1)。结果显示一些基因在生物学过程、分子功能及细胞定位等方面均参与细胞外基质的调控相关,有趣的是基因多来自胶原调控基因家族,包括COL1A1,COL1A2,COL3A1,COL6A3,COL5A2,COL10A1,COL4A1 及COL4A2等。同时我们对上述105个基因进行了KEGG信号通路富集分析,这些基因涉及的主要信号通路见图1,除细胞外基质通路外,PI3K-AKT等信号通路也与胃癌的发生发展有关。这些证据提示这些差异表达的基因在胃癌中扮演一定的角色。蛋白-蛋白互作网络分析发现这105个基因编码的蛋白间存在网络调控关系,其中COL1A1基因编码的蛋白连接度最大(连接度=13),提示COL1A1基因在该网络中处于核心位置。

2.3 COL1A1在胃癌组织中的表达及临床意义

四个GEO数据集及TCGA数据集中(图2),COL1A1均在胃癌癌组织中存在高表达,与癌周组织相比,差异均具有统计学意义(P均<0.05)。TCGA数据集中COL1A1 mRNA水平在拥有较晚TNM分期(2期以上)的患者中存在高表达(图3),并且与患者的生存率具有关系(图4),即COL1A1较高的患者,十年总体生存率较低(P<0.05,风险比=1.5)。

3 讨论

精准医疗和个体化医疗的发展需要明确更多胃癌相关基因的作用及其与胃癌患者临床特征的关系[4-5]。近十年来,RNA测序及基因芯片等技术不断成熟,在准确度,效率增加的同时,技术费用又所下降,形成了癌症相关的大数据[6]。利用生物信息学手段挖掘这些大数据,可以方便的找到可能与胃癌发生发展相关的基因。相比传统研究,更加经济且有效缩短了研究周期[4]。

通过差异分析及整合,我们发现105个基因在四个GEO胃癌数据集中的表达特征一致,其中34个基因在胃癌组织中上调,71个基因下调。通过GO富集分析及KEGG信号通路分析,可以将这105个基因按照其功能进行归类,达到对差异基因进行注释和分类的目的,同时发现这些基因参与哪些信号通路。在本研究我们发现胃癌组织105个差异表达的基因参与的生物学过程主要包括细胞黏附,细胞外基质的调控。KEGG信号通路富分析排名靠前的信号通路主要包括PI3K-Akt通路及细胞外基质调控通路。这些生物学功能及通路均和肿瘤细胞的增殖和迁移有关,很大程度上决定了肿瘤的侵袭程度和患者的预后[7-8]。本研究重点关注了细胞外基质调控的相关基因,有趣的是这些基因均来自胶原形成相关的基因家族(COL基因家族),包括COL1A1、COL1A2、COL3A1、COL6A3、COL5A2、COL10A1、COL4A1 及 COL4A2[9]。

表1 四个GEO胃癌数据集中癌周组织及癌组织间具有显著表达差异的基因信息

图1 胃癌组织中105个差异基因的GO基因富集分析及KEGG信号通路富集分析结果(富集分数前5位)

图2 COL1A1 mRNA在四个GEO胃癌数据集及TCGA胃癌数据集中的表达水平*P<0.05 与癌周组织相比

图3 COL1A1表达与胃癌患者分期及预后的关系

胃癌发展的过程是与肿瘤微环境互相作用的动态过程。胃癌的生存及迁移均与微环境关系密切[8-10]。而胶原是胃癌细胞的细胞外间质的主要成分,也是间质微环境的主要组成。胶原可以为肿瘤细胞提供生长依附和支架,诱导肿瘤细胞的移行[11-12]。证据表明在胃癌发生时胶原的合成增多[13]。本研究也在胃癌组织中发现了上述胶原相关基因的表达增加。胶原可以影响E-钙黏蛋白介导的细胞间黏附复合物的形成及解聚,从而影响肿瘤细胞的扩散和增殖。还有一些胶原如Ⅰ型及Ⅲ型胶原还可以机会整合信号通路,诱导上皮间质转化,从而导致肿瘤细胞的浸润和转移[9,12]。本研究通过对差异基因进行蛋白-蛋白互作网络分析发现,上述的COL基因似乎更为重要,表现为与其他基因编码的蛋白存在广泛联系。特别是COL1A1基因,其编码的蛋白质在构成的网络中,连接度最高。因此我们认为COL1A1可能是一个参与胃癌发生发展的关键基因。在四个GEO数据集及TCGA数据集中,COL1A1均在胃癌组织中高表达,且结合TCGA的临床数据分析发现COL1A1在TNM分期较晚的患者中,表达较高且较高的COL1A1预示着较低的十年总体生存率,提示COL1A1是胃癌患者预后较差的一个风险因素。

总之,本研究通过数据挖掘发现了一系列可能参与胃癌发生发展的基因,特别是一些参与胶原形成与细胞外基质相关的基因在胃癌组织中存在明显的表达差异。这些基因可能作为胃癌的诊断指标,治疗靶点或者预后评估标志物。其中COL1A1与胃癌患者的TNM分期及预后相关。

猜你喜欢
差异基因胶原胃癌
碘-125粒子调控微小RNA-193b-5p抑制胃癌的增殖和侵袭
青年胃癌的临床特征
胶原代谢与纤维化疾病研究进展
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
胶原特性及其制备方法研究进展
紫檀芪处理对酿酒酵母基因组表达变化的影响
内镜黏膜下剥离术在早期胃癌诊疗中的应用
胃癌组织中LKB1和VEGF-C的表达及其意义
SSH技术在丝状真菌功能基因筛选中的应用
末端病大鼠跟腱修复中胶原表达的研究