基于GEO和TCGA数据库分析促癌基因INHBA和抑癌基因CLCA4、CA4在结直肠癌中表达*

2019-07-03 08:13袁莉莉范文涛
中国应用生理学杂志 2019年3期
关键词:基因芯片癌基因差异基因

王 倩, 袁莉莉, 范文涛

(陕西中医药大学, 咸阳 712046)

结直肠癌是发生于结肠或直肠粘膜上皮的恶性肿瘤,发病率占胃肠道肿瘤的第3位。据流行病学资料表明,该病的发病率呈现上升趋势,且发病年龄可见于任何年龄,以40~50岁年龄组发病率最高,目前已成为严重威胁人类健康的常见疾病。只有做到早发现、早治疗才能有效降低死亡率。本文通过GEO数据库和TCGA数据库联合分析,筛选结直肠癌差异基因,分析生存曲线,为早期诊断结直肠癌提供新的标志物及其治疗提供理论依据。

1 材料与方法

1.1 GEO数据库芯片筛选

本研究通过检索NCBI(https://www.ncbi.nlm.nih.gov/),选择GEO Datasets,检索Colorectal cancer,选择Homo sapiens ,共检索出27723芯片。选择GSE21510,包含104例样本;GSE25071,包含50例样本;GSE32323,包含10例样本。3组共纳入164例样本。

1.2 差异基因筛选

进入芯片数据库,选择GEO数据库自带分析工具Analyze with GEO2R,点击Define groups进行分组,分为癌组织组和癌旁组织组,点击TOP250进行分析,保存分析数据。进一步根据P值<0.01,logFC>2或者<-2进行差异基因筛选。

1.3 绘制文恩图

将检索出的差异基因采用文恩图制作软件(venny2.1)绘制文恩图,查找三组共有基因。

1.4 差异基因在TCGA数据库中的表达

打开TCGA数据库(https://cancergenome.nih.gov/),用差异基因查找在结直肠癌中的表达。

1.5 生存曲线分析

打开TCGA数据库(https://cancergenome.nih.gov/),分析差异基因对结直癌生存曲线的影响。

1.6 验证

将筛选出的差异基因,在GEO 数据库GSE24514芯片集中进行验证。

2 结果

2.1 GSE21510基因芯片差异基因分析结果

进入芯片数据库,使用GEO数据库自带分析工具Analyze with GEO2R,点击Define groups进行分组,分为癌组织组和癌旁组织组,点击TOP250进行分析,保存分析数据。进一步根据P值<0.01,logFC>2或者<-2进行差异基因筛选。共筛选出251个差异基因,其中上调基因146个,下调基因105个。绘制差异基因火山图(图1)。

2.2 GSE25071基因芯片差异基因分析结果

进入芯片数据库,使用GEO数据库自带分析工具Analyze with GEO2R,点击Define groups进行分组,分为癌组织组和癌旁组织组,点击TOP250进行分析,保存分析数据。进一步根据P值<0.01,logFC>2或者<-2进行差异基因筛选。共筛选出669个差异基因,其中上调基因312个,下调基因357个。绘制差异基因火山图(图2)。

Fig.1Analysis of GSE21510 gene chip differential genes

Fig.2Analysis of GSE25071 gene chip differential genes

2.3 GSE32323基因芯片差异基因分析结果

进入芯片数据库,使用GEO数据库自带分析工具Analyze with GEO2R,点击Define groups进行分组,分为癌组织组和癌旁组织组,点击TOP250进行分析,保存分析数据。进一步根据P值<0.01,logFC>2或者<-2进行差异基因筛选。共筛选出353个差异基因,其中上调基因115个,下调基因238个。绘制差异基因火山图(图3)。

Fig.3Analysis of GSE32323 gene chip differential genes

2.4 GSE21510、GSE2507、GSE32323芯片差异基因文恩图分析

经筛选GSE21510基因芯片差异基因251个,其中上调基146个,下调基因105个。GSE25071基因芯片差异基因669个,其中上调基因312个,下调基因357个。GSE32323基因芯片差异基因353个,其中上调基因115个,下调基因238个。经文恩图分析,3个基因集交集共有15个基因,其中上调基因3个,下调基因12个(图4)。在结肠癌组织中上调基因为促癌基因,下调基因为抑癌基因。通过基因的差异表达和生存曲线分析,分别在已筛选的促癌基因和抑癌基因种寻找结直肠癌诊断标志物。

Fig.4Analysis of genetic differences Venn diagram

Tab. 1 Three lists of differential genes

2.5 筛选出差异基因在TCGA数据库中的表达

打开TCGA数据库,用差异基因查找在结直肠癌中的表达。上调基因3个,下调基因12个。

2.5.1 上调基因 在TCGA数据库分析包含327例结直肠癌标本的数据集,分析差异基因表达。286例患者INHBA、NFE2L3、HOMER1基因表达明显上调,41例正常。表明上调基因对结直肠的产生具有促进作用(图5)。

Fig.5Upregulated gene expressions in TCGA database

2.5.2 下调基因 在TCGA数据库分析包含327例结直肠癌标本的数据集,分析差异基因表达。286例患者CA4、CLCA4、BEST4、CA1、CPM、ENTPD5、PDE9A、SLC4A4、SPIB、VSIG2、ZG16、ADH1B基因表达明显下调,41例正常。表明下调基因对结直肠的产生具有促进作用(图6)。

2.6 差异基因在TCGA数据库中生存曲线

在TCGA数据库分析包含279例结直肠癌标本的数据集,对差异基因进行生存分析。发现70例INHBA基因升高患者的生存时间明显低于209例INHBA基因减低患者,说明INHBA基因升高对结直肠癌具有促进作用。71例CLCA4、CA4基因升高患者的生存时间明显高于208例CLCA4、CA4基因降低患者,说明CLCA4、CA4基因升高对结直肠癌具有抑制作用(图7)。

Fig.6The expressions of down-regulated genes in TCGA database

Fig.7Differential gene survival curves

2.7 GEO数据库验证

在GEO数据库中查找结直肠癌相关GSE24514芯片集,共包含49例标本,使用工具Analyze with GEO2R进行在线分析,查找差异基因ID。通过ID号查找到差异基因在组织中的表达量,验证促癌基因INHBA,抑癌基因CLCA4、CA4在芯片集中的表达量。

2.7.1 促癌基因 促癌基因INHBA在GEO数据库GSE24514结直肠癌芯片集49例样本中(图8), 34例肿瘤样本成高表达,明显高于15例正常组织样本。表明基因INHBA在结直肠癌形成过程中起到促进作用。

Fig.8Differential expression of INHBA gene in GSE24514 dataset

2.7.2 抑癌基因 抑癌基因CLCA4、CA4在GEO数据库GSE24514结直肠癌芯片集49例样本中(图9、10), 34例肿瘤样本成低表达,明显低于15例正常组织样本。表明基因CLCA4、CA4在结直肠癌形成过程中起到抑制作用。

Fig.9Differential expression of CLCA4 and CA4 genes in GSE24514 dataset

Fig.10Differential expression of CLCA4 and CA4 genes in GSE24514 dataset

3 讨论

结直肠癌是一种常见的恶性肿瘤,主要发生在人体消化系统直肠和乙状结肠,是由直肠和乙状结肠发生癌变导致的,发病率较高,主要发生群体是40~50的年龄人群,男性大于女性。结肠癌初期症状不明显,容易被人忽略,一般发现在中后期,有消化不良、排便不畅、贫血、消瘦等症状,严重者会出现便血、粘液脓性血便中毒。因不能早期发现,导致死亡率较高。因此,筛选结直肠癌促癌、抑制基因,有利于早期诊断治疗。

本研究通过筛选GSE21510基因芯片得到差异基因251个,其中上调基因146个,下调基因105个。GSE25071基因芯片差异基因669个,其中上调基因312个,下调基因357个。GSE32323基因芯片差异基因353个,其中上调基因115个,下调基因238个。经文恩图分析,3个基因集交集共有15个基因,其中上调基因3个,下调基因12个。在TCGA数据库中查找差异基因的表达量和生存曲线。根据基因表达量及生存曲线,筛选出上调基因INHBA为促癌基因,下调基因CLCA4、CA4为抑癌基因。为进一步验证3个基因在结直肠癌中的表达。本文再选取GEO数据库GSE24514芯片验证差异基因在结直肠癌中的表达。促癌基因INHBA在GSE24514芯片癌组织中呈现高表达,表明INHBA基因具有促进结直肠癌变的作用。抑癌基因CLCA4、CA4在GSE24514芯片癌组织中呈现低表达,表明CLCA4、CA4基因对结直肠癌有抑制作用。

有报道在食管腺癌中,INHBAmRNA 水平显著高于Barrett 食管及食管上皮异性增生[1]。在胃癌中,肿瘤组织中 INHBAmRNA 水平亦显著高于癌旁正常组织[2]。Wang 等[2]的研究认为,胃癌中INHBA mRNA 高表达与瘤体较大及瘤体浸润较深相关,同时 INHBA 高表达患者的无瘤生存期及总体生存期均显著低于低表达者。在头颈部鳞状细胞癌中,INHBA 过表达与淋巴结转移相关,且高表达者无病生存期显著低于低表达者[1]。研究显示,在食管腺癌中INHBA基因启动子去甲基化导致其表达上调,并进一步促进食管癌细胞的增殖[3]。INHBA 基因在肺腺癌[4]、胃癌[5]、结直肠癌[6]等恶性肿瘤中也存在显著表达上调,并且其高表达与患者的不良预后密切相关。实验研究显示TGF-β、NF-κB 等信号通路相关基因在右半结肠癌组织中显著富集,TGF-β通路中的差异表达基因INHBA 在右半结肠癌组织中的mRNA 及蛋白表达水平显著高于左半结肠癌,并且INHBA 高表达与脉管浸润、血管壁浸润、远处转移及不良预后呈正相关,提示INHBA 基因可能在右半结肠癌的发生和演进过程中发挥着重要作用,有望为右半结肠癌患者的临床治疗提供新的分子靶点[7]。

CLCA4 在 CRC 细胞质和细胞膜的表达水平显著低于正常对照组织,在疾病不同阶段的患者还表现出极大的差异,并和患者的生存期显著关联。这表明 CLCA4 表达降低可能是恶性肿瘤的生物标志物并参与癌症的复发和转移,如果早期检测该标志物,可以预测患者预后并作为治疗干预的判断依据。CLCA4 和CLCA1 的表达缺失可以降低对肿瘤细胞的抑制[8]。研究发现CLCA4 的表达与肿瘤的高风险因素紧密相关,如原发肿瘤的浸润程度、淋巴结转移、Dukes 分期和组织学分级,并且表达水平随肿瘤的分化程度逐步变化,这可能表示在早期 CRC 患者中检测该指标可直接预知该患者的预后情况是否良好。另外,检测 CLCA4的表达也可能有助于识别患者预后较差的风险因素,以此来评估 CLCA4 水平有助于准确的预测患者的预后、复发和潜在的二次性手术的几率,这样可以个体化的治疗每个病人,达到优化治疗的效果[9]。

本研究发现在结直肠癌标本中基因INHBA(促癌基因)明显升高,基因 CA4、CLCA4(抑癌基因)明显降低。 生存曲线证实INHBA基因升高患者的生存时间明显低于INHBA基因减低患者,说明INHBA基因升高对结直肠癌具有促进作用。CLCA4、CA4基因升高患者的生存时间明显高于208例CLCA4、CA4基因降低患者,说明CLCA4、CA4基因升高对结直肠癌具有抑制作用。通过GEO数据库与TCGA数据库联合分析,发现结直肠癌促癌基因INHBA,抑癌基因CLCA4、CA4。基因INHBA、CLCA4、CA4在结直肠癌组织中的表达揭示了其在结直肠癌发生、发展中的作用。有望成为检测结直肠癌侵袭、转移及预后的重要手段。

猜你喜欢
基因芯片癌基因差异基因
出生时即可预判发育潜力 基因芯片精准筛选肉牛良种
基因芯片技术在生物研究中的应用进展
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
癌基因敲除可完全抑制肺癌发生
紫檀芪处理对酿酒酵母基因组表达变化的影响
基因芯片快速检验细菌的临床应用
抑癌基因WWOX在口腔肿瘤的研究进展
LAMP联合基因芯片技术在肺炎衣原体检测中的应用
SSH技术在丝状真菌功能基因筛选中的应用
肾阳虚证骨关节炎温针疗效的差异基因表达谱研究