LncRNA调控人类疾病关系数据库的研究

2019-07-17 04:46杨宵月李建伟
医学信息 2019年12期
关键词:生物信息学

杨宵月 李建伟

摘要:人类疾病与长链非编码RNA(LncRNA)的调控功能异常具有密切关系。近年来,出现了许多LncRNA-人类疾病关联数据库,为识别LncRNA调控人类疾病的功能提供了极大便利。本文对多个主流LncRNA调控人类疾病关联数据库作一综述,为该领域的进一步研究提供参考。

关键词:长链非编码RNA;LncRNA-疾病关联关系;生物信息学

中图分类号:TP311.131                               文献标识码:A                               DOI:10.3969/j.issn.1006-1959.2019.12.010

文章编号:1006-1959(2019)12-0028-03

Abstract:Human diseases are closely related to the abnormal regulation of long-chain non-coding RNA (LncRNA). In recent years, many LncRNA-human disease association databases have emerged, which have greatly facilitated the recognition of LncRNA regulation of human disease. This article reviews a number of mainstream LncRNA regulatory human disease association databases and provides a reference for further research in this field.

Key words:Long-chain non-coding RNA;LncRNA-disease association;Bioinformatics

长链非编码RNA(long non-coding RNA,LncRNA)是一类核苷酸长度大于200的非编码RNA分子。由于其不能编码蛋白质,LncRNA一直被认为是基因转录过程中的副产物[1]。随着对LncRNA的不断研究,发现LncRNA虽不编码蛋白,但可参与细胞凋亡、分化、自噬、代谢以及肿瘤发生的各个阶段等多种重要的调控过程[2]。LncRNA的研究发展迅速,但绝大部分LncRNA在疾病中的调控功能仍不明确。大量研究表明[3,4],人类疾病与LncRNAs的调控功能异常具有密切关系,明确LncRNAs在疾病中的調控作用,对在分子水平上理解疾病的产生、发展机制,对于复杂疾病的诊断、治疗均具有重要意义。目前,研究LncRNA调控功能的方法主要包括传统生物实验方法和现代的生物信息学计算方法。传统的生物实验方法鉴定LncRNAs功能,结果虽然准确、可靠,但存在实验周期时间长、费用较高等问题[5]。随着高通量测序技术的不断发展,越来越多的LncRNAs被发现,大量的LncRNAs功能需要被明确。传统的生物实验方法显然不能胜任,必须采用快速、高效的计算方法对已发现的LncRNAs调控人类疾病关系进行数据挖掘,进而推测LncRNAs功能[6]。本文对多个主流LncRNA调控人类疾病关联数据库作一综述,旨在为该领域的进一步研究提供参考。

1常见LncRNA调控人类疾病关系数据库

近年来,相继出现了一些收集、整理LncRNA调控人类疾病关联数据库,为识别LncRNA调控人类疾病的功能提供了极大便利。常见LncRNA调控人类疾病关系数据库(按发布时间排序)见表1,包括软件名称、发布时间、数据库优缺点等,为研究者选择LncRNA调控人类疾病关联数据库提供便利,同时有助于研究者快速了解该领域的研究进展。

2常见LncRNA调控人类疾病关系数据库具体介绍

2.1 LncRNADisease  2012年,Chen G等[7]收集PubMed数据库中文献报道的LncRNA调控人类疾病关系,开发了首个LncRNA调控人类疾病关系数据库——LncRNADisease。该数据库收集了480个有实验支持的LncRNA调控疾病关系条目,以及478个LncRNA与其他生物分子相互作用的条目,涉及128个人类LncRNAs。LncRNADisease对每个LncRNA-疾病关联数据都给出了原始文章的PubMed超链接,并标注了LncRNA-疾病关联的详细信息,包括基因组信息、序列信息、功能失调类型等。LncRNADisease数据库规范了LncRNA和疾病的名称,共涉及166种疾病。LncRNADisease还收集了LncRNA在各种分析分子水平上的调控对象。此外,还提出一种预测新LncRNA-疾病关联关系的生物信息学方法,并将预测的1564个LncRNA-疾病关联关系整合到数据库中。

2.2 Lnc2Cancer  Ning S等[8]于2015年建立了专门收集LncRNA-癌症关联关系的、且有实验支持的LncRNA数据库——Lnc2Cancer。该库中的LncRNA数据来源于PubMed数据库中已发表的1500余篇相关文献。通过手工检索和整理的方式,该数据库在531种LncRNAs和86种人类癌症范围内,共收集了1057个LncRNA-癌症关联关系数据。库中每个关联数据包括LncRNA与癌症的名称、LncRNA序列及位置信息、LncRNA表达模式、实验技术、LncRNA功能描述、PubMed数据库超链接和其他注释信息等。Lnc2Cancer的用户界面友好,方便用户检索和下载数据,并允许用户在线提交新验证的LncRNA-癌症关联关系数据。用户通过分析来自Lnc2Cancer的数据,可进一步挖掘这些数据中隐藏的一些重要信息,构建LncRNA-癌症二分网络,更加系统地分析LncRNAs对癌症的调控作用。

2.3 TANRIC  TANRIC是2015年由Li J等[9]开发的研究LncRNAs在癌症中调控功能及临床诊疗价值的数据分析和可视化平台。它收集并分析了20种癌症患者中LncRNA表达谱数据,共包含8000多个来自于TCGA和其它数据集的样本。TANRIC包括6个模块:摘要、可视化、下载、My LncRNA、分析所有LncRNA和细胞系中的LncRNA。TANRIC将LncRNAs表达数据与临床和基因组数据相结合,使得研究人员能够在临床和其他分子数据背景下,快速、直观地分析癌症的LncRNA特征。TANRIC的开发者还鉴定了大量具有潜在生物医学标记的LncRNAs,其中许多显示与已明确的治疗靶标和跨肿瘤类型的生物标记,或者跨细胞系的药物敏感性强烈相关。TANRIC极大地促进了与LncRNA相关的生物学发现和临床应用。

2.4 LnCaNet  2016年1月,Liu Y等[10]在对LncRNA和非邻近癌基因之间相互作用进行搜索和分析的基础上,开发了一个收录LncRNA共表达数据的数据库——LnCaNet。LnCaNet共收集了2922个匹配的癌症基因组图谱TCGA样品,包含了来源于9641个LncRNAs和2544个癌症基因的8494907个有意义的共表达对。LnCaNet整合了来自公共数据库的10个癌症基因列表,分别计算了11种TCGA癌症类型中所有LncRNA的共表达。基于110个共表达网络的分析结果,LnCaNet确定了17个与11种癌症细胞外空间相关的常见调节对。LnCaNet致力于为LncRNA和癌症基因建立全面的网络资源,包括综合癌症基因列表、预先计算的LncRNA与癌基因之间的共表达、泛癌LncRNA表达网、LncRNA-癌症基因相互作用对。LnCaNet为研究者深入分析LncRNA调控功能提供了重要参考。

2.5 LincSNP 2.0  LincSNP 2.0是2016年5月由Ning S等[11]开发的一个数据库,它是首个专门用于存储和注释人类LncRNA与其转录因子结合位点(TFBSs)中的与疾病关联的单核苷酸多态性(SNP)数据,以期帮助用户确认新的与疾病关联的SNP数据。LincSNP 1.0[14]创建于2014年5月,LincSNP 2.0是其更新版。LincSNP 2.0中的LncRNA来源于5个数据库,包括Ensembl[15]、LncRBase[16]、NONCODE[17]、LNCipedia[18]和GENCODE[19]。LincSNP 2.0中,含有809451个与疾病相关的SNP和244545个人类LncRNA,涉及9种类型的LncRNA,包含58个具有实验支持的SNP-LncRNA-疾病关联。为了方便用户更好地使用LincSNP 2.0中的数据,该数据库还为用户提供了3种在线检索和分析数据的工具,分别为Linc-Mart、Linc-Browse和Linc-Score。

2.6 Lnc2Catlas  Lnc2Catlas是一個从不同方面收集并且定量化表示LncRNA-癌症关联关系的数据库[12]。该数据库从LncRNA二级结构扰动、LncRNA-蛋白质相互作用和共表达网络三个方面数值化评价LncRNA对癌症的调控作用。Lnc2Catlas共收录27670个具有明确注释的LncRNAs,包含了247124个LncRNA-SNP关联关系、超过200万个LncRNA-蛋白质相互作用关系和6902个共表达簇数据。Lnc2Catlas构建相关LncRNA、SNP和蛋白质的调控关系网络,从多角度分析LncRNA与癌症之间的定量关系,这使得最终分析结果更加准确、可信。

2.7 LncRNADisease2.0  LncRNADisease2.0是LncRNADisease的更新版,由Bao Z等[13]在2018年7月建立。LncRNADisease 2.0记录了20多万个LncRNA-疾病关联关系数据。它共收集了来自PubMed的12000余篇文献,包含10564个实验支持的LncRNA-疾病关联关系数据和1004个实验支持的circRNA-疾病关联关系数据。数据库中还包含195395个预测的LncRNA-疾病关联关系,其中23102个关联关系至少可被2种算法预测。相对于第一个版本的LncRNADisease,LncRNADisease 2.0具有明显的改进:①实验支持和/或计算支持的LncRNA-疾病关联关系数量超过第一版40倍;②提供了LncRNA,mRNA和miRNA之间的转录调控关系;③将疾病名称映射到MeSH数据库[20],为每个LncRNA-疾病关联关系提供数量化的置信度分数;④增加了环状RNA(circRNAs)与疾病之间的关联关系数据。LncRNADisease 2.0是收集LncRNA-疾病关联关系数据较全的数据库之一。

3总结

本文介绍了7个LncRNA调控人类疾病关联数据库,每个数据库都有其特点和适用范围。研究人员需要根据自己的需求和想法,选择适合的数据库,才能有助于分析和研究。该类数据库还有很多需要改进和完善发展的方面:①研究人员搜集了大量的LncRNA-疾病关联数据,但目前还没有一个权威、统一和系统的数据库包含已有的全部LncRNA-疾病关联关系数据,大部分数据库都在按照自己的组织方式不断的维护和更新,用户常常需要分析多个数据库才能得到比较准确、权威的结果;②LncRNA与人类疾病的关系是一个计较系统复杂的问题,尚有许多新的LncRNA-疾病关联关系数据属性没有被发现,这需要研究人员持续地探索和研究,不断更新数据的组织方式,并在大量相关数据中发现新的LncRNA调控疾病的规律;③目前建立的LncRNA数据库一般包括LncRNA-miRNA、蛋白质结合互作、相邻基因共表达、疾病上下调等功能分析,但LncRNA的其他多种重要调节功能仍没有被收集,如作为增强子参与调控基因的表达、通过修饰染色体参与表观调节等。目前还没有类似数据库收集LncRNA的这方面数据,这在一定程度上限制了对LncRNA调控功能的深入分析。

随着越来越多的研究者关注并且投身到LncRNA调控人类疾病关系数据库的研究中,我们相信未来会有更加全面、高效、易用的数据库出现,服务于LncRNA调控功能研究。

参考文献:

[1]Clark MB,Mattick JS.Long noncoding RNAs in cell biology[J].Semin Cell Dev Biol,2011,22(4):366-376.

[2]Mercer TR,Dinger ME,Mattick JS.Long non-coding RNAs:insights into functions[J].Nat Rev Genet,2009,10(3):155-159.

[3]周众.LncRNA-基因调控关系的生物信息学数据库构建及分析预测[D].中国科学技术大学,2016.

[4]林陈胜,阮宁生,张彦定.长链非编码RNA数据库资源[J].中国生物化学与分子生物学报,2016,32(6):599-606.

[5]Moran VA,Perera RJ,Khalil AM.Emerging functional and mechanistic paradigms of mammalian long non-coding RNAs[J].Nucleic Acids Res,2012,40(14):6391-6400.

[6]夏天,肖丙秀,郭俊明.长链非编码RNA的作用机制及其研究方法[J].遗传,2013,35(3):269-280.

[7]Chen G,Wang Z,Wang D,et al.LncRNADisease:a database for long-non-coding RNA-associated diseases[J].Nucleic Acids Res,2013,41(D1):D983-D986.

[8]Ning S,Zhang J,Wang P,et al.Lnc2Cancer:a manually curated database of experimentally supported LncRNAs associated with various human cancers[J].Nucleic Acids Res,2016,44(D1):D980-D985.

[9]Li J,Han L,Roebuck P,et al.TANRIC:an interactive open platform to explore the function of LncRNAs in cancer[J].Cancer Res,2015,75(18):3728-3737.

[10]Liu Y,Zhao M.LnCaNet:pan-cancer co-expression network for human LncRNA and cancer genes[J].Bioinformatics,2016,32(10):1595-1597.

[11]Ning S,Yue M,Wang P,et al.LincSNP 2.0:an updated database for linking disease-associated SNPs to human long non-coding RNAs and their TFBSs[J].Nucleic Acids Res,2017,45(D1):D74-D78.

[12]Ren C,An G,Zhao C,et al.Lnc2Catlas:an atlas of long noncoding RNAs associated with risk of cancers[J].Sci Rep,2018,8(1):1909.

[13]Bao Z,Yang Z,Huang Z,et al.LncRNADisease 2.0:an updated database of long non-coding RNA-associated diseases[J].Nucleic Acids Res,2019,47(D1):D1034-D1037.

[14]Ning S,Zhao Z,Ye J,et al.LincSNP:a database of linking disease-associated SNPs to human large intergenic non-coding RNAs[J].BMC Bioinformatics,2014,15(1):152.

[15]Flicek P,Ahmed I,AmodeMR,et al.Ensembl 2013[J].Nucleic Acids Res,2013,41(D1):D48-D55.

[16]Chakraborty S,Deb A,Maji RK,et al.LncRBase:an enriched resource for LncRNA information[J].PLoS One,2014,9(9):e108010.

[17]Fang S,Zhang L,Guo J,et al.NONCODEV5:a comprehensive annotation database for long non-coding RNAs[J].Nucleic Acids Res,2018,46(D1):D308-D314.

[18]Volders PJ,Helsens K,Wang X,et al.LNCipedia:a database for annotated human LncRNA transcript sequences and structures[J].Nucleic Acids Res,2013,41(D1):D246-D251.

[19]Harrow J,Frankish A,Gonzalez JM,et al.GENCODE:the reference human genome annotation for The ENCODE Project[J].Genome Res,2012,22(9):1760-1774.

[20]Lipscomb CE.Medical Subject Headings(MeSH)[J].Bull Med Libr Assoc,2000,88(3):265-266.

收稿日期:2019-3-12;修回日期:2019-3-22

編辑/杜帆

猜你喜欢
生物信息学
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
案例教学法在《生物信息学》本科教学中的应用
微生物二元网络作用关系研究