DBEncRNA:细菌必需非编码RNA 数据库

2022-05-28 06:16叶远浓梁定发
电子科技大学学报 2022年3期
关键词:基因组编码细菌

叶远浓,梁定发,曾 柱

(1. 贵州医科大学大健康学院 贵阳 550025;2. 贵州医科大学环境污染监测与疾病控制教育部重点实验室 贵阳 550025)

细菌非编码RNA(non-coding RNA, ncRNA)是近年来在细菌基因组内新发现的一类基因表达调控因子,分子大小为40~500 个核苷酸,在RNA 的转录调节、染色体复制、RNA 加工与修饰、mRNA翻译与稳定性、蛋白质降解与转运和细菌感染等生物过程中扮演着重要角色[1]。随着被发现的细菌ncRNA 数目迅速增加,及其在生物体内的重要作用,细菌ncRNA 已成为微生物的研究热点之一[2]。由于ncRNA 在生物体内扮演重要角色,新ncRNA的识别具有重要的科学意义和极大的商业价值。

在生物体所包含的ncRNA 中,与必需基因概念类似,有一部分ncRNA 是生物体生存所必不可少的,称之为“必需非编码RNA”(必需ncRNA,essential ncRNA)[3]。虽然必需ncRNA 不能像必需基因一样编码蛋白,但其在生物学上的研究地位与必需基因同等重要,具有重要的理论研究和实际应用价值。如大部分抗生素以基本的细胞过程为靶标,而细菌的ncRNA 在细菌生命活动中发挥着极为广泛的作用,包括结构调节到催化作用,影响各种加工过程,如细菌毒性、发育控制、mRNA稳定性与蛋白质降解等[4],因此细菌的必需ncRNA可以作为药物开发的潜在靶标,以降低致病菌的耐药性。同时,对必需ncRNA 的理论研究有助于理解和确定最小基因组的构成和功能作用,如文献[5-6]认为一个完整的最小基因组除了编码蛋白,还需包括调控和结构原件,如5’-UTRs 和ncRNA。文献[7]报道了一个包含必需ncRNA 的最小细胞。文献[8]在构建细菌最小基因集算法中也提出一个最小基因组,除了最小基因集,还应包含最小非编码RNA 集。

文献[9-10]确定了一个新的miRNA 为ncRNA,最早提出“必需ncRNA (essential non-coding RNA)”的概念。文献[6]使用428735 个Tn5 转座子插入测定新月柄杆菌(Caulobacter crescetus) 的基因组时,除了确定480 个必需基因外,还确定了29 个必需tRNA 和8 个必需小ncRNA。在肺结核分支杆菌(Mycobacterum tuberculosis)中,文献[11]使用36788 个转座子插入方法在确定必需基因的同时发现了25 个必需基因组片段,包括10 个tRNA 和参与tRNA 过程的RNaseP 的RNA 催化单元。文献[12]用类似的方法在鼠伤寒沙门氏菌(Salmonella enterica serovars)中发现了15 个必需ncRNA。值得注意的是,RNaseP 再次被确定为必需ncRNA,因此它可能是一个在细菌中普遍存在的必需ncRNA。

文献[13]测试了一些ncRNA 对毒性效应具有niche-specific 的作用的假说,因为越来越多的证据表明ncRNA 参与致病菌致病过程,该文献首次用RNA-seq 技术确定了一种肺炎病原体——肺炎链球菌(Streptococcus pneumoniae)的全套ncRNA,包含89 个ncRNA。文献[14]重新确认了酵母的180个必需ncRNA。

正是由于细菌ncRNA 在细菌生长、侵染宿主和致病机理过程中发挥着极为广泛的调控作用,对细菌ncRNA,特别是必需ncRNA 的干扰会使其失去调控作用,从而影响到细菌的生长、侵染宿主的能力。在细菌耐药性问题日益突出的今天,亟待积极研发新型抗菌靶点和药物。基于细菌必需ncRNA 为靶点的新型药物开发,有助于降低细菌耐药性问题,所以亟需发展细菌必需ncRNA 的高效识别、鉴定方法。

ncRNA 在合成生物学研究领域也具有不可或缺的地位。在现阶段,定义一个能够维持生物体存活的最小基因组是生物学的主要挑战之一。目前大部分关于最小基因组的研究主要基于传统的蛋白编码基因,而忽略了ncRNA,这种基于不完整的注释,导致最小基因组的准确性受到了限制[15]。针对这一问题,文献[7]以注释较为完整、本身具有较小基因组的细菌——肺炎支原体(含有694 个ORF、311 个ncRNA、43 个编码RNA)作为研究对象,首次获得了一个既包含编码基因,又包含ncRNA的最小细胞。

总的来说,研究基因组中的必需基因组元件,如必需ncRNA 等,在生物学研究中具有重要的科学意义和应用价值,包括从合成生物学到抗病原菌的药物靶标确定。因此,必需ncRNA 应该如必需基因概念一样,成为最小基因组研究的重要对象之一。为达到这一目标,亟需确定细菌的必需ncRNA,这就需要发展快速确定必需ncRNA 的计算机识别算法,因此收集细菌的必需ncRNA 作为算法开发数据集显得及其重要和必要。

目前,还没有专门的必需ncRNA 数据库。天津大学生物信息中心构建的必需基因数据中虽然收集了目前测序的必需ncRNA,但是该数据库仅收集了必需ncRNA 的序列信息[16-19],这对于开发高效的必需ncRNA 计算机识别方法是不足的。基于此,本研究构建了专门的细菌必需ncRNA 数据库DBEncRNA(database of bacterial essential ncRNA),更便于进一步研究抗菌靶标发现和最小基因组。

1 材料与方法

1.1 微生物必需ncRNA 数据来源

目前在12 种细菌中,必需ncRNA 已经被系统地实验确定。虽然必需ncRNA 的数据量相较必需基因要少很多,但没有一个真正的必需ncRNA 数据库跟得上科学研究和药物设计的需要。本研究收集测序的细菌基因组中包含了和人类疾病密切相关的细菌必需ncRNA。目前,DEG 数据库收录了部分细菌的必需ncRNA 数据[16],如表1 所示。

表1 来源于DEG 数据库的细菌必需ncRNA 数据

此外,为了使得构建DBEncRNA 数据库包含的物种和序列更全面,除了上表所列数据,本文还通过“essential”、“ncRNA”、“non-coding RNA”、“essentiality”、“microorganism”、“bacteria”等关键字的组合在Google、Pubmed 等数据库上进行检索,将检索到的符合要求的序列作为DBEncRNA数据库的来源。

1.2 必需ncRNA 二级结构数据来源

必需ncRNA 是从功能上来定义的,而功能与结构是密切相关的[2,25],因此对RNA 分子结构的研究就成为分子生物学的一个重要领域,其中RNA二级结构预测被作为研究RNA 分子结构的主要手段。因此为了方便用户使用DBEncRNA 数据库,本文用RNAfold 工具对每一个收集的必需ncRNA进行了二级结构预测[26]。同时为了方便用户直观地观察ncRNA 的二级结构,本文调用了RNA 二级结构可视化工具Forna[27]。

1.3 序列比对

在生物信息学中,通常认为序列相似则功能相似,为了帮助用户挖掘其余未经实验确定的必需ncRNA,DBEncRNA 数据库引入BLAST 序列比对功能,帮助使用者基于DBEncRNA 数据库通过同源序列比对发现其感兴趣的ncRNA 序列[28]。

2 结果与讨论

2.1 DBEncRNA 数据库内容

DBEncRNA 数据库的原始必需ncRNA 数据来源于DEG 6.5 和关键字爬取,在获得原始数据后进行以下处理:首先,因为DBEncRNA 数据库提供了必需ncRNA 的二级结构信息,因此剔除没有核酸序列的ncRNA 信息;其次,根据DBEncRNA数据库的使用功能,筛选保留描述ncRNA 的相关信息,如表2 所示。最终获得了一个含有20 株细菌,共包含884 条必需ncRNA 序列及相关信息的数据库,如表3 所示。

表2 DBEncRNA 数据库细菌必需ncRNA 信息

表3 DBEncRNA 数据库数据统计信息

其中新月柄杆菌(Caulobacter crescentus)的必需ncRNA 数目占数据库总数的近61%,其次是鲍氏不动杆菌(Acinetobacter baumanniiATCC 17978)的必需ncRNA 数目,占近7%。实验确定必需ncRNA的培养条件总共有5 种,其中主要以完全培养基(rich medium)条件为主,占75%,这是在充足生长条件下确定必需基因和必需ncRNA 的常用培养条件。根据ncRNA 所属类别可将ncRNA 分为10 大类,如图1 所示, 属于启动子类型的ncRNA 将近一半,其次是属于tRNA 类型的ncRNA。

图1 DBEncRNA 数据库必需ncRNA 类别分布图

2.2 ncRNA 二级结构

为了方便用户使用DBEncRNA 数据库,本文用RNAfold 软件数据库收集的每个必需ncRNA 进行二级结构预测,对于每一条必需ncRNA,RNAfold采用两种方法对其进行预测,分别是基于最小自由能的预测方法(minimum free energy)和基于热力学的预测方法(thermodynamic ensemble),对于每一种预测的二级结构,均给出该结构下的最小自由能等信息。

将预测出的每种二级结构以及对应的分子结构注释信息导入到DBEncRNA 数据库,同时,引入可视化插件,使用人员可以按需查看其二级结构。

2.3 DBEncRNA 数据库构建

DBEncRNA 的数据主要包括884 个ncRNA 及其预测的分子结构和注释信息,所有数据被整理并存储在关系型数据库MYSQL 上,可通过http://yeyn.group:86 免费访问,DBEncRNA 经测试可在不同的操作系统(如Windows、Linux 和 Mac)以及各种浏览器(如Internet Explorer、Mozilla Firefox、Google Chrome)上使用。

2.4 通过序列比对预测必需ncRNA 与数据下载

通常认为序列相似则功能相似,为了帮助用户确定其感兴趣的ncRNA 是否属于必需ncRNA,将BLAST 序列比对工具引入DBEncRNA 数据库。用户可以通过提交序列预测其必需性,该功能可以通过点击DBEncRNA 数据库页面上的“BLAST”链接实现。

为了方便用户使用,本文还提供DBEncRNA数据库的数据下载,用户可以根据研究需要,下载必需ncRNA 的核酸序列和二级结构数据。

3 结 束 语

当前,必需ncRNA 的数据量持续增加,但还没有一个真正的必需ncRNA 数据库。这远远跟不上科学研究和药物设计的需要,急需开发出专门的数据库并在此基础上开发必需ncRNA 识别的计算机软件去识别更多的必需ncRNA。因此,本研究通过收集已经测序的细菌基因组中包含的必需ncRNA,构建了必需ncRNA 数据库。基于该数据库的数据,生物信息人员后续可以开发基因序列组成和序列衍生信息的必需ncRNA 识别算法,同时可以利用其二级结构数据以提高相关算法的准确性。

DBEncRNA 数据库能对抗菌药物靶标发现和对合成生物学研究提供数据支撑。除此之外,对病原菌必需ncRNA 的深入研究也将推动开发新的致病菌快速检测系统。DBEncRNA 数据库有助于设计针对特定致病菌高度特异和高度敏感的RNA 探针,而后者可应用于临床快速检测系统。总之,利用DBEncRNA 数据有助于开发出预测每种致病菌特有必需ncRNA 的方法,也有助于发展新的致病菌特异性预防和治疗方法。

猜你喜欢
基因组编码细菌
HEVC对偶编码单元划分优化算法
“植物界大熊猫”完整基因组图谱首次发布
我国小麦基因组编辑抗病育种取得突破
宏基因组测序辅助诊断原发性肺隐球菌
住院病案首页ICD编码质量在DRG付费中的应用
生活中的编码
细菌大作战
冰箱里的细菌会被冻死吗
细菌惹的祸
论纪录片影像中的组合编码运用