一种改进的多聚腺苷酸化位点提取方法

2018-11-01 03:04张洋子
电脑知识与技术 2018年19期
关键词:基因组预处理位点

张洋子

摘要:多聚腺苷酸化是真核生物基因表达的重要步骤。多聚腺苷酸化位点(Poly(A)位点)标识基因末端,准确识别poly(A)位點有利于确定成熟的mRNA。如果一个基因含有多个poly(A)位点,通过不同poly(A)位点的选择可以产生不同性质的mRNA(Alternative Polyadenylation, APA)。全基因组3末端测序技术产生了大量包含poly(A)位点信息的序列,如何从这些序列中快速有效地获取poly(A)位点成为生物学家关注的焦点。本文针对3末端测序数据,通过Perl脚本和生物信息软件的综合利用,设计了poly(A)位点的全基因组提取流程,可有效提取poly(A)位点并对其进行注释,该方法优势是适用于多种物种,适用性广,且运行高效。

关键词:Poly(A)位点;3末端测序技术;提取流程

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)19-0287-01

1 研究背景和现状

多聚腺苷酸化(Polyadenylation)是把一段多聚A尾巴加到mRNA上的机制,多聚腺苷酸化位点(Poly(A)位点)标识基因末端,mRNA分子于它们的5末端进行加帽,3端中断,加上一段多聚A尾巴,加尾过程由多聚腺苷酸聚合酶催化进行,进而形成成熟的mRNA。如果一个基因含有多个poly(A)位点,通过不同poly(A)位点的选择可以产生不同性质的mRNA(Alternative Polyadenylation, APA)。APA通过改变mRNA的3UTR的长度及其性质进而改变位于3末端的许多潜在顺式调控模式,从而达到调控基因表达的目的。

虽然当前已获得许多物种的poly(A)位点信息,但还有多种物种的poly(A)位点信息尚未提取,一方面Poly(A)位点提取的准确性受测序方法和测序深度影响,另一方面poly(A)位点提取过程没有流程化处理,较为烦琐。随着3末端测序方法的不断探索和改进,涌现出很多3末端测序方法,比如WTTS-Seq1, 3READS2,3, A-seq4, PAS-seq5。这些实验方法把焦点集中在3UTR区域,增加了获得更多位点的可能性。为了帮助生物学家从海量数据中提取出有效的poly(A)位点,本文研究了poly(A)位点提取方法并整合了流程,使运行流畅高效。

2 提取方法

Poly(A)位点的提取方法分为测序数据预处理、序列比对至基因组、位点的识别和聚类以及poly(A)位点的注释4个步骤,方法流程见图1。

1) 测序数据预处理:包括质量控制以及去除polyA/T尾巴(测序方向决定A/T);测序后获得原始序列,序列3端含有连续的A/T,数据格式为FASTQ。质量控制的目的是过滤低质量的序列,采用FASTX-Toolkit(http://hannonlab.cshl.edu/fastx_toolkit)进行质量控制,再去除3端接头含有的A/T尾巴,去A/T尾过程允许一定的错配。

2) 序列比对至基因组。将预处理后保留的序列比对至基因组,用TMAP((https://github.com/iontorrent/TMAP)将序列比对至参考基因组,参考基因组可从NCBI下载,保留高质量比对结果用于进一步分析。

3) 位点的识别和聚类。识别poly(A)位点,根据比对后的位置以及方向信息,确定poly(A)位点的位置。由于poly(A)位点的微观不一致性6–8,许多poly(A)位点之间是位置相近,已有研究表明相聚在20nt以上的poly(A)位点可以由不同的poly(A)信号控制,把24bp以内的poly(A)位点聚类到一起,认为是1个poly(A)位点。

4) Poly(A)位点的注释。由于一个基因可能存在多种转录本或者基因有重叠,在poly(A)位点的注释过程中,poly(A)位点可能属于多个区域,本文采用固定位置优先级解决这个问题。

为了检测方法的有效性,本文从NCBI下载了8组用WTTS-Seq产生的小鼠的共计43,846,314条3末端测序序列,通过本文设计的poly(A)位点提取方法,识别出56,483个poly(A)位点(每个位点至少有16条序列支持),其中49,783个poly(A)位点注释到基因内,其他poly(A)位点注释到基因间区域。约66%(8,122/12,286)个编码蛋白质(Protein coding)基因内多于1个poly(A)位点,27% (442/1,665)个长链非编码RNA(Long non-coding RNA, lncRNA)基因内多于1个poly(A)位点。

为了进一步检测该方法提取出的poly(A)位点的可靠性,本文提取了poly(A)位点前100nt的碱基,分析其信号模式,根据已有的28个poly(A)信号,用滑动窗口扫描前100nt的序列,结果如图2表示,AATAAA是最保守的信号,与现有研究一致。

3 结束语

本文为帮助生物学家快速提取有效的poly(A)位点,针对当前3末端测序技术得到的海量数据,设计了poly(A)位点的提取方法,流程简单,运行效率高,适用性广。为检测方法的有效性,用3末端测序得到的小鼠序列进行检测,结果表明该方法可以提取出位于不同基因类型的poly(A)位点,poly(A)信号模式与当前研究相一致。

参考文献:

[1] Zhou, X. et al. Accurate profiling of gene expression and alternative polyadenylation with whole transcriptome termini site sequencing (WTTS-Seq). Genetics,2016(203):683–697.

[2] Hoque, M. et al. Analysis of alternative cleavage and polyadenylation by 3 [prime] region extraction and deep sequencing. Nat. Methods,2013(10):133–139.

[3] Li, W. et al. Systematic profiling of poly (A)+ transcripts modulated by core 3end processing and splicing factors reveals regulatory rules of alternative cleavage and polyadenylation. PLoS Genet,2015(11): e1005166.

[4] Gruber, A. R., Martin, G., Keller, W. & Zavolan, M. Cleavage factor Im is a key regulator of 3′ UTR length. RNA Biol,2012(9):1405–1412.

[5] Shepard, P. J. et al. Complex and dynamic landscape of RNA polyadenylation revealed by PAS-Seq. Rna ,2011(17):761–772.

[6] Shen, Y. et al. Genome level analysis of rice mRNA 3???-end processing signals and alternative polyadenylation. Nucleic Acids Res,2008(36):3150–3161.

[7] Tian, B., Hu, J., Zhang, H. & Lutz, C. S. A large-scale analysis of mRNA polyadenylation of human and mouse genes. Nucleic Acids Res,2005(33):201–212.

猜你喜欢
基因组预处理位点
镍基单晶高温合金多组元置换的第一性原理研究
牛参考基因组中发现被忽视基因
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
二项式通项公式在遗传学计算中的运用*
基于预处理MUSIC算法的分布式阵列DOA估计
浅谈PLC在预处理生产线自动化改造中的应用
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法
基因组DNA甲基化及组蛋白甲基化
有趣的植物基因组