一种改进的多聚腺苷酸化位点提取方法

2018-11-01 03:04张洋子

电脑知识与技术 2018年19期

张洋子

摘要：多聚腺苷酸化是真核生物基因表达的重要步骤。多聚腺苷酸化位点（Poly（A）位点）标识基因末端，准确识别poly（A）位點有利于确定成熟的mRNA。如果一个基因含有多个poly（A）位点，通过不同poly（A）位点的选择可以产生不同性质的mRNA（Alternative Polyadenylation， APA）。全基因组3末端测序技术产生了大量包含poly（A）位点信息的序列，如何从这些序列中快速有效地获取poly（A）位点成为生物学家关注的焦点。本文针对3末端测序数据，通过Perl脚本和生物信息软件的综合利用，设计了poly（A）位点的全基因组提取流程，可有效提取poly（A）位点并对其进行注释，该方法优势是适用于多种物种，适用性广，且运行高效。

关键词：Poly（A）位点；3末端测序技术；提取流程

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2018）19-0287-01

1 研究背景和现状

多聚腺苷酸化（Polyadenylation）是把一段多聚A尾巴加到mRNA上的机制，多聚腺苷酸化位点（Poly（A）位点）标识基因末端，mRNA分子于它们的5末端进行加帽，3端中断，加上一段多聚A尾巴，加尾过程由多聚腺苷酸聚合酶催化进行，进而形成成熟的mRNA。如果一个基因含有多个poly（A）位点，通过不同poly（A）位点的选择可以产生不同性质的mRNA（Alternative Polyadenylation， APA）。APA通过改变mRNA的3UTR的长度及其性质进而改变位于3末端的许多潜在顺式调控模式，从而达到调控基因表达的目的。

虽然当前已获得许多物种的poly（A）位点信息，但还有多种物种的poly（A）位点信息尚未提取，一方面Poly（A）位点提取的准确性受测序方法和测序深度影响，另一方面poly（A）位点提取过程没有流程化处理，较为烦琐。随着3末端测序方法的不断探索和改进，涌现出很多3末端测序方法，比如WTTS-Seq1， 3READS2，3， A-seq4， PAS-seq5。这些实验方法把焦点集中在3UTR区域，增加了获得更多位点的可能性。为了帮助生物学家从海量数据中提取出有效的poly（A）位点，本文研究了poly（A）位点提取方法并整合了流程，使运行流畅高效。

2 提取方法

Poly（A）位点的提取方法分为测序数据预处理、序列比对至基因组、位点的识别和聚类以及poly（A）位点的注释4个步骤，方法流程见图1。

1）测序数据预处理：包括质量控制以及去除polyA/T尾巴（测序方向决定A/T）；测序后获得原始序列，序列3端含有连续的A/T，数据格式为FASTQ。质量控制的目的是过滤低质量的序列，采用FASTX-Toolkit（http：//hannonlab.cshl.edu/fastx_toolkit）进行质量控制，再去除3端接头含有的A/T尾巴，去A/T尾过程允许一定的错配。

2）序列比对至基因组。将预处理后保留的序列比对至基因组，用TMAP（（https：//github.com/iontorrent/TMAP）将序列比对至参考基因组，参考基因组可从NCBI下载，保留高质量比对结果用于进一步分析。

3）位点的识别和聚类。识别poly（A）位点，根据比对后的位置以及方向信息，确定poly（A）位点的位置。由于poly（A）位点的微观不一致性6–8，许多poly（A）位点之间是位置相近，已有研究表明相聚在20nt以上的poly（A）位点可以由不同的poly（A）信号控制，把24bp以内的poly（A）位点聚类到一起，认为是1个poly（A）位点。

4） Poly（A）位点的注释。由于一个基因可能存在多种转录本或者基因有重叠，在poly（A）位点的注释过程中，poly（A）位点可能属于多个区域，本文采用固定位置优先级解决这个问题。

为了检测方法的有效性，本文从NCBI下载了8组用WTTS-Seq产生的小鼠的共计43，846，314条3末端测序序列，通过本文设计的poly（A）位点提取方法，识别出56，483个poly（A）位点（每个位点至少有16条序列支持），其中49，783个poly（A）位点注释到基因内，其他poly（A）位点注释到基因间区域。约66%（8，122/12，286）个编码蛋白质（Protein coding）基因内多于1个poly（A）位点，27% （442/1，665）个长链非编码RNA（Long non-coding RNA， lncRNA）基因内多于1个poly（A）位点。

为了进一步检测该方法提取出的poly（A）位点的可靠性，本文提取了poly（A）位点前100nt的碱基，分析其信号模式，根据已有的28个poly（A）信号，用滑动窗口扫描前100nt的序列，结果如图2表示，AATAAA是最保守的信号，与现有研究一致。

3 结束语

本文为帮助生物学家快速提取有效的poly（A）位点，针对当前3末端测序技术得到的海量数据，设计了poly（A）位点的提取方法，流程简单，运行效率高，适用性广。为检测方法的有效性，用3末端测序得到的小鼠序列进行检测，结果表明该方法可以提取出位于不同基因类型的poly（A）位点，poly（A）信号模式与当前研究相一致。

参考文献：

[1] Zhou， X. et al. Accurate profiling of gene expression and alternative polyadenylation with whole transcriptome termini site sequencing （WTTS-Seq）. Genetics，2016（203）：683–697.

[2] Hoque， M. et al. Analysis of alternative cleavage and polyadenylation by 3 [prime] region extraction and deep sequencing. Nat. Methods，2013（10）：133–139.

[3] Li， W. et al. Systematic profiling of poly （A）+ transcripts modulated by core 3end processing and splicing factors reveals regulatory rules of alternative cleavage and polyadenylation. PLoS Genet，2015（11）： e1005166.

[4] Gruber， A. R.， Martin， G.， Keller， W. & Zavolan， M. Cleavage factor Im is a key regulator of 3′ UTR length. RNA Biol，2012（9）：1405–1412.

[5] Shepard， P. J. et al. Complex and dynamic landscape of RNA polyadenylation revealed by PAS-Seq. Rna ，2011（17）：761–772.

[6] Shen， Y. et al. Genome level analysis of rice mRNA 3？？？-end processing signals and alternative polyadenylation. Nucleic Acids Res，2008（36）：3150–3161.

[7] Tian， B.， Hu， J.， Zhang， H. & Lutz， C. S. A large-scale analysis of mRNA polyadenylation of human and mouse genes. Nucleic Acids Res，2005（33）：201–212.