高通量测序技术简述

2020-06-19 08:50马素平
科学与信息化 2020年11期
关键词:高通量碱基位点

马素平

摘 要 高通量测序技术为生命科学研究提供了前所未有的机遇。本文主要对以DNase-seq、ChIP-seq和RNA-seq为代表的二代测序技术,以及以Nanopore测序为代表的三代测序技术的原理、建库步骤和优缺点做了总结,并对今后测序技术的发展做了展望。

关键词 高通量测序技术;DNase-seq;ChIP-seq;RNA-seq;Nanopore测序

高通量测序技术,也称二代测序技术、下一代测序技术(Next-Generation Sequencing,NGS)。人类全基因组序列草图在2001年完成后,其他几种模式生物的基因组序列也被确定,这些实验基于Sanger DNA测序技术完成,但逐渐暴露出该技术耗时较长、反应数目有限的问题。自2005年起,454焦磷酸测序技术(Roche公司,2005年)、Solexa聚合酶测序技术(Illumina公司,2006年)和Solid连接酶测序技术(ABI公司,2007年)逐渐发展成熟,这三个技术拥有共同的突出特点是单次运行即可产出大量的序列数据,故统称为高通量测序技术(High-throughput sequencing)。

高通量测序技术的发展,为人类探索基因组奥秘提供了重要的序列信息。近年来,该技术在动植物等领域都得到了广泛应用,包括基因组的测序,转录组的测序及小 RNA的测序等,为多组学的发展提供了更多的思路和方案。

1二代测序技术

二代测序技术常用的测序平台是Illumina/Solexa,其工作原理是边合成边测序,在测序之前需要先对样品进行桥式扩增,以便得到更高的测序深度。后续实验流程为:以桥式扩增后得到的单链DNA作为模板,添加带有保护基团与不同荧光标记基团的四种游离碱基,故每次反应只会添加一个碱基,并且可用通过成像系统采集荧光以确定添加碱基的类别。该次反应结束后,洗去游离碱基,并通过化学试剂移除保护基团,使荧光标记失活,以进行下一次反应测定下一位碱基[1]。该技术初期只能读取较短的序列(20-30bp),但随着技术不断地改进,现已可读取100bp以上,并且双端测序(Paired End,PE)也普遍应用,双端测序得到的读长是单端的两倍,测序深度也在不断地增加。

1.1 DNase-seq技术

在过去的25年里,传统的Southern印迹方法已鉴定出数百个DNase I 的高敏感位点(DHS,指位于核小体之间且可以被DNase I切割的位点),并发现它们与许多活性调控元件相关,包括启动子、增强子、沉默子、绝缘子以及其他基因组调控区域,这使得DNase I高敏感位点的检测成为鉴定基因调控元件的理想方式。传统的Southern印跡方法虽然准确有效但不适用于全基因组的分析,故DNase-seq技术被开发出来,此技术单次可检测大量的DHS。该技术主要利用DNase I对基因组上具有高敏感性的位点进行切割,实验流程为:利用合适浓度的DNase I对基因组进行消解,然后对消解后的片段进行扩增,进而测序。测序结果中片段富集的区域,通常就是转录因子或者核小体结合的位置[2-3]。

该方法的优点是操作简单、易于建立实验体系;可用于多种细胞;根据测序结果可大致推测出核小体及转录因子的结合位置。缺点是很难控制最佳的DNase I消解条件;需要细胞的起始量较多,因此不适用于细胞量较少的样本;DNase I切割DNA具有序列依赖性,存在较大误差。

1.2 ChIP-seq技术

染色质免疫共沉淀技术(ChIP-seq, Chromatin Immunoprecipitation with high throughput sequencing)[4],也称结合位点分析法,是继ChIP、ChIP-chip之后将染色质免疫共沉淀反应与深度测序相结合的一种技术,旨在研究生物体内蛋白质与DNA的相互作用,常用于转录因子结合位点以及组蛋白特异性修饰位点的研究。该技术大致实验流程包括:①利用甲醛交联细胞或组织;②分离基因组DNA,超声打断;③加入目的蛋白的特异性抗体;④解交联,纯化DNA片段;⑤加测序接头,进行PCR文库扩增;⑥高通量测序。

该技术与ChIP和ChIP-chip相比,优点是可实现真正的全基因组范围分析转录因子或组蛋白的结合;有较好的分辨率,能够精确地募集到与蛋白结合的DNA序列;所需样本量少;且不需要杂交。缺点是抗体的价格较昂贵。

1.3 RNA-seq技术

RNA-seq技术于2008年首次被提出,成为近年来利用转录组测序研究基因功能的最常用技术[5]。实验基本流程如下:①提取样本中总的RNA;②通过Oligo(dT)磁珠富集mRNA;③超速离心片段化;④加入随机引物逆转录形成cDNA;⑤进行末端修复加上poly A尾及测序所需接头序列;⑥片段选择;⑦纯化和PCR扩增;⑧质检并测序。该技术被广泛应用因为其具有很多优势:①定量准确,对单碱基有较高的分辨率,可识别SNP;②适用于任何物种,无须提供基因注释信息。③所需样品量少,适用于不易获得的样品或稀缺样品,比如,癌症的干细胞测序。④可检测可变剪接事件。RNA-seq虽优势众多,但同时也存在缺点:因为细胞中存在大量的核糖体RNA(rRNA),所以人们常采用polyA RNA选择的方法,但有研究人员发现这种方法只能检测到人细胞内部分的非核糖体RNA,故检测的RNA不能代表细胞内所有的mRNA水平[6]。

RNA-seq技术优势众多,所以其应用也尤为广泛:①可用于定量分析基因的表达水平。②可用于转录本结构的研究。RNA-seq利用其单碱基分辨率结合深度测序可以提供丰富的基因注释信息,包括5′ UTR、3′ UTR以及新转录区域的鉴定等[7],同时可检测到低丰度表达的转录本.③可用于非编码区域的功能研究。在人类基因组中,93%以上的基因组可以转录出RNA,但只有不到2%的序列可以编码蛋白质,剩余91%的基因组转录出来的RNA都不具有编码蛋白质的能力,这类RNA称为ncRNA(non-coding RNA)。

2三代測序技术

近些年来,三代测序技术发展如火如荼,目前主要有两大代表:PacBio的SMRT sequencing以及Nanopore公司的Nanopore sequencing(纳米孔测序)。纳米孔测序由于设备简单,样品制备灵活,更适合在普通实验室条件下进行,所以这里主要介绍纳米孔测序。

Nanopore技术的核心原理是有一个由蛋白(称为“Reader”蛋白)构成的纳米级小孔,称为“Pore”,一般是由跨膜蛋白经基因工程改造后的蛋白,该蛋白插在一层电阻率很高的薄膜中,因薄膜两侧的电位不同,这样就使得离子可以从膜的一侧移动到另一侧,小孔中便会有电流产生,当测序的单链分子通过该小孔时,就会对离子的流动造成阻碍,因不同碱基阻碍大小不同,故可由记录下来的电流波动信号经分析反推得到对应的碱基。Nanopore测序技术的优点是:①仪器轻便,方便携带。②读长长。Nanopore可测得30~40w个碱基,可进行De novo或者基因组结构的预测。③可直接对RNA进行测序,便于发现RNA上的碱基修饰。缺点是:①判读碱基的准确率有待提高。因每次通过小孔时会同时经过5个碱基,所以形成的信号是5个碱基共同作用的结果;其次对于结构相似的碱基,识别率低(如A与G;C与T) 。②试剂的稳定性还有待提高[8]。由于纳米孔测序原理的特殊性,甚至有团队试图开发用其对氨基酸序列进行直接测序的方法。

3展望

目前基因组学、生物物理学、计算生物学和数学建模等领域跨学科的发展,可有望实现在时间和空间上描绘出人类基因组的4D结构特征,同时人工智能时代的到来将会加速这一进程。相信在不久的将来,高通量测序技术的发展会为解析人类生命奥秘做出巨大贡献。

参考文献

[1] Fedurco M,Romieu A,Williams S,et al. BTA,a novel reagent for DNA attachment on glass and efficient generation of solid-phase amplified DNA colonies[J]. Nucleic acids research,2006,34(3):22.

[2] Song L,Crawford G E . DNase-seq:A High-Resolution Technique for Mapping Active Gene Regulatory Elements across the Genome from Mammalian Cells[J]. Cold Spring Harbor Protocols,2010,2010,(2):5384.[3]Hesselberth JR,Chen X,Zhang Z,et al. Global mapping of protein-DNA interactions in vivo by digital genomic footprinting[J]. Nature Methods,2009,6(4):283.

[4] Park PJ. ChIP-seq:advantages and challenges of a maturing technology[J]. Nature Reviews Genetics,2009,10(10):669.

[5] Marioni JC,Mason CE,Mane SM,et al. RNA-seq:An assessment of technical reproducibility and comparison with gene expression arrays[J]. Genome Research,2008,18(9):1509-1517.

[6] Raz T,Kapranov P,Lipson D,et al. Protocol Dependence of Sequencing-Based Gene Expression Measurements[J]. Plos One,2011,6(5):19287.

[7] Mortazavi A,Williams BA,McCue K,et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq[J]. Nature Methods,2008,5(7):621-628.

[8] Branton D,Deamer DW,Marziali A,et al. The potential and challenges of nanopore sequencing[J]. Nature Biotechnology,2008,26(10):1146-1153.

猜你喜欢
高通量碱基位点
高通量血液透析治疗老年慢性肾衰竭对治疗有效率、Hb及ALB指标的影响研究
新一代高通量二代测序技术诊断耐药结核病的临床意义
高通量卫星通信综述
基因“字母表”扩充后的生命
相信科学!DNA追凶是如何实现的?
创建新型糖基化酶碱基编辑器
DNA甲基化跨代遗传取得新进展(2020.6.11 中国科学院)
鸡BCO2基因功能性单核苷酸多态性的生物 信息分析
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员