基于Roche 454 GS FLX高通量测序的叶城沙蜥基因组微卫星特征分析

2019-02-15 05:10宋琪刘金龙郭宪光
四川动物 2019年1期
关键词:微卫星碱基高通量

宋琪, 刘金龙, 郭宪光*

(1.中国科学院成都生物研究所,成都610041; 2. 中国科学院大学,北京100049)

微卫星(microsatellite)又称为简短串联重复(short tandem repeats,STRs)或简单序列重复(simple sequence repeats,SSRs),Skinner等(1974)在寄居蟹Paguruspollicaris中发现微卫星DNA序列开启了对真核生物中微卫星序列的了解。直到Powell等(1996)定义了微卫星位点,认为微卫星DNA序列一般是以1~6个核苷酸为重复单位的串联重复序列,在从病毒到真核生物的基因组中均有分布,并且具有高度的长度多态性(Zaneetal.,2002)。由于微卫星突变速率快、多态性高、分布广泛、符合孟德尔遗传、易于检测等优点,被广泛应用于种群遗传、谱系地理和亲子鉴定等领域。据Guichoux等(2011)统计,1990—2009年有关微卫星的论文数量增长迅猛。而开发微卫星标记的传统方法耗时、耗力(Abdelkrimetal.,2009),采用高通量测序技术获得微卫星序列已发展为主流方法(曾聪等,2013;黄杰等,2015;Zhouetal.,2016)。其中,二代测序技术——Roche 454 测序除高效、快捷外,其片段读长更大,更适合微卫星标记的开发(Allentoftetal.,2009;程晓凤等,2011)。

叶城沙蜥Phrynocephalusaxillaris隶属于鬣蜥科Agamidae沙蜥属Phrynocephalus,是我国特有的一种小型爬行动物,分布于我国新疆天山山脉南部地区,包括塔里木盆地及周边的吐鲁番-哈密盆地和敦煌盆地(赵尔宓等,1999)。其栖息生境为戈壁、荒漠或沙漠边缘地带以及固定沙丘的丘间平地(<3 000 m;赵尔宓等,1999)。有关叶城沙蜥种群遗传结构,利用线粒体基因数据并未得到很好的解析,这可能与其分化时间太短或不完全谱系分选有关(Zhangetal.,2010;李俊,2013)。基于微卫星位点变异速率快、多态性高等特点,有望更全面地解析叶城沙蜥的种群遗传结构。

叶城沙蜥微卫星标记的研究仅见于Nie等(2015)运用转录组测序对青海沙蜥P.vlangalii开展的微卫星位点开发,跨物种在叶城沙蜥中检测到17个可扩增的微卫星位点。本研究通过Roche 454 GS FLX高通量测序,对叶城沙蜥基因组进行测序,同时用搜索软件扫描基因组序列,搜索和输出其微卫星序列。本研究首次对叶城沙蜥核基因组微卫星序列进行了初步的统计和分析,旨在对其基因组水平上的微卫星重复序列的种类、数量等进行初步探索,以期为开发和筛选大量高质量微卫星标记提供数据支持,也为利用微卫星标记研究叶城沙蜥的种群遗传结构和谱系地理模式奠定基础。

1 材料和方法

1.1 样品收集、基因组DNA提取及Roche 454 GS FLX高通量测序

用于基因组测序的叶城沙蜥标本(标本号:WGXG08226)于2008年6月采于新疆维吾尔自治区吐鲁番沙漠植物园(89.19°E,42.86°N),经75%乙醇固定后,保存于中国科学院成都生物研究所两栖爬行动物标本馆。其肝脏组织样品固定于95%乙醇中,-20 ℃保存。2013年11月将提取的基因组DNA送上海美吉生物信息科技有限公司,采用基于焦磷酸测序法的高通量基因测序系统——Roche 454 GS FLX进行基因组测序。

1.2 数据分析

采用Roche 454 GS FLX系统对测序数据进行过滤、整理,使用Newbler 2.6(Roche,2011)对优化后的原始数据从头拼装(denovoassembly),并将组装出的contigs和未拼装的single read序列合并。采用Krait(Duetal.,2018)对合并的总序列进行微卫星位点的查找,所使用的搜索标准如下:单碱基重复≥9次,其他碱基重复(二碱基、三碱基、四碱基、五碱基、六碱基)≥5次,其余参数采用默认设置。

2 结果与分析

2.1 测序数据统计

原始测序数据的每条read经过质量过滤后,对下机数据进行统计,得到91 190条reads,共47 982 924 bp,最短的27 bp,最长的1 168 bp,平均长度为526.2 bp,主要集中分布在550~750 bp(图1)。

2.2 基因组组装

利用Newbler对reads拼接,得到715个contigs,共359 650 bp,最短的100 bp,最长的15 025 bp,平均为503 bp。未拼接上的reads有65 873个,共34 820 132 bp。

2.3 微卫星位点分析

将组装出的contigs和未组装的single read序列合并,得到合并序列66 588个,共35 179 782 bp。对合并的总序列进行微卫星位点分析,获得微卫星重复序列29 890个。重复类型最多的为单碱基重复类型,占总重复类型的48.95%;其次是二碱基重复类型,占28.60%;最少的为六碱基重复类型,仅占0.32%(表1)。

图1 Roche 454 GS FLX原始数据长度分布统计Fig. 1 Distribution of the sequence length for the raw reads data in Roche 454 GS FLX

A~C″代表不同的序列长度范围 A to C″ means different ranges of sequence length; A. 1~40, B. 41~60, C. 61~80, D. 81~100, E. 101~120, F. 121~140, G. 141~160, H. 161~180, I. 181~200, J. 201~220, K. 221~240, L. 241~260, M. 261~280, N. 281~300, O. 301~320, P. 321~340, Q. 341~360, R. 361~380, S. 381~400, T. 401~420, U. 421~440, V. 441~460, W. 461~480, X. 481~500, Y. 501~520, Z. 521~540, A′. 541~560, B′. 561~580, C′. 581~600, D′. 601~620, E′. 621~640, F′. 641~660, G′. 661~680, H′. 681~700, I′. 701~720, G′. 721~740, K′. 741~760, L′. 761~780, M′. 781~800, N′. 801~820, O′. 821~840, P′. 841~860, Q′. 861~880, R′. 881~900, S′. 901~920, T′. 921~940, U′. 941~960, V′. 961~980, W′. 981~1 000, X′. 1 001~1 020, Y′. 1 021~1 040, Z′. 1 041~1 060, A″. 1 061~1 080, B″. 1 081~1 140, C″. 1 141~1 180

表1 不同重复类型的完美型微卫星在叶城沙蜥基因组的分布Table 1 Distribution of perfect microsatellites for different repeat types in the genome of Phrynocephalus axillaris

2.3.1各重复拷贝类型的数量和相应的比例同一种类型的重复序列中,各重复拷贝类型所占的比例不相同(表2)。二碱基重复类型中,AC重复拷贝类型最多,占二碱基重复序列总数的54.94%,有4 697个,其次是AG(37.20%)和AT(6.84%),CG最少,只有87个,占1.02%。三碱基重复类型中,有 9种重复拷贝类型,数量较多的是ATC和AAT,分别有588个和498个,占三碱基重复序列总数的18.78%和15.90%,其他类型详见表2。四碱基重复类型的重复拷贝类型有27种,最多的是AAAT,有1 288个,占四碱基重复序列总数的40.16%,其次是ATAG,占15.06%,其他类型相对较少,占比均不超过10%。五碱基重复类型中,AAAAT重复拷贝类型最多,有87个,占五碱基重复序列总数的31.75%;其次是AAAAC(16.42%)、AATAG(5.11%)、AAAAG(4.01%),其他类型均不超过10个。六碱基重复类型中,最多的是AATCCC,有20个,占六碱基重复序列总数的20.62%,其他类型均不超过20个。

表2 叶城沙蜥基因组中分布频率最高的微卫星重复类型Table 2 The most frequent microsatellite motifs detected in the genome of Phrynocephalus axillaris

2.3.2各种重复类型微卫星拷贝数的数量分布二碱基重复为5~186次,主要分布在5~9次,有6 248个,占二碱基重复类型总数的73.08%;三碱基重复为5~36次,主要分布在5~10次,有2 162个,占三碱基重复类型总数的69.03%;四碱基重复为5~43次,主要分布在5~14次,共2 625个,占四碱基重复类型总数的81.85%;五碱基重复为5~11次,共261个,占五碱基重复类型总数的95.26%;六碱基重复为5~17次,主要分布在5~9次,共87个,占六碱基重复类型总数的89.69%(图2)。

数量最多的前11个完美型微卫星重复类型依次是C、A、AC、AG、AAAT、ATC、AT、AAT、ATAG、AGG、AAC,这些微卫星在基因组中均出现400次以上,占完美型微卫星总数的89.96%。

图2 叶城沙蜥不同重复类型微卫星拷贝数的分布Fig. 2 Distribution of the copy number in different microsatellite motifs for Phrynocephalus axillaris

3 讨论

由于单碱基重复难以准确测定(Sunetal.,2006),通常在分析开始就被舍弃(Kimetal., 2008)。本研究表明,除单碱基重复外的所有重复类型中,二碱基重复最多,这与大熊猫Ailuropodamelanoleuca和北极熊Ursusmaritimus(李午佼等,2014)、褐菖鲉Sebastiscusmarmoratus(Songetal.,2017)和团头鲂Megalobramaamblycephala(曾聪等,2013)等类似。这可能与微卫星序列越长、突变率越高、稳定性越差有关(Wierdletal.,1997)。在很多真核生物中,重复长度和重复频率呈负相关(Kattietal.,2001)。本研究发现随拷贝数增加,重复序列数量变少,也符合这一整体趋势。此外,AC重复是叶城沙蜥基因组中二碱基重复中最多的类型,占54.94%,同时也是除单碱基重复外所有重复类型中最多的一类。脊椎动物基因组的30%~67%微卫星重复是二碱基重复,而AC重复是最多的一种(Tóthetal.,2000),本研究结果也支持了此观点。

表3 分布频率最高的重复类型微卫星的拷贝数分布Table 3 Distribution of the copy repeats number of the most frequent microsatellite motifs

二代测序出现前,对于非模式生物,微卫星重复类型的获得均是一个瓶颈(Guichouxetal.,2011)。随着高通量测序技术的发展,测序成本逐渐降低,可获得的数据越来越多,这为进一步增进对非模式物种的深度了解提供了契机。Nie等(2015)运用高通量测序技术对青海沙蜥进行转录组测序,鉴定、筛选出25个微卫星位点,其中17个可在叶城沙蜥中扩增;而经Bonferroni校正后,其中有9个显著偏离哈迪-温伯格平衡(P<0.01),且这些位点的扩增适用性及多态性尚未在叶城沙蜥的不同种群中验证。本研究使用高通量测序技术对叶城沙蜥进行基因组SSR分子标记开发及分析,并基于Krait(Duetal.,2018)对基因组中完美型微卫星进行统计,深化了对叶城沙蜥基因组的认识和了解,并为下一步开发和筛选大量高质量微卫星标记提供数据支持,还为利用微卫星标记研究叶城沙蜥种群遗传结构和谱系地理模式奠定了基础。

猜你喜欢
微卫星碱基高通量
酰胺质子转移成像和扩散峰度成像评估子宫内膜癌微卫星不稳定状态
绿鳍马面鲀全基因组微卫星分布特征
新一代高通量二代测序技术诊断耐药结核病的临床意义
基于转录组西施舌微卫星标记开发及隐种鉴定
花斑无须鲶(Ageneiosus marmoratus)全基因组微卫星分布特征研究
应用思维进阶构建模型 例谈培养学生创造性思维
高通量血液透析临床研究进展
比较高通量血液透析与血液透析滤过在尿毒症患者中的应用效果
中国科学家创建出新型糖基化酶碱基编辑器
中草药DNA条形码高通量基因测序一体机验收会在京召开