基于EST序列的玫瑰EST—SNP位点发掘与分析

2016-05-30 10:48梁芳张继吕平龙凌云黄惠芳檀小辉韦丽君

南方农业学报 2016年3期

梁芳　张继　吕平　龙凌云　黄惠芳　檀小辉　韦丽君

摘要：【目的】发掘出一批玫瑰SNP候选位点，为进一步开发玫瑰EST-SNP标记及研究玫瑰遗传背景、相关性状的分子标记等打下基础。【方法】从美国国立生物技术信息中心（NCBI）的dbEST数据库下载27125条玫瑰EST序列，经生物信息学方法分析，发掘玫瑰EST-SNP位点，并对其所在核苷酸序列进行功能注释分析。【结果】对27125条EST进行拼接，共得到3544条重叠群（Contigs），其中有243个Contigs含有SNP候选位点。从中筛选出224个候选EST-SNP位点，其碱基突变类型中转换和颠换的数量分别占SNP候选位点总数的59.8%和27.2%。通过序列比对分析，发现有22个SNP位点来源于蔷薇科植物（与玫瑰同科），其中來源于野草莓的基因最多（8个），另有15个SNP位点所在的EST序列与某些软体动物门物种的基因具有较高同源性。【结论】NCBI中的玫瑰EST数据库数据庞大，足够发掘出大量的SNP标记，使得以EST-SNP对蔷薇科玫瑰等植物进行品种鉴定、分类、遗传多样性分析具有可行性。

关键词：玫瑰；EST序列；SNP位点；生物信息学；NCBI

中图分类号： S685.12 文献标志码：A 文章编号：2095-1191（2016）03-325-07

0 引言

【研究意义】玫瑰（Rosa rugosa）是蔷薇科重要的观赏植物，因其具有芳香且抗黑斑病、耐盐碱等特性而成为蔷薇科观赏植物育种的重要资源（Von Malek et al.，2000；冯立国等，2008；于晓艳等，2009）。我国的玫瑰种质资源丰富，但品种间的亲缘关系混乱，给其品种鉴定、分类及品种权保护带来很大困难，进而制约了玫瑰育种进程及其产业的发展，因此，对玫瑰进行品种鉴定、分类、遗传多样性分析是玫瑰研究的当务之急。发掘玫瑰单核苷酸多态性（Single nucleotide polymorphism，SNP）就是利用SNP对玫瑰进行品种鉴定、分类及遗传多样性研究，可为玫瑰育种提供新途径。【前人研究进展】自Picoult-Newberg等（1999）首次以表达序列标签（Expressed sequence tags，EST）数据库为基础发掘SNP位点以来，许多学者依照此法对不同物种进行了大量研究，目前已在人类（Garg et al.，1999）、小鼠和大鼠（Guryev et al.，2004）、牛（Snelling et al.，2005）、猪（Kerstens et al.，2009）及水产（曾地刚等，2014）等领域得到广泛应用。近年来，EST-SNP标记的开发在植物上也得到推广应用，如拟南芥（Torjék et al.，2003）、玉米（Batley et al.，2003）、水稻（Feltus et al.，2004）、松树（Dantec et al.，2004）、番茄（Yamamoto et al.，2005）和大麦（Kota et al.，2008）等。在蔷薇科植物中，多选择对梅、桃、杏、枇杷等经济果树进行分子系统发育进化及遗传多样性等研究，如王俊（2013）利用美国国立生物技术信息中心（NCBI）中已公布枇杷基因的部分序列为模板设计引物，筛选出7对引物进行基因克隆及同源性比对分析，结果表明，在不同枇杷品种间存在丰富的SNP位点。张得芳等（2014）也利用EST资源库下载相关数据进行分析，找到了EST- SNP位点在蔷薇科蔷薇属、苹果属、梨属、李属、草莓属和悬钩子属等6个属间的分布规律和特点。【本研究切入点】虽然关于EST-SNP位点开发的研究已有较多报道，但尚未发现在玫瑰中开发SNP标记。【拟解决的关键问题】从NCBI的玫瑰EST数据库下载大量EST数据，通过生物信息学方法发掘出一批玫瑰SNP候选位点，以期为进一步开发玫瑰EST-SNP标记及研究玫瑰遗传背景、相关性状的分子标记等打下基础。

1 材料与方法

1. 1 玫瑰EST获得及多序列聚类簇分析

从NCBI的dbEST数据库（http：//www.ncbi.nlm.nih.gov/nucest/？term=rose）下载27125条玫瑰EST序列，所有EST序列均以FASTA格式保存。利用DNASTAR 7.1.0（44.1）软件包中的SeqMan程序对下载的玫瑰EST序列进行聚类，属于同一个基因的EST聚类为1个Cluster，并对其进行序列拼接得到重叠群（Contigs）。

1. 2 玫瑰EST-SNP位点筛选及分析

玫瑰EST-SNP位点筛选用DNASTAR软件包中的SeqMan程序检测并去除所有玫瑰EST序列中存在的载体序列，然后组装拼接成Contigs。筛选EST-SNP位点原则：①候选SNP位点中的次要等位基因频率至少为30%（李猛等，2012）；②候选SNP位点两侧至少有5 bp完全保守的序列。为筛选出可靠性更高的候选SNP位点，本研究对筛选方法进行如下优化：①从拼接结果中提取含有20条以上（包括20条）EST序列的Contigs筛选SNP位点；②候选位点人工筛选时，从步骤①中筛选出的候选SNP位点两侧至少有8个碱基（bp）完全保守且次要等位基因所占比例不低于40%。

1. 3 候选SNP所在核苷酸序列同源性比对

提取候选SNP位点两端各约50 bp的EST序列，用NCBI上的BLASTn（http：//blast.ncbi.nlm.nih.gov/Blast.cgi？PROGRAM=blastn&PAGE_TYPE=BlastSearch&L-

INK_LOC=blasthome）数据库进行序列比对，提取与比对序列相似性最高的序列注释信息，对SNP靶向基因产物及物种来源进行分析。

2 结果与分析

2. 1 玫瑰EST序列聚类及EST-SNP位点分析结果

利用DNASTAR 7.1.0（44.1）软件包中的SeqMan程序去除载体序列后，对27125条EST进行拼接，共得到3544条Contigs。

2. 2 SNP位点人工筛选及分析结果

2. 2. 1 SNP位点人工筛选方法对软件筛选出的候选SNP位点进行人工筛选，进一步提高候选SNP位点的可靠度。本研究在筛选候选SNP位点时，把包含4条EST序列的Contigs提高到至少包含20条EST序列的Contigs，同时在1个候选SNP位点两侧经常出现间断或连续的非SNP位点不保守区域。这些区域可能是在比对分析时序列错误所引起，从而降低候选SNP位点的可靠度，为此本研究对人工筛选原则进行以下改良：①候选SNP位点次要等位基因频率不低于40%；②候选SNP位点两侧至少有8个核苷酸序列完全保守（图1为合格SNP，图2和图3均为不合格SNP）。经过筛选，发现含候选SNP位点的Contigs有243个，243个Contigs的碱基总数为262785 bp；经过人工筛选，发现有224个SNP位点，SNP出现频率为0.085%，即平均1173 bp就含有1个SNP位点（表1）。对Contigs中含有SNP位点的Contig进行统计分析，结果（图4）显示构成Contigs的EST序列数量与其包含的SNP位点数量并无明显规律。

2. 2. 2 SNP碱基变化及插入缺失分析结果对包含EST数量大于20条的Contigs产生的224个碱基突变类型进行统计分析，结果发现有134个转换类型和61个颠换类型（图5），分别占候选SNP位点总数的59.8%和27.2%，转换与颠换比为2.2∶1.0。除转换和颠换类型之外，还有29个碱基发生插入和缺失类型，约10个碱基突变中就有1.29个碱基发生插入或缺失突变。

2. 3 候选SNP位点所在核苷酸序列同源性比对结果

提取195个转换和颠换SNP位点位置两侧约100 bp的核苷酸序列在NCBI核苷酸数据库中进行比对，发现有41个SNP位点无比对结果，可能是玫瑰特有且尚未被发现的基因，但需进一步验证；其他SNP位点的比对结果见表2。由表2可知，含SNP位点的基因分属于22类，分别为：1个3，5-二甲氧基基因（AB972813.1），含有1个SNP位点；1个5羟基甲苯3，5-二甲氧基基因（AF502434.1），含有1个SNP位点；1个60S酸性核糖体蛋白P2（EU244401.1），含有1个SNP位点；3个KRMP基因家族成员（KC494061.1、EF183518.1和EF183519.1），含有3个SNP位点；1个捕光叶绿素a/b结合蛋白（XM_004303830.2），含有1个SNP位点；2个ribosomal基因（KT179782.1），含有2个SNP位点；2个shematrin基因家族基因（KC505165.1和KC505166.1），含有2个SNP位点；1個二磷酸羧化酶基因（M25613.1），含有1个SNP位点；1个翻译延伸因子1A基因（AY171463.1），含有1个SNP位点；2个泛素蛋白基因（XM_010086632.1和XM_013082359.1），含有2个SNP位点；1个非特异性脂转移蛋白基因（XM_011468119.1），含有1个SNP位点；1个富含甘氨酸蛋白基因（XM_011468831.1），含有1个SNP位点；1个甲氧基5羟基甲苯基因（AF502433.1），含有1个SNP位点；2个金属硫蛋白基因（AJ001444.1和KC222014.1），包含1个SNP位点；2个壳基蛋白基因（HE610403.1和HE610383.1），含有2个SNP位点；1个衰老相关蛋白基因（XM_013587541.1），含有1个SNP位点；5个苔黑酚转甲基酶蛋白基因（AJ439741.1、HQ423170.1、AM182831.1、AM182833.1和AB972813.1），含有5个SNP位点；2个铁结合蛋白基因（KM369969.1和XM_004302530.2），含有2个SNP位点；3个细胞色素氧化酶亚基基因（DQ337258.1、KF284069.1和GQ452847.1），含有3个SNP位点；1个淀粉酶基因（XM_004296501.2），含有1个SNP位点；1个珍珠层蛋白基因（HQ259055.1），含有1个SNP位点；另外，还有6个未知功能的基因（FN566841.1、XM_004291435.2、EU244360.1、HG670306.1、EF119787.1和GU263799.1）。

从含有SNP位点相关同源基因的物种分布来看，有22个SNP位点来源于蔷薇科植物（与玫瑰同科），其中来源于野草莓的基因最多（8个），说明同科植物基因间存在较高同源性。本研究还发现有15个SNP位点所在的基因与软体动物门物种的基因具有较高同源性，其中大珠母贝和黑蝶真珠蛤所占比重最高，各有5个，说明玫瑰基因与某些水生软体动物的基因也具有较高同源性。

3 讨论

目前，SNP已在遗传连锁图谱构建（Hyte et al.，2010）、重要性状相关基因定位（Singh et al.，2010）、遗传多样性分析（Van Inghelandt et al.，2010；吴永升等，2014）及动植物品种鉴定（Jiang et al.，2010）等相关领域的研究中得到广泛应用，基于EST序列的SNP标记也被应用到牛、猪、玉米、小麦、松树、枇杷等多种动植物中，但SNP标记也存在缺陷，如测序阶段成本较高而限制其在相关领域的大规模开发。利用现有数据，并结合生物信息学知识及相关分析软件进行SNP标记开发，再制定针对候选SNP位点的验证方法，因其具有开发成本低、快捷高效等优点，已成为广大科研工作者普遍青睐的SNP标记开发方法（Kim and Misra，2007）。EST来源于功能基因表达的cDNA片段，是在转录区域进行多态性辨别的重要数据源，且因相关公共数据库中增速最快的核苷酸序列是EST序列，使得以EST序列为基础进行相关分子标记开发变得越来越方便。

本研究中从NCBI中dbEST公共数据库下载27125条EST序列，共有17372条EST序列参与拼接，拼接成3544个Contigs，所含EST序列≥20条的Contigs数共265个，从中筛选出224个候选SNP位点，SNP频率为 1/1173 bp，较其他物种的SNP频率低（Lijavetzky et al.，2007），主要与研究材料间的遗传背景差异有关，即SNP频率越高表明其遗传背景差异越大（Van Tassell et al.，2008）。本研究还发现，SNP位点碱基变异类型以G/A最高占59.8%，与人类、大豆、玉米、大麦、小麦、辣椒等物种的SNP碱基变异类型（Huang and Madan，1999；Chao et al.，2008；Sato et al.，2011；刘峰等，2014）不符。其中，转换类型和颠换类型的数量分别占候选SNP位点总数的59.8%和27.2%，转换与颠换比为2.2∶1.0，即转换类型的数量明显高于颠换类型数量，与Garg等（1999）、Deutsch等（2001）的研究结果一致。此外，构成Contigs的EST序列数量与其包含的SNP位点数量并无明显规律，与Duran等（2009）、周锦等（2011）的研究结果存在差异，可能与不同物种间SNP位点的分布差异有关系。本研究筛选获得的SNP位点中有42个位点被注释到22个基因上，未被注释的序列多为未知功能基因，尚需进一步探究。除有22个SNP位点来源于蔷薇科植物外，还有15个SNP位点来源于软体动物门物种，是前人研究中未发现的现象，值得深入研究。

随着测序技术的快速发展，测序的准确率及效率也将不断得到改进，通过生物信息学知识及相关分析软件发掘候选SNP位点，然后针对性地进行测序验证将成为一种高效的SNP标记开发方式。尤其是EST-SNP的高效开发，将进一步推动植物遗传背景、遗传图谱构建、相关性状分子标记等相关研究领域的发展。

4 结论

NCBI中的玫瑰EST数据库数据庞大，足够发掘出大量的SNP标记，使得以EST-SNP对蔷薇科玫瑰等植物进行品种鉴定、分类、遗传多样性分析具有可行性。

参考文献：

冯立国，生利霞，赵兰勇，于晓艳，邵大伟，何小弟. 2008. 玫瑰花发育过程中芳香成分及含量的变化[J]. 中国农业科学，41（12）：4341-4351.

Feng L G，Sheng L X，Zhao L Y，Yu X Y，Shao D W，He X D. 2008. Changes of the aroma constituents and contents in the course of Rosa rugosa Thunb. flower development[J]. Scientia Agricultura Sinica，41（12）：4341-4351.

李猛，郭大龍，刘崇怀，张国海，侯小改. 2012. 葡糖EST-SNP位点的信息与特征[J]. 浙江大学学报（农业与生命科学版），38（3）：263-270.

Li M，Guo D L，Liu C H，Zhang G H，Hou X G. 2012. Information and characteristics of EST-SNP sites in grap（Vitis vinifera L.）[J]. Journal of Zhejiang University（Agriculture and Life Sciences），38（3）：263-270.

刘峰，谢玲玲，弭宝彬，欧阳娴，茆振川，邹学校，谢丙炎. 2014. 辣椒转录组SNP挖掘及多态性分析[J]. 园艺学报，41（2）：343-348.

Liu F，Xie L L，Mi B B，Ouyang X，Mao Z C，Zou X X，Xie B Y. 2014. SNP mining in pepper transcriptome and the polymorphism analysis[J]. Acta Horticulturae Sinica，41（2）：343-348.

王俊. 2013. 枇杷（Eriobotrya japonica Lindl.）SNP位点筛选及遗传多样性分析[D]. 重庆：西南大学.

Wang J. 2013. SNPs screening and genetic diversity analysisof loquat（Eriobotrya japonica Lindl.）[D]. Chongqing：Southwestern University.

吴永升，邹成林，黄爱花，韦新兴，莫润秀，郑德波，谭华，黄开健. 2014. 玉米自交系遗传关系及应用潜势分析[J]. 西南农业学报，27（3）：955-959.

Wu Y S，Zou C L，Huang A H，Wei X X，Mo R X，Zheng D B，Tan H，Huang K J. 2014. Study on genetic diversity and utilization potential in maize inbred lines[J]. Southwest China Journal of Agricultural Sciences，27（3）：955-959.

于晓艳，赵兰勇，丰震，齐海鹰，徐宗大，朱秀芹. 2009. 22份国产玫瑰资源的自交亲和性[J]. 中国农业科学，42（9）：3236-3242.

Yu X Y，Zhao L Y，Feng Z，Qi H Y，Xu Z D，Zhu X Q. 2009. Self-compatibility of 22 Rosa rugosa Thunb. resources in China[J]. Scientia Agricultura Sinica，42（9）：3236-3242.

曾地剛，马宁，谢达祥. 2014. 凡纳滨对虾兰尼定受体基因单核苷酸多态性与对温度变化敏感性的关联分析[J]. 江西农业学报，26（1）：89-91.

Zeng D G，Ma N，Xie D X. 2014. Analysis of correlation between single nucleotide polymorphism of ryanodine receptor gene and susceptibility to temperature change in Litopenaeus vannamei[J]. Acta Agriculturae Jiangxi，26（1）：89-91.

张得芳，李淑娴，夏涛. 2014. 蔷薇科6个属植物EST-SSR特征分析[J]. 植物研究，34（6）：810-815.

Zhang D F，Li S X，Xia T. 2014. Characterization of EST-SSR among six genera of rosaceae[J]. Bulletin of Botanical Research，34（6）：810-815.

周锦，刘义飞，黄宏文. 2011. 基于EST数据库进行SNP分子标记开发的研究进展及在猕猴桃属植物中的应用研究[J]. 热带亚热带植物学报，19（2）：184-194.

Zhou J，Liu Y F，Huang H W. 2011. Progress on development of EST derived SNP markers and its applications in Actinidia chinensis species complex[J]. Journal of Tropical and Subtropical Botany，19（2）：184-194.

Batley J，Barker G，OSullivan H，Edwards K J，Edwards D. 2003. Mining for single nucleotide polymorphisms and insertions/deletions in maize expressed sequence tag data[J]. Plant Physiology，132（1）：84-91.

Chao S M，Zhang W J，Akhunov E，Sherman J，Ma Y Q，Luo M C，Dubcovsky J. 2008. Analysis of gene-derived SNP mar-

ker polymorphism in US wheat（Triticum aestivum L.） cultivars[J]. Molecular Breeding，23（1）：23-33.

Dantec L L，Chagné D，Pot D，Cantin O，Garnier-Géré P G，Bedon F，Frigerio J M，Chaumeil P，Léger P，De Garcia V，Laigret F，Daruvar A，Plomion C. 2004. Automated SNP detection in expressed sequence tags：statistical considerations and application to maritime pine sequences[J]. Plant Mole-

cular Biology，54（3）：461-470.

Deutsch S，Isel C，Bucher P，Antonarakis S E，Scott H S. 2001. A cSNP map and database for human chromosome 21[J]. Genome Research，11（2）：300-307.

Duran C，Appleby N，Vardy M，Imelfort M，Edwards D，Batley J. 2009. Single nucleotide polymorphism discovery in barley using autoSNP db[J]. Plant Biotechnology Journal，7（4）：326-333.

Feltus F A，Wan J，Schulze S R，Estill J C，Jiang N，Paterson A H. 2004. An SNP resource for rice genetics and breeding based on subspecies indica and japonica genome alignments[J]. Genome Research，14（9）：1812-1819.

Garg K，Green P，Nickerson D A. 1999. Identification of candidate coding region single nucleotide polymorphisms in 165 hum an genes using assembled expressed sequence tags[J]. Genome Research，9（11）：1087-1092.

Guryev V，Berezikov E，Malik R，Plasterk R H，Cuppen E. 2004. Single nucleotide polymorphisms associated with rat ex-

pressed sequences[J]. Genome Resarch，14（7）：1438-1443.

Huang X，Madan A. 1999. CAP3：A DNA sequence assembly program[J]. Genome Research，9（9）：868-877.

Hyte D L，Choi I Y，Song Q J，Specht J E，Carter T E Jr，Shoemaker R C，Hwang E Y，Matukumalli L K，Cregan P B. 2010. A high density integrated genetic linkage map of soybean and the development of a 1536 universal soy linkage panel for quantitative trait locus mapping[J]. Crop Science，50（3）：960-968.

Jiang D，Ye Q L，Wang F S，Cao L. 2010. The mining of citrus EST-SNP and its application in cultivar discrimination[J]. Agricultural Sciences in China，9（2）：179-190.

Kerstens H H，Kollers S，Kommadath A，Del Rosario M，Dibbits B，Kinders S M，Crooijmans R P，Groenen M A. 2009. Mi-

ning for single nucleotide polymorphisms inpig genome sequence data[J]. BMC Genomics，10：4.

Kim S，Misra A. 2007. SNP genotyping：technologies and biomedical applications[J]. Annual Review of Biomedical Engineering，9：289-320.

Kota R，Varshney R K，Prasad M，Zhang H，Stein N，Graner A. 2008. EST-derived single nucleotide polymorphism markers for assembling genetic and physical maps of the barley genome[J]. Functional & Integrative Genomics，8（3）：223-233.

Lijavetzky D，Cabezas J A，Ibá■ez A，Rodríguez V，Martínez-Zapater J M. 2007. High through put SNP discovery and genotyping in grapevine（Vitis vinifera L.） by combining a re-sequencing approach and SNPlex technology[J]. BMC Genomics，8：424.

Picoult-Newberg L， Ideker T E， Pohl M G， Taylor S L， Donaldson M A， Nickerson D A， Boyce-Jacino M. 1999. Mi-

ning SNPs from EST database[J]. Genome Research， 9（2）： 167-174.

Sato K，Close T J，Prasanna B，María-Amatriaín M，Muehlbauer G J. 2011. Single nucleotide polymorphism mapping and alignment of recombinant chromosome substitution lines in barley[J]. Plant Cell Physiology，52（5）：728-737.

Singh A，Singh P K，Singh R，Pandit A，Mahato A K，Gupta D K，Tyagi K，Singh A K，Singh N K. 2010. SNP haplotypes of the BADH1 gene and their association with aroma in rice （Oryza sativa L.）[J]. Molecular Breeding，26（2）：325-338.

Snelling W M，Casas E，Stone R T，Keele J W，Harhay G P，Bennett G L，Smith T P. 2005. Linkagemapping bovine EST-based SNP[J]. BMC Genomics，6：74.

Torjék O，Berger D，Meyer R C，Mussig C，Schmid K J，Rosleff S■rensen T，Weisshaar B，Mitchell-Olds T，Altmann T. 2003. Establishment of a high-efficiency SNP-based framework marker set for Arabidopsis[J]. The Plant Journal，36（1）：122-140.

Van Inghelandt D，Melchinger A E，Lebreton C，Stich B. 2010. Population structure and genetic diversity in a commercial maize breeding program assessed with SSR and SNP mar-

kers[J]. Theoretical and Applied Genetics，120（7）：1289-1299.

Van Tassell C P，Smith T P L，Matukumalli L K，Taylor J F，Schnabel R D，Lawley C T，Haudenschild C D，Moore S S，Warren W C，Sonstegard T S. 2008. SNP discovery and allele frequency estimation by deep sequencing of reduced representation libraries[J]. Nature Methods，5（3）：247-252.

Von Malek B，Debener T，Weber W E. 2000. Identification of molecular markers linked to Rdr1，a gene conferring resistance to blackspot in roses[J]. Theoretical and Applied Genetics，101（5-6）：977-983.

Yamamoto N，Tsugane T，Watanabe M，Yano K，Maeda F，Kuwata C，Torki M，Ban Y，Nishimura S，Shibata D. 2005. Expressed sequence tags from the laboratory-grown miniature tomato（Lycopersicon esculentum） cultivar Micro-Tom and mining for single nucleotide polymorphisms and insertions/deletions in tomato cultivars[J]. Gene，356：127-134.

（責任编辑兰宗宝）