基于核桃参考基因组的SSR位点鉴定分析和单态性标记开发

2022-11-29 07:07贺君星马庆国张俊佩
林业科学研究 2022年6期
关键词:碱基核苷酸核桃

贺君星,马庆国,裴 东,张俊佩

(林木遗传育种国家重点实验室,国家林业和草原局林木培育重点实验室,中国林业科学研究院林业研究所,北京 100091)

核桃(Juglans regiaL.)是在全世界范围内广泛栽培利用的重要经济树种,中国是核桃的原产地之一。核桃种质资源极为丰富,在我国华北、西北、中南、华东、四川以及西藏东南等地区均有分布,种植历史达3 000余年[1],截至2020年底,我国核桃种植面积达782.22 万hm2,总产量479.59万t,居世界首位[2]。核桃雌雄同株异形异花,育种周期长,多数品种亲和力很强。20世纪60年代以来,我国的引种和杂交育种工作不断推进,涌现了大量的自主知识产权品种,现有的国家审、认定良种17个,生产中使用较多的省审定良种和有效期内的认定良种约计239个,遍布全国各地[3],丰富的品种资源有力地支撑了我国核桃产业发展。

微卫星或简单重复序列(SSR)标记以其数量丰富、多态性高、重复性好、对基因组覆盖度广、易于扩增以及共显性等显著特点,成为目前遗传学研究和植物品种鉴定中使用最便捷、应用最广泛的标记系统之一[4-6],国际植物新品种保护联盟(UPOV)生化和分子生物技术工作组(BMT)也将其作为用于品种鉴定和分子身份证构建的最佳分子标记[7]。SSR通常是以1~6个核苷酸为重复单位的串联重复序列,在基因组中广泛分布。在微生物[8]、植物[9-10]、动物[11]和人类[12-13]等不同物种中都开展过全基因组范围内的SSR引物开发工作。Woeste等[14]首次基于美国东部黑核桃基因组DNA开发了SSR标记,这些引物在后续核桃属植物的遗传研究中也得到了应用[15]。Zhang等[16]、Dang等[17]基于核桃EST序列各开发了41和39对ESTSSR引物。陈凌娜等[18]、Ikhsan等[19]和Eser等[20]基于细菌人工染色体(Bacterial artificial chromosome,BAC)序列分别开发了19、307和20对BES-SSR引物。据不完全统计,目前大约已开发出770对SSR引物,多数是从J. regia这个种开发的,为核桃的分子标记研究奠定了一定的基础[20]。但是,由于核桃基因组的复杂性和越来越深入的研究工作对分子标记产生新的需求,这些引物已经不能满足相关工作的需要,而可用于子代纯度检测等分子辅助育种研究的核桃单态性SSR位点则未见报道[21]。

随着核桃基因组测序的开展和完善,本课题组已组装完成并发表了一套染色体水平的高质量参考基因组[22],本研究基于该参考基因组序列分析其不同染色体上SSR位点的分布、重复单元数量及长度、稀有SSR碱基分布情况等特征,利用电子PCR技术分析SSR引物的多态性,并随机选取部分单态性SSR引物进行PCR实验验证,旨在明确电子PCR方法在核桃SSR引物分析中的有效性,有助于核桃SSR引物的快速批量化开发,进而为核桃种质资源保护及开发利用、遗传研究提供支撑。

1 材料与方法

1.1 植物材料

选取6个核桃主栽品种用于PCR实验验证,其名称和来源地等信息见表1,于生长季采其健康、无病虫害、中等成熟度的叶片,低温带回实验室,立即提取其基因组DNA。

表1 供试核桃品种Table 1 Walnut cultivars used in this study

1.2 数据来源

FASTA格式的核桃品种‘中牧查一’的染色体水平参考基因组序列下载自国家基因组科学数据中 心(CNCB-NGDC,网 址https://ngdc.cncb.ac.cn/bioproject/browse/PRJCA002070),编号PRJCA002070,共包含16条染色体,全长为540 Mb,Contig N50为3.34 Mb[22];核桃品种‘Chandler’[23]的染色体水平全基因组序列下载自GigaDB(http://gigadb.org/dataset/100735)。使用famap和fahash软件将2套基因组数据转换为hash数据库,以备引物多态性电子PCR模拟评估使用。

1.3 SSR位点搜索和引物设计

利用MIcroSAtellite(MISA,http://pgrc.ipkga tersleben.de/misa/)程序对核桃全基因组不同染色体中的SSR位点进行搜索和统计,设定单核苷酸(Mono-)、二核苷酸(Di-)、三核苷酸(Tri-)、四核苷酸(Tetra-)、五核苷酸(Penta-)和六核苷酸(Hexa-)的最少重复分别为10、6、5、5、5和5次,统计SSR位点的数量、长度和重复单元类型等信息,分析不同染色体上各种类型SSR位点的频率分布。

利用Primer 3.0设计SSR引物,采用的参数及筛选标准主要有:引物长度为18~28 bp,20 bp为佳;产物长度100~500 bp;引物退火温度为55~65 ℃,以60 ℃为佳;引物序列GC含量为40%~60%,以50%为佳;避免引物二聚体、发夹结构及错配[6,24-25]。

1.4 SSR引物多态性的电子PCR检测

利用电子PCR程序中的re-PCR模块将筛选出的SSR标记在1.2中构建的基因组数据库中进行模拟扩增,主要参数为:re-PCR-S<hashfile>-n 0-g 0100-1 000,根据模拟扩增结果将引物分为单态和多态两类,其中,单态引物在基因组数据库中只能扩增出一个位点,而多态引物可以扩增得到多个位点,即如果扩增产物大小相差≥2 bp,则SSR被归类为多态性引物,扩增产物大小相同则被视为单态,而仅有1 bp差异的SSR位点则认为是不明确的,并从分析中删除[26]。

1.5 单态性SSR引物的PCR验证

从每条染色体上随机选择单态性SSR引物各2对,合成TP-M13引物(上海生工),M13尾巴序列为TGTAAAACGACGGCCAGT。采用改良的CTAB法[15]提取核桃叶片的基因组DNA,参照Chen等[27]的方法进行扩增和毛细管电泳检测,利用GeneMarker v2.2.0读取电泳条带,然后使用Excel 2016软件进行数据统计和分析。

2 结果与分析

2.1 核桃全基因组SSR频率及总体分布特征

利用MISA v2.1软件对全长540 Mb的核桃全基因组序列中的SSR位点进行鉴定,共得到357 629个SSR位点,平均每1.51 kb出现1个SSR位点,SSR序列总长度为8 019 209 bp,占基因组全长的1.49%,包括4 005种重复单元。其中,单核苷酸重复单元占比最高,达58.93%;二核苷酸到四核苷酸重复单元占比分别为34.00%、5.19%、1.03%;五核苷酸和六核苷酸重复单元的占比则不足1.00%,但碱基组合可选择性和随机性更强,种类更加丰富,且重复单元占自身核苷酸重复类型的比例分布更加均匀。如ACTCCG/AGTCGG占六核苷酸重复的比例为8.96%,AAAAAT/ATTTTT占比为8.46%(图1 a)。单核苷酸重复类型中(A)n最为丰富,接近所有核苷酸重复比例的一半,二核苷酸重复类型中(AT)n最多(32.10%),三核苷酸类型中(AAT)n最多(16.50%),而四核苷酸类型中(AAAT)n(9.00%)占比最高(图1 b)。无论是单碱基还是多碱基重复,占比居前四位的重复基序中,仅有A、T碱基出现,说明核桃全基因组微卫星具有A/T丰富的特性。AGG、AAC、AGC、ACT、ACG和CCG占比不足1.00%,可能属于稀有SSR单元的主要基序组成成员。核桃SSR序列长度在10~297 bp间变化,平均为73.30 bp,以10~30 bp长度的短重复序列为主(95.93%),而长度大于30 bp的仅占4.07%,不同长度的SSR序列所占比例存在较大差异,其中,10 bp长度的SSR所占比例最大(18.09%),随着SSR序列长度的增加,其占比呈下降趋势(图1 c)。

图1 核桃全基因组SSR位点重复类型的分布特征Fig.1 Genome-wide distribution of SSR repeat types in walnut

2.2 核桃不同染色体上SSR的数量及其分布

核桃参考基因组包含16条染色体,即Chr1~Chr16。不同染色体上SSR位点数量差异较大(图2 a),其Chr1上数量最多(34 749,9.72%),Chr16上数量最少(13 666,3.82%)。采用一元线性回归分析拟合发现,SSR位点数量与染色体长度间的线性关系明显,得到回归方程y=1 437x+1 679 338,决定系数为0.96,拟合效果较好,即染色体长度越大,相应的SSR位点数量越多(图2 b)。各染色体上SSR位点的分布密度相对稳定,数量变化幅度为1 427~1 685个,其中,Chr9最低,Chr15最高。同时,进一步对SSR的数量、种类与染色体长度间的相关分析表明,染色体长度与SSR数量(r=0.982 0,p<0.01)、种类(r=0.900 3,p<0.01)间均呈极显著正相关,表明随着染色体长度的增加,其SSR的种类与数量均呈增加趋势。

对16条染色体上不同重复类型的SSR位点数量进行相关性分析发现,不同重复类型SSR位点间均呈极显著相关关系(p<0.01),其中,单核苷酸与二核苷酸位点数的相关系数(r)最大(0.986 3),四核苷酸和六核苷酸的相关系数最小,仅为0.785 4(表2)。单核苷酸到四核苷酸间联系极紧密(r>0.90);而5~6核苷酸重复类型的数量和其它重复类型间相关系数较低,最大为0.879 6,最小仅为0.785 4。

表2 核桃不同重复类型SSR相关性分析Table 2 Correlation coefficient of different SSR repeat types in Walnut

根据SSR位点不同重复类型和重复次数等,构建不同染色体SSR位点280×16阶分布矩阵,并进行相关性分析建立相关系数矩阵,通过相关系数矩阵,对染色体进行聚类分析(图2 d)。以遗传距离0.075为阈值可将核桃16条染色体分为4组(Ⅰ~Ⅳ),其中,第Ⅰ组只有1条染色体,即Chr10;第Ⅱ组包括2个成员,即Chr1和Chr3;第Ⅲ组包括Chr14和Chr16这2条染色体;第Ⅳ组则囊括了其余11条染色体,这个组又可分为2个亚组,第1个亚组中有Chr4、Chr7、Chr5和Chr11这4条染色体,第2个亚组包括Chr6、Chr13、Chr2、Chr9、Chr15、Chr8和Chr12这7条染色体,这2个亚组中的成员也是SSR分布模式最相似的染色体。总体上,第Ⅱ、Ⅲ及Ⅳ组回溯到同一个主枝,而第Ⅰ组则归类于单独的一个主枝,表明Chr10上SSR位点的数量、分布和频率等与其他15条染色体相比差异较大。

2.3 核桃不同染色体上SSR的重复单元类型和稀有SSR位点

不同染色体间重复单元数及重复碱基的种类存在一定的差异(图2 c),Chr1染色体上最多(406种),其次为Chr3、Chr5和Chr11,而Chr16染色体上最少(188种),其中,单核苷酸重复SSR序列均以A/T重复单元为主,其含量在不同染色体上相对稳定,其中,Chr4上最低(93.76%),Chr12上最高(95.05%);二核苷酸重复SSR序列均以AT/AT重复单元为主,所占比例在53.61%(Chr12)~59.43%(Chr9)间变化;三核苷酸重复SSR序列的重复单元不同染色体均为10种重复单元类型,主导单元均为AAT/ATT,其所占百分比在48.34%(Chr16)~55.35%(Chr12)间变化;四核苷酸SSR序列的主要重复单元是AAAT/ATTT,其所占百分比在30.52%(Chr13)~52.29%(Chr14)间变化;五核苷酸重复SSR序列在不同染色体上的重复单元类型数量为18(Chr12、13、16)~36(Chr3)种,其中,Chr3(22.73%)和Chr14(29.29%)上的SSR主导单元为AAAAG/CTTTT,Chr6(23.91%)、Chr13(29.32%)和Chr15(25.47%)染色体上为AAAAG/CTTTT和AGATG/ATCTC且占比相同,其余11条染色体的SSR主导单元均为AGATG/ATCTC,所占百分比为27.52%(Chr4)~34.78%(Chr10);六核苷酸重复单元的类型为13(Chr14)~43(Chr1)种,且大部分染色体都以AAAAAT/ATTTTT或AAAAAG/CTTTTT单元为主,所占比例在8.32%(Chr2)~22.73%(Chr11)间变化。

图2 核桃基因组不同染色体SSR位点分布Fig.2 Distribution of SSR loci in different chromosomes of walnut genome

核桃基因组中存在644种稀有SSR单元(即该重复单元仅在单一染色体中存在),不同染色体上存在的SSR稀有单元数存在较大差异,其中,Chr4中最少,为22 种,Chr5中最多,达64 种(表3)。稀有SSR单元为4~6核苷酸重复,其中以六核苷酸最多(426 种),四核苷酸最少(38种),说明SSR单元组成的核苷酸越多,其所占比例越低,成为稀有SSR单元的概率越大。

表3 核桃参考基因组不同染色体的稀有SSR重复单元Table 3 Rare SSR units of different chromosomes in Walnut reference genome

续表 3

2.4 核桃全基因组单态性SSR引物开发与PCR验证

利用Primer 3.0软件根据SSR位点侧翼的保守序列,从357 629个SSR位点中共设计出303 009对(91.51%)SSR引物,包括6种完全微卫星(258 024,85.15%)、不完全微卫星(1 688,0.56%)和复合型微卫星(43 297,14.29%)等3种类型。然后,利用re-PCR将2~6核苷酸重复的完全型SSR引物比对到基因组hash数据库,通过电子模拟扩增评价其多态性,根据在不同基因组中的电子模拟扩增条带将其分为单态和多态两类,条带大小差异仅1 bp的引物将被弃用。电子模拟扩增分析发现,不同染色体上的单态性标记最少为2 295个(Chr16),最多为10 881个(Chr3),长重复单元(>30 nt)的引物中多态性引物的比例要高于短重复单元的引物,这与Biswas等[26]在甜橙基因组中的研究结果类似。

为了验证电子模拟扩增结果的可靠性和新开发的SSR标记的有效性,从经re-PCR评估的单态引物中随机均匀地选择三碱基重复引物32对(表4),合成TP-M13引物在‘强特勒(Chandler)’等6个品种中扩增,并利用毛细管电泳技术进行检测(图3)。所选32对引物中除CAF36和CAF350以外,其余30对SSR引物(93.75%)均可以在供试样品中扩增出清晰的目标产物,PCR扩增结果与电子模拟评估结果一致性较好。此外,30对SSR引物中有4对(CAF11、CAF129、CAF271和CAF364)在供试样品之间表现出多态性。

图3 CAF11引物在6个核桃主栽品种中的毛细管电泳图谱Fig.3 The capillary electrophoresis patterns from primer CAF11 in 6 main cultivars of walnut.

表4 32对核桃单态SSR引物信息Table 4 Information of 32 primers from walnut genome

3 讨论

3.1 核桃全基因组SSR分布特征

SSR在基因组中的出现主要源于进化过程中的突变,如滑链错配、一个或多个重复基序的插入缺失等,因此,特定数量和长度的SSR可以作为进化过程中遗传变异的指标[24]。本研究从‘中牧查一’核桃参考基因组16条染色体中共鉴定出了357 629个SSR位点,其密度为662.28 SSRs·Mb-1,低于石榴(1 294.62 SSRs·Mb-1)[6]和枣(872.60 SSRs·Mb-1)[28]等树种,高于亚麻(225.3 SSRs·Mb-1)[29]、茶树(216.88 SSRs·Mb-1)[30]和花生(392.45 SSRs·Mb-1)[31]等植物,而与杨树(667.9 SSRs·Mb-1)[32]在基因组上的研究结果相当。这些数据可能反映了不同物种本身基因组大小的差异以及基因组序列中碱基排列组合方式的随机性和变异性,以往研究表明基因组大小会影响SSR的密度,但并不是所有物种中二者之间都具有显著相关性[33-34],而本研究中核桃基因组SSR的数量、种类与染色体序列长度均呈极显著正相关。同时,SSR的分布和密度变化很大,也可能是由于搜索标准和数据库挖掘工具的不同导致的。

单碱基重复的SSR是核桃基因组每条染色体上最常见的类型,2~3碱基重复次之,4~6碱基重复则较少,这在小麦[24]和甜橙[26]等物种的基因组中也有报道,但与烟草[35]中以二碱基重复类型为主的情况不同。核桃的SSR基本组成在所有重复类型中以A和T为主,而CG/CG在二核苷酸重复序列中密度最低,这与烟草[35]和四倍体野花生[36]等物种相似,核桃SSR中最多的二核苷酸重复是AT/AT,其次是AC/GT和AC/GT,王玉龙等[36]报道,四倍体野花生基因组中数量最多的重复单元依次是A/T、AT/AT、AAT/ATT,AAAT/ATTT、AAAAT/ATTTT和AAAAAT/ATTTTT。Lu等[31]对栽培花生的研究结果与此类似。尽管分布模式有所差异,但对许多植物基因组而言,AAN、AAAN、AAAAN和AAAAN比其他重复基序更常见。

研究指出,单碱基或二碱基重复单元大量发生则表明该物种的进化水平较高[37],而核桃单核苷酸与二核苷酸数量的总和占所有微卫星位点的92.80%,这可能说明核桃起源相对较晚同时容易发生SSR变异,从而产生更多的碱基重复类型,其中,单碱基重复占58.85%。有研究表明,单碱基重复的数量随物种基因组大小不同而产生差异,相比而言物种基因组增大,其单碱基相对丰富增加[38]。Song等[39]分析了112种植物3 951 919条基因序列中SSR的分布情况,发现三碱基重复SSR数量超过50%,与核桃SSR数量分布比例有所不同,这可能与密码子以3个碱基为组成单位有关。近期的一项研究将石榴基因组中的SSR分为三大类,即class I(>30 nt),class II(20~30 nt)和class III(<20 nt),其中,第一类SSR可能更易发生突变呈现不稳定状态[6],更早的研究中Portis等[40]、陈凌娜等[18]和Temnykh等[41]也强调了SSR片段长度在标记开发和育种中的重要性。本研究发现,核桃SSR序列主要以10~30 bp的短重复序列为主,SSR序列的出现频率呈现一定的规律性变化,重复长度越长,出现频率则越低。

3.2 核桃全基因组特异性单态SSR引物开发与验证

以往研究表明,单核苷酸重复的SSR并不适宜于开发SSR引物[26,42],因此,本文在引物设计和开发时仅使用了2~6核苷酸重复的类型;以往研究表明,单态SSR标记可作为遗传分析和育种子代群体“私生检测”的有力工具[21,43],也有将单态性标记转换为多态性标记的报道[44-45]。在re-PCR检测到的单态性标记中,二核苷酸基序(77.28%)最常见,其中,Chr3染色体含有最多的单态性标记,其可能是核桃分子标记辅助育种的较好选择。随机选择32对单态性SSR引物在6个不同核桃主栽品种中进行PCR验证,其中,4对预测为单态的引物扩增出了多个基因座,这可能是由于电子PCR分析仅采用了2套基因组所致,也有可能是核桃的全基因组尚有未完全揭示的序列,而多达28对引物获得了与电子PCR分析相一致的PCR实验扩增结果。由此可见,基于全基因组序列采用电子PCR结合传统分子标记筛选策略的方法进行SSR标记开发效果较好。

4 结论

核桃是世界范围广泛栽培的重要经济树种,本研究从‘中牧查一’核桃参考基因组中鉴定了357 629个SSR位点,这些位点在不同染色体上的数量和重复类型具有明显差异,其中,单碱基重复占比较高,A/T碱基重复是其优势重复单元。在此基础上,建立了联合应用电子PCR和传统引物筛选方法进行引物开发的新策略,每条染色体上随机选取2对共计32对引物以6个核桃主栽品种为试材进行扩增,结果显示其中30对引物的扩增效果较好,28对(87.50%)引物的扩增结果与电子PCR分析结果相一致,从而验证了这一引物开发策略的有效性,为核桃SSR引物的个性化快速开发提供了有效策略,筛选获得的28对单态性引物可为分子辅助育种中杂交子代“私生检测”等研究提供科学借鉴与参考。

猜你喜欢
碱基核苷酸核桃
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
小核桃变身“致富果”
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
Acknowledgment to reviewers—November 2018 to September 2019
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
日粮核苷酸对动物肠道健康和免疫功能的影响及其在养猪生产中的应用
可赏可食可入药的核桃