核桃基因组学研究进展*

2022-04-20 02:52武鹏雨刘婷婷包建平虎海防
中国果树 2022年2期
关键词:位点测序性状

武鹏雨,刘婷婷,包建平,虎海防,马 凯,张 锐

(1 塔里木大学园艺与林学学院,新疆阿拉尔843300)(2 新疆佳木果树学国家长期科研基地)(3 新疆农业科学院)

核桃属(Juglans)隶属于胡桃科(Juglandaceae),是世界四大坚果之一,是不可或缺的坚果和木本油料树种。核桃属有21 个二倍体种,均有2n=32 条染色体[1],根据系统发育关系和果实形态可分为四大类[2-4],分别为核桃楸组(Cardiocaryon)的山核桃(Juglans cathayensisDode)、麻核桃(Juglans hopeiensisHu)、核桃楸(Juglans mandshuricaMaxim),核桃组(Juglans)的泡核桃(Juglans sigillataDode)和核桃(Juglans regiaL.),灰核桃组(Trachycaryon)的灰核桃(Juglans cinereaL.),黑核桃组(Rhysocaryon)的北加州黑核桃(Juglans hindsiiRehd)、黑核桃(Juglans nigraL.)以及小黑核桃(Juglans microcarpa)。核桃营养丰富,富含人体必需的ω-3 脂肪酸等营养物质,并对延缓衰老,治疗心脏病、糖尿病等有一定作用[5]。

我国核桃品种丰富,在品质改良和品种选育过程中取得了显著成绩,对新品种的选育方法以杂交和优选为主,也伴随着培养周期长、种间杂交困难等问题,分子育种能有效缩短育种时间,快速筛选含有目标性状的植株,通过建立核桃属植物的种质资源库及杂交后代群体等,开发应用遗传标记,将分子标记辅助育种技术、转基因技术与传统育种技术相结合,让育种过程具有更好的目标性[6]。

基因组学(Genomics)是对生物体内核苷酸序列结构、基因功能、分子遗传进化等机理的研究[7]。在模式植物拟南芥[8]中进行了全基因组测序分析,获得了120 Mbp 的基因组序列,编码20 000 个基因,标志着对植物学的研究进入基因组学阶段。随着高通量测序技术的不断完善,葡萄[9]、番木瓜[10]等国内外果树先后进行基因组测序组装,随后越来越多的果树完成基因组测序工作,果树进入基因组学篇章。核桃基因组学的研究通过对核桃的基因组进行测序,定位核桃染色体中的序列信息,从而构建核桃的种质资源数据库,获取含有丰富遗传信息的分子标记,锚定相关功能基因和研究核桃物种的起源与演化。本文简要统计了已进行全基因组测序的核桃属物种,并对核桃基因组学在测序技术上的更新和基因组学在核桃中的分子标记开发、农艺性状定位、物种起源分化和多组学联合等研究内容进行概述,对开发利用核桃优质种质资源和培育、改良核桃品种具有重要意义。

1 核桃属物种基因组测序研究

核桃第1 个参考基因组是美国加州大学[11]测序组装获得,选择物种为Chandler,使用了SOAP denovo 2 和MaSuRCA 两种组装技术,获得667 Mbp长的基因组序列,注释到32 498 个基因。伴随着核桃参考基因组的发布,对核桃的研究可以在全基因组范围内进行,在该基因组数据的支持下对核桃的多酚合成途径进行分析,发现了第2 个多酚氧化酶基因(JrPPO2),基因组序列的研究为核桃加速育种和促进复杂性状的遗传剖析提供了重要的工具和方法。

Ning 等[12]对云南铁核桃进行了染色体水平的测序组装,使用Illumina 测序平台和Nanopore 测序平台分别获得了38.0 Gb 的短reads 和66.31 Gb 的长reads,构建Hi-C 文库获得可组装到染色体的数据,获得的基因组大小为536.50 Mbp,从基因组中预测了30 387 个蛋白编码基因,其中99.8%已实现功能注释。Huang 等[13]对山核桃进行基因组测序,选用品种为美国的Pawnee 和中国的ZAFU-1,测序深度为288 x 和248 x,分别获得187.22 Gb 和178.87 Gb长的序列,基因组组装长度为651.31 Mbp 和706.43 Mbp,基因组测序后续分析可以为山核桃的气候适应性和抗逆性研究提供数据支持。

近年来,随着结构基因组学的发展,许多新的技术(如Hi-C、Chicago 和光学图谱等)被开发应用于基因组的辅助组装。Marrano 等[14]在核桃参考基因组Chandler v 1.0[11]基础上,使用纳米孔长读测序(Oxford Nanopore long-read sequencing)进行深度序列覆盖测序,结合染色体构象捕获技术(chromosome conformation capture)Hi-C 和Illumina测序技术,组装完成染色体级别的高度连续核桃基因组Chandler v 2.0,新基因组的组装N50 大小增加了84.4 倍,与转录组结合挖掘到37 554 个基因,新的基因组极大地提高了基因预测的准确性,平均基因长度高于之前基因注释。Zhang 等[15]选择杂合度低的西藏品种Zhongmucha-1 进行基因组测序,结合Hi-C、遗传、物理图谱获得了核桃染色体水平的基因组序列,基因组大小为540 Mbp,注释了 39 432 个基因,基于核桃的高质量基因组图谱,对黑核桃、野核桃和核桃楸等5 个种的contig 序列进行排序和定向,得到了5 个种的假染色体级别基因组序列(http://xhhuanglab.cn/data/juglans.html)。基因组学数据获取越来越快,而对基因组组装序列的评估是复杂的,有研究发现约95%的RNA-seq 读数和97.25%的Illumina 测序读数可以排列到最终的装配上,以此提出了一种基于基因含量进化信息预期的方法,用于评估基因组组装和注释完整性—BUSCO[16]。Zhang 等[15]使用BUSCO 评估基因组组装的完整性发现,大约94%的核心基因能够被检索到。

核桃的基因组高度杂合,组装复杂,而种间杂种的基因组通常由亲本中的单倍体基因组组成。Zhu 等[17]利用种间杂种的这一特性来避免杂合性,对亲本为小黑核桃×核桃(J.microcarpa×J.regia)的杂交种进行基因组测序,使用光学图谱技术对杂交种构建2 个光学图谱,再将光学图谱上的排列序列重叠群填充到骨架(MS1-56_v0)中,填充后将杂交种的基因组组装体分配到亲本中,结合高密度遗传连锁图谱填充亲本的基因组间隙,生成了亲本的基因组数据集JrSerr_v1.0 和Jm31.01_v1.0。

对于核桃类的风传媒物种,对子代的研究使用来自母系遗传的细胞器DNA 会更加准确,植物母系遗传叶绿体基因组没有重组和基因转换的现象,广泛用于系统发育研究[18]。核桃的叶绿体基因组具有被子植物典型的四分体结构,由大单拷贝区(LSC)和小单拷贝区(SSC)以及分隔的一对反向重复区(IRa 与IRb)组成[19]。Peng 等[20]使用高通量测序技术对核桃叶绿体基因组进行全核苷酸序列测序发现,叶绿体基因组长度为160 537 bp,大拷贝区长度为90 095 bp,小拷贝区为18 412 bp,2 对反向重复序列长26 033 bp,共编码113 个基因。Hu等[21]对中国的5种核桃(核桃、铁核桃、山核桃、麻核桃和核桃楸)的叶绿体基因组进行测序,叶绿体基因组长度介于159 714~160 367 bp 之间,绘制了5种核桃的基因组变异图谱,包括SNP、InDel和SV、SSR、重复序列等结构变异的差异。根据5种核桃的叶绿体基因组数据,将这5种核桃资源划分为2 个已知区段核桃(胡桃)组和核桃楸组,为中国地区的核桃分类、系统发育提供了信息。Song等[22]对美国核桃和中国核桃杂交的砧木进行叶绿体测序,系统发育结果分析显示杂交获得的砧木与美国核桃的亲缘关系较近。Yang 等[23]对胡桃科枫杨(Pterocarya stenoptera)的叶绿体基因组测序并分析其与核桃种之间的系统发育关系,与包括核桃在内的14种近缘种蛋白序列分析,确定枫杨与核桃关系较近。

截至目前,已进行全基因组测序的核桃属物种共13 个。随着测序技术的快速发展,核桃种的测序深度逐渐加深,组装数据也更加精准,结合二代、三代测序平台,组装水平达到染色体级别(表1)。

表1 核桃已测序基因组

2 基因组学在核桃上的应用研究

2.1 分子标记的开发

基因组中含有大量的非编码重复DNA,包括转座子、反转录因子、串联重复序列以及微卫星位点等[24]。微卫星标记(simple sequence repeat,SSR)共显性好、多态性高,适用于高通量制图、群体遗传分析以及标记辅助育种。Aziz 等[25]评估了12 个核桃种中的SSR 位点,通过鉴定核SSR(nuSSR)、叶绿体SSR(cpSSR)、线粒体SSR(mtSSR),比较它们在不同基因组中的频率与分布,共验证了 39 000 个SSR 位点,显示其他物种的末端序列在核桃种内保持了90%~95%的一致性。Xu 等[26]利用泡核桃基因组数据开发了32 个微卫星位点,将这些位点用于3 个自然群体的60 个个体进行检测,检测到这些位点具有高度的多态性,平均每个种群有4 个等位基因,在核桃、山核桃、核桃楸等近缘种中有30 个位点扩增成功。

全基因组分子标记的开发和基因分型是向分子育种过渡的第一步。单核苷酸多态性(SNPs)是个体间的单碱基差异,是基因组中最丰富的遗传变异来源,具有数量大、分布广、突变率低的特点。Liao 等[27]用第二代测序技术中的Roche 454 测序技术对核桃进行测序,总共检测到49 202 个核苷酸变异,包括48 165 个SNPs 和1 037 个InDels,这些SNPs 和InDels 将为核桃的遗传研究提供有价值的标记资源。Marrano 等[28]开发了一种高密度AxiomJ.regia700K SNP 基因分型阵列,应用这种基因分型工具,可以对核桃的关键性状进行遗传剖析,使用这种SNP 阵列从一组9.6 Mbp 的全基因组变异中获得609 k 的高质量SNP,数据表明获得的SNP 是先前重测序确定的,使用获得的数据对超过1 000 株核桃进行基因分型验证,55.7%的SNPs 属于多态性高的类型,亲代与子代关系进行鉴定也符合孟德尔遗传定律。Arab 等[29]使用AxiomJ.regia700K SNP基因分型技术对伊朗地区的8 个不同气候区的95个核桃样本进行基因分型,其中53%的SNP 属于高分辨率的多态性。Ciarmiello 等[30]对18 个地理来源不同的核桃品种的内部转录间隔区(核糖体的ITS1和ITS2)中的一些SNPs 进行分析,对18 个品种的ITS1-5.8s-ITS2 的序列进行比对发现序列分为2 类,种间存在多态性,证明ITS1 和ITS2 区域进行SNP标记可用于核桃品种的鉴别。

2.2 重要农艺性状的定位

随着基因组测序技术的发展,与性状基因相连的遗传标记逐渐被挖掘,具有丰富序列信息的标记可以提高育种效率,使用这些标记构建遗传图谱,绘制高密度遗传连锁图谱可以清晰目的基因与染色体之间的位置。Zhu 等[31]使用特异性长度扩增片段测序(Specific Length Amplified Fragment sequencing,SLAF-seq)技术获得153 820 个SLAF标记,使用其中2 577 个多态性标记,对F1群体构建了含有16 个连锁群(Linkage Group,LG)的高密度遗传图谱,总图谱标记覆盖2 457.82 cM;根据区间映射(LOD>3.0)检测数量性状,在LG14 区间上的165.51~176.33 cM 检测到1 个炭疽病抗性QTL。

基于基因组对数量性状进行进一步分析是数量性状基因座定位(Quantitative Trait Loci,QTL)和全基因组关联分析(Genome Wide Association Study,GWAS)手段对核桃基因组功能基因的注释研究,QTL 与GWAS 结合使核桃从传统育种走向基因组辅助育种。Marrano 等[32]使用QTL 定位和GWAS关联分析的方法探究影响核桃产量、果仁表皮颜色、物候期等5 个性状的因素,表型性状数据结合SNP 标记构建的遗传图谱,确认相关性状的基因座,分别在Chr1、Chr11 染色体上发现了与核桃成熟期、产量与结果相关的基因组区域,在Chr6 和Chr7 上2 个标记关联糖基转化和氧化反应。

Sideli 等[33]以核桃的果壳缝合强度为切入点,对核桃内果皮缝合线进行研究,使用700K SNP Array 技术对464 株核桃进行SNP 多态性分析,QTL 作图和GWAS 结合分析,确定导致性状变异的特定位点,控制核桃果壳缝合强度的主要QTL 在LG05,该QTL 的基因功能是切割和降解木葡聚糖聚合物,另在LG01 和LG11 上分别有1 个次要QTL,也可能对核桃缝合线起调控作用。

对核桃的物候期和结果习性进行研究有助于选育高产品种,Bernard 等[34]对全球各地的170 份核桃材料进行GWAS 分析,并对与物候期相关的78个F1子代个体进行基因组分型,结果发现在核桃第1 条染色体上的SNP 位点与核桃发育过程中的芽裂和雌花开花有很强的关联性,该位点得到在该区域的QTL 证实。果个大、出仁率高、易取仁是核桃商品出售的主要标准,Bernard 等[35]对核桃的果实特性包括性状、大小、营养成分等品质相关的25 个性状进行全基因组关联分析,结果发现60 多个标记与性状关联,包含2 个与核桃果仁体积与重量关联的SNP 位点。

核桃仁涩皮颜色越浅越受到消费者青睐,核桃仁的涩皮颜色在不同品种、不同发育阶段表现不同。Sideli 等[36]对Chandler×Ldaho 双亲后代的168株后代和本地的528 株核桃进行GWAS 分析,发现与核桃仁涩皮颜色的表型在Chandler 遗传图谱上有重叠区域,在Chr01 等多个染色体上小效应QTL 位点,QTL 与标记锚定染色体定位于Chr01、Chr10、Chr14 和Chr16 上,包括转录因子MYB113在内的12 个基因被认定为可能与核桃仁涩皮颜色色素沉着有关。

在核桃生产栽培中,与开花、落叶相关的性状是植物生命周期的关键因素,也是决定核桃生产力的重要因素。Bükücü 等[37]对土耳其的188 份核桃材料,通过全基因组关联分析进行基因型变异分析,结合3 年与叶芽萌发、开花等13 个开花、落叶相关的表型性状数据,发现了与花序数量和果实结实等性状相关的标记,关联分析结果显示16 个QTL位点至少与2 个表型性状相关,其中QTL05 关联数量最多,与7 个性状相关(开花期、萌芽期、雄花始花期、雌花始花期、雄花终花期、雌花终花期以及坚果果形),这些鉴定出来的与开花、落叶相关的标记位点与显著性QTL 为以后童期选择提供了数据。

2.3 利用全基因组测序研究物种起源与演化

核桃的基因组测序长度在640 M~990 Mbp 之间,测序结果的连续性和准确性支持对基因组变异的注释,基因组注释得清晰对于了解核桃植物及其进化分类都具有重要的意义[38]。Stevens 等[39]对北加州黑核桃、黑核桃、小黑核桃和核桃进行基因组深度重测序,重测序结果将核桃属分为3 类:①黑核桃组:J.nigra、J.microcarpa、J.hindsii;②核桃组:J.regia、J.sigillata;③核桃楸组:J.cathayensis。利用重测序数据对多酚氧化酶位点PPO 的结构和序列变化进行深度分析,研究结果显示PPO1 位点在谱系上表现出加速分化和氨基酸置换过剩的现象,这些现象可能导致核桃和山核桃的驯化。Mu 等[40]使用全基因组限制位点相关的 DNA 测序方法(2b-RAD)对野生和栽培麻核桃种进行研究,通过构建物种进化树和测序结果得出麻核桃是核桃和核桃楸的杂交后代。

Zhang 等[41]对19种核桃种的80 个个体,以及近缘种枫杨和化香树(Platycarya strobilaceaSieb)进行全基因组重测序,使用单拷贝核基因的系统发育网络分析、全基因组位点模式概率等方法得出核桃及其地方品种泡核桃是美洲核桃和亚洲核桃的杂交后代,而灰核桃是亚洲核桃大量渗入美洲黑核桃基因组的结果,通过贝叶斯计算模型发现其在上新世晚期(3.45 Mya)开始分化,而2种亲本血统在欧洲已经灭绝。Mu 等[42]基于RAD-seq 技术和叶绿体基因组数据对核桃属的系统发育进行重新分析,分析结果在群体水平上支持胡桃亚科的拓扑结构,最终在化石记录、系统发育和谱系分化时间等的证实下提出核桃木亚科起源于北美,通过白令海峡和北大西洋陆桥向欧亚大陆迁移。

通过对核桃基因组的研究预测过去的气候生态信息,并更新核桃避难所的位置。Aradhya 等[43]对高加索地区、中亚、东亚、亚洲西南和东欧等317份核桃材料643种基因型进行遗传多样性和群体结构分析,分析核桃现今期、末次盛冰期(Last Glacial Maximum,LGM)、末次间冰期(Last Interglacia,LIG)的空间与时间分布,结果表明LGM 期间核桃的分布范围主要局限于南高加索地区的南纬地区、西藏西南部的中亚和南亚地区、印度东北部、锡金和不丹的喜马拉雅地区以及中国东南部,在北纬30~45°的地理区域内的避难所存活。

随着末次盛冰期到来,迫使适应温暖的环北方植物群迁移,并被限制在亚洲东部、北美和欧亚大陆西南部的大型南方避难所。Bai 等[44]对亚洲南北2个地区的核桃进行了多样性分析,2 个地区间存在一条干旱隔离带,结果北部为核桃楸属和日本核桃(Juglans ailantifoliaCarr),南部为山核桃属,推测主要原因为北部原始山脉的地域差异而分化,此后基本保持分离。Wang 等[45]利用12 个SSR 位点对中国东北和朝鲜半岛的19 个核桃群进行了末次冰期后物种的扩散模式探究,结果发现在末次冰期后物种扩散的过程中,东北地区的核桃几乎没有遗传多样性缺失的现象,推测是由于在北方种群传播过程中缺乏长距离的传播机制,因而遗传多样性的维度没有下降。Ebrahimi 等[46]对北美核桃、亚洲核桃和核桃的基因型和抗寒性进行了评估,结合耐冷基因的表达量和系统发育分析得出,核桃与其他亚洲核桃核基因组聚为一组,且核桃的遗传多样性低于其他样本,鉴定的耐寒冷基因最低,分子机理与生理数据高度相关,可以有效地表征核桃品种的耐寒性。

现在核桃群体种质资源分布的多样性除代表冰川后的扩张、定居和种植外,还包括自然和人类选择和驯化的复杂的相互作用。Bai 等[47]推算核桃物种演化时间,对11 个温带核桃物种的基因组进行两两测序的马尔科夫合并方法,估算核桃有效种群大小(Ne)的变化轨迹,再使用G-PHOCS 方法估算多个基因组间的分化时间,结果得出核桃属在100 万年前开始分化,这一结果也被G-PHOCS 对发散时间的估计所证实,但它们对冰期后的气候反应并不相似,Ne变化的时间和幅度不同,推测核桃种群的进化历程中不单单存在环境改变,与特定病原体的共同进化交互作用等物种特异性因素可能发挥了关键作用。

Paola 等[48]使用14 个微卫星位点对91 个欧洲核桃进行遗传多样性评价,构建欧洲核桃的种群历史谱系和传播途径,结果表明在罗马帝国时期就存在东欧、西欧的种间杂交,而在过去的5 个世纪里,在欧洲东北部和西欧出现了人口规模的扩张和随后的下降,核桃在欧洲的实际分布是末次盛冰期后多个避难所的扩张或收缩和过去5 000 年来人类对其开发的综合作用的结果。

2.4 基因组与其他组学结合,挖掘基因表达信息

获得高质量的基因组,将使多倍体高重复的复杂物种的转录分析更加准确。Hu 等[49]利用Illumina测序技术和De novo 组装获得平均长度747 bp 的转录组数据,利用这些数据鉴定到63 个新的SSR 标记,使用这些标记对4 个群体中的4~14 个个体进行标记检测,检测到20 个SSR 标记具有多态性且易于扩增。Zhao 等[50]对核桃脂肪合成的3 个发育时期(初期发育期、快速发育期、成熟发育期)进行转录组测序分析,3 个发育阶段共获得68.18 Gb 的数据,92%~94%的clean data 可以比对到参考基因组,分析脂肪合成相关的关键基因的表达水平,确定ACCase、LACS和FAD7是与脂肪合成相关的关键基因。Quan 等[51]对核桃花芽分化不同时期进行cDNA 文库测序及石蜡包埋组织切片方法观察形态变化,雌花芽与叶芽间差异表达的DEGs 有374 个,构建与花期有关的DEGs 共表达网络,鉴定出CRY2和NF-YA基因是调控花期的核心DEGs,通过cDNA测序对核桃成花过程的表达基因进行筛选,为核桃的开花机理提供了理论依据。

将基因组数据和转录组数据补充现有的蛋白质序列数据库,利用这种蛋白基因组数据库可以极大地改善MS/MS 搜索结果。Cary 等[52]通过基因组测序和转录组、蛋白组的数据库检索光谱,并将提取的核桃进行液相色谱-质谱(LC-MS/MS)分析,最终在基因组数据库中确定出10 个独特多肽段,转录组数据库中的识别多肽数量增加了20%,为核桃等坚果物种的蛋白数据库奠定了基础。Zaini 等[53]对早实、晚实核桃的种皮颜色进行研究,揭示了在采收期中常见蛋白与特异蛋白的321 个差异明显的种皮膜层蛋白,蛋白质组学分析检测到4 937 个蛋白,涉及到抗氧化、次级代谢等途径。

3 展 望

随着新测序技术的不断更新,基因组学相关研究实现快速发展,以高通量测序技术为基础的各种组学研究广泛应用于核桃等植物的各个领域。测序技术的成熟加上测序成本的降低,越来越多的果树物种的基因信息被破解。而果树的全基因组测序工作仍需继续推进,核桃等果树的功能基因组学研究远不及水稻、玉米等农作物,主要原因仍为果树是多年生植物,有性繁殖周期长,建立杂交群体至开花结果得到想要研究的性状需要很长时间;另外对功能基因的定位与验证也受到完善的表达体系的限制,除苹果[54]等国内主栽经济果树外,大部分果树仍需借助模式植物进行验证。

随着测序技术的不断进步,通过测序获得了越来越多果树的全基因组序列,同样在转录组、蛋白组、代谢组等生物信息数据也在不断积累,而建立一种包含基因组、转录组、蛋白组等相关数据的综合性数据库显得尤为重要[55-56],目前在柑橘属(Citrus Genome Database,https://www.Citrusgenom-edb.org/)、梨属(Pear Genome Project,http://pear-genome.njau.edu.cn/)已拥有基因组数据库,通过对综合数据库的生信数据进行分析、储存以及整合,可为果树基础研究和应用研究提供可靠数据信息。对核桃的全基因组测序能够推进核桃的基因组学研究,丰富核酸序列和基因资源,为进一步开发分子标记、挖掘重要功能基因和解析生长发育机制等分子生物学研究提供重要基础和依据,加快核桃分子辅助育种进程。

猜你喜欢
位点测序性状
珠海长肋日月贝形态性状对体质量的影响
多环境下玉米保绿相关性状遗传位点的挖掘
PSORA:一种基于高通量测序的T-DNA插入位点分析方法
新一代高通量二代测序技术诊断耐药结核病的临床意义
宏基因组测序辅助诊断原发性肺隐球菌
生物测序走在前
相信科学!DNA追凶是如何实现的?
基因测序技术研究进展
一种改进的多聚腺苷酸化位点提取方法
甜玉米主要农艺性状的研究