基于转录组数据的直立型扁蓿豆SSR序列特征分析

2022-05-16 04:53乌日娜石凤翎
关键词:核苷酸位点测序

乌日娜,徐 舶,石凤翎

(内蒙古农业大学 草原与资源环境学院,草地资源教育部重点实验室,内蒙古 呼和浩特 010019)

扁蓿豆(Medicagoruthenica)别名花苜蓿、野苜蓿等,是豆科(Leguminosae)苜蓿属(Medicago)多年生草本植物[1],主要分布于我国北方的高山及典型和荒漠化草原[2],在草地改良、生态治理及草产业开发等多个领域都极具应用潜力,具有重要的生态意义。扁蓿豆营养价值较高,是一种比紫花苜蓿营养利用效率更高的优质蛋白质饲料,还具有较好的抗寒性、抗旱性、耐盐碱性[3],能够在恶劣环境(寒冷、干旱、石质化环境等)中生存[4],因此可以作为改良苜蓿属牧草及其他牧草抗逆性的优质基因资源。

近年来,国内外关于扁蓿豆的研究多集中在其对盐碱、干旱、重金属等非生物胁迫的响应[2]、种质遗传多样性评价与分析[5]及抗性基因挖掘、克隆和功能验证[6]等方面,对其新型分子标记的研究相对较少[7]。当前,在扁蓿豆中应用的简单重复序列(simple sequence repeat,SSR)标记多来自紫花苜蓿基因组文库[8],但不同属或族的物种间转录区存在一定程度的变异[9],能够在不同属或族通用的标记数量有限[5],因而为满足扁蓿豆种质资源鉴定及改良的需求,有必要开发针对其的新型分子标记。

SSR又称微卫星,是由1~6个核苷酸组成的短串联DNA重复序列,具有高度保守的侧翼区域和高度可变的重复次数[10],是一种具有丰富多态性和多等位性的共显性标记,已经被广泛用于种质遗传多样性分析和标记辅助选择育种[11]。利用高通量测序技术开发SSR引物在紫花苜蓿[12]、苏丹草[13]、高加索三叶草[14]、红三叶[15]、老芒麦[16]、鸭茅[17]等牧草中均有报道,但在扁蓿豆上尚未见相关的研究。本研究基于直立型扁蓿豆(Medicagoruthenica‘Zhilixing’)的转录组高通量测序结果,对分布于转录组上的SSR位点信息组成及其序列特征进行分析,以期为扁蓿豆种质资源遗传多样性研究、SSR 引物设计与筛选、系统亲缘关系及分子辅助育种等研究奠定基础。

1 材料与方法

1.1 试验材料

直立型扁蓿豆,由内蒙古农业大学利用多次混合选择法培育而成,试验所用种子采集于内蒙古农业大学新区牧草地。将扁蓿豆种子用浓H2SO4浸泡5~8 min破除硬实,在育苗盘中萌发,放置于温室中,统一进行精细管理。待幼苗生长到6~8叶期时,每株取第4或5片完全展开叶片混合后放入液氮速冻,备用。

1.2 试验方法

1.2.1 转录组文库构建、测序与拼接 利用天根提取试剂盒提取直立型扁蓿豆叶片总RNA,用TruSeqTM RNA sample preparation Kit试剂盒建立RNA文库。文库质量检测合格后,用北京诺禾致源生物信息科技有限公司Illumina HiSeq X Ten测序平台进行高通量测序。对测序获得的原始数据(raw reads)进行过滤后得到干净读数(clean reads)。因直立型扁蓿豆无参考基因组,需先对干净读数进行拼接,获得参考序列后进行下一步分析。用拼接软件Trinity[18]依次对大量的RNA-seq数据进行高效稳定地拼接,对得到的直立型扁蓿豆叶片转录本序列用Corset方法进行层次聚类,将获得的最长Cluster序列(Unigene)作为后续分析的参考序列。

1.2.2 SSR的筛选和统计分析 使用软件MISA 1.0版(http://pgrc.ipk- gatersleben.de/misa/misa.html)对直立型扁蓿豆转录组的非冗余Unigene进行SSR位点搜索。其中,单、二、三、四、五、六核苷酸基序(motif unit size)至少重复次数分别为10,6,5,5,5,5;复合型(compound)核苷酸两个位点间距离小于150 bp[19]。将生成的数据MISA文本用Microsoft Excel 2021进行整理,对序列特征进行分析并绘制图表。

2 结果与分析

2.1 直立型扁蓿豆转录组SSR分析

表1显示,直立型扁蓿豆经高通量测序后,共得到308 449条非冗余Unigene,平均长度为922.20 bp,总长度为284 452 737 bp。按照搜索标准对308 449条Unigene进行筛选,共搜索到89 688个SSR位点,SSR位点的出现频率为29.08%;含SSR位点的序列数目有67 012条,SSR位点的发生频率为21.73%。同时,搜索到包含复合型SSR位点的Unigene序列9 527条,占Unigenes 序列总数的3.09%;搜索到包含1个以上SSR位点的Unigene序列有16 270条,占Unigenes 序列总数的5.27%。

表1 直立型扁蓿豆转录组中SSR搜索分析结果Table 1 Analysis of SSR in transcriptome of M. ruthenica ‘Zhilixing’

2.2 直立型扁蓿豆转录组SSR重复类型分析

由表2可知,直立型扁蓿豆转录组 SSR 位点重复类型丰富,且各重复类型的SSR 数量、所占比例和出现频率相差较大。单核苷酸重复所占比例和出现频率最高,分别为59.89%和17.41%;三核苷酸重复次之,所占比例和出现频率分别为20.72%和6.03%;四、五、六核苷酸的SSR数量相对较少,其中六核苷酸重复最少,其所占比例和出现频率分别为0.22%和0.06%。单核苷酸重复的SSR数量约是三核苷酸重复的3倍,约是六核苷酸重复的271倍。从SSR位点的总体分布情况来看,6种重复类型的分布距离具有明显差异,每5.30 kb出现1个单核苷酸SSR位点,每1 436.63 kb出现1个六核苷酸SSR位点,平均每3.17 kb就出现1个SSR位点。

表2 直立型扁蓿豆转录组SSR重复类型的数量和分布特点Table 2 Number and distribution characteristics of SSR repeat types in transcriptome of M. ruthenica ‘Zhilixing’

2.3 直立型扁蓿豆转录组SSR重复基元类型和比例

由表3可知,在直立型扁蓿豆转录组中检测到由159种重复基元构成的89 688条SSR,出现总频率为29.08%,单、二、三、四、五、六等6种核苷酸重复类型数逐渐增加,分别为2,4,10,29,49,65,出现频率为0.01%~17.01%,而SSR位点数量呈下降趋势。在各核苷酸重复基元类型中,单核苷酸中的主要重复基元为A/T(52 466个),占比高达58.50%,出现频率17.01%;二核苷酸中的AG/CT数量最多(7 432个,占比8.29%),其次为AT/AT(5.33%)、AC/GT(3.51%); 三核苷酸中的优势基元为AAG/CTT(4.82%)、AAT/ATT(3.90%)、AAC/GTT(3.77%)、ATC/ATG(2.94%);四核苷酸中的优势基元为AAAT/ATTT(0.33%)和AAAG/CTTT(0.18%);五核苷酸中的优势基元为AAGAG/CTCTT(0.06%);六核苷酸数量较少,其各类型重复基元所占比例均不高于0.01%。总体而言,四、五、六核苷酸重复基元的出现频率均较低(≤0.10%),6种重复基元类型中以六核苷酸重复基元种类最多(65种),而单核苷酸重复基元数量最多(53 710个)。

2.4 直立型扁蓿豆转录组SSR重复次数和分布

从直立型扁蓿豆6种核苷酸的SSR位点重复次数分布结果(表4)可以看出,随着重复次数的增加,重复基元数量总体呈下降趋势。其中单核苷酸基元重复次数主要集中在10~15次,主要重复基元占比为84.81%;二核苷酸基元重复次数主要集中在6~12次,主要重复基元占比为73.93%;三核苷酸基元重复次数主要集中在5~8次,主要重复基元占比为90.21%。单、二、三核苷酸主要重复基元数量共占总SSR位点数的82.21%;四、五、六核苷酸的基元重复次数主要集中在低重复水平(≤6次),其主要重复基元数量分别为1 183,402和181,占总SSR的比例分别为1.32%,0.45%和0.20%。

表3 直立型扁蓿豆转录组中SSR的重复基元类型及数量Table 3 Type and number of SSRs repeat motifs of M. ruthenica ‘Zhilixing’

表4 直立型扁蓿豆转录组SSR不同基元的重复次数Table 4 Repeat times of different SSR motifs of M. ruthenica ‘Zhilixing’

由表4可见,直立型扁蓿豆SSR整体重复次数主要集中在6~15次(重复次数为15次的SSR位点为2 814个),共68 514个SSR位点(占比76.39%);1~5次低重复次数的SSR位点为10 198个(占比11.37%);重复次数>15次的SSR位点有10 976个(占比12.24%)。总体来看,直立型扁蓿豆SSR重复以中度重复为主,较高重复次数次之,低重复次数相对较少。

2.5 直立型扁蓿豆转录组SSR长度分布

过滤掉长度<12 bp的片段后,对直立型扁蓿豆不同基序的SSR长度进行分析,结果见表5。

表5 直立型扁蓿豆转录组不同重复类型的SSR长度分布Table 5 Length distribution of SSR different repeat types in transcriptome of M. ruthenica ‘Zhilixing’

由表5可知,直立型扁蓿豆SSR长度为12~482 bp。二核苷酸SSR长度主要集中在12~24 bp,此长度范围SSR数占二核苷酸SSR总数的73.79%,平均长度为45 bp;三核苷酸SSR长度为15~90 bp,平均长度49 bp,其中长15 bp的核苷酸数量高达6 988个,占三核苷酸总数的47.52%;四、五、六核苷酸重复中SSR长度分别为20~84,25~70和30~72 bp,平均长度分别为36,43和51 bp,其占比最大的SSR长度分别为20 bp(826个,65.30%),25 bp(347个,86.75%),30 bp(131个,83.29%)。此外,直立型扁蓿豆中检测到的复合型SSR核苷酸长度主要集中在20~120 bp,其数量占复合型SSR总数的87.94%。

图1显示,过滤掉小片段后,直立型扁蓿豆转录组的SSR长度主要集中在12~120 bp,其数量为37 327条,占SSR总数(89 688条)的41.62%,其中数量最多的是长度为15 bp的三核苷酸重复(共6 988条,占比7.79%)。在搜索到的这些SSR位点中,长度在12~20 bp 的SSR有17 919条,占SSR总数的 44.99%;长度在21~40 bp的SSR数量次之,为11 690条,占SSR总数的10.57%;长度在200 bp以上的SSR有145条,占SSR总数的0.16%。统计发现,长度在20 bp以上的SSR共有20 557条,占SSR总数的22.92%,推测这部分长度较大的序列可能具有较高的多态性潜能。

图1 直立型扁蓿豆转录组中SSR基序长度分布Fig.1 SSR motif length distribution in transcriptome of M. ruthenica ‘Zhilixing’

3 讨论与结论

高通量测序技术的发展为新基因发掘、功能基因鉴定和分子标记的开发提供了一条快速途径[20 ]。本研究通过对直立型扁蓿豆叶片的高通量测序,共计得到非冗余序列Unigene 308 449条,总长度为284 452 737 bp。从所有Unigene中共搜索到SSR位点89 688个,SSR出现频率为29.08%,低于瞿麦(48.05%)[21]和橡胶草(35.2%)[22],高于草原1号杂花苜蓿(20.03%)[23]、蒙农红豆草(15.42%)[24]、苏丹草(16.82%)[13]、夏枯草(27.5%)[25]。直立型扁蓿豆SSR平均分布距离为3.17 kb,低于夏枯草(5.93 kb)[25]、蒙农红豆草(5.86 kb)[24]、草原1号杂花苜蓿(5.84 kb)[23],高于瞿麦(2.96 kb)[21]和橡胶草(1.86 kb)[22]。此外,直立型扁蓿豆的SSR平均分布距离与同为豆科属植物的高加索三叶草的SSR平均分布距离(3.47 kb)[14]极为接近,与草原1号杂花苜蓿(5.84 kb)[23]、蒙农红豆草的平均分布距离(5.86 kb)[24]差异相对较大,利用这些数据可以开发豆科牧草相关的新分子标记。

大多数基于植物转录组测序结果的SSR以单、二、三核苷酸重复基元为主,但是主导重复基元类型无明显的规律,这主要是因为SSR搜索的结果受物种差异和搜索标准等因素的影响[26]。本研究中,单核苷酸(59.89%)是直立型扁蓿豆转录组SSR的主要重复基元类型,其次为三核苷酸(20.72%)和二核苷酸(17.22%),这与在高加索三叶草[11]、杂花苜蓿[23]、紫花苜蓿[27]、瞿麦[21]上的研究结果一致,而与在火焰兰[28](以二和三核苷酸为主),蒙农红豆草[24]、青藏扁蓿豆[5](均以三核苷酸为主),夏枯草[25]、溪黄草[29](均以二核苷酸为主)上的研究结果不一致。在本研究搜索到的SSR位点中,单、二核苷酸重复的优势基元分别为A/T和AG/CT,这与对草原1号杂花苜蓿[23]的研究结果一致,但三核苷酸重复的优势基元(AAG/CTT)有所不同,利用这一差异可以开发出具有扁蓿豆特异性的SSR新位点。

高度丰富的多态性是SSR分子标记的应用价值所在,而这取决于基元重复次数和≥20 bp片段的多少[25]。本研究中,SSR整体重复次数主要集中在6~15次,共68 514条,占SSR总数的76.39%,重复次数>15的SSR 10 976条,占SSR总数的12.24%。其中,三核苷酸重复次数类型和跨度相对较多,推测这些SSR具有更丰富的多态性。在基元长度方面,直立型扁蓿豆转录组SSR长度主要集中在12~120 bp,长度在20 bp以上的SSR位点有20 557条,占22.92%,这些SSR位点可能更适合作为扁蓿豆的分子标记。

本研究基于直立型扁蓿豆叶片转录组的高通量测序数据,检索到89 688个SSR位点,对其序列特征、基元重复次数和类型、基元长度等进行了分析,获得了具有高度多态性的SSR位点,这对扁蓿豆SSR新型实用标记的开发及扁蓿豆的遗传多样性、种质资源收集与评价、品种鉴定和育种等有重要意义。

猜你喜欢
核苷酸位点测序
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
两种高通量测序平台应用于不同SARS-CoV-2变异株的对比研究
DNA脱碱基位点的检测方法及其生物学研究进展
多环境下玉米保绿相关性状遗传位点的挖掘
徐长风:核苷酸类似物的副作用
宏基因组测序辅助诊断原发性肺隐球菌
核苷酸营养与运动能力
生物测序走在前
Acknowledgment to reviewers—November 2018 to September 2019
基因测序技术研究进展