白花重楼叶绿体基因组特征及系统发育分析

2023-09-20 11:23张书东凌立贞谢丹丹刘祯珍
热带作物学报 2023年8期

张书东 凌立贞 谢丹丹 刘祯珍

关键词:白花重楼;重楼属;藜芦科;系统发育;叶绿体基因组

重楼原隶属于百合科(Liliaceae),根据分子系统学研究结果,现归属于藜芦科(Melanthiaceae),为重楼属(Paris)植物的统称,全球约有26种[1],主要分布于我国的西南各省(区)。重楼具有重要的药用价值,据记载,该属11个物种(包括种下单位,下同)的根茎可作药用,用于治疗损伤、中毒、腮腺炎等多种疾病[2],滇重楼(P.polyphyllavar.yunnanensis)和华重楼(P.polyphyllavar.chinensis)更是被收录进2020年版的《中国药典》[3]。

白花重楼(P.polyphyllavar.alba)为七叶一枝花(P.polyphylla)的一个变种,主要分布于我国西南地区的云南、贵州、四川、重庆以及湖北等地[4-5]。白花重楼以根茎入药,用于治疗慢性气管炎、胃痛、扁桃体炎、腮腺炎、乳腺炎、毒虫咬伤和疮疡毒肿等病症[6]。近年来由于企业对重楼原料药需求量逐渐上涨,野生重楼遭到掠夺式采挖,致使部分未记录有药用价值的重楼属植物的野生资源也遭到严重破坏。根据最新发布的《国家重点保护野生植物名录》[7],重楼属除北重楼(P.verticillata)外均被列为国家二级重点保护植物,白花重楼同时还被《世界自然保护联盟红色名录》(IUCN)列为易危种。然而,到目前为止,有关白花重楼的研究还很少[8-10]。

为更好地开展白花重楼遗传背景、种质资源保护及系统发育等方面的研究,本研究对白花重楼进行了全基因组建库测序,从中筛选并组装出完整的叶绿体基因组,并对白花重楼叶绿体基因组结构特征及其在重楼属的系统位置进行了分析。

1材料与方法

1.1材料

采自云南省丽江市丽江高山植物园种质资源圃(100°11′E,27°00′N)的白花重楼新鲜健康叶片装入取样袋后立即加入变色硅胶进行干燥,室温保存。

1.2方法

1.2.1基因组总DNA的提取和全基因组测序取白花重楼硅胶干燥叶片,利用CTAB法[11]提取基因组总DNA。分别采用琼脂糖凝胶电泳和NanoDrop-2000微量分光光度计检测总DNA质量和浓度。双端高通量测序由北京诺禾致源科技股份有限公司的IlluminaHiSeqXTen平台完成,测序总数据量为6Gb。

1.2.2叶绿体基因组的组装与注释利用SPAdesv3.6.1[12]以默认参数对原始测序数据进行从头组装生成一系列contigs。利用Bandage[13]手动对生成的contigs进行编辑,生成可靠的完整叶绿体基因组。以金线重楼(P.delavayi,登录号:MN125581)为参考基因组,利用PGA[14]对序列进行功能注释。注释后的完整叶绿体基因组数据提交至GenBank(登录号:MW980523)。利用OGDRAW[15]在线工具(http://ogdraw.mpimp-golm.mpg.de/index.shtml)绘制白花重楼叶绿体基因组图谱。

1.2.3叶绿体基因组特征分析利用Geneiousv8.0.2[16]读取白花重楼基因组基本特征信息。利用REPuter[17]鉴定叶绿体基因组中的长重复序列,最小重复设置为30bp,最小重复序列长度距离设置为3。利用MISA[18]对白花重楼叶绿体基因组进行微卫星(simplesequencerepeats,SSR)位点检测,参数阈值设置为单碱基、二碱基、三碱基、四碱基、五碱基和六碱基最少重复次数分别为10、5、5、5、5、5,2个SSR位点间最小距离设置为100bp。

1.2.4密码子偏好性分析利用Geneiousv8.0.2[16]提取白花重楼叶绿体基因组蛋白质编码基因序列(codingsequence,CDS),并手工剔除一个IR区的重复序列和基因长度<300bp的序列。利用CodonW1.4.2在线软件(http://codonw.sourceforge.net/)分析以ATG为起始密码子,以TAA、TAG、TGA为终止密码子的编码基因的同义密码子相对使用度(relativesynonymouscodonusage,RSCU)。RSCU是指某一特定密码子在使用频率与其无偏好性使用时预期频率之间的比值[19],当RSCU>1时,表明该密码子使用频率较高;当RSCU=1时,说明该密码子无偏好性;当RSCU<1时,表明该密码子使用频率较低。

1.2.5重楼属叶绿体基因组比较分析利用Geneiousv8.0.2[16]读取重楼属已公布33个物种叶绿体基因组特征信息,对34个物种的基因组大小、基因数目、蛋白编码基因数目、转运RNA数目、核糖体RNA数目和GC含量进行比较分析。

1.2.6系统发育分析为探讨白花重楼的系统位置,从NCBI下载藜芦科48个物种的叶绿体全基因组序列用于重建重楼属的系统发育关系,包括重楼属33条,藜芦属(Veratrum)3条、白丝草属(Chionographis)1條、沼红花属(Helonias)2条、延龄草属(Trillium)6条、熊尾草属(Xerophyllum)1条和丫蕊花属(Ypsilandra)2条。根据相关研究结果[20-22],选择藜芦属3个物种作为外类群。序列比对利用MAFFTv7.245[23](https://mafft.cbrc.jp/alignment/server/)完成。贝叶斯推论(Bayesianreference,BI)建树时选择的最佳替代模型依据赤池信息量准则(Akaikeinformationcriterion,AIC)利用Modeltest[24-25]计算。最大似然法(maximumlikelihood,ML)建树时使用RAxMLv.8.2.11[26]完成,核苷酸替代模型设置为GTRGAMMA,1000次靴带值估算各分支的支持率(bootstrap,BS)。贝叶斯推论建树使用Mrbayes3.2.6[27]软件完成,四条马尔科夫-蒙特卡洛链(markovchainmontecarlo,MCMC)运行50万代,每100代取样一次,当数据达到收敛时,前25%的样本作为老化树被丢弃。剩余样本生成50%的多数一致树(50%majority-ruleconsensustree),并生成各分支的后验概率(posteriorprobability,PP)。

2结果与分析

2.1白花重楼叶绿体基因组结构特征

去除接头和低质量测序数据后,白花重楼共获得34225418条长度为150bp的序列(reads)。利用SPAdes软件进行组装,Bandage手工编辑后得到白花重楼完整叶绿体基因组序列。结果表明,白花重楼叶绿体基因组总长度为163944bp,GC含量为37.1%(表1)。基因组呈双链环状,1个大单拷贝区(largesingle-copy,LSC)和1个小单拷贝区(smallsingle-copy,SSC)被1对反向互补重复区(invertedrepeats,IRs)分隔成典型的四分体结构(图1)。GC含量在4个区域存在明显差异,IR区的GC含量最高(39.7%),其次是LSC区(35.7%)和SSC区(32.2%)(表1)。

2.2白花重楼叶绿体基因组基因功能及分类

利用PGA软件注释和手动校对后,白花重楼叶绿体基因组共注释有134个基因,包括88个蛋白编码基因、38个转运RNA(tRNA)基因和8个核糖体RNA(rRNA)基因(图1)。根据基因功能可以把它们分为4大类,分别是45个與光合作用相关的基因、74个与自我复制相关的基因、6个与蛋白编码相关的其他基因,以及8个未知功能的蛋白质基因(表2)。在这些基因中,有10个蛋白质编码基因(ndhB、rpl2、rpl22、rpl23、rps12、rps15、rps19、rps7、ycf1、ycf2)、7个tRNA基因(trnA-UGC、trnH-GUG、trnI-CAU、trnL-CAA、trnN-GUU、trnR-ACG、trnV-GAC)和4个rRNA基因(rrn16S、rrn23S、rrn4.5S、rrn5S)位于反向互补重复区,为双拷贝基因(表2)。白花重楼叶绿体基因组未注释到拷贝数大于2的基因。白花重楼叶绿体基因共有23个基因含有内含子,其中19个基因(包括11个蛋白编码基因和8个tRNA基因)含有1个内含子,4个蛋白质编码基因(ycf3、clpP、rps12×2)含有2个内含子(表2)。

2.3白花重楼长重复序列和SSR分析

长重复序列分析表明,白花重楼叶绿体基因组包括全部4种长重复序列,其中正向重复序列305条,反向重复序列21条,互补重复序列19条,回文重复序列300条,总长度为68889bp(表3)。除IR区外,重复长度范围在30~152bp之间,主要集中在30、31、43、55、77bp(图2)。简单重复序列分析表明,白花重楼叶绿体基因组共检测到97个SSR位点,其中单核苷酸重复基序66个,二核苷酸重复基序23个,三核苷酸重复基序4个,六核苷酸重复基序4个,未发现四核苷酸和五核苷酸重复基序(图3)。SSR的类型以A/T为主,其次为AT/AT,分别有65个和18个,占检测到的SSR数量的67.01%和18.56%(图3)。进一步在比对的49个藜芦科叶绿体基因组数据矩阵(与系统发育分析取样相同)中考察白花重楼97个SSR位点发现,(GGAAGA)5重复类型仅在白花重楼的叶绿体基因组中出现,可用于准确鉴别白花重楼。

2.4白花重楼叶绿体基因组密码子偏好性分析

白花重楼叶绿体基因组筛选出用于密码子偏好性分析的50条CDS共有64个密码子,其中61个密码子编码20种氨基酸,其余3个为终止密码子。密码子总使用频次为20818次,其中编码亮氨酸(Leu)的密码子(UUA,UUG,CUU,CUC,CUA,CUG)使用频次最高,为2076次,占总数的9.97%;编码半胱氨酸(Cys)的密码子使用频次最低,为245次,占总数的1.18%。白花重楼叶绿体CDS中RSCU≤1的密码子共34种,其中31种以G/C结尾;RSCU>1的密码子共30种,其中29种以A/U结尾(图4),表明白花重楼叶绿体基因组对A/U结尾密码子的偏好性高于G/C结尾密码子。

2.5重楼属叶绿体基因组比较分析

将白花重楼与同属其他33种植物叶绿体基因组进行比较分析,结果显示,重楼属植物叶绿体基因组的GC含量均在37%以上,基因组大小为155957~163944bp,注释基因133~137个,除白花重楼(88个)外,蛋白编码基因均为87个,tRNA基因为38~42个,rRNA基因数量保守均为8个(表4)。白花重楼叶绿体基因组有2个完整的ycf1基因(图1),因此拥有最大的叶绿体基因组序列长度。

2.6重楼属叶绿体基因组系统发育分析

基于49条完整的叶绿体基因组数据构建的藜芦科ML和BI系统进化树(图5)可见,重楼属的34个种聚为一个分支,构成一个单系类群(BS/PP=100/1.0)。延龄草属与重楼属亲缘关系较近,构成重楼属的姐妹群。重楼属可进一步划分为5个支持率很高的分支(BS/PP=100/1.0),分别对应于5个组(蚤休组Sect.Euthyra、五指莲组Sect.Axialis、黑籽组Sect.Thibeticae、日本重楼组Sect.Kinugasa和北重楼组Sect.Paris)。七叶一枝花的几个变种均属于蚤休组,但并不构成一个单系群,其中白花重楼与毛重楼(P.mairei)具有较近的亲缘关系(图5)。

3讨论

本研究通过高通量测序、生物信息学方法组装和注释获得了白花重楼完整叶绿体基因组,其全长为163944bp,略长于该属已报道物种的叶绿体基因组[28-29],但与被子植物叶绿体基因组已有数据一致[30]。造成以上特征的原因是白花重楼一对IR区均较同属其他物种的长(白花重楼33399bp,其他种小于28000bp)。白花重楼叶绿体基因组具有典型的环状四分体结构,包括1个LSC区,1个SSC区和2个IR区,其GC含量为37.1%,与已报道的该属物种叶绿体基因组结构和GC含量相似,并且LSC区(35.7%)和SSC区(32.2%)的GC含量显著低于IR区(39.7%),其原因与完全分布在IR区的8个GC含量较高的rRNA基因有关(均在48.5%以上)。白花重楼叶绿体基因组共编码134个基因,包括88个蛋白编码基因、38个tRNA基因和8个rRNA基因。在重楼属已报道的叶绿体基因组中,蛋白编码基因和rRNAs是非常保守的,但tRNAs的数目在物种间存在差异,尽管uniquetRNAs的数目都是30个。ycf1基因是叶绿体基因组中第二长的基因且存于大多数植物叶绿体基因组中[31],但通常只有一个拷贝,白花重楼因为IR区的扩张导致注释出2个完整的ycf1基因(均全部位于反向重复区),从而使其比同属其他种多出1个蛋白编码基因。

白花重楼叶绿体基因组共检测到645条长重复序列,包括了全部4种重复类型,但以正向重复比例最高,其次是回文重复、反向重复和互补重复比例较低,这与其他重楼属物种一致,而与同科其他属物种的结果不同(未发表),说明物种的亲缘关系与长重复序列的种类及数量存在一定的相关性。白花重楼叶绿体基因组97个SSR位点以单核苷酸和二核苷酸SSR为主,且含有较高的AT含量,与前人报道的植物叶绿体基因组中SSR位点多以A/T碱基出现相符。这些重复序列可为重楼属物种遗传多样性研究及物种和产品鉴定提供一定的参考信息。密码子偏好性是物种在长期的进化过程中受外界环境和内部因素共同作用的结果,密码子偏好性分析可为研究生物进化、蛋白结构、基因功能和外源基因转录和翻译提供理论依据。本研究分析表明,亮氨酸(Leu)是白花重楼叶绿体基因组中占比最高的氨基酸,并且RSCU>1的30种密码子均以A/U结尾,这与之前发表的重楼属植物基本相似[32-33]。

基于叶绿体基因组的系统发育分析结果表明,重楼属分为5个主要分支,分别对应蚤休组、五指莲组、黑籽组、日本重楼和北重楼组,这与最新的分子系统学研究结果一致[28-29],但与基于形态学的分类结果存在一定的分歧。本研究对七叶一枝花的6个变种的系统位置进行了研究,结果显示七叶一枝花的所有变种均位于蚤休组,但并不构成一个单系群,白花重楼与毛重楼具有较近的亲缘关系。基于现有的分子系统学研究结果,七叶一枝花种下的各分类单元需进一步的分类修订。