云南油杉叶绿体基因组密码子偏好性分析

2022-05-18 03:39李江飞颜廷雨汪啟波蔡年辉许玉兰唐红燕
中南林业科技大学学报 2022年4期
关键词:密码子叶绿体基因组

李江飞,王 瑜,颜廷雨,汪啟波,陈 诗,蔡年辉,许玉兰,唐红燕

(1.西南林业大学 a.云南省高校林木遗传改良与繁育重点实验室;b.西南山地森林资源保育与利用教育部重点实验室,云南 昆明 650224;2.普洱市林业和草原科学研究所,云南 普洱 665099)

云南油杉keteleeria evelyniana属于松科Pinaceae油杉属Keteleeria常绿针叶树种,高大乔木,树高可达40 m,分布于我国云南、贵州西部及西南部海拔700~2 600 m 的地区,地处南亚热带至中亚热带边缘,是东南亚特有的松科孑遗植物,亦是云南重要的乡土树种,其木材结构细密,物理性质优越,耐水湿、抗腐性好,易加工,是良好的家具、建筑用材[1-3]。云南油杉作为西南地区风景林树种之一,具有良好的经济和生态效益[4]。

密码子是识别和传递生物体遗传信息的载体,在生物遗传和变异中有着重要作用[5]。不同物种根据自身特有的进化方式,偏向于使用某一特定密码子,从而形成该物种特有的使用模式[6],密码子的使用模式会影响特定基因的功能和表达水平等[7]。密码子偏好性跟基因的表达和性能相关联,基因表达性越高密码子的偏好性越强,最优密码子出现频率也越多,反之则表达性低,利用叶绿体基因组来完成功能基因的比较分析则成为当前的难点和重点[8]。

叶绿体结构的完整性是植物生长的前提,叶绿体亦是光合作用进行的场所,是陆地植物细胞中的重要的质体类型,其叶绿体细胞器中有着独特的遗传复制规律[9-10]。叶绿体基因组作为植物特有的遗传系统,可独立对基因进行转录和翻译,有着分子量小、多拷贝、分子结构相对较为保守、序列获得容易、进化速率较快等特点,被广泛运用于分子进化、植物多样性、系统发育和DNA条码开发等领域[11-13]。通过对叶绿体基因组中密码子使用模式比较基因组学进行研究,能对选择与目的基因契合度高的叶绿体基因进行转化提供帮助,从而提高转化效率,来促进目的基因的高效稳定表达[14-15]、也能为揭示叶绿体分子的起源与进化提供参考依据。现已在迎春樱桃Prunusdiscoidea[16]、蒜头果Malania oleifera[17]、杜仲Eucommia ulmoides Oliver[18]、蔷薇科Rosaceae[19]等多种植物中开展关于叶绿体基因组密码子偏好性的研究。目前,对云南油杉的研究主要在群落结构特征及其多样性分析[20]、外生菌根真菌多样性[2]、苗木培育[21]等方面,虽有对云南油杉叶绿体基因组进行测序、拼装和注释,但尚未发现有关云南油杉叶绿体基因组密码子偏好性方面的研究报道。因此,本研究对云南油杉叶绿体基因组密码子的碱基组成以及密码子使用偏性的影响因素进行分析,并筛选出云南油杉的最优密码子,旨在为云南油杉叶绿体基因组的应用与研究提供参考依据。

1 材料与方法

1.1 材 料

从昆明西南林业大学采集新鲜健康的云南油杉嫩叶,放在液氮中带回实验室,并送到浙江优诺金生物工程有限公司进行叶绿体基因组的测序;其结果提交至NCBI 数据库中(GenBank 登录号为MW043479),从中共获得75 条CDS(coding DNA sequence,CDS)序列。为降低其误差,将长度小于300 bp、重复的并且不是以ATG 为起始,以TAA、TAG、TGA 为结尾的序列剔除,处理后留存41 条基因序列,并用于后续分析[22-23]。

1.2 方 法

1.2.1 密码子碱基组成分析

将挑选出的41 条CDS 整合到一个fasta 文件中,利用Codon W 1.4.2(http://codonw.sourceforge.net) 计算相对同义密码子使用度(relative synonymous codon usage,RSCU),RSCU 值能反映密码子的偏好性程度。当RSCU=1 时,表明该密码子没有偏好性;当RSCU>1 时,表示其密码子的使用频率比其他密码子高,偏性强,反之亦然[24]。使用在线软件CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)计算各个CDS密码子第1 位、第2 位、第3 位碱基组成的GC 含量(分别用GC1,GC2,GC3表示)[25],以及其平均GC 含量(用GCall表示)等参数。

1.2.2 中性绘图分析

以GC1和GC2的平均值为纵坐标、以GC3为横坐标绘制的散点图,剖析GC3与GC12的相关性,其中每个散点则代表1个基因。以此来判断密码子使用偏性受自然选择及突变压力的影响程度[19]。若GC3与GC12呈显著相关关系,说明碱基组成无差异,突变是其主要影响因素;反之,则说明基因组中GC 含量有较高保守性,选择对密码子使用偏性有较大影响[26]。

1.2.3 ENC-plot 绘图分析

ENC-plot 绘图包含散点图和标准曲线,以有效密码 子数(ENC,effective number of codon) 为纵坐标,GC3为横坐标进行二维散点图的绘制,ENC=2+GC3+29/(GC32+(1-GC3)2) 为标准曲线公式[27];散点图可区分开密码子使用偏性和基因碱基组成之间的关系。当散点靠近标准曲线,表示碱基组成决定其密码子偏好性,不会受到选择影响;反之则说明密码子的ENC 值较低,在基因表达水平上具有显著性,密码子偏好性较强[28]。20~61 之间为ENC 的取值范围,其值越接近20偏性越强,当ENC 值=61,则说明每个密码子都被均匀使用[29]。

1.2.4 PR2-plot 偏倚分析

对各密码子第3 位碱基上的A、T、G、C 含量进行分析,分别以G3/(G3+C3)、A3/(A3+T3),为横纵坐标进行绘图分析[30],平面图中心位置表示A=T 且C=G,即说明密码子无偏性,其余点与中心点的矢量距离表示偏性程度和方向[31]。

1.2.5 最优密码子的确定

以云南油杉每个叶绿体基因的ENC 值为参考标准,从两端各选取10%的基因,建立高低表达库,将高低偏性库间同义密码子相对使用度的差值(ΔRSCU)≥0.08的密码子作为高表达密码子[25];将RSCU 值>1 的密码子作为高频密码子,同时满足上述两个条件的定义为最优密码子[31]。

1.2.6 对应分析

对应分析(Correspondence analysis,COA)被广泛应用于研究基因间密码子使用变化的主要趋势[32],根据基因不同功能进行分类,再使用Codon W 1.4.2 软件进行对应分析,基于59 个有义密码子的使用情况(不包括AUG、UGG 和3 个终止密码子)生成正交轴,第一轴(Axis)的占比表示密码子使用的大部分变化,随后的58 个轴表示变化量的减少的影响因素[33]。COA 可以检测基因之间密码子使用的差异,识别相关的密码子及揭示影响密码子使用模式的主要因素。

2 结果与分析

2.1 云南油杉密码子相关偏性指数分析

通过在线软件CUSP 和Codon W 1.4.2 软件分析云南油杉叶绿体基因中各基因的蛋白编码序列,由表1可知:云南油杉叶绿体基因密码子不同位置上的GC 平均含量为40.07%,GC1、GC2、GC3的GC 含量分别是49.65%、40.66%、29.79%,表明不同密码子位置的GC 含量有差异,其分布频率也会不同,各位置上的GC 含量平均值由高到低依次为第1 位>第2 位>第3 位,多数密码子中第3 位密码子的GC 含量显著低于前两位密码子,说明云南油杉叶绿体编码基因多为A/U(T)碱基。其ENC 均值为49.53,介于41.73~61.00 之间,41条CDS 密码子中有35 条ENC 值>45;可推断出其密码子的偏性较弱。

云南油杉叶绿体基因组中密码子参数相关性分析表明(表2),GC1、GC2与GCall在0.01 水平上达到极显著相关,GC3和GC1、GC2之间不存在相关性,表明密码子第3 位碱基的组成存在差异性,其密码子偏性受选择影响较大。ENC与GC2为显著相关(P<0.05),其相关系数为0.365,与GC1、GC3、GCall相关性不显著,说明GC2的碱基组成会影响密码子的偏向性。密码子数与GC1、GC2和GCall显著相关,说明有效密码子数会受到不同位置上密码子的影响;密码子数与ENC 之间不存在相关性,说明基因序列长度对密码子偏好性影响较小。RSCU 分析表明(表3),有31 个密码子RSCU>1,以A 和U 结尾的较多,其中以U 结尾的有16 个,以A 结尾的为13 个,有1 个以G 结尾,1 个以C 结尾,表明云南油杉叶绿体基因组倾向于以A 和U 结尾。

2.2 碱基组成差异性

由中性绘图分析(图1)可知,0.345 0~0.522 2为GC1和GC2平均值GC12的取值范围,0.231 3~0.409 6 为GC3的取值范围,图中各基因都分布在对角线的上方,GC12和GC3相关系数为-0.208,说明GC12和GC3的相关性不显著,回归系数为-0.206,说明云南油杉叶绿体基因组中GC12和GC3的相关性不高,其碱基组成存在差异,基因组中GC 含量较为保守,说明云南油杉叶绿体基因密码子偏好更多的是受自然选择的影响。

表1 云南油杉叶绿体基因组密码子各位置的GC 含量及ENC 值†Table 1 GC proportions and ENC values of the CDS of K.evelyniana chloroplast genome

表2 云南油杉叶绿体基因组中相关参数的相关性分析†Table 2 Correlation analysis of related parameters of K.evelyniana chloroplast genome

2.3 有效密码子绘图分析

云南油杉叶绿体基因组密码子的ENC-plot 分析由图2看出,在标准曲线周围分布了云南油杉的部分基因,表明云南油杉的实际ENC 值与期望ENC 值接近,而大部分基因汇聚在了标准曲线下方,离曲线位置较近,表示云南油杉叶绿体基因组密码子偏好性受突变影响较大。通过对ENC 比值进行计算(表4),ENC频数比值分布在-0.05~0.05间的有21 个,其基因频率占比51.2%,且与预期ENC 值较为接近,而有20 个基因则分布在这个区间以外,且离预期ENC 值较远,表示离标准曲线较远,表明云南油杉密码子有较强的偏性,其偏好性主要受到突变的影响。

2.4 碱基奇偶偏好分析

采用PR2-plot 软件绘图分析各编码基因部分氨基酸A、G 和T、C 之间的关系,结果显示(图3),在4 个区域内云南油杉叶绿体基因分布不均,且大部分基因分布在平面图的右下方,这说明在碱基使用频率上,4 个碱基使用频率存在不一致性,即T>A,G>C;说明了在云南油杉叶绿体基因组密码子使用模式上,其偏好性在受到选择影响的同时亦会受到突变影响。

表3 云南油杉各氨基酸的RSCU 分析†Table 3 RSCU analysis of the amino acids of K.evelyniana

图1 中性绘图分析Fig.1 Neutral plotting analysis

图2 ENC 与GC3 关联分析Fig.2 The correlation of ENC and GC3

表4 ENC 比值频数分布Table 4 Distribution of ENC ratios

图3 PR2-plot 绘图分析Fig.3 Analysis of PR2-plot

2.5 最优密码子的确定

对41 条CDS 的ENC 值进行排序,从两端各选出10%的基因创建高低表达库,计算密码子的RSCU 值、ΔRSCU 值,将同时满足RSCU>1、ΔRSCU ≥0.08 两个条件的密码子确定为最优密码子,根据表3得出RSCU>1的高频密码子有31个;从表5可以看出,ΔRSCU ≥0.08 的密码子有27 个,其中有7 个以U 结尾,有7 个以A 结尾,有8 个以C 结尾,有5 个以G 结尾;最终筛选出最优密码子共有15 个,为UUA、CUU、AUU、GUA、UCC、ACA、GCA、UAU、CAU、CAA、GAU、UGU、UGG、AGA、GGU,其中有7 个以U 结尾,有6 个以A 结尾,以G 和C 结尾的分别各有1 个。

表5 云南油杉叶绿体基因组最优密码子的确定†Table 5 Preferred codons in the chloroplast genome of K.evelyniana

2.6 对应分析

基于云南油杉叶绿体基因的RSCU 值对应分析表明(图4),第1 轴存在16.57%的差异,第2轴存在15.93%的差异,第3 轴和第4 轴基因间的差异分别为7.68%、6.06%,累计差异为46.24%,第1 轴和第2 轴的差异水平均大于10%,说明第1轴和第2 轴均为云南油杉密码子偏好的主要影响因素,第1 轴和第2 轴分别为选择压力和突变,其密码子偏好受到选择和突变等多种因素的共同影响;第1 轴为主向量轴,但与第2 轴变异水平无明显差异,结果也表明该密码子偏好影响因素不是单一的。为进一步揭示密码子偏好的影响因素,对4 个向量轴与ENC、GC3进行相关性分析,相关系数为0.097、0.142,均无显著相关关系,说明其影响因素不只有GC3,还受到其他因素影响。基于各基因分类以第1、2 向量轴为横纵坐标作图,由图4看出,核糖体蛋白基因和光合系统基因集中分布于上半轴,说明该类基因的密码子使用模式较为相似;遗传系统基因分布较分散,说明该类基因的密码子的偏好性是由多种因素决定的。

图4 基于RSCU 的对应性分析Fig.4 Correspondence analysis based on RSCU

同义密码子的相应分布显示(图5),以A、U 结尾的密码子和以G、C 结尾的密码子均沿主轴分布,A、U 结尾的密码子集中分布于第1 轴附近,这表明,云南油杉基因之间同义密码子使用的差异是基于基因的核苷酸含量,而以G、C 结尾的密码子在第2 轴上较为分散,这在很大程度上与表达水平有关。说明少数密码子偏好除受碱基组成影响外,亦受到其他因素影响。

图5 同义密码子用法与云南油杉叶绿体基因组密码子的对应分析Fig.5 Correspondence analysis of synonymous codon usage and the codons of K.evelyniana chloroplast genome

3 结论与讨论

随着测序技术的进步与更新,基因组数据的应用对密码子的偏好性能提供一定的支持,碱基组成对密码子的使用具有重要作用,核苷酸的使用频率也会受到自然选择或突变的影响[22],密码子在基因组与蛋白质的联系中发挥着重要作用[34],叶绿体母体遗传信息具有独立性,物种进化、物种亲缘关系、物种鉴定可通过叶绿体基因组来进行,基因研究也可根据叶绿体基因工程安全、高效表达的特点来进行[35],物种在漫长进化过程中形成特有的使用模式,故在不同物种间,其密码子使用偏性存在差异性,叶绿体基因组中的密码子偏性可揭示物种基因组的进化关系,对研究基因进化和功能鉴定具有重要意义[5]。由于密码子第3 位上的碱基组成受到较小的选择压力,因此常用GC3来是衡量密码子使用偏好性[36]。

本研究通过对云南油杉叶绿体基因组密码子使用特征进行分析,发现其叶绿体基因组密码子GC1、GC2的含量高于GC3,即GC1(49.65%)>GC2(40.66%)>GC3(29.79%),由此可见其密码子在3 个位置上并不是均匀分布的;在云南油杉叶绿体基因组中,GC3和GC1、GC2之间不存在相关性,表明密码子第3 位碱基的组成存在差异性,其密码子偏性可能受选择影响较大。这与迎春樱桃Prunus discoidea[16]、灯盏花Erigeron breviscapus[22]、降香黄檀Dalbergia odorifera[31]、蒜头果Malania oleifera[17]研究结果一致,说明在不同物种之间其密码子使用特征具有相似性。云南油杉叶绿体基因组中大部分编码基因的ENC 值>45;可推断出其密码子的偏性较弱。中性绘图分析显示,云南油杉密码子GC12和GC3的相关性不显著,基因组中GC 含量较为保守,说明其叶绿体基因密码子偏好更多的是受自然选择的影响,这与巨桉Eucalyptus grandis[37]研究结果一致;通过对ENC-plot 分析显示有21 个ENC 频数比值分布在-0.05~0.05 间,说明突变是影响密码子偏好性主要原因。PR2-plot 分析结果发现,T>A、G>C;说明了在云南油杉叶绿体基因组密码子使用模式上,其偏好性受到突变和选择影响;其结果与蒜头果Malania oleifera[17]研究结果一致;而在某些植物的叶绿体基因组碱基使用频率上发现T>A,C>G;比如芒果(Mango)[27]、杧果Mangifera indica[38]、蔷薇科Rosaceae[19]等植物,这与本研究结果不一致。可见,不同植物中的叶绿体基因碱基组成存在差异,从而致使密码子偏好性亦不相同。结合ENC-plot 和PR2-plot 分析表明云南油杉密码子偏好性主要受到自然选择因素的影响;其在受到自然选择影响的同时亦会受到突变因素的影响,表明云南油杉叶绿体基因组在一定程度上较为保守。这与灯盏花Erigeron breviscapus[22]、藿香Agastache rugosa[36]等植物的研究结果一致;而对于坡垒Hopea hainanensis,青梅Vatica mangachapoi[12],乳油木Vitellaria paradoxa[39]等植物来说,影响其密码子偏好的主要因素是碱基突变。对应性分析也表明,云南油杉密码子偏好影响因素不是单一的,其偏好性受到选择和突变等多种因素的共同影响。核糖体蛋白基因和光合系统基因分布较为集中,说明该类基因的密码子偏性较为相似,这与沙枣Elaeagnus angustifolia[29]研究相似;综上所述,不同植物叶绿体基因密码子偏好性受到的影响因素有所差异,并不只是受单一因素的影响,而是受到多个因素一起作用的结果。把同时满足RSCU>1、ΔRSCU ≥0.08 两个条件的密码子作为云南油杉的最优密码子,最终得出了15 个最优密码子,其中有7 个以U 结尾,有6 个以A 结尾,以G 和C 结尾的分别各有1 个,其密码子的表现形式为NNA、NNU 的模式,与柿属植物Diospyrosspp.[40]、‘玉铃铛’枣Yulingdang Jujuba[41]、紫九牛Ventilago leiocarpa[42]的表现形式一致。最优密码子的确立,能有效提高外源基因的表达效率,为优化目标基因及开展云南油杉叶绿体基因工程、异源表达基因改造、种源鉴定等研究提供了参考依据,同时也能在分子水平研究建立油杉属植物的进化机制提供理论基础。

本研究中分析了云南油杉叶绿体基因组密码子使用特征,未进行云南油杉与油杉属间和种间其他物种的密码子使用特征分析,故不能确定云南油杉与其他物种的叶绿体基因组密码子偏好性是否相似。因此,可进一步研究油杉属物种间密码子偏好性的影响因素是否一致,研究其内在机制,以此来确定密码子偏好影响因素的强弱在种间是否具有差异性。

猜你喜欢
密码子叶绿体基因组
紫九牛叶绿体基因组密码子偏好性分析
“植物界大熊猫”完整基因组图谱首次发布
木薯叶绿体基因组密码子偏好性分析
我国小麦基因组编辑抗病育种取得突破
宏基因组测序辅助诊断原发性肺隐球菌
共生
人不吃饭行吗
新型密码子、反密码子、氨基酸对应盘
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析
一种快速提取微藻完整叶绿体及其DNA的方法