蒜头果叶绿体基因组密码子偏好性分析

2021-05-03 11:24原晓龙康洪梅陈中华李云琴
西南林业大学学报 2021年3期
关键词:密码子叶绿体碱基

原晓龙 刘 音 康洪梅 陈中华 李云琴 王 毅

(1. 云南省林业和草原科学院,云南省森林植物培育与开发利用重点实验室/国家林业局云南珍稀濒特森林植物保护和繁育重点实验室,云南 昆明 650201;2. 云南省水文水资源局昆明分局/云南省水环境监测中心昆明市分中心,云南 昆明 650051)

叶绿体植物自身拥有相对独立稳定的基因组,具母系遗传、负责光合作用的半自主细胞器[1],其结构简单、分子量较小、拷贝数丰富,被广泛应用于DNA条形码分子标记、系统进化和叶绿体基因工程等[2-3];基于叶绿体的基因工程可避免花粉逃逸带来的生物安全问题,可迅速得到表达量极高的转基因纯合后代[4],及评估物种的分子系统进化水平[1]。除甲硫氨酸和色氨酸外,各氨基酸均有2~6个三联体同义密码子与其相对应[5]。在翻译过程中,编码同一氨基酸的同义密码子使用频率并不相同,表现为有的较高,有的较低,这种偏好使用某一密码子的现象被称为密码子偏好性[6]。密码子偏好性是物种在漫长的进化过程中受环境选择、碱基突变、基因漂变等多种因素共同作用,亦受到基因组大小、tRNA丰度和基因表达水平等的影响[6-8]。

蒜头果(Malania oleifera)是铁青树科(Olacaceae)蒜头果属常绿乔木,1992年被中国植物红皮书列为国家重点保护树种[9];目前已处于濒危状态,主要生长在中国滇东南和桂西喀斯特山地[10]。蒜头果果仁中油脂含量含量高达51.9%~64.5%[11],果仁油中顺-15-二十四碳烯酸(又名神经酸、鲨鱼酸)是哺乳类动物脑苷脂和神经组织的主要成分[12],还是合成某些昆虫信息素中间体和麝香酮的原料[13],也是一种具重要药用和保健价值的高级脂肪酸[14],开发前景巨大[13]。蒜头果在形态解剖上兼具原始性状和进化特征,对研究铁青树科植物的进化具重大意义[10,15-16],目前有关蒜头果叶绿体基因组的研究报道较少,本研究以蒜头果叶绿体基因组的高通量测序结果为基础,通过分析蒜头果叶绿体基因组蛋白编码区(CDS)序列的碱基组成,中性绘图、ENC-plot及PR2-plot等方法分析影响密码子偏好性的主要因素,确定了蒜头果叶绿体基因组的最优密码子,以期为研究蒜头果分子系统进化、遗传多样性分析及培育神经酸含量较高的植株品系等提供科学的参考依据。

1 材料与方法

1.1 材料

本研究通过高通量测序获得蒜头果叶绿体基因组序列,并提交至NCBI(登录号:MG799332),对蒜头果叶绿体的编码序列(CDS)进行筛选,剔除序列长度小于300 bp、序列不完整、中间存在终止密码子的序列,从蒜头果叶绿体基因组筛选得到含有起始密码子ATG和末端终止密码子UAA、UAG、UGA的完整CDS[17]获得33条。

1.2 方法

1.2.1 密码子碱基组成分析

将蒜头果叶绿体基因组中符合条件的33条CDS整合到一个.fasta文件中,通过CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)计算不同基因密码子各位置的GC含量(GC1,GC2,GC3)[4];应用Codon W 1.4.2 软件分析密码子的有效密码子数(ENC)、相对同义密码子使用度(RSCU)、密码子适应性指数(CAI)、密码子偏好性指数(CBI)、最优密码子使用频率(FOP)及密码子3位碱基上的GC含量(GC3S,即密码子第3个碱基中出现G或C的频率)等参数;对获得的各项数据,应用数理统计分析软件SPSS和EXCEL对结果进行分析。

ENC可衡量同义密码子的使用偏度,其取值范围为20~61,对应密码子使用偏性从强到弱,即20代表同义密码子处于完全偏倚状态、61代表同义密码子完全没有偏倚;通常以ENC值45为区分密码子偏倚性强弱的分界点[4,17]。RSCU表示某个密码子的实际值与理论值间的比值,当RSCU>1时表明该密码子实际值高于理论值,RSCU<1时表明其实际值低于理论值,RSCU=1该密码子无偏好性[4]。

应用SPSS 17.0分析蒜头果叶绿体基因组中各基因密码子不同位置GC碱基含量GC1、GC2、GC3、GCall、ENC和密码子数量(N)的相关关系,作为判断各同义密码子偏好性的依据。

1.2.2 中性绘图分析

三联体密码子第1~2位碱基的改变会导致编码氨基酸的改变,而第3位碱基的改变通常不会引起氨基酸的变化[18]。通常密码子在不存在外界压力的情况下,3个位置上的碱基组成无显著差异;在外界具选择压力的条件下,3个位置的碱基会存在一定的差异[4]。以GC12(GC1、GC2的平均值)为纵坐标、以GC3为横坐标绘制的散点图中,每1散点代表1个基因。在中性图中,若所有散点均沿对角线分布,说明GC12和 GC3的变异基本一致,即密码子的碱基组成无明显差异,主要受突变的影响;相反则受选择压力的影响[18]。结合SPSS 17.0对GC12和GC3的相关性分析,以判断其密码子偏好性主要受选择或突变的影响,当GC12和 GC3呈显著性相关时,说明密码子3个位置上的碱基组成无明显差异,其偏好性主要受突变的影响;当GC12和 GC3不相关时,说明密码子的第1、2位与第3位碱基组成存在显著差异,且基因组中GC含量较保守,其偏好性主要受选择的影响[4,18]。另回归系数(对角线斜率)亦可以作为衡量中性程度的指标之一,若回归系数较小,GC12和GC3的变异的相关性较低,说明选择是影响密码子偏好性的主要因素[19]。

1.2.3 ENC-plot分析

ENC-plot分析通过探讨ENC与GC3分布关系,即通过对各基因的密码子偏好性的图像可视化手段,同时含有散点图和标准曲线,其中的标准曲线代表无选择压力的存在时,密码子偏好性完全由基因的核酸序列决定密码子偏好性[20]。以GC3为横坐标、ENC值为纵坐标进行ENC-plot分析,标准曲线的计算公式为:

通过散点与标准曲线距离判断影响密码子偏好性的主要因素,若散点与标准曲线的距离较近则主要受突变的影响,反之受选择的影响[18,21]。为了能够准确量化散点与标准曲线的距离远近的基因数量,需结合ENC比值频数分布差异来执行,具体的衡量标准以-0.05~0.05区间为界限[21-22]。

1.2.4 PR2-plot分析

统计各密码子第3位上A、T、C、G等碱基的具体含量,以A3/(A3+T3)为纵坐标、G3/(G3+C3)为横坐标进行PR2-plot分析,以平面图显示各密码子中的第3位碱基组成方式,其中A3、T3、C3、G3分别代表各碱基在密码子第3位上的具体含量;平面图的中心点代表在无偏倚情况下的密码子组成状态,即A=T且C=G,各点与中心点的矢量距离则表示其偏倚的程度和方向[20]。

1.2.5 最优密码子的确定

以蒜头果叶绿体中各基因的ENC值为偏好性参考标准,从两极各选择10%的基因构建高低偏性库,将高、低偏性库间ΔRSCU≥0.08的密码子定义为高表达优越密码子;同时将各密码子在经Codon W 1.4.2软件分析的RSCU值≥1的密码子定义为高频密码子;将同时满足ΔRSCU≥0.08和RSCU值≥1的密码子定为最优密码子,以明确蒜头果叶绿体基因组密码子的使用偏性规律[4,21-22]。

2 结果与分析

2.1 密码子碱基组成分析

应用Codon W 1.4.2软件分析蒜头果叶绿体中各基因的蛋白编码序列,结果显示(表1),GC1含量为33.90%~57.35%,其中GC1≥40%的基因有30条,平均值为47.74%;GC2含量为30.04%~57.45%,其中GC2≥40%的基因有19条,平均值为41.05%;GC3含量为21.28%~36.70%,平均值为28.43%,无基因的GC含量≥ 40%;全部3个位置的GC含量平均值为39.07%,各位置的GC含量平均值从高到低依次为GC1>GC2>GC3,其第3位平均GC含量远低于第1位、第2位,说明密码子第3位碱基多为A和U。33个蛋白编码序列的ENC值为40.39~54.86,ENC值大于45的有25个,可推断其使用偏性较弱。

密码子各位置的碱基GC含量GC1、GC2、GC3,3个位置GC的平均含量GCall、ENC与密码子数目(N)的相关分析(表2),结果显示:GCall与GC1、GC2、GC3均呈极显著相关,GC1与GC2呈显著相关,说明密码子的第1位与第2位的碱基组成相似,但与第3位存在不同。ENC与GC3达到极显著相关水平,与N达显著相关,而与GC1、GC2及GCall之间呈不显著相关,说明密码子第3位GC含量和N影响ENC的值,说明GC3和基因序列长度对密码子偏好性存在一定影响。

表 1 蒜头果叶绿体基因组33个CDS密码子的GC含量及ENC值Table 1 The GC content and ENC value of 33 CDS codons from M. oleifera

表 2 蒜头果叶绿体各基因GC含量与ENC值间的关联分析Table 2 The correlation analysis of GC content and ENC value of each gene codons of M. oleifera

除蛋氨酸、色氨酸外,分析其余18种氨基酸的RSCU值(表3),结果显示,RSCU≥1的密码子有30个,其中UUA、AGA、CAA和AAA等12个密码子以A结尾;GCU、UCU、ACU和UAU等16个密码子以U结尾;而以C和G结尾的仅有UUG、UCC;说明蒜头果叶绿体基因组中以A和U结尾的密码子出现频率较高,为偏好密码子;相反以C和G结尾的密码子为非偏好密码子。

2.2 中性绘图分析

中性绘图分析(图1)显示,GC1和GC2的平均值GC12的取值为0.348~0.546,GC3的取值为0.213~0.367;图中各基因均位于中性图对角线的上方,仅1个基因位于对角线附近;GC12和GC3的相关系数为0.164 6,相关性不显著,回归系数为0.000 4,满足GC12和GC3呈不显著相关且回归系数趋近于0,说明蒜头果叶绿体基因组密码子的第3位碱基与第1、2位碱基组成不同,基因组中GC含量高度保守,其密码子偏好性主要受选择的影响。

2.3 ENC-plot绘图分析

蒜头果叶绿体基因组密码子的ENC与GC3的关联分析(图2)显示,根据标准曲线(公式(1))计算,距离较近基因的实际ENC值与预期ENC值接近;部分基因位于标准曲线下方较远位置,这部分基因ENC的实际值与预测值具较大差异。通过计算ENC比值((预期ENC值-实际ENC值)/预期ENC值)可以比较ENC值的实际值与预期值的差异,结果显示(表4),ENC比值分布在-0.05~0.05区间的数量有10个,处于-0.05~0.05区间外的基因有23个,占基因总数的70%,这部分基因与标准曲线距离较远,因此其偏好性与GC3含量相关。说明影响其偏好性主要因素为选择。

表 3 蒜头果叶绿体基因组氨基酸相对同义密码子使用度分析Table 3 The RSCU analysis of codon in M. oleifera chloroplast genome

图 1 中性绘图分析Fig. 1 Neutral plotting analysis

2.4 PR2-plot分析

采用PR2-plot绘图方法分析各编码基因部分氨基酸嘌呤(A和G)和嘧啶(T和C)关系,结果显示(图3),蒜头果叶绿体基因组中较多的基因分布在PR2图的下半部或右下半部,说明在碱基使用频率方面,T>A且G>C,4个碱基的使用频率不一致,说明蒜头果叶绿体基因组密码子使用偏性在受选择影响的同时,亦会受到其他因素的影响。

图 2 ENC与GC3关联分析Fig. 2 The correlation of ENC and GC3

表 4 ENC比值频数分布Table 4 Distribution of ENC ration

图 3 PR2-plot绘图分析Fig. 3 Analysis of PR2 bias plot

2.5 最优密码子的确定

将蒜头果叶绿体基因组中高表达基因和低表达基因分别在Codon W 1.4.2软件上运行,计算各自密码子的RSCU值和ΔRSCU值,结果显示(表5),ΔRSCU≥0.08的为高表达优越密码子,共23个,其中9个以A结尾,11个以U结尾,3个 以C结 尾;ΔRSCU≥0.30的 密 码 子 有10个,ΔRSCU≥0.50的密码子有6个。将同时满足ΔRSCU≥0.08和RSCU≥1的密码子的定义为最优密码子,共18个,分别为UUU、UUA、GUA、UCC、CCU、CCA、ACU、ACA、AUU、CAU、CAA、AAU、AAA、GAU、GAA、UGU、AGA和GGU,其中以A结尾的密码子8个,以U结尾的9个,以C结尾的1个。

表 5 蒜头果叶绿体基因组最优密码子的确定Table 5 Preferred codons in chloroplast genome of M. oleifera

3 结论与讨论

密码子偏好性受多因素的影响,而选择和突变是其中主要的2个因素[6]。密码子碱基组成会因为由核苷酸突变和回复突变而发生改变,而第3位碱基上的突变通常不会造成氨基酸的改变,可认为密码子偏好性是某种程度上对偏好密码子和非偏好密码子间保留的一种平衡,是物种进化过程中的自我保护机制;同时第3位碱基具兼并性,面对的自然选择的压力较小,且GC3与密码子偏好性具显著相关关系等,是决定氨基酸种类的重要特征,故将GC3作为分析密码子偏好性的一个重要指标[23-24]。因此,计算密码子第3位碱基的GC含量对分析密码子偏好性具重要意义,本研究中蒜头果叶绿体基因组密码子第3位碱基的GC含量为28.43%,其GC含量远低于密码子前两位,与马尾松(Pinus massoniana)[25]叶绿体基因组中不同位置GC含量依次为GC1(49.12%)>GC2(40.62%)>GC3(29.68%),蝴蝶兰(Phalaenopsis aphroditesubsp.formosana)[26]为GC1(45.83%)>GC2(39.06%)>GC3(31.41%),3个物种叶绿体基因组中密码子不同位置的GC含量的分布趋势一致,仅在具体数据上有差异。同时中性绘图分析、ENC-plot和PR2-plot分析均发现蒜头果叶绿体基因组的密码子偏好性较弱,主要受选择的影响,同时受其他因素的综合影响,这与大多数双子叶植物的表现一致[21-22,25-27]。蒜头果叶绿体基因组密码子偏好以AU结尾,且其最优密码子除了UCC以外,其余的17个密码子表现形式均为NNA或NNU模式一致,同样与大多数双子叶植物的模式一致[25-27]。这种密码子的使用模式可能由于叶绿体基因组中含有丰富的AU碱基,但不同植物密码子使用模式存在显著差异,因为亲缘关系较近的植物通常表现为相似的密码子使用模式[28]。通过将蒜头果叶绿体基因组密码子偏好性与5种柿属(Diospyros)植物比对,它们具有相似的GC含量分布趋势,密码子偏好性均较弱,且选择均为其主要的影响因素[29]。蒜头果仅分布于云南东南部和广西西部的喀斯特石灰岩山地中[9],而蒜头果叶绿体基因组密码子的偏好性与其亲缘关系相对较近的柿属植物的密码子使用模式基本一致,表现出一定的特异性,如柿属植物植物中不含有最优密码子UCC[29],而蒜头果中则含有这一最优密码子,说明蒜头果叶绿体基因组的密码子偏好性相对保守且具有自身的特殊性。本研究通过分析蒜头果叶绿体密码子偏好性,明确其密码子使用模式,存在较弱的偏好性,且分析获得了蒜头果叶绿体中编码基因的最优密码子,以期为研究蒜头果适应性、分子系统进化及叶绿体基因工程等提供参考依据。

猜你喜欢
密码子叶绿体碱基
紫九牛叶绿体基因组密码子偏好性分析
基因“字母表”扩充后的生命
创建新型糖基化酶碱基编辑器
共生
人不吃饭行吗
新型密码子、反密码子、氨基酸对应盘
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
对“翻译”过程中几个问题的探讨
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析