锡金海棠叶绿体基因组结构及密码子偏好性分析

2022-11-11 08:47陈玲慧钱关泽
关键词:锡金密码子叶绿体

陈玲慧,王 慧,刘 岩,钱关泽

(1.聊城大学 生命科学学院,山东 聊城 252059;2.聊城大学 学报编辑部,山东 聊城 252059)

0 引言

叶绿体是植物进行光合作用的细胞器,为植物生活提供能量,叶绿体基因组(cpDNA)通常大小为110~170 kb[1]。叶绿体基因组在进行物种鉴定与亲缘关系分析时通常有以下优势:其基因组较小、序列简单,较易通过测序组装后获得;同时其基因序列高度保守、且属于母系遗传,使得叶绿体基因组适用于亲缘关系与系统发育分析[2]。目前NCBI数据库中的叶绿体基因组数据不断被补充,包括但不限于苹果属(Malus)[3]、蕨麻属(Argentina)[4]、淫羊藿属(Epimedium)[5]等属内植物,这也从侧面表明叶绿体基因组的广泛应用。

蛋白质由氨基酸组成,20种氨基酸又由61个密码子和3个终止密码子所编码[6],编码同一种氨基酸的密码子为同义密码子。在蛋白质翻译的过程中,尽管几种不同密码子可以编码同种氨基酸,但是会出现某一氨基酸频繁被同一密码子编码的现象,即密码子偏好性[7],而不同密码子会对基因的功能及表达产生影响[8]。不同物种叶绿体基因组密码子偏好性具有差异,一般基因表达越强,其密码子偏好性也越强,反之其偏好性则低[9]。此前研究表明,密码子偏好性主要通过自然选择与突变来进行平衡[10],因此对密码子偏好性的研究在基因组水平,如分子进化等方面具有重要意义。现已在云南油杉(keteleeria evelyniana)[11]、澳洲坚果光壳种(Macadamia integrifolia)[12]、菠萝(Ananas comosus)[13]、睡莲属(Nymphaea)[14]等多种植物中展开密码子偏好性分析。

锡金海棠(Malus sikkimensis)是苹果属(Malus)植物,属于蔷薇科(Rosaceae)苹果亚科(Subfam.Maloideae Weber),主要分布于我国云南、四川西部及西藏地区。锡金海棠在《中国珍稀濒危植物名录》中被列为国家二级保护物种,同时还被IUCN(国家自然保护联盟)分别评为易危物种,以及被《中国物种红色名录》收录[15]。梁国鲁[16]对锡金海棠进行带型分析后发现其以着丝粒带(C)为主,华利源[17]在染色体层面进行核型分析后发现锡金海棠染色体数目为68条,为四倍体。到目前锡金海棠叶绿体基因组结构及密码子偏好性的研究还未见报道,因此,本文对锡金海棠的叶绿体基因组结构及密码子偏好性进行分析,筛选出最优密码子,为今后对锡金海棠叶绿体基因组、系统发育研究及开发应用提供科学依据和理论参考。

1 材料和方法

1.1 材料数据获取

从NCBI数据库中下载锡金海棠(M.sikkimensis)原始测序数据,SRR登录号为SRR15691192。通过NOVOPlasty 4.3.1[18]组装,PGA注释后获得其叶绿体全基因组。

1.2 叶绿体基因组特征分析

将所获数据导入geneious 2021.2.2[19],根据注释结果,统计锡金海棠(M.sikkimensis)的蛋白编码基因(CDS)数目、tRNA数目、r RNA数目以及GC含量。利用Chloroplot软件绘制其叶绿体基因组物理图谱。

1.3 密码子偏好性分析

使用geneious 2021.2.2筛选出53条长度大于300 bp的CDS序列。通过在线软件CUSP(http:∥emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)统计各基因密码子的第1位(GC1)、第二位(GC2)及第三位(GC3)的GC含量。使用codonW(http:∥codonw.sourceforge.Net)获得GC含量、相对同义密码子使用度(Relative Synonymous Codon Usage,RSCU)以及有效密码子数(Effective Number of Codon,ENC)。当RSCU值大于1时,表明密码子使用频率较其他密码子高,为高频密码子,并且偏好性强,反之偏好性则弱;当RSCU值等于1时,该密码子无偏好性[20]。最终结果使用Excel和SPSS进行统计分析。

以GC3为横坐标、GC12为纵坐标进行中性绘图分析,散点图中的每一个点均代表一个基因,当其沿对角线分布时则代表碱基未有显著差异,此时的偏好性是由基因突变所导致,反之则是由选择压力所导致[11]。以GC3为横坐标、ENC值为纵坐标做ENC-plot绘图分析,并以公式ENC=2+GC3+29/[GC32+(1-GC3)2]绘制ENC期望值标准曲线。该标准曲线代表在没有自然选择时的ENC值[12]。以G3/(G3+C3)为横坐标、A3/(A3+T3)为纵坐标进行PR2-plot分析,其平面中心代表密码子无偏倚情况出现,即A=T,C=G[13]。

为确定锡金海棠(M.sikkimensis)的最优密码子,根据53条CDS序列的ENC值,提取最低10%与最高值10%的基因,分别建立高、低表达基因库,计算出二者的ΔRSCU值,当ΔRSCU≥0.08时的密码子被定义为高表达优越密码子,若该密码子同时为高频密码子,则将其定义为最优密码子[21]。

2 结果与分析

2.1 叶绿体基因组基本特征

通过对锡金海棠组装后分析,其cpDNA呈典型的环状四分体结构,包括两个反向重复区(IRA和IRB,26 358 bp),一个大单拷贝区(LSC,88 188 bp)和一个小单拷贝区(SSC,19 184 bp),全长为160 088 bp,总的GC含量为36.6%(图1)。注释结果显示,锡金海棠叶绿体基因组含有132个基因,包括87个蛋白编码基因,37个tRNA基因以及8个rRNA基因,其中有重复基因18个(7个为蛋白编码基因,7个为tRNA基因,4个为r RNA基因)。

图1 锡金海棠叶绿体基因组物理图谱

2.2 密码子偏好性分析

2.2.1 密码子组成分析。通过CodonW分析锡金海棠53条CDS序列的GC含量及ENC值(表1)发现,其叶绿体基因组各基因GC含量平均为38.25%,其中第一位碱基GC平均含量为46.98%、第二位GC平均含量为39.46%、第三位GC平均含量为28.30%。GC3平均含量最低,这表明第三位碱基更倾向于以A/U结尾。

表1 锡金海棠叶绿体基因组53个CDS密码子的GC含量及ENC值

ENC值可以用于衡量同义密码子的偏好程度,取值范围通常在20~61之间,以ENC值为45作为分界点,大于45说明密码子偏好性低,反之则说明其偏好性较高。锡金海棠ENC值取值范围为34.30~56.39,平均值为47.51,且53条CDS序列中存在41条ENC值大于45,表明锡金海棠的密码子偏好性偏弱。

对密码子GC含量、ENC值进行相关性分析后发现(表2),GC1、GC2、GC3均与GC呈极显著相关,GC1与GC2也呈极显著相关,但GC1、GC2均为表现出与GC3的显著相关性。这表明密码子第3位碱基组成有差异,锡金海棠密码子偏好性受自然选择影响较大。而ENC值与GC2、GC3呈极显著相关关系,表明密码子第2、3位对偏好性有一定影响。

表2 锡金海棠密码子的GC含量及各参数相关性分析

进一步对锡金海棠53条CDS序列的密码子(除甲硫氨酸与色氨酸)进行RSCU分析后显示(表3),有29个密码子的RSCU值大于1.00,其中15个以U结尾,13个以A结尾,1个以G结尾,这表明更多密码子偏好以A和U结尾。

表3 锡金海棠叶绿体基因组氨基酸相对同义密码子使用度

2.2.2 中性绘图分析。中性绘图分析(图2)表明,锡金海棠密码子GC12的值介于0.317 6~0.539 6之间,GC3的值介于0.222 1~0.365 8之间。其相关系数为0.146 8,未呈现显著相关性,回归系数为0.021 5,表明GC12与GC3未有明显相关性,密码子第1、2位碱基与第3位碱基存在一定差异,说明自然选择对锡金海棠叶绿体基因密码子偏好有较大影响。

图2 锡金海棠叶绿体基因组中性绘图分析

2.2.3 ENC-plot绘图分析。ENC-plot绘图分析(图3)显示,部分基因的实际ENC值与预期ENC值趋于一致,但也有部分基因的实际ENC值偏离标准曲线,位于标准曲线下方。为比较实际ENC值与预期ENC值之间的差异,计算ENC比值并得到以下结果(表4)。ENC值在-0.05~0.05区间内的基因有23个,在-0.05~0.05区间外的基因有30个,这表明大部分基因与预期ENC值存在一定差异,表明锡金海棠叶绿体基因密码子偏好更受自然选择影响。

图3 锡金海棠叶绿体基因的ENC-plot分析

表4 ENC比值频数分布

2.2.4 PR2-plot分析。通过PR2-plot分析编码基因中密码子A、G和T、C的使用频率关系。结果如图4所示,锡金海棠叶绿体基因多数分布于右下象限,这表明密码子碱基的使用频率有差异且T>A、G>C,这也说明锡金海棠密码子偏好性不仅受自然选择影响,同时也可能受其他因素影响。

图4 锡金海棠叶绿体基因的PR2-plot分析

2.2.5 最优密码子的确定。通过分析锡金海棠叶绿体基因组氨基酸相对同义密码子使用度,有29个密码子RSCU值大于1,被确定为高频密码子。结合表5,筛选出22个ΔRSCU≥0.08的密码子,被定为高表达密码子,其中以A结尾的密码子有5个,以U结尾的密码子有8个,以C结尾的密码子有6个,以G结尾的密码子有3个。当密码子满足RSCU>1且ΔRSCU≥0.08条件时,我们将其确定为最优密码子。通过结合表3与表5分析,共确定14个最优密码子,分别为UAU、UUG、CUU、CAA、AUU、GUU、GAA、UCU、CGU、CGA、AGA、GGU、ACA、GCU,其中有8个以U结尾,有5个以A结尾,1个以G结尾。

表5 锡金海棠叶绿体基因组最优密码子的确定

3 结论与讨论

cpDNA较小、结构保守,易于测序和组装,同时叶绿体属于单亲遗传,其基因组包含丰富的核苷酸信息,因此通常被认为是研究植物进化关系、系统发育的理想模型。密码子在基因组与蛋白质的联系中有重要作用,在物种进化过程中,其通常会形成特有的使用模式,因此不同物种的密码子在使用偏性方面存在一定差异。密码子的第3位具有兼并性特点,通常第3位碱基所受到的选择压力较前两位碱基要小,因此,分析密码子的第3位碱基对研究密码子偏好性具有重要意义。

本研究通过对锡金海棠的cpDNA结构和密码子使用模式进行分析,发现锡金海棠叶绿体基因组呈环状四分体结构,包括两个反向重复区(IRA和IRB)、一个大单拷贝区(LSC)和一个小单拷贝区(SSC),叶绿体基因组大小为160 088 bp,GC含量为36.6%。锡金海棠共含有132个基因,包括87个蛋白编码基因,37个tRNA基因和8个r RNA基因。

在密码子偏好性方面,发现锡金海棠叶绿体基因组密码子第3位碱基的GC3含量为28.30%,远低于GC1和GC2,即GC1(46.98%)>GC2(39.46%)>GC3(28.30%),这与西藏凹乳芹(Vicatia thibeticade Boiss)[22]、滇楸(Catalpa fargesiiBur.f.duclouxii)[23]植物一致,说明不同物种密码子的使用特征具有相似性。中性绘图分析显示,GC12与GC3未有明显相关性,说明自然选择对其偏性影响更大,这与大山樱(Prunus sargentii)[24]所得结果一致。在PR2-plot分析中发现碱基使用频率T>A、G>C,这表明基因在受到选择影响的同时还受到其他因素作用,这与杧果(Mangifera indica)[25]叶绿体基因组碱基使用频率一致。在ENC-plot分析结果中显示,有30个基因的ENC频数比值在-0.05~0.05区间之外,说明锡金海棠的密码子偏好性的产生更受由自然选择影响。结合锡金海棠叶绿体基因组最优密码子分析,最终确定UAU、UUG、CUU、CAA、AUU、GUU、GAA、UCU、CGU、CGA、AGA、GGU、ACA、GCU共14个密码子为锡金海棠叶绿体基因组的最优密码子。

本研究发现其叶绿体基因组结构与大多数被子植物的结构一致,在对密码子偏好性进行分析后发现,锡金海棠密码子偏好性的产生主要受自然选择影响,同时也筛选出锡金海棠叶绿体最优密码子。叶绿体基因组数据对今后研究锡金海棠亲缘关系、系统发育、物种鉴定提供了数据支持,此后可通过结合属内其它物种叶绿体基因组数据构建系统发育树,分析锡金海棠在属内种间的亲缘关系与系统发育关系。最优密码子的确定也为优化目标基因、种源鉴定以及异源表达基因改造提供了理论依据。

猜你喜欢
锡金密码子叶绿体
密码子与反密码子的本质与拓展
10种藏药材ccmFN基因片段密码子偏好性分析
1975年,锡金被印度吞并
被吞并42年后,锡金对印度有多忠诚?
1975年,印度“撕下面具”吞并锡金
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
茶树CsActin1基因密码子偏性分析
茶树叶绿体DNA的PCR-RFLP反应体系优化
烟草叶绿体密码子的偏好性及聚类分析
钙过量对茶树光合特性及叶绿体超微结构的影响