罗氏沼虾转录组密码子使用偏好性分析

2020-09-15 16:27慎佩晶张宇飞李喜莲高强徐洋黄振远蒋文枰陈雪峰
现代农业科技 2020年16期
关键词:转录组

慎佩晶 张宇飞 李喜莲 高强 徐洋 黄振远 蒋文枰 陈雪峰

摘要    以羅氏沼虾转录组数据为数据来源,通过研究罗氏沼虾转录组的密码子使用参数(如有效密码子的数量和相关密码子碱基的具体组成信息等),并且采用Codon W 1.4.4深入开展了统计和计算。研究结果显示,同义密码子第三位核苷酸和表达基因密码子GC含量均值分别为0.40和0.45。从整体上看,ENC的平均值等于52.72,其中绝大部分的ENC值小于35。采用高频密码子的研究方法获得GAU、GAA、UUU、AAU、CCA等5个高频密码子。通过最优码子分析法确定16个最优密码子,编码10个氨基酸,最优密码子除UUG外均以A/T结尾。而且把它和大肠杆菌、酵母、果蝇以及人类等6种生物的密码子使用频率开展比较,结果表明,与大肠杆菌和果蝇存在较大差异,而与酵母最为接近。研究结果可为罗氏沼虾功能基因和分子育种等提供理论基础。

关键词    罗氏沼虾;偏好性;转录组;密码子

中图分类号    S968.12        文献标识码    A

文章编号   1007-5739(2020)16-0175-04

Analysis of  Codon  Usage  Bias  Based  on  Macrobrachium  rosenbergii  Transcriptome

SHEN Pei-jing    ZHANG Yu-fei    LI Xi-lian    GAO Qiang    XU Yang    HUANG Zhen-yuan    JIANG Wen-ping    CHEN Xue-feng *

(Genetics and Breeding Research Laboratory, Agriculture Ministry Key Laboratory of Healthy Freshwater Aquaculture, Key Laboratory of Freshwater Aquatic Animal Genetic and Breeding of Zhejiang province, Zhejiang Institute of Freshwater Fisheries,Huzhou Zhejiang 313001)

Abstract    Using the transcriptome data of Macrobrachium rosenbergii as the data source, CodonW1.4.4 software was used to analyze and study the codon usage, and other codon usage parameters such as the transcript base composition and actual codon number of Macrobrachium rosenbergii, and the expression genes of Macrobrachium rosenbergii were found. The results showed that the average GC content of the codon was 0.45, and the average GC content of the third nucleotide of the synonym codon was 0.40. The mean ENC of the expressed gene was 52.72, and most of the ENC values were less than 35. Five high-frequency codons of GAU, GAA,UUU, AAU and CCA were determined by high-frequency codon analysis. Sixteen optimal codons were determined by optimal codon analysis and 10 amino acids were encoded. The optimal codons all ended in A/T except UUG. Comparing the codon usage frequency of Macrobrachium rosenbergii with six other species such as Escherichia coli, Saccharomyces cervisiae, Drosophila melanogaster, Homo sapiens, etc., it was found to be quite different from Escherichia coli and Drosophila melanogaster, but it was almost consistent with Saccharomyces cerevisiae. The research provided a theoretical basis for functional genome research and molecular breeding of Macrobrachium rosenbergii.

Key words    Macrobrachium rosenbergii; usage bias; transcriptome; codon

罗氏沼虾是我国重要的经济型甲壳动物之一,目前,国内的罗氏沼虾养殖规模已高居全球首位,2018年我国罗氏沼虾苗种生产量达到3 000亿尾,养殖面积大约14万hm2,总产量60万t。罗氏沼虾主产区集中在浙江湖州、嘉兴和杭州,江苏高邮和江都,广东高要、中山和珠海等地,近年来呈现向内陆及北方地区扩展的趋势[1]。随着高通量测序技术的进一步推广,miRNA组学、转录组已知分子标记的开发已运用于罗氏沼虾的高产、抗病等重要经济性状的研究。

作为信使RNA最重要的编码单元之一,三联密码子所对应的氨基酸的翻译起始或终止蛋白。研究团队开展密码子偏好性研究,通过分子标记的方式来进行辅助性育种工作,有助于确定物种间的进化关系,新基因的挖掘和其他生物学进一步使用,我国在该领域已开展数十年的研究[2]。当前密码子的偏好性研究,在水生动物研究中得到广泛应用。我国鱼类研究大量使用了密码子偏好性研究,例如团头鲂密码子使用偏好性差异与亲缘关系相一致,因而遗传密码子的偏好性能够较好地反映鲌亚科鱼类的进化关系,为探究属内遗传变异及密码子优化和相关育种工作提供了分子材料[3]。金鱼的密码子偏好性与酵母的密码子偏好性使用差异最大,而与斑马鱼的密码子偏好性一致[4]。在贝类研究方面,由于优化了太平洋牡蛎 fut2基因的相关密码子,从而为其特异性富集诺如病毒方面的基础科学研究,尤其是分子生物学机理方面的探索打下了良好的理论基础[5]。鳌虾次目功能基因密码子偏好性研究,为螯虾次目新基因的发现功能基因表达提供了可靠依据[6]。但是当前尚未见到与罗氏沼虾基因组序,蛋白质编码密码子的偏好性研究分析,近年来随着深度测序技术的进一步发展,转录组测序为密码子偏好性的进一步研究提供了数据来源,本研究以罗氏沼虾卵巢组织转录组测序结果为研究数据,对罗氏沼虾功能基因的密码子偏好性特征进行分析,以期为罗氏沼虾新基因测序功能基因组研究、外源基因密码子的改造以及优化打下理论基础,同时促进分子育种方面的深入研究。

1    材料与方法

1.1    试验材料

以本课题组罗氏沼虾卵巢组织的转录组结果为原始数据,为减少样本误差,筛选出6 629条具有完整开放阅读框的序列,每条序列碱基长度均大于300 bp,并且以ATG为起始密码子,以TAA、TAG或TGA为终止密码子,且序列中间无N或者终止密码子。

1.2    试验方法

1.2.1    密码子偏好性相关研究。通过在线CUSP程序以及Codon W 1.4.4(网址为http://codonw.sourceforge.net)对罗氏沼虾6 629条具有完整阅读框的序列进行密码子组成和偏好性研究。计算GC、GC1、GC2、GC3、GC3s、氨基酸数(L_AA)、最优密码子使用频率(即FOP)、密码子适应指数(即CAI)、密码子偏爱指数(即CBI)、有效密码子数(即ENC)、芳香性(aromo)、平均亲水性值(gravy)等。

1.2.2    中性分析。中性分析(neutrality plots)是以GC12(GC1和GC2的平均值)为纵坐标、以GC3为横坐标绘图,分析密码这3个点位上GC含量之间的联系,从而研究密码子在突变作用和选择中心理论作出的贡献[7]。若GC3与GC12两者间具有内在的关联,表示密码子的使用偏好性在进化和遗传过程中受到突变作用的影响;如果两者不存在相关性,则表示在自然进化的有关过程中,自然选择压力在一定的程度上影响了该偏好性[8]。

1.2.3    ENC曲线分析。ENC曲线是以GC3s为横坐标、以ENC为纵坐标,绘制ENC-GC3s分布图,用来研究对该偏好性产生影响的主要因子,包括突变偏向性和突变压力等[9]。一些密码子仅受到突变偏向性即GC的约束,其ENC会在标准曲线的上方或附近位置。如果ENC在曲线的下方或远离曲线的位置,那么说明自然选择对该偏好性发挥了关键性作用。

1.2.4    最优密码子分析。它的确定过程如下[10]:针对以大小来排序的ENC数据,进行的下限及上限相关区域均为10%的基因编码区序列的有效选择,然后分析及对比它们各自的RSCU值,分析确定最优密码子。如果两者RSCU值之差大于0.3,此外对于低表达以及高表达基因子集中,RSCU分别小于或是超过1.0,那么就认为它是最优密码子[11]。

2    结果与分析

2.1    罗氏沼虾转录组密码子组成和使用

罗氏沼虾转录组6 629个全长基因序列的长度变化范围为303~9 351 bp,平均值为1 284 bp,所包含基因的G+C含量变化范围为0.31~0.67,平均为0.45(表1);同义密码子第3位G+C的含量变化范围为0.19~0.93,平均数为0.40。这些数据证实,在其第三位核苷酸中,相应的GC含量并不存在非常显著的偏好性;然而与GC总含量相比,各个基因之间所对应的GC3含量则有着更为广阔的分布区间范围。从密码子第3位的碱基组成来看,第3位的碱基含量非平均分布,其分布趋势是T含量最高,A含量次之,G和C含量较低;芳香族氨基酸(Aro)的频率范围为0.00~0.22。

罗氏沼虾密码子第1、2、3位的GC含量分别为51.58%、40.19%、41.24%,其第1位的GC含量高于第2、3位,这表明第1位密码子是密码子发生偏向性的主要作用力之一。

2.2    中性分析

中性分析(Neutrality analysis)可以有效分析GC12和GC13之間的相对联系,从而可以更好地分析在密码子偏好性使用过程中突变作用和选择中性理论所做出的贡献,中性分析可以有效分析密码子的3个相对位置关系(GC12 vs GC3)(图1)。分析结果表明,罗氏沼虾基因组中的基因GC3含量的变化范围(0.298 5~0.754 5)和GC12含量的变化范围(0.207~0.933)都相对比较宽,并且GC3与GC12相关系数是0.168 5,相关性不显著,同时回归曲线斜率是0.070 9。

2.3    罗氏沼虾密码子使用参数相关性研究

以GC3s值为X轴、ENC值为Y轴,用SPSS 20.0绘制散点图,所作出的连续性曲线反映了在没有选择压力调节之下,两者之间的相互关系,如图2所示,大多数经位点分布偏离希望曲线。密码子使用的影响因素包括自然选择以及核苷酸组成方面的偏好等,如果同义密码子偏向以C或G作为其结尾,且GC3含量较高,以及那些处在曲线下面部分的基因,它们的该类偏好性都较为明显。因此,图2中ENC比例偏低,而如果基因密码子出于曲线的上方区域,则其有相对较低的偏好性,因而主要倾向以随机的方式来进行密码子的使用。

2.4    确定罗氏沼虾的高频密码子

本文针对16 086个密码子(来自筛选得到的6 629条表达基因),深入地分析了同义密码子相对使用频率(RFSC),发现对于各类密码子而言,它们具有明显不同的RFSC值(表2)。此处利用了高频密码子的相关筛选技术。经过分析,确定高频密码子为GAU、GAA、UUU、AAU、CCA,同義密码子2个大于0.6、3个大于0.5、4个大于37.5、6个大于25。

2.5    密码子使用频率研究和最优密码子的确定

相对频率(RSCU)被认为是科学进行该类偏好性衡量的重要指标。如果RSCU>1,说明密码子使用频率较高;而如果RSCU<1,说明其使用频率较低;假如RSCU=1,则意味着其使用不具备明显的偏好性。

最优密码子的确定参考STENICO等[12]的方法,最终确定了16个最优密码子,编码10个氨基酸,分别为Gly、Arg、Ser、Asp、Ala、Val、Ile、Thr、Pro、Leu等。对于Leu,它具有3个最优密码子,即Ala、Pro、Ser,Thr为2个。16个最优密码子中,除UUG外,剩下的各个密码子结尾均为A/T,这就意味着其最优密码子主要偏好结尾为A/T的形式(表2)。

2.6    罗氏沼虾和相关的模式生物的密码子偏好性对比研究

根据数据进行罗氏沼虾相关密码子统计分析,并且和密码子相关用法专业数据库(来自Kazusa DNA研究中心)共享的不同生物(包括人类、果蝇以及大肠杆菌等)数据展开对比性研究。对于不同物种之间具体对应的密码子使用偏好性方面所存在差异性的有效衡量而言,密码子的使用频率比值是非常重要的一项科学指标。如果比值≤0.5或≥2.0,说明存在着较大差异的该类偏好性;而如果比值在0.5~2.0 之间,则意味着该类偏好性比较相似[12]。

根据表3所列出的研究结果可以发现,罗氏沼虾和其他物种在该类密码子偏好性上存在着一定的区别。罗氏沼虾与人、斑马鱼和酵母的相关使用频率分别有11、6、5种密码子的比值≥2.0或≤0.5;和大肠杆菌以及果蝇等2类生物有比较明显的差异性,分别有24、23种密码子的比值≥2.0或≤0.5;而与中华绒螯蟹相比,具有最高的差异性,比值≥2.0或≤0.5有39个。

3    结论与讨论

通过对罗氏沼虾相关的同义密码子所具有的偏好性进行深入地科学分析,发现其偏向于通过T或者是A来进行结尾,和几类生物进行对比,罗氏沼虾具有明显不同的密码子偏好性。与果蝇、中华绒螯蟹等生物具有显著的差异性,而与酵母最为接近,但目前中华绒螯蟹公布的数据有限,可能密码子偏好性有所偏差,有待数据进一步完善。

物种进化过程中,对同义密码子的使用并不相似,物种会在特定的环境中,由于物种的适应性而进化出相应的特定密码子,从而形成密码子的使用偏好性,自然选择效应以及突变性的压力都对该类偏好性的产生具有较大影响[13]。其他多种因子如GC含量[14]尤其是与GC3s(密码子第3位的G+C)含量、tRNA的丰富度[15]、密码子位置、基因长度[16]、环境压力、群体数目、突变偏好性[17]、基因表达水平[18]、编码蛋白的机构与功能、翻译效率[19]、mRNA二级结构等,都会影响密码子使用偏好性。本研究发现,罗氏沼虾基因组密码子的使用偏好性受到了自然选择压力的影响。

密码子的使用是了解基因遗传和进化事件的有用工具。密码子使用模式的分析对于理解基因组的遗传和进化特征是重要的。采用密码子偏好性的科学研究分析,一方面有助于给基因表达提供更为科学合理的表达系统,另一方面还可以给通过密码子的改造来进行基因表达量的有效提升提供重要的基础研究根据[20]。

4    参考文献

[1] 陈雪峰,王春琳,顾志敏,等.罗氏沼虾卵巢发育不同时期转录组分析[J].海洋与湖沼,2019,50(2):398-408.

[2] 冯超.基于杨梅RNA-Seq的密码子偏好性与果实品质功能基因转录特性分析[D].杭州:浙江大学,2014.

[3] 段晓克.壮体长春鳊线粒体基因组全长测定及团头鲂密码子偏好模型分析[D].武汉:华中农业大学,2015.

[4] 张欣,尤宏争,李荣妮,等.金鱼密码子用法特点分析[J].华北农学报,2017,32(增刊1):30-36.

[5] 姚琳,江艳华,李风铃,等.太平洋牡蛎(Crassostrea gigas)类A-1,2-岩藻糖基转移酶的密码子优化与原核表达[J].渔业科学进展,2016,37(1):74-79.

[6] 李喜莲,杨元杰,李倩,等.螯虾次目功能基因密码子偏好性研究[J].浙江农业学报,2014,26(4):862-867.

[7] 徐伟荣,张宁波,王振平.欧洲葡萄碱性螺旋-环-螺旋(bHLH)基因家族密码子使用偏性分析[J].农业生物技术学报,2014,22(4):440-448.

[8] SUEOKAN.Translation-coupled violation of parity rule 2 in human genes is not the cause of heterogeneity of the DNA G+C content of third codon position[J].Gene,1999,238(1):53-58.

[9] 张太奎,起国海,叶红莲,等.石榴转录组密码子使用偏向性[J].园艺学报,2017,44(4):675-690.

[10] JIANG Y,DENG F,WANG H,et al.An extensive analysis on the global codon usage pattern of baculoviruses[J].Archives of Virology,2008,153(12):2273-2282.

[11] STENICO M,LLOYD A T,SHARP P M.Codon usage in Caenorhabditis elegans:delineation of translational selection and mutational biases[J].Nucleic Acids Research,1994,22(13):2437-2446.

[12] 李平,白云凤,冯瑞云,等.籽粒苋苹果酸酶(Nad-Me)基因密码子偏好性分析[J].应用与环境生物学报,2011,17(1):12-17.

[13] 牛元,徐瓊,王嵛德,等.大花香水月季叶绿体基因组密码子使用偏性分析[J].西北林学院学报,2018,33(3):123-130.

[14] FAN S X,FEI H J,LIU S Q,et al.The features of synonymous codon bias and GC-content relationship in human genes[J].Progress in Biochemistry & Biophysics,2002,29(3):411-414.

[15] OLEJNICZAK M,UHLENBECK O C.tRNA residues that have coevolved with their anticodon to ensure uniform and accurate codon recognition[J].Biochimie,2006,88(8):943-950.

[16] 孙铮,马亮,ROBERT M,等.Wolbachia Pipientis wMel基因组水平上的密码子使用分析[J].中国科学,2009,39(10):948-953.

[17] XUHUA X.Mutation and selection on the anticodon of tRNA genes in vertebrate mitochondrial genomes[J].Gene,2005,345(1):13-20.

[18] 石秀凡,黄京飞.人类基因同义密码子偏好的特征以及与基因GC含量的关系[J].生物化学与生物物理进展,2002,29(3):411-414.

[19] ZALUCKI Y M,POWER P M,JENNINGS M P. Selection for efficient translation initiation biases codon usage at second amino acid position in secretory proteins[J].Nucleic Acids Research,2007,35(17):5748-5754.

[20] 刘庆慧,黄倢,韩文君.Wssv 3个编码蛋白的基因密码子偏爱性分析[J].海洋水产研究,2005,26(4):1-7.

基金项目   国家重点研发计划“蓝色粮仓科技创新”专项(2018YFD090

1303);浙江省农业(水产)新品种选育重大科技专项(2016C02055-2)。

作者简介   慎佩晶(1987-),女,浙江湖州人,硕士,工程师。研究方向:水产动物遗传育种。

通信作者

收稿日期   2020-04-01

猜你喜欢
转录组
红麻肌醇加氧酶基因的分离及表达分析
红麻肌醇加氧酶基因的分离及表达分析
基于云计算的RNA—seq转录组数据分析流程初探
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的玄参根部转录组学研究及萜类化合物合成相关基因的挖掘
多穗柯转录组分析及黄酮类化合物合成相关基因的挖掘
基于转录组测序的山茱萸次生代谢生物合成相关基因的挖掘
金钗石斛转录组SSR位点信息分析
人参属药用植物转录组研究进展