川芎转录组密码子使用偏好性分析

2017-10-30 14:56李慧娟潘思皓杜函圳
湖北农业科学 2017年18期
关键词:川芎

李慧娟 潘思皓 杜函圳

摘要:为了解川芎(Ligusticum chuanxiong Hort.)阿魏酸生物合成相关基因的密码子使用偏好性特点,为运用基因工程技术实现阿魏酸的异源生物合成提供理论依据,对川芎转录组中共50 108条Unigenes使用CodonW、Cusp和Chips进行在线分析。结果表明,总GC含量为41.4%,有效密码子占总数的16.17%,最优密码子偏好以A/U结尾,表明川芎转录组Unigenes密码子偏好程度整体水平不高。比较分析了川芎转录组中阿魏酸生物合成相关基因(PAL、C4H、C3H与COMT)与不同模式生物的稀有密码子,表明与大肠杆菌基因组密码子使用频率差值较大的有4个,与酵母、烟草和拟南芥基因组差值较大的均有3个,这预示着川芎阿魏酸生物合成相关基因在酵母、烟草和拟南芥中的表达效率较高。

关键词:川芎(Ligusticum chuanxiong Hort.);阿魏酸;生物合成相关基因;密码子偏好性分析

中图分类号:S567.23+9 文献标识码:A 文章编号:0439-8114(2017)18-3549-05

DOI:10.14088/j.cnki.issn0439-8114.2017.18.040

Abstract: In order to understand the codon usage preference of genes involved in the biosynthesis of ferulic acid in Ligusticum chuanxiong Hort.,and thereby providing a theoretical basis for the application of genetic engineering technology to achieve heterologous biosynthesis of ferulic acid,50 108 unigenes of L. chuanxiong transcriptome were analyzed on-line using CodonW,Cusp and Chips at first. As a result,the total GC content was 41.4%,valid codons was 16.17% and the optimal codon preferred A/U as end. Furthermore,the rare codons of PAL,C4H,C3H and COMT were compared with those of candidate expressed hosts,including E. coli,yeast,tobacco and Arabidopsis thaliana. As a result,4 codons were found between E. coli and L. chuanxiong,and 3 codons were found among yeast,tobacco and Arabidopsis thaliana. It suggests high expressional ratio of PAL,C4H,C3H and COMT might take place in yeast,tobacco and Arabidopsis thaliana.

Key words: Ligusticum chuanxiong Hort.; ferulic acid; genes involved in biosynthesis; codon preference analysis

川芎为伞形科植物川芎(Ligusticum chuanxiong Hort.)的干燥根茎,为“血中之气药”,有活血行气、祛风止痛之功效[1]。根据《中国药典》规定,阿魏酸是川芎的主要指标成分,具有独特的药理作用和生物活性,且毒性较低,因而在医药、保健品、化妆品原料和食品添加剂等领域有极其广泛的应用前景[1]。目前,阿魏酸可通过提取、化学合成、水解及微生物培养等4种方法获得。提取法与化学合成法均需使用大量的化学溶剂,易污染环境;水解法需要首先提取获得阿魏酸酯,再利用水解制备阿魏酸,也会使用大量的化学溶剂,易造成环境污染;微生物培养法由于阿魏酸含量很低因而分离纯化成本高[2]。

植物体内阿魏酸的生物合成以苯丙氨酸为原料,经过苯丙氨酸解氨酶(PAL)、肉桂酸-4-羟基化酶(C4H)、香豆酸-3-O-羟基化酶(C3H)与咖啡酸-3-O-甲基转移酶(COMT)的有序催化,最后生成阿魏酸(Ferulic acid)(图1)。

在通过基因工程生产阿魏酸的研究过程中,密码子使用偏好性对于基因异源表达效率具有至关重要的作用。密码子是遗传信息从碱基序列到氨基酸序列传递的基本单位。在蛋白质合成过程中同义密码子并不被随机使用,某一物种或某一基因往往倾向于使用一种或几种特定的同义密码子,这种现象被称为密码子使用偏好性(Codon usage bias)。密码子使用偏好性是生物在长期进化过程中形成的,具有種族特异性,该现象常导致外源基因在宿主中的表达降低,因此在研究基因异源表达的时候,密码子偏好性研究具有重要作用,使用密码子的偏好性可利于选择合适的宿主表达系统,或者通过改造密码子来提高外源基因的表达。在前期研究中,本实验室已获得了川芎根茎的转录组数据,共50 108条Unigenes。本研究首先对川芎转录组中共50 108条Unigenes使用CodonW、Cusp和Chips进行在线分析,获得其总GC含量、有效密码子及最优密码子等信息。比较分析川芎阿魏酸生物合成相关基因(PAL、C4H、C3H与COMT)与不同候选宿主(大肠杆菌、酵母、烟草和拟南芥)的稀有密码子比例,筛先最适宿主,为利用基因工程方法生产阿魏酸奠定理论基础。endprint

1 材料与方法

研究所采用的COMT基因转录组50 108条全长转录序列为前期所获川芎根茎转录组数据,该转录组原始Reads序列已提交NCBI,登录号SRP043485。大肠杆菌、酵母、烟草和拟南芥基因组的密码子偏好性数据来自于Codon Usage Databas(http://www.kazusa.or.jp/codon/)。利用CodonW软件(http://codonw.sourceforge.net/)计算有效密码子数(Effective number of codons,ENC)、计算CDS区的GC含量、密码子中第3位碱基的GC含量(GC3s)和相对同义密码子使用概率(Relative synonymous codon usage,RSCU),利用EMBOSS中的CUSP(Create a codon usage table)和CHIPS(Codon heterozygosity in a protein coding sequence)计算密码子使用概率。

1.1 密码子使用偏好性分析

使用CodonW软件对川芎密码子组成进行分析[3-5],然后对所得结果进行统计分析。计算分析指标为样本总GC含量、样本密码子第3位核苷酸的GC含量(GC3)、有效密码子数(Effective number of codons,ENC)、同义密码子相对使用频率(Relative synonymous codon usage,RSCU)。有效密码子数指密码子使用偏离随机选择的程度,用于反映同义密码子非均衡使用的偏好程度;同义密码子相对使用频率指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率。

1.2 最优密码子分析

通过Jiang[6]的方法来计算川芎的最优密码子含量。选取从小到大排序的ENC数据的上限区域10%和下限区域10%的基因编码区序列为子数据集,分别对其RSCU进行计算和比较,如果两者差异大于0.3,且RSCU在高表达基因子集中大于1.0,在低表达基因子集中小于1.0,则该密码子为最优密码子[7]。

2 结果与分析

2.1 GC含量分析

使用CodonW对已经获得的川芎转录组数据进行密码子使用偏好性分析,分析结果表明,川芎中所有Unigenes的平均总GC量为41.4%,总GC含量分布范围为13.3%~80.6%。密码子第3位核苷酸的平均GC含量(GC3)为37.43%,平均GC3含量分布范围为0~100%。以上分析表明,川芎密码子第3位核苷酸无明显偏好性,但不同基因间GC3含量分布范围较总GC含量分布范围大。

2.2 有效密码子数分析

有效密码子数ENC用于定量分析基因的密码子使用偏好性,其值范围一般在20~61之间,其值越小,其偏好性程度越大。该值是描述密码子使用偏离随机选择的程度,并不是某个特殊密码子的使用频率与其他密码子的比较,能反映密码子中同义密码子非均衡使用的偏好程度。川芎基因ENC的分布范围为20~61,平均ENC为46.09。根据Wright[5]和Sharp等[8]的方法将ENC为35作为区分偏好性强弱的标准,川芎基因中ENC<35的有7 742条,占总数的16.17%,ENC>35的有40 145条,占总数的83.83%。说明川芎基因密码子偏好程度不高,但不同基因间密码子使用偏好性仍然存在差异。

2.3 密码子使用频率分析及最优密码子分析

同义密码子相对使用频率RSCU,是衡量密码子使用偏好性的另一个指标,如果密码子的使用没有偏好性,则该密码子的RSCU=1,当某一密码子的RSCU>1时,代表该密码子为使用相对较多的密码子,反之亦然。通过对高ENC值和低ENC值的基因子集的比较和统计分析,计算川芎转录组样本的最优密码子,确定6个密码子为川芎的最优密码子UUU、UUC、UUA、CCU、AGU与AGA,分别编码Phe、Leu、Pro、Ser与Arg等5种氨基酸,其中编码Phe的密码子有两个(UUU与UUC),6个最优密码子中,除UUC外,其余密码子都以A/U结尾(表1)。说明川芎最优密码子偏好以A/U结尾的密码子。

2.4 基因表达的稀有密码子分析

根据Codon Usage Database数据,B型大肠杆菌中最稀有的6个密码子分别为UGA、UAA、AGG、CCC、CGA与AGA。酵母中最稀有的6個密码子分别为UAG、UGA、UAA、CGG、CGC与CGA。烟草中最稀有的6个密码子为UAG、UGA、UAA、CGG、CGC与ACG。而拟南芥中最稀有的6个密码子为UAG、UAA、UGA、CGC、CGG与CCC。

根据CodonW分析结果,川芎50 108条Unigenes中有24个偏好性较强的密码子,包括UUU、UCU、UAU、UGU、UCA、UUG、CUU、CCU、CAU、CCA、CAA、AUU、ACU、AAU、AGU、ACA、AAA、AGA、GUU、GCU、

GAU、GGU、GCA与GAA。经过对比发现,大肠杆菌中有一个稀有密码子(AGA)是川芎偏好使用的密码子,如果需要克隆表达的川芎基因含有较多的AGA密码子,则该基因可能会在大肠杆菌中表达困难。而酵母、烟草与拟南芥均不含有川芎偏好使用的密码子。因此,与酵母、烟草、拟南芥相比,大肠杆菌的密码子使用偏好性与川芎的略有差异,但差别不大。

经过对川芎转录组数据的功能注释,从中发现16条与阿魏酸生物合成相关的Unigenes,包括5条PAL、1条C4H、2条C3H与8条COMT(表2)。计算这16条Unigenes与4种不同宿主的稀有密码子比例,结果发现大肠杆菌分值最高,表明大肠杆菌中含有最多的稀有密码子(图2)。如果选择大肠杆菌为宿主,C54052的稀有密码子数目最多,为50;C57565次之,为27。如果以酵母为宿主,C54052的稀有密码子数目同样最多,为15;C57565次之,为5。如果以烟草与拟南芥为宿主,C54052含有的稀有密码子最多,分别为11与15;C55080次之,分别为6与6(表3)。这个分析结果与前面的转录组总体分析结果吻合,即大肠杆菌是表达最困难的宿主,而酵母、烟草与拟南芥的表达难度相对较低。endprint

当宿主中稀有密码子比例偏高,在对某个具体基因表达时,可以根据密码子偏性部分改造密码子,来适应大肠杆菌或酵母、烟草或拟南芥的密码子使用偏好性,来提高表达效率。为了提升在异源体系中目的基因的表达量,可对目的基因的密码子进行优化改造,将异源体系中稀有密码子替换为优势密码子。大肠杆菌稀有密码子为编码TER的UGA、UAA,编码Met的AGG,编码Arg的CCC、AGA,编码Gln的CGA。酵母的稀有密码子为编码TER的UAG、UGA、UAA,编码Arg的CGG、CGC、CGA,在不改变氨基酸序列的前提下,可将其修饰为更加优势的密码子AGA(Arg)。烟草的稀有密码子为编码TER的UAG、UGA、UAA,编码Arg的CGG、CGC,编码Thr的ACG,其中可替换为更优势的密码子AGA(Arg)。拟南芥的稀有密码子为编码TER的UAG、UGA、UAA,编码Arg的CGC、CGG,编码Pro的CCC,其中可修饰为更优势的密码子AGA(Arg)、CCU(Pro)。

3 小结与讨论

密码子使用偏好性是在生命体翻译过程中广泛存在的自然现象,导致这种现象的原因是物种在漫长进化过程中突变、选择的综合结果。已有研究表明,密码子使用偏好性与基因的表达水平相关,高表达基因倾向使用最优密码子,从而可以保证其翻译的效率和准确率。为了在异源体系中,更好地提高目的基因的表达量,可对目的基因的密码子进行优化改造,将异源体系中稀有密码子替换为优势密码子。

酵母常作为真核表达系统,而原核表达系统常常为大肠杆菌。在确定了宿主表达系统的前提下,要实现目的基因的高效表达,对目的基因密码子进行优化是行之有效的方法。比如,构建产咖啡酸基因工程菌时,对所涉及的酪氨酸脱氨酸(TAL),C3H与CYP199A2基因均开展了密码子偏好性分析与优化,使其能够适应在大肠杆菌中表达。

通过对川芎转录组密码子的偏好性分析,可以发现川芎转录组密码子对以A或T结尾的密码子有明显的使用偏好性。大肠杆菌是表达最困难的宿主,这与它们来源于真核生物有着密切的联系。本研究发现对于川芎阿魏酸生物合成相关基因来说,其密码子偏好性同酵母基因组较为接近。这就表明相较于大肠杆菌,酵母更加适合作为川芎基因的表达系统。但决明基因密码子与酵母基因组密码子的使用频率仍存在差异(如C54052),若要使川芎基因能够在酵母表达系统中高效表达,需要对其密码子进行优化。

已成功克隆了2条川芎COMT基因(C41658与C55080,登录号分别为Q6T1F5和KU942388),其中C41658在大肠杆菌中获得了成功表达,并完成了功能鉴定;而C55080在大肠杆菌中未获得表达。比较两者的稀有密码子数目(以大肠杆菌为宿主),发现C41658稀有密码子数目较少,只有4个,而C55080稀有密码子数目较多,有7个,这表明密码子偏好性分析结果与具体的试验验证结果高度吻合,可信度较高,能够用于指导相关基因的异源表达。

参考文献:

[1] 周祯祥,唐德才.中药学[M].新世纪第二版.北京:中国中医药出版社,2007

[2] QUAX T F,CLAASSENS N J,S?魻LL D,et al. Codon bias as a means to finetune gene expression[J].Molecular Cell,2015,59(2):149-161.

[3] ACOSTA-RIVERO N,S?魣NCHEZ J C,MORALES J. Improvement of human interferon HU IFNα2 and HCV core protein expression levels in Escherichia coli but not of HU IFNα8 by using the tRNA(AGA/AGG)[J].Biochem Biophys Res Commun,2002,296(5):1303-1309.

[4] DURET L,MOUCHIROUD D. Expression pattern and,surprisingly,gene length shape codon usage in Caenorhabditis,Drosophila and Arabidopsis[J].Proc Natl Acad Sci,1999,96(8):4482.

[5] WRIGHT F. The deffective number of codons T used in a gene[J].Gene,1990,87(1):23-29.

[6] JIANG Y,DENG F,WANG H L,et al. An extensive analysis on the global codon usage pattern of baculoviruses[J].Arch Virol,2008,153(12):2273-2282.

[7] 李 瀅,匡雪君,孙 超,等.川贝母转录组密码子使用偏好性分析[J].中国中药杂志,2016,41(11):2055-2060.

[8] SHARP P M,LI W H. An evolutionary perspective on synonymous codon usage in unicellular organisms[J].J Mol Evol,1986, 24(1-2):28-38.endprint

猜你喜欢
川芎
吃川芎治头痛
川芎的研究进展及质量标志物(Q-marker)的预测分析
川芎茶调散治疗耳鼻喉科疾病举隅
川芎外治 止痛功良
超高效液相色谱法比较鲜川芎和川芎药材中6种成分含量
海藻酸钠固定化重组川芎咖啡酸-3-O-甲基转移酶
川芎总酚酸提取工艺的优化
川芎土茯苓鱼汤缓解头痛
大川芎方多组分制剂释药特性的评价
胆囊炎多食川芎黑豆