大麻PEBP基因家族鉴定及生物信息学分析

2022-12-05 02:47徐洪国王志刚徐伟慧葛宵启祁宏英
福建农业学报 2022年8期
关键词:大麻元件蛋白质

陈 晗,徐洪国,2,王志刚,2,徐伟慧,2,葛宵启,祁宏英,2

(1.齐齐哈尔大学生命科学与农林学院,黑龙江 齐齐哈尔 161006;2.寒区麻及制品教育部工程研究中心,黑龙江 齐齐哈尔 161006)

0 引言

【研究意义】在生物进化中,磷脂酰乙醇胺结合蛋白(Phosphatidylethanolamine-binding Protein, PEBP)是一种十分保守的蛋白质,广泛存在于细菌、动物和植物中。PEBP是一种编码蛋白,对植物生长发育起重要调控作用[1]。PEBP基因家族的成员不仅是植物营养阶段向生殖阶段过渡的关键调节因子,而且控制芽的生长和花的结构之间的形态转换以及多种信号通路的调节[2-4]。分析大麻PEBP基因,研究该基因在大麻中的生物功能,为调控大麻生长发育及开花奠定基础。【前人研究进展】PEBP基因在许多物种中备受关注,例如大豆[5]、棉花[6]、茶树[7]、甜橙[8]、水稻[9]等,而在大麻中仅有关于FT(FloweringLocus T)同源基因的研究[10]。模式植物拟南芥的开花途径主要包括光周期促进途径、春化促进途径、自主开花途径以及赤霉素途径[11],而PEBP基因属于光周期促进途径中主要的控制基因[12]。在拟南芥中,PEBP基因共有3个亚家族成员,其中FT、TSF(Twin Sister of FT)属于FT-LIKE,TFL1(Terminal Flower1)、BFT(Brother of FTandTFL1)、ATC(Arabidopsis thaliana CENRADIALIS homologue)属于TFL1-LIKE,MFT(Mother of FT and TFL1)属于MFT-LIKE亚家族[1]。FT基因也称为成花素,主要在叶片中进行表达,同亚家族的TSF基因的过表达同样可以促进开花[13-16]。FT与同源基因TERMINAL FLOWER1(TFL1)具有拮抗作用,它与TSF在花序分生组织成分的确定中对TFL1起拮抗作用[17-19]。FT和TFL1之间的平衡通过将分生组织从随机生长转换为定向生长来调节植物结构,它们除开花时间和植物结构中的作用外,FT与TFL1基因参与植物发育的各个方面,如种子萌发和块茎形成[20-21]。而MFT在种子中表达,并响应ABA而上调[22-26]。大麻(Cannabis sativa)又称火麻、线麻,是大麻科(Cannabinaceae)大麻属(Cannabis)一年生草本植物,原产于中亚地区,是我国传统的经济作物,具有悠久的栽培历史[27]。大麻中含有大量精神类物质,如四氢大麻(THC),具有致幻作用,根据THC含量大麻可分为3类,其中工业大麻(THC<0.3%)为低毒作物[28]。【本研究切入点】随着工业大麻应用范围的不断扩大、市场潜力剧增,工业大麻在分子育种、遗传育种等方面的发展刻不容缓。高CBD、低THC含量的大麻品种缺乏、育种难度大,导致工业大麻发展缓慢。而调控工业大麻的花期可有效地改善工业大麻育种期限,增加产量提高经济效益。【拟解决问题】植物开花是由多因素控制,主要包括植物生长环境(光照、水分、气体、养分等)与植物内源激素(茉莉酸、水杨酸、赤霉素)。在植物生长环境中光照是主要因素,大麻属于喜光、短日照植物,光照的改变不仅调控花期还影响大麻植株形态、大麻素的合成以及次级代谢产物的合成[29]。PEBP基因包括了种子的花芽分化与休眠、促进开花与抑制开花的三个亚族。控制开花期可以控制植物的生长和产量。本研究选取工业大麻PEBP基因家族进行生物信息学分析,为进一步明确其功能奠定基础。

1 材料与方法

1.1 大麻CsPEBP基因家族成员鉴定

从拟南芥TAIR数据库(https://www.arabidopsis.org/)中搜索编码PEBP家族基因蛋白的6个序列,以ATFT(AT1G65480)、ATTSF(AT4G20370)、ATTFL1(AT5G03840)、ATBFT(AT5G62040)、ATATC(AT2G 27550)、ATMFT(AT1G18100)作为参考序列筛选大麻目的基因。使用NCBI(https://www.ncbi.nlm.nih.gov/)下载大麻(GCA_900 626 175.2)全基因组及注释文件[30],利用TBtools软件进行Blast序列比对、并提取候选基因序列,将筛选出的候选基因序列上传至Pfam(http://pfam.xfam.org/)进行结构域比对[31],保留包含其结构域的基因。

1.2 大麻CsPEBPs基因motif预测、亚细胞定位及理化性质分析

利用在线工具MEME(https://meme-suite.org/meme/tools/meme)预测大麻CsPEBPs基因的保守结构域[32],设置motif数量为10。利用在线工具Cell-PLoc 2.0(http://www.csbio.sjtu.edu.cn/bioinf/Cell-PLoc-2/)预测大麻PEBP基因蛋白的亚细胞定位[33]。利用Expasy(https://web.expasy.org/protparam/)分析大麻PEBP基因的理化性质,其中包括氨基酸数量、等电点、分子质量、不稳定指数、脂溶指数、总平均疏水指数等。

1.3 大麻CsPEBPs基因结构、染色体定位及系统进化分析

利用TBtools分析大麻CsPEBPs基因结构,显示其UTR(外显子)及CDS(内含子)区,并使用TBtools定位基因在染色体上的位置实现可视化。利用 MEGA7.0软件对大麻CsPEBPs基因进行多序列比对,并使用邻近算法(NJ,neighbor-joining)构建系统发生树[34]。

1.4 大麻CsPEBP蛋白二、三级结构预测

利用在线软件SOPMA(https://www.expasy.org/)预测大麻CsPEBPs基因二级结构[35],并分析其α-螺旋、β-折叠、延伸链、无规则卷曲在整体结构中的比例。

利用在线软件SWISS-MODEL(https://swissmodel.expasy.org/)的同源建模预测大麻CsPEBPs蛋白的三级结构[36],并与二级结构预测结果进行比较。

2 结果与分析

2.1 大麻CsPEBP家族基因的挖掘及motif预测、亚细胞定位及理化性质分析

通过基因家族分析,从大麻基因组中共筛选出12个PEBP家族基因,经Pfam结构域筛选,12个大麻PEBP家族基因均含有PBP(PF01161)结构域。编码基因含有172~190个氨基酸,平均每条序列含有177个氨基酸,等电点为6.09~9.41,蛋白质相对分子质量在19 019.01~21 595.23 Da,其中CsPEBP5不稳定指数高达56.79,属于极不稳定蛋白,总平均疏水指数均小于0,说明大麻CsPEBPs基因为亲水蛋白(表1)。12个CsPEBPs基因亚细胞定位基本分布在细胞核与细胞质中。

表1 大麻CsPEBPs基因的理化性质分析Table 1 Physicochemical properties of C.sativa CsPEBPs

利用MEME进行motif分析,其结构用TBtools进行可视化。如图1,12个大麻CsPEBPs基因均含有motif1~5,且排序方式一致,说明大麻CsPEBPs基因具有一定的保守性。其主要区别是蛋白质N-端motif的类型有差异,CsPEBP8、CsPEBP9均含有motif6,CsPEBP3、CsPEBP10均含有motif7,CsPEBP4、CsPEBP12均含有motif8,CsPEBP4含有两个motif10,仅有CsPEBP11含有motif 9。

图1 大麻CsPEBPs基因motif预测Fig.1 Prediction motifs of C.sativa CsPEBPs

2.2 大麻CsPEBP家族基因结构、染色体定位及系统分析

12个大麻CsPEBPs基因的内含子、外显子如图2所示。筛选的全部基因中均含有2个外显子,除CsPEBP2、CsPEBP3外,其他基因均含有4个内含子。主要差别位于非编码区长度,说明CsPEBPs基因在结构上具有高度的保守性。

图2 大麻CsPEBPs基因结构Fig.2 Structure of C.sativa CsPEBPs

如图3所示,大麻CsPEBPs基因主要位于7条染色体上,分别是染色体1、3、5、6、7、8、X,且分布不均。3号染色体与X染色体上均含有3个大麻CsPEBPs基因。5号染色体上含有2个基因,其余染色体上只含有1个基因。由图4预测CsPEBP8与CsPEBP9、CsPEBP10、CsPEBP11为等位基因,需要进行多序列比对、顺式作用元件分析、二级结构预测、三级结构预测印证猜想。

图3 大麻CsPEBPs基因在染色体上的定位Fig.3 Mapping of C.sativa CsPEBPs on chromosome

为确定大麻CsPEBPs基因在进化上的保守性,使用MEGA7.0进行多序列比对,并使用邻近算法(NJ,neighbor-joining)构建系统发生树。根据拟南芥PEBP家族的分类方法,大麻CsPEBPs基因也进行了分类(图4)。FT-LKE亚家族中含有4个大麻CsPEBPs基因(CsPEBP1、CsPEBP2、CsPEBP4、Cs-PEBP7),TFL1-LKE亚家族中含有5个大麻CsPEBPs基因(CsPEBP3、CsPEBP6、CsPEBP10、CsPEBP11、CsPEBP12),MFT-LIKE亚家族中含有3个大麻Cs-PEBPs基因(CsPEBP5、CsPEBP8、CsPEBP9)。其中CsPEBP8、CsPEBP9基因序列相似性为100%。

图4 大麻与拟南芥、水稻PEBP基因家族系统进化树Fig.4 Phylogenetic trees of PEBP family of hemp, rice, and arabidopsis

2.3 大麻CsPEBP家族基因启动子顺式作用元件分析

本研究使用TBtools分析和可视化大麻CsPEBPs基因上游2 000 bp的启动子顺式作用元件(图5)。大麻CsPEBPs基因顺式作用元件主要是光反应顺式调节元件、脱落酸反应顺式作用元件、茉莉酸响应元件、厌氧诱导顺式作用元件。其中12个大麻CsPEBPs基因均含有光反应顺式调节元件,共183个。大麻CsPEBPs基因中分生组织表达调控顺式作用元件、干旱诱导顺式作用元件、低温响应元件、昼夜节律调控顺式作用元件均含有3个。

图5 大麻CsPEBPs基因启动子区顺式作用元件Fig.5 Cis-acting elements in the promoter region of C.sativa CsPEBPs genes

2.4 大麻CsPEBPs蛋白质二级结构预测

利用SOPMA在线软件预测12个大麻CsPEBPs蛋白质的二级结构预测。从表2可知,大麻CsPEBPs蛋白质含有高达57.47%的无规则卷曲,而β-折叠占比最高,为7.30%,由此可知大麻CsPEBPs蛋白质二级结构主要是由无规则卷曲构成,α-螺旋、β-折叠、延伸链分散于整个蛋白质中。由图6可知,12个大麻CsPEBPs蛋白质在二级结构上无明显差异。

图6 大麻CsPEBPs蛋白的二级结构在线预测结果Fig.6 Online prediction of secondary structure of CsPEBPprotein

表2 大麻CsPEBPs蛋白质的二级结构预测Table 2 Predicted secondary structure of CsPEBP protein (%)

2.5 大麻CsPEBPs蛋白质三级结构预测

利用在线软件SWISS-MODEL(https://swissmodel.expasy.org/)中的同源建模预测蛋白质三维空间结构。如图7所示,蛋白质三级结构主要是由无规则卷曲构成与蛋白质二级结构预测结果一致。

图7 大麻CsPEBPs蛋白的三级结构空间构象Fig.7 A spatial conformation of tertiary structure of CsPEBP protein

3 讨论与结论

PEBP基因家族广泛存在于细菌、动物和植物中,PEBP家族包含在整个植物界中作为开花时间的关键调节剂的蛋白质,它们还调节生长和植物结构[37]。本研究运用生物信息学等方法,从已报道的大麻全基因组中鉴定出12个PEBPs基因,经研究发现单子叶植物中的PEBPs基因数量多于双子叶植物[24]。通过对大麻CsPEBPs基因的理化性质分析,仅有CsPEBP5、CsPEBP7等电点小于7,说明该基因具有编码碱性蛋白质的可能,这与染井吉野樱的PEBP分析结果一致[38];12个大麻PEBPs基因均为亲水性蛋白,此结果从小麦FT基因[39]中得到印证;通过亚细胞定位得知CsPEBPs分布在细胞质与细胞核中,与金花茶[40]、辣椒[41]定位结果一致。从基因结构来看,12个大麻CsPEBPs基因均具备PEBP结构域,均含有2个外显子、4个内显子,说明PEBP基因在进化上具有高度的保守性,大麻CsPEBPs基因的保守基序分析结果也印证了该结论。

经过与拟南芥、水稻的PEBP蛋白构建系统发育树,将12个基因分为3个亚家族;FT-LKE亚家族中含有4个大麻CsPEBP基因,TFL1-LKE亚家族中含有5个大麻CsPEBPs基因,MFT-LIKE亚家族中含有3个大麻CsPEBPs基因。经启动子顺式作用元件分析,大麻PEBPs基因家族含有光反应顺式调节元件、脱落酸反应顺式作用元件、茉莉酸响应元件、厌氧诱导顺式作用元件等顺式作用元件,当大麻受到相关环境胁迫时,PEBP基因可能会对大麻生长发育产生一定影响。蛋白质中结构中有规则的重复的构象称为蛋白质的二级结构[42],其中包括α-螺旋、β-折叠、β-转角、无规则卷曲以及一些特殊结构(π-螺旋,PPII螺旋)[42-43]。蛋白质三级结构是在二级结构的基础上不断地盘绕折叠而形成特定的构象,是多肽链的三维空间结构,可以依据已知的蛋白质三级结构推测位置蛋白质结构并预测其功能[44-45]。大麻CsPEBPs蛋白的二级结构预测结果与三级结构预测结果一致。并从三级预测结构中发现同一亚族的基因拥有相似的三级结构。根据以上分析结果,CsPEBP8与CsPEBP9基因相似度为100%、二级结构与三级结构预测结果一致、保守基序相同,但顺式作用元件分析结果略有不同,说明这两个基因具有相似的形态结构并执行相同的生理功能。

本研究通过对大麻PEBPs蛋白的全基因组鉴定,对PEBP基因家族进行生物信息学分析,包括序列的理化性质、保守基序、基因结构、系统进化分析、顺式作用元件分析等。研究结果为PEBP基因家族调控大麻的生长发育及开花奠定基础。

猜你喜欢
大麻元件蛋白质
蛋白质自由
人工智能与蛋白质结构
大麻二酚在医学上的应用前景
科技在线
如何读懂色环电阻
反渗透膜元件失效的原因分析及对策
大麻是个啥?
大麻促进骨折痊愈
宝马i3高电压元件介绍(上)
Protel 99se网络表装载中纠错探索