谷子GATA基因家族的鉴定及表达分析

2021-06-28 07:41卢成达牛学谦昌秦湘
西北农业学报 2021年5期
关键词:结构域谷子元件

卢成达,李 阳,孙 迪,牛学谦,昌秦湘

(1.山西农业大学 农学院,山西太谷 030801;2.太原学院 园林科学研究所,太原 030032)

转录因子(TFs)是通过识别并结合靶基因启动子的顺式元件来调控基因表达[1],根据植物发育过程中,转录因子参与激素信号传导并在抗病胁迫响应中起关键作用。根据转录因子结合DNA特定序列的不同,发现了多种功能各异的家族,主要包括WRKY[2-3]、bZIP[4]、MYB[5]、MADS-box和GATA等。其中,GATA转录因子被认为是生物学过程的重要调控蛋白,如在调控花朵发育、碳、氮代谢[6]、叶绿素水平[7]、抗逆胁迫[8]等方面起着关键的作用。GATA转录因子可识别并特异性结合(T/A)GATA(A/G)序列,从而调节下游基因的转录水平[9-10]。GATA蛋白的DNA结合结构域包含Ⅳ类锌指结构C-X2-C-X17-20-C-X2-C和一个保守基本跟随区,且多数具有C-X2-C-X18-C-X2-C或C-X2-C-X20-C-X2-C特征的锌指结构域[11-12]。据研究报道,GATA家族基因在拟南芥(Arabidopsisthaliana)[13]、水稻(OryzasativaL.)[14]、葡萄(VitisviniferaL.)[15]、棉花(Gossypiumspp)[16]、蓖麻(RicinuscommunisL.)[17]中分别鉴定30、28、19、179、19个GATA基因成员,为研究其他作物GATA全基因组的生物学功能提供了参考。

谷子(Setariaitalica)在中国有着古老的栽培历史,富含维生素、胡萝卜素等营养价值,在抗旱、耐热机理方面具有重要研究用途[18]。谷子作为北方主要的粮食之一,近年来频繁地受到干旱、高温极端天气的影响,导致谷子生长发育受阻、品质下降、产量降低。因此,挖掘谷子逆境胁迫相关基因,对提高作物抗旱耐逆性及产量具有重要的指导意义。当前基于作物GATA基因的报道[16,19-20],谷子SiGATA基因功能的研究很少。本试验通过生物学技术在全基因组水平上分析鉴定SiGATA家族成员,对SiGATAs的蛋白理化性质、三级结构、进化系统、基因结构及顺式调控元件等分析,以期为谷子SiGATA家族基因的功能提供参考。

1 材料与方法

1.1 谷子SiGATA基因鉴定

从植物转录因子数据库Plant TFDB(http://planttfdb.gao-lab.org/)获取谷子GATA蛋白序列,以来自Pfam数据库(http://pfam.xfam.org/)GATA锌指结构域(PF00320)的HMM模型为探针序列,用于执行本地HMMER 3.0(http://www.hmmer.org/download.html)及CDD保守结构域网站(https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)搜索,对E-value≤e-10蛋白序列删除冗余,筛选出38个GATA编码转录因子,再手动剔除来自同一编码基因的冗余序列,保留对应基因的第一个或者最长的蛋白序列,最终得到33个SiGATA家族成员。使用ExPASy(http://www..expasy.org/protparam/)计算GATA蛋白的氨基酸数量、脂肪系数、分子质量(ku)、等电点(pI)等理化性质。使用WoLF PSORT(https://wolfpsort.hgc.jp/)进行亚细胞定位的预测。

1.2 谷子SiGATA蛋白系统进化及保守基序分析

分别比对拟南芥、水稻、蓖麻GATA的蛋白序列,通过ClustalX(http://www.clustal.org/)软件进行多序列比对,通过本地DNAMAN软件(https://www.lynnon.com/)分析保守结构序列。利用在线网站MEME(http://meme-suite.org/tools/meme)预测保守基序。在MEGA 7.0中采用最大似然法(ML,Maximum likelihood)构建系统进化树,Bootstrap参数设定为1 000。

1.3 谷子SiGATA蛋白三级结构预测

将鉴定出的谷子GATA蛋白序列,通过SWISS-MODEL网站(https://swissmodel.expasy.org/interactive)预测蛋白三级结构。

1.4 基因结构与染色体定位

从Ensembl植物数据库(http://plants.ensembl.org/)下载谷子GATA基因组序列及CDS序列,利用CSDS 2.0 在线网站(http://gsds.gao-lab.org/index.php)进行基因结构分析。通过NCBI谷子数据库获取GATA家族成员染色体信息,使用MapInspect软件绘制谷子SiGATA基因的染色体位置。

1.5 顺式调控元件分析

为鉴定位于GATA基因启动子区域的顺式元件,从NCBI基因组数据库(https://www.ncbi.nlm.nih.gov/gene/)获取每个SiGATA基因起始密码子的2.0 kb上游序列。使用PlantCARE服务器(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)进行搜索预测。

2 结果与分析

2.1 谷子SiGATA成员基本信息分析

通过本地HMMER 3.0及CDD预测网站搜索,删除冗余蛋白序列,得到33个谷子GATA家族成员,依次命名为SiGATA1~SiGATA33(表1)。在33个谷子GATA转录因子中,氨基酸数量为122~729 aa,分子质量为13 817.77~ 82 166.04 ku,脂肪指数介于47.36~ 72.04。等电点结果显示从4.74到10.52,有4个转录因子为酸性蛋白(PI<7.0),34个转录因子为碱性蛋白(PI>7.0),表明谷子SiGATA蛋白多数为碱性且较稳定。不稳定系数结果显示,范围从 43.35到83.95,均为不稳定蛋白质(>40);总平均亲水性显示,在-1.185到-0.205之间,表明谷子GATA蛋白均为亲水性蛋白;亚细胞定位显示,大多数SiGATA蛋白位于细胞核或细胞质上,其中SiGATA2定位的亚细胞数量最多,SiGATA4定位最少。

表1 SiGATA家族理化性质分析Table 1 Analysis of physical and chemical properties of SiGATA family

2.2 谷子SiGATA蛋白系统进化、基因结构及染色体定位分析

为研究谷子SiGATAs蛋白的系统进化关系,使用MEGA 7.0对谷子GATA蛋白序列比对,采用邻位相接法(泊松校正,Bootstrap= 1 000)构建进化发育图,进化分支结果显示,可以将谷子GATA家族蛋白分为3组,其中第Ⅰ组包含的转录因子做多,共计13个,第Ⅱ组包含的最少,有8个。进一步分析谷子GATA转录因子的蛋白序列结构,使用DNAMAN软件进行氨基酸序列比对,分析结果表明:第Ⅱ、Ⅲ组的GATA蛋白均含有CX2CX18CX2C锌指结构域(图1),第Ⅰ组的SiGATA25、SiGATA26、SiGATA27、SiGATA30、SiGATA31成员缺失CX2CX18CX2C锌指结构域,其他GATA蛋白含有保守结构域。

利用GSDS 2.0在线网站,对获得的谷子GATA基因组序列与CDS序列进行基因结构预测(图2),由于在Ensembl植物数据库没有查询到SiGATA10、SiGATA11、SiGATA16、SiGATA29、SiGATA30、SiGATA31、SiGATA33完整的基因全长度,因此绘制了其余26个家族成员的基因结构图。结果显示,SiGATA家族成员均含有外显子,个数多在2~7,SiGATA15含有外显子数量最多;内含子个数差异较大,其中SiGATA27具有较长的UTR结构。

根据NCBI数据库获取已鉴定谷子GATA家族成员的染色体位置信息,使用MapInspect软件绘制谷子SiGATA基因的染色体位置(图3)。结果显示,谷子GATA基因家族成员不均匀地分布在8条染色体上,chrom6染色体上没有SiGATA基因成员的分布。其中chrom9染色体上的基因数量最多,共计9个,chrom2、chrom4和chrom8染色体上都只分布有2个基因。

2.3 不同作物GATA蛋白系统进化分析

利用Plant TFDB 网站(http://planttfdb.gao-lab.org/)分析水稻(28个)、拟南芥(30个)、蓖麻(19个)蛋白序列,在MEGA 7.0采用ML法构建4种不同作物的进化系统发育树(图4)。参考拟南芥GATA家族分类法加以改动,可将GATA家族分为3大分支,每个大分支又分为两个部分,其中第Ⅰ分支包含的水稻GATA蛋白与谷子GATA蛋白数量最多,分别有19个、16个;第Ⅲ分支含有拟南芥GATA蛋白与蓖麻GATA蛋白数量最多,分别为24个、12个。结果表明,谷子GATA家族蛋白与单子叶植物水稻GATA的亲缘关系较近,与双子叶植物拟南芥、蓖麻的亲缘关系较远,这一研究符合植物的进化关系。

2.4 谷子SiGATA成员蛋白保守基序分析

使用MEME在线软件对谷子SiGATA蛋白序列进行保守基序分析(图5、71图6),结果显示,同一组别的谷子GATA转录因子具有相似的保守基序,Motif1含有CX2CX18CX2C锌指结构域。除SiGATA33转录因子未含有Motif1外,其余转录因子均有Motif1,且出现的次数最多,进一步验证谷子SiGATA基因家族蛋白保守的真确性。此外,在3大组别中,除Motif1外还含有Motif2、Motif3、Motif4、Motif5、Motif6基序,表明不同蛋白基序的不同是其功能差异化的动力或原因。

2.5 谷子SiGATA蛋白三级结构预测分析

运用SWISS-MODEL网站对谷子GATA蛋白家族三级结构进行预测(图7),结果显示,谷子GATA蛋白包含α-螺旋、β-折叠、β-转角及无规则卷曲等空间构象,整体结构相似度存在差异,复杂程度一般,同组进化序列基因的结构相似度较高。例如,在第Ⅰ组中,SiGATA9、SiGATA14、SiGATA18、SiGATA30家族成员的三级结构高度相似,均含有典型的Zn结构域,表明蛋白结构与物种进化同源性有一定的关联。

2.6 顺式调控元件分析

从NCBI基因组数据库下载SiGATAs启动子序列(翻译起始点上游2 000 bp),使用PlantCARE软件进行顺式调控元件分析(图8)。胁迫相关顺式元件主要包括ABRE(ABA响应元件)、ARE(厌氧诱导响应元件)、 GARE-motif(赤霉素响应元件)、CAT(分生组织表达)、G-box(光响应元件)、MBS(干旱诱导响应)、AuxRR(生长素响应元件)等。

33个SiGATAs家族成员中检测到653个主要顺式调控元件,其中G-box(光响应元件)检测数量最多,共计116个;其次为ABRE(ABA响应元件)检测到99个,SiGATA15、SiGATA22、SiGATA32中ABRE(ABA响应元件)检测量高于其他家族成员;SiGATA15在ARE、CAT、GARE-motif、MBS的检测数量也明显高于其他家族成员。此外,在SiGATA14、SiGATA16、SiGATA20、SiGATA31、SiGATA32中检测到Circadian(昼夜节律控制元件),在SiGATA5、SiGATA15、SiGATA22中检测到RY-element(种子特异调控元件)等。表明谷子GATA家族成员可以响应多种逆境条件,如干旱胁迫、缺氧胁迫、光强及光周期。

3 讨 论

通过生物信息学的方法,从谷子基因组中鉴定到33个SiGATA成员,不均匀分布在8条染色体上,多数蛋白序列包含CX2CX18CX2C锌指结构域,这一结果与在拟南芥[21]、水稻[22]、油菜[19]基本一致,其他缺少锌指结构域的GATA蛋白,可能是在进化过程中缺失或改变。谷子GATA蛋白的氨基酸数量、分子质量、等电点存在差异,可能是在发育过程中功能各异的体现,但大多数蛋白序列稳定、呈碱性且具有亲水性。系统进化分析显示,可将谷子GATA家族成员分为3类,其中谷子与单子叶植物水稻亲缘关系较近,与双子叶植物拟南芥、蓖麻的亲缘关系较远,这与它们在系统进化树中的位置关系一致。基因结构和蛋白保守基序表明,同一组别的谷子GATA成员蛋白保守基序高度相似,内含子数量差异较大,UTR结构长度差异明显,可能是不同家族成员在进化中发生改变造成的。

谷子GATA蛋白三级结构显示,整体结构相似度存在差异,但同组进化序列基因的结构相似度较高,表明同组家族成员在进化过程中结构上有很大的同源性。谷子GATA启动子顺式调控元件分析,SiGATAs蛋白可以在厌氧、干旱、光等非生物胁迫下转录调控,参与生长素、赤霉素、水杨酸等激素信号传导调控。部分基因在愈伤组织响应元件、胚乳组织表达及种子特异调控元件表达量有响应位点,但不一定都是可以有效结合并影响表达,而且即使影响表达也不一定是正调控,也有可能是负调控。有研究表明,GATA因子结构域中发现两个与光信号相关的蛋白TOC1和CO,TOC1对昼夜节律的调节起着重要作用[23],CO蛋白又调控分生组织表达,进而通过光周期调节作物开花时间[24]。GATA转录因子中特异性锌指蛋白结构域对植物的抗逆性调控具有重要的作用[25-26],验证了谷子GATA蛋白结构功能的正确性。Zhang等[27]在玉米中利用胚乳特异性启动子调控bg17A基因,显示转基因玉米产量显著提高;Doshi等[28]选用种子特异性启动子表达hADA基因,转化到豌豆、烟草和羽扇豆中的产量有所增加,以期可以进一步探究谷子GATA中特异性调控元件对谷子产量、品质等的提升作用。

猜你喜欢
结构域谷子元件
一种智能磁条传感器
细菌四类胞外感觉结构域的概述
打谷子
UBR5突变与淋巴瘤B细胞成熟
晒谷子(外一首)
如何读懂色环电阻
反渗透膜元件失效的原因分析及对策
DEP结构域的功能研究进展
水稻DnaJ蛋白的生物信息学分析
Protel 99se网络表装载中纠错探索