大豆NUDX基因家族全基因组分析

2018-08-10 02:55陈吉宝
关键词:水解酶同源结构域

常 玮,王 娟,于 洋,陈吉宝

(南阳师范学院 农业工程学院,河南 南阳473061)

大豆(Glycinemax)是自交作物,在自然条件下天然异交率较低(约为0.5%)[1]。与玉米等作物相比,大豆群体的遗传多样性较为单调,加之大豆为光周期敏感植物,也极大地限制了不同地域、不同类型大豆之间的基因交流[2-3]。因此,多年来以杂交为主要手段的大豆育种,在优异大豆种质创制方面进展缓慢。

目前在作物育种上主要依靠人工诱变创建突变体库来获得新变异[4]。近几年,通过CRISPR/Cas9系统进行基因编辑[5],以及远缘嫁接等方法进行突变体诱导[6],不仅使突变更具方向性,而且还增加了优异变异的几率。但在突变产生的同时及遗传过程中,生物体内会产生一系列有效的保护机制来修复这些变异,称之为DNA修复系统(DNA repair system)。目前已知的修复机制包括:错配修复(Mismatch repair)、AP修复(AP repair)、核苷酸切除修复(Nucleotide excision repair)、光复活(Photoreactivation)、DNA损伤旁路(DNA damage bypass)、SOS修复(SOS repair)以及模板指导的缺口修复(Template-directed gap repair)[7-11]。除此之外,在生物体内还存在着一种与突变的发生和抑制相关的基因,称为增变基因(Mutators)。MutT同源酶1(MutT homolog 1, MTH1)基因是细胞内广泛存在的一类增变基因。MTH1属于Nudix(Nucleoside diphosphate linked to x)水解酶超级家族(NUDX),是一类具有不同程度底物特异性的水解酶,可以水解包括核苷二磷酸、核苷三磷酸及RNA帽等一系列有机焦磷酸盐。该酶可将细胞核苷酸池中的氧化嘌呤核苷酸,如8-氧化鸟嘌呤核苷酸(8-oxo-GTP)、2-羟基腺嘌呤脱氧核苷酸(2-OH-dATP)等水解为核苷单磷酸酯和无机焦磷酸盐,阻止氧化嘌呤核苷酸错误地编入DNA或RNA中,从而大大减少核酸损伤和突变,在维护遗传物质稳定性以及核酸损伤修复机制中起着重要作用[12]。

目前,有关NUDX在DNA修复中作用机制的研究主要集中于原核生物和哺乳动物[13-14],而关于其在植物基因组DNA修复中的作用研究较少。常玮等[15]采用改进的超级集群分离分析法(Super bulked segregant analysis,Super-BSA),利用大豆HapMap数据(包含19 652份材料,52 041个位点)对与大豆基因组点突变比率相关联的位点进行定位,结果表明,Gm16上的29 153 474-30 604 603 bp、Gm17上的12 133 293-12 147 725 bp均与目标性状存在极强的关联性,上述2区间内均存在一个Nudix水解酶同系物(Glyma16g26440.1和Glyma17g15420.1),这间接表明了大豆NUDX基因与基因组突变的关系。

近年来随着越来越多植物基因组序列测序工作的完成,植物NUDX基因的鉴定工作也取得了较多进展。研究人员通过同源比对的方式已经分别从拟南芥基因组(~130 Mb)、水稻基因组(~430 Mb)、毛果杨基因组(~480 Mb)及葡萄基因组(~500 Mb)获得了32,33,53和30个推定的NUDX基因[16]。本研究拟采用全基因组扫描方式,通过对拟南芥、水稻等植物NUDX水解酶蛋白一级结构的分析,获取序列特征,再根据该特征在大豆全基因组范围内进行NUDX基因的挖掘,最后通过系统进化分析、表达分析来获得大豆NUDX基因家族的进化情况及表达特征。

1 材料与方法

1.1 大豆NUDX(GmNUDX)基因的全基因组扫描

以拟南芥NUDXs蛋白一级结构作为参考,通过DNAMAN (v8.0.8.789)的同源比对功能识别NUDXs蛋白一级结构,分析保守结构域;统计保守结构域内每个位点氨基酸类型的特征;在此基础上根据Perl语言正则表达式进行编码,并利用Perl语言模式匹配函数对大豆基因组Wm82.a2.v1[17](http://phytozome.jgi.doe.gov/pz/portal.html)进行扫描。获取候选基因后,采用TargetP1[18](http://www.cbs.dtu.dk/services/TargetP/)和WoLF-PSORT[19](http://wolfpsort.org/)对各候选基因编码蛋白的亚细胞定位结果进行预测。

1.2 大豆NUDX基因的多序列比对及系统进化分析

在全基因扫描的基础上,采用Clustal X对获得的大豆NUDX基因进行多序列比对,将比对结果导入MEGA5.1进行系统进化分析[20]。采用邻接法(Neighbour-Joining)构建系统进化树,重复抽样1 000次分析系统树各分支的置信度。

1.3 大豆NUDX基因的表达模式分析

为了阐明大豆NUDX基因的表达模式,以通过高通量测序技术获得的来自大豆10个不同组织的转录组数据(登录号SRX062325-SRX062334,下载地址:http://www.ncbi.nlm.nih.gov/)为基础,通过分析候选基因在不同组织中的表达丰度来比较不同基因的表达差异。候选基因表达丰度的比较参考Eisen等[21]的方法:数据经归一化处理后,首先减去归一化后的均值,使数据集中心化;然后将中心化后的数据除以标准差,并以此来比较不同候选基因的表达差异。最终根据计算结果,采用R程序包gplots中的heatmap.2函数(http://CRAN.R-project.org/package=gplots)绘制热量图。

2 结果与分析

2.1 GmNUDXs全基因组扫描

根据统计,NUDXs蛋白一级结构保守结构域为GX5EX7REUXEEXGU,其中X为任意氨基酸,U为Ile、Leu、Val,其Perl语言正则表达式为“Gw{5}Ew{7}RE[ILV]wEEwG[ILV]”。如表1所示,通过全基因组扫描,在20条大豆染色体中共鉴定出69个NUDX基因(GmNUDX1-GmNUDX69),其中56个具有单Nudix 水解酶结构域(Nudix hydrolase domain,NHD);另外13个GmNUDXs除具有NHD外,还有其他的结构,例如GmNUDX9和GmNUDX40分别具有2个NHD;GmNUDX5、GmNUDX21及GmNUDX53分别在其C末端包含一个 NADH焦磷酸酶锌带结构域(zr-NADH-PPase);GmNUDX46的C末端具有1个肽酶基序(Peptidase motif,PM);GmNUDX39、45、52、62等4个基因各包含1个mRNA脱帽结构(Dcp2)膜结合基序。

69个NUDX基因的亚细胞定位结果(表1)表明,其中有12个基因具有叶绿体转运肽结构,定位于叶绿体上;18个基因具有线粒体靶向肽,定位于线粒体上;8个基因具有核定位信号;6个基因具有信号肽;4个基因定位于质膜上;剩余的21个基因定位于胞浆内;没有定位于内质网及高尔基体上的GmNUDX基因。

表1 GmNUDX基因家族汇总信息Table 1 Information of GmNUDX gene family

表1(续) Continued table 1

注:NHD、zr-NADH-PPase、DNHD、Tr、PM和Dcp2分别表示nudix水解酶结构域、NADH焦磷酸酶锌带结构域、双nudix水解酶结构域、跨膜区、肽酶基序及mRNA脱帽结构。
Note:NHD,zr-NADH-PPase,DNHD,Tr,PM and Dcp2 are the abbreviations of nudix hydrolase domain,NADH pyrophosphatase zinc ribbon,double nudix hydrolase domain,transmembrane region, and decapping mRNA 2,respectively.

2.2 GmNUDXs染色体的分布及系统进化分析

为了阐明大豆NUDX基因家族在基因组上的分布规律,以大豆基因组(Wm82.a2.v1)为参考,利用BLAST比对软件中的blastn函数对69个GmNUDXs进行了染色体定位,结果如图1所示。由图1可以看出,69个GmNUDXs分散于全部20条大豆染色体上,但每条染色体上分布的GmNUDXs数目有一定差异,其中2号、9号染色体上的基因数目最多,均为7个;而3号、6号、12号、19号染色体上的基因最少,均只有1个。此外,定位结果还表明,大多数的GmNUDXs分布于各条染色体的两端,只有GmNUDX12、13、14、15和23分布于距离着丝粒较近的区域,这一结果表明大豆染色体发生加倍时,同源染色体之间发生了重排。

图1 GmNUDXs在大豆20条染色体上的分布图Fig.1 Genomic distribution of GmNUDXs on soybean chromosomes

为了揭示不同GmNUDXs之间的进化关系,依据69个GmNUDXs的蛋白质一级结构序列进行了系统进化分析。由图2可以看出,与大豆中其他基因家族相似,大多数GmNUDXs具有2个拷贝,这也反映出了大豆古老的基因组复制事件。在全部69个GmNUDXs中,共有54个(27对)基因在系统进化树上成对出现。结合之前的亚细胞定位预测结果进一步分析可知,亲缘关系较近的基因通常在进化树上位于相同的分支上,例如:4个定位于线粒体上的GmNUDXs(GmNUDX10、35、48、51),在进化树聚为一支;4个具有信号肽结构的基因(GmNUDX28、39、42、62)在进化树上聚为一支。

图2 GmNUDX基因家族系统进化关系Fig.2 Phylogenetic relationship of soybean NUDX family

2.3 GmNUDX基因家族的表达模式分析

根据NCBI公布的大豆转录组数据,对上述挖掘到的GmNUDX基因家族的表达模式进行分析,结果如图3所示。由图3可以看出,大部分GmNUDX基因家族基因的表达没有表现出组织差异性,但表现出了显著的丰度差异:在全部69个GmNUDXs中,24个基因具有较高的表达丰度;26个基因具有中等表达丰度;10个基因具有较低表达丰度。9个GmNUDXs基因(GmNUDX14,39,40,41,59,61,63,64,65)没有发现表达序列,表明其可能为假基因。

3 讨 论

3.1 GmNUDXs结构及功能分析

在本研究所获得的69个GmNUDXs中,56个具有单NHD结构单元,另外13个GmNUDXs还具有其他的结构单元,其中3个(GmNUDX5,21,53)具有zr-NADH-PPase结构域。对拟南芥AtNUDX2的研究表明,zr-NADH-PPase结构域具有以ADP核糖和NADH为底物的焦磷酸酶活性[12,16],AtNUDX2过表达的拟南芥植株会表现出对氧化应激的耐受性增强[22],由此推测GmNUDXs(GmNUDX5,21,53)可能在大豆中发挥相似功能。GmNUDX46含有1个PM结构域,与AtNUDX3同源,尽管该基因的具体功能还未知,但对拟南芥的表达分析显示,AtNUDX3可被干旱、盐渍、冷热胁迫等极端条件诱导表达,表明GmNUDX46基因可能参与多种生理功能[23-24]。GmNUDX39、45、52、62等4个基因各包含一个Dcp2膜结合基序。Dcp2能够水解mRNA的帽子结构,这对于真核细胞mRNA的降解至关重要,而mRNA降解在细胞增殖与分化、胁迫响应,以及转录本质量控制等方面都具有重要意义,这再次表明GmNUDXs在大豆各项生理活动中具有重要作用[25]。

图3 GmNUDX基因家族在不同组织中的表达量热量图Fig.3 The heat map of GmNUDX family in different tissues.

与大豆中的许多其他基因相似,GmNUDXs表现出了易于成对出现的基因组分布模式,再次反映出了古老的基因组大规模复制事件[26-27]。这一复制事件使得每个基因的2个拷贝在经历重排后增加了基因的多样性。如此多的成员数目及结构域类型,使得GmNUDXs在大豆的生长发育及逆境胁迫响应过程中具有重要作用。

3.2 GmNUDXs的进化特征

通过对比GmNUDXs在染色体上的位置及其进化关系,本研究发现:如果几个GmNUDXs成簇出现在某染色体上,则它们的同源序列也会按照相应的顺序出现在另外的染色体上。例如:GmNUDX3和GmNUDX37位于4号染色体上的同一基因簇内,它们的同源序列GmNUDX27和GmNUDX68以相同的顺序出现在9号染色体上,13号染色体上的GmNUDX47和GmNUDX40以及15号染色体上的GmNUDX64和GmNUDX9也表现出相同的模式。这一现象为包含GmNUDXs的大豆染色体区段重复提供了有力证据。同样的染色体重复现象已经被证实在大豆许多基因家族的进化过程中发挥着重要作用[28-29]。

3.3 GmNUDXs的表达模式

在本研究中,有9个GmNUDX基因(GmNUDX14,39,40,41,59,61,63,64,65)在大豆的全部10个组织中均未发现表达序列。这一结果表明,这些基因可能为假基因或只在特定的环境条件或发育阶段才表达。植物中存在许多假基因,包括非加工和加工假基因2种类型[30]。非加工假基因通常指在复制过程中发生功能缺失突变的基因序列,多位于其同源功能基因侧翼。在本研究涉及的9个未发现表达序列的基因中,GmNUDX39,40,63,64,65均有1个与之同源且具有表达量的功能基因,分别为GmNUDX28,7,30,47和11,这一结果暗示这5个基因成为假基因的可能;GmNUDX7和GmNUDX11分别位于GmNUDX40和GmNUDX65的侧翼,表明其可能为非加工假基因。除此之外,其余60个GmNUDXs基因在大豆的全部10个组织中均有表达,没有表现出组织差异,只表现出了表达量的差异,表明其在大豆中可能具有多种功能。

4 结 论

从大豆基因组数据库中挖掘到69个GmNUDXs,分布于大豆的20条染色体,其中60个在10个组织中均有表达,没有表现出组织差异,只表现出了表达量的差异。大豆NUDX基因家族基因的多态性及表达量差异表明,其在大豆的多项生理活动中具有重要作用。

猜你喜欢
水解酶同源结构域
细菌四类胞外感觉结构域的概述
氨基甲酸乙酯水解酶的家族生物信息学分析
以同源词看《诗经》的训释三则
UBR5突变与淋巴瘤B细胞成熟
“铤”有“直”义的词源学解释——兼说/直/义的同源词族
基于主成分分析优化参数预测水解酶的亚类
同源宾语的三大类型与七项注意
基于生物加工的PET功能修饰的进展
虔诚书画乃同源
重组绿豆BBI(6-33)结构域的抗肿瘤作用分析