陆地棉Nudix 基因家族的全基因组鉴定及表达分析

2021-04-14 06:56窦玲玲孙亚如赵琴田瑞洁康洋洋朱怡然杨蕾蕾王彩虹冯宇王文博肖光辉
棉花学报 2021年2期
关键词:棉纤维雷蒙德亚组

窦玲玲,孙亚如,赵琴,田瑞洁,康洋洋,朱怡然,杨蕾蕾,王彩虹,冯宇,王文博,肖光辉*

(1. 咸阳师范学院化学与化工学院,陕西 咸阳712000;2. 河南大学生命科学学院,河南 开封475004;3. 陕西师范大学生命科学学院,西安710119)

Nudix 是一类广泛存在于真核和原核生物(细菌、古细菌和病毒)中,水解RNA 帽子结构和包括核苷糖类、二核苷多聚磷酸盐、三磷酸核苷在内的多种有机焦磷酸盐的水解酶[1],在DNA 损伤修复和逆境胁迫生理方面发挥着重要作用。 Nudix 水解酶包含典型的Nudix 基序“GX5EX7REUXEEXGU”, 其中X 代表任意氨基酸,U 代表疏水性氨基酸。

Nudix 水解酶参与修复鸟嘌呤核苷酸(Guanosine triphosphate,GTP)的氧化损伤。 GTP在活性氧的作用下易氧化形成8- 氧-7,8 二氢鸟嘌呤(8-oxo-7,8-dihydroguanine, 8-oxo-GTP),而DNA 复制时8-oxo-GTP 可以将G:C 颠换突变为T:A。 研究表明,大肠杆菌Nudix 水解酶(MutT)可以水解8-oxo-GTP, 防止DNA 复制过程中颠换的产生以减少核酸损伤和突变[2]。 另外,Nudix水解酶在DNA 修复中的作用在原核生物和哺乳动物的研究中也有报道[3]。

Nudix 水解酶参与植物的生物和非生物胁迫应答反应。 在拟南芥中,AtNudix6 正向调控水杨酸(Salicylic acid,SA)诱导的病原菌响应基因NPR1(Non-expressor of Pathogenesis Related gene 1)的表达,从而提高植物对病原菌的防御作用[4-5]。另外,AtNudix7 在受到臭氧和病原菌胁迫时快速上调表达[6]。 Nudix 还参与了包括黄素代谢、辅酶A 分解代谢等在内的细胞代谢过程[7-8]。 由此表明,Nudix 水解酶参与调控植物逆境胁迫应答反应。

近年来,随着测序技术的发展和进步,愈来愈多的物种完成了基因组的测序工作。 基于全基因组的Nudix 基因家族分析也在多个物种中有见报道,包括拟南芥[7],大肠杆菌[9],酿酒酵母[10]和人类[11]等。 但棉花中Nudix 基因家族还未被挖掘,因此,我们开展了Nudix 基因家族在陆地棉中的系统进化和转录组表达分析,初步揭示了该基因家族在陆地棉纤维发育过程中的作用。

1 材料与方法

1.1 陆地棉Nudix 基因家族的鉴定

从CottonFGD 数据库[12]下载陆地棉(Gossypium hirsutum acc.TM-1,ZJU_v2.1)和雷蒙德氏棉(G. raimondii,JGI_v2.1)和亚洲棉(G. arboreum,CRI_v3.0) 基因组序列。 从拟南芥数据库(The arabidopsis information resource,TAIR)下载拟南芥AtNudix 蛋白序列信息[13]。从Pfam 数据库[14]下载Nudix 蛋白的种子文件PF00293,并利用HMMER 3.0 软件的hmmsearch 搜索程序鉴定含有Nudix 保守结构域的陆地棉蛋白序列。 将所有获得的陆地棉Nudix 蛋白序列提交NCBI 网站的保守结构域数据库 (Conserved domain database,CDD)进行保守结构域验证。

1.2 基因染色体位置、结构和蛋白序列的理化性质分析

根据陆地棉基因组注释文件(General feature format,GFF),利用MapChart 软件[15]对GhNudix基因的染色体位置进行可视化处理。根据GFF 文件分析基因“外显子-内含子” 结构特征, 并用GSDS 2.0 在线软件[16]进行基因结构可视化处理。

通过ExPASy 在线软件对GhNudix 蛋白序列的等电点(Isoelectric point,pI),相对分子质量(Relative molecular mass,Mr), 亲水性平均系数(Grand average of hydropathicity,GRAVY) 等理化性质进行预测[17]。 根据CDD 保守结构域分析结果,利用WebLogo 在线软件[18]绘制陆地棉GhNudix 蛋白保守结构域序列情况。 利用SWISS-MODEL 软 件[19]展 示GhNudix 保 守 结 构域的空间结构特征。

1.3 蛋白序列的多重比对和系统进化树构建

使用ClustalX 2.0 对GhNudix、GaNudix、Gr-Nudix 和AtNudix 蛋白序列进行多重序列比对[20],并使用MEGA 7.0 软件[21]的邻近连接法(Neighbour-joining method)构建无根系统发育树,Bootstrap 设置为1 000 次。利用MEME 在线软件[22]分析GhNudix 蛋白序列保守基序, 参数设置如下:最大发现数目为5, 基序最长为50 个氨基酸;功能域分布类型设置为zoops, 即功能域在每条序列中只出现1 次。

1.4 陆地棉GhNudix 基因复制分析

使用MCScanX 软件的duplicate_gene_classifier 软件包对GhNudix,GrNudix 和GaNudix 的复制类型和共线性区段进行分析[23],利用Circos软件[24]对GhNudix 基因的共线性进行可视化处理。 利用KaKs_Calculator 2.0 软件分析陆地棉GhNudix 复制基因对的同义替换率(Synonymous,Ks) 和 非 同 义 替 换 率(Non-synonymous,Ka)。 Ka/Ks<1 表示纯化选择,Ka/Ks=1 表示中性选 择,Ka/Ks>1 表 示 正 向 选 择[25]。 利 用 公 式“t=Ks/2r” 计算基因的分歧时间, 其中r=2.6×10-9,代表中性替换率[26]。

1.5 陆地棉GhNudix 基因的启动子及表达分析

利用本地BLAST 软件调取基因起始密码子上游2 000 bp 的序列作为陆地棉GhNudix 基因的启动子序列。 利用在线软件Plant cis-acting regulatory element (Plant CARE)数 据 库[27]分 析GhNudix 基因启动子的顺式作用元件。

为了进一步分析GhNudix 基因的表达情况,从National Center for Biotechnology Information(NCBI)的序列阅读档案(Sequence read archive,SRA)数据库下载了陆地棉开花当天(0 DPA,Day post anthesis)、5 DPA、10 DPA、20 DPA 和25 DPA的纤维和不同组织(根、茎、叶、萼片、花瓣、雌蕊、雄蕊、花托和0 DPA 胚珠)转录组数据[28],项目登录号为SRA180756。 采用FPKM (Fragments per kilobase of transcript per million mapped reads,每百万片段中来自某基因每千碱基长度的片段数)法对表达reads 进行归一化处理[29],进一步利用R 语言的pheatmap 软件包[30]绘制基因表达量热图。

2 结果与分析

2.1 陆地棉GhNudix 基因家族的鉴定

以陆地棉基因组(ZJU_v2.1)为参考序列,利用HMMER 3.0 软件搜索PF00293 蛋白序列种子文件,通过进一步分析保守结构域,最终在陆地棉基因组中鉴定到76 个GhNudix 水解酶家族成员。陆地棉GhNudix 水解酶家族的蛋白序列长度范 围 是60 (GhNudix5) 到776 个 氨 基 酸(Gh-Nudix65);蛋白质分子量为6.46~139.61 kDa。根据pI 分析,64 个GhNudix 蛋白的pI<7.0 (平均值5.75), 为酸性蛋白质;12 个GhNudix 蛋白的pI>7.0 (平均值8.32), 为碱性蛋白。 所有Gh-Nudix 蛋白的亲水性平均系数(GRAVY)都小于0, 表明陆地棉GhNudix 蛋白全部都是亲水性蛋白。 从亚洲棉和雷蒙德氏棉中分别鉴定出来35个GaNudix 和36 个GrNudix 蛋白, 其理化参数详见附表1。

2.2 陆地棉GhNudix 基因的染色体分布

根据陆地棉基因组GFF 注释文件分析Gh-Nudix 基因在染色体上的相对位置, 从染色体At_01 到Dt_13, 依次将该基因家族成员命名为GhNudix1 到GhNudix75; 还有一个GhNudix 基因位于scaffold (scaffold6-1_subseq_1_118545_obj_D02),命名为GhNudix76。 75 个GhNudix 基因在陆地棉26 条染色体上的分布是不均衡的,其中At 亚基因组含有43 个GhNudix 基因,Dt亚基因组上有33 个GhNudix 基因(图1)。 由此说明,GhNudix 基因家族在At 亚组和Dt 亚组经历了非对称进化。

2.3 陆地棉Nudix 蛋白的多重序列比对和保守结构域分析

据文献报道, 典型的 Nudix 基序为“GX5EX7REUXEEXGU”序列[7]。通过利用ClustalX 2.0 进行多重序列比对, 大部分陆地棉GhNudix蛋白序列中具有典型的Nudix 基序结构(图2),而部分蛋白Nudix 基序的“GU”转变为了“AU”,这可能是陆地棉GhNudix 基因在长期进化过程中的突变引起的。利用SWISS-MODEL 在线软件分析Nudix 的基序, 该基序在空间结构上形成1个α-螺旋结构。

2.4 陆地棉GhNudix 基因结构和基序分析

图1 GhNudix 基因在陆地棉染色体上的分布Fig. 1 Chromosomal distribution of GhNudix genes in G. hirsutum

图2 陆地棉GhNudix 蛋白的Nudix 基序的空间构象及WebLogo 统计Fig. 2 Spatial conformation and WebLogo statistics of the typical motif of Nudix in G. hirsutum

通过比较GhNudix 基因的外显子-内含子可以看出(图3),基因外显子最少的只有1 个(GhNudix5), 而最多有14 个 (GhNudix28 和GhNudix65)。 通过MEME 在线软件分析陆地棉GhNudix 蛋白序列的保守motif 分析,共发现了5个保守的motif(图3),其中motif 1 在所有的陆地棉Nudix 蛋白序列中都存在。

2.5 GhNudix 蛋白的系统发育分析

为分析陆地棉Nudix 基因家族的进化关系,将76 个GhNudix、35 个GaNudix、36 个GrNudix和26 个AtNudix 的全长蛋白序列导入MEGA 7.0 软件,采用邻接法构建系统发育树,并根据拟南芥Nudix 蛋白家族的分类关系对陆地棉、亚洲棉和雷蒙德氏棉Nudix 蛋白进行分类(图4)。 聚类结果显示, 陆地棉、 亚洲棉和雷蒙德氏棉的Nudix 蛋白被分为7 个亚组,分别命名为Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、Ⅵ和Ⅶ亚组,分别含有18、22、8、6、4、8和10 个GhNudix 家族成员。

2.6 陆地棉GhNudix 基因的复制事件

图3 陆地棉GhNudix 基因的系统进化树、基因结构和蛋白序列保守基序Fig. 3 Phylogenetic tree, gene structure and conserved motif of GhNudix protein sequences in G. hirsutum

为了研究Nudix 基因在染色体区段上的复制关系,利用MCScanX 软件分别分析了陆地棉、亚洲棉和雷蒙德氏棉Nudix 基因的进化情况。 分析结果显示,65 个GhNudix 基因来源于片段重复(Segmental duplication),占GhNudix 基因家族成员的85.5%;剩余的GhNudix 基因在染色体上呈分散排列(图5,附表2)。 我们进一步分析了陆地棉片段重复基因对的Ka、Ks和Ka/Ks值。 由于Ks值不易受进化选择影响,因此常被用于估算进化的分歧时间[31-33]。 陆地棉Nudix 复制基因对的Ks值为0.032~0.160(附表3),由此推断基因复制事件发生于0.62 百万~31.45 百万年前。 Ka/Ks值分析结果表明,绝大多数陆地棉片段重复基因对的Ka/Ks值小于1, 由此推断大部分的陆地棉Nudix 基因在进化的过程中受到了纯化选择。 亚洲棉Nudix 基因家族成员扩增主要来自染色体的片段重复(54.3%);雷蒙德氏棉Nudix 基因家族成员扩增主要源于串联重复(Tandem duplication),占总GrNudix 成员数目的52.8%,片段重复占比22.2%。 亚洲棉和雷蒙德氏棉的Nudix 复制基因对的Ka/Ks值均小于1, 说明亚洲棉和雷蒙德氏棉的Nudix 基因在进化过程中受到纯化选择。 综上所述,棉花Nudix 基因家族成员的扩增主要来源于染色体片段重复,且在进化过程中主要受到了纯化选择的作用。

图4 陆地棉、亚洲棉、雷蒙德氏棉和拟南芥的Nudix 蛋白的系统进化树Fig. 4 Phylogenetic tree of Nudix protein sequences in G. hirsutum, G. arboreum, G. raimondii and A. thaliana

2.7 GhNudix 基因在陆地棉不同组织的表达分析

图5 陆地棉、亚洲棉和雷蒙德氏棉Nudix 基因的共线性关系Fig. 5 The synteny relationships of Nudix genes among G. hirsutum, G. arboreum and G. raimondii

由于基因的表达和功能的执行具有组织特异性,为了分析陆地棉GhNudix 基因在不同组织中的表达情况,利用转录组数据分析了GhNudix基因在棉花根、茎、叶、萼片、花瓣、雌蕊、雄蕊、花托和胚珠(0 DPA)中的表达情况(图6)。 根据GhNudix 基因在不同组织中的表达变化可以将其分为5 组:第一组,主要在花瓣、雌蕊和雄蕊中具有较高的表达量, 包括编号为11、13、14、16、20、23、31、39、48、49、58、60、65、67、68 和72 的Gh-Nudix 基因,主要集中在系统发育树的Clade Ⅱ;第二组,主要在花托和0 DPA 胚珠中具有较高的表达量, 包括编号为4、5、19、26、27、29、44、45、54、62、63、66 和69 的GhNudix 基因, 主要来源于系统发育树的Clade Ⅰ和Clade Ⅲ; 第三组,编号为1、7、8、46 和76 的GhNudix 基因在萼片中具有较高的表达, 主要集中在系统发育树的Clade Ⅶ;第四组,编号为10、17、41 和52 的Gh-Nudix 基因在根中具有较高的表达, 主要集中在系统发育树的Clade Ⅱ和Clade Ⅳ; 第五组在花托和茎的表达量较高, 包括编号为2、3、6、9、18、22、24、25、32、35、37、38、40、42、43、47、51、55、56、57、61、70、71、73、74 和75 的GhNudix 基因,主要集中于系统发育树的Clade Ⅱ。 GhNudix 基因在棉花根、茎、叶、萼片、花瓣、雌蕊、雄蕊、花托和胚珠(0 DPA) 的转录组数据表达情况可以看出,GhNudix 基因的表达具有组织特异性, 其中Clade Ⅶ在萼片中特异性表达,Clade Ⅱ在根、花瓣、雌蕊和雄蕊中均有较高表达。

2.8 GhNudix 基因在棉纤维发育过程中的表达分析

图6 GhNudix 基因在陆地棉不同组织的表达热图Fig. 6 Expression heatmap of GhNudix genes in different cotton tissues

为了进一步分析陆地棉GhNudix 基因在棉纤维发育过程中的作用,利用不同棉纤维发育阶段的转录组数据分析了GhNudix 基因的表达情况(图7)。棉纤维从胚珠表皮细胞发育而来,迅速伸长形成单细胞表皮毛[34]。 棉纤维发育可以分为4 个相互重叠的过程,包括起始期、伸长期、次级细胞壁加厚期和成熟期[35]。 0~5 DPA 是棉纤维发育的起始期; 棉纤维发育起始期至20 DPA是纤维发育的快速伸长阶段[36],15~40 DPA 是棉纤维细胞壁的纤维素合成时期,该时期主要是促进次级细胞壁的加厚[37]。 根据GhNudix 基因在棉纤维发育过程中的表达情况分为3 个亚组(图7)。 第一组,44 个GhNudix 基因在棉纤维发育的起始阶段(0 DPA 和5 DPA)具有较高的表达量,主要集中在系统发育树的Clade Ⅰ; 第二组,编号为1、4、9、13、20、22、41、47、55、58、69、71 和74 的GhNudix 基因在棉纤维发育的10 DPA 和20 DPA 表达量较高, 该阶段是棉纤维快速伸长期,这些基因主要集中在系统发育树的Clade Ⅱ;第 三 组, 编 号 为6、37、39、43、51 和68 的Gh-Nudix 基因在20 DPA 和25 DPA 棉纤维发育的阶段表达量较高,该阶段是棉纤维细胞的次级细胞壁加厚期,这些基因主要集中在系统发育树的Clade Ⅱ。 由此推断,GhNudix 基因特别是CladeⅠ在棉纤维发育的起始阶段具有重要作用,CladeⅡ亚组的GhNudix 基因在棉纤维的伸长阶段和细胞壁次生壁加厚过程中发挥重要作用。

2.9 GhNudix 基因启动子激素相关的顺式作用元件分析

图7 GhNudix 基因在棉纤维发育过程中的表达热图Fig. 7 Expression heatmap of GhNudix genes during cotton fiber developmental stages

生长素(Auxin,IAA)和赤霉素(Gibberellin acid,GA) 是促进棉纤维伸长生长最显著的促进剂[38-39],因此我们分析了GhNudix 基因启动子与激素相关的顺式作用元件。 对76 个陆地棉Nudix 基因顺式作用元件分析表明,36 个GhNudix 基因的启动子包含1~3 个赤霉素响应元件GARE (Gibberellin-responsive element,序列为TCTGTTG),P-box (CCTTTTG) 和TATC-box(TATCCCA), 其 中13 个 属 于 系 统 发 育 树 的Clade Ⅰ,12 个聚类于系统发育树的Clade Ⅱ;33个GhNudix 基因的启动子包含1~2 个生长素响应元件,AuxRR (GGTCCAT) 和TGA-element(AACGAC), 其中8 个GhNudix 基因聚类于系统发育树的Clade Ⅰ,16 个GhNudix 基因聚类于Clade Ⅱ(详见附表4)。

3 讨论

Nudix 水解酶广泛存在于真核生物、细菌、古细菌和病毒中, 其主要作用是水解核苷二磷酸(Nucleoside diphosphate,NDP) 为 核 苷 一 磷 酸(Nucleoside monophosphate,NMP)[40]。 其中,大肠杆菌基因组有13 个Nudix 水解酶基因[9],酿酒酵母菌基因组有6 个Nudix 水解酶基因[10],人类基因组有24 个Nudix 水解酶基因[11],拟南芥基因组有27 个Nudix 水解酶基因[7]。 本研究从雷蒙德氏、亚洲棉和陆地棉中分别鉴定到了36、35 和76个Nudix 基因, 由此可以看出棉花基因组中Nudix 基因的数目远高于其他物种。 大量的研究表明,基因复制是基因家族成员扩增的主要方式之一[41-43]。 通过分析陆地棉、雷蒙德氏棉和亚洲棉Nudix 基因复制可以看出, 陆地棉Nudix 基因的85.5%来源于片段重复,亚洲棉54.3%的GaNudix基因来源于片段重复,雷蒙德氏棉GrNudix 基因串联重复和片段重复分别占52.8%和22.2%,由此证明片段重复是棉花Nudix 基因家族扩增的主要来源。

棉花基因组进化分析表明,亚洲棉和雷蒙德氏棉分别在115 百万~146 百万年和13 百万~20 百万年前经历了两轮的全基因组复制[44-45]。 在1 百万~2 百万年前,雷蒙德氏棉(DD,2n=2x=26)作为父本与母本亚洲棉(AA,2n=2x=26)杂交形成了异源四倍体的陆地棉 (AD1,2n=4x=52)[46]。 本文研究表明,亚洲棉Nudix 基因的片段重复发生时间是14.13 百万~36.96 百万年前,雷蒙德氏棉Nudix 基因片段重复发生的时间是22.29 百万~76.10 百万年前,从而推测雷蒙德氏棉和亚洲棉Nudix 基因家族的成员扩增于棉花基因组的两轮全基因组复制事件[44,45]。 根据陆地棉Nudix 基因片段重复发生的时间范围是0.62百万~31.45 百万年前,平均时间4.92 百万年前,由此推断造成陆地棉Nudix 基因家族成员扩增的片段重复事件主要发生在亚洲棉和雷蒙德氏棉杂交之前。

通过分析GhNudix 基因在根、茎、叶、萼片、花瓣、雌蕊、雄蕊、花托和胚珠(0 DPA)不同组织的转录组数据表明,GhNudix 基因在陆地棉中的表达具有组织特异性 (图6)。 进一步分析Gh-Nudix 基因在棉纤维发育过程中的表达可以发现,在棉纤维发育的起始和伸长阶段(0 DPA,5 DPA 和10 DPA), 聚类于系统发育树的Clade I 和Clade II亚组的GhNudix 基因表达量较高(图7)。生长素和赤霉素是2 种重要的促进细胞伸长的植物激素,生长素通过促进细胞膜H+转移,使细胞壁酸化,从而促进细胞伸长生长[47];赤霉素通过诱导木葡聚糖内转糖苷酶分泌而提高细胞壁的延展性促进细胞伸长生长[48]。 通过分析GhNudix 基因启动子激素相关的顺式作用元件分析发现,大部分的Clade Ⅰ和Clade Ⅱ亚组的基因启动子含有赤霉素和生长素相关的顺式作用元件(详见附表4)。GhNudix 基因特别是系统发育树Clade Ⅰ和Clade Ⅱ亚组的基因在棉纤维发育的起始和伸长阶段上调表达,且大部分具有响应生长素和赤霉素的顺式作用元件,由此推断陆地棉Nudix 基因在棉纤维发育过程中具有重要作用。

4 结论

本文从陆地棉基因组共鉴定到76 个Gh-Nudix 基因。经聚类分析将其分为7 个亚组,基因复制分析表明,片段重复是导致陆地棉GhNudix基因家族成员扩增的主要原因。 根据转录组数据,GhNudix 基因的表达不仅有组织特异性还有时间特异性。 通过分析棉纤维发育不同阶段的转录组数据可以看出,GhNudix 基因主要在纤维发育的起始和伸长阶段高水平表达,其中以系统发育树Clade Ⅰ和Clade Ⅱ亚组的成员为主; 启动子分析结果表明,这2 个亚组的GhNudix 成员大部分含有生长素和赤霉素的顺式作用元件,由此推测Clade Ⅰ和Clade Ⅱ亚组的GhNudix 基因参与陆地棉纤维发育的起始和伸长。本研究通过对陆地棉GhNudix 基因的全基因组鉴定、 进化和表达分析, 为深入解析GhNudix 基因的功能奠定了基础。

附表:

附表详细内容参见http://journal.cricaas.com.cn

附表1 3 种棉花的Nudix 蛋白理化性质的详细参数

Table S1 Detailed physicochemical parameters of the Nudix proteins from three cotton species

附表2 陆地棉、亚洲棉和雷蒙德氏棉Nudix 基因的复制事件

Table S2 Gene duplication events of Nudix genes in G.hirsutum,G.arboreum and G.raimondii

附表3 3 种棉花Nudix 片段重复基因对的KaKs值和分歧时间

Table S3 KaKsanalysis and divergence time of segmentally duplicated Nudix gene pairs of three cotton species

附表4 GhNudix 基因启动子植物激素相关的顺式元件

Table S4 Cis-elements related to plant hormones in the promoters of GhNudix genes

猜你喜欢
棉纤维雷蒙德亚组
关于“双显法”对木棉纤维和棉纤维定性鉴别的探讨
羊毛/腈纶/棉纤维混纺产品定量化学分析方法探讨
不同煎煮方法及时间对炮附子配伍大黄治疗阳虚型便秘的效果及对心脏的影响
急性脑梗死患者血清微小RNA-145、程序性细胞死亡因子4 mRNA水平变化及诊断价值研究
包装材料及存储环境对棉纤维质量的影响
最后的断片
烟草黄瓜花叶病毒亚组Ⅰ分离物生物学特性
壮族PCOS患者及其亚组的临床特征分析和血清LHCGR的表达研究
两次溶解对棉纤维d值的影响
蜂鸟