G-四链体与染色质结构相互作用关系的研究进展

2022-05-15 07:58舒慧灵
生命科学研究 2022年2期
关键词:染色质端粒表观

杨 婧,侯 越,2,舒慧灵,孙 啸*

(1.东南大学生物科学与医学工程学院生物电子学国家重点实验室,中国江苏 南京 210096;2.西安交通大学生命科学与技术学院生物医学信息工程教育部重点实验室,中国陕西 西安 710049)

G-四链体(G-quadruplex,G4)是一种特殊的核酸二级结构,多形成于富含鸟嘌呤的DNA或RNA序列中。G4结构首次被发现于体外环境,广泛存在于基因组,通常标志着具有调控功能的染色质区域,在生物体内具有重要的调控功能,与染色质结构、表观调控、基因组稳定性、人类疾病等密切相关。

1910年,Bang[1]首次发现鸟嘌呤核苷酸在高浓度下能够形成凝胶,这表明DNA中富含鸟嘌呤的序列可能形成更高阶的结构。1962年,Gellert等[2]使用X射线衍射实验证明,鸟嘌呤可以组装成四聚体结构。随着高通量测序技术的发展,G4检测技术经历了从体外到体内检测的发展过程。2015年,剑桥大学Balasubramanian团队提出G4-seq[3]方法,并利用该方法在人类基因组水平上得到了超过70万个能够在体外形成G4的序列。为探索G4结构在内源性染色质环境中是否真实形成,该团队在2018年提出了染色质免疫沉淀测序方法(G4 ChIP-seq)[4],利用G4特异性抗体BG4,在K562细胞系中鉴定出了约8 000个能够在体内形成G4的序列。最近,中国科学院的研究团队基于G4结合蛋白DHX36的结合结构域,设计出一种人工G4探针蛋白[5],结合ChIP-seq技术,在A549细胞系中测得了超过10万个G4结构。基因组中众多G4预示着G4可能具有复杂的生物学功能,如表观调控、与染色质的相互作用等。

G4在多个层次与染色质结构存在相互作用,包括染色质可及性、染色质局部修饰状态和染色质全局空间构象等。染色质是由核小体压缩折叠形成的高级结构,当DNA复制、转录等生物学过程发生时,致密的核小体结构将会被破坏,染色质由紧密变为开放的状态,这段区域即被称为开放染色质(open chromatin),这种允许调控蛋白与之结合的特性称为染色质的可及性(chromatin accessibility)。G4与核小体缺失及染色质开放结构存在着密切的联系[6],同时,G4也可能招募蛋白质因子进行染色质修饰,包括DNA甲基化和组蛋白修饰[7]。我们前期的研究结果也表明,G4对染色质空间构象有影响[8],染色质空间构象包括染色质环结构、染色质拓扑关联域(topologically associating domain,TAD)及染色质区室结构。

本文将从3个方面详细讨论G4与染色质结构的相互作用关系,包括:G4在开放染色质区域的富集现象,G4通过招募功能蛋白质调控染色质局部区域的表观修饰,以及G4对染色质空间结构的影响。

1 G4结构及其生物学功能

G4结构由多个G-四分体(G-tetrad)平面构成,G-四分体是G4序列中的鸟嘌呤(G)互相作用形成的稳定的平面正方形阵列,通过Hoogsteen氢键碱基相互配对[9],三层及三层以上的G-四分体堆叠即形成稳定的G4结构(图1)。每个鸟嘌呤的电负性羧基指向平面中心,可以容纳一价金属阳离子(M+)以稳定G4结构[9](图1左)。其中,K+的作用最为明显,人体富含K+、Na+离子的生理环境有利于G4结构形成[10]。

图1 G-四链体结构示意图(使用BioRender绘图)从左至右分别为G-四分体的化学结构式示意图、G-四分体的简化示意图和G4结构示意图。“n”为G-四分体的个数。Fig.1 G4 structure diagram(created with BioRender)From left to right are diagram of the chemical structure of G-tetrads,simplified diagram of G-tetrads,and diagram of G4 structure.“n”is the number of G-tetrads.

G4结构具有多种拓扑结构[11](图2),根据DNA链的方向可分为平行结构、反向平行结构和杂合结构。此外,G4结构可以形成于单链DNA内部(intramolecular)或几条链之间(intermolecular),同时也能够形成各种环状结构(loop structures)。结构参数和外在因素如化学修饰[12]、分子聚集[13]等,会直接影响G4分子结构的几何形态和构象,使其表现出广泛性和多样性。

图2 分子内G-四链体(左)和分子间G-四链体(右)的结构示意图(参照文献[11],使用BioRender绘图)Fig.2 Intramolecular G4(left)and intermolecular G4(right)structure diagrams(created with BioRender,according to Reference[11])

GxN1~7GxN1~7GxN1~7Gx是可能形成 G4 结构的模式序列(G4 motif)。“N”表示碱基“ATCGU”中的一个,长度范围为1至7,称为环(loop);序列中G的数目“x”大于等于3,称为茎(G-tract)。但随着研究的深入,研究人员发现G4序列存在很多特例,结构也可以更加灵活,如在茎的长度大于3的体外环境下,环长可以达到30 nt[14];G茎上的碱基可以发生凸起或错配[15],从而增加G4序列和结构的复杂性。序列分析结果表明,人类基因组包含的G4序列超过30万个[16]。G4序列具有形成G4的潜力,因此也将其称为PG4(potential G-quadruplex)[11]。

G4在端粒维持、DNA复制和转录调控等生物学过程中发挥着重要作用。早期针对G4功能的研究主要集中在端粒区域,端粒由3′端尾部富含鸟嘌呤的单链DNA区和双链区组成,这两个区域都极易形成G4结构。G4会影响端粒酶活性,端粒区域形成的反向平行G4可以阻碍端粒延伸[17],进而阻止癌细胞持续增殖分裂,因此G4可作为靶点进行癌症治疗,并由此引申出了G4的小分子配体的研究,用以结合和稳定体内G4[18]。G4在DNA复制中有双重作用:一方面是可以作为复制的障碍导致突变基因组的不稳定性增加,另一方面是后生动物复制起源的组成部分[10]。G4结构在启动子、增强子等调控区域的富集,可能对基因表达产生正向或负向的影响,从而引发转录组的改变。例如:Siddiqui-Jain等[19]最早对致癌基因c-MYC的研究表明,G4序列的突变或G4稳定配体的添加会影响体内转录事件;华盛顿大学的团队针对人类细胞的基因组分析表明,转录解旋酶XPB和XPD(xeroderma pigmentosum group B and D genes)与G4序列明显重叠,XPB和XPD能够结合G4,且XPD还能够解旋G4,因此它们可能被招募到G4结构上帮助其完成转录[20]。此外,G4结合蛋白也会影响转录,如核仁蛋白与c-MYC NHE Ⅲ1元件的结合能够诱导G4折叠,并降低癌基因c-MYC的转录水平[21]。

深入了解G4与染色质结构信息之间的关联,认识G4与染色质结构的相互作用,有助于理解G4的生物学功能。图3概括了G4与染色质结构的相互作用关系,从染色质的线性结构、表观调控和空间结构方面展示了G4结构对染色质结构的影响。在染色质线性结构方面,G4主要表现为在染色质开放区域的富集(图3A);在表观调控方面,G4通常通过招募蛋白质因子调控或影响表观调控(图3B~C);在染色质空间结构方面,G4能够影响染色质空间分割能力和远程相互作用(图3D)。

图3 G-四链体与染色质结构的相互作用关系(使用BioRender绘图)(A)G4在染色质开放区域内有富集现象;(B)CpG岛上的G4能够招募DNMT1并抑制其活性,调控DNA甲基化水平;(C)hTERT启动子上的NME2依赖G4结构招募阻遏复合物REST-LSD,去除H3K4甲基化,抑制基因表达;(D)染色质空间结构示意图。G4与转录因子相互作用有助于染色质环的形成;G4在TAD边界显著富集,影响TAD边界的分割能力。Fig.3 Interaction between G4 and chromatin structure(created with BioRender)(A)G4 is enriched on the open region of chromatin;(B)G4 on CpG islands can recruit DNMT1,inhibit its activity and regulate the level of DNA methylation;(C)NME2 on the hTERT promoter relies on the G4 structure to recruit the repressor complex REST-LSD,remove H3K4 methylation and inhibit gene expression;(D)Schematic diagram of the spatial structure of chromatin.G4 interacts with transcription factors to contribute to the formation of chromatin loops.The significant enrichment of G4 at the TAD boundary indicates that G4 can affect the segmentation ability of the TAD boundary.

2 G4-DNA与染色质开放结构之间的关系

开放染色质区域具有转录活性,与基因表达调控过程密切相关。已有研究证明,G4能够影响基因转录调控功能[16],因此G4必定与染色质开放结构存在关联。

由于G4-DNA检测技术复杂,成本高,早期G4-DNA相关研究多采用PG4作为研究对象。2006年,Segal等[22]观察了核小体占位率(nucleosome occupancy probability,NOP)与PG4的分布,发现与低NOP区域相比,高NOP区域的PG4基序密度较低。2009年,Halder等[6]绘制了全基因组尺度下PG4以及核小体在1号染色体中的分布,结果显示PG4密度高的区域常表现出对核小体的排斥,且核小体和PG4很少有重叠,其他染色体中也存在相似的情况。由此可知,PG4基序与核小体存在竞争关系。染色质的调控区域以核小体缺失为特征,这使得调控基因转录、复制和表观遗传的蛋白质得以进入开放染色质区域。根据PG4基序与核小体存在竞争关系的结论,以及PG4具有形成G4的可能性,可以推测出G4与染色质开放区域必然存在某种特定的关联。

2016年,Balasubramanian团队着手阐明人类细胞中G4结构和染色质开放性之间的关系[23]。研究人员通过G4 ChIP-seq技术绘制了HaCaT细胞染色质中G4结构的全基因组位置图,并利用测序技术ATAC-seq/FAIRE-seq绘制了染色质开放区域。结果显示,G4 ChIP-seq峰的98%与ATAC-seq和FAIRE-seq确定的区域重叠,这说明在染色质开放区域,即核小体缺失区域,存在G4结构的富集现象(图3A)。这预示着,G4结构的稳定形成能够阻碍核小体组装,因此有利于染色质局部排斥核小体以保持开放构象,并增强转录起始和转录速率。

2020年,中国科学院的研究团队使用G4结合蛋白探针及G4-ChIP测序技术,探究了转录起始位点(transcription start site,TSS)功能区域的G4形成,发现G4集中在TSS的两侧,与其他功能区域相比,TSS功能区域能够形成更多稳定的G4[5],这意味着在转录驱动的启动子中,G4的形成更为活跃和稳定。上述结果提示,转录过程与G4的形成可能是相互影响的。

G4在染色质开放区域的富集阻碍了核小体的组装形成,使局部染色质结构能够保持开放状态,从而使与基因表达调控相关的蛋白质因子得以进入染色质开放区域发挥作用,增强转录起始和转录速率,G4在TSS功能区域两侧的稳定形成也证实了G4与转录过程的关联关系。

3 G4-DNA与染色质状态之间的关系

G4能够作用于DNA甲基化及组蛋白修饰,引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从而调控表观遗传修饰。

2016年,奥塔哥大学的Cree等[24]首次在体外环境下测量了G4对DNA甲基转移酶1(DNA methyltransferase 1,DNMT1)、DNMT3A、DNMT3B 的亲和力。表面等离子共振分析结果表明,G4与DNMT3A和DNMT3B具有较高的亲和力,其亲和力与其他已知的G4结合蛋白相当,表明G4在DNA甲基化过程中可以通过调控甲基转移酶来发挥作用。DNMT3A和DNMT3B的N末端调节区均包含1个ADD域和1个PWWP域。已有研究证明,含有ADD域的ATRX蛋白能够与G4相互作用[25]。上述分析提示,DNMT3A/B可能通过ADD域与G4结构结合从而发挥作用,但DNMT是通过何种方式调控DNA甲基化的还需要进一步研究。

2018年,Balasubramanian团队提出了G4对DNA甲基化的重塑作用[7]。实验通过全基因组重亚硫酸盐测序(whole genome bisulfite sequencing,WGBS)方法对K562细胞系的甲基化水平进行了全面表征,并利用G4 ChIP-seq方法生成G4的全基因组数据库,比较了BG4峰(即G4位点)与CpG岛的重叠部分,发现大部分BG4峰与CpG岛重叠,即大部分G4形成在低甲基化水平的CpG岛区域,同时实验人员注意到BG4峰的区域表现出显著的甲基化缺失,这有力地证明了CpG岛的低甲基化现象与G4结构密切相关。为了探究DNMT与G4之间是否有某种形式的相互作用,Balasubramanian团队以DNMT1为研究对象,探究DNMT1与CpG岛的低甲基化是否存在关联,发现DNMT1在低甲基化水平的CpG岛上显著富集,形成双峰的分布模式,随后研究人员使用酶联免疫吸附分析实验(ELISA)证实,G4具有结合DNMT1的能力。因此,G4可能通过识别并结合DNMT1,在CpG岛局部隔绝DNMT1,导致特定基因组位点的甲基化缺失(图3B)。

2020年,Jara-Espejo等[26]分析了PG4与CpG岛低甲基化的关联,并确定了可能调节这种现象的PG4的内在和外在特性。实验人员使用全基因组甲基化数据探索了PG4在CpG岛上的作用,发现PG4对甲基化的作用是由稳定性、位置和染色质可及性驱动的:开放染色质中的高稳定性PG4具有高转录活性和形成潜能,可更有效地促进低甲基化。

G4还会影响组蛋白修饰。人类端粒结合蛋白能够结合体内端粒重复RNA上的G4和体外DNA上的G4,从而招募对端粒和亚端粒异染色质维持起重要作用的组蛋白甲基转移酶,促进端粒的组蛋白三甲基化[27]。端粒的表观遗传修饰与端粒长度调节和端粒相关疾病的发生发展过程及衰老密切相关,对于基因组的完整性至关重要,因此,G4调控端粒表观遗传修饰的研究有助于端粒生物功能及作用机制的研究。

相关研究报道,人类端粒酶逆转录酶(human telomerase reverse transcriptase,hTERT)依赖于G4结构的启动子的转录抑制,该途径通过肿瘤转移抑制因子NME2(metastasis suppressor non-metastatic 2)招募RE1沉默转录因子-赖氨酸特异性组蛋白脱甲基酶1(RE1-silencing transcription factor-lysine-specific histone demethylase 1,RESTLSD1)阻遏复合物,去除组蛋白H3K4激活基因的单甲基化和二甲基化(即H3K4me1和H3K4me2),并抑制hTERT基因表达[28](图3C)。hTERT在90%的肿瘤细胞中表达,但在绝大多数正常细胞中不表达[29],因此,依赖于G4与NME2的抑制hTERT基因表达的机制,能够为癌症提供新的治疗思路,有助于开辟控制癌细胞中hTERT激活的潜在方法。

G4不仅能够直接影响表观遗传修饰,还能够间接影响组蛋白修饰的遗传。G4会阻遏复制发生,因此在复制时需要解旋酶解开G4结构,然而当G4结构的解旋暂时延迟时,响应的基因组区域被绕过,导致新合成的组蛋白无法遗传亲本修饰[30],从而破坏表观修饰的局部遗传。

由此可见,G4结构对染色质状态的影响是多层次、多方面的,二者相互关联、相互影响。因此,G4对生物学过程和表观遗传修饰的影响是复杂多样的。

4 G4-DNA与染色质空间结构的相互作用

大量证据表明,G4的形成会排斥核小体的定位,G4与染色质的基本结构和状态都有关联,但G4与高阶基因组组织之间的关系仍然未知。有研究报道,G4可能参与远距离交互,如在裂殖酵母中,Rif1蛋白能够结合G4,使染色质在细胞核纤层形成环及局部染色体室,并抑制长距离复制[31];位于乳腺和宫颈恶性肿瘤中的长序列G4(long G4,LG4)断裂会导致基因组融合[32]。

本研究组近期针对K562细胞系的Hi-C[33]及G4 ChIP-seq数据集进行了计算分析,结果表明,G4有助于定义被称为拓扑结构域(TAD)的更高层次的染色质域[8]。我们观察到G4在TAD边界高度富集的现象(图3D),并发现染色质结构蛋白(该蛋白质对TAD形成起重要作用)在TAD边界周围高度富集。TAD边界富集大量的高表达基因,频繁的转录事件能够形成大量的单链DNA,有利于G4的形成,这可能是G4在TAD边界富集的原因。同时,TAD边界上染色质结构蛋白的含量与G4的含量呈正相关。因此,G4很可能通过影响TAD边界区域染色质结构蛋白的结合,影响边界-边界作用和染色质结构。TAD边界最重要的作用之一就是阻断两个TAD之间的相互作用,这一功能的实现主要取决于TAD边界上大量的绝缘子CTCF。通过计算我们发现,存在G4的区域的CTCF结合位点有更强的染色质分割能力,即G4会影响TAD边界的分割能力。此外,G4还能够参与染色质环的形成,正链上的G4序列显著富集在正向CTCF序列上,负链上的G4序列则显著富集在负向CTCF序列上。染色质环的形成主要依赖于黏连蛋白识别CTCF序列方向性,但其机制仍不清楚,因此我们提出模型:正、负链上的G4可以分别富集在正、负向的CTCF序列周围,它们可以阻碍黏连蛋白活动,从而参与染色质成环。

我们的研究还选用实验数据中的增强子和启动子,分析了G4对染色质的远距离作用是否存在影响,通过计算我们发现,包含G4的增强子-启动子之间的相互作用频率明显高于不含G4的增强子-启动子相互作用对,因此我们认为,G4可以通过特殊的结构招募转录因子到增强子或启动子区,调节长程相互作用。

转录因子YY1(Yin Yang 1)是调控染色质远程相互作用的重要蛋白质[34]。最近,美国加州大学通过实验证实,G4能够通过与YY1进行相互作用调节染色质远距离互作[35]。实验人员通过无偏定量蛋白质组学方法确定,转录因子YY1能够在体内与G4相互作用;通过对照实验和Hi-C方法证实,YY1-G4相互作用有助于DNA环化以及远程位点相互作用。

越来越多的证据表明,染色质之间的相互作用能够调节基因表达[36~37],即基因的表达调控存在高阶结构特性,基因表达可能被远程调控。G4不仅与染色质局部结构有关,同时也与更高维度的染色质结构相关,参与调节远程位点相互作用。

5 总结与展望

G4结构广泛分布于各种生物的基因组和转录组,它们总体上影响DNA二级结构、核小体定位、组蛋白修饰以及染色质的空间结构等,继而影响DNA复制、基因转录、染色质构象变化等生物学过程。

G4具有调节中心法则的每个步骤的潜力,其与染色质结构和状态的关联研究能够揭示G4结构与染色质相互作用的原理,为我们理解G4在生物学过程中的功能提供帮助。G4在染色质开放区域和核小体缺失区域呈现富集状态,当它们与基因转录调控区域重叠时,就会影响基因的转录调控。G4不仅能够协同转录因子识别并隔绝DNMT1,导致关键基因组位点的甲基化缺失,从而影响转录过程,还能够通过形成复合物并招募相关酶,影响组蛋白修饰,从而调控染色质的表观修饰。但染色质并非简单的线性模型,高度折叠和压缩的空间结构势必对染色质结构和基因表达产生影响。从空间结构角度出发,G4影响TAD边界的分割能力,参与染色质环的形成,除此之外,G4还能够通过招募蛋白质影响长程相互作用。

G4既然能够影响基因调控,自然也与人类疾病相关,其今后有望成为新药开发的靶标。端粒G4结构影响端粒酶表达,可能会导致癌症发生发展;G4影响基因调控过程,包括转录调控、转录后及翻译调控,从而影响基因表达的结果,导致疾病发生;表观遗传修饰也受到G4的调控,包括DNA甲基化、组蛋白修饰等,G4影响表观遗传修饰可能会引起表观遗传修饰异常疾病;G4过度稳定和积累也会导致疾病。总之,深入研究G4生物学功能,有助于更好地了解疾病的发生机制,制定相应的治疗方案。而且,通过了解G4的结构和功能,可以利用其生化特性开发新的G4配体,控制G4的形成及其生物学作用,从而针对疾病相关的G4开展特异性的新药研发,推进G4的靶向治疗,促进药物治疗新方法和新技术的发展。

猜你喜欢
染色质端粒表观
染色质开放性与动物胚胎发育关系的研究进展
哺乳动物合子基因组激活过程中的染色质重塑
绿盲蝽为害与赤霞珠葡萄防御互作中的表观响应
豚鼠卵母细胞体外成熟过程中生发泡染色质构型的变化
例析对高中表观遗传学的认识
水稻基因组有了更清晰的三维图谱
端粒(酶)对衰老及肿瘤的调节研究进展*
能忍的人寿命长
40—65岁是健身黄金期
端粒可以预测寿命吗