动物染色质三维基因组及转录调控研究进展

2020-07-08 10:40曹修凯王晓刚黄永震蓝贤勇雷初朝
中国牛业科学 2020年3期
关键词:染色质染色体基因组

曹修凯, 程 杰, 王晓刚, 黄永震, 蓝贤勇, 雷初朝, 陈 宏

(陕西省动物遗传育种与繁殖重点实验室,西北农林科技大学动物科技学院,陕西 杨凌 712100)

基因精准表达是细胞和个体维持正常生命活动的前提,而基因组染色质三维结构是基因精准表达调控的结构基础[1]。哺乳动物细胞内长约2 m的DNA分子,以高度折叠浓缩成染色质的方式存储于直径大约8 μm的细胞核内,形成复杂有序的三维结构,使得在线性基因组上相距很远的基因表达调控元件与其靶基因在三维空间上充分接近,从而发挥功能元件的精细调控作用[2-3]。研究表明,基因组染色质三维结构的变化会导致基因表达及其调控模式发生异常,进而引起表型变化[4]。随着测序深度的增加和三维基因组学研究的不断深入,不同层次的染色质三维结构被先后揭示,三维结构由大到小可划分为:染色质疆域(territory)、染色质区室(compartment)、拓扑关联结构域(topologically associating domains,TAD)和互作环(loop)。

1 基因组染色质三维结构层次

1.1 染色体疆域

利用显微观测技术和染色质构象捕获技术,人们发现每条染色体倾向独立占据不重叠的细胞核区域,这些区域称为染色体疆域[5]。在染色体疆域内部,基因组又不是随机分布的,而是与基因转录活性相关[6]。基因富集区域倾向分布于染色体疆域的边界处,尽管这不是一个普遍现象(存在例外情况)[7-12]。例如,Hoxd基因在小鼠e9.5胚胎肢芽是激活表达的,但该基因激活时并没有转移到染色体疆域的边界处[11]。不同的染色体疆域间也存在相互作用(图1),特别是在染色体疆域的边界处[13]。

图1 不同层次的染色质三维结构示意图及其二维互作热图[14]

1.2 染色体区室

在Mb水平上,具有相似染色体特性的基因组区域具有明显的相互作用(图1A)[15]。例如,基因组转录激活区域间会发生相互作用。这些区域通常具有较高的基因密度、染色质开放性和组蛋白修饰。相反,转录抑制区域,通常是基因沙漠和异染色质区域,会与其他转录抑制区域相互作用[15-17]。这种Mb水平上的染色体区域,称为染色体区室,其中区室A是转录激活区域,区室B是转录抑制区域[15]。这种结构被Hi-C和显微观测技术所证实[18]。染色质的空间分布通常与各种细胞核结构有关。例如,在内部核空间(interior nuclear space)中经常发现区室A,而区室B通常位于核纤层(nuclear lamina)和核仁[19]。在人类成纤维细胞中,大约40%的基因组与核纤层蛋白是关联的[20]。在小鼠胚胎干细胞(ESC)分化为神经祖细胞并进一步分化为星形胶质细胞的过程中,数百个基因位点与核纤层之间的相互作用模式逐渐改变[21]。染色质的空间分离不仅限于染色体内区室,而且还适用于不同染色体间区室。最近的一项研究鉴定出了染色体间区室的相互作用[22]。这项研究发现染色体间转录抑制区域会在核仁处发生组装,并且通常含有着丝点和核糖体DNA区域;这一发现与以前的观察到的核仁相关染色体结构域是一致的[23]。相反,转录活化区域通常会在核散斑体(nuclear speckles)处发生组装。从机制上讲,B室域位于核外围的位置取决于层粘连蛋白B受体,层粘连蛋白A和层粘连蛋白C,因为所有这三种蛋白的缺失会导致异染色质重新定位到核内部[24]。液—液相分离或许对于染色体区室的形成也有影响。例如,异染色质的形成是由NIH3T3细胞中的异染色质蛋白1(HP1)介导的相分离驱动的[25]。在果蝇中,当异染色质域开始出现在早期胚胎中时,HP1a蛋白聚集为核中的相分离点[26]。然而,仍然缺乏直接证据表明区室A和区室B的形成是由相分离驱动的。

1.3 拓扑关联结构域

三维染色质的另一结构层次是TAD(图1B)[27]。TAD的最初由Hi-C和5C鉴定出来的。在2D互作热图中,它表现为对角线上的互作方块。TAD通过明显的边界与相邻区域分离开来,形成一个独立的调控单元,主要功能是限制调控元件的互作距离[28]。TAD边界通常具有较高的保守性,但也存在一些细胞特异的TAD边界[29]。TAD边界通常具有大量的染色质结构蛋白CTCF和黏连蛋白(植物中TAD边界一般缺少绝缘蛋白,边界不明显),对于维持TAD结构及稳定性具有重要作用,不但可以指导染色质折叠成高级结构,还可以正确指导远距离转录调控,该边界发生变化会导致基因调控变得紊乱[3]。TAD边界通常还具有与基因激活相关的组蛋白修饰,如H3K4me3和H3K36me3[3]。随着Hi-C测序深度的增加,利用最新算法(Arrowhead algorithm),在5 kb分辨率下,发现染色质三维结构可以划分为区室域(compartmental domains)和CTCF(CCCTC-binding factor)环。区室域的形成与CTCF无关,是由于染色质状态和基因转录导致的,而CTCF环是由黏连蛋白和CTCF介导形成的。区室域比TAD要小,可进一步划分为A/B区室域[30]。由此可见,TAD内可能包含不同区室域。

1.4 互作环

随着测序深度的增加,在TAD内部进一步发现了更加细小的互作峰,这是由TAD内调控元件远距产生的,称之为互作环(图1C)。与TAD两端边界成环相似,调控元件间的远距互作也会使染色质成环。因此广义上讲,染色质环包括TAD环和loop互作环,并且loop互作环通常在数百kb,远比TAD要小。Loop互作环是三维基因组学研究的热点,可以有效注释基因组功能元件互作[31]。2003年至今,人类“基因组百科全书计划(ENCODE)”已揭示了几十万计的基因组功能元件,这些调控元件对基因的精准表达调控基因起到至关重要作用[32]。但是早期的二维线性基因组功能研究不能系统有效地提供这些调控元件的靶基因信息,而且无法解释这些调控元件是通过何种机制与距离它们几万甚至几十万个核苷酸的靶基因相互作用的。实际上,在真核生物的细胞核内,染色质遵循一定规律进行复杂有序的三维折叠,形成特定的染色质三维结构,使得在线性基因组上相距很远的调控元件与其靶基因在三维空间上充分接近,从而发挥功能元件的精细调控作用[33]。随着ENCODE计划的推进,人们意识到这种远距离的基因精准表达调控在哺乳动物基因组中广泛存在,是机体正常生长发育的必要条件[34]。例如,MYC启动子和PVT1启动子可以竞争性地与PVT1内部4个增强子相互作用,当PVT1启动子区发生突变后,增强子与MYC启动子在三维空间上的相互作用增强,促进癌症发生[35];敲除Sox9远端增强子后导致小鼠性别逆转[36];位于FTO基因内含子中的肥胖相关变异会与IRX3基因启动子产生远距互作[37]。

1.5 染色质环挤压模型

Loop环与TAD环均是基因组染色质远距成环形成的,统称为染色质环,这点一定要注意,因为在许多研究报道中并没有进行严格区分,这会造成读者对文献结论的曲解[38]。染色质成环是由于环挤压造成的,loop的形成有利于调控元件互作,可以调控基因表达[31,39],TAD通常比loop大,可以将调控元件互作限制在一定范围内[4,40]。TAD和loop的发现是随着测序深度和相应算法而定义的,因此采用不同算法和分辨率得到的结果会存在不同。

据报道,86%的染色质环被CTCF锚定,86%的染色质环被粘粘蛋白亚基RAD21锚定[39]。粘着蛋白复合物可以形成环状结构并且可以在染色质上移动,粘着蛋白可以招募NIPBL和MAU2蛋白,并且通过WAPL蛋白从染色质上释放[41]。粘着蛋白在染色质上的移位需要ATP,因为非特异性抑制ATPase或特异性突变粘连蛋白复合物中的ATPase结构域会抑制这种移位[42]。基因转录也有利于促进粘连蛋白的移位,进而促进其环形结构的形成[43]。机制上来讲,CTCF和粘连蛋白是通过“环挤压”模型而使基因组DNA形成TAD[44]。在这个模型中,粘连蛋白向外挤压染色质,直到粘连蛋白遇到CTCF形成的染色体边界(图2)[45]。通过这种方式,在TAD内部形成了若干环形结构,这种环形结构可以促进TAD内部的相互作用。在Hi-C互作矩阵中,这些染色质环表现为高频互作峰[3]。值得注意的是,loop两个边界处的CTCF结合位点通常是反向的,且其motif是面对面的[3]。改变CTCF motif的方向会破坏loop和TAD的形成[46]。这些结果强有力地说明了CTCF会促进loop的形成。此外,删除环挤压因子,粘连蛋白或装配因子NIPBL,会导致TAD和loop的广泛消失或减少[47]。然而,值得注意的是,目前缺乏直接证据证明粘连蛋白可以挤压染色质环。此外,最近的一项4C研究发现敲除CTCF相关的TAD边界并不会影响局部染色质相互作用的模式。尽管该研究未对全基因组三维结构进行评估(例如,使用5C或Hi-C进行评估),但除CTCF和粘着蛋白外,其他因素也可能有助于TAD的形成。

虽然TAD在众多物种中广泛存在[48-49],但是单细胞Hi-C研究表明,单细胞间的TAD并不是完全相同的[50]。例如,在小鼠中进行单细胞Hi-C分析表明,确实在单个细胞中发现了TAD,但不同细胞间的TAD不同[51]。敲除粘连蛋白后,尽管CTCF和粘连蛋白结合的TAD边界已经消失,但单细胞仍然存在TAD样结构。目前尚不清楚粘连蛋白依赖的TAD和非依赖TAD是否存在根本不同。

图2 染色环形成之环挤压模型示意图[2]

2 三维基因组学研究技术

荧光原位杂交技术(FISH)是早期研究基因组染色质空间结构和互作的主要方法,但是该方法操作繁琐、信噪比低,并且不能直接获取基因组不同位点间互作信息。得益于高通量测序技术快速发展,Dekker等人在2002年提出了染色质构象捕获(capturing chromosome conformation,3C)的新技术,通过生物信息学分析,将位点间的三维互作信息反映到二维互作热图上[52]。3C基本原理如图3所示:首先分离细胞,然后利用甲醛固定DNA—蛋白质复合物,再用酶切或超声波将基因组DNA切割成特定大小的片段,再利用DNA连接酶进行临位连接,提取DNA,最后进行PCR检测。对于可能存在远程互作的2个位点,根据这两个位点的序列分别设计上下游引物,PCR扩增后,如果得到的PCR产物大小和序列符合预期, 那么说明这两个位点可能存在非随机的远距互作。

图3 3C技术原理[53]

3C实验中的PCR模板,包含了大量的远距位点间的片段交联,称为“3C文库”。在这个文库中存在这些大量未知的基因组染色体位点间的互作信息。为了充分挖掘3C文库中的互作信息,科研工作者在3C技术的基础上又先后提出了多个高通量地检测位点间远程互作的技术,如4C(circular chromosome conformation capture)和5C(chromosome conformation capture carbon copy),Hi-C等[54-55]。3C检测的是一对一互作,4C检测的是一对多互作,5C和Hi-C则检测的是全基因组任意两位点间的互作[53]。由于特异性的问题,5C技术在应用时效果并不理想,随后Dekker又提出了高通量染色体构象捕获技术(Hi-C,high-throughput chromosome conformation capture)技术[56]。它是3C的一个高通量版本,操作简便,重复性较好,并且可以实现检测全基因组任意两位点间的互作(图4)。与3C文库构建不同,DNA酶切末端用生物素标记的核苷酸不平,这样可以提高后续文库的特异性,随后用连接酶进行连接,提取并纯化基因组DNA,进一步将基因组DNA切割成特定大小的片段,然后用亲和素对具有生物素标记的片段进行富集,最后进行高通量测序。经过生物信息学分析可得到整个基因组任意两位点间的互作信息,从而构建全基因组互作矩阵,互作矩阵的分辨率不仅取决于分析时所用基因组片段(bin)的大小,还与内切酶的特性(4或者6碱基酶切)和测序深度有关[53]。基于3C的构象捕获测序技术虽然可以证实两个远距位点在空间上的互作,但是却无法研究特定蛋白或转录因子是否介导了染色质高级结构的形成。ChIP-loop及ChIA-PET(见表1)技术完美解决了这个问题。ChIP-loop技术的基本原理是利用特定抗体将DNA—蛋白质交联固定后的复合物富集下来,经邻位连接后采用PCR检测目标位点间是否存在由特定蛋白介导的远程相互作用[57]。ChIA-PET与ChIP-loop原理相似,不同点是ChIP-loop检测的是一对一互作,而ChIA-PET借助高通量测序技术可以实现全基因组范围内特定蛋白介导的多对多互作的检测[58]。表1列举了目前主要的染色质构象捕获技术。

图4 Hi-C技术原理[15]

表1 主要的染色质构象捕获技术[59]

实验全称 文献1 versus 13CChromosome conformation captureDekker等1 versus many4CChromosome conformation capture-on-chipSimonis等many versus many5CChromosome conformation capture carbon copyDostie等many versus many+protein specificChIA-PETChromatin interaction analysis paired-end tag sequencingFullwood等ChIP-loopChromatin immunoprecipitation-combined loop assayHorike等many versus allCapture-C Chromosome conformation capture coupled with oligonucleotide captureHughes等Capture-HiCHi-C coupled with oligonucleotide capture technologyBorbala等all versus allHi-Chigh-throughput chromosome conformation captureLieberman等

3 三维基因组的基因转录调控机制

最近研究表明在细胞分化和重编程过程中基因组染色质三维结构与基因表达动态变化存在密切关系。例如,在转录因子驱动的B淋巴细胞重编程为多能干细胞的过程中染色质构象与基因动态表达密切相关[60]。那么基因组构象是如何影响基因表达的?大量证据表明基因组三维结构的形成可以使远距增强子与其靶基因的启动子彼此靠近,从而调控基因表达[61]。利用显微定量技术研究发现,启动子—增强子互作是果蝇转基因激活表达的必要条件,同样在不如动物细胞中利用基因编辑技术产生的启动子—增强子互作可以诱导基因表达。染色质环(TAD和loop)的形成可以有效地限定启动子—增强子互作范围[62-63]。利用基因编辑技术删除TAD边界或loop锚点(CTCF结合位点删除或翻转)通常会导致临近基因表达紊乱。此外染色质结构变异(包括大范围的拷贝数变异),会破坏TAD边界,导致启动子—增强子互作异常(破坏原有互作或形成新互作),从而导致表型变异或疾病。例如WNT6-IHH-EPHA4-PAX3位点处的TAD边界被破坏后使得原本调控EPHA4的增强子与WNT6、IHH、PAX3启动子互作,导致前者无法表达而后三者异常表达,其表型就是指(趾)端畸形[64]。

CTCF是染色质环形成的重要蛋白,敲除CTCF会导致基因组TAD结构的消失,但令人费解的是并没有检测到广泛的基因表达失调,仅有不到1 000个基因表达发生改变,这说明TAD对增强子的限定作用并没有先前预测的那么大,可能仅仅会调控很小一部分基因表达。同样敲除粘连蛋白对受超级增强子调控的基因影响最大,这一结果也从侧面证实了上述推测[64]。敲除CTCF或粘连蛋白后,或许只有当细胞表达的转录因子可以招募转录共激活因子时,新形成的启动子—增强子互作才能够调控基因表达,但是目前尚未有相关研究报道。研究表明compartment A通常富集转录激活基因,而compartment B通常富集转录抑制基因[65-67]。但目前更高级的基因组三维结构(如染色质区室)对基因的表达调控机制尚不清楚,因为在这种结构层次上来编辑基因组构象还很难实现。

4 三维基因组在动物育种中的应用与展望

三维基因组学应用主要包括基因组调控元件三维互作鉴定、基因组单倍型构建。其中基因组调控元件三维互作就是前述的互作环,它主要是由启动子—增强子互作、启动子—启动子互作、增强子—增强子互作等等而使染色质成环,对基因表达起到精准调控的作用,此处不再详述。利用Hi-C特有reads可以在基因组范围内构建单倍型。任兵教授利用Hi-C技术于2013年完成了准确率达98%的人基因组单倍型构建[68]。此外,针对Hi-C数据,研究人员还开发了HapCUT2软件,专门用于单倍型构建[69]。利用Hi-C数据进行辅助基因组组装已成为目前基因组组装的重要手段。

目前二代和三代测序都是借助于全基因组鸟枪法将基因组打断成小片段然后进行测序,然后将这些小片段重新拼接起来还原基因组信息。基因组组装的过程是将reads拼接成contig,再将contig组装成较长的scaffold,最后将scaffold定位到染色体。染色体水平参考基因组是后续功能基因研究的基础,早期的基因组一般都是通过高密度遗传图谱进行染色体挂载,然而构建作图群体耗时较长,再加上有些物种没法构建作图群体,故很多基因组都在scaffold甚至contig水平。目前利用二代测序整合Hi-C技术已经完成了山羊和猪的辅助基因组组装,提高了基因组组装的准确性[70-71]。

目前Functional Annotation of Animal Genomes(FAANG)项目已经完成了荷斯坦奶牛、阿尔卑斯山羊、白来航鸡、大白猪的肝脏和T细胞三维基因组解析工作,但并未鉴定基因组loop结构[72]。此外本课题组也已完成秦川牛肌肉基因组三维结构及其对肌肉发育相关基因的转录调控研究。结果发现胎牛和成年牛肌肉存在大量差异loop结构,包含447个增强子,其中与基因启动子成环的增强子有240个;构建了牛肌肉基因组调控元件互作图谱,在共计4 716对启动子—增强子互作中有142个肌肉发育相关基因(如ACVR1、BMP5、CAPN3、EGR3、FGF及其受体家族、FOX及其受体家族、IGF1、IGFBP5、MEF2C、MEF2D等)受到303个增强子调控,这些结果为肌肉发育的分子调控机制解析提供了数据支撑。

三维基因组学是后基因组学时代和后GWAS时代的研究热点,利用三维基因组学可以更加深入鉴定并解析表型变异的关键突变(如SNP、Indel、CNV)及其分子机制,是基于高通量测序技术的基因组学和GWAS发展的必然结果。因此系统解析畜禽基因组染色质三维结构有望为畜禽精准育种和遗传改良提供理论基础。

猜你喜欢
染色质染色体基因组
“植物界大熊猫”完整基因组图谱首次发布
染色质开放性与动物胚胎发育关系的研究进展
哺乳动物合子基因组激活过程中的染色质重塑
牛参考基因组中发现被忽视基因
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
豚鼠卵母细胞体外成熟过程中生发泡染色质构型的变化
多一条X染色体,寿命会更长
为什么男性要有一条X染色体?
真假三体的遗传题题型探析