三维基因组学概述及其在家畜生物育种方面的研究进展
2022-04-07任妍妍赵杨杨张子敬付长其田全召王二耀雷初朝黄永震
任妍妍,彭 巍,刘 贤,赵杨杨,张子敬,付长其,张 君,田全召,王二耀,雷初朝,黄永震*
(1.西北农林科技大学动物科技学院,陕西 杨凌 712100;2.青海省畜牧兽医科学院,青海大学,西宁 810016;3.河南省畜牧总站,郑州 450008;4.河南省鼎元种牛育种有限公司,郑州 450000;5.河南省农业科学院畜牧兽医研究所,郑州 450002)
在过去20年,人类、小鼠、牛、羊等先后完成了基因组图谱绘制,我们对核苷酸编码的一维DNA分子有了深入了解,但哺乳动物的DNA线性长度可长达2 m,它是如何存在仅有10 nm左右的细胞核内的呢?早期的二维线性基因组不能解释基因的调控元件是如何与距离它们几万甚至十几万个核苷酸的靶基因相互作用。研究发现,染色体的多级高度折叠和缠绕是以核小体为基本单位进行的,形成动态的复杂空间结构,在仅有10 nm左右的细胞核中折叠,其在空间中的有序折叠,在调节基因表达中起着重要作用。许多研究表明,原本线性距离非常远的调控因子可以通过染色质拓扑结构达到空间上的近距离调控。细胞核中染色质的存在位置不是无序的,而是受精密的调控,它们之间有千丝万缕的联系,并且其存在方式和位置都对基因表达调控起着重要的作用。随着染色质捕获技术的发展,染色质三维结构逐渐被揭示,按照结构单元大小和分辨率被分为4个层级:染色质疆域(chromosome territories,CTs)、染色质区室(chromatin compartments)、拓扑关联结构域(topologically associated domains,TADs)、染色质环(chromatin loops,CLs)。对三维基因组的研究能更好地探究基因间的互作机制以及染色质的空间结构对动物生长发育的作用。
1 三维基因组的结构单元
1.1 染色质疆域
细胞核内的每条染色质相对独立,不同染色质仅在边界有重叠,而且能与其他染色质发生相互作用的区域称为染色质疆域(chromosome territories,CTs)。染色质疆域是最早被发现的基因组空间结构,早期细胞学家通过显微镜和荧光原位杂交技术对大量动、植物,微生物细胞进行了研究,发现染色质并非随机分布在细胞核中,而是具有一定的结构和规律,不同染色质占据不同的空间[1]。CT在细胞核内的分布与染色质大小、基因密度、转录活性等有关。基因密度高,转录相对活跃的染色质在细胞核中通常位于更中心的位置;而低基因密度的染色质通常靠近细胞核的边缘[2]。在同一CT中,基因富集和转录活跃区域的DNA片段更频繁地定位于CT的边界处[3]。越来越多的证据表明,不同的染色质疆域只在其边界处发生重叠[4],且重叠的染色体之间存在相互作用,使得与遗传疾病相关的染色体间易位成为可能。
1.2 染色质区室
2009年,Lieberman Aiden等[5]首次利用Hi-C技术揭示了染色体内部基因组区域之间具有明显的相互作用,并将基因组区分为两个相对分隔的A区室和B区室。A/B区室代表开放和关闭两种不同状态的染色体区域(chromatin compartments),A Compartment是转录激活区,与基因富集区域、常染色质和转录活跃区域相关,表观遗传修饰标记更为富集,如DNaseⅠ高敏位点和组蛋白H3K4me3等;B Compartment与基因沙漠、异染色质和转录抑制区域相关,富集更多的抑制性组蛋白标记,如H3K27me3[6]。染色质间的相互作用更多发生在同一个区室内的位点之间。在细胞核中,染色质的空间分布不是随机的,通常与细胞核结构有关,A区室通常位于细胞核内部,B区室主要定位于周围的核纤层和核仁附近。最近有研究提出,通过分子模拟A/B区室的形成是经由染色质片段相分离过程:当一段染色质结合在核纤层或其它核小体上时,与之相同状态的其他染色质也会随之结合进而引发相分离,形成A/B区室[7]。有研究发现[8],在细胞分化成熟的过程中往往伴随部分染色质区段的A/B区室转变。在T细胞分化成熟过程中,其基因组A/B分区持续发生转变,其中57.6%由B区室转变为A区室,37.4%由A区室转变为B区室,仅4.9%的区域在A/B分区上的存在反复。
1.3 拓扑关联结构域
2012年5月,Job Dekker团队[9]在小鼠失活的X染色体中心发现了大小介于200 kb~1 Mb之间的一系列离散的拓扑关联结构域(topologically associated domains,TADs)。当Hi-C互作图谱的染色质分辨率提高到40 kb或更高时,在互作热图上高度自我相关的染色质区域表现为大小不一,具有明显间隔的“三角形”[10],每条染色体均由多个结构单元组成,即拓扑关联结构域(TAD),“三角形”的边界被称为TAD边界。TADs是细胞核内染色质折叠的二级结构单元,在核空间中形成独立的结构模块,是一个高度自关联的不间断区域,其内部染色质相互作用强,相邻区域之间有明显的边界且相互作用弱[10]。同一个TAD内的基因通常处于相似的活性或非活性状态。基因组活性与非活性状态的改变总是发生在TAD边界附近,这说明TAD边界处可能具有隔离功能。Dixon等[11]在人类和小鼠4个细胞系上利用Hi-c技术研究发现TAD位置及其边界在不同细胞类型间及人和小鼠间均高度保守,即使在细胞分化过程中也表现出相对稳定的状态,该研究结果支持了TAD边界及其隔离功能在哺乳动物细胞中具有重要意义。TAD边界处富含CTCF结合位点、看家基因、转录起始位点和一些短散在重复序列。黏连蛋白复合体和阻遏子CTCF是TAD边界处的主要结合蛋白,两者对TADs的定位和结构的稳定性发挥了重要作用[12]。还有研究发现,TAD边界与DNA复制域边界存在大量重叠,暗示TADs可能与DNA复制有关。2014年,Pope等[13]在人类和小鼠细胞系中研究了TADs与DNA复制的关系,得出结论“TADs是DNA复制时序调控基本单元”,DNA复制时序往往与染色质状态密切相关,处于活跃状态的染色质在细胞分裂阶段会更早地被复制,而抑制状态的染色质则会被较晚地复制。总的来说,TAD作为染色质三维结构基本功能单位,占基因组结构的绝大部分,广泛存在于不同的细胞类型和不同的物种中,与细胞分化、基因表达调控、疾病发生和机体免疫等有着密切关系。
1.4 染色质环
在1 kb的分辨率下,Rao等[14]发现了直接调控基因表达最精细的结构和功能单元:染色质环(chromatin loops,CLs),这是一种由简单染色质纤维折叠而形成的环状结构。染色质环是可以实现远距离调控基因转录的结构,它是由TAD内的远端调控元件通过染色质三维立体折叠或碰撞使与其靶基因在空间上可以相互接近从而调控基因。染色质环大小通常在数百kb,远小于TAD,在Hi-C互作图谱上显示为更加细小的互作峰[15]。染色质环的两端通常与启动子、增强子等基因调控元件相连,这些基因调控元件对不同细胞的基因表达量有很大影响,且形成染色质环的基因表达量也高于没有形成染色质环的基因表达量,暗示染色质环与基因激活和基因表达调控有关[16]。染色质环之间没有重叠,大多数的CL中都存在CTCF和黏连蛋白亚基,CTCF和黏连蛋白共同参与了染色质环的形成。早期有研究,将CTCF或cohesin敲除后会抑制染色质环的形成,部分基因的表达量也发生变化,缺少两者中的任意一个都会破坏染色质环的结构,进一步证实了染色质环与基因激活和基因表达调控有关[17]。目前,染色质环形成机制尚不清楚,早期生物学家利用CTCF结合位点信息预测基因组的折叠方式,并提出“环挤压模型”解释染色质折叠成环机制[18]。染色质环在不同物种、不同细胞系间具有相对的特异性和保守性,通过对染色质环的深入研究,可以初步了解染色质更深层次的三维结构及其与基因调控表达的关系。
2 三维基因组分析方法
2.1 荧光原位杂交技术
FISH即染色体荧光原位杂交(flourescence in situ hybridization,FISH)是通过将荧光素标记的DNA探针与样本细胞核内的DNA目标序列杂交,从而获得细胞核内染色体或基因状态的信息[19]。早期生物学家以显微镜和荧光原位杂交技术对染色质三维结构进行研究,可以进行基因定位的单细胞分析。由于技术方法的限制,染色质结构只能在低分辨率下解读,而核组织的一般原则或个别基因的特征无法被高效且清晰地观察到[20]。目前此方法应用较少,随着染色质构象捕获技术的发展,才深入了解了基因组内染色质的三维结构信息。
2.2 染色质构象捕获技术(3C)
2002年Job Dekker等[21]开发了染色质构象捕获(capturing chromosome conformation,3C)新技术并应用于酵母染色质互作观察。3C技术通过生物学分析可以将特定位点之间的三维互作信息反映到二维互作图谱上,从而确定特定DNA位点与相邻位点的互作情况[22]。3C技术的基本操作步骤为:(1)分离细胞,利用甲醛固定样本,使细胞发生原位交联,此步可使空间上相邻的染色质片段发生共价连接;(2)可利用限制性内切酶或超声波将DNA分子切割成特定大小的片段,该步骤可消化DNA—蛋白质复合物;(3)在极低DNA浓度条件下利用DNA连接酶将空间上接近的DNA片段优先发生连接,此步可降低DNA片段之间发生随机连接;(4)提取处理过的DNA,最后设计两个特定基因位点的上下游引物进行PCR扩增,检测新连接片段的相对丰度,则可以判断这两个特定位点是否存在远距互作[23]。
3C技术只能验证一个位点与另一个位点之间的相互作用,而且每验证一对位点的相互作用就需要设计一对特异性引物,操作复杂,在实际应用中存在一定的局限性[24]。为了解决3C技术中存在的不足,科研工作者们先后又发明了基于3C技术的各种衍生技术,例如4C(circularized chromosome conformation capture,4C),5C(carbon-copy chromosome conformation capture,5C),Hi-C(High-throughput chromosome conformation capture,Hi-C),ChIA-PET,ATAC-seq等技术[25]。其中4C技术可以检测一个位点对多个位点的互作;5C技术可同时测定多个位点的相互作用;Hi-C能够检测所有目标基因组位点的所有位点的相互作用;ChIA-PET技术类似于Hi-C技术,改善了测序过程中产生的噪音;ATAC-seq能检测开放区域染色质的DNA序列。3C及其衍生技术的快速发展,极大地促进了其在不同领域的广泛应用。
2.3 Hi-C
在3C衍生技术中,Hi-C技术应用最为广泛,可以一次性检测所有染色质片段互作信息。2009年Job Dekker等[26]发明了Hi-C技术,它结合了染色体构象捕获和高通量测序技术,它是以整个细胞核为研究对象,利用新一代测序技术与分子标记,研究DNA在整个染色质中的空间位置,通过捕获全部DNA在染色质内的互作模式,从而得到高分辨率的染色质三维结构信息。Hi-C操作技术与3C技术有所不同,主要步骤为:(1)加入甲醛以固化基因组中参与染色质互作的蛋白质;(2)用限制性内切酶切割固定后的染色质。限制性内切酶有两种:6 bp和4 bp的限制性内切酶,后者的分辨率更高;(3)得到具有平末端和粘性末端的片段,修复末端并添加生物素标记;(4)使用T4 DNA连接酶连接互作片段,将未互作的DNA片段去生物素,得到交联片段;(5)利用超声波或其他方法再次打断片段;(6)用链霉亲和素磁珠将富集生物素标记的片段进行捕获,制作文库并进行高通量测序,最终获得高通量染色质互作信息[27]。
Hi-C技术被广泛应用于疾病风险预防、辅助动物基因组装、挖掘基因调控组件、识别三位基因组结构变化等研究工作中。虽然Hi-C技术可以提供全基因组所有染色质位点之间的互作信息,但Hi-C技术中也存在很多问题,其中包括:实验成本高、测序量大、测序过程中噪音大、过程繁琐、周期长等缺陷[28]。为了解决这些问题,科研工作者们开发了一系列Hi-C优化技术,如原位Hi-C(in situ Hi-C)和基于酶切酶连的Hi-C(Digestion-Ligation-Only Hi-C,DLO Hi-C)等技术。原位Hi-C技术通过在细胞核原位完成交联、酶切、连接步骤,同时缩短了实验周期,减少了假阳性结果。在DLO Hi-C技术中,生物素标记这一步骤被去除,仅需2轮简单的酶切酶连反应就可以构建高质量的DLO Hi-C测序文库,其主要优点是缩短试验时间、降低了试验成本和测序成本、噪音、数据提取以及后期分析的难度,可以获得更有效的交互数据[28]。
2.4 CRISPR研究三维基因组的技术方法
成簇规律间隔短回文重复序列及其相关蛋白(clustered regularly interspaced short palindromic repeats/CRISPR-associated protein,CRISPR/Cas)是细菌和古菌在面对病毒入侵时出现的原核生物适应性免疫系统[29-30]。当外源DNA入侵时,细菌会启动自身的适应性免疫系统,迅速获取病毒基因的序列,然后整合到自己基因组内的一个特定位点,形成CRISPR重复—间隔基因座,从而获取对病毒的抗性,当外源DNA再次入侵时,CRISPR重复—间隔基因座便会转录并加工为crRNA(CRISPR RNA),并引导DNA核酸内切酶Cas9蛋白到达病毒基因的位置,执行切割功能,从而破坏病毒基因。CRISPR/Cas系统的效应酶不止Cas9蛋白,Cas蛋白家族有很多类型的Cas酶,包括Cas9、Cas13、Cas12等[31]。通过CRISPR系统不仅能够切割病毒的基因,还能够被设计成特异地删除与3D基因组结构相关的基因组片段,进而研究由此引起的基因表达改变,CRISPR-Cas9基因编辑技术可对靶向基因进行特定DNA修饰的技术,该技术可以用于制作细胞或动物模型的基因组调控元件的插入、删除、反转,并且可以用来研究三维基因组调控生命过程的机制,以及肿瘤、神经退行性病变等各种疾病的治疗中[32]。
CRISPR/Cas9系统在三维基因组中的应用主要依赖于能够特异性结合基因的CRISPR/Cas序列,利用这一特性,可将修饰或未修饰的Cas9蛋白招募到特定的基因组位点上,使活细胞的特定染色体片段的时空动态可视化,对基因组进行切割和功能改造[33]。三维基因组中存在大量的染色质重排,可以利用DNA大片段编辑技术进行模拟,包括DNA片段删除、重复、移位、反转等[34]。若将CTCF 区域或者染色质环的边界区域设计为基因组大片段删除的对象,就可以通过删除这些区域破坏3D基因组的结构,进而研究这些区域对于基因表达的影响和功能。染色质架构蛋白CTCF的结合位点被CRISPR/Cas9双切系统进行反转、插入或敲除,其研究结果都表明了CTCF对于维持细胞三维基因组架构和动态调控都具有重要作用[32,35]。有研究[36]利用DNA片段编辑技术将基因组部分进行删除与反转,发现DNA复制时间发生了变化,说明这些片段可能包含一些调控DNA复制时间时空特性的重要元件。单独删除与共同删除这些元件对DNA复制的影响不同,说明这些元件之间在发挥作用时可能存在相互依赖性[31]。Hi-C结果也表明这些元件的删除会影响基因组区室划分以及拓扑结构域的强度。将基因组位点在三维空间直接可视化,能够帮助理解基因组的空间架构以及与基因表达调控等生命活动的关系[31]。该方法是利用CRISPR/Cas系统结合基因组的序列特异性,失活的dCas9(nuclease-deactivated Cas9,D10A和H841A)荧光蛋白嵌合体可以被 sgRNA招募到基因组的特定位点,从而使活细胞的特定染色体片段的时空动态可视化[33]。dCas9/sgRNA复合体的稳定性以及dCas9蛋白结合DNA的高亲和性使得该方法可以被广泛地应用于细胞三维基因组特定位点标记[37]。随着高通量技术的发展,相信基因组3D结构会被揭示得更加清楚,从而实现深入研究染色质空间构象、信号转导通路、转录因子调节机制、基因表达机制等问题。
3 三维基因组学在家畜方面的研究进展
染色质三维结构是重要的表观遗传因素,与基因表达调控、发育及疾病等密切相关[38]。在动物育种中,探索远距离基因互作、非编码DNA调控元件对基因转录调控的影响,构建动物三维转录调控网络,探索研究三维基因组学相关技术在动物科学上的应用,揭示影响国内外畜禽品种生长速度、瘦肉沉积率[39]、产肉能力[40]、繁殖等重要经济性状形成的新机制。
3.1 在畜禽中的研究
在国内,西北农林科技大学动物科技学院已完成秦川牛肌肉基因组三维结构及其对肌肉发育相关基因的转录调控研究[6]。结果发现胎牛和成年牛肌肉的loop结构存在大量差异,包含447个增强子,其中与基因启动子成环的增强子有240个;构建了牛肌肉基因组调控元件互作图谱,在共计4716对启动子—增强子互作中有142个肌肉发育相关基因受到303个增强子调控,这些结果为肌肉发育的分子调控机制分析提供了数据支持。对这些基因的相关研究能够有效避免如世代间隔时间长,改良效率低、优良种质资源浪费等现如今育种工作所面临的问题[41]。
猪是重要的经济家畜,在生物医学领域具有重要的应用价值,染色质三维结构是重要的表观遗传因素,与基因表达调控、发育和疾病等密切相关。然而猪染色质三维结构仍是一个新的探索领域[42]。中国农业科学院王彦芳团队等[43]构建了猪体细胞染色质三维结构图谱,追踪猪在早期胚胎发育过程中染色质空间构象重编程过程。这项研究表明,在胚胎成功发育过程中,染色质结构重编程的速率可能起着关键作用。该研究成果为猪染色质结构的进化研究提供了理论依据,并为提高猪的辅助生殖效率提供了参考价值。西北农林科技大学曾文先教授团队[44]系统研究了猪精原干细胞和分化精原细胞的染色质三维空间结构,进一步阐明了精原干细胞分化过程中的高级染色质动态变化。研究首次明确了精原干细胞分化过程中的三维基因组空间结构变化及其对基因表达的重要调控作用,对揭示精原干细胞分化的分子机制具有重要意义,极大地扩展了人们对猪精原干细胞发育进程的认识。四川农大动科学院猪遗传育种团队[45]通过空间转录组学技术,从单根肌纤维分辨率的水平揭示了3种不同肌纤维亚型的在能量代谢和脂质沉积上的差异。并且在现有猪参考基因组的基础上,补充完善注释了大量调控性转录本;并采用Hi-C技术重构了猪脂肪组织的染色质三维空间结构。该研究对猪肉质性状形成的分子机制进行了深入解析,并为以后开展分子育种提供了重要基础数据和理论支持。
河南农业大学家禽团队刘小军教授[46]通过比较地方品种卢氏鸡和快大型AA肉鸡在三维基因组结构上的差异,首次揭示了染色质拓扑结构域(TAD)变化对鸡肌纤维发育和肌内脂肪(IMF)沉积的影响,该研究加深了我们对肌肉发育和脂质积累过程中染色质动力学的理解,而且还揭示了鸡肌肉发育和IMF沉积的表观遗传调控新机制。四川农业大学李地艳教授团队[47]对鸡不同卵泡发育时间点的颗粒细胞进行了研究,利用多组学联合分折对卵泡发生过程中的关键阶段染色质构象动态变化规律进行深入解析。结果表明,作为染色质高级结构蛋白的CTCF在鸡的三维基因组结构形成中起到了重要作用。这一研究结果为家禽分子育种过程中提高卵母细胞质量、发育能力及其受精后种蛋质量提供了重要的理论依据,为高繁殖性能新鸡种的选育及繁殖性状研究提供了新思路。有研究人员解析北京鸭的三维基因组空间构象[48]通过Hi-C数据发现IGF2BP1基因由于远距离增强子的自然突变,导致在胚胎期起生长促进作用的IGF2BP1基因在北京鸭出壳后仍不断表达,提高了饲料利用率从而体格变大。该研究结果为鸭子的经济性状的遗传改良提供了理论依据。
4 小结和展望
随着分子生物学的快速发展,在现代生物育种中,人类已经积累了大量的数据和信息在生物大分子结构和功能上,例如核酸和蛋白质,现代动物育种技术还结合了遗传学理论、生物技术、计算机、系统工程等育种方法,实现分子育种,从遗传上改良种质并使其达到最大的经济效益,提高选种选配的效果,提高育种的准确性。
三维基因组学被广泛应用于医学、生命科学、农业科学等多个领域。本文主要介绍了其在动物科学方面的研究进展,DNA的三维结构极大地影响了生物复杂性状的形成,例如畜禽上的肉用性状、毛色性状、体型、对饲料的利用率等。
我国目前存在引入大量外来品种,导致本地品种在市场中的占比很小的问题,许多畜禽品种依赖进口,种业内在的核心技术创新不足,国内大量种质资源仅有很少一部分进行研究,真正有用的基因类型还没有被发掘,地方特色种质资源开发不足,种质资源消失的风险加剧,种质资源的发掘保护要和种质资源库建设同时进行,先要有足够的种质资源达到量变,以此为基础,才能引发研发创新的质变。
三维基因组学是基因组学研究的热点前沿领域之一,联合转录组、表观组、代谢组等多组学的分析,揭示染色质构象与具体基因功能的关系。三维基因组学研究基因组各种元件的功能及其调控关系,可以进一步识别和分析关键突变及其机制,是高技术与高维数据分析驱动的新组学研究,其可以将目前已知的二维平面数据立体化起来,使得系统生物学有了更深层次的探究。因此对我国重要家畜的三维基因组结构进行系统分析,不但为精准育种和重要经济性状改良提供理论依据,也为我国农业科技的持续创新提供有力的基础支撑。