R-loop的调控及其生理功能*
2023-05-16张译匀叶素敏金建平
张译匀 叶素敏 金建平
(1)浙江大学生命科学研究院,杭州 310058;2)浙江大学绍兴研究院生命科学分中心,绍兴 321000;3)浙江大学癌症中心,杭州 310058)
1 R-loop的基本功能
R 环(R-loop)是细胞内在DNA∶RNA 杂合链和双链DNA上的被置换的单链DNA之间形成的一种特殊的三链核酸结构(图1)。最初,DNA∶RNA 杂合链多被认为是在冈崎片段合成过程中形成的,以及转录过程中RNA 聚合酶活性中心内形成的杂合链。之后的研究发现,在体内可以以顺反式的方式形成一种更长的DNA∶RNA 杂合链,由此催生出R-loop 的基本概念[1](图1)。当一条新生的RNA与模板DNA结合,暴露出一条游离的单链DNA,从而形成一种非B型的DNA结构,这种长可达1~2 kb的三链核苷酸结构被称为R-loop[2-3]。R-loop 是A 型RNA 和B 型DNA 之间形成的杂合体,其稳定性比双链DNA 更高[4]。R-loop 曾被认为是一种罕见的转录副产物,但是,越来越多的证据表明,R-loop可以在细菌到人类等生物体细胞内频繁地形成,进而影响转录并导致基因组的不稳定性[4],哺乳动物基因组上约有5%的区域会形成R-loop,多数集中在转录起始区域和转录终止区域[5]。另一方面,R-loop 对转录终止[6]、基因调控[7]、线粒体稳定性[8]等生物学过程也有着积极的作用。然而,细胞是怎样抑制R-loop 的负面作用、同时又保证其积极作用,从而维持细胞内稳态的机制仍有很多亟待解决的疑问。本文将对R-loop的调控机制及其生理功能的研究进展、R-loop的检测方法进行综述及讨论。
2 R-loop的调控
R-loop的调控网络错综复杂。越来越多不同生理过程中的蛋白质被发现参与R-loop 的调控(图2)。目前有研究针对已发表的R-loop数据集进行整合,构建了系统化的R-loop 调控网络数据集[8]。本文也对已发表的R-loop 调控因子进行分类归纳(表1),并进行讨论。
Fig. 2 Regulators of R-loop图2 R-loop的调控因子
Table 1 Regulators of R-loop in mammalian cells表1 哺乳动物细胞中的R-loop的调控因子
2.1 转录和RNA加工对R-loop的调控
正常生理情况下,转录过程中信使核糖核蛋白体通过对新生RNA 进行加工以帮助其出核。而当RNA 聚合酶转录一些特殊的序列时,负超螺旋双链DNA 展开,这可能使模板DNA 与新生RNA 退火,暴露出一条游离的DNA 单链,从而导致R-loop的产生。这也是著名的Thread back模型[9]。R-loop 多在富含鸟嘌呤(G-rich)的区域形成,该区域可被称为G簇。通常在5'端附近包含4个及以上连续鸟嘌呤残基的RNA 更易于形成R-loop[10],比如嘌呤含量很高的抗体基因的转换区(switch region)[11]。R-loop 的形成起始后,DNA∶RNA 杂交链被延长,并通过随后的G-rich 序列稳定下来。当鸟嘌呤的含量降低,延长减少,R-loop的形成停止[7]。在G 簇附近形成的R-loop 可以保护该区域不被甲基化,从而保证基因转录终止过程的正常进行[12]。除了G-rich 序列之外,其他因素也可以促进R-loop 的形成。例如,转录泡后面分叉上的负超螺旋增加可以提高新生RNA和模板链DNA之间相互作用的可能性[13]。此外,即使G-rich 序列位于起始G簇的远端,非模板链上的缺口也可以促进新生RNA 与模板链的DNA 结合[14]。除了顺式的R-loop形成方式之外,近年来,有研究表明R-loop也可以反式形成,即在一个位点转录的RNA 可以和另一个位点的同源 DNA 结合形成R-loop[15](图1)。
因为R-loop 的形成机制和转录密不可分,所以其水平也受转录的调控。在基因富集区的高转录基因上可以检测到更多的R-loop,包括rRNA 和tRNA 位点;反之,基因密度较低的区域上R-loop则较少,并且其位置也是动态变化的[16]。单链DNA(single strand DNA,ssDNA)结合蛋白隔离非模板ssDNA 也可以促进R-loop 的形成,如线粒体ssDNA 结合蛋白稳定了R-loop 的形成[17]。无论是单链还是双链DNA 的断裂,都可以提供一个自由的3' DNA 末端,这有利于新生RNA 和DNA 杂交形成R-loop[18]。除了DNA 之外,长链非编码RNA ,如Lnc530 也会与R-loop 结合,并与DDX5和TDP-43形成复合体来抑制R-loop[19]。
R-loop 的水平与正常细胞的高转录水平相关,但其水平的增加不仅仅是高转录的结果,RNA 加工、输出和剪切等功能的异常,同样会导致R-loop的积累[20]。早期的研究发现,与转录延长和RNA输出有关的THO/TREX 复合体中导致转录缺陷的hpr1突变体会引起R-loop 的异常积累[21],并 且THO与Sin3A组蛋白去乙酰化酶复合物相互作用可以抑制R-loop 的形成[22]。这些现象都暗示了转录和RNA加工、RNA输出过程可以参与对R-loop的调控。研究者发现,用RNA 剪接抑制剂异银杏素(isoginkgetin,ISO)处理细胞后,会导致R-loop的积累以及DNA损伤,暗示了RNA的剪接可以参与R-loop的调控[23]。该研究发现了一系列RNA剪接 因 子, 包 括 SF3A3、 SF3B3、 SNRPA1、SUPT6H、PHF5 等与U2 小核核糖核蛋白复合体有关的剪接因子被抑制后会导致R-loop 的积累[23]。在骨髓增生异常综合征、白血病等疾病中,一些RNA剪接因子的失调或突变会导致R-loop的异常,例如SF3B1、U2AF1、SRSF2 等,并引起DNA 损伤、细胞凋亡、基因组稳定性等生理过程的改变[24-26]。这些都证明了RNA 的加工与出核可以参与R-loop 的调控,并且大多数是抑制R-loop 的形成。
2.2 RNA修饰和染色质修饰对R-loop的调控
真核生物中,甲基化和去甲基化是调控DNA和RNA代谢的重要修饰途径。其中,N6-甲基腺苷(m6A)是最为普遍的调控RNA 代谢的修饰[27]。和甲基化及去甲基化相关的甲基转移酶、去甲基化酶和甲基化结合蛋白都会参与R-loop 的调控。甲基转移酶可以在RNA上加上甲基,介导RNA的甲基化修饰。如METTL3甲基转移酶可以介导R-loop在DNA双链断裂处积累,防止被m6A修饰的RNA被 降 解,以 促 进RNA 与DNA 的 杂 合[28];被SUMO 化修饰后的METTL8 可以进入细胞核,修饰RNA上的m3C以增强RNA的稳定性,从而促进R-loop 形成[29]。甲基化结合蛋白可以识别甲基化修饰的信息,并参与下游RNA 的翻译、降解等过程,例如YTHDF2 可以与R-loop 结合,阻止有m6A 修饰的R-loop 积累[30]。去甲基化酶可以去除RNA 上的甲基,例如去甲基化酶ALKBH2 和ALKBH3可以移除R-loop上的1-meA和3-meC[31],这可能会导致RNA的不稳定,从而抑制R-loop。
除了RNA 的修饰之外,染色质的修饰也可以调控R-loop。DNMT3B和CDCA7通过甲基化DNA来抑制R-loop 的形成[32]。甲基化CpG 的结合蛋白MeCP2 同样可以抑制R-loop 的积累,但其机制仍不清楚[33]。蛋白质的翻译后修饰可以参与R-loop的调控,例如,PRMT5 可以通过甲基化DDX5 从而介导R-loop的降解[34]。去甲基化酶PHF2通过使H3K9me2 在启动子处保持低水平来抑制R-loop 的形成[35]。组蛋白乙酰转移酶KAT8可以抑制R-loop的形成,从而抑制其介导的DNA复制压力[36]。
2.3 DNA损伤应答对R-loop的调控
为了应对在生长发育时遇到的DNA 损伤和基因组不稳定性带来的危害,细胞进化出了一系列应对DNA损伤的机制,包括对DNA损伤的检测和修复。这些机制与R-loop 的调控存在密不可分的关系。DNA损伤检查点是检测DNA损伤的重要环节之一,例如丝氨酸蛋白激酶ATM、ATR、CHK1和CHK2都可以通过抑制R-loop的积累以保障基因组的稳定性[37]。ATM-CHK2 信号通路通常是检测到DNA 双链断裂(double strand break,DSB)后激活的,而ATR-CHK1 信号通路主要感应会诱导单链DNA 断裂产生的一系列压力而激活的,包括复制压力等。有研究结果表明,ATM-CHK2 的缺陷会引发R-loop 的积累,但其导致的DNA 断裂并不依赖于R-loop,研究者因此推测这种积累是由于未修复的DNA 双链断裂形成的。ATR-CHK1 的缺陷也会导致R-loop 的积累,但其引起的部分DNA 断裂是依赖于R-loop的[37]。
细胞还可以通过DNA 修复的机制来抑制R-loop 的积累。同源重组相关蛋白BRCA1 和BRCA2的缺陷会导致R-loop的增加。BRCA1可以直接识别R-loop[38],并与SETX 互作一起防止R-loop 导致的DNA 损伤、复制压力和基因组不稳定性[39];BRCA2也可以通过促进RNA聚合酶II的释放、招募RNase H2到DNA双链断裂处的R-loop上[38]、刺激DDX5 的解旋酶活性等方式来抑制Rloop 的积累。范可尼贫血(Fanconi anemia,FA)通路中的许多因子都参与R-loop 的调控,缺乏FANCA、FANCD2、FANCG、FANCL、FANCM等FA因子会造成R-loop的积累,从而影响DNA复制和转录,产生DNA 损伤[38,40-42]。核苷酸切除修复通路中两个内切酶——XPF 和XPG 可以修复基因组上不同类型的DNA损伤。XPF和XPG 先前被证明可以在体外切割免疫球蛋白位点S 区形成的R-loop[11]。它们也可以在体内抑制因NF-κB激活、AQR 缺失、TOP1cc 停滞等原因引起的R-loop 积累,并阻止因R-loop 积累而造成的DNA 双链断裂[43-45]。
2.4 拓扑异构酶对R-loop的调控
转录和复制都会积累DNA正超螺旋,而DNA正超螺旋的形成会在相反的方向上产生等量的负超螺旋,这会促进R-loop的形成。拓扑异构酶可以通过减少负超螺旋,减少新生mRNA 与模板DNA 上G簇结合的可能性,从而抑制R-loop的积累。拓扑异构酶1(topoisomerase,TOP1)的抑制剂喜树碱(camptothecin,CPT)可以刺激R-loop 的形成[46]。TOP1 和TOP2 都被证明可以缓解扭转应力,并防止rDNA 位点的R-loop 的聚集[47],TOP1 缺失的细胞会在高表达基因的转录终止区域形成依赖于R-loop 的DNA 双链断裂,并降低复制叉的速度[48]。TOP3B 也可以通过减少负超螺旋来抑制R-loop,并保障转录正常进行,从而保护细胞免于DNA损伤,减少染色体易位的频率[49]。
2.5 核糖核酸酶和解旋酶对R-loop的调控
及时清除过多的R-loop是维持细胞内稳态的必要措施。不同的酶可以进行互补作用,以防止R-loop的过度积累。虽然R-loop可以拮抗RNase A,但是RNase H1 和RNase H2 可以利用5'→3'外切酶活性去除R-loop中的RNA单链[50]。这些酶在原核生物和真核生物中是高度保守的,并且是已知的唯一能特异地分解杂合RNA 的核糖核酸酶。邹力实验室[51]发现,复制蛋白A(replication protein A,RPA) 可以结合单链DNA,促进RNase H1 与R-loop的结合,从而抑制R-loop的积累。在RNase H2 上游,双链RNA 特异性腺苷脱氨酶ADAR1p11 0则可以识别DNA∶RNA杂合链内的错配碱基对,从而促进RNase H2 对RNA 链的消化,导致端粒R-loop的降解[52-53]。
细胞中还具有去除R-loop的解旋酶,可以解开R-loop 或者抑制它的产生。酵母中的SEN1 及其在人类中的同源基因SETX被发现与R-loop的调控有关。SEN1最初被鉴定为一种DNA和RNA解旋酶,在体外具有5'→3' RNA-DNA 解旋活性[54]。SETX的失活会导致转录终止位点上R-loop的增加,并且依赖于其解旋酶活性[55]。Hasanova等[56]的研究表明,SEN1/SETX在解开R-loop中,特别是在转录终止过程中起作用。在人和酵母细胞中,解旋酶AQR通过对RNA的加工过程降解R-loop,并介导同源重组修复。敲低AQR 会引发细胞在S 期的DNA 损伤[43,57]。很多DEAD-box和DEAH-box家族的解旋酶可以抑制R-loop的形成,例 如DDX1[58]、DDX5[49]、DDX11[59]、DDX19B[60]、DDX21[61]、DDX23[62]、 DDX39B[63]、 DDX43[64]、DDX47[40]、DHX9[65]都被证明可以参与R-loop的降解。除此之外,BLM的解旋酶活性受TOP1刺激而被激活后抑制R-loop的形成[66],线粒体RNA解旋酶SUPV3L1 可以抑制有害线粒体R-loop 的积累[67]。但是,解旋酶并不全都参与解开R-loop。在剪接体缺陷的情况下,DEAH-box蛋白DHX9可以促进R-loop 的积累[68],DDX1 可以将RNA G 四链体转换为R-loop以促进IgH的类别转换重组[69]。
3 R-loop的生理功能
虽然对于R-loop 导致基因组不稳定性的研究更为广泛,但是R-loop 的作用是一把双刃剑,对多种生理过程不仅有着负面的作用,更有着无法替代的积极作用(图3)。细胞通过不同的调控机制维持R-loop 的稳态,在保证其积极作用的情况下消除其不利影响。R-loop 的调控与其功能密不可分,相辅相成。很多生理过程既可以是R-loop 的调控机制,也可以是R-loop 导致的结果,如DNA损伤应答、转录和复制等。因此,如此复杂的调控网络给R-loop的研究带来了巨大的挑战。
R-loop 对生命活动发挥的积极作用常常被忽视。R-loop 是很多重要生物学过程必需的中间产物,例如S 区的R-loop 是免疫球蛋白类开关重组(immunoglobulin class switch recombination,ICSR)过程的天然来源[2];CRISPR-Cas9 系统中,由gRNA 和双链DNA 形成的R-loop 直接引导Cas9 核酸酶活性,产生DNA双链断裂[70]。R-loop对基因的表达也起着重要的调控作用,例如在拟南芥中,启动子区域的R-loop 能够沉默长链非编码RNA COOLAIR 的表达,进而调节开花位点对低温的响应[71]。R-loop 不仅可以调控单个基因的表达,也可以调控整体的基因表达水平。R-loop 可以保护CpG 岛的启动子免于甲基化修饰,保障基因转录的通畅[5]。由于R-loop 多在基因的转录起始和终止区域形成,暗示其可以调控基因的转录。R-loop的位置会影响RNA聚合酶从染色体上释放的区域,从而调控基因的转录终止过程[6]。R-loop也可以在RNA聚合酶II后的G-rich区域形成,招募SETX降解新生RNA 链,终止转录过程[72]。当DNA 双链断裂时,细胞可利用R-loop的新生RNA作为桥梁,以其为模板介导双链DNA断裂的修复过程[73]。
R-loop 对生命活动的不利影响同样不容忽视,严重时会导致细胞的死亡。R-loop可以诱导哺乳动物细胞中的细胞周期检查点激活、DNA 损伤和染色体重排[74]。R-loop 可以暴露化学性质更不稳定的单链DNA,容易引发与转录相关的突变和重组[75]。R-loop也可能直接阻断DNA的复制,导致分叉塌陷与DNA双链断裂[76]。R-loop导致的基因组不稳定性与癌症的发生发展有关。异常R-loop引发先天免疫的激活可能导致许多疾病,如神经退行性变和癌症[77]。在一些综合征、人类神经紊乱和癌症中都发现了大量的R-loop 积累[78-79]。乳腺癌中BRCA2的减少导致了R-loop的积累[80],在白血病、淋巴瘤、宫颈癌、卵巢癌、乳腺癌、睾丸癌、结肠腺癌、直肠腺癌、黑色素瘤和胶质母细胞瘤的细胞系中RAD51 水平增加促进了R-loop 的形成[81]。自身免疫性疾病Wiskott-Aldrich 综合征也与R-loop 有关,在辅助性T 淋巴细胞中,WAS 蛋白的缺失会导致R-loop 积累[82]。总之,R-loop 和许多人类疾病病因之间的因果关系十分重要,但仍有许多疑点值得进一步探究。
Fig. 3 Functions of R-loops图3 R-loop的功能
4 研究R-loop的常用手段
由于R-loop被如此精细地调控,并能具有重要的生理功能,研究者们开发了多种多样研究R-loop的方法(表2)。最初人们在体外通过X 射线[83]、电子显微镜[84]观察到了R-loop 的结构。R-loop 结构中的单链DNA 的胞嘧啶残基可以在非变性条件下被亚硫酸氢盐修饰,因此一些早期的研究利用该原理和Sanger 测序,在特定的基因组位点上探测R-loop[2]。迁移位移分析、原位杂交也常被用于研究R-loop。
随着能特异性识别R-loop 的S9.6 抗体出现,R-loop的研究方法也得到了更好的改进。S9.6抗体不依赖于序列而能和R-loop结合,因此利用该抗体可以对R-loop进行免疫荧光检测、提取基因组后进行dot blot 检测,还可以用S9.6 做免疫沉淀,再进行qPCR 分析和全基因组测序,此方法也叫做DNA∶RNA 免疫沉淀测序技术(DNA∶RNA hybrid immunoprecipitation and sequencing,DRIPseq)[85]。为了提高DRIP-seq 的分辨率、特异性或敏感性,研究者基于DRIP 进行了改进,例如,将DRIP 与亚硫酸氢盐印迹技术相结合,可以识别R-loop 的ssDNA,如bisDRIPseq (bisulfite DNA∶RNA hybrid immunoprecipitation and sequencing)技术[86]。S1-DRIP-seq 通过S1 核酸酶切,在超声前去除R-loop 的非模板ssDNA,以防止其在免疫沉淀过程中重新和模板DNA退火,但是其对AT富集的区域的检测有偏好性[20]。DRIPc-seq 是用DNase I处理后,将R-loop中的RNA逆转录成cDNA之后再进行测序[5]。除此之外,近年来也发明了基于S9.6抗体开发的CUT&TAG和CUT&RUN技术[87]。
DRIP-seq技术也有局限性。S9.6抗体对R-loop的亲和力仅为对双链RNA 亲和力的5 倍,因此可能与双链RNA结合造成大量的假阳性结果[88],尤其是细胞质内AU 富集的双链RNA 会影响检测结果[62]。而DRIP 技术检测到的R-loop 所在DNA 区域的长度也依赖于其打断基因组的手段,如超声或酶切,这对实验结果会带来一定的影响。此外,DRIP-seq 流程中的甲醛交联会增加假阳性检测的数量。DRIP-seq不仅可以检测到R-loop,还可以检测到它们相关的DNA 和RNA 片段[89]。RNA 的一部分可能参与R-loop的形成,而其他部分并没有参与,既包含单链区域,也包含双链区域,这种情况无法被DRIP-seq 鉴别区分。因此,在利用S9.6 检测R-loop时,用RNase H1做阴性对照是必要的。
针对这些问题,付向东实验室利用失去催化活性的RNase H1 开发了一种更精确地检测R-loop 的手段,称为R-ChIP[90]。R-ChIP是在细胞中表达外源催化失活的RNase H1。这种失活的RNase H1 在不清除R-loop 的前提下结合RNA∶DNA 杂合链。随后, 进行RNase H1 的染色质免疫沉淀(chromatin Immunoprecipitation,ChIP),并构建文库进行测序。RNase H1对RNA∶DNA杂合链的亲和力是双链RNA的25倍,双链DNA的100倍,相较于DRIP-seq 准确性更高[91]。同时,R-ChIP具有可在体内检测、分辨率更高等优点。但R-ChIP 也存在一些缺点,如RNaseH1 有可能只结合基因组中一部分R-loop而非全部。此外,由于与其他因子的结合竞争或某些特殊的DNA/染色质结构的形成,外源RNase H1可能无法完全结合部分R-loop。由于RNase H1和S9.6抗体识别的是RNA∶DNA杂交链而非整个R-loop结构,所以迄今为止的R-loop检测方法都不能将R-loop 与其他类型的RNA∶DNA杂合链区分开来。基于RNase H1的HBD结构域可以识别并结合R-loop的机制,研究者进一步开发 了 基 于RNase H1 的MapR、 BisMapR[92]、CUT&RUN、CUT&TAG[87]等一系列技术。
Table 2 Technologies for detecting R-loop表2 检测R-loop的技术
5 总结与展望
过去几十年对R-loop 的研究加深了对基因组稳定性和基因表达调控的理解,并为一些疾病的发生发展和治疗提供了新的思路,但仍有一些科学问题亟待解决。在正常的生理状况下,基因组上的R-loop 保障了表观遗传修饰、转录调控、DNA 修复等生理过程的正常进行。但是,一些病理性的R-loop 又会导致DNA 双链断裂,引发基因组的不稳定性。那么,什么类型的R-loop 是对生物体有益的? 什么类型的R-loop 会导致基因组的不稳定性以至于引起细胞死亡或疾病的发生呢?基因组上不同区域的R-loop 是否具有特定的功能?不同调控因子是否调控基因组上所有的R-loop,还是只调控特定区域的R-loop?针对这些问题,将R-loop进行归类分析,并将其特征与不同的功能对应联系起来,可以更好地理解R-loop 的调控机制与功能。除此之外,目前的研究中对R-loop 的调控机制与功能的区分并不严谨。例如,DNA 损伤会导致R-loop 的积累,但过多的R-loop 也会导致DNA 损伤。那么在实验中观察到的DNA 损伤现象,究竟是R-loop 的成因,还是R-loop 积累的结果?除了DNA损伤之外,转录调控、DNA修复等生理过程与R-loop 的上下游关系也需要谨慎对待。总而言之,R-loop作为一个高度动态、调控精细、功能强大且普遍存在的结构,探索其调控机制和功能可以帮助我们更深入了解基因组上多种多样的生理过程,为治疗与R-loop相关的疾病提供新的思路。