新RNA编辑技术CRISPR-Cas13
2019-12-11刘彦均陈志胜
刘彦均,陈志胜
佛山科学技术学院生命科学与工程学院,广东 佛山 528231
CRISPR-Cas系统(clustered regularly interspaced short palindromic repeats associated Cas system,CRISPR-Cas)是微生物体内的一种适应性免疫系统。它能在crRNA指引下将Cas核酸酶与靶序列相结合并将其进行剪切。当病毒入侵时,细菌细胞能够将外来遗传物质的片段捕捉并整合到细胞自身基因组中的CRISPR序列中。当病毒再次入侵时,CRISPR序列转录生成的CRISPR RNA(crRNA)能够与Cas核酸酶相结合并将其引导到靶序列上发挥酶切活性,从而起到监控病毒入侵的作用。当这种外源核酸片段再度出现时,Cas核酸酶能够切断这些遗传片段,从而为细菌细胞提供免疫保护作用。
CRISPR-Cas13系统是以Cas13酶作为Cas核酸酶的CRISPR子系统,仅靶向RNA而不靶向DNA。自2016年6月报道发现一种特殊的RNA切割蛋白[1]以来,CRISPR-Cas13系统就备受全球研究人员的关注和重视,这不仅是因为它是一种只靶向RNA的新型CRISPR系统,更重要的是它的靶向效率较高以及酶切能力优异。传统的CRISPR基因编辑方法,如Cas9等,虽然对DNA有着很强的特异性,对靶位点有着很高的靶向精准度,但对RNA的特异性却比较低,而且会出现一定的脱靶效应,甚至会对细胞基因组造成一定的损伤,还会开启真核细胞的p53途径从而引发细胞凋亡,因此在应用方面具有一定的安全隐患。CRISPR-Cas13系统通过调节RNA从而改变目的基因的表达效果,避免了直接操作基因组而产生的损伤。因此它既具有传统CRISPR基因编辑方法的大多数优点,而且在时间上、空间上和效率上比其他传统的RNA编辑方法(如:RNAi等)更加安全可控。
1 CRISPR-Cas13系统概况
1.1 CRISPR-Cas13系统在CRISPR分类系统中的地位
目前已知的5种CRISPR/Cas系统可以根据发挥作用的构成核酸蛋白酶的亚基的特点分为两大类:一类系统(Class 1)和二类系统(Class 2)。
一类系统的核酸蛋白酶是一种多酶复合物,又称多酶体系,它又可以按照CRISPR核酸酶的种类分为一类I型系统(Class 1 type I system)和一类III型系统(Class 1 type III system)。I型系统依赖多种Cas蛋白集合形成的级联复合物作为核酸酶发挥作用,作用于DNA。III型系统依赖Csm因子(Type III-A/D)或者Cmr因子(Type III-B/C)的非级联复合物作为核酸酶发挥作用,其中Type III-A/B作用于RNA,Type III-C/D作用于DNA。
二类系统的核酸蛋白酶是一种依赖单一效应因子发挥作用的核酸酶,它又可以按照CRISPR核酸酶的种类分为二类II型系统(Class 2 type II system)和二类V型系统(Class 2 type V system)以及二类VI型系统(Class 2 type VI system)。II型系统又称为CRISPR/Cas9系统,依赖于单一效应蛋白质Cas9,含有RuvC和HNH两个核酸酶结构域,主要作用于DNA。V型系统利用含有单个RuvC结构域的效应子作为核酸蛋白酶,如Cpf1、C2c1和C2c3,主要作用于DNA。VI系统依赖于含有两个HEPN(higher eukaryotes and prokaryites nucleotide-binding domains,HEPN)结构域的单效应子作为核酸蛋白酶,如Cas13a,又称作C2c2(Type VI-A)以及Cas13b(Type VI-B)、Cas13d(Type VI-D),其核酸酶由单一的肽链折叠而成,对RNA很敏感而对DNA不敏感[1]。
1.2 CRISPR-Cas13系统的组成元件
CRISPR-Cas系统主要由两个元件组成:CRISPR RNA(crRNA)和CRISPR相关核酸酶(Cas1、Cas2和Cas13)。
1.2.1CRISPR RNA(crRNA)crRNA上存在着2个区域:一个是位于5′端的31个碱基对组成的重复区域(repeat region),另一个是位于3′端的28个碱基对组成的引导区域(guide region)。重复区域的二级结构(图1)是1个柄环结构,主要包含1个由5个碱基配对而成的茎、1个8~9个碱基的环和1个在茎内第14个碱基起的2 nt凸起以及柄环结构两边5′端和3′端的邻近基序[2]。
图1 Cas13a的crRNA平面结构示意图[2]Fig.1 Schematic diagram of crRNA plane structure of Cas13a[2]
重复区域具有两个重要的作用,一是由于在其5′端存在一个直接重复序列(direct repeat,DR)使其能在促进Cas13介导的靶RNA的剪切作用下保护自身不被核酸酶剪切降解;二是在其5′端和3′端分别有一段4 nt和5 nt的序列,它们可以使crRNA锚定在Cas13的NTD和Helical-1结构域上,在crRNA和Cas13紧密结合方面起到关键作用。引导区域的序列与靶RNA序列互补后可以形成1个28 bp的引导-靶RNA二聚体(guide-target RNA duplex),形似A-DNA螺旋。在这个二聚体中,还存在着一个对错配十分敏感的种子区(seed region),位于crRNA的中央,大约在第9~15位核苷酸之间,当此处发生错配时,Cas13不能剪切靶RNA,进而直接影响到Cas13的打靶效率[1,3-5]。
1.2.2CRISPR相关核酸酶(Cas13)与其他CRISPR II类系统的相关核酸酶的结构相一致,Cas13的整体结构是双叶的,N-末端结构域(N-terminal domain,NTD)和Helical-1结构域构成crRNA识别叶(REC lobe),HEPN1、Helical-2、Helical-3和HEPN2结构域形成核酸酶叶(NUC lobe)。
在NTD和Helical-1结构域之间形成的带正电荷的通道内(图2),crRNA的5′端重复区域与REC叶结合,使得crRNA的引导区域序列被引导到NUC区内形成的空腔中。NUC叶包括两个不同的结构域NUC1和NUC2,这两个结构域的作用是将crRNA的引导区域“夹心”从而形成一个平面,以便于对与之相结合的ssRNA的靶序列进行酶切。NUC1叶包含HEPN1的N端部分(HEPN1-I)和大的α螺旋结构域Helical-2。NUC2叶包括HEPN1的C末端部分(HEPN1-II)、Helical-3和HEPN2结构域。其中,Cas13各亚型的酶切位点与NTD和Helical-3结构域的位置差异有关[2]。
图2 crRNA的5′端柄环结合在NTD和Helical-1结构域形成的通道[3]Fig.2 The 5′ end handle ring of crRNA binds between the channels formed by the NTD and Helical-1 domains[3]
虽然Cas13缺乏与任何已知的DNA核酸酶同源的结构域(如:RuvC结构域等),但是其所含有的两个特殊的HEPN1和HEPN2结构域,是其具有RNA酶切能力的重要原因。其中对靶RNA的剪切起主要作用的是一些高度保守的氨基酸残基,分别为HEPN1结构域中的第597位精氨酸(Arg597)、第602位组氨酸(His602)、HEPN2结构域中的第1 278位精氨酸(Arg1278)和第1 283位的组氨酸(His1283)。酶切过程中,HEPN1和HEPN2结构域的保守部分会在相邻的位置形成一个“X”形的三维空间形状,这种R-X4-6-H基序将上述4个关键氨基酸残基被定位到口袋表面,构成复合的对称的活性口袋,对RNA酶切发挥关键作用[6](图3)。
另外,保守性相对较弱的天冬酰胺残基,也起着十分必要的作用,它们分别是HEPN1结构域中第598位的天冬酰胺(Asn598)以及HEPN2结构域中第1 279位的天冬酰胺(Asn1279)。如果缺乏其中任何一个,都会导致Cas13的酶切活性丧失[6]。
1.3 CRISPR/Cas13系统的识别位点与识别机制
CRISPR/Cas13系统的靶向特异性除了由crRNA和靶RNA之间的碱基配对决定以外,还与一个位于ssRNA与crRNA相结合的部分邻近位点以及Cas13-crRNA复合物酶切活性的激活反应相关。这个位点通常在靶ssRNA的3′末端,称为前导区序列侧翼位点[1](protospacer flanking site,PFS),其作用与Cas9系统中的PAM相类似。ssRNA在Cas13-crRNA复合物的活化反应中起到重要作用,因为Cas13a-crRNA复合物的活化需要通过与糖-磷酸盐骨架的相互作用,使crRNA上引导部分的间隔区序列进入一个扭曲的U型弯,从而形成HEPN核酸酶激活构象。
图3 Cas13的酶切位点结构——R-X4-6-H基序[3]Fig.3 The structure of enzymatic site of Cas13-R-X4-6-H motif[3]
以LbaCas13a为例,由于在与crRNA结合的过程中它的HEPN1-I的α2被扭曲,使R-X4-6-H基序的其中一个活性位点(H605)被掩埋在HEPN2环下,偏离了假定的活性位点,使其无法形成一个“X”形的三维空间结构,从而不具有催化活性。因此Cas13-crRNA复合物在与ssRNA结合之前保持无活性状态。只有充当激活剂的ssRNA与Cas13-crRNA结合后诱发协同构象变化,才能激活Cas13-crRNA的酶切活性。而非配对ssRNA无法稳定地与Cas13-crRNA复合物相结合,从而导致Cas13对靶RNA的高度靶向特异性[2,6]。
2 CRISPR-Cas13系统的分子作用机制
CRISPR-Cas13系统的分子作用主要分为四个阶段(以C2c2为例,以下统一将C2c2称为Cas13a)(图4)。第一阶段,pre-crRNA的识别与结合阶段。新转录的pre-crRNA通过crRNA的5′端柄环结构与Cas13a的REC叶识别并结合,形成pre-crRNA与Cas13a复合物的中间过渡态,并进入第二阶段,诱发NUC区的Helical-1和HEPN2结构域之间保守残基的构象发生变化,从而形成一个酸碱催化中心,催化酶切pre-crRNA形成成熟的crRNA。此时形成稳定态的crRNA-Cas13a复合物,处于无酶切活性的状态。第三阶段,酶切活性激活阶段。靶ssRNA进入crRNA-Cas13a复合物内与crRNA发生碱基互补配对,诱发Cas13a发生协同构象变化,从而激活crRNA-Cas13a复合物的酶切活性。第四阶段为酶切反应。在crRNA的引导下,Cas13a的HEPN结构域形成R-X4-6-H催化反应中心,催化靶ssRNA的酶切。有时细菌细胞中会出现非特异性酶切的情况,导致细胞中其他附属单链RNA(ssRNA)的降解[1,4],引起一定的细胞毒性,但这种现象在哺乳动物细胞中并未出现,其原因目前尚未可知。例如:在人细胞系中,仅仅靶向crRNA指定的RNA,细胞中所有其他的RNA保持完整。
图4 CRISPR-Cas13a系统的分子作用机制[4]Fig.4 Molecular interaction mechanism of CRISPR-Cas13a system[4]
3 其他种类的CRISPR-Cas13系统
CRISPR-Cas13系统除了VI-A亚型以外,目前研究得比较深入的还有VI-B和VI-D两个亚型。它们虽然同属于VI型系统,有着相似的结构和特点,但是又各有差异,以下将其分别与VI-A进行对比以便更清楚的阐述。
3.1 CRISPR-Cas13b系统(VI-B亚型)
CRISPR-Cas13b系统有两种酶,分别是VI-B1和VI-B2,它们之间的区别在于Cas13b转座子上携带的附属蛋白的基因型不同,VI-B1的附属蛋白是Csx27而VI-B2的附属蛋白是Csx28。VI-B型系统由3个元件组成(图5):crRNA、CRISPR相关核酸酶Cas13b、附属蛋白Csx27/Csx28[7]。与VI-A亚型系统相比,VI-B亚型系统主要有四点比较明显的差异:①VI-B亚型系统属于CRISPR II类系统中唯一缺乏Cas1和Cas2的VI型系统;②Cas13b的酶活性受到其转座子上所携带的附属蛋白Csx27/Csx28的影响。Csx27的表达会抑制Cas13b上HEPN结构域活跃的催化活力,而Csx28的表达则会增强Cas13b上HEPN结构域活跃的催化活力;③Cas13b的crRNA根据直接重复序列的长度存在长短两种不同的变体。Cas13b的成熟crRNA由30 nt的引导区域和36 nt的重复区域组成,一共66 nt。其中66 nt的为短直接重复序列crRNA,118 nt的为长直接重复序列crRNA,形成的原因在于其36 nt的重复序列中有30~50个片段被中间重复序列打断;④Cas13b靶向依赖分别在ssRNA与crRNA碱基互补配对结合部分的5′和3′端的双向PFS(double-side PFS)。其中5′端的PFS一般为D(A/U/G),3′端的PFS一般为NAN或NNA。此外,Cas13b的酶活性要比Cas13a强,尤其是PspCas13b[8]。
图5 VI-B系统示意图[7]Fig.5 Schematic diagram of VI-B system[7]
3.2 CRISPR-Cas13d系统(VI-D亚型)
CRISPR-Cas13d系统又称CasRX,由三部分组成:crRNA、CRISPR相关核酸酶(Cas1、Cas2和Cas13d)、附属蛋白WYL1。与VI-A亚型系统相比,VI-D亚型系统主要有四点比较明显的差异(图6):①CRISPR相关核酸酶Cas13d的分子量比Cas13a-c要小得多,一般在190~300个氨基酸左右。②Cas13d的附属蛋白WYL1能正向诱导Cas13d的靶向和酶切活性。③Cas13d上有靶向需要的最小序列(minimal sequence)以及二级结构(H7H、RHH)。Cas13d靶向RNA的时候并不需要crRNA-ssRNA结合位点相邻的基序或是位于间隔区的位点或者序列的协助。它是专门针对RNA的靶向因子,仅依靠Cas13d上的最小序列以及二级结构靶向RNA。④Cas13d必须依赖二价阳离子产生成熟的crRNA。这是因为小尺寸的Cas13d蛋白导致其缺乏部分像Cas13a中负责形成成熟crRNA的Helical结构域片段,因此与Cas13a不同,Cas13d的成熟crRNA需要通过另一种途径形成,即必需通过二价阳离子来辅助形成成熟的crRNA。
Cas13d效应因子具有很强的靶向切割能力和RNase活性,并且相对较小的尺寸特别适合在体内传递,在药物研发和基因治疗方面具有很大的应用潜力[9]。
图6 VI-D系统示意图[9]Fig.6 Schematic diagram of VI-D system[9]
4 与其他RNA水平调节方法的比较
4.1 与RNAi的比较
RNA干扰(RNA interference,RNAi)依靠双链RNA(double strands RNA,dsRNA)促使mRNA降解,诱使细胞产生特定基因缺失的表型。其中,dsRNA能在Dicer酶(Ⅲ型内切酶)的作用下产生21~23 nt的siRNA,并与细胞内特异性的核酸酶结合后形成沉默复合体(RNA-inducing silence complex,RISC),这个RISC可以识别靶mRNA,并利用复合物中的RNase在靶mRNA与siRNA结合区域的中间将其切断[10]。
4.1.1二者对细胞功能的影响 在哺乳动物细胞中,大于30 bp的dsRNA会引起干扰素效应和非特异性基因抑制,导致mRNA非特异性降解[10],而CRISPR/Cas13系统并不会引起非特异性基因抑制,这是因为Cas13酶并不是细胞原有的酶,而是通过载体转染进入细胞并表达的,所以并不会影响到其他基因的正常表达。其次Cas13系统也不会引起级联放大效应,因此也就不太容易扰乱细胞内正常的表达体系,而且更可控。此外,CRISPR/Cas13也并非来源于哺乳动物细胞,因此,它不太可能扰乱细胞内天然的转录后调控网络。
4.1.2二者在脱靶反应方面的对比 RNAi的脱靶反应包括:非特异性酶切和特异性位点脱靶。dsRNA在Dicer酶的作用下产生的正义链和反义链siRNA中,应是反义链和RISC蛋白结合形成RISC效应物后,由反义链siRNA介导靶向结合并酶切目的序列。由于正义链siRNA和反义链siRNA有着相同的与RISC蛋白结合形成效应物的能力,所以由正义链siRNA介导的靶向会引起非特异性序列的酶切,从而造成非特异性的基因表达上调或下调。反义链siRNA介导的特异性位点脱靶现象主要与siRNA-3′UTR配对的过程有联系,但具体是如何联系的目前尚未可知[11]。
CRISPR的脱靶反应一般与靶序列和引导序列之间的识别作用相关[12]。以Cas9为例,与Cas酶结合后的引导序列会进入PAM识别阶段,只有在能识别的情况下才能启动R环(R-loop),促使引导序列与靶序列之间发生碱基互补配对,介导酶切反应[12]。而Cas13除了依赖3′末端的PFS识别外,还需要位于引导序列中间能与靶序列发生互补配对的种子区不发生错配才能介导Cas13酶的酶切反应,这种双重保险的特点使得Cas13的精准度比传统的RNA编辑技术高。
此外,由于CRISPR的酶是外源性的,因此还可以对Cas酶作一些优化性的设计和改造,增强Cas酶对靶序列的亲和力,从而提高Cas酶的靶向能力,使酶切反应更容易进行,而内源性的酶却没有这方面的特点。因此在可优化空间与可控性方面,CRISPR的Cas酶要更胜一筹。
4.2 与Type III-A/B的比较
CRISPR系统中的III型A类和B类系统也具有介导ssRNA酶切的能力,这是由于其多酶系统中的Csm6酶或Csx1酶都含有一个位于C端的HEPN结构域。其介导ssRNA酶切的反应需要两分子的Csm6酶或者Csx1酶参与。这是因为只有当两分子的Csm6酶或Csx1酶二聚化后才能形成一个完整的复合对称的活性口袋结构,从而具有酶切RNA的能力[1,13-15]。这也就意味着在实际运用的过程中,Cas酶需要达到一个较高的表达水平才能出现对ssRNA的酶切活性,而Cas13系统却可以在低浓度条件下表现出特异性强的ssRNA酶切活性,灵敏度极高。
5 CRISPR-Cas13系统的应用前景
5.1 疾病诊断
由于CRISPR-Cas13系统在细胞内靶向酶切特定的RNA序列后表现出非特异性——RNA酶活性,即附带切割活性(collateral cleavage)。研究者们把Cas13酶改造成了一种快速、廉价且高灵敏度的诊断工具,并将其命名为“SHERLOCK”(specific high-sensitivity enzymatic reporter unlocking)(图7)。它主要包括两部分:Cas13酶以及一种被切割时会发出荧光的RNA报告分子。当Cas13酶的非特异性RNA酶活性被靶RNA序列激活时,会导致这种RNA报告分子被酶切,从而释放荧光信号。
为了使这项技术更方便,研究人员们还开发出了一种快速的检测方法,所使用的试剂能够在室温条件下运输和存储,因此这种工具能够在几乎任何环境下使用。通过依赖体温的扩增就可增加样品中的RNA浓度,从而将这种靶向RNA 的CRISPR工具的灵敏度增加了一百万倍。虽然目前仅开发出了专门针对诊断寨卡病毒和Dengue病毒的检测试纸(图8),但这项技术将来有望被用来应对病毒性和细菌性流行病的爆发、抗生素耐药性的监控和癌症检测,因而具有引发全球公共卫生变革研究的潜力[16]。
图7 SHERLOCK技术原理示意图[16]Fig.7 Schematic diagram of the principle of SHERLOCK technology[16]
图8 检测试纸的反应原理示意图[16]Fig.8 Schematic diagram of reaction principle of test paper[16]
5.2 单碱基突变技术(REPAIR)
为了将CRISPR-Cas13系统构建成便捷的RNA编辑工具,研究人员设计出一款双组分的RNA编辑器:Cas13酶经突变后失去酶切活性,制成Cas13酶的突变体——dCas13,将这种突变体与RNA腺苷脱氢酶ADAR相融合,利用ADAR能够将腺苷转化成鸟苷或肌苷的特点,可以在特定的位置引入点突变或是终止密码子,从而改变RNA的功能。基于这个原理,研究人员将dCas13b与ADAR的结构域ADAR2DD(E488Q)相融合,制成第一个精确编辑RNA的CRISPR工具:REPAIRv1(RNA editing for programmable A to I (G)replacement Version 1.0)(图9)。但是由于ADAR2DD的容量太大使其难以装进腺病毒载体且容易产生大量的脱靶反应,研究人员将ADAR2DD进行截短和改造,研发出了有着最高编辑效率以及最低脱靶效应的突变体ADAR2DD(E488Q/T375G),并将其与Cas13b相融合,制成的REPAIRv2系统,将REPAIRv1系统会出现的18 385个脱靶位点降低到仅出现20个脱靶位点[7]。
图9 REPAIR示意图[7]Fig.9 Schematic diagram of REPAIR[7]
REPAIR系统作为第一个能够实现精确RNA编辑的CRISPR系统,在RNA工程史上具有划时代的里程碑意义。为了实现胞嘧啶的定点编辑,未来研究人员有望找到可以将dCas13与之相融合的胞苷脱氢酶,或者对ADAR进行改造,以实现ADAR能接受胞嘧啶底物[7,17]。
5.3 疾病治疗
由于CRISPR-Cas13d系统指导的RNA编辑具有不需要同源指导修复机制(HDR)、不需要PFS识别位点、尺寸小、不含具有酶切DNA活性的RuvC和HNH结构域等特点,相对于CRISPR其他系统更适合用于哺乳动物细胞方面的疾病治疗。不需要HDR,更适合用于不分裂的细胞;不需要PFS识别位点,比CRISPR其他系统更灵活;不包含RuvC和HNH结构域,不能直接编辑基因组,在安全性上更好;尺寸小,更适合在体内传递;缺乏crRNA的成熟反应相关的结构域但是具有靶向RNA需要的最小序列和二级结构,因此特别适合在细胞内进行RNA编辑。根据CRISPR-Cas13d系统的这些特点,未来可以研发基于CRISPR-Cas13d系统的多种疾病的治疗方法,即通过Cas13d定向降解RNA从而降低致病基因的表达水平来矫正细胞中的蛋白水平,从而实现疾病的治疗。基于这个原理,研究人员于2019年3月就成功地利用Cas13d来校正痴呆症患者细胞中蛋白的不平衡表达,使其恢复到正常的蛋白表达水平[18]。虽然这种方法目前还停留在细胞实验阶段,但在研究人员的不断努力下,未来有望实现疾病的精准靶向治疗。
6 展望
虽然基于CRISPR-Cas13的RNA编辑技术Cas13伴随有较强的附属非特异性酶切特性,但其准确性极高的特异性酶切能力仍不可忽视。在研究上,Cas13针对靶RNA极强的特异性将会对转录组学研究带来更加精确可靠的研究工具;在检测与疾病预防上,利用Cas13的附属酶切活性将会给检测人员以及检疫人员提供更可靠便捷迅速的检测工具,在治疗上,对于需要基因表达短期变化的疾病来说,基于CRISPR-Cas13的RNA编辑可能更有效。未来,CRISPR-Cas基因编辑技术的下一个目标将会向RNA编辑方向迈进。基于CRISPR-Cas13的RNA编辑技术或许能给转录组学研究以及疾病的预防与治疗的研究注入极为强劲的动力源泉,成为新时代不可或缺的RNA编辑的研究手段。未来,CRISPR-Cas13将会作为一项重要的RNA编辑技术手段,在生物医学各领域登台亮相。