从原核生物的防御到CRISPR/Cas9技术的研究概述*
2021-01-19霞汪兴泽
王 霞汪兴泽
(1 泰兴市西城中学教育集团 江苏泰州 225400 2 泰兴市教师发展中心 江苏泰州 225400)
2020年,诺贝尔化学奖授予法国科学家沙尔庞捷(Charpentier)和美国科学家道德纳(Doudna),以表彰她们发明了CRISPR/Cas9 介导的基因编辑技术。本文从该技术的发现、原理等方面作一简要概述。
原核生物无论古细菌还是真细菌,都可能因噬菌体的侵染而死亡。显然,拥有防御噬菌体侵染能力的原核生物能获得更好的生存机会。原核生物如何防御噬菌体的侵染?DNA 是有机大分子,复杂而脆弱,易受损伤。损伤类型有多种,例如,胞嘧啶的脱氨基、鸟嘌呤氧化等。其中,DNA 双链断裂在所有类型的损伤中危害最大,易导致DNA 的复制受阻,进而遏制子代的形成[1]。古细菌或真细菌如果能识别并切断外源DNA(或RNA),就具有一定防御噬菌体侵染的能力。
1 限制酶的防御功能类似高等动物的固有免疫
广泛应用的“分子手术刀”——限制性核酸内切酶(简称限制酶),已发现数千种。大多数限制酶的识别序列由6 个核苷酸组成,少数限制酶的识别序列由4、5 或8 个核苷酸组成,能在特定的位点上剪切双链DNA 分子并使之断裂,从而抑制外源DNA 的复制,阻断子代噬菌体形成。限制酶的识别序列相对固定,对新型病毒缺乏适应性防御能力。可见,原核生物利用限制酶对噬菌体的防御类似于高等动物的固有免疫。
2 CRISPR 在原核生物中发挥获得性免疫作用
1987年,日本学者石野良纯团队偶然发现大肠埃希氏菌(Escherichia coli)碱性磷酸酶基因编码区附近存在一段特殊的DNA 序列:在简单重复序列(repeated sequences)之间插有间隔序列(spacer DNA)[2]。随后发现这种序列在古细菌或真细菌中广泛存在。2002年,这种特殊序列被正式命名为成簇的规律间隔的短回文重复序列(clustered regularly inter-spaced short palindromic repeats,CRISPR),并对Cas(CRISPR associated sequence)基因作出定义[3]。CRISPR 序列中重复序列与间隔序列交错相连,末端通常是一条长约500 bp 的前导序列。重复序列高度保守,长度为21~48 bp;间隔序列长度26~72 bp,碱基排列顺序差异显著。大量的间隔序列与已知的噬菌体或质粒的序列完全一致。据此推测,这些间隔序列可能与原核生物抵御外源核酸进入细胞的特异性防御机制有关。2005年,Bolotin 等[4]利用特定的噬菌体侵染细菌,发现抗性细菌细胞的CRISPR 中的间隔序列有来自噬菌体DNA 的序列。随后,研究通过增加或去除序列可控制噬菌体获得或失去抗性。此外,利用特定的噬菌体侵染细菌,随着从噬菌体中获得了越来越多的间隔序列,细菌的抗性谱系越来越强。有力地证明了CRISPR 在获得性免疫中发挥作用[1]。
3 “基因编辑”因CRISPR/Cas9 技术而更加便捷与可靠
2008年,马拉菲妮(Marraffini)等[5]研究发现Cas 核酸酶(CRISPR-associated nuclease)的DNA 靶点活性,并通过实验验证了CRISPR/Cas 系统的功能,由此揭开了CRISPR/Cas 系统作用机制及应用的研究序幕。2010年,首次确定Cas9 核酸酶在CRISPR/Cas9 系统中是唯一参与切割靶DNA 的酶[6]。2011年,马卡洛夫(Makarova)等[7]根据Cas基因的差异及CRISPR 基因簇中重复序列的差异,将CRISPR/Cas 系统分为3 种类型:Ⅰ型系统分布于真细菌和古细菌中,Ⅱ型系统主要分布于真细菌中,Ⅲ型系统主要分布于古细菌中。Ⅰ、Ⅲ型系统运行复杂,需要Cas3、Cas6、Cas10 等蛋白质复合物才能行使功能。CRISPR/Cas9 属于Ⅱ型系统,仅需唯一的Cas9 核酸酶,构成简单,适用于基因编辑。同年,沙尔庞捷在酿脓链球菌(Streptococcus pyogenes)CRISPR/Cas 中发现反式激活crRNA(trans actvating crRNA,tracrRNA)分子。2012年,沙尔庞捷和道德纳组成团队,纯化了Cas9 蛋白,发现它是RNA 异二聚体引导下的DNA内切酶,并首次在体外证明CRISPR/Cas9 系统可切割DNA[8]。RNA 异二聚体由成熟的crRNA(由长的前体crRNA 逐步剪切、加工而成,含保守序列和间隔序列)和tracrRNA 通过碱基配对聚合而成。通过增加一个合适长度的接头,可将RNA 异二聚体融合成单一的向导RNA(single guide RNA,sgRNA),从而便于使用。
CRISPR/Cas9 基因编辑技术的大致流程如下:人工合成编码crRNA 和tracrRNA 的DNA 序列,该序列能在细胞内经转录、加工后得到的成熟crRNA,其5′端与待剪切的特定DNA 靶序列互补,3′端与tracrRNA 互补。或设计出增加合适接头的、编码sgRNA 序列的DNA,与Cas9基因置于适当的表达元件控制下并导入靶细胞中。由靶细胞成功表达出的sgRNA 识別并结合特定的互补DNA 序列,并与互补链杂交,非互补链保持游离的单链状态。Cas9 核酸酶含有RuvC 和HNH 2 个核酸酶催化结构域,其中的HNH 活性位点剪切互补DNA 链,RuvC 活性位点剪切非互补链,最终导致DNA 双链断裂。
“基因打靶”或“基因敲除”技术的创始人卡佩奇形象地比喻,要想了解某个基因的功能,先人为地让该基因缺失,失去功能。犹如某一天没有人扫地了,大家才会想到清洁工的存在[9]。如何才能让某个基因人为缺失?
自然界存在的电离辐射、DNA 复制时模板链上的损伤等都可能导致DNA 双链的断裂。生命的进化使得细胞拥有多种修复机制(例如,直接逆转、碱基切除修复等)可将多数损伤修复,并恢复到原始的DNA 序列,维护DNA 的相对稳定。非同源性末端连接和同源重组修复是DNA 双链断裂修复的2 种主要途径。细胞内有2 套遗传物质时,细胞可能利用1 份DNA 为模板修复受损伤的DNA。这种使损伤的DNA 恢复到原始序列的机制称为同源重组修复。
非同源性末端连接修复的大致过程是通过断裂末端突出的单链之间错排配对,将断裂DNA 的2 个末端直接相互连接。错排配对通过不同片段的碱基互补完成,单链尾巴由核酸酶去除,缺口依赖DNA 聚合酶填补。如此,断裂末端的部分序列将会丢失,因而常导致DNA 片段的缺失,甚至出现倒位而致突变[1]。如果能高度特异性地切割目的DNA,利用细胞自带的非同源性末端连接修复系统,就能高效率使目的基因缺失,从而为研究目的基因的功能提供了可能。
传统的卡佩奇“基因敲除”技术采取的策略,是用含有一定已知序列的DNA 片段与受体细胞基因组中序列相同或相近的基因发生同源重组,从而代替受体细胞基因组中的相关序列,可产生精确的基因突变。但由于高等动物细胞内同源重组的频率极低,需要构建复杂的打靶载体、筛选ES 细胞、选育嵌合体小鼠等一系列步骤,使得该技术流程繁琐,费用大,耗时长。通过人工设计sgRNA,足以引导Cas9 对双链DNA 进行定点切割,导致特定位点基因的突变。因易于操作,CRISPR/Cas9 基因编辑技术逐渐成为一种可靠、高效、快速的构建“基因敲除”生物模型的新方法,得到了广泛的应用。
4 CRISPR/Cas 系统的应用扩展
Cas9 核酸酶含有的2 个核酸酶催化结构域分别剪切双链DNA 的一条单链,并产生平末端的DNA 双链断裂。非同源性末端连接的修复可能导致靶基因突变,但同源重组修复又可能使得双链断裂的DNA 恢复原始序列而导致脱靶。如何降低脱靶效应?如果在基因水平上将其中一个催化结构域灭活,可形成使DNA 单链断裂的缺口酶版本nCas9。2 种nCas9 与带有合适序列的sgRNA 串联体配合使用,能在DNA 分子上产生单链交错缺口的裂解形式,增加靶点识别的序列长度,从而降低突变的脱靶率。
既然CRISPR/Cas9 系统能依靠sgRNA 特异性识别DNA,将Cas9 中的2个核酸酶功能域全部删除,形成灭活型版本dCas9,并将之与其他功能蛋白相融合,可进一步扩展CRISPR/Cas 系统的功能。例如,dCas9 与转录阻遏因子相融合,依靠sgRNA 的靶向作用选择性关闭特定基因谱的转录启动。相反,将dCas9 与合适的转录激活因子(例如,VP64 或KRAB)相融合,能以基因功能获得型方式了解基因的功能。此外,dCas9 与各种荧光蛋白相融合,可实现活细胞或组织中特定DNA 区域附近的动态染色质表观修饰过程可视化等[10]。
5 展望与反思
CRISPR/Cas9 技术在基因编辑方面不断展现出巨大潜力。与ZEN 和TALEN 等编辑工具相比,CRISPR/Cas9 系统具有简单、高效、安全、精确等优点。此外,CRISPR/Cas9 系统还可同时编辑同一细胞中的多个基因位点,在构建疾病动物模型及基因表达调控机制的研究中发挥重要作用。作为一种革命性的技术,CRISPR/Cas9 基因编辑技术仍存在着不足,例如,脱靶效应。进一步降低脱靶效应,实现高度特异性基因编辑的临床应用仍任重道远。
由于CRISPR/Cas9 技术的门槛较低,伦理学家始终担心快速涌现的基因编辑研究是否会被应用于人类基因的编辑,改变人类的遗传特性。禁止在人类生殖细胞水平滥用基因编辑技术是对生命和科学的敬畏,但利用基因编辑技术治疗人类疾病也是医学研究领域的重要方向,如何保障二者平衡是人类面临的挑战[11]。