APP下载

基因编辑技术原理及其在动植物研究中的应用

2019-06-11张泗举栾维江

关键词:噬菌体结构域测序

张泗举,栾维江

(1.天津师范大学生命科学学院,天津 300387;2.天津师范大学天津市动植物抗性重点实验室,天津 300387)

自从人们认识基因的本质是DNA 以来,就尝试着采用各种方法对基因进行一系列的改变,以期通过创造相应的突变体,获得对人类有益的微生物和动植物性状或应用于人类的疾病治疗.在这个过程中,人们运用了物理方法、化学方法、分子生物学方法等,对基因的改变也从当初的不定向突变发展为定向改变.在定向改变技术中,又经历了ZFN、TALEN、CRISPR/Cas 等技术的发展过程.本文对这一过程进行了系统梳理,对各种方法的原理及应用范围进行了简要总结,并着重介绍以CRISPR/Cas9 为代表的基因编辑技术的发展历程、基本原理、应用范围及注意事项等.此外,对基因编辑的前景作了展望.

1 非定向诱变技术

1.1 理化诱变技术

非定向打靶技术主要包括物理方法和化学方法.物理方法主要通过各种射线来处理生物材料,造成生物体DNA 的断裂或交联等损伤.常用的射线有X 射线、γ 射线、中子、电子束、紫外线等.辐射可产生A-T或C-G 之间的氢键断裂、 在1 或2 个DNA 链中糖与磷酸基之间发生断裂、同一DNA 上相邻胸腺嘧啶之间形成二聚体以及DNA 链的断裂和交联等多种结果[1].这些损伤如果得不到正确修复,就会产生突变.化学方法主要是使用能引起DNA 序列改变的化学试剂,包括:①烷化剂类,它们能置换DNA 分子的H 原子(烷化作用),改变基因的分子结构;②核酸碱基类似物,在不妨碍DNA 复制的情况下,代替DNA 的成分渗入到DNA 分子中去,引起DNA 复制时碱基配对的差错;③吖啶类嵌入剂,诱发移码突变; ④亚硝酸,能使核酸、核苷酸和核苷中的嘌呤和嘧啶上的氨基转变为羟基,造成DNA 复制的紊乱[2].

理化诱变仅造成个别或者一些位点的DNA 结构发生变化,总体的遗传背景是一致的,因此在生物学研究特别是基因克隆和功能研究中该技术受到高度重视.理化诱变方法简便,突变效率高,突变由DNA点突变、缺失、重排引起,已广泛应用于拟南芥和水稻突变体库的构建中.但其诱变过程难以控制,一个突变体经常包含多个点突变,突变表型可能由多个点突变引起,增加了基因功能鉴定的难度.

1.2 DNA插入突变技术

插入突变是T-DNA(Transfer DNA)、转座子标签(Transposon tagging)或逆转座子标签(Retrotransposon tagging)插入到基因组中,相应位点基因的功能可能受到抑制而产生基因敲除(Knock out)突变体,插入元件同时又可用作标签从基因组中分离出相应位点的基因并鉴定其功能.T-DNA、逆转座子标签和转座子标签是构建插入突变体库的3 种主要方法,经常用于模式植物的突变体创建[3].农杆菌介导的植物遗传转化方法的成熟和完善为插入突变体库的构建提供了依据[4].

T-DNA插入突变是农杆菌侵染植物后,农杆菌Ti 质粒中的一段DNA 整合到植物基因组中.如果插入位点是功能基因,通常会造成该基因的功能丧失,如果该基因是植物生长发育不可缺少的,则会表现出相应的突变性状.T-DNA 在外源植物基因组中的整合是随机的,它可以整合到植物的任何一条染色体上.T-DNA 插入的位置不同,可引起植物产生不同表型.利用T-DNA 方法构建插入突变体库,每个转基因植株的产生都是独立的遗传转化事件,是发现基因突变的有效手段.但转基因步骤复杂,有些植物的转化效率不高,因此构建T-DNA 插入的大群体费钱费功,而且伴有大量的逆转座子转座事件,提高了研究难度.T-DNA插入突变方法多应用于水稻、 拟南芥等植物[4-5].

转座子插入突变包括2 种类型: 一种是以DNA介导的转座子,通过切粘机制复制并发生转座,如玉米Ac/Ds 系统、En/Spm 系统、金鱼草Tam3 等[6].不同于T-DNA 标签法需要成千上万次的遗传转化事件才能构建大规模的插入突变体库,这种转座子系统可以通过转座子的转座活性在基因组中转座而产生突变体,构建插入突变体库.它既具有T-DNA插入突变体库信息量大的优点,又不需要数以十万计的转基因植株,大大减少了转基因的工作量.另一种是逆转座子插入突变,它是以RNA 介导的转座方式,与DNA 介导的转座子不同,它可以通过反转录后经复制产生一个新的拷贝插入到基因中,而原来的拷贝仍然存在.目前在水稻中应用较多的是水稻内源逆转座子Tos17,研究发现,组织培养可以使得Tos17 转座子变得活跃,培养时间越长,拷贝数变得越多[7].因而该方法被广泛应用于水稻突变体库的构建,通过对突变体进行分析,鉴定了一些重要的功能基因[7-8].

2 定向打靶技术

人类基因组计划开展以来,基因组测序技术得到了飞跃式的发展,越来越多生物的基因组得到了测定与解析.除了人类基因组,重要的模式生物(如线虫、酵母、小鼠、拟南芥)、农作物(如水稻、玉米、大豆)以及牲畜(如猪、牛)等生物的基因组都得到了测定.在此基础上,人们希望对生物的单个基因进行精确操作以期研究基因的功能,进而控制基因的表达,获得有益的生物性状.在这种需求下,人们逐步发展了以下几种基因定向操作技术.

2.1 ZFN编辑技术

锌指核酸酶(Zinc-finger nucleases,ZFNs)技术是将具有锌指结构且能够识别特定碱基序列的多肽与Ⅱ型核酸酶的FokⅠ结构域融合表达,分别结合于互补双链的2 个融合蛋白形成二聚体,对DNA 双链进行切割[9].该技术的构思最早来源于人们对小鼠锌指蛋白Zif268 结构的解析,Pavletich 等[10]发现小鼠Zif268 蛋白共有90 个氨基酸,每30 个氨基酸构成一个锌指单体,一个锌指单体可识别3个相邻的碱基.将多个锌指单体串联后,就可以结合多个相邻的碱基,与Ⅱ型核酸酶的切割结构域融合后,形成二聚体,即可切割DNA 序列,产生双链DNA 断点(Double strand break,DSB).由于断点的产生,生物就会启动自身修复系统进行断点的修复,主要通过同源重组(Homologydirected recombination,HDR)和非同源末端连接(Nonhomologous end joining,NHEJ)2 种方式修复.无论哪种修复方式,都会造成在断点附近的DNA 插入或缺失,从而引入突变.该技术主要在人类细胞、 烟草、斑马鱼、果蝇、线虫等模式生物中得到应用[11].ZFN 技术是最早被应用于基因定向打靶的技术,由于三联体识别序列的种类较少、技术存在专利保护以及当时测序的物种较少等原因,该技术的应用并不十分广泛.

2.2 TALEN编辑技术

TALEN,即转录激活子样效应因子核酸酶(Transcription activator-like effector nucleases,TALENs),其构建思路与ZFN 相似,将转录激活子样效应因子(TALE)与Ⅱ型核酸酶的FokⅠ结构域融合表达,2 个不同的融合蛋白分别结合互补双链后形成二聚体,对DNA 双链进行切割,产生DSB,然后又用上述方式进行修复产生突变.

TALE 是从黄单胞菌属细菌中发现的蛋白质类的毒力因子,在侵染植物时,该因子通过Ⅲ型分泌途径注入到植物的细胞质中,然后在核定位信号的引导下进入细胞核,与核DNA 结合而激活寄主细胞的基因转录[12].TALE 的结构分为3 部分,即中心串联重复结构域、核定位信号区(NLS)和酸性转录激活区(AAD).中心串联重复结构域是识别并结合DNA 的位点,由多个TALE 单体组成,单体的个数从1.5~28.5 不等,每个单体由34~35 个氨基酸组成[13].

TALE 单体的34 个氨基酸中,只有第12 和第13个氨基酸是重复可变双氨基酸(Repeat variant di-residue,RVD),决定了单体所识别的4种DNA 碱基的类型,如NI 识别A 碱基、NG 识别T 碱基、HD 识别C 碱基、NN 识别G 或A 碱基[14-15].根据对应关系,可以人为设计TALE 各单体的组成,对特定基因的DNA 序列进行识别,然后用和TALE 融合的核酸酶对DNA 双链进行切割,产生DSB.对TALE 的利用分为2 类:第一类将TALE 与转录激活结构域融合,形成TALE-TF,通过激活转录,提高基因的表达水平,这在人类全能细胞系和拟南芥中得到了验证[16-17]; 第二类将TALE与Ⅱ型核酸内切酶的催化结构域FokⅠ融合表达,形成TALEN,TALEN 二聚体切割DNA 双链,产生突变,达到基因功能敲除目的.明尼苏达大学的研究人员首先将TALE 与FokⅠ融合,并在酵母中进行表达,验证了其活性[18].之后TALEN 的功能在人类细胞系、斑马鱼、大鼠、线虫等模式动物中得到了验证[19-20];在烟草、拟南芥、水稻、小麦等植物中得到了验证[21-22].

2.3 CRISPR/Cas9编辑技术

2012年之后,一种新型的基因编辑技术—CRISPR/Cas9 技术被广泛应用于不同物种的基因靶向编辑,该技术同ZFN 及TALEN 技术一样,都用特异性核酸酶对特定基因DNA 序列进行编辑,但其操作简单方便,效率相对较高,已广泛应用于基因功能研究中,对生命科学的发展起到较大的推动作用.

2.3.1 CRISPR 序列的发现及命名

CRISPR/Cas9技术的发现及命名源于一段DNA序列.早在1987年,日本科学家Ishino 等[23]在大肠杆菌中克隆了一个编码碱性磷酸酶的基因ipa,为了分析该基因的编码框及蛋白产物,对1.7 kb 的克隆片段进行测序,分析发现1.7 kb 序列包括1 038 bp 的ORF、331 bp 的5’端侧翼以及约300 bp 的3’端侧翼序列.进一步分析3’端侧翼序列发现,约300 bp 的序列中有5 个29 bp 的回文重复序列,并被4 个32 bp的间隔序列隔开.4 个32 bp 的间隔序列各不相同,而且与大肠杆菌的序列没有同源性.由于局限于当时测序还没有规模化发展,数据库中序列比较少,因此作者比对后在其他原核生物中也没发现其同源序列,也不知道其重要意义何在,作者在以后的研究中未对这段有趣的序列进行深究,直到约10年后与这段序列有相似特点的序列才再次进入科学家的视野.

1990年代初,Mojica 等[24]利用一种耐高盐的嗜盐古菌(Haloferax mediterranei)研究盐浓度如何影响限制性内切酶对其基因组DNA 序列的切割时发现了类似1987年Ishino 等发现的特殊序列,这种特殊序列由多个高度保守的30 bp 的回文序列组成,这些回文序列被多个不相关的36 bp 的非嗜盐古菌自身的序列居间隔开.后来,Mojica 等[25]又在其他细菌中发现了类似结构的序列,通过比对,发现虽然每种细菌的回文重复及居间序列都不同,但都具有相同的“重复-居间序列-反向重复”的结构,他开始认识到了这种特殊结构序列的重要性.由于1989年人类基因组计划的实施,测序方法有了长足进展,测序费用也有所降低,因此不同物种的测序计划也广泛实施,数据库中已知的DNA 序列日益增多.为了揭开这种特殊结构序列的生物学意义,Mojica 等[26]进一步利用生物信息学对自己所获得的序列进行比对搜寻,以期能在不同细菌中找到更多的这种特殊的回文重复序列.截止2000年,他已在20 种不同的微生物中找到这种特殊结构的序列,并命名为短的规律性的间隔重复(Short regularly spaced repeat,SRSR).2年后,科学家们进一步从不同原核生物中发现了更多的这种特殊序列,并根据序列特点进一步规范其命名,将Mojica 命名的SRSR 改为成簇的、有规律间隔排列的短回文重复序列(Clustered regularly interspaced short palindromic repeats,CRISPR)[27].

2.3.2 CRISPR 序列生物学意义的探索

随着CRISPR 序列的增多,越来越多的科学家被这种特殊的序列所吸引,科学家们认识到它一定具有重要的生物学意义.为了揭开CRISPR 序列的生物学功能,2003年,Mojica 首先改变了研究思路,从以前着重比对搜寻回文序列转移到着重比对搜寻居间序列,希望能找到回文序列之间的居间序列来自于哪里.通过他的努力,终于在P1 噬菌体中发现与居间序列完全匹配的序列,通过进一步扩大比对居间序列的数目,发现很多居间序列匹配到不同的病毒及外来的质粒中.至此,他认识到CRISPR 序列可能在细菌对抗外来物质的侵染中发挥重要作用[28].同时,来自法国的科学家Vergnaud 和他的研究团队在鼠疫杆菌(Yersinia pestis)中发现了CRISPR 序列,并揭示出其居间序列来自于噬菌体,对于鼠疫杆菌抵抗噬菌体的侵染具有重要作用[29].来自法国的另外一个研究团队在嗜热链球菌(Streptococcus thermophilus)中克隆了4 个基因Cas1~Cas4,并在这些基因附近发现了CRISPR 序列,分析这些CRISPR 序列中的居间序列发现它们来自于噬菌体及染色体外遗传元件(Extrachromosomal elements),进一步的噬菌体敏感性实验研究发现,这些居间序列对嗜热链球菌抵抗外来侵染物具有重要作用,可能起到细胞免疫作用[30].从发表年份上可以看出,基因编辑技术的研究存在激烈竞争.

2.3.3 CRISPR/Cas 系统作用机制的解析

在弄清楚了CRISPR 序列可能与细菌的免疫有关后,科学家们开始着手解析微生物是如何利用CRISPR序列进行免疫作用的.早在2002年美国国家生物信息研究中心Eugene Koonin 研究组[31]认为,CRISPR 可能与DNA 的修复有关,但是后来摈弃了这种假设.Makarova 等[32]通过对多种细菌中CRISPR 和Cas 序列的基因组比较分析,认为CRISPR/Cas 系统是一种防御机制,用来对抗入侵的噬菌体和质粒,其作用机制可能与真核生物的RNAi 类似.但是将该系统的成分与RNAi 机制相关的蛋白,如双链RNA 特异的解旋酶(dicer)、切割靶标mRNA 的内切酶(slicer)以及RNA依赖的RNA 聚合酶,进行比对后,却找不到与之匹配的成分.根据CRISPR 中的独特居间序列与噬菌体和质粒片段同源的事实,Makarova 等[32]提出CRISPR/Cas可作为原核中的siRNA 起作用(psiRNA),通过与靶标mRNA碱基配对,促使其降解或翻译终止,并推测这个系统包含将外源基因片段整合到自身染色体上以产生对相应成分的遗传免疫等步骤.按照该假说,CRISPR 序列首先被转录成原初RNA 前体,之后进一步剪切变成成熟的siRNA 起作用,但变成成熟siRNA的酶是什么、如何切割成熟仍然未知.

在此假设基础上,法国微生物学家Barrangou 等[33]证实了居间序列与相应噬菌体之间的对应关系.研究者以乳制品生产中的工程菌嗜热链球菌为对象,用2种基因组序列有93%一致性的近缘噬菌体858 和2972 进行侵染,得到了一些对之不敏感的嗜热链球菌株.测序发现,抗性突变体菌株中含有噬菌体来源的居间序列,当居间序列与噬菌体基因组DNA 存在单碱基多态性(SNP)时,即居间序列突变与噬菌体基因组DNA 序列不一致时,则抗性丧失.细菌中CRISPR 位点整合的噬菌体来源的居间序列越多,对噬菌体的侵染越不敏感.对于已经获得噬菌体抗性的菌株,将居间序列删除后,抗性即丧失,将居间序列替换后,也改变了其抗性,这说明居间序列与细菌获得的抗性具有紧密的对应关系.同时,Barrangou 等[33]还研究了与CRISPR 序列相联系的Cas 基因与居间序列的关系.改变Cas 基因与间隔序列之间的距离,则抗性也会丧失.抑制Cas5 的转录,抗性丧失,抑制Cas7 的转录,抗性不受影响,但删除Cas7 序列,则抗性丧失,这可能是因为Cas7 参与了新的间隔序列的插入.这些实验进一步表明了与噬菌体序列一致的居间序列的存在,为菌株提供了抗性.Mojica 等[34]通过对多种细菌的多个CRISPR 位点进行比较,发现居间序列所对应的噬菌体或质粒上有一个通用的NGG 结构,该通用结构对于Cas 蛋白识别特异居间靶向序列具有重要作用.

为了进一步揭开CRISPR 序列的作用机制,科学家们开始研究与CRISPR 序列相联系的Cas 蛋白.荷兰Wageningen 大学的van der Oost 研究组以大肠杆菌K12 菌株为材料,研究了Cas 基因的功能[35].他们从K12中得到8 个编码Cas 的基因,分别编码Cas3(1 个预测的HD 核酸酶融合1 个DEAD 螺旋酶)、CasA、CasB、CasC、CasD、CasE、Cas1(预测的整合酶)和Cas2(核糖核酸内切酶).通过对Cas 蛋白进行标记后纯化,发现了由CasA、CasB、CasC、CasD、CasE 5 个蛋白组成的复合体,命名为Cascade.以单链spacer 为探针进行northern杂交,发现了一个57 nt 的非编码RNA 产物,命名为CRISPR RNA(crRNA).进一步研究发现,CasE 是催化pre-crRNA 为成熟的crRNA 所必需的蛋白.CasE 的晶体结构显示,它包括2 个结构域与1 个类铁氧化还原蛋白折叠,与其他的RNA 结合蛋白具有高度的结构相似性.点突变实验表明,CasEH20A丧失了切割活性.他们进一步研究装载了crRNA 的Cascade 能否产生对λ 噬菌体的抗性,发现Cascade 在Cas3 存在的时候才起作用,并且pre-crRNA 以DNA 为模板时效率更高.5 个Cas 蛋白组成的复合体在对pre-crRNA 到crRNA 的成熟过程中起作用,crRNA 的两端侧翼序列都是重复结构中的序列,后者可能是Cascade 亚基结合的保守位点.CrRNA 引导复合体靶向噬菌体的核酸,由于与靶向的方向无关,没有极性,因而认为靶标是DNA.之后多个研究表明,Cas6、Csy4 等核糖核酸内切酶类Cas 蛋白切割pre-crRNA 的重复序列产生crRNA[36-37].以上研究确切表明了Cas 蛋白复合体是CRISPR 序列成熟变成小的功能crRNA 的核酸酶,而且它可以靶向外源DNA,对外源DNA 进行切割.至此,人们对CRISPR 的作用机制有了一个较为明确的认识.

随着CRISPR 作用机制的解开,科学家们发现现有的CRISPR 加工系统(需要较多的Cas 蛋白复合体)非常复杂,不利于CRISPR 的应用,因此希望找到较为简单的CRISPR 系统以便于应用.Deltcheva 等[38]发现,在一些细菌的CRISPR/Cas 中,缺少加工crRNA的核糖核酸内切酶(CasE,Cas6).研究者以人源致病菌化脓性链球菌(Streptococcus pyogenes)为研究对象,通过差异化RNA 测序发现了反式编码的小RNA,它有24nt 与CRISPR 前体RNA 中的重复序列互补,称之为tracrRNA(trans-crRNA).他们在化脓性链球菌中发现了与CRISPR 序列相联系的Csn1(后来命名为Cas9)蛋白,揭示出tracrRNA 是通过广泛保守的RNaseⅢ和Csn1 蛋白指导crRNA 的成熟,所有这些成分都是防御所必需的.Deltcheva 发现的CRISPR/Cas 系统就是后来被广泛使用的CRISPR/Cas9 系统.Nature 杂志专门配发了评论文章[39],该评论指出,Csn1 指导的crRNA的成熟过程与其他几种机制完全不同.这一系统成分简单,便于操作,为后来CRISPR/Cas9 系统的广泛应用起到理论指导作用.

为了方便CRISPR/Cas 系统的应用,来自多个国家和实验室的研究人员一起协作,对CRISPR-Cas 系统的进化关系和分类进行了系统论述[40].CRISPR-Cas系统的主要元件是Cas 操纵子,被分布其上成簇的重复序列居间隔开.CRISPR/Cas 免疫过程大致分为3个阶段:第1 个是适应阶段,当有外源病毒或质粒入侵时,Cas 操纵子捕获带有PAM(Proto-spacer adjacent motif,序列为NGG)结构特征的外源DNA 片段,整合到操纵子的重复序列之间;第2 个是表达阶段,整合了外源DNA 片段的Cas 操纵子转录为RNA,与相应的Cas 蛋白形成复合体并切割为较短的crRNA,crRNA中含有外源片段及重复序列;第3个是干扰阶段,在crRNA 的引导下,Cas 蛋白将与crRNA 中外源片段同源的双链DNA 切割,达到防御目的.根据crRNA 加工的途径和必要的Cas 蛋白的数目,CRISPR/Cas 系统分为3 类.其中第1 类和第3 类crRNA 需要装载到多个蛋白构成的复合体中,不方便工程化;第2 类只需要一个Cas9 蛋白起作用,利用宿主的RNaseⅢ使crRNA 成熟.Cas9 也可以单独起切割作用,通过位点突变分析发现,免疫作用依赖于Cas9 蛋白的HNH 结构域和RuvC 结构域.

3 CRISPR/Cas9编辑技术的应用

3.1 CRISPR/Cas9编辑技术在动物研究中的应用

在CRISPR/Cas 系统的作用机制被揭示清楚后,科学家们认识到它可能具有巨大的应用前景,基于以前ZFN及TALEN编辑技术的应用,CRISPR/Cas 系统也可能在其他的真核生物中工作.为了验证该系统是否可以编辑其他生物的基因组DNA 序列,霍华德休斯医学研究所(HHMI)的Doudna 课题组和瑞典于默奥大学的Charpentier 课题组合作,最早将CRISPR/Cas技术进行实际应用[41].研究者将纯化的Cas9 蛋白与crRNA 和tracrRNA 混合,在体外实现了对质粒DNA或线性双链DNA 的有效切割.他们首先解析了Cas9蛋白的结构,表明该蛋白约由1 367 个氨基酸组成(不同菌株有差异),N 端的Ruvc I 结构域和C 端的HNH 结构域是其催化结构域.Cas9:: gRNA(引导RNA)复合体结合靶标DNA 双链后,Ruvc I 结构域切割gRNA 的非互补链,HNH 结构域切割互补链,产生双链断裂.将Cas9 蛋白第10 位的天冬氨酸突变为丙氨酸,Ruvc I 结构域丧失活性;将第840 位的组氨酸突变为丙氨酸,HNH 结构域失去功能.使用任一结构域突变的Cas9 蛋白,可导致靶标DNA 双链产生切刻(nick)而非断裂,突变的Cas9 蛋白可用于对纯合致死的基因进行编辑.基于此,他们简化了该系统的作用机制,将crRNA 和tracrRNA 融合表达,形成gRNA,再将Cas9 蛋白和gRNA 分别表达融合,这样就绕过了crRNA 和tracrRNA 互补配对的步骤,方便了操作.其他科学家进一步对该系统进行优化,如Gasiunas 等[42]证明,PAM 序列是DNA 结合所必需的,并证明了Cas9D31A和Cas9N891A同样能产生单链切刻.

CRISPR/Cas9 系统的打靶功能一经发现便得到了广泛应用,2013年是CRISPR 应用的爆发之年.美国博德研究所的张锋实验室在人类细胞和小鼠等真核细胞中进行精确基因编辑获得成功[43],首次实现了CRISPR/Cas9 系统在真核细胞内的应用,对SpCas9和SpRNaseⅢ的编码序列进行了优化,并添加了核定位信号,使其真核细胞中高效表达,以人类EMX1 位点的30 bp 序列为靶标,通过转化不同的组合进入人类细胞293FT,实现了对靶标基因EMX1 的编辑.与TALEN 的效率相比,CRISPR/Cas 的效率略高.进一步研究居间序列的点突变对切割效率的影响,发现当点突变发生在PAM 之前的11 个碱基之内时,不会产生切割;当13个碱基处突变时,会有一定效率的切割,表明具有潜在的脱靶可能性.因此提出采用RvuCI 结构域失活的Cas9 可能会降低脱靶.研究者对EMX1位点中相距119 bp 的2 个位点进行打靶,发现有1.6%的机会获得片段缺失.

在同一期Science 杂志上,哈佛医学院的Church实验室也报道了利用CRISPR/Cas9 系统在多个人类细胞系中进行同源重组基因编辑的研究[44].该研究先将一段报告基因序列转入人类胚肾细胞系HEK293T中,而后设计T1 和T2 两种gRNA 分别与Cas9 质粒和重组模板一起转化HEK293T 细胞,得到的编辑效率分别为3%和8%.

随后,许多实验室利用CRISPR/Cas9 系统得到了基因编辑的其他模式动物,如基因编辑的斑马鱼[45]、果蝇[46]、非洲蟾蜍(Xenopus tropicalis)[47]等.中国的季维智院士等科学家得到了基因编辑的食蟹猕猴[48].

3.2 CRISPR/Cas9编辑技术在植物研究中的应用

Nature biotechnology 杂志在同一期发表了3 篇CRISPR 在植物中的应用研究.中科院遗传发育所高彩霞研究组[49]以水稻原生质体为材料,以八氢番茄红素去饱和酶基因OsPDS 为靶标基因,设计了SP1 和SP2 两条sgRNA,靶标序列含有PstⅠ酶切位点.根据植物密码子偏好,优化了Cas9的密码子,为了保证定位到细胞核中,在其N 端和C 端都加上核定位信号NLS.转化子经PCR、 酶切、 测序验证,得到了15%的突变率.之后又对3个水稻基因和一个小麦基因打靶,得到的突变率为26.5%~38.0%.研究者还对CRISPR/Cas9 系统诱导的同源重组效率进行了初步试验,在29 个转化子中得到了2 个阳性转化子,效率为2/29.

美国哈佛医学院的研究人员[50]以拟南芥原生质体为材料,以拟南芥八氢番茄红素去饱和酶基因AtPDS3 为靶标基因,比较了植物密码子优化的Cas9蛋白pcoCas9 和细菌Cas9 蛋白SpCas9的效率,发现前者效率显著高于后者.对转化后的拟南芥原生质体PCR测序,得到5.6%的突变率,对另一个基因AtFLS2 打靶,得到的突变率为1.1%.研究还计算了转化时所用gRNA 和Cas9 蛋白的相对比例,发现当比例为1 ∶1时最有效,当比例为1 ∶19 时无效.只设计一条gRNA对拟南芥AtRACK1b 和AtRACK1c 基因中相同的一段序列进行打靶时,发现2 个基因都发生了突变.在对烟草细胞的NbPDS 基因打靶时,得到了38%左右的突变率.

英国诺维奇科技园的Nekrasov 等[51]用农杆菌侵染烟草叶片的方法在烟草中做了CRISPR/Cas9 系统基因打靶的研究.他们首先将GFP 基因与Cas9 蛋白融合,观察其核定位效果,而后用拟南芥U6 启动子驱动的gRNA 与Cas9 基因一起注射烟草,经过PCR、酶切实验,得到了2.1%的突变率.

此外,还有多位中国科学家将CRISPR 技术应用到植物研究中.如Mao 等[52]研究了靶标位点的PAM 序列对打靶效率的影响,发现不正确的PAM 序列会使效率降低(从11%降到5.4%),但不会消除;Feng 等[53]观察了用CRISPR/Cas9 系统在拟南芥中打靶后的数个世代,发现T1、T2、T3 代带有突变的植株分别为71.2%、58.3%和79.4%,突变类型主要是单碱基插入和短的缺失.Miao 等[54]也在水稻中进行了诱导基因突变的研究,获得了较高的突变率.Ma 等[55]构建了一种可以串联多个靶点的CRISPR/Cas9 系统,利用Golden gate 方法,最多可以一次将8 个靶点串联起来进行多基因编辑.

由于CRISPR/Cas 技术操作方便,因此不断有大量的与该技术相关的论文发表在国际期刊上.后来人们又发现了类似于CRISPR/Cas9 系统的CRISPR/Cpf1系统[56]、具有更高兼容性的PAM 结构和更高DNA 特异性的xCas9 系统[57]等.

4 CRISPR/Cas9技术的优势及应用要点

4.1 几种基因编辑方法的比较

CRSPR/Cas 系统原理简单,设计方便,已在多种动物和植物中得到了应用,它与ZFN 和TALEN 的比较结果如表1 所示.CRSPR/Cas 系统具有以下优势:①设计更为方便.ZFN 和TALEN 需要考虑DNA 双链的结构特征,还要考虑2 个位点之间spacer 的距离,CRISPR/Cas 系统则只需一条链上带有PAM 结构.②构建更为便捷.TALEN 需要多个串联重复单体的组装,CRISPR/Cas 系统只需构建长度约为100 碱基的gRNA.③CRISPR/Cas 系统可多次作用,一旦将Cas蛋白整合到染色体上,再次利用时,只需重新导入短片段的gRNA.④可对多个基因打靶.由于gRNA 序列很短,容易构建,因而一次可将多个基因的gRNA 转入植物中实现对多个基因的编辑.

表1 3 种基因编辑技术的比较Tab.1 Comparison of three gene editing techniques

4.2 CRISPR/Cas9的应用要点

CRISPR/Cas9 已成为分子生物学研究的必备工具.在理解其作用原理的基础上,具体运用中把握住以下要点,才能更高效地发挥作用,达到事半功倍的效果.

(1)Cas9 蛋白的密码子优化.不同生物具有密码子偏好性,CRISPR/Cas 系统来源于古细菌,应用时要根据目标物种的偏好性进行优化,这样转进去的Cas9才能够得到高效的翻译.Li 等[50]以拟南芥原生质体为材料,以拟南芥八氢番茄红素去饱和酶基因AtPDS3为靶标基因,比较了植物密码子优化的pcoCas9 蛋白和细菌的SpCas9 蛋白的效率,发现前者的效率显著高于后者.

(2)启动子选择.选择适合于目的生物的启动子,保证其能高效驱动Cas9 蛋白和gRNA 的转录.目前常用的启动子是泛素连接酶的Ubi 启动子,人类细胞系中常用的是U6 启动子[44],植物中常用的是U6 或U3启动子[49].

(3) 靶位点的选择.gRNA 的选择一般为20 个碱基,其3’ 端之后一般是NGG 的结构.在人类细胞系中一般为GN20NGG(U6 启动子)[44];在植物中一般为5’-A-N(20)GG-3’(U3 启动子)或5’-G-N(20)GG-3’(U6 启动子)[49].对于真核生物来说,靶位点应该位于其外显子序列上.研究者开发了数个用于gRNA 在线设计的平台,其中大多数平台既可以用来设计靶位点,还能给出潜在的脱靶位点,如https://omictools.com/casot-tool、http://www.e-crisp.org/E-CRISP/、http://skl.scau.edu.cn/等.如果目的是敲除基因的功能,靶位点最好选择其5’上游,这样可以产生移码突变或者提前终止;如果编码基因很长,可以把靶位点选择在保守结构域上.靶位点的选择除了需满足上述要求,还应该考虑编辑后便于检测.切割位点一般位于NGG前1~4 个碱基处,可以选择在此处有酶切位点的靶序列.编辑后酶切位点被破坏,可通过PCR 扩增之后用酶切电泳来筛选结果[49].

(4)编辑结果分析.转化后,可提取被转化材料的DNA,在靶位点两侧设计引物,进行PCR 扩增初筛.如果靶序列中有酶切位点,可以利用酶切产物电泳来进行初步筛选,之后进行测序;对于没有酶切位点的靶序列,将扩增产物与野生型的扩增产物混合后退火,则会形成不完全互补的DNA 双链,再用单链核酸内切酶SⅠ酶切,对经过初筛后的阳性克隆进行测序分析.

基因编辑结果大致有3 种情况,纯合基因型、杂合基因型和双等位突变.纯合基因型最容易分析,与野生型比对即可看出是插入或者缺失.对于杂合型和双等位突变,可以通过挑选单克隆测序进行分析,也可以对测序结果峰图进行分析.刘耀光研究组开发的平台同样可以用于对测序结果峰图的分析(http://skl.scau.edu.cn/dsdecode/).

5 结语

基因编辑技术的发展为基因治疗和生物性状改良带来了新的机遇.人们有望通过基因编辑技术,对患者来源的诱导多能干细胞(Induced pluripotent stem cells,iPSCs) 进行编辑,进而治疗包括杜氏肌营养不良症、帕金森疾病等在内的多种遗传疾病以及艾滋病、乙型肝炎等传染性疾病,但仍有脱靶效应、新的基因导入系统等技术瓶颈[58-59].最近,Liang 等[60]发明了一种将CRISPR/Cas mRNA 包裹为体外转录产物(in vitro transcripts,IVTs)或核糖蛋白复合体(Ribonucleoprotein complexes,RNPs) 后再转入植物幼胚的方法,获得了外源DNA-free 的小麦基因敲除植株.由于该方法没有外源DNA 进入植物体,与以往的基因改良生物有很大区别,因而可能在食品安全立法时予以豁免.总之,基因编辑技术已经获得了巨大进展,但利用其改变人类的生命和生活仍有许多难题需要克服[61].

猜你喜欢

噬菌体结构域测序
细菌四类胞外感觉结构域的概述
拟南芥START 结构域亚家族生物信息学分析及功能
不同富集培养方法对噬菌体PEf771的滴度影响
植物青枯菌噬菌体保存方法的研究
外显子组测序助力产前诊断胎儿骨骼发育不良
UBR5突变与淋巴瘤B细胞成熟
科学家发现最大噬菌体
中草药DNA条形码高通量基因测序一体机验收会在京召开
基因测序技术研究进展
外显子组测序助力产前诊断胎儿骨骼发育不良