基因组的“读-改-写”技术

2020-12-24王会戴俊彪罗周卿

合成生物学 2020年5期

王会，戴俊彪，罗周卿

（1深圳大学生命与海洋科学学院，广东深圳518055；2中国科学院深圳先进技术研究院，深圳合成生物学创新研究院，合成基因组学研究中心，广东省合成基因组学重点实验室，深圳合成基因组学重点实验室，广东深圳518055）

基因组指的是生命体所携带的遗传物质的总和，如人类基因组包括细胞核和线粒体所含有的全部遗传物质［1］。遗传物质主要可分为DNA和RNA两种。自然界中绝大部分生物的遗传物质为DNA，只有少部分生物如RNA病毒，它们的遗传物质为RNA。基因组可分为编码区和非编码区。编码区能够能通过转录和翻译过程制造蛋白质，执行相应的功能；非编码区虽然不会被翻译，但是对于基因组遗传信息的表达也是必需的。在生命的进化过程中，基因组的组成与结构也在不断演化。不同种类生物的基因组在遗传信息的存储量、编码区和非编码区在基因组中所占的比例等方面都存在着较大差异（表1）［2］。

对于基因组序列及其功能的解析一直是基因组研究的核心问题。1953年，DNA双螺旋结构模型的提出使DNA的研究进入了分子水平［3］。20世纪70年代以后，分子生物学飞速发展，Sanger测序［4］、重组DNA［5］、转基因［6］等技术方法逐步涌现。2001年，人类基因组测序计划的完成开启了基因组大规模测序的新时代［7-8］。2002年，脊髓灰质炎病毒基因组的合成首次证实了可以利用化学的方法从头再造具有生命活性的基因组［9］。2012年，CRISPR/Cas技术的出现使得在不同的物种里面进行高效率的基因编辑成为可能［10-11］。相关技术的进步一直在不断拓展基因组研究的深度和广度。

表1 不同生物基因组中含有的编码序列与非编码序列的比较Tab.1 Comparison of the the coding sequence and non-coding sequence contents of several genomes

通过测序读取基因组序列，通过基因组编辑研究基因组对应序列的功能以及通过化学合成从头再造基因组序列，基因组的“读”“改”和“写”技术正从不同的侧面逐步描绘生命这一复杂系统的序列和功能关系的蓝图（图1）。

图1 基因组“读-改-写”技术发展中的关键事件Fig.1 The milestones in the development of the read,edit,and write techniques for genome research

1 基因组“读”技术

DNA测序技术在过去几十年间得到了快速的发展，从最初的Sanger测序发展到二代测序以及三代测序，人类读取基因组序列的能力得到了飞跃式的提升。不同的测序技术各自的优势使得它们在目前的测序领域都占有一席之地，其各自的不足之处也成为推动测序技术不断发展完善的动力源泉（表2）。

表2 不同测序技术比较Tab.2 Comparison of different sequencing technologies

1.1 一代测序技术

1977年，Sanger测序法问世，该方法后来又被称为一代测序技术［4］。Sanger测序法通过在4个独立的DNA合成反应体系中分别加入一定比例的ddNTP（ddATP，ddCTP，ddGTP，ddTTP），利用ddNTP的3'位不含羟基从而无法形成磷酸二酯键的特性，终止DNA合成反应。通过聚丙烯酰胺凝胶电泳和放射自显影，根据4个反应体系中泳带的条带大小判定碱基序列。基于Sanger测序原理发明了最早的测序仪，在人类基因组计划开展中起到了重要作用。

1.2 二代测序技术

随着人类基因组计划的开展，人们对基因组测序的需求日益增加，渴求开发成本更低、更快速方便的测序技术。21世纪初，以Roche公司的454技术［12］、Illumina公司的HiSeq技术［13］和ABI公司的SOLiD技术［14］等为标志的二代测序技术诞生。二代测序又被称为高通量测序技术，主要特征是可以开展平行测序，一次对几百万条序列同时进行测定，极大地节约了测序时间。不同的二代测序仪的原理有所不同，以HiSeq测序技术为例，它首先将待测序列变成单链DNA，通过DNA合成过程中的碱基互补配对原则，将带有不同荧光标记的四种dNTP添加到互补链上。每添加一个dNTP就会标记上特定的荧光并将上一步反应的荧光进行擦除，从而可以通过每一步反应后该位点上荧光信号的颜色解析待测DNA的序列信息。

1.3 三代测序技术

二代测序技术虽然显著降低了测序的价格，但较短的读长限制了其对基因组复杂序列和基因组结构变异的解析能力［15］。为此，科研人员开发出了兼具单分子实时测序和长读长特征的三代测序技术。三代测序技术根据其原理目前主要可分为单分子实时测序（single-molecule real time sequencing，SMRT sequencing）［16］和纳米孔测序（nanopore sequencing）［17］两大类，两者各有优势。

1.3.1 单分子实时测序技术

单分子实时测序技术采用的也是边合成边测序的思路［16］，在每个纳米级的零模波导孔（zero-mode waveguide，ZMW）的底部固定有单个DNA聚合酶，通过实时检测插入碱基的荧光信号解析孔内的单个环状DNA模板（SMRTbell）的序列。由于ZMW的直径小于激发光的波长，激发光在ZMW中的传播呈指数衰减模式，只能激发孔底的荧光分子，提高了检测的信噪比。模板中的修饰碱基（如6mA）影响了聚合酶插入碱基的速率，因此SMRT技术可以通过监测DNA聚合反应的动力学变化，实现对碱基修饰的直接检测［18］。在DNA聚合酶的活性周期内，环状DNA模板的使用使得同一个位置的碱基可以被多次测序，结合SMRT技术的随机错误模型，采用多重比对可以获得高达99.999%的测序准确率［19］。因此，在实际测序过程中需要平衡分子读长和测序精度，目前Pacbio的读长大部分在10～100kb［20］。

1.3.2 纳米孔测序技术

纳米孔测序是根据不同的DNA序列穿过纳米孔时产生的电信号的差异区分不同的碱基［21］。具体来说，将含有蛋白纳米孔的电阻膜浸在离子溶液中，在膜的两侧施加恒定的电势，进而在纳米孔中产生离子电流；DNA链在马达蛋白的牵引下，解螺旋通过纳米孔，通过高度灵敏的电流传感器检测不同的碱基所形成的特征性离子电流变化信号，进而解析DNA的序列组成。与SMRT测序技术相比，纳米孔测序的读长不受技术本身的限制，而是受文库DNA分子自身长度的限制。近期，通过改进相关方法，研究者们获得了N50>100 kb（最长读长可达882 kb）的人类基因组测序数据［22］，成功组装了人类Y染色体着丝粒的高重复性DNA序列［23］。纳米孔测序技术的数据产出非常可观，现在商用的PromethION平台单次运行可产出Tb级别的数据［20］。但是，纳米孔测序技术的一大缺陷是其错误率非常高（约15%）［24］，现在改进版的“1D2”技术的错误率也还在3%左右［20］。

2 基因组“改”技术

测序技术的不断革新使得大量生物的基因组序列得到读取。然而读取基因组序列只是我们理解生命奥秘的第一步，对野生型基因组序列进行改动，进而研究突变体与野生型的功能差异则是解析基因组功能与调控机制的必要手段。

基因组序列在生物繁衍过程中发生的随机变化为生命体的进化提供了最初的原材料，也是解析基因组序列与功能关系的最早的研究对象。物理诱变剂、化学诱变剂和DNA分子的自发突变会引起多种形式的DNA损伤，对这些损伤的修复有可能导致基因组序列的变化［25］。诱变和自发突变所导致的基因组序列的改变是随机的，对这些修复机制的理解极大地促进了后续基因组定点编辑技术的开发。到目前为止，已经有多种各具特色的基因定点编辑技术得到开发。

2.1 前CRISPR时代的基因组定点编辑技术

20世纪80年代，包括Cre重组酶［26］和FLP倒位酶［27］在内的一系列位点特异性重组酶相继被发现。Cre重组酶能够特异性识别来源于噬菌体的一段反向重复序列loxP，通过控制两个loxP的位置和方向可以实现loxP位点间基因序列的敲除、易位和反转。FLP/FRT系统的工作原理同上。

近年来，包括锌指核酸酶（zinc finger nuclease，ZFN）、转录激活样效应因子核酸酶（transcription activator-like effector nuclease，TALEN）和Cas蛋白等在内的序列特异性识别蛋白相继被发现，基于这些蛋白发展而来的基因编辑技术得到了广泛的应用［28］。这些技术的工作原理具有类似之处，都需要通过这些蛋白对基因组特定序列的结合，进而实现对基因组特定位点的切割，激活细胞内的非同源末端连接或同源重组机制进行DNA的损伤修复。其中非同源末端连接修复方式直接将断裂的两个末端连接起来，这种修复方式易引起插入或缺失突变，是一种不精确的基因编辑方式。而同源重组修复时，如果细胞中有同源序列存在，同源序列能够与基因组序列进行重组，从而实现精确的基因编辑。

ZFN由锌指蛋白和FokⅠ内切酶组成，前者特异性识别目标序列，后者对DNA序列进行切割，产生DNA双链断裂［29-30］。作为第一代基因编辑技术，ZFN技术实现了基因组的定点编辑，但一个锌指单元识别三个碱基的识别模式仍具有较大的不灵活性，需要64个具有高度特异性的锌指单元才有可能实现对所有序列的识别。TALEN技术的作用机制与ZFN类似，由特异性识别目标序列的TALE蛋白和介导切割的FokⅠ内切酶组成［25］。相较于ZFN技术，TALEN技术的编辑蛋白设计相对简单，每个TALE单元识别单个碱基，且天然的TALE单元之间就以串联的形式存在，不需要对连接序列进行优化选择［31-32］，也被称为第二代基因编辑技术。

2.2 CRISPR/Cas基因组编辑技术

2.2.1 CRISPR/Cas系统的多样性及应用场景

CRISPR-Cas系统来源于古细菌/细菌的免疫系统，是其切割外来核酸保护自身细胞免受侵害的一种保护性机制［10，33］。来源于化脓性链球菌的Cas9蛋白能够在单个gRNA介导下实现高效的基因组定点编辑［10-11］。后续又从许多不同的物种里面找到了具有不同PAM识别序列、活性和特异性的Cas9蛋白，这些蛋白及其变体显著扩充了基因组的可编辑范围［34-38］（表3）。除了Cas9，目前已发现了多种CRISPR/Cas编辑系统，主要包括Cas12［39-41］、Cas13［42-43］、Cas14［44］等，它们在工作原理上各有优劣，应用场景也各不相同，将可编辑的对象从双链DNA（dsDNA）扩展到RNA以及单链DNA（ssDNA）（表4）。以CRISPR/Cas9为代表的第三代基因编辑技术具有构建简单、适用对象广泛和效率高等诸多优点，现已成为各实验室最常用的基因组编辑技术。

2.2.2 CRISPR/Cas系统的衍生应用

鉴于CRISPR/Cas系统的简易性，基于该系统衍生而来的基因组编辑工具得到快速的开发。通过突变Cas9蛋白的两个活性位点（D10A和H840A）得到了不具有切割能力的dCas9（dead Cas9）［45］。2016年，Komor等［46］首次将胞嘧啶核苷脱氨酶与dCas9融合，发展出了第一代碱基编辑器，实现了碱基C到碱基T的转换。目前已开发出胞嘧啶碱基编辑器（cytosine base editor，CBE）［46］和腺嘌呤碱基编辑器（adenine base editor，ABE）［47］，可分别实现碱基C到T以及A到G的转换。碱基编辑器的编辑过程不需要产生双链断裂，为其在治疗人类遗传疾病的应用方面提供了安全保障。然而，近期有系列的研究表明，这两种碱基编辑器在RNA或DNA水平上仍存在较严重的脱靶现象［48-51］，对其作用机制和应用仍需要更加深入的研究。2019年，另一种新型基因组编辑系统Prime editing也得到开发［52］，该系统包括Cas9-逆转录酶融合蛋白和pegRNA（prime editing guide RNA）。pegRNA有两点作用：①引导Cas9-逆转录酶融合蛋白到达靶序列位点；②自身含有目标序列的RNA序列，作为逆转录模板。Cas9蛋白在靶位点产生单链断裂，而逆转录酶以pegRNA为模板合成目的DNA序列，然后以目的DNA序列为材料对切口进行修复，实现基因组编辑。Prime editing作用过程中不会产生双链断裂，也不需要供体DNA模板，不仅能实现嘌呤-嘌呤之间的转换，也能实现嘌呤-嘧啶间的颠换。Prime editing提供了一种单碱基替换和小片段删除、插入的新工具，在基因治疗领域具有巨大潜力。2020年，来白哈佛大学的Walton等在Science杂志上发表了基于spCas9蛋白的最新研究成果，成功移除了对NGG这一PAM系列的依赖性［53］。通过基于三维结构的定向突变，研究者们创建了PAM序列为NGN的SpG蛋白和PAM序列为NRN及NYN的SpRY蛋白，显著扩大了可编辑的基因组序列范围。

表4 不同CRISPR/Cas系统的比较Tab.4 Comparison of different CRISPR/Cas systems

3 基因组“写”技术

在基因组序列读取和编辑的基础上，随着DNA合成成本的下降、组装和移植技术的不断改进，人们开始逐步具备对全基因组进行从头设计与合成的能力。合成基因组学为人们提供了一种崭新的理解生命、改造生命的新方法。

3.1 寡核苷酸的合成

寡核苷酸（oligonucleotide）的合成是合成基因组学的基本技术。目前Oligo的合成主要使用固相亚磷酰胺化学合成法，通过去保护、偶联、加帽和氧化4个反应的循环往复进行寡核苷酸的合成，每个循环添加一个碱基［54-55］。20世纪90年代初，基于此原理的DNA合成仪得以开发，寡核苷酸的合成实现了自动化和产业化。然而，核苷酸的添加过程难免会发生错误，从而导致合成的准确率随着合成序列的增长而逐渐降低，目前寡核苷酸的合成长度一般不超过200个核苷酸［56］。此外，柱法合成技术的通量较低，微阵列介导的DNA合成技术的出现在一定程度上解决了这一问题，并降低了寡核苷酸合成成本［57］。然而微阵列合成法在合成的长度、精确度以及所得寡核苷酸的产量上都不及前者，还需进一步完善。

早在20世纪60年代，就有人提出通过酶促法合成寡核苷酸［58-59］。酶促法具有多种优势，合成过程不会用到有毒化合物，理论上能够合成出长达数千个碱基的核苷酸链等。目前可用于酶促法合成的最具前景的DNA聚合酶是末端脱氧核苷酰转移酶（terminal deoxynucleotidyl transferase，TdT）。与大多数DNA聚合酶不同，TdT可以在没有模板的情况下在DNA分子的末端随机添加新的碱基。如何精确地合成目的序列一直是尚待解决的问题。在酶促合成法提出约50年后，研究者们才通过TdT酶与dNTP的共价结合技术为这一关键问题的解决提供了一个可行的方案［60］。目前，酶促法合成寡核苷酸仍处于实验室技术研发阶段，离应用尚有一段距离。

3.2 体外拼接技术

通过DNA体外拼接技术，将较短的寡核苷酸拼接成较长的基因片段，是基因组合成过程的第二步，较为常用的有以下几种方法。①PCA法（polymerase cycling assembly）是基于PCR的一种拼接方法，寡核苷酸之间需要有15～25 bp的重叠区域，重叠区域可互为引物在DNA聚合酶的作用下延伸形成较长的DNA片段。Smith等［61］用PCA法成功拼接了长达5386 bp的噬箘体φX174基因组。②Golden Gate拼接法依赖于Ⅱ型限制性内切酶［62］。这种酶的切割位点位于识别位点以外，因此可以通过对序列的设计，使得识别位点在酶切后从目标序列被去除，形成一个人为设计的黏性末端，从而可以利用DNA连接酶实现片段间的无缝连接。③Gibson assembly体外组装技术只需要将具有同源序列的片段与包括DNA聚合酶、核酸外切酶和DNA连接酶在内的酶体系进行反应即可［63］。核酸外切酶降解DNA产生可以互补配对的3'突出同源末端，通过DNA聚合酶和连接酶的作用实现多个片段的组装。

3.3 全基因组合成技术

随着DNA合成成本的降低和体外组装技术的成熟，人们开始逐步尝试全基因组的合成，从简单的病毒基因组到支原体和大肠杆菌等原核基因组，再到首个真核基因组（酿酒酵母基因组）即将完工，人工合成的基因组越来越大，也越来越复杂（表5）。

2002年Wimmer小组耗时3年合成了全长约7.7 kb的脊髓灰质炎病毒基因组，在世界上首次证明人工化学再造的基因组可以产生有生命活力的病毒颗粒，开创了合成基因组学的时代［9］。对于脊髓灰质炎病毒基因组和相关生物学特性的研究为这项工作的开展奠定了理论基础，而21世纪初DNA合成和组装技术（尤其是PCA法介导的DNA组装技术和限制性内切酶介导的酶联技术）的发展，为这项工作的实现提供了技术基础。

表5 基因组合成对象复杂程度对比Tab.5 Comparison of the complexity of synthetic genomes

J.Craig Venter作为合成生物学领域的先驱，多年来一直致力于合成基因组学的研究。他所带领的研究组从2003年到2010年先后合成了长5386 bp的φX174噬菌体基因组［61］、583 kb的生殖支原体基因组［64］和1.08 Mb的蕈状支原体基因组（JCVIsyn1.0）［65］，并于2016年合成了蕈状支原体的最小基因组（JCVI-syn3.0）［66］。从支原体基因组的测序［67］，到利用转座子测定其必需基因［68］，再到Gibson assembly体外组装技术［63］、转化辅助的酵母体内组装技术（transformation-associated recombination，TAR）［69］以及原生质体融合介导的基因组移植技术［70］的开发，Venter研究组花费了将近20年的时间一步一个脚印地解决了细菌基因组“设计-构建-移植-复活”过程中的一系列技术和理论问题，构建了人类历史上第一个由全化学合成基因组支持存活的细菌［65］和第一个最小原核基因组［66］。在上述技术和CRISPR基因编辑技术的支持下，2019年，Jason W.Chin课题组报道了全合成的只有61个密码子的大肠杆菌基因组，首次实现了有义密码子的压缩［71］。

由Jef Boeke领衔，中、美、英、法、奥、新加坡等国家通力合作的首个真核生物基因组合成计划——酿酒酵母基因组合成计划（Sc 2.0）目前也已经完成了六条半染色体的合成工作［72-79］，剩余的染色体合成工作也将于近期完成。相较于原核基因组，研究者们在合成的酵母基因组中引入了更多的人为设计［75］，比如全面去除转座子、重复序列以及内含子，用以研究相关序列的生物学功能。在这个过程中，研究者们开发了BioStudio设计软件以及SwAP-in（switching auxotrophies progressively for integration）、Endoreduplication Backcross及MRA（meiotic recombination-mediated assembly）等DNA组装技术，实现了真核基因组的模块化设计和高效组装。到目前为止，可以说人们已经具备了合成真核细胞基因组的能力［80］，而国际基因组合成计划（Genome Project-Write，GP-Write）的目标已经瞄准了更加复杂的高等生物基因组合成［81］。

3.4 建物致知与建物致用

建物致知与建物致用是合成基因组学的两大愿景。在建物致知方面，最小原核基因组中仍然还有大量的未知功能的基因，对这些基因的研究将揭示细胞最核心的功能组成［66］；合成酵母基因组中引入了一系列的设计原则，以便为转座子及内含子的功能和存在的生物学意义提供直接的证据［75］；通过对核糖体编码序列的合成再造，我们揭示了这一基因组内拷贝数最高的序列对基因组高级结构的影响［82］。在建物致用方面，通过全基因组重编所释放的密码子可用于引入非天然氨基酸等，助力蛋白质相关的机制和应用研究［80］。通过在合成酵母基因组的每个非必需基因的终止密码子后第三个碱基处引入loxPsym位点，我们实现了Cre重组酶依赖的合成基因组序列的删除、倒换、重复和移位，产生了多样的基因型和表型，为合成菌株的进化和代谢工程应用铺平了道路［83-92］（表6）。

4 总结与展望

“读-改-写”的研究技术是解析基因组奥秘的有效手段，三者相互支撑。基因组序列的读取是后续修改和再造的基础；基因组序列的编辑是注释序列功能的有效手段，可为基因组的从头设计提供理论支撑；基因组的合成再造可对野生型序列进行全局设计，是对基因组相关功能和调控机制的再验证和再利用。在未来的基因组研究中，以基因组的“读”和“改”为基因组的“写”提供更多的理论和技术支撑，以基因组的“写”验证基因组的“读”和“改”过程中发现的相关规律以及探索新的规律，实现“读-改-写”三位一体，将是推动基因组研究由浅到深、由点到面、由理论到应用的有效手段。基因组学的发展对长读长的测序技术在成本和准确度等方面都提出了新的要求。对于SMRT测序技术而言，通过工程化改造DNA聚合酶以提高其持续聚合能力（processivity）和延长活性周期有望在保证准确率的前提下继续提升其读长，而优化相关试剂和仪器则有望提升其通量并降低测序成本。对于纳米孔测序技术而言，其错误率较高且这些错误更为系统化，通过增加测序的深度对降低错误率所起的作用有限。通过寻找新的纳米孔材料（如石墨烯纳米孔［93］和固态纳米孔［94］）、控制DNA通过纳米孔的时间以及改进电信号检测仪器的灵敏度，有望提高单碱基分辨率和降低其错误率。值得一提的是，由于肽段通过纳米孔也会产生电流的变化，利用纳米孔技术实现单分子蛋白质测序将是值得研究的方向［95］。结合两者优势以及其他辅助组装技术，如Hi-C技术［96］和BioNano Genomics公司的纳米通道技术（nanochannel genome mapping）［97］，将为精准的基因组完成图的获取提供利器。

表6 合成酵母SCRaMbLE系统的相关研究Tab.6 Studies on the synthetic yeast SCRaMbLE system

复杂的生命现象的解析需要更加精准、范围更广、通量更高的基因组编辑技术。除了能够对单个位点进行编辑以外，CRISPR/Cas系统已经可以对基因组多个位点进行同时编辑。2019年，来自瑞士的科学家通过构建单质粒承载系统，成功利用Cas12a和CRISPR array实现了多达25个内源性靶点的编辑［98］。2011年，George Church利用MAGE（multiplex automated genome engineering）和CAGE（conjugative assembly genome engineering）成功将大肠杆菌基因组中的全部314个TAG终止密码子替换为TAA终止密码子［99-100］。这也是目前最具有代表性的在全基因组范围内实现大规模编辑的一项工作。目前利用基因编辑技术实现基因组范围的大规模编辑仍然具有较大的困难，如何利用CRISPR/Cas技术实现高等生物中基因组范围的多位点编辑，比如替换人类基因组中的TAG终止密码子，将是未来的发展方向。

当代合成基因组学仍然处于发展的早期阶段，如何降低合成成本以及操作大型基因组片段（组装、移植和复活等），以满足高等生物复杂基因组的合成改造，还需要大量的研究。通过对酶和核苷酸底物的优化，DNA的酶法合成有望突破化学合成法在合成长度和准确度方面的限制，但还需要大量的突破性工作［101］；借助酵母自身的拼接系统，研究人员目前已经可以高效地进行105bp级别的DNA组装，进一步提高多片段共转化效率以及酵母细胞内的同源重组效率有望实现Mb级别的DNA体内组装，而其他高效的外源DNA宿主（如枯草芽孢杆菌［102］）或者高效的同源重组宿主（如耐辐射球菌［103］）的开发则有望从另一个方向对DNA组装技术进行突破；在体内组装的大型DNA片段如何移植到目标宿主中进行功能测试是下一阶段基因组编写计划需要解决的重大技术问题，原生质体融合是目前所采用的方法之一［104］，但是成功率较低，需要进一步优化。除了在构建技术层面的发展，合成基因组的设计理论也必须跟上。如何深度设计基因组序列以探索特定的生物学问题或者实现应用价值的最大化是需要大力发展的方向。天然基因组的优化改造（比如合成最小的酵母基因组以探索真核生物的核心组成）以及非天然基因组的设计合成（如合成具有不同宿主特性的嵌合基因组以用作优良的代谢工程底盘）将是近期有可能突破的方向。