柔性化、智能化、自动化细胞工厂
2023-10-10周嗣杰丁明珠元英进
周嗣杰,郑 妍,丁明珠,元英进
(1.天津大学化工学院教育部合成生物学前沿科学中心系统生物工程教育部重点实验室,天津 300072;2.天津大学合成生物前沿研究院,天津 300072)
“合成生命、设计生命”是人工细胞工厂未来发展的重大方向,合成生物学以突破传统生物技术研究模式,引入工程化概念,强调标准化、模块化构建,由“探究自然、认识生命”到“设计自然、创造生命”,打破了非生命化学物质和生命物质之间的界限。20世纪以来,以DNA双螺旋结构和中心法则为代表的传统生物学研究取得诸多重大进展。1928年,Thomas H.Morgan发表了名著《基因论》,提出了染色体是基因的载体;1944年,Avery等[1]通过肺炎双球菌实验证明DNA是遗传物质;1953年,美国科学家James Watson和英国科学家Compton Crick发现DNA的双螺旋结构[2];1977年,Sanger等[3]首次发明核酸测序方法;2010年,Venter团队的Gibson等[4]化学再造人工支原体基因组。科学家从认识DNA发展到对DNA的改写与合成再造,乃至人工细胞的合成,提升了对生命的干预和操控能力[3,5]。
人工细胞工厂已经将科学转变为未来的制造范式,将成为催生生物经济的颠覆性力量。微生物可以制造许多目前工业制造的产品,人工细胞工厂提供了从生产香料、纺织品到食物和燃料等几乎所有人类所需产品的新方法。但人工细胞工厂仍面临代谢网络复杂、缺乏理性设计、试错成本高以及细胞改造周期长等瓶颈问题。国内外研究者尝试将化学、物理学、计算机科学和机械工程等学科知识应用到细胞工厂,各个领域的专家协同合作,不断拓展和创新,实现人工细胞工厂更加高效、智能和可持续的生产方式。多学科交叉且不断拓展,可加快人工细胞工厂的发展速度,催生人工细胞工厂会聚式的应用范式。基于此,本文综述了国内外细胞工厂的柔性化、智能化及自动化等方面的研究成果,以期为相关研究提供参考。
1 细胞工厂柔性化
1.1 细胞工厂柔性技术
在整个基因组中快速引入全局变化的技术对细胞工厂的发展特别重要,因为这可以在完全了解所有基因组位点的功能之前就筛选出有利的性状。与此相反,对观察到的表型变化与基因型的对应分析也可帮助表征单个基因的功能。物理、化学和转座子诱变技术已广泛用于诱变目标基因组,并且通常与改变表型的筛选或选择相结合加速筛选速度。最近,研究人员开发出多种成熟有效地用在基因组范围产生小尺度变异的诱变策略,包括单核苷酸多态性(SNP)和小片段插入缺失(Indel),已经有系统总结和讨论由小尺度变异驱动的细胞工厂诱变策略和应用的综述[6-7],在此不加赘述。
细胞工厂的柔性化主要指细胞基因组发生大范围结构变异,产生基因型多样性的能力。随合成生物学的不断进步和发展,从头合成DNA大片段,甚至整个基因组逐渐被实现[8-9]。如,合成酵母基因组国际计划(Sc2.0)的目标是为了获得一个具有高度适应性、灵活性和通用性的酿酒酵母(Saccharomyces cerevisiae)基因组[8,10]。在Sc2.0项目中,在所有非必需基因3′的末端(3′UTR)插入特异性重组位点loxPsym,经Cre重组酶诱导后,这些loxPsym位点间会产生包括删除、反转、复制和易位等各种重排反应(图1)[9],从而形成包含多样化的基因型的重排库[11]。该SCRaMbLE系统(synthetic chromosome rearrangement and modification by loxPsym-mediated evolution)极大地促进了酵母的柔性化,可以快速驱动基因组发生结构重排[8]。基因型的多样性可能导致表型多样性,并且可以通过一轮或迭代SCRaMbLE和筛选来获得细胞工厂所需的性状[12],如图2所示。
图1 基因组重排反应原理Fig.1 Mechanisms of genomic rearrangement
图2 细胞工厂柔性化诱导筛选过程[12]Fig.2 Induction and screening process for the flexibilization of cell factories[12]
1.1.1 柔性化精准控制技术
基因组重排系统依赖β-雌二醇结合Cre-雌激素结合结构域(EBD),使Cre重组酶进入细胞核从而发挥作用。然而,在研究过程中发现,在不存在β-雌二醇的情况下,仍然可以观测到Cre重组酶具有一定的活性,从而可能导致SCRaMbLE失控,同时产生酵母细胞基因型和表型的不稳定性[9,13-14]。为了解决这个问题,Jia等[15]构建用于SCRaMbLE系统的遗传“与门”控制开关,使其仅在半乳糖和β-雌二醇同时存在的情况下开启,如图3(a)所示。pGAL1启动子是半乳糖诱导型启动子,即当环境中有葡萄糖时可严格抑制启动子的活性。因此,当用葡萄糖培养基培养含有该质粒的合成型酵母时,pGAL1启动子会受到强烈抑制,导致Cre-EBD的表达量显著降低,即使有少量表达也会与Hsp90结合从而避免扩散进入细胞核;而当用半乳糖培养基补加β-雌二醇诱导时,Cre-EBD能正常表达的同时,继而进入细胞核,从而引发合成型基因组重排反应。这个遗传开关基于pGAL1启动子的转录控制和Cre-EBD酶活性的亚细胞定位控制。
图3 多种细胞工厂柔性技术Fig.3 Flexibility technologies of cell factories
除了上述化学控制Cre重组酶诱导系统外,Hochrein等[16]开发了一种光控的SCRaMbLE系统(L-SCRaMbLE),如图3(b)所示。Cre重组酶的N和C末端分别与植物光感受器蛋白B(PhyB)和它的相互作用因子3(PIF3)融合,当它暴露于红光时,两种植物来源蛋白质PhyB和PIF3之间会发生相互作用并结合,使Cre重组酶的两部分发生重构并恢复酶活性。该系统不仅可以有效地解决Cre重组酶的泄漏问题,而且还可以在短时间内使Cre活性提高。同时,该系统的Cre重组酶活性也可以通过光的诱导时间、光的剂量来控制。上述两种方法都可以精准地控制柔性化细胞工厂。
1.1.2 线性染色体柔性化技术
对含有单一合成型染色体的细胞进行柔性化诱导,已经证实SCRaMbLE具备诱导基因组产生删除、反转、复制和其他复杂重排的能力[14]。为了进一步探索SCRaMbLE重组系统产生染色体间易位的能力,Richardson等[8]用半乳糖诱导染色体着丝粒牵引染色体的方法来组合多条合成染色体到同一个酵母中,从而产生含多条合成染色体的菌株。对所获得的携带合成型三号染色体(synⅢ)和合成型九号染色体右臂(synⅨR)的菌株进行柔性化诱导,在细胞工厂中发现了先前所未观察到的易位事件,如图3(c)所示[17]。
1.1.3 环形染色体柔性化技术
除了线性染色体外,Shen等[14]对环形染色体synⅨR菌株进行柔性化诱导,通过对64个诱导后的菌落进行检测后发现,其中发生了复杂的重排事件,不仅包含有删除和反转事件,而且还存在高频率的复制事件。Wang等[18]对携带环形染色体synⅤ的细胞进行柔性化诱导,结果发现:染色体的拓扑结构会对染色体重排的功能产生影响,经5轮重排后的ring_synⅤ总长度增加了552 410 bp,占ring_synⅤ的~101.02%;此外,在发生重排后的菌株中发现存在非整倍型的染色体Ⅰ、Ⅲ、Ⅵ、Ⅻ、ⅩⅢ和ring_synⅤ。可见,环形染色体重排表现出可以持续产生复杂基因型的能力,从而有效地增加结构变异的数量和规模。与线性染色体的基因组重排相比,环形染色体重排可能会在柔性化细胞中产生更多的复制事件或更为复杂的染色体重排事件。
1.1.4 细胞工厂多轮柔性诱导技术
虽然单轮的柔性诱导技术可以增加重排事件的多样性,但是这并不能说明经过一次基因组重排实验就可以得到想要的优良性状。在自然界中,生物的进化是一个相当漫长的过程。为了快速且持续地在细胞群体中获得基因组重排的多样性,Jia等[15]在利用“与门”控制开关的基础上建立“多轮迭代基因组重排”(multiplex SCRaMbLE iterative cycling),这个重排系统通过对每一轮基因组重排后所筛选到的性状提升的菌株进行新的一轮基因组重排反应;通过这种迭代基因组重排反应,逐步且持续地提高菌株数量,多轮柔性诱导技术的具体实验流程,如图3(d)所示。该重排系统还适用于单二倍体交替提升细胞性状,即在基因组重排过程中获得的高产二倍体菌株通过减数分裂筛选产量相对高的孢子,将所筛选到的单倍体菌株与新的单倍体合成型菌株进行交配而形成新的二倍体,对其再进行柔性化诱导。这样多轮迭代的过程可以将多个合成型菌株的基因逐步地应用到一个细胞内,可以扩大基因组重排适用菌株的范围,同时可以获得更大的基因组重排库[19-20]。
1.1.5 杂合细胞工厂柔性技术
基因组重排过程中必需基因的删除会导致单倍体合成型细胞工厂柔性化存在较高的致死率,特别是酿酒酵母菌株的遗传背景限制了其工业应用。Shen等[14]将合成型酵母基因组的重排系统拓展到杂合二倍体和跨物种二倍体,并且利用基因组重排系统快速驱动细胞进化,如图3(e)所示。将具有重排系统的合成型酵母与展现多样化性状的野生型酵母进行交配获得二倍体,使得基因组重排系统可以拓展并驱动杂合二倍体菌株与跨物种二倍体菌株发生重排反应。Shen等[21]通过含有单条合成型染色体(synⅩ)或含有两条合成型染色体(synⅤ和synⅩ)的单倍体菌株与来自酵母菌株保藏库(SGRP)中的25株酿酒酵母(S.cerevisiae)和27株单倍体奇艺酵母(S.paradoxus)进行交配,总共获得104株二倍体菌株库,结果发现,在二倍体菌株中进行柔性化诱导比在单倍体中具有更高的容忍度,即致死率低。另外,Shen等[21]还将一株酿清酒的酿酒酵母Y12与合成型菌株交配,再对获得杂合二倍体的菌株进行细胞工厂柔性化诱导,成功获得在42 ℃生长加快的重排菌株;为了展示跨物种柔性细胞工厂的概念,以一株奇艺酵母CBS5829为例,通过杂合细胞工厂柔性技术,成功获得具有咖啡因耐受性的重排菌株。可见,杂合二倍体基因组重排与跨物种的基因组重排的开发,一方面可以拓展基因组重排技术的应用范围和加速工业微生物性状的改良,另一方面有助于挖掘新的生物学知识。
1.1.6 细胞工厂体外柔性技术
随着合成生物学的快速发展,复杂长路径代谢通路的异源表达和基因组化学全合成已成为可能。然而由于生物体本身的复杂性,多基因相互作用下的大尺度DNA从头设计到功能实现依然面临着巨大挑战。在构建异源代谢通路的过程中,如能赋予合成型DNA遗传操作灵活的特性,将有助于进一步优化异源代谢通路。Wu等[22]构建了Cre酶与包含多loxPsym位点DNA的体外反应体系,即无细胞体系,如图3(f)所示。这个系统可以在试管中产生有效的基因组重排,即包含基因删除、反转和复制的多种结构变异文库,并且可以通过测序技术直接表征出基因组重排文库的多样性。为了进一步展示体外基因组重排技术的优势,Wu等[22]还构建β-胡萝卜素的代谢通路,利用自上而下和自下而上这2种策略,通过相关转录单元的重排提高了β-胡萝卜素的产量。该体外重排系统提供了一种高效、快速的构建重排文库的方法,这对结构变异的基因型和表型的关联分析具有重要意义,同时有助于基因组重排的基础研究并加快代谢通路的优化。异源代谢通路优化和底盘工程是实现异源高表达的两种关键途径。Liu等[23]开发了一个正交的SCRaMbLE系统“SCRaMbLE-in”,可以同时解决这2个问题:先利用重组酶VCre/VloxP、Cre/loxP或Dre/rox来整合代谢路径的调控元素,如将启动子引入目标代谢通路并在体外生成重排的代谢库;然后通过SCRaMbLE-in系统将该重排文库整合到合成型染色体上,从而实现底盘细胞的大规模基因组重排。因为这3种重组酶系统是相互正交的,并且异源代谢路径和底盘细胞不仅可以分别优化,也可以组合优化,所以可实现代谢工程的快速优化,实现功能模块的精确重排。该SCRaMbLE-in重排系统已用于提高紫罗兰素和β-胡萝卜素的产量,并且实现了异源代谢通路和底盘细胞的协同优化。
1.2 细胞工厂柔性化应用
全基因组尺度loxPsym位点介导的基因组柔性化可以产生丰富的基因组结构变异并获得具有各种基因型和表型的酵母菌株。接下来将重点介绍相关案例来说明如何通过细胞柔性化来获得生长适应性以及产物产量提高的优良细胞工厂菌株。
1.2.1 柔性化细胞提升菌株生长适应性
柔性化细胞技术在增强细胞对环境的耐受性(如高温、乙酸、碱性、乙醇或木糖等)和耐药性(如雷帕霉素、潮霉素B或咖啡因等)等方面已经建立有效的方法,在此基础上可增加细胞工厂在工业上的应用潜力。耐热性是酵母在工业上生产乙醇的主要限制因素之一[24]。对酵母的单倍体以及二倍体进行柔性化诱导可以使菌株对高温的耐受性显著增加。如,Luo等[25]使用ReSCuES的重排筛选方法分离出3株具有耐热性的单倍体菌株,其中性状表现最优菌株的生长速度比对照菌株提高了(1.28±0.03)倍。Shen等[21]通过对酿酒酵母Y12和synⅩ携带的合成型酵母杂交得到的杂合二倍体进行柔性化诱导,获得2个可以在42 ℃下正常生长的二倍体菌株,通过全基因组测序分析发现,染色体YJL154C~YJL140W区域的删除会导致耐热性能的提升。对于生长环境pH的耐受性,Ma等[26]对包含1条(synⅤ)或2条(synⅤ和synⅩ)合成型染色体的单倍体酵母菌株进行柔性化诱导,总共产生了7个耐碱性增加的菌株;通过耐受菌株结构变异的比较分析后发现,YER161C(SPT2)的删除可以提高酵母对碱的耐受性。Luo等[25]通过基因组重排产生了3个对醋酸耐受性增加的菌株,与对照菌株相比,其中1株重排菌株在添加醋酸的培养基中生长速度增长了近21倍。除耐热性和酸碱耐受性外,其他化学品或者环境方面的耐受性也可以通过柔性化诱导进行提升。Luo等[25]通过ReSCuES重排策略获得3株具有乙醇耐受性的菌株,经研究发现,乙醇耐受性的增加是由ACE2基因的破坏所造成的。Blount等[27]将木糖利用的异源途径导入含有synⅤ的酵母,并且通过柔性化诱导成功获得了以木糖为唯一碳源的菌株。
通过细胞柔性化还可以增强细胞的药物耐受性。Li等[28]对杂合二倍体酵母菌株进行柔性化诱导获得了7株雷帕霉素耐药性增加的菌株,经结构变异分析发现,GLN3基因的删除、合成Ⅹ染色体左臂中的长片段杂合缺失(LOH)、合成Ⅹ染色体的全染色体LOH以及Ⅷ染色体复制(三倍体)均可以导致合成型酵母对雷帕霉素的耐药性增加。Shen等[21]通过相同的方法,共获得10株表现出对咖啡因耐受的菌株,并且通过全基因组测序分析确定了POL32基因的复制是导致咖啡因耐受性增加的原因。最近,Ong等[29]对含有SynⅡ的合成型单倍体酵母进行柔性化诱导,从而获得对潮霉素B的耐受性增强的菌株,并且发现基因YBR219C和YBR220C的删除会导致菌株对潮霉素B抗性的增加。
1.2.2 柔性化细胞提升细胞工厂的产物产量
柔性化细胞技术不仅可以改善菌株的天然表型(耐受性),也可改善菌株生产异源代谢路径的代谢产物。异源代谢路径可以通过游离的质粒或者整合到酵母基因组而引入合成型酵母中。柔性化诱导可以通过产生大量结构变化来改变代谢网络(如产量相关基因的删除、复制、反转或易位),从而提高目标产品的产量。
类胡萝卜素是重要的抗氧化剂,可以通过颜色变化来筛选产量提升的菌株。Jia等[15]通过对synⅤ染色体进行一轮柔性化诱导,获得了5个具有颜色加深的菌株,其中颜色最深的菌株类胡萝卜素的产量增加到原始菌株的1.5倍;同时发现,基因YEL013W的删除会导致类胡萝卜素产量的提升。在此基础上,Jia等[15]利用“与门”开关的精确控制和MuSIC重排策略,经过5轮迭代循环柔性化诱导,类胡萝卜素的产量增加到原始菌株的38.8倍(37.39 mg/L)。Wu等[22]在体外使用柔性化诱导来增加β-胡萝卜素的产量,结果发现:共有17种独特的β-胡萝卜素代谢路径的不同基因组重排结构被鉴定,最高的β-胡萝卜素产量为原始β-胡萝卜素的5.1倍;通过对不同β-胡萝卜素基因组重排结构的相关性分析发现,crtI是β-胡萝卜素代谢途径中的关键基因,该基因的复制以及反转都会导致β-胡萝卜素产量的提升。Liu等[23]利用SCRaMbLE-in重排策略使β-胡萝卜素的产量提高到原来的2倍(500 μg/L)。Zhang等[30]结合培养条件的优化获得高产番茄红素的菌株(41.47 mg/L)。最近,Jia等[31]通过对synⅤ和synⅩ的携带菌株进行基因组重排,结果发现,多个基因组重排结构的协同作用(包含易位和反转)使虾青素的产量提高到原来的2.7倍。
紫色杆菌素是另一种容易筛选的异源代谢产物。Liu等[23]使用SCRaMbLE-in的重排策略实现高效的异源代谢路径文库和底盘细胞文库的组合构建,最终获得高产紫色杆菌素的菌株,产量提高为原来菌株的17倍(16.8 mg/L)。Wang等[18]对环形synⅤ染色体进行基因组重排产生复杂的基因组结构变异分析发现,在29种新型结构变异中有11种结构变异可以提高紫色杆菌素前体(PDV)的产量,紫色杆菌素前体的产量最高约增加到出发菌株的3.48倍;通过比较基因组学研究发现,基因YEL017C-A、YEL017W、YER151C和YER182W的删除,可以增加紫色杆菌素前体的产量。Blount等[27]将柔性化诱导与长读长纳米孔测序技术相结合,通过对含有synⅤ的菌株进行体内柔性化诱导后发现,该方法可以快速鉴定发生基因组重排的菌株并且获得紫色杆菌素和青霉素的高产菌株。
综上发现,筛选的菌株因为它们的表型具有不同的颜色而易于筛选。然而,利用大多数工业生产相关的代谢物难以直接筛选出表型提升的菌株[32]。为了解决这个问题,Gowers等[33]将自动化和高通量样品制备和检测系统引入细胞工厂柔性化诱导系统中以扩大对难以筛选产物的筛选能力,结果发现:这种半自动化筛选系统在短时间内可鉴定1 000个重排菌株的产量情况,并且分离出具有2~7倍桦木酸产量增加的12个重排菌株;与此同时,通过基因测序分析发现,一个723 bp长度的非编码区域的删除会使桦木酸产量增加3倍。
由此可见,将柔性化细胞技术用于开发具有工业应用价值的优质细胞工厂是极具前景的方法。细胞柔性化的优势体现在可以在短短几天内获得含不同结构变异的多样性遗传库。更重要的是,因为柔性化细胞产生变异的原理与其他方法不同,SCRaMbLE系统是与这些现有的基因组进化技术正交的。因此,可以将柔性化细胞技术与其他技术相结合来加快筛选进程。此外,经过柔性化的合成型染色体也可以通过CRISPR-Cas9技术转移到野生型菌株中,它可以将柔性化细胞产生的特殊表型传递给其他野生型酵母,以此扩展柔性化细胞的应用[34]。
当然,柔性化细胞目前也存在一些缺点:需要提前在基因组中插入loxPsym位点,而且整个基因组的柔性化效率取决于插入的loxPsym位点的数量。随着现代科学技术的发展,合成DNA的价格变得更加便宜,同时也为在基因组上插入loxPsym位点提供了不同的方法。Cre/loxP重排系统已经广泛应用于各种生物体,获得多样性的柔性化细胞[35-37]。因此,细胞柔性化系统很容易推广到其他工业生产相关的微生物体系[38]。
2 细胞工厂智能化
现有的细胞工厂的元件和模块主要依赖于人们对天然生物的简单修改或突变筛选,近年来人工智能技术的快速发展在DNA、RNA和蛋白质等细胞工厂的元件和模块设计方面显示了巨大的潜力。虽然数据驱动的智能方法可以从大量数据中发现规律,但仅依赖这种方法不仅难以实现对复杂的生物学系统指数级设计空间的高效搜索,而且也无法确保设计结果的安全性和可控性。
为了克服这些问题,结合数据驱动和知识驱动的方法显得至关重要。人工细胞设计需要融合传统实验数据、生物规则和专家知识,以实现从基因元件的局部修改到全新创造、从基因网络的局部优化到整体适配、从基因组的局部替换到从头设计合成、从细胞功能的被动观测到精准控制的全面发展。双驱动的优势在于结合数据驱动和知识驱动两者的优点。虽然数据驱动方法可以利用大规模数据进行模式识别和发现,但是可能会忽略生物学规则和约束。而知识驱动方法基于生物学规则和专家知识,可以引导设计并保证符合生物学的可行性。通过将两者优点相结合,研究人员能够充分利用数据的丰富性和知识的指导性,实现高效精准的筛选和设计,推动人工细胞设计的未来发展。
基于人工基因组合成的细胞工厂柔性技术,在实际实验过程中会产生巨大数据集(基因组学、转录组学、蛋白质组学、代谢组学以及蛋白质相互作用信息等)[39-40]。同时,要实现细胞工厂的按需定制和构建,需要在基因元件、基因网络和细胞状态等层面全面发展系统化、跨尺度的合成生物系统智能设计的理论。将细胞工厂柔性化与智能化相结合是未来的趋势之一,以人工细胞工厂的多样化、定制化功能需求为牵引,重点围绕全新基因元件的智能按需设计、人工基因网络的智能适配优化、细胞状态与功能的智能精准控制3个方面,实现人工细胞设计的智能化和可控化,为创造出功能强大、精准可靠的合成生物系统提供重要的理论依据和方法支撑,如图4所示。
图4 细胞工厂智能化Fig.4 Intelligentization in cell factories
2.1 序列/基因组智能化设计
深度智能学习的进展使得新建立的模型能够更好地处理复杂的DNA序列,捕获基因组的远程相互作用。Avsec等[41]设计了Enformer模型,以Transformer模块来代替Basenji2的空洞卷积(dilated convolutions),将模型的感受野扩大了5倍,从DNA序列直接预测长程的增强子-启动子相互作用,显著提高了预测基因表达和突变效应的准确性。Dalla-Torre等[42]在来自多个物种的 850个基因组基础上训练了包含25亿个参数的大语言模型Nucleotide Transformer,以此在12个基因组预测任务中可以匹配或优于基线方法,再对模型进行微调后可以达到15个。
智能模型能够帮助研究人员探索、解释基因组的复杂调控。Vaishnav等[43]测定了超过三百万条携带不同80 bp随机序列的启动子在酿酒酵母中的激活同一荧光基因的表达强度,根据该数据建立了卷积神经网络(CNN)模型预测启动子序列与转录强度的关系,进而基于模型来研究3种常见分子进化模式:遗传漂变、稳定选择和定向选择引发的启动子表达差异,以此来展示仅基于DNA序列深度学习模型揭示基因调控序列进化规律的能力。Zrimec等[44]则从基因组和转录组数据中学习生成具有目标mRNA水平的调控 DNA序列,结果发现,57%的设计序列超过了天然对照的表达水平。Wei等[45]针对广泛应用于调控基因的CNN模型,提出全新的神经网络解释算法NeuronMotif,对多面神经元(multifaceted neuron)的混合模式进行解耦,通过反向聚类卷积层特征图实现逐层“去混合”,将不同的基序(motif)序列进行分离,即,NeuronMotif能构建基于结构化语法树的知识提取方法,以此建立从序列中自动归纳转录因子结合位点序列motif、组合语法等顺式调控元件调控规则,进而推动了基因组的透明化进程。
2.2 酶/蛋白质智能化设计
AlphaFold2在蛋白质单体结构解析领域的成功应用加速推进蛋白质智能化设计的进程。基于AlphaFold2技术,Lin等[46]去除了占用大量推理时间的多序列比对(MSA)过程,首先,在UniRef50数据库上训练了包含1.5亿个参数的掩码语言模型ESM-2;然后,将ESM-2得到的蛋白质序列编码和注意力层(attention map)接入折叠模块(Folding Trunk)和结构预测模块(Structure Module)来预测蛋白质的全原子结构,结果发现:ESMFold能够在14.2 s内完成384个氨基酸长度的蛋白质结构预测,比单个AlphaFold2模型快6倍;在较短的序列上,ESMFold的速度提升约为原来的60倍。同时发现,ESMFold在CAMEO和CSAP14数据集上的表现优于仅使用单序列输入的AlphaFold2和RoseTTAFold模型,但是依然略差于使用MSA的AlphaFold2。
人工智能对未知空间的探索能力越来越多地被应用于指导蛋白质功能改造方面。Biswas等[47]将长短期记忆网络(mLSTM)应用于无标记的蛋白质序列,先通过无监督预训练模型来学习蛋白质序列的潜在表示,然后利用少量有标注功能数据进行模型微调,结果发现,在模型的指导下,仅需要验证低通量的突变序列(N=24/96)即可获得功能提高的蛋白质。Lu等[48]使用基于3D卷积神经网络的MutCompute算法来指导聚对苯二甲酸乙二酯塑料(PET)降解酶的突变设计,得到的突变酶Fast-PETase在50 ℃下48 h内将未经处理的PET包装盒几乎完全降解,证明了用酶法降解回收塑料的工业可行性。
与对现有蛋白的突变改造相比,从头设计(de novodesign)则具有更广阔的应用前景和更高的设计难度。Wang等[49]设计了功能蛋白从头设计的理想方法:①将功能位点以最小变形嵌入蛋白支架中;②在所有可能的支架拓扑和二级结构组成中搜索满足①最佳结构;③同时生成主链结构和氨基酸序列。基于此,研究人员结合结构预测模型RoseTTAFold,提出了两种无须预先指定结构的全新蛋白设计方法:幻想法(Hallucination)和修复法(Inpainting)。幻想法从随机序列出发,计算与目标结构的损失函数,利用梯度或者蒙特卡洛采样来更新序列。修复法在结构预测的训练上添加了序列补全的任务,能够恢复缺少序列和结构的连续短片段。结合两种方法,他们成功设计了新的大肠杆菌铁蛋白、钙结合蛋白、碳酸酐酶Ⅱ和D5-3-酮甾体异构酶。Yeh等[50]将family-wide Hallucination应用到荧光素酶的从头设计上,成功获得了高选择性、高热稳定性的LuxSit-i:针对序列的从头生成,ProteinMPNN使用信息传递网络从结构出发设计蛋白质序列,在大肠杆菌中尝试表达96条设计蛋白序列,其中73条可溶且多数有较高的热稳定性;同时,使用X线晶体学、冷冻电镜和功能研究来验证了ProteinMPNN在蛋白质单体、环状同源寡聚物、四面体纳米粒子和靶结合蛋白的设计能力[51]。Huang等[52]设计的ProDESIGN-LE则从残基的局部环境出发来分配适当的残基类型,对于目标结构,通过对每个残基位置迭代更新获得最终的设计序列,结果发现,设计的5条CATⅢ酶中的3条可以成功表达且可溶。
随着去噪扩散概率模型(DDPMs)在图像和文本生成任务上取得成功,这一模型也逐渐引入蛋白设计领域。具体过程是,扩散模型在正向扩散过程将数据逐步添加噪声,再从反向过程中学习如何从高斯随机噪声中去噪恢复数据,生成结果相较于对抗生成网络(GAN)、变分自编码机(VAE)具有高度的多样性。基于RoseTTAFold的从头设计模型RFdiffusion用3D高斯噪声对残基Cα坐标进行平移扰动,模拟布朗运动对旋转矩阵进行方向扰动,训练模型在生成过程中逐步从随机噪声中恢复完整的结构,并通过ProteinMPNN设计结构对应的蛋白序列。RFdiffusion设计了包括无约束单体、高对称寡聚体、有特定motif的酶和金属结合蛋白等多种类型的蛋白[53]。Liu等[54]将SCUBA-D应用在DDPM模块中,加入氨基酸序列语言模型(ESM-1b)来同时进行扩散训练,并引入了GAN式判别器在训练中提供额外的损失。
Shi等[55]设计用所有残基一次更新来取代耗时较长的自回归生成和扩散生成方式,结果发现,PROTSEED从上下文特征中学习几何约束和相互作用,以此联合翻译蛋白质序列与结构。
2.3 代谢途径/网络智能化设计
随着智能化与自动化的发展以及代谢数据的大量积累,机器学习在途径优化和逆向合成等方面取得了巨大突破。HamediRad等[56]设计了集成自动化与智能化的BioAutomata平台来完成合成生物学的设计、构建、测试和学习(DBTL)循环,通过结合贝叶斯优化算法与自动化系统来优化番茄红素在大肠杆菌中的合成途径,结果发现:最优途径产生的番茄红素比使用随机采样法的高1.77倍;BioAutomata的评估验证的效率至少比基于回归的优化方案提高8倍。Radivojevic'等[57]利用自动推荐工具(ART),以易用直观的方式提供贝叶斯集成模型来指导代谢工程,使用8种不同的模型对预测进行投票取得较好的结果。Zhang等[58]结合了ART和EVOLVE 算法来提高色氨酸生产效率,与已经改进的参照菌株(ARO4K229L和 TRP2S65R、S76L)相比,产量和生产能力分别提高了74% 和43%。Zheng等[59]则利用简化分子线性输入规范(SMILES)从产物的分子式出发,在33 710条生物反应和62 370条有机反应上训练预测单步逆合成反应的Transformer集成模型,然后通过基于与/或树的搜索算法完成多步合成途径的构建。Sankaranarayanan等[60]用合成规划器 ASKCOS 从市售材料开始规划多步合成,然后从中识别可以由酶催化的反应,自动调用135种常用的生物催化转化反应,取得较好的结果。
对人体复杂代谢网络的深入探索同样需要人工智能发挥作用。Morselli等[61]结合图卷积神经网络、网络扩散和网络邻近性,构建多模态集合预测算法,针对SARS-CoV-2 的预期疗效对6 340种药物进行排名,结果发现,在成功减少病毒感染的77种药物中,有 76 种不与 SARS-CoV-2 靶向的蛋白质结合,表明这些药物依赖于人体调控网络的复杂机制,而使用基于对接的策略无法识别网络作用。Zheng等[62]构建了由82 270个转录特征组成的数据库ChemPert来研究转录调控网络,结果发现,响应167种非癌细胞类型中的2 566种特有的干扰因素(药物、小分子和蛋白质配体)以及57 818种扰动物的蛋白质靶标;同时发现,ChemPert提供利用非癌细胞数据集的计算工具来预测扰动后转录反应或针对所需转录组的扰动源,与基于癌症数据库的预测相比,它能够更准确地预测非癌细胞中的扰动反应和药物作用。
2.4 人工细胞智能化设计
对底盘细胞的构建、调控乃至智能化建模可推动合成生物学设计能力的进一步发展。Thornburg等[63]建立了 JCVI-syn3A 的全细胞完全动态动力学模型 (WCM):首先,利用冷冻电镜断层成像技术确定直径约为400 nm的细胞内的503个核糖体和细胞膜的位置坐标;然后,构建核糖体的三维模型,引入随机分布于细胞质中的77 000个蛋白质、200个mRNA和5 800个tRNA;最后,通过CME-ODE模型模拟细胞生长周期中浓度和反应通量的时间依赖性行为,该实验揭示了细胞如何平衡其新陈代谢、遗传信息传递和生长需求。Rukhlenko等[64]构建细胞状态转变评估和调节(cSTAR)模型,使用组学数据作为输入,定位细胞状态、建模状态转变进行并针对性地预测干预措施以改变细胞命运决策;在细胞分化和增殖模型中测试cSTAR后发现,预测和实验数据之间存在高度相关性;C.Origami模型结合DNA序列、CTCF 结合和染色质可及性的数据对细胞类型特异性染色质组织进行从头预测,检查遗传变化对染色质相互作用的影响。进一步,研究人员开发了评估单个DNA元件如何促进染色质组织的筛选方法,可以识别决定染色质结构的细胞类型特异性反式作用的调节因子[65]。
3 细胞工厂自动化
传统细胞工厂改造和筛选面临代谢网络复杂、缺乏理性设计、试错成本高以及底盘生物改造周期长等瓶颈问题,细胞工厂自动化平台将自动化、机器人技术和细胞工厂构建相结合,通过导轨和机械手臂实现自动化操作。这种自动化操作可以提高实验操作的稳定性,相比传统技术,它能解决操作繁琐、耗时、易错和难以规模化的问题,从而大大提高了研发效率。同时,细胞工厂柔性化过程会产生许多中间体的菌株,需要耗费大量的时间和精力来进行复杂的基因操作。可以预见,自动化和高通量化在细胞改造和筛选方面有着巨大的应用价值。然而,细胞工厂自动化是一个交叉领域,涉及机械工程、自动化、计算机和生命科学等多个学科,需要各方面共同努力,才能向更高程度的自动化方向发展。
细胞工厂自动化利用集成的基础设施,以实现对生物体进行快速设计、构建和测试,用于生物技术研究和应用。为了加强交流合作,推动自动化设施平台的发展,2019年5月,天津大学和中国科学院深圳先进技术研究院作为我国两家发起单位,与全球16个科研机构成立了“全球合成生物设施联盟”(Global Biofoundry Alliance,GBA)[66],根据GBA官网显示,截至2023年6月,GBA成员已达33个(https:∥www.biofoundries.org),其中有5 家单位来自中国,分别是天津大学合成生物学前沿科学中心、中国科学院深圳先进技术研究院、中国科学院天津工业生物技术研究所、国家蛋白质科学中心(上海)和浙江大学杭州国际科创中心[67]。
近年来,美国在合成生物技术和设施方面的总投入在120亿美元以上,英国在合成生物学技术和设施领域的总投入已经超过1.25亿英镑。目前,世界上已有40余套细胞工厂研究平台。可以说,细胞工厂研究平台已经成为推动合成生物学发展的核心动力。从发展趋势看,具体的研究设施由小到大、由单一到综合性方向发展,呈现美中英三足鼎立的竞争态势。美国国防部和能源部等国家部委先后部署了一批总计14亿美金的项目,主要目的在于适应性、规模化、按需生产种类丰富的高附加值化学分子和材料,以支撑特种材料、医药等多种产品的快速供应。
美国所支持细胞工厂自动化主要体现在DNA设计合成、底盘细胞构建和发酵验证等。Ginkgo Bioworks目前已投资超7亿美元,平台包含全流程自动化装置(微生物和哺乳动物)、DNA合成装置和设计平台装置。Zymergen目前已投资5亿美元,建立了世界上最大的宏基因组数据库,目前已被Ginkgo Bioworks收购。Amyris投资超5亿美元,通过建立生物铸造厂将特别设计的基因线路自动化装载到活细胞中,并辅以高通量测试,利用机器学习技术运行DBTL周期循环,来实现工程化的海量试错以缩短设计周期,Amyris同样注重产品,主要服务于香精香料、化妆品、药品和营养保健品市场。伊利诺伊大学的iBioFAB实现了酿酒酵母定向进化的自动化操作方法,并用于提高乙酸耐受性能的高通量筛选[68],随后在2022年实现了质粒构建的自动化和高通量[69]。英国也布局了多个自动化平台。英国爱丁堡大学的EGF 可以实现每周完成2 000个DNA的组装,通量相当于研究人员手工操作的20倍[70]。英、美等国现有的自动化设施仍存在一定的局限性,许多研发需求仍未能满足,相关领域的发展仍面临障碍。2023年3月23日,美国政府公布的《美国生物技术和向生物制造进军》中明确其发展目标,进一步支撑细胞工厂自动化设施的建设,其中重要的目标是20年内,为应对政治冲突和新冠疫情等突发情况,建立一套先进的生物制造平台,能够在发现供应链缺口的一周内给出应对策略,并推动80%的生物制造产品产业化,满足美国国内的需求;在5年内通过推进和整合数据标准和工具,启动数据基础设施建设;在20年内建立健全生物制造自动化基础设施,以实现产品的快速开发和工艺优化。
近几年国内合成生物产业呈现爆发式增长,不仅仅是高校等研究机构加快布局自动化细胞工厂设施,搭建自动化、高通量技术平台的合成生物公司细胞工厂也不断涌现,如恩和生物、欣贝莱生物、态创生物、酶赛生物、惠利生物、衍进科技和元腾生物等公司[71]。自动化装置涉及DNA的自动组装、元件设计、底盘配对、高通量筛选和发酵验证在内的多个自动化功能模块,可以帮助研究人员大幅提高实验效率,产生的大量高质量数据同时与智能化相结合,有望以高通量、低成本、多循环地实现细胞工厂构建过程中“设计—构建—测试—学习”的自动化运行,加速合成生物学在基础及相关应用领域的研究效率。
细胞工厂自动化设施未来的发展可能需要在以下几个方面进行重点布局:基于细胞本身具有复杂的基因调控网络、细胞代谢过程和动态的相互作用,开发高通量基因-表型关联的自动化系统;建立协议、工作流程和数据格式的标准化和可重复性原则,确保不同生物基础平台和实验的结果一致且可重复;由于语言、方法和观点的差异,所以自动化设施平台需要相关领域专家密切合作,跨越细胞工厂自动化跨学科的差距,达到有效的学科融合、知识构建和平台建立。
4 结论与展望
通过柔性化细胞产生的多样化基因型变异库涉及大量基因座的变化以及在细胞工厂柔性化过程中会产生许多中间体菌株,需要耗费大量的时间和精力来进行复杂的基因操作。同时,细胞工厂柔性化过程中会产生的巨大数据集(基因组学、转录组学、蛋白质组学、代谢组学、蛋白质相互作用信息等),需要分析处理、特征提取并转化为更容易理解的信息。因此,柔性化细胞工厂与人工智能(AI)/机器学习(ML)相结合是重要的发展方向。同时,在这个过程中引入自动化高通量平台,以此来加快柔性化细胞工厂所需产生优势菌株的筛选和验证过程。细胞工厂自动化平台可进一步推动未来生物设施平台的开发和应用。将细胞工厂的柔性化、自动化、智能化三者结合,通过加速研发、创新、再现性、标准化、数据驱动决策、协作和知识共享等方面融合,可以解决当前细胞工厂面临的瓶颈问题,如代谢网络复杂、缺乏理性设计、试错成本高及底盘生物改造周期长等。
人工细胞工厂的研究涉及生物学、化学、物理学、计算机科学和机械工程等学科领域,需要各个领域的专家协同合作,才能够推动人工细胞工厂的发展。柔性化、自动化、智能化细胞工厂将是未来合成生物学领域发展的颠覆性突破,带来生命健康、医药、农业和化工等领域的巨大变革,产生难以估量的社会效益和经济效益。