功能拓扑的理性设计及其在合成生物学中的应用
2023-07-10孙智杨宁娄春波汤超杨晓静
孙智,杨宁,娄春波,汤超,杨晓静
(1 北京大学定量生物学中心,北京大学-清华大学生命科学联合中心,北京大学前沿学科交叉研究院,北京大学,北京100871; 2 中国科学院深圳先进技术研究院,细胞与基因线路设计中心,广东 深圳 518000)
生物网络可以精确、鲁棒地执行各种各样的复杂功能,理解其背后调控机制是生物学研究的核心。由于生物系统的高复杂度,从还原论的角度厘清调控涉及的所有分子间的作用细节是繁琐且不现实的,而从系统论出发,可以将我们关心的调控关系抽象为由节点和边组成的调控网络,将复杂问题简单化。对生物调控网络的研究不仅可以帮助我们宏观地理解生物系统的工作机制,同时也使得设计和合成特定的生物学功能变为可能。事实上,在以再造、重构生命系统为核心的合成生物学中,功能拓扑(基因回路)的构建已经成为其至关重要的一环。本文中,我们结合系统生物学和合成生物学,对网络功能拓扑的理性设计及其在合成生物学中应用进行了综述。本文分为三个部分:生物网络拓扑结构和功能的关系,功能拓扑的理性设计,以及功能拓扑在合成生物学的应用。
1 生物网络拓扑结构和功能的关系
1.1 自然界生物调控网络结构呈现模块化
自然界生物系统中的调控网络无疑是复杂的,即使是简化后的生物调控网络依旧是十分巨大且复杂的,纵然是低等的原核生物大肠杆菌(E.coli)也包含了约4500个基因,编码了上千种执行不同功能的蛋白质。直接理解上千个基因的复杂网络无疑是困难的,一种朴素的想法是能否把复杂的调控网络先拆分成若干简单的网络“模块”(motif),即网络的连接模式,通过先研究清楚简单模块的结构和功能,再通过组装模块来获得能实现复杂功能的网络[1]。事实上,2000年Barabasi等[2]就发现生物网络在统计性质上不同于随机网络,其结构呈现高度模块化,有些生物网络具有尺度不变性(scale free)。随后Alon等[3]的研究进一步表明,相比于随机网络,大肠杆菌的转录调控网络中存在一些频繁出现的模块,这些高频模块是在一定物理(如扩散常数)和生化(如酶催化反应速率)等约束条件下,生物朝着提高适应度(fitness)的方向进化的结果[4]。
在这些转录调控模块中,最简单和常见的一类是自调控(autoregulation)[5-6],指的是该基因可以直接或间接地调控自身的转录速率。其中,直接调控表明该基因表达的转录因子可以直接结合到自身的启动子上,而间接调控则是通过其他基因建立反馈通路(feedback loop)间接地影响自身的转录速率。这些自调控又可以按照调控作用是激活还是抑制进一步分为正反馈(positive feedback)和负反馈(negative feedback)。在大肠杆菌基因组中鉴定出的198个操纵子单元中,有118个具有转录因子的自调控结构,这其中又以负反馈占多数(76%,90/118)[7]。人们推测自调控结构之所以广泛存在是因为它可以为基因表达带来一定的功能优势,比如正反馈作用通常会导致系统更加敏感,会放大系统受到的扰动,极端情况下会产生双稳态(bistability,即系统仅存在两个能够稳定存在的状态:在低于某个浓度阈值下,系统会收敛到低态,而高于该阈值时,系统会跳转到高态[8])。双稳态对于表观记忆(即相同基因型的细胞能够分化并维持为不同表型的能力)的形成至关重要[9],比如在λ噬菌体的裂解态-溶原态命运决定(lysis-lysogeny decision)中,其核心调控即为两个转录因子(CI和Cro)相互抑制形成的正反馈通路[10]。相反,负反馈网络则会增加系统抗扰动的能力[8,11-13],加速系统达到稳态的过程[5],这对于维持系统的长期稳定十分重要,因此负反馈网络经常出现在压力应激系统中,例如大肠杆菌的热刺激响应的核心网络即为负反馈网络[14]。另外,具有延迟的负反馈网络还能够使得系统产生振荡行为(oscillation),例如NF-κB通路中的振荡行为即通过该机制实现[15]。
除自调控外,另一类在真实网络中频繁出现的模块是前馈通路(feedforward loop),即一个上游节点通过两条长度不同的路径连接到下游节点。根据这两条路径的调控作用是相同还是相反,可以将前馈通路分为两大类:若两条路径均为激活或抑制作用,称为一致前馈通路(coherent feedforward loop);若其中一条路径为激活作用,另一条路径为抑制作用,称为不一致前馈通路(incoherent feedforward loop)。前馈通路对于生物系统的动力学响应具有重要意义,例如一致前馈通路可以作为持续性检测器(persistence detector),即只有当输入持续超过一定刺激时间系统才会开启。其原理是下游节点作为最终的信号整合节点,只有当两个通路的信号同时到达时才会被启动。这种持续性检测模块可以过滤高频的噪声信号,避免不必要的动力学响应[8]。不一致前馈通路则可以实现生物的适应性(adaptation),即当外界环境信号发生改变时,系统首先响应信号的变化,在一段时间后又回到接近初始状态的过程。适应性功能一方面可以使系统在一定的响应时间内,以一定的响应强度来将外界信号的改变有效地传递至下游,从而使生物体能够响应环境的改变,另一方面又通过重置系统使其回归到信号改变之前的稳态,从而使系统做好响应下一次外界刺激变化的准备,适应性使生物可以响应外界刺激的变化而不是刺激的绝对值,从而实现了大范围内对刺激的高敏感性[16]。
1.2 生物功能对网络拓扑结构存在明显的限制
生物系统为了在变化的环境中生存而不断进化。人们推测在如此繁杂的生物世界里一定存在着一些可以适用于多种组织水平的普适性规律。即使生物演化从头再来,虽然其中一些细节可能会有所不同,这些规律依然还会出现。如上文所述,生物系统中存在反复出现的具有特定功能的网络模块,比如控制时序表达、执行可靠的细胞决定以及执行鲁棒且可调谐的生物振荡等等。这些现象和研究结果暗示着尽管生物网络表面上看上去非常复杂,但对于特定的功能,也许仅存在有限个可以鲁棒地执行该功能的网络拓扑结构。这些拓扑结构可能因为存在较少的参数约束而更有优势。尽管在不同的生物系统中,由于生化参数和演化历史不同,具体的一些细节可能非常不同(如参与该功能的分子类型、数目、作用方式等),但实现该功能核心网络的拓扑结构则可能完全相同。
2006年,马文喆等[17]通过建立网络的粗粒化模型并穷举网络空间的行为,发现功能确实对网络核心拓扑存在限制。2009年马文喆等[18]又进一步通过建立粗粒化模型、穷举网络空间及理论分析,发现如果要实现适应性,有两类网络拓扑结构必具其一。功能对实现它的网络拓扑有着很强的限制,暗示着复杂且多样的生物网络背后,有着简约的设计原理,这些原理不仅能帮助我们理解自然体系,也可以指导我们设计人工合成的生物系统。
除此以外,生物网络通过节点间相互作用来执行和调控生物功能,是一个动态过程。即使细胞状态不变,其中的网络也处在动态平衡过程中。网络动力学的研究不仅被用来模拟生物过程,对一些重要的理论和概念的建立也至关重要。如1997年Barkai和Leibler[19]通过建立大肠杆菌趋化适应性的动力学模型,定量研究了生物网络鲁棒性的问题。对细胞周期等自然系统的研究表明生物系统的鲁棒性很大程度上依赖于网络拓扑结构[20]。
2 生物功能网络的理性设计
调控网络的功能和结构之间存在着密切的对应关系,特定的功能往往由特定的网络结构来实现。然而,仅从自然界中搜索调控模块并研究其对应功能是远远不够的,这是因为:其一,尽管当今生物组学数据规模和精度日益增加,但数据中一般不直接包含调控网络的信息,而从组学数据出发的网络推断本身是困难且不准确的;其二,调控网络的功能和结构之间并不是简单的一一对应关系。一方面,一种功能可以通过多种网络结构实现,例如,生物系统的适应性功能既可以通过负反馈网络也可以通过不一致前馈网络实现;另一方面,一种网络结构也可以实现多种功能,例如,细胞周期中实现振荡功能与细菌趋化性过程中的适应性功能同样都是通过负反馈网络来实现的。也就是说,从自然界中寻找到的网络模块只是在特定约束下生物进化得到的一种可行解,未必是理论最优解,在不同约束下从头进化可能得到完全不一样的网络结构。因此,我们需要从理论上对更大范围的网络空间进行探索,寻找更加普适的网络结构和功能的关系,探究生物调控网络的设计原理[4]。
这里值得一提的是,传统的从自然界识别生物模块的研究范式可以认为是自下而上(bottom-up)的,从网络结构到功能的研究范式,而理性设计的研究范式则是自上而下(top-down)的,也即从目标功能开始,逆向到寻找可能实现该功能的网络结构。在这种研究范式下,我们需要对网络空间进行大范围的搜索,目前常用的搜索方法可以分为穷举法和优化法两种,接下来分别进行介绍(图1)。
图1 生物功能网络的理性设计流程(a)确定需要研究的生物功能。(b)选择设计方法:穷举法或优化法。(c)两种方法的具体实现流程。穷举法:根据反应类型确定常微分方程(ODE),并随机对参数采样并模拟ODE,最后根据功能筛选拓扑。优化法:用神经网络描述ODE,并优化目标功能对应的误差函数,最后通过敲除实验获得拓扑。(d)获得最终的拓扑结构Fig.1 Rational design for biological networks(a) Identification of biological functions.(b) Two typical design methods: enumeration and optimization.(c) Workflow for these methods.Enumeration method: determining ODE (ordinary differential equation) according to reaction types, randomly sampling parameters to simulate ODE,and finally filtering topological networks with their functions as criteria.Optimization method: describing ODE by neural network to optimize the error function, and finally obtaining the topological networks by knockout experiments.(d) Determination of the final topological networks
2.1 穷举法
顾名思义,穷举法的搜索策略是穷举整个的网络空间,即在合理的参数区间内,通过评估每个网络执行功能的能力,保留能够实现目标功能的网络和参数(图1)。这种全局性搜索需要的计算量通常较大,三节点的网络结构就有多达19 683种(每条边仅包含激活、抑制、无相互作用三种调控),每条边又对应多组参数选择,因此对于节点数多的系统可能难以计算,一般适用于四节点以下的系统。然而这种方法的好处是可以避免优化法对初始网络状态的依赖,寻找到全局最优解,让我们对功能到网络结构的映射关系有一个完整清晰的认识。
之前的研究已经利用穷举法对于能实现生物单功能的网络结构做了很好的搜索,这些功能包括双稳[21]、适应性[18]、振荡[22]、体节发育[17]、细胞极性[23]的形成等。这其中被最为广泛研究的例子是适应性[18]。2009年,马文喆等[18]利用穷举法,研究了酶促反应过程中可以实现适应性的网络,找到了所有可以完成适应性的三节点网络结构和其相应的原理。该研究通过穷举三节点以内的网络,对其基于米氏方程建立的常微分方程模型进行阶梯状输入信号的刺激。在模拟中,每个网络都有10 000套随机采样的动力学参数。研究中为了检验适应性功能的实现情况,定义了如下标准:首先,系统的输出节点对外界信号需要有一定的响应幅度;其次,输出节点最终回到相当接近信号改变前的初始状态;最后,实现功能的网络是鲁棒的。为了衡量鲁棒性定义了Q值,即每个网络实现目标功能的参数套数占总采样套数的比例,Q值超过一定的阈值即被认为是鲁棒的。穷举的结果发现在上万种网络结构中,总共有400多个网络显示出鲁棒的适应性,进一步分析表明,所有400多个网络可以总结为两类基本模块,即负反馈和不一致前馈,而这两类拓扑结构也正是大肠杆菌和盘状细胞黏菌(Dictyostelium discoideum)在趋化过程中产生适应性所使用的拓扑结构[18,23]。
近年来,人们开始尝试用穷举法讨论更为复杂的多功能网络,如同时实现振荡和适应性双功能网络[24],能同时响应调频和调幅的输入信号的转录网络[25]以及能实现适应性和抗噪双功能[26]、振荡和抗噪双功能的网络[27]等等。这些工作极大地丰富了我们对于调控网络结构和功能的认识(表1)。
表1 理论上获得的典型功能拓扑Table 1 Typical functional topology developed theoretically
2.2 优化法
如前所述,穷举法随着网络规模的增加,计算量是指数增加的,因此无法适用于大网络的搜索。取而代之的是优化法,它可以通过对所需功能的目标函数进行优化,避免大规模穷举以减少计算量,因此可以适用于更大规模的网络。早期的优化法主要指进化算法,它是一种模拟真实生物进化过程的算法。进化算法从随机的网络结构、初始节点状态、参数出发,进行数代进化。在每一轮的进化模拟中,网络将进行一轮突变,包括节点的增加或者删除、边的增加或者删除、动力学参数的扰动等等,继而在每一代的模拟中挑选出较好(目标函数分数高)的一定比例网络进行保留以及复制(也可以选择进行网络结构杂交,将结构上有差异的部分进行互换),如此迭代进化。在多轮突变和选择之后,最后保留下来的便是具有一定功能的网络拓扑以及相应的工作参数[29]。人们已经利用进化算法对双稳[29]、振荡[29]、适应性[30]、发育斑图的形成[31]等简单的生物功能进行了网络结构上的搜索。
近些年,随着深度学习的应用越来越广泛[32],人们开始尝试利用深度神经网络来代替进化算法对目标函数进行优化以提高搜索效率[33-34](图1)。具体而言,节点之间的调控关系可以用一个循环神经网络来描述,其输入是各节点当前时刻的浓度,输出是该时刻各节点相互调控后的浓度增量。通过定义动力学上的目标函数,可以对神经网络的参数进行优化,最终得到满足目标功能的网络参数。为了从优化后的调控函数中提取出离散的调控网络,可以仿照生物学家的思路对系统进行敲除实验,即将某个输出节点的值设为0,看对应输出节点的变化。若基因A输入设为0后,基因B的表达量降低了,那就说明A对B为激活作用,以此可以将调控函数对应的拓扑找到。通过深度学习的方法也可以对适应性、振荡、斑图形成等生物功能进行行之有效的搜索,并得到和生物进化类似的解[33]。使用优化法做网络搜索,尽管效率大大提高,也能对大网络进行搜索,然而其结果依赖于算法的初始状态,因此容易陷入局部最优解,无法像穷举法一样遍历整个网络空间,如何改进搜索算法,使得在保证效率的同时尽可能地探索更大范围的网络空间是未来的改进方向之一。
3 功能拓扑在合成生物学中的应用
对于以再造、重构生命系统为核心的合成生物学而言,围绕特定的功能需求进行基因回路的设计与构建无疑是其学科发展的重要组成部分。在系统生物学探索功能拓扑的设计原理的同时,合成生物学也通过实际构建的方法探究着各种具有不同功能的网络拓扑。本文接下来的部分将围绕近年来合成生物学在实际系统中基因回路的设计和构建展开。具体将以基于转录调控的基因线路为主,按照其内部调控节点的数目,系统介绍不同拓扑结构被用来实现的具体功能及其典型实例。最后介绍了近期自动化设计集成基因线路的发展、非转录多层次调控机制以及网络鲁棒性的设计原理。本综述中介绍的已实际构建与验证的拓扑结构和基因回路,其功能特点与主要基因元件归纳见表2。
表2 已构建实现的基因线路及功能统计Table 2 Functional topology that has been constructed and used in synthetic biology
对天然生命系统中调控功能的研究最早始于对细菌中操纵子基因表达调控的机制,同时转录调控尤其是原核生物的转录调控也是目前理解最为充分的一类调控机制。因此,合成生物学基因回路最初也多以转录因子作为线路中的设计节点,以转录因子对相关启动子转录活性的调节作为节点间的连接关系来进行设计。依据线路中的转录因子/单元个数,这里我们将其划分为单节点、双节点以及多节点调控基因回路。
3.1 单节点自调控回路
单节点的自调控是最简单的拓扑结构,它在设计上通常构成一个转录表达单元,该转录单元编码的蛋白即为转录因子,而其使用的启动子即为该转录因子调控的启动子。根据其对自身表达的阻遏或促进作用,分为自抑制和自激活两类,少数节点可同时存在自抑制和自激活的调控。
自抑制回路(负反馈)通常基于抑制型转录因子(或称阻遏子)设计,依靠其分子作用机制,通过占位效应与RNA聚合酶竞争启动子结合位点,或通过路障效应阻碍转录延伸。功能上,负反馈被认为:①能够有效控制下游信号受环境噪声波动产生的异质性。Becskei 与Serrano[11]构建了基于转录因子TetR的自抑制回路,实验发现相比于开环结构,自抑制回路确实能够降低不同个体中的表达水平的异质性,并进一步证明了可通过使用aTc诱导剂调整抑制强度对表达水平变异程度进行控制。②改变系统的动力学行为。Rosenfeld等[5]同样基于TetR构建了自抑制回路,并实时测量了该线路的荧光输出随时间的变化。他们将从线路开启表达的瞬间开始到线路的输出达到其最大值的一半时所需要的时间定义为响应速度,实验发现自抑制回路的响应速度比开环对照组快5倍[5]。值得一提的是,在随后的工作中,Rosenfeld等[115-116]利用延时荧光显微观测技术对自抑制回路进行了单细胞水平的实时观测,结合细菌生长速率以及转录因子合成速率两个速率参数的独立测量,对自抑制回路的表达水平实现了定量水平的从头预测。除此以外,Nevozhay等[35]在真核生物芽殖酵母中构建了aTc-TetR诱导表达系统,并通过在原有拓扑结构上叠加自抑制调控,将系统由原来对诱导剂的协同性响应模式改变为线性响应。此外,实验中还观察到自抑制结构同时具有提高对上游信号剂量响应灵敏度的功能。后续工作将该自抑制结构跨物种迁移到哺乳动物细胞中,在经过了对高等真核细胞底盘的适配调整后,实现了单模态、低噪声、线性化的剂量响应功能[36];近期同样利用该线性化响应模块结合光感元件模块在哺乳动物细胞中实现了高精度光遗传控制[37],展示了自抑制回路的功能在生物系统中具有的普适意义和应用价值。
自激活回路(正反馈)在构建上利用激活型转录因子(或称激活子),利用特定结构域对于RNA聚合酶的招募作用,促进对结合位点下游邻近启动子的转录。①当正反馈达到一定强度,系统呈现双稳态,可以实现开关效应。Longo等[40]利用哺乳动物细胞中的转录激活因子rtTA构建自激活线路,对双稳态诱导切换的变化过程进行了动态观测,观察到了一系列转变中间过程的双峰分布情况。②当正反馈强度进一步加强,可以出现“磁滞”现象(hysteresis),即系统被一定强度信号刺激到达一个状态后具有了记忆性,降低甚至撤掉信号系统仍可以维持原有状态,即系统的状态与历史有关。Kramer与Fussenegger[41]在哺乳动物细胞中构建了基于tTA-VP16的自激活线路,并利用红霉素诱导解离的嵌合型转录沉默元件EKRAB额外调控启动子的转录强度。实验发现,即使最终走到同一诱导强度,不同初始状态条件也会令自激活线路产生不同的状态变化过程。与之类似,Chen与Arkin[42]在细菌中设计了RNA聚合酶中σ因子SigW的自激活线路,利用RsiW对SigW的拮抗作用实现“分子锁存”(molecular sequestration)功能,调谐RsiW的表达量观测到SigW的“磁滞区间”,诱导额外的SigW表达可进一步令“磁滞区间”在RsiW的浓度范围内“滑动”,实现更灵活的记忆状态控制。对于如何控制和调试双稳态“磁滞区间”还有更多的研究,如可以通过双重正反馈嵌套扩大“磁滞区间”动态范围等[117]。除此以外,Ajo-Franklin等[38]在芽殖酵母中设计了DBD-VP64的嵌合转录激活因子,构建了自激活回路,并利用另一pGal1启动子驱动的转录激活因子接收上游信号控制。通过在培养时控制诱导信号(乳糖浓度),自激活线路被成功地由低表达“拨动”到高表达状态,并在信号撤去后依旧维持高表达。后续工作在哺乳动物细胞中利用锌指蛋白-VP64转录激活复合体构建自激活回路和承接不同的上游信号[39]。该系统被用于记录不同事件,如诱导剂、低氧、DNA损伤等瞬时刺激,通过双稳态表型区分不同应激程度的单细胞,从而可用于更有效、准确地评估各类刺激对于细胞其他内源生理状态的影响。
3.2 双节点调控回路
双节点调控回路在构成上包含两个相互作用的功能单元,设计上一般由两个基因表达框构成。依据两个节点间不同的反馈类型,可分为正反馈和负反馈。在构建双节点线路时可以组合在单节点中出现的自抑制、自激活回路。
经典的双节点正反馈回路就是Gardner等[43]最初设计构建“拨动开关”(toggle switch)合成基因回路的工作,即利用转录因子LacⅠ和R1构建了相互转录抑制的拨动开关基因回路。利用IPTG诱导剂对LacⅠ的解抑制和R1的温敏特性,瞬时改变线路所处的诱导剂浓度状态或培养温度,可以执行双稳态开关的拨动效果。构建该遗传拨动开关的工作激发了大量对于基因线路状态控制的研究和探索,大家相继实现了利用紫外辐射DNA损伤通路[44],阻遏蛋白的蛋白酶降解[45]等作为拨动开关的控制信号。最初版本的拨动开关聚焦于基因回路中的互抑制开关调控,Wu等[46]设计了拨动开关的上游开关,使用上游激活序列(UAS)与乳糖启动子pGal作为线路中互抑制转录因子的启动子,通过调整培养基的碳源条件直接控制基因回路的运行,期间作者们记录了基因回路的整个变化路径,发现系统是先过渡到中间的不稳定动态平衡点,再由此走到两个最终稳定平衡点的两阶段过程,首次生动展现了基因回路在相空间中的演化景观。Wu等[118]随后对更复杂的多重嵌套自激活回路进行了研究,系统转变过程中,信号变化的顺序影响了最终回路的状态,在某些信号顺序条件下线路可表现出多达4个稳态,而在某种特定顺序下仅能形成双稳态,充分体现了双稳态基因回路结构的记忆功能和线路动态演化的路径依赖性。近年来,越来越多的系统被用来在不同底盘细胞中构建拨动开关,Kramer等[47]通过设计转录因子PIP-KRAB与E-KRAB的相互转录抑制在中国仓鼠卵巢细胞系(CHO-K1)中实现了拨动开关。Lebar等[48]利用TALE系统,通过叠加自激活线路增大了TALE的协同性,从而在完全使用无协同性转录因子的情况下依靠线路设计最终在哺乳动物细胞中获得了拨动开关。Li等[49]进一步系统性地设计了26个彼此正交的TALE阻遏子,通过在启动子区串联多个TALE结合位点提高其协同效应并构建了拨动开关。作者们以小发卡RNA(shRNA)对转录本的干扰沉默作为该线路的拨动信号,能够在纳克(ng)量级响应并切换线路状态,同时利用该线路能够实现对细胞内源RNA表达种类的有效识别,因此也可用于对处于不同状态细胞亚群的鉴定。对拨动开关基因回路的构建和深入理解同时引领研究者对线路功能进行定量、可预测的构建和设计。Chen等[50]基于CI和CI434两个阻遏蛋白设计了互抑制回路,建模分析发现可通过对于两个阻遏蛋白翻译强度的控制调谐出现双稳态。作者们继而对两个蛋白的核糖体结合位点区(RBS)进行了突变建库,分析了RBS折叠的热力学吉布斯自由能变,据此估计了翻译强度,构建了基于核糖体结合概率的统计热力学模型。围绕此预测,独立设计不同折叠自由能的RBS,其构建线路最终表现出的双稳态行为与预测结果吻合[119]。该工作有效结合理论模拟与实验验证,利用对底层元件的刻画直接预测了系统功能表型,展示了基于第一性原理对基因回路进行定量可预测设计的能力。
双节点负反馈回路在形式上为“激活-抑制”。它最经典的功能应用是“振荡”。Stricker等[51]首先在细菌中基于阻遏蛋白LacⅠ和激活蛋白AraC构建了振荡回路。其中,LacⅠ同时抑制自身与AraC,AraC也同时激活自身与LacⅠ,构成了双节点负反馈同时各节点自调控(正/负自反馈)的多反馈嵌合线路。该线路能够产生多次振荡,且通过诱导剂IPTG和阿拉伯糖可对线路的振荡周期进行调节,动力学模型显示,负反馈的时间延迟是线路产生振荡行为的首要条件,正反馈对于线路行为的鲁棒性和可调节性起到增强效果。Hussain等[52]后续研究发现该线路的振荡周期与温度呈负相关关系,线路内的生化反应动力学受到温度的决定,作者们进而设计了温敏LacⅠ元件(tsLacⅠ),运用到振荡线路中以补偿温度变化,从而使线路的振荡周期对环境温度波动具备了鲁棒性。Mondragón-Palomino等[53]进一步研究了当存在周期性外部环境信号时上述线路的振荡行为。振荡功能是生物界中普遍存在的生物节律现象的基础。Tigges等[54]利用正/反义mRNA首先在哺乳动物细胞中设计了双节点负反馈线路。并在随后的工作中,将正/反义mRNA的负反馈替换为基于siRNA的RISC干预降解作用,在单细胞水平观察到了周期近似为26 h的低频振荡,接近天然昼夜节律的周期特征[55]。双节点负反馈拓扑的另外一个功能应用是适应性(adaptation)。孙智等[56]以史文佳[120]、张明悦[24]等理论工作得到的最优拓扑为依据,在细菌中构建了符合拓扑结构且满足关键参数条件的双节点基因线路,实验系统实现了精确的适应性功能,同时在多种不同环境下均表现出鲁棒性[56]。
3.3 多节点调控回路
多节点回路含有3个及以上的功能节点,同样可以组合在单节点和双节点中出现的拓扑结构。根据其拓扑结构,可划分为以下有代表性的几类:负反馈回路、前馈回路、组合逻辑门线路等。
首先,多节点间可通过遍历所有节点首尾依次串联成环,当存在奇数个抑制作用调控时,构成负反馈回路。多节点负反馈最经典的应用是抑制振荡子(repressilator)。2000年Elowitz与Leibler[28]率先在E.coli中进行了三节点负反馈回路的构建,这也是合成生物学构建的第一个人工拓扑结构。作者们使用了3个抑制型转录因子(TetR,LacⅠ,λCI),并令每一个转录因子所调控的启动子控制下游转录因子的表达构成了抑制振荡子,实现了周期性振荡。在之后的工作中,Potvin-Trottier等[57]针对原始版本抑制振荡子振荡不稳定的问题进行了改造,改造后的抑制振荡子可在摇瓶培养和平板单克隆生长等复杂条件下仅依靠细胞内的基因回路作用产生宏观水平的群体同步振荡。同样为解决合成基因回路的功能稳定性问题,Luro等[58]结合微流控芯片和光阱捕获技术,发展了实时观测选菌和回收后纯培养的策略,通过拓扑结构设计结合大规模表达强度建库筛选,获得了功能更稳定的菌株。构建抑制振荡子或拨动开关等基础回路也被作为检验新开发合成生物学基础调控元件功能特性的参考手段。
多节点同时可以形成前馈,如前所述,前馈根据两条调控线路作用到输出节点的效果是否一致,分为一致前馈和不一致前馈[121]。不同的前馈回路可能具有如信号加速器、延迟器、脉冲发生器等功能[59-64]。在合成生物学中应用比较多的是不一致前馈,其在时间响应上表现为脉冲发生器(pulse-generator),在空间(浓度梯度)响应上表现为带通滤波器(band-pass filter)的功能。Basu等[65]设计了接收AHL小分子浓度信号的基因回路,组成型表达的转录因子LuxR可在AHL的诱导条件下激活CI和GFP的表达,CI随之抑制GFP的转录,构成了LuxR-CI-GFP的不一致前馈,在该系统中GFP的表达与否取决于LuxR受诱导激活开启转录,且CI尚未达到有效抑制浓度的时间窗口。作者们进一步将带通滤波器功能应用到了空间,设计了可合成AHL的发送菌,在固体培养基上将发送菌与接收菌进行共培养,发现接收菌距离发送菌的远近影响了回路中产生GFP脉冲发生的时间[65]。随后的工作中,作者们进一步拓展了不一致前馈的空间行为,理论分析了空间上不同位置的接收菌表达模式的时空演变,实验验证了空间中存在多个发送源时形成的复杂表达模式[66]。Tabor等[6]通过设计光敏传感器,利用不一致前馈实现了边界探测器。Greber与Fussenegger[68]利用tTA激活转录沉默元件E-KRAB和Pip构成不一致前馈,在CHO细胞系中构建了带通检测器。对基因回路的表达模式实现精准控制依赖于对其内部各基因元件功能及其组合相互作用的准确定量,张浩千等[122]开发了对基因元件功能精确表征的测量方法,随后利用该方法对E.coli中的转录激活元件和转录抑制元件进行了转换曲线的精确定量,结合绝缘化装配策略,批量构建了不一致前馈回路,利用元件参数独立预测线路的带通滤波器行为,实验验证与理论预测能够在定量水平上保持一致[69]。
除此以外,多节点网络同时使得构建复杂的逻辑线路变为可能。逻辑线路是对线路中输入/输出信号进行了离散化处理,组合逻辑门线路需要多个输入信号共同对线路进行调控。线路对每种输入信号所处逻辑状态均可执行“计算”,最终获得输入组合与输出结果的“真值表”。Guet等[70]最初利用抑制振荡子中的三个基本元件(LacⅠ、TetR、λCI),通过打乱启动子控制的顺序设计了一系列逻辑线路,在诱导剂IPTG、aTc的组合情况下表现出不同的逻辑行为,展示了利用生物介质执行逻辑运算的可能性。随后更多对逻辑线路进行构建和探索的研究工作就此展开。为解决设计任意逻辑门线路的功能完备性,Tamsir等[71]设计了利用双启动子构建OR Gate控制阻遏蛋白NOT Gate,构成了NOR Gate(与非门)的基本框架,理论上可由该基本单元的排布组合进行任意逻辑门的设计。Stanton等[72]设计了一套从原核TetR家族转录因子中进行筛选的策略,最终获得16个可作为NOT Gate的高质量阻遏子,可供支持构建1054种不同的逻辑运算线路,足以展开用户自定义的设计。此外,在元件设计方面也有关于组合逻辑门的工作,如通过设计核糖脚踏开关(toehold switch),在翻译水平引入逻辑控制,实现一次性整合多输入信号的逻辑计算[123-124]。常规逻辑线路中,每一次的输入信号是彼此独立的,不存在出现顺序或次数对最终逻辑真值的影响。在某些特殊情况下,线路不仅会计算当前输入信号的状态,输入信号的历史与顺序也会影响最终的输出值,此时线路对输入信号具有了记忆功能,称这类线路表现为时序逻辑(sequential logic)。娄春波等[73]率先构建了具有单输入信号和单层历史记忆的时序逻辑线路。张浩千等[74]基于上述单输入时序逻辑线路构建了更为复杂的双输入型条件逻辑线路,线路根据某种输入情况在过去发生与否决定未来对当前输入采取何种响应,从行为上类似经典的巴甫洛夫实验:通过后天习得所建立的条件反射活动[74]。Andrews等[75]在时序逻辑基础上,利用正反馈线路的磁滞特点,进一步设计了锁存结构(set-reset latch),可更灵活地对记忆模块的“可修改性”进行控制,利用该系列模块,建立了能够在记忆状态空间中的不同状态间发生切换的检查点逻辑,实现了对多达四种状态的时序切换控制。
逻辑线路具有简洁易编程的特点,以之为设计模式促进了基因线路设计向更大规模、更复杂连接的趋势前进。目前合成生物学规模化的集成基因线路设计主要沿循集成电子线路设计的逻辑,对系统进行模块化处理,同时对每个模块进行元件的绝缘封装,然后基于逻辑线路对复杂网络进行搭建。集成基因线路对基因元器件提出了更高的要求,比如首先要求在数量上应产生更多的基因元器件以满足可规模化的需求,同时要求保证高度正交性、无明显表达毒性、避免相似序列和元件复用等设计规范。为此开展了一批元件挖掘和表征的工作,如前文所述的原核阻遏子系统性挖掘工作[72],表征与设计原核转录终止子文库[125],开发多套正交性好、动态区间广的小分子传感器[126],以及对RBS等序列元件的强度预测乃至从头定量设计等[119,127]。除此以外,从参数性能表征上,由于集成基因线路的设计无法像小规模基因线路一样,通过自下而上地逐一验证、逐层构建调试来完成,这就要求对于底层元件的性能要有统一标准化的测定,功能刻画要求足够精准,可公式化形成元件的内禀参数以支持仿真模拟,且元件的行为在置入基因线路后不发生显著改变。为使元件表征支持可规模放大,娄春波等[128]设计了基于核酶(ribozyme)的转录-翻译水平绝缘子,对转录后mRNA的5'端进行同一化处理,使功能元件性质不受上游启动子选择的影响干扰,极大提升了元件组装的可预测性;Gorochowski[129]、Espah Borujeni等[130]进一步借助RNA-Seq和ribosome profiling等高通量实验手段对线路行为进行表征,可对元件功能进行更准确的定义,对线路整体运行情况获得更全面的理解,辅助进行故障归因与修复,对于当前基于表达量控制的基因回路设计主流方案有很大帮助。从线路设计上,针对复杂功能需求设计集成基因线路,无论是利用规则模型还是穷举策略,都不可能基于手工完成,需要借助计算机辅助设计(computer-aided design,CAD)软件实现。MIT的Voigt组开发了基因线路自动化设计软件Cello(https://cellocad.org),借用了硅基集成电路的设计模式,实现了从自定义需求到指定线路序列的CAD自动化设计[76]。Cello的设计目标是符合用户自定义真值表的细胞状态线路,开发者们首批构建了60条,总计全长约88万个碱基对的基因线路,其中最多可达10个阻遏子表达单元,55个遗传元件,在不经任何调试的前提下,共有45条线路可正确执行其全部逻辑状态,测试正确的逻辑状态约占全部设计的92%。随后的工作中,围绕Cello的基本原则,开发者们开发了在各类问题情境下的一系列适配版Cello[77-80,131]。近期Cello的开发团队撰文,也在Nature Protocols期刊上对其最新在线版本与更新进展进行了系统完整的介绍[132]。
3.4 转录调控外的其他不同层次的调控工具
随着对更多分子生化过程认知理解的加深,形成了种类更加丰富的基础基因元件,从而使基因回路可不再仅局限于转录水平调控网络,能够在基因表达的各个环节展开设计。各类基因元件的功能属性有着较大的差异,如转录调控的特征时间尺度多以小时计,而酶促生化反应可快至秒量级,不同层次基因元件的组合使用也丰富了基因回路的功能与应用。
在DNA水平调控方面,Rubens等[81]开发了以丝氨酸重组酶为基础的开关系统,并利用该系统构建了不一致前馈,实现了滤波功能,同时进一步验证了该设计模式下的多比特数字信号转换、多输入组合逻辑运算等功能。重组酶系统也可用于时序控制设计。Kim等[82]设计了拆分的重组酶,利用该系统,作者们在哺乳动物细胞中设计了一系列预先排布的表达框,当且仅当前一个表达框被移除后,下一个表达框开启表达,从而实现了一系列目的基因的时序表达控制,并结合CRISPR系统进行了多基因时序调控、时序编辑,且功能结束后进行系统自毁的概念验证。
在RNA水平调控方面,Wroblewska等[83]利用L7Ae RNA结合蛋白结合k-turn motif的翻译抑制功能,在哺乳动物细胞中成功构建了多输入miRNA分类器,RNA调控级联等回路,在RNA复制子(RNA replicon)协同设计下可获得更高的变化倍数,以此构建的RNA水平的拨动开关,能够获得更稳定的双稳态和更高的信噪比。Wagner等[84]在上述基础上进一步引入小分子诱导调控,使用TMP分子与DHFR降解肽等增强对RNA回路的调节能力,通过对RNA结合蛋白稳定性的调节,可进一步调控回路输出的变化倍数。除此以外,CRISPR系统因其具备良好的可编程性和简洁操作性,近年来有大量工作将CRISPR/Cas系统用作抑制、激活等转录调控工具,同样也可作为基本元件用于搭建基因回路[85-90]。
在蛋白水平调控方面,可利用蛋白质间的非共价亲和作用或共价催化修饰作用等,直接在翻译后水平进行基因回路设计。Fernandez-Rodriguez与Voigt[91]测试了多组植物病毒来源的蛋白酶,设计了蛋白酶切割对降解肽标签的移除或暴露等功能,实现了翻译后水平的调控行为。Gao等[92]基于亮氨酸拉链二聚化与拆分蛋白酶的设计,在哺乳动物细胞中构建了基于翻译后水平的基因回路,设计了蛋白酶互作,逻辑门调控以及基于不一致前馈的滤波和脉冲发生器功能。Chen等[93]基于蛋白酶切割自身降解肽的自维持以及蛋白酶相互切割拆分二聚化的互抑制功能,通过上游输入信号对两个蛋白酶节点的全连接构成了浅层的蛋白酶调控神经网络。Zhu等[94]模拟天然多稳态系统中以蛋白质寡聚为调控手段的特点,利用锌指以及寡聚结构域设计了可同源/异源二聚化的合成转录因子,并继而利用该系统设计三类转录因子,在哺乳动物细胞中实现了最多可达7个稳态,后将该系统推广到4个转录因子,多达15稳态的设计。
3.5 功能网络鲁棒性的设计
随着可构建基因回路的规模与复杂度不断增加,对基因回路行为的可预测性提出了更高的要求。由于基因回路在物理上并不绝缘的特点,以及生物系统中天然存在较高的内外源噪声,如何使得设计的基因回路在多种不同的环境条件下可以稳定地执行功能至关重要。
回路功能的“失稳”因素首先会来源于回路内部的组成,不同模块之间可能通过“隐含”的相互作用对彼此的功能产生影响。隐含的相互作用是不被期望的,在设计之初也未主动设计,但当回路的构成模块逐渐增多时,其隐含连接强度就会增强,致使回路表现出不符合预期的行为[133]。隐含连接的一个主要来源是对回路内公共调控元件的分配利用,Jayanthi等[96]表征了转录调控回路中元件的功能干扰,阻遏子LacⅠ可调节下游报告基因,在报告基因对LacⅠ进行利用之外,同时也存在可对LacⅠ蛋白进行竞争的lacO负载位点,作者们实验验证了开启或关闭LacⅠ基因表达对下游报告基因的调控动力学,发现当有负载存在时,开启LacⅠ表达对报告基因产生抑制要明显滞后于不存在负载时的情况,而当关闭LacⅠ表达时,负载的存在也会导致报告基因表达获得更快的恢复,证明了下游负载会通过对公共调控元件的资源竞争影响回路原本的动力学响应过程。Qian等[97]进一步探讨了回路模块资源占用对回路功能行为的附加影响,他们发现,当把独立表征良好的元件进行模块化组合后,在某些情况下整体功能行为会完全偏离预期情况,作者将该回路异常归因于元件表达对底盘细胞转录翻译公共资源的需求,并验证了可通过调整基因拷贝水平和翻译强度对线路预期功能的有效维持。
系统的动力学是由网络结构所决定的。这种“隐含”连接所造成的公共调控元件的不合理分配利用,可以通过调整网络拓扑结构来实现。目前最常见的方式:①增加额外的时间尺度分离调控策略,缓解资源的竞争效应。Nilgiriwala等[98]设计了受激酶/磷酸酶调控的转录因子,上游信号通过控制激酶表达水平而非直接控制转录因子对下游目的基因进行调控,作者们通过实验与模拟证实了该设计结构能够有效缓冲下游负载间彼此的竞争,缓冲程度可通过改变转录因子总表达量进行调控;Mishra等[99]在芽殖酵母中设计了基于多重激酶/磷酸酶对的资源控制分配,消除了负载对于报告基因响应动力学的干扰;Jones等[100]进一步将负载控制设计拓展到哺乳动物细胞中,开发了激酶/磷酸酶的基本元件,并通过下游表达磷酸酶构成对可逆磷酸化过程的反馈控制,实现了在一定程度上对表达强度扰动的鲁棒性和减弱表达噪声的效果。②利用负反馈进行约束,包括自抑制、不一致前馈以及积分负反馈等。如Huang等[101]设计了在转录后水平的自约束模块,该模块同时表达目的蛋白和特异性σ因子,驱动表达针对目的基因转录本的互补siRNA,主动控制了目的基因mRNA浓度,从而实现了不同模块之间的解偶联,避免了对翻译资源(如公共核糖体)的竞争,稳定了目的基因的表达;Jones等[102]基于同样的思路,在哺乳动物细胞中利用使用相同转录资源的RNA内切酶对目的基因mRNA进行调控,构建了不一致前馈,在较强前馈抑制的情况下较好地实现了目的基因表达对公共资源竞争的解耦;Fret等[103]则通过利用模块内共表达miRNA的方式对mRNA进行调控,屏蔽负载基因对模块内目的基因的干扰。除此以外,Huang等[104]借用CRISPR/dCas9系统中多个sgRNA对dCas9公共蛋白的竞争性,具象化地展示了下游各模块间的隐含相互作用,通过设计dCas9自抑制的调控回路,使公共资源能够根据下游竞争强度灵活补充资源供给,使得下游各sgRNA模块能够有效执行预期调控功能。除上面的例子外,还有很多类似用负反馈进行控制的例子[7,108-114],这里就不一一赘述。
除公共调控元件的分配利用会影响基因回路功能外,底盘细胞还存在各种各样的外部和内部噪声,比如细胞的生长分裂等生理状态变化,它们都会很大程度地影响细胞内的各种反应以及蛋白的表达水平,相同基因型的群体细胞内同种蛋白质的水平可能会有量级上的差别,而这些都会大大影响基因回路的功能。虽然其中的很多噪声是随机的,很难进行控制,但面对同样的噪声,不同拓扑的功能鲁棒性是截然不同的。相同性质的基因回路会因为其具体的拓扑实现方式不同,表现出对生长过程不同程度的敏感性,比如Zhang等[105]测试了单节点自激活回路和双节点互抑制回路两类双稳态,发现自激活双稳态表型会因为细胞的快速分裂丢失高态,而互抑制的双稳态则相对于分裂速率不敏感,并通过理论模拟分析了该假设。既然同一功能不同拓扑的鲁棒性截然不同,如何对功能拓扑的鲁棒性进行设计就变成了一个关键问题。事实上,除上述提到的增加各种负反馈来降噪外,在理论上对功能网络进行理性设计的时候,是可以对网络功能的鲁棒性进行定量评估的[17]。理论上的评估一般是参数敏感性分析,比如在2009年适应性网络的理论工作中,作者对于每一个网络撒了10 000套随机采样的动力学参数,通过动力学模拟观测最终多少套参数能够实现目标功能定义了拓扑结构的鲁棒性,套数越多鲁棒性越高。虽然该策略在理论上获得了成功,但因为它对应的是模型参数空间,而很多时候模型中的参数与真实生物系统无法一一对应,所以仍需证明基于该策略所获得的拓扑结构在实际生物系统条件下确实具备鲁棒性。这里值得一提的是,最近,孙智等[56]基于理论穷举所得的完美适应性的最优(鲁棒性最高)拓扑,实验构建了满足理论要求的拓扑结构和关键参数约束的基因回路。实验发现从输入信号改变、拓扑参数系统性变异、改变底盘细胞生理条件甚至进行基因回路的直接跨物种迁移等维度,对基因回路的功能进行了系统的扰动,该基因回路均实现了精确适应性行为,确实具有非常强的鲁棒性;反之,对于拓扑结构或关键参数约束被破坏的对照拓扑则明显鲁棒性不足,适应性行为的精确性极易受到扰动。该工作首次证明了基于理论发掘所得的拓扑结构在各类复杂真实场景下执行功能的有效性,为进一步理论结合实验进行更有效、可靠的线路功能设计提供了参考与范例。
4 总结与展望
复杂的生物系统经过长期的进化,可以精确地、鲁棒地执行各种生物功能。在分子和细胞水平上,生物功能是通过基因和蛋白质相互作用,即生物调控网络来完成的。网络的拓扑结构、动力学性质与功能之间有着紧密的联系。如何定量刻画这种关系、找出其中的规律,是理解复杂生命现象的关键。越来越多的证据表明可以将不同生物系统、不同层次网络结构统一起来的设计原理的确存在。系统生物学发挥计算的优势,建立了大量生物网络的可计算模型,找到了多种关键生物行为中的核心功能拓扑结构,这些知识不仅能帮助我们理解自然体系,也可以指导我们设计人工合成的生物系统。功能拓扑的构建作为引领合成生物学的开端工作,标志着人类从理解生命、认识生命开始走向改造生命、设计生命的阶段。在此过程中,大量的天然基因得以表征和刻画,对其性质有了更深入乃至定量化的理解,大量的功能拓扑得以构建,功能涵盖了稳态行为、动态过程、剂量响应、参数分岔、空间行为等诸多方面,而不同体系里面功能拓扑的实际构建又进一步深化了对拓扑本身的理解。在这个过程中,系统生物学和合成生物学无论是人员还是研究方法高度交叉,彼此借鉴。
随着合成生物学的发展,对复杂功能需求的增加,功能拓扑的设计朝着规模化方向的发展是一个必然的趋势。目前合成生物学的规模化的集成基因线路设计主要沿循集成电子线路设计的逻辑,对系统进行模块化,同时对每个模块进行绝缘封装,然后基于逻辑线路对复杂网络进行搭建。这种方式非常便于设计、规模化和自动化,但随着逻辑层数的增加,彼此噪声的影响以及能量和代谢流的分配都将很大程度影响系统功能的稳定性。对于一些复杂功能,如何借鉴生物本身复杂网络进行整体式、全景式的设计,如何能让一个网络在各种复杂环境下可以鲁棒地执行目的功能,如何让同一网络执行多个功能,如何以能耗更低的成本实现预期功能,无疑为系统生物学和合成生物学带来更大的机遇和挑战。