数字植物:科学内涵、瓶颈及发展策略
2020-10-10朱新广常天根宋青峰常硕其王重荣张国庆郭亚周少川
朱新广,常天根,宋青峰,常硕其,王重荣,张国庆,郭亚,周少川
(1植物分子遗传国家重点实验室,中国科学院分子植物科学卓越创新中心,中国科学院上海生命科学研究院植物生理生态研究所,上海200032;2杂交水稻国家重点实验室,湖南杂交水稻研究中心,湖南长沙410125;3广东省水稻育种新技术重点实验室,广东农业科学院水稻研究所,广东广州510640;4中国科学院上海营养与健康研究所,中国科学院-马普学会计算生物学伙伴研究所,中国科学院计算生物学重点实验室,上海200031;5江南大学,江苏无锡214122)
当前,生命科学在各类组学技术、基因组编辑技术及超性能计算平台的飞速发展的基础上,正在发生深刻的变化:大量的控制各种生命现象的重要基因及调控因子正在以前所未有的速度得以克隆,众多基因间的互作关系得以阐明。这些基础研究的飞速发展,正在催生全新的植物学科的产生,即植物系统生物学及植物合成生物学。植物系统生物学的研究内容是对植物生长发育过程的全系统、机理性的解释,不仅包含对每个器官中的代谢、调控过程的精细刻画,而且包括对整株植物同化物在不同器官之间的分配以及植物与环境互作关系的机理性模拟。植物系统生物学的目标是支持植物科学由描述、定性研究转为精确、定量研究,从而提高人类粮食、能源供给和环境服务能力[1]。植物系统生物学的一个标志性目标是建立数字植物,实现对整个植物生长发育全过程的多尺度、多物理化学现象系统模拟,为植物的定量研究、植物设计及改造提供理论工具。
合成生物学是在系统生物学的基础上,通过系统设计,重编改造天然的或者重新合成新的生物体系,不仅可以用于认识生命现象,还可以用于创造新生命体。我国合成生物学研究从人工合成蛋白质和核糖核酸起步,至今在染色体工程、基因组编辑、生物底盘构建、生物元件工程、基因回路工程、天然活性物质和有机化工产品的人工合成、计算机模拟、定量生物学等领域都得到长足发展,已经成为国际合成生物学研究的重要力量[2]。植物合成生物学的研究一方面利用植物系统模型,优化已有元件、代谢通路、调控途径、基因回路的改造靶点,或设计并创建新的代谢及调控途径,从而改变植物已有特性或者获得新能力;另一方面利用基因编辑技术、基因组合成技术等现代分子生物学手段,从而实现对植物产量、品质、抗性、效率等关键特征的改良。数字植物研究为植物合成生物学研究提供关键理论及平台支撑。因此,建立数字植物也成为支撑未来植物合成生物学研究的一个关键技术。
目前,尽管在国际上以构建数字植物为核心的研究计划仍未提出,但单个植物代谢、调控过程的模拟研究却已有很长的历史[3];同时,以系统模拟为指导的多个作物改造计划也陆续启动,如一系列在系统模型指导下的植物改造大科学项目获得比尔-梅琳达盖茨基金会(Bill Melinda Gates Foundation)的连续资助,包括国际C4水稻项目、RIPE项目和CASS项目等。同以往的植物工程改造不同,这些植物改造大科学项目研究计划中,都包含明确的系统模型和设计研究;其研究目的是从各种可能的改造方案中,帮助筛选鉴定出最佳的改造方案,进而利用基因编辑手段实现。值得一提的是,这些项目已经连续取得阶段性成果,例如:冠层动态光模型预测在大田中通过提高光系统光抑制恢复速度可以提高冠层光合作用,Kromdijk等根据该理论,在烟草中通过转基因实现了光合作用速率和生物量的大幅提升[4];叶肉细胞光合代谢动力学模型预测改造光呼吸支路,可以提高植物叶片光合效率,该理论近来也通过利用合成生物学导入全新代谢通路,率先在烟草中得到证明[5]。这些成功案例表明依托系统模型指导,利用合成生物学技术定向改造植物的时代已经悄然到来。
近年来,各类技术的发展为开展植物系统生物学研究提供了前所未有的推力。首先是合成生物学技术,尤其是CRISPR-Cas9相关技术的突飞猛进[6]。基因组合成技术的发展甚至促成了单个染色体酵母的合成[7],这为实现改造或者重新合成模型设计的任何基因组奠定了分子技术储备基础。其次是计算能力得到飞速发展。尽管目前量子计算机离大众广泛使用尚远,但可为未来大规模植物生长发育全过程的精细模拟,提供强大计算能力保障[8]。另外,近几年,随着各类组学技术的进步,尤其是随着基因组学、代谢组学、表型组学等领域技术的快速发展,我们对植物生长发育涉及的代谢及调控过程获得了深入认识,并取得了大量的、各个时空尺度的植物系统生物学研究所需的基础数据。另外,人工智能及各类生物信息学技术的发展,结合上面提到的海量组学数据,也为建立预测性更强的新一代植物系统模型积累了技术储备[9-10]。
当前,合成生物学的发展主要集中在分子工具的发展,而植物系统生物学的发展将为合成生物学发展提供重要理论指导。本文将探讨植物系统生物学研究的意义、目标、目前发展瓶颈、未来发展的策略,并阐述其对植物合成生物学的支持作用。
1 建立数字植物的意义和作用
1.1 数字植物是植物基础研究的重要工具
当今的植物学常规研究方法是首先改变影响植物生长、发育过程的特定内部条件或者外部环境因子,然后观测植物的变化,从而获得新知识。通过这种实验扰动研究,我们取得了针对植物各系统组成、功能等多个角度的深入认识。随着对植物生长发育过程生理及分子机理认识的逐步深入,植物系统模型在植物基础科研中正在起到越来越重要的作用。首先,利用系统模型,可以针对特定生物学信号背后的物理、化学基础进行机理性研究。例如,通过构建系统模型,模拟光系统Ⅱ中涉及的每一步光能吸收、光能传递、电子传递等过程,可以实现对控制光合作用的叶绿素荧光信号的准确预测,这为定量研究叶绿素荧光背后的物理、化学基础提供了重要工具[11-15]。其次,利用系统模型,可以分析控制代谢系统的关键调控步骤。例如,Pettersson和Ryde-Pettersson通过构建光合作用卡尔文循环及光呼吸的系统模型,发现细胞质基质中的无机磷酸含量可以控制光合作用效率,而且可以决定光合作用是以高效还是低效状态运行[16]。第三,利用系统模型,可以解析系统内部不同过程间的动态转换过程。例如,Tyson等[17-22]建立了细胞周期模型,系统分析了在细胞分裂过程中,控制细胞分裂在不同状态之间转换的关键因子。当前针对植物生长发育过程中的器官命运决定的关键控制因子的挖掘主要集中于遗传学研究,而这些现象背后的机制研究还处于起步阶段。植物系统生物学研究的一个重要目标就是实现对生长发育过程的精确模拟及定量预测。目前发展的用于模拟不同植物过程、现象的系统模型将成为定量研究植物生长发育的关键理论工具,从而支持未来针对植物生长发育过程的系统特性研究,最终将植物学从当前以定性为主推向未来以定量为主的研究转变。
1.2 数字植物系统模型为数字农业、智慧农业提供技术支撑
生物学研究的一个重要目的是实现在不同环境下利用基因型信息来预测表型。植物的性状受基因控制,是基因与环境相互作用的结果,也是植物代谢与调控过程的宏观表现。现在已存在大量基因水平上的数据,同时也有描述植物宏观表型的大量数据,但缺乏有效的手段将两者联系起来。植物系统模型,通过有效模拟基因表达的生物物理及生物化学、代谢、生长发育、形态建成等各类过程,将为研究植物基因、环境及栽培手段的变化对生长发育的影响提供重要工具。数字植物模型与农业大数据(包括天气、土壤信息、植物或作物长势信息等)相结合,将为未来管理农业及土地提供关键技术,进而支撑未来数字农业及智慧农业发展。
利用系统模型,可以预测在全球环境变化背景下植物生长发育的变化,从而指导应对全球环境变化所需的植物改造。植物在生长过程中必然要受到各种环境因素的作用,环境因素作用于植物使其产生各种生理生化反应。利用实验方法能够研究植物对某一特定环境因素的响应,然而植物对多种环境因素共同作用的响应并非是对单一因素作用响应结果的简单线性叠加。因此,建立植物生长发育系统模型,模拟植物基本代谢与调控过程及其对环境因素变化的响应,将成为定量研究植物对环境因素响应不可或缺的工具。与此类似,这种系统模型也是当前研究全球气候复杂变化现象的最常用手段[23-25]。然而,与土壤、大气等物理化学过程相比,植物生长发育等过程在当前生态系统及全球变化模型中相对薄弱。因此,构建植物系统模型将极大支持生态系统对环境变化适应的研究,尤其将支持对未来全球气候变化的研究[3]。
作物栽培实质上是通过改变作物生长条件及环境,从而实现对作物性状的有效调控。在未来,当借助植物系统模型实现了准确预测基因与环境互作(G×E)的能力,就可以在此基础上,开展植物(作物)精确定量栽培设计,并且根据环境的动态变化及时制定相应的智能调整应对策略。例如,利用作物三维冠层光合作用模型,可以对冠层株型参数进行准确描述,并可以对冠层内部的光环境、温度环境进行精确预测,最终实现精确计算冠层光合作用速率[26-27]。因此,利用该类模型,可以针对作物株行距进行设计,从而设计出(不同生态区的)最佳栽培方式[27]。
1.3 数字植物研究将支持作物超高产理想株型设计育种及改造靶点鉴定
改变作物的光能转化效率是提高作物产量的一条有效途径[28-30]。目前,叶片光合作用代谢模型得以建立[14,31-33],这为有效鉴定可以提高光合效率、同时又保持基本代谢功能的作物改造直接提供基因改造靶点。例如,通过在该模型的基础上构建包含不同光呼吸支路的C3叶肉细胞光合代谢反应动力学模型,Xin等[34]设计了可以有效降低光呼吸、从而大幅提高光合效率的代谢途径;而South等[35]将从藻类和其他物种中克隆得到的相应代谢酶导入烟草中,合成了该代谢途径,最终在烟草中实现了光合和生物量的大幅提高。
值得指出的是,对于提高作物光能利用效率,不仅要提高叶片光能利用效率,更重要的是要提高冠层光能利用效率[36]。在水稻中,冠层光合作用效率不仅取决于冠层内部各个叶片的光合能力,还依赖于叶面积指数的大小、叶片在冠层中的分布以及在抽穗后稻穗的高度和三维形态等[37]。基于冠层光合优化的理想株型设计在以往的高产作物育种中已经起到重要指导作用[38-39]。例如袁隆平先生基于优良超级杂交稻种质提出长江中下游高产籼稻剑叶须具备“长、直、窄、凹、厚”等特征[40],陈温福等提出北方高产粳稻“直立穗”理想株型等[41]。目前,基于精细三维结构、冠层微环境和叶片光合模型的冠层光合作用系统模型得以建立[26,42];同时,相应的模型快速参数化实验方法、模型可视化运行及分析流程也已经建立[42],这些工作为有效鉴定可以提高冠层光合效率的作物高光效高产改造提供了理论和工具基础。植物系统模型的预测能力及预测精度的逐步提高有望确定植物生长发育过程中不同阶段的最佳株型,从而支持作物理想株型设计育种[26,43]。
数字植物可以用于当前大面积推广的作物品种的改造靶点鉴定。目前对作物进行整体系统改良的主要指导思路是:解析作物重要农艺性状的关键功能基因,进而以该基因的调控网络为基础,耦合其他功能基因的有利等位基因,实现品种多基因复杂形状定向改良,达到综合性状优异的目标,如IPA1I基因及以之为基础的“嘉优中科”系列水稻新品种培育[44]。目前大面积推广的品种在农艺性状和生态适应性方面已经达到较好的平衡,能够大幅度减少品种改良的工作难度[45];但是针对品种产量、品质、抗性、株型等复杂性状进行解析,并确定未来改良的关键靶点,仍然是个巨大的挑战。
这里以作物高产为目标性状,阐释模型在指导作物育种中的具体作用。首先,利用系统模型,可以针对当前特定的作物品种进行模型参数化;其次,利用该模型,针对影响作物产量的主要株型、生理和生化参数,系统进行单因素替换分析及多因素组合分析,从而解析不同参数对于产量的贡献率[46];同时,利用系统模型,还可以针对控制产量潜力的不同株型、生理、生化参数进行系统的参数敏感性分析,从而确定在该品种中对于提高产量最具有潜力的参数(群);最后,我们可以进一步利用模型,在多种不同的参数组合方式中,预测能够大幅度提高作物产量的最佳参数组合方案。利用这个研究思路,我们已经发展了冠层光合作用模型及其参数化手段[43];进而系统分析了中国推广面积最大的优质常规稻品种“黄华占”的关键株型及生理性状,并提出了进一步优化该品种的改良方案[47]。接下来,可以采用传统育种和分子辅助育种相结合的方法,系统改造这些鉴定出来的性状。另外,在这些性状优化成功、产量得以提升后,还可以利用系统模型进一步鉴定在新的产量水平上,限制产量的新靶点,并指导新一轮的育种改良过程。总之,系统模型有望为未来针对特定品种或者品系系列的系统、长期改良提供技术支撑(图1)。
图1 数字植物研究平台支持未来植物系统生物学及合成生物学研究系统模型(数字植物研究平台构建包括发展植物生长发育整体模型框架,发展模块模型之间的耦联算法、建立模型参数化及验证数据库、建立模块模型和模型参数数据库、构建模型应用算法等。数字植物研究平台建成后将支持3个主要方面的研究:①针对植物代谢、生长、发育的定量研究;②作物“基因型-环境-管理”互作研究,包括预测在全球环境变化背景下植物生长发育的变化、设计作物高产栽培措施等;③作物理想株型设计及改造靶点鉴定)Fig.1 Development of an ePlant research platform to support plant systems and synthetic biology research(The ePlant research platform includes the framework model for plant growth and development,algorithms to integrate different modules,databases for model parameterization and validation as well as modules and their parameters,algorithms for the application of the systems models.The platform can be used to support:①quantitative research on plant metabolism,growth and development;②quantitative studies on interactions among plant,environment and managements,including prediction of the response of plants under climate change and design of new agronomic practices;③design for ideotype and identification of breeding/engineering targets for crop breeding/engineering)
最后,值得一提的是,随着基因编辑技术的发展,多位点编辑和饱和氨基酸突变技术初见端倪,该技术有望极大加速作物品种定向改良[48-50]。而数字植物系统模型可以系统分析并筛选最佳改造方案,因此将成为该技术的“精确制导系统”。目前这个领域的研究方兴未艾,尚有诸多理论问题亟需解决;加大该领域的投入,将为更快实现作物精准育种提供核心技术平台。
1.4 数字植物为水稻育种提供理论指导
水稻是我国最重要的粮食作物。我国科学家在水稻领域的研究居国际领先地位。在水稻方面,我国不仅具有丰富的遗传资源,在生理、生化、生态等研究方面也拥有雄厚的基础。另外,目前随着生物技术及测序技术的提升,对控制水稻关键性状的基因的挖掘也有了极大发展。为此,在开发数字植物过程中,水稻将成为一个重要模式物种。
水稻育种实践表明,在水稻育种过程中会出现某些优良种质及其衍生品种。这些种质之所以优良,有些是因为其具有对环境条件的广泛适应性,或是因为其综合性状优良且配合力强,还有些是因为其携带特殊的有利基因而被普遍应用于后续品种改良计划之中。针对这些优良种质背后高产机理的深入挖掘,将为未来品种改良提供理论支撑。在这方面,我国已有众多成功的经验。比如,广东农业科学院周少川、柯苇率领的优质稻遗传育种团队提出水稻核心种质育种,发现“核心种质是指具有某些优良性状的育种材料中,控制某些优良性状的特殊基因群体或基因系统,在品种改良过程中,它能够沿着育种目标置换和扩充基因群体,直至全面符合育种目标。核心种质可用1、2、3级等各级核心种质标志其动态变化,随着科学技术的发展,核心种质相关性状可逐步精确地量化”[51-52]。这些核心种质资源具有遗传基础广泛、配合力强、综合农艺性状优良等特征。在此基础上,鉴定其高产、优质、高抗的关键靶点是未来进一步提升该核心种质资源的关键。在这个过程中,充分结合数字植物(水稻),进行相关性状的优化、改良,将成为未来核心种质育种的核心,也为数字植物直接用于指导育种提供一条捷径。
2 我国在数字植物领域相关领域的研究及技术储备
我国在开展数字植物研究所涉及的研究领域中具有较好的研究及技术储备。首先,在植物系统生物学建模领域,我国在代谢建模、调控建模、形态建成建模、植物环境互作、土壤-植物互作、作物生长过程、生态系统演变等各个领域中都有大量研究人员参加相关研究,这为未来进行大规模数字植物研究,建立数字植物研究生态,提供了大量模型储备[2]。其次,我国在复杂系统构建、复杂系统参数化、相变分析、优化算法等领域有非常完备的研究团队,其中,中国科学院数学与系统科学研究院是开展复杂模型研究的代表性研究机构,其在复杂系统发展、分析、算法及工具等领域都有长期研究积累。第三,要实现数字植物的可持续性发展,必须构建强大的模型研究支持平台,得到建模所需的各类数据库、模拟及分析算法、计算资源、可视化功能等[3]。当前,我国在电子商务等领域发展迅速,具备开展此类平台研发及构建所需的技术储备。
3 建立数字植物目前遇到的瓶颈
建立数字植物目前仍然遇到极大的挑战,其中有些挑战是学术性的,有些则来自当前的研究体系产生的限制。具体来说,为推动数字植物研究,需要克服以下几个关键瓶颈。
3.1 构建植物生长发育整体模型框架
尽管迄今为止,有大量的模型针对单个过程、器官进行研究,但是这些模型并不能自然而然地耦联建成植物生长发育整体模型。从某种意义上讲,植物生长发育整体模型是整个工厂,而单个器官、单个过程的模型则是这个工厂中的每个车间。正如车间可以有大小、复杂性差异,单个器官、过程的模型也同样具有极大的差异。没有整体模型,单个器官、单个组织、单个细胞的精细模型将仅仅可以用于研究所涉及的单个组织层次上的现象,而难以用于研究其对整个植物生长发育过程的影响。因此,植物生长发育整体框架模型在数字植物研究中占据组织、统筹的地位,对于整个数字植物的建成具有不可替代性的作用[45]。
然而,建立该整体框架模型是一个巨大的挑战。尽管人类对植物生长发育过程的认识越来越深入,要彻底阐明植物生长发育过程中每个精细调控过程,仍需十分长期的深入研究;但要实现对植物生长发育过程中所有过程的精确认识,需要一代人甚至几代人的努力。因此,目前发展的模型不可避免地包含大量假设和简化;同时可以预期,植物生长发育过程的整体模型构建过程将是一个逐步演进的过程——在这个过程中,植物生长发育保守的特征将被作为标准模块保留下来,而在物种间不保守的过程则可以作为变量在模型中体现出来。植物整体模型的构建,将始终伴随植物学研究的进程,并逐渐获得越来越强大的预测能力,在指导定量植物学和植物合成生物学研究中起到越来越重要的作用[45]。
3.2 获取同化物在不同器官间的物质分配数据
模型的准确程度,还依赖于模型构建及验证时所用的验证数据的精确度。要建立整株植物生长发育系统模型,当前亟需的是整个植物系统水平的物质分配数据,也就是同化物(光合产物、根部吸收的营养物质等)在各个器官中的分配模型。值得注意的是,同化物在不同器官之间的分配数据,也具有时空分辨率及代谢物种类差异。随着技术的进步,同化物分配数据的时空分辨率将越来越高,所涵盖的代谢物种类也会逐步增加,也将能够支撑预测能力越来越强的系统模型的构建。因此,不断优化已有及发展全新的同化物分配的测量手段,是当前植物系统生物学研究的焦点之一。
3.3 建立基因型与表型参数的对应关系
系统模型要真正应用于作物设计育种和指导合成生物学,还依赖于模型关键参数与基因型或基因组信息之间定量映射关系的建立。一旦建立这种映射关系,一方面,当改变某个基因时,利用基因组信息结合环境信息,模型可以预测该基因对植物生长过程中的生理、生化、表型的影响;另一方面,当模型设计出理想株型所需的最优参数组合时,可以通过对各参数对应的基因进行基因编辑,从而实现理想株型背后的理想基因组建立。
然而,由于目前对基因功能研究的不全面性、“一因多效”现象的存在和分子水平定量测量手段的限制,已有的系统生物学模型尚不能直接实现对遗传变异后植物生理及表型的精准、定量预测。因此,依赖模型直接指导的作物改良在近期的主要体现形式依然是利用传统杂交或者分子标记辅助育种的手段来实现模型预测的改造靶点或设计的理想株型及代谢型。为加速基于模型的分子设计育种,目前亟需开展以下几个方面的研究。第一,针对系统模型鉴定出来的通用的改造靶点,有目的地开展大规模突变体筛选或者自然变异筛选,挖掘出该模型参数的直接控制基因。例如,Zhu等[11]通过在作物群体中构建光反应模型,预测出提高光保护恢复速度将极大提高冠层光合效率,之后在烟草中通过转基因实现了模型预测的改良效果[4]。在这一方面,值得注意的是,应侧重鉴定直接控制该性状或者参数的下游基因,例如编码代谢通路上某个酶、特定代谢物在特定组织中的运载蛋白等的基因,而非可以调控众多基因和生理生化过程的上游基因,例如转录因子、激素信号通路、遗传调控网络上涉及的基因,否则引起的植物生理生化表型改变众多,难以预测其最终效果。第二,发展新理论,尽可能提高利用基因型信息预测模型参数的能力,即发展全基因组“基因型-表型参数”预测算法;这个方面仍然需要大量基础研究,方能真正实现理想株型及代谢型背后的基因组设计,进而支持作物品种的分子设计改造。
3.4 建立系统建模发展所需的有效研究范式
迄今为止,大多数关于植物整体系统模型的研究集中于对作物生长发育过程的模拟,其主要用于模拟不同栽培模式、不同耕作方法、气候变化等对于作物生长发育过程的影响。这些模型发展的一般模式是由一个实验室主导,而且基本采取单兵作战的研究范式。然而,由于受单个实验室研究领域、专长、研究资源所限,所发展的模型一般仅能对特定植物、特定的代谢、调控、生长过程进行预测,而对于该实验室专长领域之外的过程预测能力较差。采用这种研究模式,将很难实现建立数字植物的目标,即对植物整个生长过程实现准确预测。另外,如果各个实验室各自为战,采取相似手段,开展相似研究,将自然形成竞争关系。一方面,这将使得模型研究相关的交流、互动变得非常困难,极大阻碍数字植物系统模型的发展;另一方面,这种研究范式必然造成在建模领域的低水平、重复性工作,从而造成研究资源的重复投资和浪费,最终损失数字植物研究获得成功的机会。要建立可持续、具有强大预测能力的数字植物模型,当前需要建立全新的数字模型研发生态系统,彻底改变当前不同实验室之间各自为战、封闭竞争的关系,使得建模研究团队之间形成相互协作、合作共赢的关系。
3.5 数字植物研究人才缺乏
研发数字植物当前遇到人才急缺、后备人才不足的困境。首先,当前数字植物研发人才严重缺乏。在整体系统模型构建方面,尽管当前已经有初步模型得以建立,但是尚缺乏大量的实证数据。在未来,这些模型仍需大量的验证、优化工作,才能使它们发挥出应有的巨大应用潜力。同时,在这些模型得到验证之后,其模拟的各种过程是否保守,哪些需要粗粒化处理,哪些需要将其机理进一步细化,都需要系统开展基础理论研究。而将其逐步优化、改良、细化的过程,需要大量的人力、财力支撑。
在整体模型得以建立的情况下,仍然需要针对与人类关系密切的重大植物(作物)分别构建其系统模型;模型研究不仅仅是建立模型,还包括收集建立模型所需的各类系统数据、开展模型验证、发展模型应用相关算法等各个方面。其次,模型的构建、参数化、验证、应用所需的人才不仅需要对植物生长发育过程有深刻的理解,而且需要具备较深厚的数理功底,可以熟练应用现代数学、计算、统计学等最新工具。目前,同时受到两方面有效训练的研究人员仍然非常少,这限制了数字植物相关研究的进展。
其次,未来数字植物研究所需的后备人才不足。当前,植物学研究的主流是遗传学研究,其核心是鉴定控制特定性状的遗传基础,其成果体现在对控制特定现象的基因的挖掘,对相关调控机制的阐释。此类研究目前技术方法非常成熟,研究目标清晰,研究结果可期,成果体现也直观。然而,与之相比,系统模型的构建、参数化及验证工作由于参与人员较少,目前研究建模工具、平台相对较少;尤其是鉴于当前建模所需的标准数据仍然缺乏,很多生物学过程的机理也不清楚,这使得当前所建立的模型的预测性较弱,限制了当前系统模型相关工作在“高水平”期刊上的发表。这在一定程度上,对本欲加入数字植物相关研究的人员造成职业压力,极大影响了未来数字植物发展所需的后续人才储备。如何改变当前评估机制,使得开展植物系统生物学研究的学者在科研生态圈中获得与其工作相配的资源及良好的职业前景,也是当前关乎数字植物发展的一个关键问题。
4 数字植物未来发展策略
针对当前数字植物研发所面临的瓶颈,作者建议以下相关主要研究方向及发展策略。
4.1 建立植物生长发育框架模型
尽管针对植物生长发育模型的研究从20世纪60年代就已经开始,具体见文献[53],但迄今为止,作物生长模拟仍然基本上采用同化物物质分配表模式,根据作物特定发育阶段,直接利用经验公式计算该阶段同化物在不同器官间的分配系数。这种模型的优点是其参数化比较容易,但其缺点是这种参数化是作物特异性的;而且即便是同样的作物,在不同生长环境下,其生长发育模式的改变也将极大影响分配系数。这些问题极大地限制了这类生长发育框架模型对于不同基因型、同样基因型在不同环境条件下的生长发育过程的预测能力。要实现对特定基因型、环境甚至栽培措施下的植物生长发育过程的精确预测,需要建立精确的物质分配模型,实现对同化物在不同环境下,物质在不同器官间的精确分配,实现对不同器官中的碳代谢、氮代谢及其互作关系的有效预测[45]。该框架模型的构建是当前数字植物发展的关键。
4.2 采集同化物在不同器官间的分配数据
为支持植物生长发育基本模型,当前亟需系统收集植物不同器官间的同化物(包括碳水化合物、含氮化合物等)分配过程的精确数据。利用13CO2和含15N标记的化合物处理植物,针对不同组织进行精确时序取样,是获取该类数据的一个可行途径。尤其是随着当前质谱技术的不断提高,其对化合物的分辨率逐渐提高,对化合物的定性、定量分析能力也日益增强,这将为获得越来越精细的化合物在不同器官间的分配“地图”提供核心支撑。除此之外,在整个植物生长发育过程中,不同器官、组织、细胞和细胞器中的物质分配规律都需要进一步深入、系统研究,从而为构建多尺度、多层次数字植物系统模型提供数据支撑。
4.3 建立模块模型间的耦联机制
如前所述,未来的数字植物关键模型的发展,必定依赖于国内外所有数字植物研究团队的协同努力,而不是以单个实验室为主导。基于此,针对植物生长发育涉及的不同过程,必将出现不同模块模型;即便针对同一过程,也可能有各类具有不同机理程度的模型。这些模块模型之间通过耦合,可以建立更大规模或更大尺度的整体模型。建立有效的模型耦联机制,一方面将极大降低进入模型研究的门槛,另一方面也将极大促进未来模块模型之间的比较、改良及优化。因此,构建模块模型之间的耦联机制,将成为构建数字植物生态系统的一个关键技术。该耦联机制必须实现对不同编程语言、不同机理程度、不同模块化程度、不同输入输出格式的模块模型的有效耦联。在这方面,可以利用消息队列中间件,比如RabbitMQ等,作为基础,形成模块模型的工作流,开发对植物模块模型耦联最合适的耦联软件。
4.4 建立数字植物研究平台
数字植物研究必将依赖于开放式、综合性的研究及应用平台。该平台将为开展数字植物研究提供模块模型、数据、算法和计算资源,支持多研究团队的协作与资源共享。该平台将包含模块模型数据库、模型关键参数数据库、模型参数化及验证数据库、模型应用算法(包括敏感性分析、优化分析、动态规划算法等)、模型耦联工具、模型运行结果的可视化及分析算法以及高性能计算集群(图1)。模块模型数据库作为这个平台的核心,将涵盖模拟植物生长发育关键过程的模块模型,包括光合作用、呼吸作用、气孔导度、冠层微气候、源库流、土壤养分循环、根系形态建成及生理、地上形态建成、细胞周期等(图1)。随着对基因调控网络、表观遗传学过程的认识的逐步深入,描述这些过程的基本模型也将被开发出来,从而真正实现利用基因型和环境信息直接预测表型变异。这里需要指出的是,该平台中的参数化及验证数据将不仅包括一般的植物生长发育过程的数据,还包括在特定转基因条件下或者特定环境处理条件下的植物生长发育过程的响应数据。模型、算法、数据的共享,是数字植物研究平台的特色和创新之处——平台的用户既是平台的模型/算法/数据等资源的提供者,也可能是其他用户提供的资源的消费者;因此平台在资源共享方面需要制定合理的策略,保障平台的持续生命力。
4.5 植物表型组数据与模型相结合促进数字植物发展及应用
数字植物研究需要与植物表型组学相结合,将植物表型组学的多尺度、多维度的大数据匹配到模型参数上,最终通过数字植物模型进行整合分析。一方面,数字植物平台中的各类模型的建立、参数化、验证及不断完善必须以实验数据为基础。这里所需的实验数据包括从细胞代谢到单株及群体冠层等多尺度数据,包括不同基因型与环境型组合条件下的植物生长发育过程的多维度数据——这些数据的获得可以借助植物表型组技术[54]。另一方面,利用模型指导品种改良及育种的过程中,也需要对目标植物进行高通量检测,并与模型紧密结合,从而释放模型用于指导育种的巨大潜力。比如在育种过程中,如果可以实现对冠层株型结构及光合参数的高通量检测,必将为在育种过程中筛选具有高光效能力的中间材料提供巨大支持。
4.6 以水稻为模式植物,促进数字植物为指导的分子设计育种,加速培育理想品种
基因编辑、合成生物学和分子设计育种综合技术为21世纪人类改造大自然提供了强有力的方法。通过多学科合作培育理想作物品种,有效促进产业和社会进步是数字植物赖以长远、快速发展的关键。目前,鉴于我国在水稻基因组、遗传调控网络、表型测量数据、高产优质育种等研究方面的国际领先地位和大量的已有研究成果,笔者建议以水稻为模式作物,率先建立数字植物研究体系,即建立“数字水稻”,实现对水稻生长发育过程、重要产量相关过程与栽培措施互作的准确模拟,指导当前水稻栽培手段的改良和优化;进一步,以数字水稻为基础,开展针对当前核心种质资源高产机理、关键遗传基础的系统、定量解析,明确不同生态区的水稻理想株型,预测当前高产品种进一步提高产量、品种等性状的关键改造靶标,并指导实现这些靶标的基因挖掘及理想基因型设计。这些研究将数字植物与当前的作物改良直接连接,并为数字植物在其他作物中的有效应用提供宝贵经验。
4.7 建立支持数字植物的人才培养及储备策略
要实现数字植物的可持续性发展,其关键是源源不断地有植物建模专业人才的加入。一方面,这需要在大学及研究生培养阶段,加强交叉学科人才的培养,比如设立计算生物学学科、专业、学位点等;另一方面,建议在国家自然基金委、科技部等机构,设立专门的植物模型计算及模拟研究项目,针对植物学、数学、计算机交叉学科进行资助,以促进该学科的发展。考虑到国际上,数字植物新期刊(In Silico Plant)近期发起,开展植物系统生物学研究的大潮即将到来;我国如果不改变当前的人才评估标准和资助体系,势必阻碍我国在该领域的发展,在这一关系国计民生的大科学领域竞争中处于劣势。
5 总结
随着对植物生长发育过程的分子机理的认识日益深入、计算能力的突飞猛进及基因组编辑能力的快速发展,植物合成生物学必将成为未来植物学领域的核心。未来植物合成生物学发展需要发展数字植物研究,建立系统生物学研究体系。构建数字植物,目前亟需构建植物生长发育整体模型,获取同化物在不同器官之间分配的关键数据;还需要开发不同模块模型之间耦联的算法,构建数字植物研发平台;同时,需要将植物表型组学与数字植物研究相结合,促进数字植物为指导的作物分子设计育种;最后,还要逐步建立有利于数字植物研发所需交叉学科人才的教育及培养体系。数字植物技术的发展,将不仅对未来在整体水平上研究植物代谢的系统特性、预测植物对未来环境变化至关重要,而且将对未来作物改造和设计起到重要指导作用。
致谢:感谢比尔-梅琳达盖茨基金会(OPP1172157、1129902)的支持;感谢刘欣雨女士在作者实验室所开展研究中的重大支撑作用。