APP下载

大数据时代的生物过程研究

2016-12-01张嗣良

合成生物学 2016年3期
关键词:反应器尺度特性

张嗣良

[华东理工大学生物反应器工程国家重点实验室,国家生化工程技术研究中心(上海),上海 200237]

大数据时代的生物过程研究

张嗣良

[华东理工大学生物反应器工程国家重点实验室,国家生化工程技术研究中心(上海),上海 200237]

张嗣良,教授,博士生导师。现任国家生化工程技术研究中心副主任、国家生化工程技术研究中心(上海)主任、生物反应器工程国家重点实验室学术委员会委员。主要从事发酵工程工业生产研究。

E-mail:siliangz@ecust.edu.cn

在讨论实现生物技术产业化时,认为由于从基因、细胞到生物反应器操作的生物过程高度复杂性,必须改变传统的数据处理思维方式。建议采用大数据分析方法和工业4.0,打破生命科学上游研究到生物制造下游研究的多学科技术壁垒,其大数据分析的4V特征和3个观念转变是生物过程研究的基本出发点。总结了笔者研究组近几十年的研究成果,分析了发酵过程多尺度理论方法与大数据分析理念,由此探索形成新的概念、理论、方法与装备技术。其中最重要的技术进展标志是生物反应器由原来的参数自动控制演变为实现过程优化与放大决策的智能控制,以及“数据超载”情况下的“信息→相关→因果→知识”的研究过程。

1 前 言

20世纪50年代,遗传物质DNA双螺旋结构的发现,开创了从分子水平研究生命活动的新纪元。从此,生物学经历了由宏观到微观的发展过程,由形态、表型的描述逐步分解、细化到生物体的各种分子及其功能的研究,生物技术由依赖于传统的生物学知识发展到以分子生物学研究为依据。后基因组时代的各种组学技术又把生物学带入了系统科学的时代。但当其用于生物过程研究解决实际生产问题时,面对细胞内高度分支研究的海量数据和反应器过程中所获得的各种传感器数据,以及发酵过程具有生命系统的复杂性、时变性、全局性等特点,遇到极大困难。人们习惯于以系统生物学研究的思路,在预先设立的少量假设或知识的基础上,把注意力放在因果关系的发现和使用上。于是,生物过程研究所面临的问题,就是研究系统的复杂性与已掌握知识的局限性间不可逾越的矛盾。即表现在“数据超载”的情况下,如何将信息转化为因果关系的知识追求,由此解决生物过程中的优化问题。要真正做到这点是很困难的,事实证明以上研究大多只是停留在特定条件下的模式生物学研究上,在实际工业生产过程研究中进展不大。是否需要寻找新的理念和数据处理方法就成为人们思考的问题。

此外,工业生物过程大都是在生物反应器中进行,对于生物反应器内的工业微生物发酵体系,微生物以及外在环境(生物反应器内)构成了一个相对封闭的生态系统。工业发酵过程优化就在于构建一种外在环境,使微生物的基因表达及代谢调控最有利于某种目的产物(包括初级代谢产物或次级代谢产物)的生物合成,从而最大限度积累这种目的产物。但实际上生物反应器内的流场在温度、基质浓度(如溶解氧)、剪切等方面都是不均匀的。生物反应器内生物系统的表型取决于外界环境条件与细胞生理功能的共同作用1。

由此可见,必须将细胞生理代谢特性与生物过程的工程学研究相结合,才能实现生命过程全局、系统的高效优化与放大。但是如何在这些纷繁而又混杂的生物过程海量数据中找出上述每项的因果关系,并作出实现过程优化的科学决策,是一个艰巨、费时的研究工作。并且,即使有研究结果,也无法采用现有传统数据库方法在合理时间内对内容进行抓取、管理和处理。因此人们必须改变生物过程研究数据处理的思维方法与理念。

2 大数据时代的思维变革

如今,一个大规模生产、分享和应用数据的时代正在开始。“大数据”是一个体量特别大、数据类别特别大的数据集,且无法用传统数据库工具在合理时间内对其内容进行抓取、管理和处理。Viktor Mayer-Schonberger《大数据时代》指出了大数据的4V特征2,即数据体量大、数据类别大、数据处理速度快、数据真实性高。并指出了大数据处理观念的3个转变:要全体不要抽样;要效率不要绝对精确;要相关不要因果。大数据这种处理观念的转变将引起全球科学研究的方式、规范、战略的转型,谁意识到这点,谁就能赢。它是前所未有的方式,深刻的洞见,最终将形成变革之力。

大数据时代的这种变革为生物过程优化研究提供了新的思维方向,本文以工业生物过程研究为对象,引入大数据处理理念,讨论生物过程大数据特点、数据获得、处理方式与实际效果。

XIA J Y, WANG Y H, ZHANG S L, et al.Fluid dynamics investigation of variant impeller combinations by simulation and fermentation experiment.Biochemical Engineering Journal, 2009, 43(3): 252-260.

MAYER-SCHONBERGER V, CUKIER K.Big data: a revolution that will transform how we live, work and think.Baston: Houghton Mifflin Harcocourt Publishing Company, 2013.

张嗣良.发酵过程多水平问题及其生物反应器装置技术研究——基于过程参数相关的发酵过程优化与放大技术.中国工程科学, 2001, 3(8): 37-45.

ZHANG S L, CHU J, ZHUANG Y P, et al.A multi-scale study of industrial fermentation processes and their optimization.Adv Biochem Eng Biotechnol, 2004, 87: 97-150.

张嗣良, 储炬.多尺度微生物过程优化.北京: 化学工业出版社, 2003.

张嗣良.发酵工程原理.北京: 高等教育出版社, 2013.

华东理工大学.基于生物信息的发酵过程工艺分析软件(简称发酵之星).软著登字第0154761号, 2009.

3 生物过程大数据研究

20世纪80年代,笔者完成了发酵过程在线计算机控制应用后,获得了大量过程数据,认为发酵过程参数曲线的多样性、时变性、相关耦合性与不确定性是发酵过程数据的基本特征3。面对这种纷繁的数据特性,认为采用精确的动力学模型计算实现过程优化是极端困难的,只能采用数据驱动型的相关分析才能较好地解决过程优化问题。随着细胞内分子水平生理特性的深入认识,笔者又提出了基因、细胞、反应器多尺度参数相关分析4,强调了以可视化技术在实时有效时间内研究发酵过程趋势曲线的相关特性,为工业过程优化提供依据。至于不同尺度的因果关系可以留待以后慢慢研究,并提出了以状态变量作为相关分析实现过程优化与放大的重要依据。这一系列技术进展,其实就是延着大数据思维方式的转变而发展,由此取得一系列成果。

对这些成果进行总结,发现生物过程大数据处理有如下特点。

3.1 生物过程大数据采集

要真正实现反应器中进行的生物过程细胞代谢途径的全局优化及整个生物过程的高效优化与放大,除了如温度、通气流量、搅拌速度、pH、溶解氧浓度(DO)等生物反应器操作参数外,还必须解决下列关键科学问题的数据采集。①细胞培养过程中微观代谢尺度的代谢特性的获取:主要是不同条件下细胞内微观代谢流的分布,需要详细研究细胞微观代谢特性的测定方法。②细胞培养过程中代谢的宏观生理代谢参数的获取与分析:包括菌体氧消耗速率、呼吸强度、活菌量等信息的获取。③反应器内流场特性与细胞生理代谢特性之间的耦合分析:生物过程的限制性因素不仅体现在细胞本身生理代谢特性,还取决于反应器内的混合与传质限制,随着反应器规模增加导致的反应器内混匀度、传质性能的差异,必须在放大过程中进行分析和考虑,还要将细胞的生理代谢特性与反应器流场特性结合起来进行分析。

由此可见,生物过程大数据的基本特征表现为:数据量大、种类多、时变性和相关耦合性,反映了过程中基因、细胞、反应器不同尺度特性的混杂性,这也是生物过程的本体特性。

3.2 生物过程大数据分析方法

大数据分析一个重要理念就是不要热衷于寻找因果关系,或者把分析建立在早已设立的假设基础上,而是强调数据的相关性,注意相关关系的发现和使用,只有这样才能从生物过程的海量数据中找到与过程优化与放大相关的关键参数。

在数据分析时不再依赖于样本数据,而是要求相关的所有数据,这些数据可能不包含所有的信息,但大部分是正确的,这就是笔者提出的基因、细胞、反应器的多尺度相关分析,它反映了生物过程不同尺度的真实本体特性。通过相关分析可以更清楚地看到样本无法揭示的细节信息,富有延展性,可实现计划外的目标。

本文以早期研究的红霉素发酵为例5,在分析多参数趋势曲线时序变化的数据时,人们通常把重点放在寻找最佳的操作点或某参数(如温度、pH)的时序变化规律,在方法上主要依据人工经验的试差法,由此逐渐形成作为生产工艺管理的工艺规程。但这种方法往往强调参数各自的时序变化,缺乏数据时序变化之间的相关分析,由于对过程内在联系情况缺乏了解,许多趋势曲线的相关情况无法解释,因而忽视了这些可以提供重要信息内容的重要过程。红霉素整个发酵周期约180h,图1显示了前50h的参数情况。随着菌量的不断增加,发酵液的OUR、CER明显的同步增加,9h时,两者同步出现了一个小平台,而后OUR、CER又同时开始上升,但出现增长的分叉现象,即上升幅度的非同步性,OUR的上升幅度较CER更大,具体体现在此时RQ(呼吸商)出现了一个明显的下降。这种“平台”、“分叉”、“RQ值突然下降”现象都是发生在9~13h区间,无论每批发酵的数据情况如何变化,但以上规律基本不变,显然这是有生物学意义的。经过短暂的“平台”阶段后,发生了OUR与CER的二次上升,但两者是非同步性的增长,出观了“分叉”现象。这种现象表明另一种碳源开始被利用,这种碳源的特点是还原度较大,表现在被菌体利用时1当量基质的需氧量较葡萄糖大。相关曲线反映出两种碳源是竞争性利用第二种碳源的酶系统特点,也表明了这种双基质利用的转换是及时的,是抗生素生产过渡期的重要准备,有利于整体过程优化。然后,发酵进入了以菌体维持为主的缓慢生长期,即过渡期,从细胞经济和维持的能源供应来看,最理想的碳源是葡萄糖,但相关分析证明如果此时继续加入葡萄糖, 虽然菌体浓度可以增加,但并不利于抗生素的形成,必须利用其他一种碳源较有利。与基础培养基配比进行比较分析结果,这种碳源实际上是利用了黄豆饼粉中的氨基酸作为碳骨架进入菌体,所以尽管OUR、CER都上升,但上升的幅度却与利用葡萄糖作为主要碳源时的情况不一样,即RQ出现了一个明显的下降;而到了21h时,由于提供碳源的黄豆饼粉量也逐渐下降,即提供的碳源量下降,导致OUR与CER同步下降。在菌体生长基本完成后,此时提供的碳源主要用作菌体维持,及时补入葡萄糖作碳源,RQ又开始逐渐上升。此时表征了抗生素生产的开始,即初级代谢向次级代谢转化。同时,进一步通过基因水平的RNA转录调控研究,发现这种次级代谢是一种发生在核糖体的空载tRNA的严谨响应,其表型特征是菌丝分化并形成抗生素产物。

图1 红霉素发酵50h的趋势曲线

由此可见,OUR与CER只是在生物反应器尺度上观察到的菌体有关氧的消耗与二氧化碳的生成的情况,通过简单的数据处理即呼吸商,可以了解到一些菌体生长代谢的变化情况,进一步结合次级代谢和基因水平的研究成果,就可以对过程有深入的了解,这就是发酵过程多尺度相关分析的研究方法,对实现过程优化具有重要意义。

发酵过程多尺度相关性向研究者提示这些事件正在发生,由此可以提供新颖的有价值的观点,这“是什么”,而不是“为什么”。虽然这些过程检测大多是环境中的状态或操作量,但可以通过进一步分析,得到反映分子、细胞和反应器工程水平的不同尺度问题的研究结果,实现跨尺度观察和跨尺度操作,也就是让数据发声,让研究者注意到很多以前从来没有意识到的联系的存在。

3.3 数据的混杂性与精度

正如前述,生物过程要求的相关的所有数据应包括微观代谢参数、宏观生理代谢参数及反应器内流场特性参数,表现了大数据的混杂性,才有可能为研究者作相关分析时注意从来没有意识到的联系的存在。这些过程检测参数除了常规热工参数如温度、通气流量、罐压力等测量外,为了考察代谢物质流的分布变化, 反映过程中的菌体细胞的生理特性或工程水平的混和传递特性,并根据发酵过程研究的目标需要,迫切需要扩大测量参数数量与种类。这些参数可以是生物量、细胞形态特性、中间代谢物、代谢途径中的酶、能量载体、基因表达的活性调控蛋白的测定,甚至是基因转录或翻译过程中的DNA或RNA。这些大数据纷繁多样,优劣参杂,适当忽视微观层面上的精确度会让研究者在宏观拥有更好的洞察力。

因此在选配需要的数据传感技术时要充分扩大视野,有时宁可降低精度要求也不要轻易舍弃某一个数据源,甚至采用实验室手工测定数据。

当前,生物过程在线传感技术研究的重点是活菌细胞量、培养液成分和代谢物的测量,开发了一些新的传感或检测技术。随着生物技术的发展进入后基因组时代,基因在转录、翻译和小分子物的形成等功能引起了大家的注意,由此形成了基因组学、蛋白组学和代谢组学。生物过程研究必须适应上述技术的发展,提供大量的过程检测数据,且检测技术是实时和非侵害性。

并不是所有的过程参数都可以通过传感器获得,由于测定技术的局限性,造成研究数据的匮乏。应考虑降低使用传感器精度要求和不断探索新的测量原理的传感技术应用。此外,离线实验室手工测定参数也是重要的数据源。

3.4 状态变量与本体特征的真实性

寻找相关关系的一个重要方法就是通过识别有用的关联物,合理的关联物可以通过相关关系发现问题和预测未来2。这些关联物是建立在一定理论基础上选择形成的。笔者在生物过程研究中引用了状态变量的概念作为相关分析的重要依据6。

状态变量是过程研究简化的重要手段,它反映过程本体特性,但是它不是通过因果关系的研究得到,而是建立在一定抽象理论基础上,通过大数据关联分析获得,因而不需要太多的内在机理的假设。按照多尺度关联与调控的要求,以状态变量为核心,研究宏观细胞生理状态、反应器流场状态特征与微观机制(包括生化代谢网络)的关联。由此可见,上述各不同尺度领域研究结果的因果关系研究将转变为相应的状态变量的相关联研究,因而在合理的时间内对其内容进行抓取和处理,作为过程优化与放大的基本依据,这种以状态变量为核心的生物过程研究,将更准确、更快,且不易受各种因果关系偏见的影响。

3.5 生物过程大数据处理与相关分析程序

生物过程大数据不是简单的数据大的事实,重要的是对大数据进行分析。大数据不是如何定义,而是如何使用。即哪些技术能更好地使用数据以及大数据的应用。

为此,笔者设计了数据处理与相关分析程序。这些程序包括:数据采集;数据整理;基于全体、混杂、精度不高的反映过程本体特性的数据相关分析与相关特性的发现;相关特性的解释;正在发生的本体特性识别,由此形成过程操作变量,最终解决工程问题,实现过程优化与放大。

3.6 数据处理软件包与Internet联网

根据生物过程大数据的相关分析要求,笔者设计了名为BIOSDAR软件包数据处理系统7,主要具有如下特点。

①该系统是根据细胞大规模培养生物过程多尺度理论设计的专用软件。以微生物发酵为例,生物过程实际上是在分子水平的遗传特性、细胞水平的代谢调节和工程水平的传递特性3个不同尺度上发生调控的,细胞代谢物质流所引起的生物反应器物料流变化的相关特性是研究上述3个尺度问题。该软件包的软件结构设计就是实现过程大数据处理,为用户提供包括可视化趋势曲线在内的相关分析,是生物过程优化与放大的有力手段。

②为便于参数相关分析的用户界面的创建和显示;生物反应器中基因、细胞和生物反应器等不同的时间尺度所决定的采样频率从输入模块采集数据;过程分析到的数据对代谢流、反应器物料流以及状态参数进行分析,同时把在线数据和异常事件等数据储存到数据库,便于曲线相关、历史数据相关或发酵批间数据曲线相关等的查询和分析,以及其他工作站或远程通讯等第三方应用程序的使用。

③该系统有多种适应于跨尺度分析的可视化人机界面,包括图形视图和报表视图的创建、显示和打印,各种配置对话框的创建和显示。以上述内容为目标,根据现场数据采集,进行在线参数、离线参数、间接参数、实验室手工参数以及现场操作记录、意外情况等数据的二次处理。强调组合成有利于跨尺度观察的数据群或曲线,因此该软件在趋势曲线或列表显示时,在时间轴长短(分、小时、天)、时间起始点、显示参数选择与撤消、颜色选择、显示量程选挥、数据平滑密集度、坐标轴颜色、背景颜色、标尺线设计与颜色、发酵开车予设定、历史批数据比较、不同批次数据的同一画面显示等作了精心设计。在上述软件包指导下的实时数据曲线图可以很方便地实现以细胞代谢流所引起的参数相关研究。

④运行时发生的各种事件保存,包括各种手工实验室参数、菌体细胞显微形态等,这些数据库的数据保存密度与精度、数据管理方式以及成批的数据调用方式都以方便数据相关分析为基准实施。

⑤与设备操作关联,通过以上设计,把参数相关的具体内容与操作事件联系起来,便于进一步在过程优化时查找原因。

⑥相关分析的Internet联网数据与远程传输,便于各领域专家学科技术交叉,以及远程工艺优化或放大分析。

⑦基于多尺度相关分析的数学方法,其中包括各类统计分析与数据挖掘。

4 结 语

生物过程多尺度大数据的混杂性和海量数据虽然不能反映所有的过程信息,但大部分是正确的,反映了过程本体特性的真实性。但是很难通过这些数据找出不同尺度的具体因果关系,或者说各不同尺度领域研究的结果很难在过程大数据中直接显现出来。造成上述问题的重要原因是单一生理调控机制出发的研究往往只揭示了生理调控的局部和某一时段的特点,仅靠高度分支化和具体分散的研究不一定在整个生物反应器生物过程全局数据中发挥显著作用。但是寻找因果关系是人们的习惯,即使无因果关系,还是假定其存在,这是对已有结果的信仰和执着,存在很大的偏见和影响。或者设计严格的实验来验证因果关系,这是非常耗时费力的工作。是否就此认为当进行整体过程研究时就不需要这种研究结果,显然这也是缺乏根据的。为此,在“数据超载”的情况下,如何将信息转化为知识,并进一步深入解决生物过程中的优化问题。于是笔者提出“信息→相关→因果→知识”的研究过程。 即在过程信息获得基础上,通过实验耗资和费时少的大数据相关分析,发现正在发生的事件,然后通过精确数据支撑的因果分析慢慢研究,结合模式菌的设计研究,形成知识与文章发表,与大家共享理论研究成果。

10.3969/j.issn.1674-0319.2016.03.004

猜你喜欢

反应器尺度特性
谷稗的生物学特性和栽培技术
财产的五大尺度和五重应对
色彩特性
进一步凸显定制安装特性的优势 Integra DRX-5.2
IC厌氧反应器+A/O工艺在黄酒废水处理中的应用
EGSB反应器处理阿维菌素废水
Quick Charge 4:什么是新的?
上旋流厌氧反应器在造纸废水处理中的应用
宇宙的尺度
平推流管式连续反应器合成耐热ABS树脂的研究