APP下载

基于DBN-DMFA的代谢通量调控模型

2021-09-24岳向阳赵忠盖

化工自动化及仪表 2021年5期
关键词:菌体时变青霉素

岳向阳 赵忠盖 刘 飞

(江南大学a.轻工过程先进控制教育部重点实验室;b.自动化研究所)

工业发酵中的操作条件可以调节微生物的生长代谢环境,如底物流加速率用于控制基质浓度,冷/热水流加速率则能够调整环境温度,当基质浓度过低时会导致菌体营养不良,而浓度过高时又会使菌体耗氧量增加,温度则会提高或抑制酶的活性[1],因此为提高发酵生产的效率,对操作条件的优化至关重要。 精确有效的发酵过程模型是实现优化的前提条件。 最初对操作条件的优化是根据人类积累的经验知识[2],随着对过程机理的逐渐了解,通过微分方程定义的机理模型得到使用[3],后来计算机硬件水平不断提高,采用历史数据驱动的数据模型获得广泛应用[4],但这些模型只能描述发酵过程的外部特征。

微生物发酵的本质是细胞复杂的微观代谢反应,其反应速率即代谢通量能够定量地表征菌体内部的生长代谢状态。 代谢通量难以实际测得[5],而 常 用 的 动 态 通 量 分 析(Dynamic Metabolic Flux Analysis,DMFA) 方法可以利用细胞代谢网络模型和细胞外时变参数来估计代谢通量[6]。 因此建立代谢通量调控模型则可以从代谢机理的角度定量描述发酵过程中操作条件与代谢通量间的联系,为操作条件的优化提供代谢层面的指导。

微生物的生命周期可分为迟滞期、对数生长期、稳定期和凋亡期,其生长代谢状态在不同阶段动态变化,具有非线性特征,因此分段建模方法得以应用。 Gao Y等使用高斯混合模型将样本划分为若干个子数据集后,分别建立子模型再融合为代谢通量调控模型[7]。 然而实际上细胞外的时变参数,如生物量浓度、产物浓度等均需要经过人工取样后离线检测, 这导致在用DMFA估计代谢通量时会忽略重要的过程动态信息,为使代谢通量更真实地反映微生物生长代谢状态的变化,需要实时预测所需的细胞外时变参数。 人工神经网络(Artificial Neural Network,ANN)在发酵过程软测量中应用广泛,Dach J等使用ANN对浆液发酵过程进行建模,较好地预测了甲烷的排放水平,但使用随机初始化深层ANN参数的策略容易陷入局部最优或梯度消失,难以保证模型的性能[8]。 随着计算机硬件的发展,Hinton G E等提出的深度信念网络(Deep Belief Network,DBN)策略能够有效训练深层ANN[9],即先逐层进行无监督的预训练来获得非线性的潜变量模型,然后有监督地微调最终的回归或分类模型。 Erhan D等利用若干基准实验说明无监督预训练的有效性[10]。DBN的半监督学习策略不仅能挖掘过程中所有数据的信息,还可以充分拟合发酵过程的非线性特征,因此可将DBN用于预测所需的生物学参数和建立代谢通量调控模型。

笔者考虑发酵过程的非线性特征和过程变量间采样率不同的特点,提出基于DBN-DMFA的代谢通量调控模型策略, 其中DMFA用于估计代谢通量,DBN则用来预测生物学参数和建立代谢通量调控模型。 通过青霉素仿真对比实验,说明该策略构建的调控模型能够有效揭示工业发酵的操作条件与微观代谢通量间的联系,可以用于进一步的发酵控制和优化。

1 青霉素代谢通量调控模型问题描述

青霉素发酵过程中发酵液的pH值会改变菌体细胞膜的通透性[11],而菌体的代谢活动会影响氢离子的平衡,从而导致pH值波动,因此需要实时控制酸液或碱液的流加速率以使pH值保持在合适的范围内。 温度会影响酶的活性,而菌体的生长代谢活动、搅拌器的工作等都会引起热能的变化,因此要实时调节冷水或热水的流量来保持发酵环境的温度。 另外,溶氧浓度影响菌体的代谢途径和产物产量,通过实时调整搅拌功率和无菌空气流速可以满足菌体在不同发酵阶段的需氧量。

青霉素代谢通量调控模型中包含的化学信息可以用化学计量矩阵S(S∈R(M+N)×L)来表示,其中M、N分别是菌体细胞内、 细胞外代谢物的数量,L是代谢反应的数量,矩阵中的数值对应于相应反应式的系数[12]。 使用DMFA来估计青霉素的代谢通量时,还需要生物量浓度c(bio)、底物浓度c(glu)、青霉素浓度c(peni)、溶氧浓度c(O2)和二氧化碳浓度c(CO2)的时变数据,而实际发酵过程中c(O2)和c(CO2)可以在线测得,Eun=[c(bio)c(glu) c(peni)]则需要进行离线检测,为使所估计的代谢通量真实反映过程的动态,可以建立相应的软测量模型来实时获得Eun。

2 基于DBN-DMFA的代谢通量调控模型

2.1 深度信念网络

DBN 是由受限玻耳兹曼机(Restricted Boltzmann Machines,RBM)堆叠而成的。 RBM结构如图1所示,由可视层和隐含层组成,具有层内无连接、层间全连接的特点。

图1 RBM结构

RBM的能量函数如下:

其中wij是节点Vj和Hi间的权重,bj和ci分别为节点Vj和Hi的偏置,vj和hi分别对应节点Vj和Hi的状态,根据能量函数可以定义各节点的概率。

RBM的训练目标是拟合输入样本的分布[13],目前常用对比散度方法来快速学习RBM,参数θ={w,b,c}更新规则如下:

其中v*代表可视层v的重构,h*是根据v*得到的隐含层,p()为概率,ε为学习率。

DBN的训练过程如图2所示, 首先对网络前n-1层采用逐层贪婪学习算法进行无监督预训练,即先训练RBM1,然后保存该层参数,将RBM1的隐含层输出作为RBM2的输入, 训练RBM2后保存参数,以此类推,一直到RBMn-1训练结束。 然后将保存的参数作为网络前n-1层的初始参数,最后使用反向传播对整体网络进行有监督地微调。

图2 DBN的训练过程

2.2 动态代谢通量分析

基于胞内拟稳态假设和质量守恒原则,得到动态通量均衡方程:

其中S∈R(M+N)×L代表菌体代谢网络中的化学信 息,Sint∈RM×L和Sext∈RN×L分 别 是 细 胞 内 和 细 胞外代谢物的化学计量学矩阵,f∈RL×1代表L个反应的代谢通量,cext∈RN×1是细胞外N个可观测代谢物向量。

由于细胞内代谢物数量M通常少于代谢反应数量L,即矩阵Sint是欠定的,其自由度为d=Lrank(Sint),因此代谢通量f可以表示为:

其中K∈RS×d是Sint的零空间,u∈Rd×1为一组自由通量。

使用DMFA时刻对整个代谢过程进行分段线性化,DMFA起点和终点时刻与实际测量的首末时刻保持相同, 假定每两个DMFA时刻间的代谢通量呈线性变化,可得:

其中ND是DMFA时刻的数量,γ(t,ti)是使得代谢通量线性化的系数矩阵,ti是第i个DMFA时刻区间,ui是ti内的自由通量。 对式(6)两侧积分后,将细胞外代谢物的估计值与实际值间的方差最小化,即可估计出代谢通量f。

2.3 算法流程

基于DBN-DMFA的代谢通量调控模型流程如下:

a. 采集发酵过程样本数据;

b. 选择辅助变量并使用DBN构建软测量模型,预测所需的细胞外时变参数;

c. 结合菌体的代谢网络和细胞外时变数据,利用DMFA计算动态代谢通量;

d. 选择操作条件和代谢通量的数据构成样本,利用DBN建立代谢通量调控模型。

3 青霉素发酵过程仿真分析

以青霉素发酵过程为例,过程数据来自Pensim仿真平台,它以Birol机理模型为内核,能够有效地模拟真实发酵过程[14]。根据Pensim仿真平台中各初始条件的范围要求,随机生成50批青霉素发酵过程数据,发酵总时长为400 h,采样时间为0.5 h。

3.1 数据预处理

青霉素发酵过程数据具有不同量纲,会导致算法收敛困难,因此笔者采用Z-score方法进行归一化,计算式为:

3.2 仿真分析

采用均方根误差σRMSE和最大误差绝对值σMAXE来量化模型的预测性能,表达式如下:

其中Ns是样本数,Yi和Y^i分别是真实值和预测值,σRMSE和σMAXE值越小,说明模型性能越好。

3.2.1 预测细胞外时变参数Eun

将50批原始数据按7∶2∶1划分为训练集、验证集和测试集,然后随机去掉训练集中40%数据点中的Eun向量,从而把训练集分为预训练集和微调集。

选取发酵罐温度、pH值、底物流加速率、底物流加温度、发酵液体积和发酵产生的热量作为预测Eun的辅助变量, 通过实验确定网络结构为6-5-4-4-3, 将DBN与传统ANN进行比较,DBN和ANN预测性能见图3和表1。

图3 两种模型对c(glu)的预测误差

表1 测试集性能指标对比

由仿真结果可知,DBN相比ANN能更好地预测Eun,有利于进行动态代谢通量分析。

3.2.2 计算动态代谢通量青霉素代谢网络[15]包含66个代谢反应、49个胞内代谢物和5个细胞外代谢物(L=66,M=49,N=5)。 基于DBN可对细胞外时变参数进行有效预测,根据式(6)可估计出66个代谢通量,其中3个胞内外交 换 反 应 的 代 谢 通 量F=[f (glu) f (peni)f(O2)]与对应的浓度E=[c(glu) c(peni) c(O2)]对比如图4所示。

图4 交换反应代谢通量

以图4中f(glu)为例,f(glu)的变化会引起c(glu)发生相应的改变。由此可说明DMFA所计算的代谢通量能够有效地揭示菌体内部的生长代谢状态。

3.2.3 代谢通量调控模型

基于对细胞外时变参数Eun的预测和对代谢通量的估计, 获得建立调控模型所需的样本数据。 操作条件变量(输入)为通风率、搅拌速率、底物流加速率、底物流加温度、酸/碱流加速率、冷/热水流加速率。 代谢通量变量(输出)为f(peni)和f(glu)。 将样本按7∶2∶1分为训练集、验证集和测试集, 由实验确定网络结构为8-7-6-6-4-2,ANN与DBN的预测性能见图5与表2, 观察可知DBN比ANN更能有效建立代谢通量调控模型。

图5 两种模型对f(peni)的预测误差

表2 测试集性能指标对比

4 结束语

操作条件对发酵生产效率影响显著,代谢通量模型则可以结合微观代谢机理来为操作条件的优化提供指导。 考虑实际发酵中存在过程非线性和数据的多采样率,笔者提出基于DBN-DMFA的建模策略,并利用Pensim仿真数据进行实验,说明了该策略的有效性,所得模型可用于代谢层面的在线检测、控制和优化。

猜你喜欢

菌体时变青霉素
NH4+双阶段发酵控制谷氨酸工艺研究
菌体蛋白精养花鲢高产技术探析
“青霉素皮试”5误区,你中招了么
“青霉素皮试”5误区,你中招了么
细菌为何能“吃”青霉素
|直接引语和间接引语|
自然发酵肉制品中乳酸菌的体外降胆固醇特性
基于马尔可夫时变模型的流量数据挖掘
基于时变Copula的股票市场相关性分析
基于时变Copula的股票市场相关性分析