基于深度神经网络与Box-Behnken响应面法的灵芝总三萜提取工艺优化
2023-06-15姚泽远卜原玲
姚泽远,卜原玲,韩 伟
(华东理工大学 药学院 制药工程与过程化学教育部工程研究中心 上海市新药设计重点实验室,上海 200237)
灵芝三萜作为灵芝的化学成分之一,以较少的含量在多个方面都呈现了较强的药理活性[1-4]。目前,对灵芝三萜类化合物的研究主要集中在药理药效或化学成分等方面[5]。对灵芝三萜的提取大多仍是使用传统的热回流提取,该法存在耗时长、能耗高、有机溶剂用量大等缺点[6]。超声波辅助提取则凭借超声波在提取过程中产生的空化效应和机械效应等,有着提取时间短、提取温度低、提取率高等优点[7],本文将通过单因素实验确定超声波辅助提取工艺各因素的中心点和范围,采用筛选实验设计Plackett-Burman(PB)筛选出对灵芝总三萜得率影响显著的因素,并采用响应面法对筛选出来的因素通过建立模型进行工艺优化。
深度神经网络(DNN)作为具有多个隐藏层的判别模型,能够为复杂的非线性关系建立模型,从更高的抽象层次发现数据之间的潜在联系,可用于模拟非常复杂的实验条件和参数[8],在计算视觉、工程造价、生物医学等领域都得到广泛认可[9-12]。蒙特卡洛算法是一种依靠重复随机抽样和统计分析来计算结果的随机方法,特别适用于一些解析法求解非常困难甚至不可能求解的问题,同时拥有设置参数少、性能优等优点,近年来在迭代和优化领域均有着良好的表现[13]。
本文基于单因素、PB、Box-Behnken响应面实验得到的数据,建立一种全新的基于深度神经网络的优化模型,结合蒙特卡洛算法对建立的模型进行寻优以确定最佳工艺参数,并与实验优化结果进行比较。
1 实验
1.1 药材与试剂
龙芝2号灵芝子实体由上海农业科学院食用菌研究所提供。
齐墩果酸标准品(质量分数>97%),北京沃凯生物科技有限公司;高氯酸、无水乙醇、香草醛、乙酸,分析纯,上海泰坦科技股份有限公司。
1.2 仪器与软件
UV-1901PC型紫外-可见分光光度计,上海亚研电子科技有限公司;KH-600KDB型高功率数控超声波清洗器,昆山禾创超声仪器有限公司;RE-2010型旋转蒸发器,上海予华仪器设备有限公司。
文中使用了Design-Expert 12.0和Origin 2018软件,还使用了PyCharm的Python version 3.6深度学习程序,包括:Pytorch框架,Pandas和NumPy数值处理库,SciPy和Statsmodels统计分析库,Matplotlib和Seaborn可视化工具。
1.3 分析方法的确定
采用香草醛-冰醋酸显色法[14-15]测定总三萜的含量。将齐墩果酸作为标准品配制成0.105 mg/mL的标准品溶液,与香草醛质量分数为5%的冰醋酸溶液在酸性环境下进行显色反应,使用紫外-可见分光光度计测试400~800 nm的吸光度,得到最大吸收波长为546 nm。在546 nm波长下测定不同质量浓度的齐墩果酸标准品溶液的吸光度,线性拟合得到吸光度(A)与齐墩果酸质量(M)的标准曲线:A=6.736 1M+0.103 7,相关系数为0.999 4。
1.4 灵芝总三萜的提取工艺优化流程
通过单因素、PB以及响应面实验对灵芝总三萜的提取工艺进行优化并收集实验数据,将这些数据用于神经网络的训练和建立,总体流程见图1。
图1 灵芝总三萜的提取工艺优化步骤
1.4.1 深度神经网络的建立
使用Pandas和NumPy数值处理库对单因素、PB、响应面实验得到的所有数据进行预处理和随机划分,按照8∶2得到对应的训练和测试数据集。针对得到的数据集使用Pytorch框架开发Python的脚本构建深度神经网络模型(图2):第1层为输入层(T0),即输入特征(Xi),分别为乙醇体积分数、液固比、提取时间、超声功率和提取温度,神经元数量(L0)为 5;中间3层为隐藏层(T1,T2,T3),神经元数量(Lj,j=1,2,3)分别设置为16、64和64,并进行归一化;第4层为输出层(T4),即输出的预测值(Y),对应总三萜得率,神经元数量(L4)为1。模型选择ReLU函数激活隐藏层,优化函数选择随机梯度下降,学习率设置为 0.1,迭代次数设置为 200 次。
图2 灵芝总三萜提取工艺预测的深度神经网络结构
1.4.2 深度神经网络的性能验证
模型的性能结果使用均方误差(MSE)、平均绝对误差(MAE)、决定系数(R2)以及Pearson相关系数(r)来表述,具体见式(1)—(4)。
(1)
(2)
(3)
(4)
在模型构建完成后,使用蒙特卡洛算法寻找最优模型参数,一般分为3个步骤:构造随机概率的过程;从构造随机概率分布中抽样;求解估计量,从而预测得到最优的总三萜工艺参数。具体公式见式(5)。
(5)
式中:f(Xi)为深度神经网络模型模拟得到的函数;p(Xi)是随机变量Xi的概率密度函数;N是设置随机样本的数量,文中N=107;FN是对f(Xi)的期望值。
2 结果与讨论
2.1 单因素实验
在工艺参数(提取温度60 ℃、提取时间20 min、液固比20 mL/g、超声功率300 W以及乙醇体积分数90%)基本固定的条件下,通过分别调节对应参数研究各因素对灵芝总三萜得率的影响,结果见图3—7。
图3 不同超声功率对灵芝总三萜得率的影响
由图3可知:总体上,增大超声功率有利于提高灵芝总三萜的得率,但是当超声功率超过300 W,过大的功率可能导致部分活性成分的分解,使得灵芝总三萜的得率反而有所下降。据此,确定300 W为最佳的超声功率。
提取温度为60 ℃时有着最高的总三萜得率(图4)。可能是因为溶剂温度的升高会导致蒸汽压增大,更多气体进入超声波产生的空泡中,空泡破裂的剧烈程度降低,导致空化效应减弱[16],这同样会导致总三萜得率的降低。因此,选择60 ℃为最佳的提取温度。
图4 不同提取温度对灵芝总三萜得率的影响
由图5可知:较长的超声提取时间能够保证溶剂对提取物的渗透,同时也保证了超声波所需要破壁的总能量。但是,过长的时间会使得过多的活性物质浸泡在高温溶剂中,进而导致活性物质失活,因此,提取时间选择20 min为宜。
图5 不同提取时间对灵芝总三萜得率的影响
过低的液固比会使溶质在溶剂中过饱和,导致传质速度的下降。液固比增加,提取物组分与溶剂接触的总体积将增大,得率随之增加。由图6可知:当液固比达到25 mL/g时,灵芝总三萜的溶解到达平衡状态,此时得率最高。因此,将25 mL/g作为最佳的液固比。
图6 不同液固比对灵芝总三萜得率的影响
植物中的天然抗氧化剂大部分易溶于低极性的有机溶剂中[17],同时,三萜类化合物因含有极性基团而使其极性略有增加。选择体积分数为60%、70%、80%、90%、100% 的乙醇为溶剂,探究乙醇体积分数对总三萜得率的影响(图7)。由图7可得:乙醇体积分数为80%时,灵芝总三萜得率最高。
图7 不同乙醇体积分数对灵芝总三萜得率的影响
2.2 Plackett-Burman(PB)实验
根据单因素实验结果得到各因素的中心点,通过PB对乙醇体积分数(X1)、液固比(X2)、提取时间(X3)、超声功率(X4)和提取温度(X5)这5个因素进行筛选。以灵芝总三萜得率为响应值,使用Design-Expert 12.0软件进行实验设计(表1)并进行显著性分析(表2)。
表1 PB实验因素水平
表2 PB实验显著性分析
由表2可知:该模型的P=0.020 6<0.05,说明所考察因素对灵芝总三萜得率影响显著,其中提取温度和提取时间的影响显著(P<0.05),超声功率的影响极显著(P<0.01)。这3个因素将作为后续工艺优化的主要研究对象。
2.3 响应面实验
2.3.1 实验设计与结果
将PB筛选出的对得率影响显著的3个因素(提取时间、超声功率和提取温度)作为响应因子,灵芝总三萜得率(Y)为响应值,采用Design-Expert 12.0软件进行实验设计,建立3因素3水平优化表(表3),结果见表4。
表3 响应面实验设计
表4 实验设计和结果
2.3.2 响应面模型的建立和方差分析
响应面模型分析3个因素之间的交互作用,并对实验结果进行二阶多项式拟合,最终得到灵芝总三萜得率与3个变量的编码二次方程模型:Y=1.48+0.050 4A-0.001 2B+0.101 4C-0.002 7AB-0.047 1AC+0.006 7BC+0.002 2A2-0.035 8B2+0.000 6C2。
检验结果采用方差分析和多元线性回归分析,使用P和F值评价回归方程的显著性,结果见表5。由表5可见:模型的P<0.000 1,表明整个模型极为显著,可以用来研究3个因素和响应值的交互作用。模型使用了失拟指标检验模型的适应性,其失拟项P=0.530 2>0.05,表明该模型失拟不显著,对实验结果的拟合效果良好且较为准确。
表5 灵芝总三萜得率的方差分析
分析得到模型相关系数为0.976 4,修正相关系数为0.946 0,预测修正相关系数为0.829 4,变异系数为1.030 0,信噪比为19.683 2。模型相关系数为0.976 4,表明实际值与模型的预测值在绝大多数情况下高度相关;修正相关系数(0.946 0)略小于模型相关系数(0.976 4)且预测修正相关系数(0.829 4)与修正相关系数(0.946 0)的差值<0.120 0,表明数据波动在一个合理的范围;模型的信噪比为19.683 2,验证该模型具有良好拟合的可信度。以上结果均能表明该响应面模型能够充分反映响应值与自变量之间的准确联系。
2.3.3 响应面分析
根据响应面回归方程作出两因子交互作用图(图8—10)。由图8可知:该响应曲面的形状起伏较大,显示提取时间与温度之间的显著相互作用,并且灵芝总三萜的得率随二者的变大而一起提高。由图9可知:功率对总三萜得率的影响不如提取温度显著,过低的提取温度会使得率急剧下降,而单独调整超声功率,结果的变化程度较小。由图10可知:灵芝总三萜得率会随着提取时间的延长而增大,而超声功率则控制在 280~320 W为宜。
图8 提取时间与提取温度交互影响的响应曲面
图9 超声功率与提取温度交互影响的响应曲面
图10 提取时间与超声功率交互影响的响应曲面
通过响应面模型对提取工艺参数寻优,预测得到最佳提取工艺:超声功率为326.289 W,提取温度为67.795 ℃,提取时间为22.203 min,液固比为25 mL/g,乙醇体积分数为80%。在此工艺条件下灵芝总三萜得率的预测值为1.784%。
根据机器功率限制和方便操作的原则进行调整,确定工艺参数:超声功率为300 W,提取时间为22 min,提取温度为68 ℃,液固比为25 mL/g,乙醇体积分数为80%。在此工艺参数下预测得率为1.784%,实际测得灵芝总三萜得率为1.713%,相对误差为3.98%。
2.4 深度神经网络建模结果
基于深度神经网络的框架,收集响应面、PB和单因素实验得到的17组、12组、25组数据,随后对相同实验参数得到的数据进行平均化,整合得到47组样本数据,随机选择38组为训练数据集,剩余9组为测试数据集,构建深度神经网络模型并进行评估,结果如图11所示。
图11 深度神经网络训练迭代过程
由图11可知:神经网络在44次迭代后,训练集预测输出样本的均方误差和决定系数趋于不变,模型已达到收敛。经均方误差公式计算,训练集的均方误差为0.001 6,平均绝对误差为0.022,决定系数为0.900;测试集的均方误差为0.022,平均绝对误差为0.13,表明该深度神经网络模型能够较精准的预测灵芝总三萜得率。
在构建模型之后,利用SciPy和Statsmodels统计分析库,分别计算乙醇体积分数、液固比、提取时间、超声功率和提取温度5个实验参数的Pearson相关系数,发现提取时间、超声功率对灵芝总三萜得率有很强的相互作用(r<0.05)。利用matplotlib和Seaborn可视化工具图得到演示深度神经网络模型,模拟灵芝总三萜得率随乙醇体积分数、液固比、提取时间、超声功率和提取温度的四维变化图(图12)。
图12 灵芝总三萜得率的四维变化
由图12可见:乙醇体积分数为75%~95%时,灵芝总三萜得率较高,液固比的变化对得率的影响不显著,二者的交互作用也很弱。当乙醇体积分数和液固比控制在一个较合理的范围时,提取时间不足时灵芝总三萜得率很低,15~30 min是一个较合理的提取时长。超声功率则需要控制在一个中等水平,过高或过低都会降低灵芝总三萜得率。对于提取温度,过高的提取温度会导致其他工艺参数的可变范围急剧缩小。
基于已构建的深度神经模型,应用蒙特卡洛算法寻找总三萜得率的最优解,运行结果如下:搜索空间为5×104,运行时间为2 min,得到深度神经模型预测灵芝总三萜得率最优解为 1.878%。该结果的实验条件:乙醇体积分数为87.665%,液固比为17.229 mL/g,提取时间为12.171 min,超声功率为342.865 W,提取温度为57.862 ℃。
根据机器功率限制和方便操作的原则进行调整,确定工艺参数:超声功率为360 W,提取时间为12 min,提取温度为58 ℃,液固比为17 mL/g,乙醇体积分数为88%。在此工艺参数下,预测得率为1.878%,实际测得灵芝总三萜得率为1.805%,相对误差为3.89%。
本文通过深度神经网络优化后的得率高于周晓等[18](1.30%)、洪文龙等[19](1.27%)的研究结果。
3 结论
1)通过单因素实验得到各因素的中心点:超声功率为300 W,提取温度为60 ℃,提取时间为20 min,乙醇体积分数为80%,液固比为25 mL/g。
2)使用PB筛选得到对灵芝总三萜得率影响显著的3个因素:提取温度、提取时间、超声功率。
3)建立响应面模型得到优化的工艺参数:超声功率为300 W,提取时间为22 min,提取温度为68 ℃,液固比为25 mL/g,乙醇体积分数为80%。预测得率为1.784%,实际测得灵芝总三萜得率为1.713%,相对误差为3.98%。
4)构建深度神经网络并使用蒙特卡洛算法进行预测与寻优,得到最优工艺参数:超声功率为360 W,提取时间为12 min,提取温度为58 ℃,液固比为17 mL/g,乙醇体积分数为88%。预测得率为1.878%,实际测得灵芝总三萜得率为1.805%,相对误差为3.89%。比较了两种不同方法对灵芝总三萜的超声辅助提取工艺的优化结果,发现深度神经网络对现有数据进行学习并结合蒙特卡洛算法进行寻优即可得到更优的工艺条件和更准确的预测结果,在工艺优化方面有着广阔的前景。