APP下载

雨生红球藻生长阶段分类研究

2021-12-22杨梦玉崔世钢王永亮

天津职业技术师范大学学报 2021年4期
关键词:球藻青素决策树

杨梦玉,崔世钢,王永亮

(1.天津职业技术师范大学自动化与电气工程学院,天津300222;2.天津职业技术师范大学天津市信息传感与智能控制重点实验室,天津300222)

虾青素作为天然的抗氧化剂,具有极强的穿透力、跨膜稳定性、超强吸收性、防紫外线辐射、抑制肿瘤等作用,广泛应用于医学、化妆品等领域[1-4]。雨生红球藻是一种淡水单细胞绿藻,也是虾青素最天然、最高效的生产商,与在水产加工工业的废弃物和红发夫酵母这2种途径中获取虾青素相比,雨生红球藻对虾青素的积累速率较快且虾青素含量较高,因此被誉为“天然虾青素的浓缩品”[5-8]。采用“两步法”培养雨生红球藻时,其生长过程主要包括细胞增殖阶段和虾青素积累阶段,处于细胞增殖阶段中的细胞是游动的,大多数细胞呈现绿色,偶尔会有少数细胞因周围恶劣环境的胁迫而呈血红色[9-10],细胞通过吸收周围环境中的营养物质进行二分裂及四分裂、增殖,提高细胞数量。在虾青素积累阶段,通过对光照、温度等生长条件的改变,细胞壁增厚,细胞内部因逐步进行虾青素的合成,大部分细胞呈红色。将经过2个阶段培养后的藻液通过离心、提取等技术,可以获取雨生红球藻细胞中积累的虾青素。刘伟等[11]通过建立雨生红球藻的两步培养法,即在2个生长阶段中,改变温度、光照、培养基中营养物质等,提高了细胞增殖速率、虾青素积累速率及虾青素含量。陈家宇等[12]通过设置对比实验,验证了光照强度、NaNO3和NaCl浓度等因素对雨生红球藻积累虾青素的影响并提出最适宜藻细胞生长的环境参数值。上述文献皆是通过对雨生红球藻生长的环境条件进行探究,以及对物理条件的改变来提高藻细胞的生物量与虾青素积累量,并没有采用算法对实验后的数据进行分析及对2个阶段的细胞进行类别划分。本文采用C4.5决策树算法,在雨生红球藻处于最佳生长环境的基础上,对2个生长阶段的细胞进行观察并对其划分属性进行选择,实现对2个生长阶段的细胞进行分类,为雨生红球藻的培养和对虾青素的研究提供有力的保障。

1 决策树算法

1.1 决策树

决策树是一种常见的分类预测算法,基于树的结构来进行决策、判定。决策树可以通过给定的训练集学得一个模型,可以对未见示例进行分类。一棵决策树由1个根结点、若干个内部结点和若干个叶结点组成[13-14],根结点是包含数据集中的所有数据的集合;内部结点是判断条件;叶结点是最终的类别。决策树结构如图1所示。

图1 决策树结构

决策树以训练集D与属性集A作为输入量,通过函数TreeGenerate(D,A)依次生成决策树结点node、选择最优划分属性、构建分支,最后输出一棵泛化能力强的可以对未见示例进行准确分类的决策树。决策树生成框图如图2所示。

图2 决策树生成框图

其中,输入变量训练集D和属性集A的计算式为

1.2 C4.5算法

C4.5算法常用来解决分类问题,模型通过对输入变量训练集D和属性集A的学习,找到一个从属性值到所属类型的映射关系,并且该映射关系可以用于对新的类型未知的实体进行分类[15]。

对雨生红球藻细胞进行生长阶段的分类是二分类问题,需要分别对离散属性值和连续属性值进行处理,通过计算信息熵和信息增益率选择最优属性,将细胞划分为2个生长阶段,用到的属性集A为

式中:“细胞半径”和“颜色”为离散值;“细胞个数”和“吸光度值”为连续值。

C4.5算法既可以处理离散的属性值,也可以处理连续的属性值。信息熵、信息增益、增益率的计算式为

式中,属性a的固有值计算式为

信息熵是用来衡量样本纯度的指标,式(4)表示当前训练集D中第k类样本所占比例为pk(k=1,2,…,|y|)的信息熵,信息熵的值越小,说明当前训练集D的纯度越高;信息增益是利用属性a对样本进行划分所获得的,用信息增益来进行决策树划分属性的选择,若属性a有V个可能的取值{a1,a2,…,aV},用a对样本进行划分会产生V个分支结点,其中Dγ是指第γ个分支结点包含了D中所有在属性a上取值为aγ的样本,信息增益越大,表示用属性a来划分获得的分类效果越好;C4.5决策树算法用增益率来选择最优划分属性,IV(a)为属性a的固有值,属性a的可能取值数越多,V越大,固有值越大。C4.5决策树算法从划分属性中找到Gain(D,a)高于均匀水平的属性,然后从中挑选增益率最大的属性,作为分类中的最优分类属性。

2 实验与数据采集

实验采用上海光语生物科技有限公司生产的雨生红球藻藻液及BG-11培养基,经多次细胞增殖培养后获得较多藻液,分别用于细胞增殖阶段培养和虾青素积累阶段培养,利用倒置显微镜、光栅分光光度计等仪器设备多次采集2个阶段的细胞半径、细胞个数、吸光度值、颜色数据,作为C4.5决策树算法的数据集及划分属性来对模型进行训练。

杨慧敏等[16-17]通过设置对照实验,验证了雨生红球藻在BG-11培养基、24~26℃、NaHCO3添加浓度为1.0时,细胞生长速率较快,然后通过在培养基中添加植物生长调节剂来提高虾青素的含量。相关文献表明,通过对LED光源的设计,发现雨生红球藻在增殖培养阶段,光照强度与藻细胞半径之间存在线性关系[18];在细胞增殖阶段培养过程中,通过更新培养基来保证雨生红球藻生长环境中有充分的营养物质,在保证了细胞活性的同时,也提高了藻细胞生物量[19]。在虾青素积累阶段,影响虾青素产量的因素分别为NaCl浓度、光照强度、NaNO3浓度,且NaCl浓度对虾青素产量的影响最大[20]。

2.1 实验准备

将购买的200 mL雨生红球藻藻液进行细胞增殖实验与虾青素积累实验。通过前期设置对比实验,分别探究适合雨生红球藻进行细胞增殖与虾青素积累的最佳环境条件,以下实验均在最佳环境条件及无菌环境下进行,实验步骤如下。

(1)准备实验器具。在开始实验前准备8个锥形瓶、1个广口瓶、若干个胶头滴管、移液枪、一次性手套、贴签纸、酸碱指示剂、培养基、NaOH溶液、NaCl、柠檬酸溶液、纯净水、封口用的牛皮纸、皮筋、数码秤。

(2)灭菌消毒。将所需的实验器皿放入高温高压灭菌锅(温度为125℃)中进行高温高压杀菌消毒,将消毒后的带有水的实验器皿放入电热鼓风干燥箱中干燥,干燥后取出实验器皿并将其放入超净工作台,保证在无菌、试剂不受污染的环境下进行实验。

(3)配置培养基。经计算共需要配置1 000 mL培养基,其中200 mL培养基中不添加NaNO3溶液,按照2 g/L的比例向培养基中添加NaCl,为方便实验,先配置1 000 mL不添加NaNO3溶液的培养基。先向广口瓶中加入1 000 mL的纯净水,按照纯净水∶溶液=1000 mL∶1 mL的比例向纯净水依次加入K2HPO4·3H2O、MgSO4·7H2O、CaCl2·2H2O、柠檬酸铁铵、柠檬酸、EDTA、Na2CO3、A5+CO溶液,取出200 mL培养基待用,即完成用于虾青素积累阶段的培养基配置[21-22];向剩余的800 mL培养基中加入NaNO3溶液,即完成用于细胞增殖阶段的培养基配置,留于广口瓶中待用。

(4)配置藻溶液。在超净工作台上将200 mL藻液平均分于2个锥形瓶中,每个锥形瓶各100 mL藻液,并按照藻液与BG-11培养基1∶1的比例分别向2个锥形瓶添加100 mL培养基,配置成200 mL藻溶液,将藻液放置于光照强度为20μmol·m-2·s-1、温度为25℃的光生物反应架上,进行培养周期为8~9 d的细胞增殖实验,将最开始的200 mL藻液扩培到400 mL,同样方法再将400 mL藻液扩培到800 mL。

(5)生物反应架。利用照度仪测量光生物反应架中的LED光源的光照强度,分别根据藻液的摆放位置调整2个阶段的光照强度,控制单一变量,保证实验数据的准确度。光生物反应架如图3所示。

图3 光生物反应架

光生物反应架主要由摇床、气体混合分路器、气缸、玻璃转子流量计、LED光源等几部分组成。光生物反应架为雨生红球藻提供正常发育所需的场所,将反应架分为上、中、下三层,上面两层用来进行细胞增殖实验,最下面一层是虾青素积累阶段的实验场所,在培养过程中将光生物反应架的外部用不透光的布遮住,避免外界环境中的自然光对实验的影响。

2.2 数据采集

2个阶段培养结束后,分别取少量藻液于培养皿或盖玻片,用显微镜观察细胞颜色,并检测细胞半径,用血球计数板记录2个生长阶段的细胞个数,再用光栅分光光度计检测细胞的吸光度值,细胞生长阶段图如图4所示。

图4 细胞生长阶段图

多次检测后分别记录2个阶段的细胞半径、细胞个数、吸光度值、细胞颜色,采集的部分数据如表1所示。

表1 采集的部分数据

表1中,“细胞半径”“细胞颜色”为离散属性,“细胞个数”“吸光度值”为连续属性,将细胞半径记录为3个等级,用离散值表示,“small”代表细胞半径为1.0~5.0μm,“mid”代表细胞半径为5.0~10.0μm,“big”代表细胞半径为10.0~20.0μm;细胞个数和细胞的吸光度值用连续值表示;细胞颜色分为绿色和红色,用离散值表示,当细胞为绿色时用“true”表示,细胞为红色时用“fslae”表示;细胞所处阶段用“One”和“Two”表示,“One”表示处于细胞增殖阶段,“Two”表示处于虾青素积累阶段。

3 模型分析

该数据集包含14个训练量本数据,假设细胞处于增殖阶段(One)为正例,细胞处于虾青素积累阶段(Two)为反例,则14个样本数据中正例占p1=10/14,反例占p2=4/14,因雨生红球藻细胞处于细胞增殖阶段(One)或虾青素积累阶段(Two),故|y|=2,根据式(4)可以计算出该决策树根节点的信息熵

计算当前属性集合{细胞半径,细胞个数,吸光度值,细胞颜色,细胞所处阶段},每个属性的信息增益以属性“细胞半径”为例,该属性有3个可能的取值,分别是{big,mid,small},若使用“细胞半径”这一属性对训练集D进行划分,可以得到3个子集,分别记为D1(细胞大小=big),D2(细胞大小=mid),D3(细胞大小=small)。子集D1中包含编号为{1,2,3,4,5}的5个样本,正例占2/5,反例占3/5;子集中包含编号为{6,7,8,9}的4个样本,正例占p1=1,反例占p2=0;子集D3中包含编号为{10,11,12,13,14}的5个样本,正例占p1=4/5,反例占p2=1/5。则可根据式(4)计算出用“细胞大小”作为划分属性,划分之后得到3个分支节点的信息熵

以此类推,根据上述公式计算出“细胞颜色”属性的信息增益值为0.006。但是,由于“细胞个数”“吸光度值”连续属性的可取值不再是离散的,因此在C4.5决策树算法中采用二分法对连续属性值进行处理。假设样本D中的“吸光度值”为连续属性a,将a中的属性值按照由小到大的顺序陈列,记为{a1,a2,…,an},采用t作为划分点,将D划分为子集Dt-和子集Dt+,子集Dt-是由在属性a上取值小于等于t的样本组成的,而子集Dt+是由在属性a上取值大于t的样本组成的。对于2个相邻的属性值ai和ai+1来说,划分点t在区间[ai,ai+1)上,取任意值所产生的划分结果是相同的,将区间[ai,ai+1)的中位点(ai+ai+1)/2作为候选划分点,随后即可像离散值一样来处理这些划分点,通过选取最优的划分点来划分样本集合,因此对于连续属性,需要计算包含n-1个元素的候选划分点集合Ta

雨生红球藻的生长过程分为细胞增殖阶段和虾青素积累阶段,通过对2个阶段细胞的观察和数据采集,将表1中的14组实验数据作为C4.5决策树算法的训练集D,将“细胞半径”“细胞个数”“吸光度值”“细胞颜色”作为属性集A,将训练集D和属性集A作为决策树模型的输入变量,通过PyCharm软件建立决策树模型,最后输出的决策树的决策结果如图5所示。

图5 雨生红球藻生长阶段分类结果

决策树模型最后生成一棵深度为4、分支数为6的决策树,其中属性集A中的“细胞半径”“细胞个数”“吸光度值”“细胞颜色”分别用符号“R”“N”“OD”“Color”表示,从图5可知,细胞的“吸光度值”为决策树的根节点,“细胞半径”“细胞个数”“细胞颜色”作为决策树的内部结点,决策结果是对细胞所处生长阶段进行分类判断,所以将细胞增殖阶段和虾青素积累阶段作为叶节点。由于细胞“吸光度值”的信息增益在所有属性值中最高,所以将其作为决策树的根节点,即最优划分属性,对应的划分点为2.55,当细胞吸光度值<2.55时进入下一个内部结点,即细胞半径的判断,当细胞半径属于“mid”等级时,决策结果是细胞属于增殖阶段,当细胞半径属于“big”等级时,需要对细胞颜色进行判断,当细胞颜色为绿色,细胞属于虾青素积累阶段;当细胞颜色为红色,细胞属于细胞增殖阶段;当细胞半径属于“small”等级时,需要对细胞个数进行判断,当细胞个数少于310.5×104个/mL时,细胞属于增殖阶段,否则属于虾青素积累阶段;当细胞吸光度值≥2.55时,细胞处于增殖阶段。

该模型将雨生红球藻细胞的实际数据作为输入量,将14组数据作为训练集,对决策树模型进行训练,分别计算各个属性的信息熵与信息增益来选择最优的划分属性,建立决策树模型,最后通过C4.5决策树模型对细胞相应属性值的判断来确定细胞所处的生长阶段。将实际数据与分类结果相对比,经检验得到的分类结果准确性较高,验证结果的部分数据如表2所示。

表2 部分验证结果

4 结语

本文采用“两步法”培养雨生红球藻,通过对购买来的雨生红球藻藻液进行增殖培养实验,提高细胞生物量,通过设置光照强度、温度、培养基pH值对比实验,探究最适宜雨生红球藻生长的环境条件,得出以下结论:

(1)细胞增殖阶段的最佳环境条件是采用BG-11培养基,在光照强度为20μmol·m-2·s-1、温度为25℃、pH值为8.0的光生物反应架上进行周期为8~9 d的细胞增殖培养实验,该条件下细胞生物量最大且细胞生长速率较快。

(2)虾青素积累阶段的最佳环境条件是在光照强度为240μmol·m-2·s-1、温度为28℃、pH值为7.0、培养基为BG-11培养基(不添加NaNO3溶液),缺少N元素并按照2 g/L的比例向培养基中添加NaCl,并将藻液放置在光生物反应架上进行培养周期为8~9 d的虾青素积累实验,该条件下虾青素含量最大且积累速率最快。

(3)在进行属性的选取和细胞数据的采集时,每天利用显微镜、光栅分光光度计等仪器设备测量并记录雨生红球藻细胞的数据值,包括细胞半径、细胞个数、吸光度值、细胞颜色。建立C4.5决策树模型,选取14组测量数据作为训练集,对决策树模型进行训练,最后可以生成一棵泛化能力较强的决策树,用来对雨生红球藻所处的2个生长阶段进行分类。

雨生红球藻的生长周期较长,且不同生长阶段所需的生长环境不同,藻细胞在每个阶段中的细胞半径、细胞个数、吸光度值、细胞颜色等呈现不同的特征,因此通过对细胞属性的选择和细胞数据值的采集,对细胞所处生长阶段进行分类,不仅可以区分藻液的2个生长阶段,还为藻细胞后续研究提供强有力的保障。

猜你喜欢

球藻青素决策树
真菌Simplicillium lanosoniveum DT06 对雨生红球藻生长与脂类合成的影响
Effects of astaxanthin against colorectal carcinogenesis by lipopolysaccharide challenge in vitro
盐度对广盐型聚球藻K1 生长及转录组的影响*
绿光条件下氮浓度对紫球藻生长和生物活性产物合成的影响
日粮添加虾青素对种蛋孵化效果的影响
6000倍抗氧化能力,“完爆”维C!昶科将天然虾青素研发到极致
虾青素在设施草莓上的应用效果
球藻沉浮的秘密植物
决策树和随机森林方法在管理决策中的应用
决策树学习的剪枝方法