基于XGBoost方法的大肠杆菌-NC膜复合电极阻抗模型研究
2021-11-14陈扬孜孙乐圣
徐 莹 陈扬孜 刘 哲 孙乐圣 姜 扬 郭 淼
1(杭州电子科技大学自动化学院生物医学工程研究所,杭州 310018)
2(杭州电子科技大学信息工程学院,杭州 311305)
引言
XGBoost是基于GBDT而逐渐发展成熟起来的算法,由于其优良的运算速度和机制被研究者当作各种数据初始模型备选并广泛使用[1-2]。其针对非线性小样本数据具有较强的泛化能力和预测准确度,当前在生物电化学领域逐步发展起来,可用于定量分析一些生物电化学量。因此,XGBoost方法应用于电化学阻抗数据,是非常有力的一种研究工具[3]。
食源性传播是大肠杆菌O157: H7实现传染的首要传播途径,因此在食品生产加工过程中快速实时的对大肠杆菌进行检测的需求迫在眉睫[4]。电化学生物阻抗谱法因其响应速度快、操作简单、精度高等优点常用于细菌检测。如王泽华等[5]通过电沉积纳米金修饰16通道丝网印刷电极,采用双抗夹心法构建电化学免疫传感器应用于前列腺癌患者PSA检测,在临床医学诊断前列腺癌患者具有重大意义。陈静等[6]使用金纳米颗粒等修饰电极在神经科学应用中实现高灵敏度检测谷氨酸微生物,通过阻抗谱和循环伏安法评估了神经传递和脑功能中谷氨酸水平,在神经科学研究中是很有前途的工具。电化学阻抗谱生物传感器对一些检测难度较大的生物组分,在不同频率下施以小振幅正弦信号并测量其电响应,从电化学特征推测等效电路,并通过Zview软件对实际阻抗图进行拟合,即可得到相应的阻抗参数[7-8]。电化学阻抗谱的各参数代表不同物理量,可定量或者定性研究其代表的物理量,是电化学测试主要研究内容[9-10]。其中经典检测方法分为循环伏安法、交流阻抗法、脉冲伏安法和计时电流法,不同检测方法可得到不同特征参数[11]。在菌类检测领域,根据免疫反应,待测细菌与特异性物质(抗体)结合在电极表面形成膜结构,交流阻抗法可研究生物膜的阻抗、电容及其他参量,以研究微生物在电极表面的活性状态,从而表征生物信息学行为[12-13]。
自新冠疫情爆发以来,民众愈加重视日常卫生问题,但过度重视可能导致抗生素、抑制剂、蛋白酶抑制剂等常规有效灭菌消毒药物的过度使用和不合理应用日趋严重,最直接的危害是造成细菌耐药,甚至对生存的环境造成污染[14]。滥用抗生素造成的细菌耐药性已成为全球卫生、食品安全和发展的最大威胁之一。因此,研发出一种快速高效准确检测微生物浓度含量、间接反映不同梯度临界阈值抗生素抑制效果的方法至关重要,但目前电化学数据的分析仍基本处于线性拟合分析或阻抗数据单参数分析法阶段,耗时耗力,且由于拟合手段有限,导致得到的标准曲线适用区间极度受限[15]。在现有数据分析方法基础上,结合机器学习算法建立数据量化分析模型对EIS进行分析。常用的方法是支持向量机(support vector machine, SVM)和随机森林(random forest, RF),这两种方法预测结果精确,而且参数较少,使用方便,但对于电化学阻抗等多样化数据,SVM和RF方法处理速度较慢,分类结果准确度较差[16]。2012年,在Kaggle竞赛中,Cruse等[17]提出了一种名为极端梯度增强的算法(XGBoost),通过加入新的弱学习器,纠正前面所有弱学习器的残差,最终多个学习器相加在一起用以进行预测以提高预测准确率。XGBoost因其优良的运算速度以及良好的延展性解决多参数、高度非线性问题具有巨大优势。Ahamad等[18]使用多种机器学习算法识别特征,预测COVID-19疾病,其中XGBoost算法以最高准确度(>85%)预测和体现COVID-19最显著的临床症状。大数据高速发展时代下,生物医学领域数据也随之变得复杂多样,机器学习与现代医疗相辅相成,XGBoost以其高准确性、快速计算速度等优势在疾病诊断预测、抗菌药物选择指南等人工智能医疗辅助诊断颇受青睐,医务人员的工作量得到减轻,诊断治疗方面的生产力极大提高[19-21]。
本研究在电化学生物传感检测原有基本原理基础上,在生物分子固定、数据量化处理等方面进行了改进,针对原有自组装修饰电极的修饰步骤繁琐等缺点,采用电化学阻抗谱(electrochemical impedance spectroscopy,EIS)技术和免疫层析技术相结合,利用硝酸纤维素膜(nitrocellulose membrane,NC膜)作为过渡支架,结合纳米金颗粒并吸附大肠杆菌抗体,再通过特异性位点结合捕获大肠杆菌进行电化学检测获取不同浓度下的大批量电化学阻抗数据,提高实验重复性及增加实验样本量;然后采用XGBoost训练拟合后的数据,建立菌类浓度预测体系,用于预测被测样本中菌液浓度;并用该分析模型初步分析不同浓度硫酸阿米卡星抗生素作用于大肠杆菌后对应的菌液生长情况,从而对抗生素微量梯度浓度作用效果评价进行预测。
1 材料和方法
系统流程如图1所示,基于XGBoost机器学习方法的大肠杆菌-NC膜复合阻抗模型主要包括菌液培养、电极构建、电化学阻抗测试、特征提取和XGBoost模型训练预测等5个步骤。
图1 系统流程Fig.1 System flow diagram
1.1 试剂与仪器
CHI760E电化学工作站,采购于上海辰华仪器有限公司;KQ5200DA型数控超声波清洗仪,采购于昆山市超声仪器有限公司;SX-500高温高压灭菌锅,采购于TOMY;ZHJH-C1106C超净台,采购于郑州南北仪器设备有限公司;MCO-15AC二氧化碳细胞培养箱,采购于Sanyo;BSA124S-CW精密天平,采购于Sartorius;紫外可见分光光度计UV-2600,采购于岛津公司;金电极、Ag/AgCl电极、铂丝电极,均采购于天津兰力科化学电子高技术有限公司;微量移液器,采购于Eppendorf;0.45 μm孔径NC膜采购于Biosharp;硫酸阿米卡星注射液采购于国药集团化学试剂有限公司;大肠杆菌菌株、抗体均购买于生工生物工程(上海)股份有限公司。菌类相关试剂皆经过高温高压灭菌。
1.2 固定液的配置
在超净台内于冰上使用移液枪将3 mL纳米金胶体(0.1 g/L,<10 nm)加入3 mL 2.5×10-2mg/mL大肠杆菌多克隆抗体中,吹打混匀,在8℃下搅拌10 min(慢速)并静置15 min后放于4℃冰箱储存备用。
1.3 大肠杆菌培养
实验所用大肠杆菌均为生工生物工程(上海)股份有限公司的大肠杆菌DH5α感受态细胞。大肠杆菌于灭菌后的LB琼脂培养基中培养36 h,使用枪头蘸取单个生长状态良好的菌落移至灭菌后的LB肉汤培养基中,于恒温振荡器37℃,180 r/min下培养至细菌进入对数生长期,继续培养,取不同培养时间的菌液样本,经0.1 M PBS(pH值为7.4)缓冲液多次重悬至上清液清澈,4℃冰箱储存以用于后续电化学检测。使用分光光度计在600 nm下检测菌液样本OD值,根据标准曲线大致计算出菌液浓度,作为后续电化学生物膜检测的参考值。当大肠杆菌菌液分光光度为0.1(约1.3×108CFU/mL)时,为标准菌液。
1.4 抗生素抑制实验
将标准大肠杆菌菌液(OD600值为0.1)等量分装至4个灭菌后的烧瓶中,使用移液枪依次加入5、10、15 μL的0.1 g/mL硫酸阿米卡星注射液,分别标记为A、B、C组,以未加抗生素的D组为空白对照组,放于恒温振荡器37℃,180 r/min下培养,每隔0.5 h取样记录菌液的OD600值以观察加药后大肠杆菌生长变化。培养至3 h时,取4组实验组样本经0.1 M PBS(pH值为7.4)缓冲液多次重悬至上清液清澈,4℃冰箱储存以用于后续用于电化学阻抗测试。
1.5 电化学阻抗系统
图2为电化学阻抗系统测试平台。电化学测试采用三电极系统,使用自制分离槽(见图2(a))固定NC膜,并将工作电极(金电极)与对电极(铂丝电极)、参比电极(Ag-AgCl电极)分隔开,3个电极分别通过导线与CHI760E电化学工作站连接(见图2(b))。
图2 电化学阻抗测试平台。(a)自制分离槽;(b)阻抗测试平台Fig.2 Diagram of electrochemical impedance test platform. (a) Self-made separation tank; (b) Impedance test platform
1.6 大肠杆菌-NC膜-金电极构建及阻抗测量
进行测试前需要对每个电极进行打磨清洗以保证电极表面的干净和平整,使用循环伏安法对电极进行检验,初始电压和终电压分别设置为-0.6和0.4 V,扫描速率为100 mV/s。氧化峰和还原峰峰值电位差小于0.07 V时,表明电极界面状态较好,可以进行下一步实验。
将NC膜裁剪成1 cm×1 cm的大小,放于固定液中浸泡20 min,取出干燥后放于0.1 M PBS(pH值为7.4)大肠杆菌菌悬液中孵化12 h(4℃)后,取出NC膜置于分离槽卡口上,旋紧使膜保持固定,金电极垂直放置于膜表面,其余两电极放于另一格内,倒入阻抗测试液,浸没3根电极,测量交流阻抗数据,每组测量10次,取平均值作为EIS数据。
1.7 等效模型
电化学阻抗谱用于研究电极界面的特性,该界面通常由等效电路建模,由等效模型主要电参数代表一条阻抗数据,常用Randles模型体现细菌引起的电化学阻抗谱变化,该模型最早是Giaever和Keese在1984年提出并应用于细胞电阻抗传感器,主要测量4 kHz频率下阻抗随时间变化建立模型[22]。Randles模型主要输出电荷转移电阻,双电层电容和电解质的溶液电阻。电荷转移电阻控制电极界面上氧化还原探针的电子转移动力学,即由于离子从本体电解质扩散到电极而产生的Warburg阻抗(用W表示)。使用Zview软件的Randles模型对测试得到的阻抗谱数据进行拟合,将体现电极界面变化信息的复杂电化学反应,转化成可以量化的电学变量,拟合后获取的电学参数用于后续机器学习的训练。
电极修饰结构模型如图3(a)所示,当细菌等生物膜固定在电极表面后,引起电极生物膜阻抗参数相应变化。未加修饰层的裸金电极(bare gold electrode, GE)其等效模型电路如图3(b)所示,将电极、电解液及电极间的电荷传输难易程度视为等效阻抗Rs,同时控制电荷转移及扩散的法拉第阻抗由电极极化电阻Rb和常相位元件(constant phase element, CPE)并联构成。当吸附抗体和大肠杆菌的NC膜贴附于金电极表面后,工作电极与其他两电极间存在一层生物膜,一定程度上阻碍了氧化还原物质在电极表面的离子交换,此时的等效模型如图3(c)所示,主要增加了大肠杆菌阻抗(C2,R2),以及菌与NC膜之间阻抗R1和电容C1。通过简化模型可将细菌、NC膜复合为一个以NC膜为主的RC阻抗单元,且与双电层电容呈并联回路。简化后基于E.coli-Anti-AuNPs-NC-GE的系统等效电路最终如图3(d)所示,该模型与经典模型Randles大致相同[23-24],但各个等效模型参量大小发生变化,且电化学决策分量不同。
图3 等效电路图及电极结构。(a)修饰后电极界面结构;(b)裸金电极GE等效电路模型;(c)E. coli-Anti-AuNPs-NC-GE等效电路模型;(d)简化后等效电路模型Fig.3 Equivalent circuit diagram and electrode structure diagram. (a) Interface structure diagram of the modified electrode; (b) Ge equivalent circuit model of bare gold electrode; (c) E. coli-Anti-AuNPs-NC-GE equivalent circuit model; (d) Simplified equivalent circuit model
1.8 主成分分析法
机器学习在处理小样本数据集的速度和精确度上有很大的优势,且适用于多特征分析,对非线性数据集具有较好的适用性,因此适用于的多参数量化细菌浓度模型。由Randles模型得到4个电学元件及对应的7个电学参数(Rs,CPE-T,CPE-P,W-T,W-P,W-R,R1),以往的细菌电化学检测常关注电荷转移电阻与细菌浓度之间的关系进行分析,但当形成的生物膜贴附于电极表面时,其他阻抗参数对实验的影响也不可忽略。为节省处理时间,同时避免忽略重要参数,进行机器学习前,先采用主成分分析法(principal component analysis,PCA)对数据进行降维。
1.9 XGBoost机器学习方法
XGBoost在Gradient Boosting框架下实现机器学习算法,是一个优化的分布式梯度增强库。利用网格搜索函数GridSearchCV按照顺序分别对迭代次数、树的权重、树的深度等参数进行优化确定最佳数值。通过极限梯度增强(XGBoost)建立基于机器学习的量化分析模型来测定菌液浓度和抗生素浓度。
1.9.1大肠杆菌菌液浓度预测模型
将同一浓度下不同培养时间间隔样本的3组阻抗数据作为数据源放入XGBoost中进行训练确定其模型结构(节点数、深度)。将主成分分析后的主要参数数据集作为模型输入,以菌液浓度作为模型输出,通过多次迭代,建立可预测大肠杆菌浓度的XGBoost回归模型。总共采集了5个不同浓度(3.3×108、4.0×108、4.8×108、5.8×108、9.4×108CFU/mL)下的500组阻抗数据(电极直径2 mm)。随机选取20%数据作为测试集,其余数据集作为训练集导入并对初始化的XGBoost模型进行训练,且为了使量化模型可以更好地对数据进行训练和学习,在训练集中随机抽取50%数据作为验证集用于参数调整。
1.9.2抗生素浓度预测模型
为预测标准浓度大肠杆菌菌液中加入的低阈值抗生素含量,基于1.9.1节建立的XGBoost模型,采集400组数据,统一在菌液生长至OD600值为0.1(约1.3×108CFU/mL)时分别加入3种不同浓度(0.1、0.2、0.3 μL/mL)硫酸阿米卡星后培养至3 h时,和未加药的对照组大肠杆菌的EIS数据(电极直径为2 mm)作为模型输入,以加入的抗生素浓度作为模型输出,建立可以预测抗生素浓度的XGBoost回归模型。
1.9.3模型评价指标
以XGBoost模型中的均方根误差、损失函数等作为执行效率评价指标,并对未知浓度的大肠杆菌EIS参数进行回归,输出预测浓度。利用测试的电化学阻抗数据对应的实际浓度值对得到的模型预测结果分别进行检测,计算均方根误差等结果,对模型初步评估。
2 结果
2.1 大肠杆菌表征结果
采用的修饰方法是基于大肠杆菌与NC膜结构的特异性免疫结合,首先将含有纳米金-抗体的固定液吸附于NC膜表面,再经特异性反应将大肠杆菌附着于NC膜。课题组多采用的基于纳米金自组装材料为核心的复合修饰方法中,为了表征以纳米金颗粒等复合物修饰材料在电极表面的结合,对固定大肠杆菌的电极表面纳米金复合物进行紫外光谱测试,以表示结合纳米金后复合材料的特征峰(见图4(a)),以及与纳米金颗粒结合后,固定大肠杆菌的扫描电镜SEM表征(见图4(b)),可看到纳米金复合修饰物-大肠杆菌待测样本中,大肠杆菌形态良好,较好地附着于材料表面。因此,采用的NC膜-纳米颗粒-抗体-大肠杆菌方法可应用于固定大肠杆菌,并进行下一步定量的各修饰层-阻抗变化的电化学阻抗测试实验。
图4 表征结果。(a)紫外表征图;(b)扫描电镜图(SEM)Fig.4 Characterization results. (a) UV characterization; (b) Scanning electron microscopy (SEM)
2.2 大肠杆菌的电化学阻抗检测结果
奈奎斯特(Nyquist)电化学阻抗谱图(阻抗虚部与实部)包括一个直径为电子转移电阻的半圆形部分和一个具有控制扩散电流低频特性的线性部分。随着电极界面信息变化,Nyquist图也发生相应变化,通过分析阻抗谱间接得到细菌浓度的变化。
实验选择几种常用规格电极后,综合考虑电化学测试中的体阻抗大小、测试重复性、待测菌液浓度梯度变化等多重因素,最终采用2 mm直径规格金电极作为工作电极进行电化学阻抗测试。
2.2.1相同工作电极直径(2 mm)下不同修饰层的阻抗谱
图3(a)中描述了电极修饰过程,为更进一步说明修饰结构的变化,在进行大肠杆菌菌液浓度检测前,需要通过对制备电极过程中的每层修饰层在0.1 M K3[Fe(CN)6]/FeCl3溶液中逐层测试交流阻抗变化,来表征修饰过程中电极表面的电化学性质。
修饰层阻抗谱如图5(a)所示,图中4条曲线从下往上依次是裸金电极(GE),NC膜-电极(NC-GE),抗体-纳米金-NC膜-电极(Anti-AuNPs-NC-GE)以及大肠杆菌-抗体-纳米金-NC膜-电极(E.coli-Anti-AuNPs-NC-GE)。由图5(a)可明显看出随着修饰层叠加,修饰层阻抗谱逐层增大。这是因为大肠杆菌抗体的结合阻碍电极表面的电子转移并使阻抗增大。大肠杆菌与抗体结合后,电极表面生物膜进一步增厚,阻碍作用增强,阻抗也更大,与本文第1.7节每层修饰层等效模型理论分析结果相同,进一步评估了采用的E.coli-Anti-AuNPs-NC膜复合结构性能。同时,与传统自组装修饰电极的结果相比,基于NC膜的体阻抗虽然较大,但针对前者,其优点是更换容易,操作便捷,重复性好,适于大批量检测及多数据源分析。根据后期归一化数据处理,可基本减少NC膜附着于电极所造成的阻抗增大影响。
图5 阻抗谱图。(a)不同修饰层的交流阻抗谱图;(b)不同大肠杆菌浓度的交流阻抗谱图;(c)加入不同浓度硫酸阿米卡星后随培养时间变化的OD值(600 nm);(d)加药3 h时对应的交流阻抗谱图Fig.5 Impedance spectra. (a) AC impedance spectra of different modified layers; (b) AC impedance spectra of different concentrations of E. coli; (c) The OD value (600 nm) after adding different concentrations of amikacin sulfate with the change of culture time; (d) AC impedance spectra at 3 h after dosing
2.2.2相同工作电极直径(2 mm)下不同浓度的大肠杆菌-NC膜-电极阻抗谱分析
图5(b)中的5条曲线分别为大肠杆菌菌液浓度3.3×108~9.4×108CFU/mL下检测的阻抗谱数据,由图可知,随着大肠杆菌菌液浓度的增大,生物膜阻碍作用增强,工作测试电极有效面积变小,系统阻抗越来越大,阻抗半径越来越大(见图5(b)),由此从定性结果说明阻抗变化与被测菌液浓度具有一定规律,后续可通过阻抗谱变化,分析不同浓度抗生素对大肠杆菌抑制作用。
2.2.3相同工作电极直径(2 mm)下不同抗生素浓度的菌液阻抗谱
实验过程中以检测样本OD600值作为简单定性标准,直观观测加入临界阈值范围抗生素后大肠杆菌菌液浓度长时程变化趋势。图5(c)为标准菌液(OD600为0.1,约1.3×108CFU/mL)中加入不同浓度(0.1~0.3 μL/mL)的硫酸阿米卡星(0.1 g/mL),随培养时间增加OD600值的变化曲线,以不加抗生素菌液为对照组。当加入抗生素后1 h时,此时菌液浓度较小,不同浓度抗生素对菌液有明显短时抑制效果。随着培养时间的增加,细菌生长进入对数期,菌液浓度逐渐增大,OD600值增速加快。到3 h时,加入抗生素的菌液OD600值虽然也在增加,但增速缓慢,药物浓度较大(0.3 μL/mL)样本细菌增长速率出现明显递减趋势,此时可看出4组样本同时刻下的浓度梯度明显差别,说明硫酸阿米卡星对大肠杆菌的长时程定性抑制效果明显,可进一步用机器学习方法精确分析抗生素浓度筛选模型。
图5(d)利用交流阻抗对加药3 h时3种抗生素浓度作用下大肠杆菌生长情况检测,总趋势为同时刻下,随着抗生素浓度增加,对细菌抑制作用也越强,这是因为通过抗体特异性结合的大肠杆菌数量随抗生素浓度增加而减小,从而影响电极表面电化学极化过程。随着抗生素浓度增加,大肠杆菌生长速度受限,同时间样本中抗生素浓度越高的组中抗体与大肠杆菌结合率越低。抗生素作用环境下大肠杆菌样本的交流阻抗结果随着抗生素浓度越增加,抑制大肠杆菌生长效果越明显,所以Nyquist图半径越来越小,例如0.3 μL/mL对应阻抗半径约为250 Ω,0.1 μL/mL浓度下阻抗半径约为400 Ω,而对照组未加抗生素的样本阻抗半径接近500 Ω。每组样本间明显的浓度梯度及对应的阻抗梯度变化都为后期XGBoost机器学习分类提供实验依据。
2.3 量化模型分析
为提高运算效率,将拟合得到的7个参数投影到4个主要维度上后用作机器学习模型的输入。将不同浓度下记录的400组数据输入到PCA算法中,不同参数数量的贡献如图6所示,根据选取信息量前90%的原则选取前4个主要参数Rs、CPE-T、CPE-P和R1。
图6 通过主成分分析按90%的原则选取前4个参数为机器学习的输入Fig.6 The first four parameters were selected as the input of machine learning according to the principle of 90% through principal component analysis
2.4 大肠杆菌菌液浓度预测模型结果
2.4.1参数优化结果分析
图7(a)显示了XGBoost在参数优化过程中损失函数的变化。由图中可以发现,损失函数(即目标函数)随着迭代次数增加而逐渐减小,经过40次左右迭代后,目标函数已经没有明显变化,说明
图7 预测结果。(a)参数优化过程中损失函数和RMSE的变化;(b)XGBoost和SVM预测大肠杆菌5种菌液浓度结果对比;(c)XGBoost预测5种菌液浓度及2个盲浓度盒型图(箭头所示);(d)XGBoost预测3种抗生素浓度结果Fig.7 Forecast results. (a) Changes in loss function and RMSE during parameter optimization; (b) Comparison of the results of XGBoost and SVM in predicting the concentrations of five strains of E. coli; (c) Box plots of XGBoost′s prediction of the concentrations of five strains and two blind concentration; (d) Figure of XGBoost′s prediction of three antibiotic concentration
40次迭代模型基本已经趋于稳定。图中右边两条曲线显示参数优化过程中训练集和测试集的均方根误差变化。模型的损失函数随着迭代次数的增加而逐渐减小,在迭代50次左右时,均方根误差达到最小,此时模型达到最佳效果。
2.4.2预测结果
XGBoost量化模型训练后经过交叉验证对参数进行优化后,将不同浓度的大肠杆菌样本拟合后的电化学阻抗参数测试集放入模型进行预测。图7(b)为随机抽取5种浓度(3.3×108、4.0×108、4.8×108、5.8×108、9.4×108CFU/mL)的30组预测结果,整体上,预测结果比较稳定且拟合较好。同时,将同一批数据集放入支持向量机模型中训练得到预测结果。图7(b)中绿色数据点为SVM模型预测的结果,与XGBoost预测结果进行对比可看出,XGBoost模型预测结果更为准确。
为验证XGBoost模型在基于非线性大批量电化学参数预测菌液浓度下的可行性及准确率,随机抽取10组(每组50个样本)的菌液浓度预测结果,依据残差和RMSE回归评价指标对模型进行分析,统计结果如表1所示。10组数据的预测残差为(1.59±0.57)×10-3lg CFU/mL,且最大残差仅为5.68×10-3lg CFU/mL;均方根误差(RMSE)为(2.18±0.77)×10-3lg CFU/mL。每组数据均取得了较好的预测效果。
表1 随机抽取10组预测结果的残差和均方根误差Tab.1 Residuals and RMSE of ten prediction results which were randomly selected (n=10)
为了更直观地观察XGBoost模型预测效果,将预测结果采用盒型图方式进行分析(见图7(c))。比较不同浓度大肠杆菌样本的检测效果,在浓度3.3×108~9.4×108CFU/mL范围内,各浓度下的样本预测值和实际值基本吻合,且线性良好,各组预测浓度最大上下限差值在1.49×107CFU/mL内。在较低浓度3.3×108CFU/mL和较高浓度9.4×108CFU/mL时的回归效果相对较好,但4.0×108~5.8×108CFU/mL等3组浓度预测误差较大,尤其是4.0×108CFU/mL浓度。这是由于浓度样本差别不大,且阻抗测试数据采集过程中存在一定系统误差,因此对于浓度差较小的样本,EIS数据特征不显著造成的。结果表明,在高浓度和低浓度,即浓度差显著时的预测结果有更好的分类性。在图7(c)中,对选取的5组浓度样本进行了浓度实验和预测结果的综合比较,说明了以上结果。同时,为了证明XGBoost模型对于预测未训练的大肠杆菌盲浓度有效,采集两组未进行训练的大肠杆菌浓度(4.5×108和7.5×108CFU/mL)下的EIS数据,将其输入XGBoost模型进行检测,检测结果如图7(c)箭头标示,也具有较好的分类效果。实验表明,基于XGBoost建立的量化模型可较高准确地预测大肠杆菌浓度,基于此,将该模型应用于对加入抗生素后的标准浓度大肠杆菌菌液样本进行电化学交流阻抗检测,通过大肠杆菌在电极上的阻抗变化间接预测抗生素含量。
2.5 抗生素浓度预测模型结果
基于上文经验证预测结果良好的XGBoost模型,建立了抗生素浓度预测模型,从3个抗生素浓度(0.1、0.2、0.3 μL/mL)中分别随机抽取5组(每组30个样本)数据的预测结果如表2所示,分析15组数据预测残差以及均方根误差RMSE,3个抗生素浓度各对应的5组数据的平均残差分别为4.50×10-3、7.26×10-3、5.67×10-3μL/mL,RMSE分别为6.46×10-3、8.85×10-3、7.05×10-3μL/mL,15组数据的RMSE为(7.45±0.73)×10-3μL/mL。
表2 随机抽取3 h时3个抗生素浓度各5次预测结果的残差和均方根误差Tab.2 Residuals and root mean square errors of five predictions of three antibiotic concentrations at 3 h which were randomly selected
对比图5(c)可知,初加入抗生素时,抑菌效果还不明显,但同时刻下菌液浓度变化随加药浓度作用而逐渐明显。加药后2 h的OD600值与刚加入抗生素时对比,此时因抗生素作用效果开始显著,细菌生长速度被抑制,随药物作用时间的变化,3组样本对应的菌液浓度梯度差会更明显,从而会对回归分类效果造成影响。但根据实验结果,加药1 h后仍可实现3个药物浓度的快速分类。由图7(d)所示,3种浓度作用下的标准菌液培养至3 h时的预测结果与实际抗生素浓度对比图可看出,相比于菌液浓度预测模型,抗生素预测模型虽误差较大,但回归精度均达0.01 μL/mL,仍符合预期回归效果。
3 讨论
电化学免疫分析法利用特异性反应,具备高灵敏性、快速高效、选择性好等优点,被广泛应用于微量生物检测,其技术关键在于如何将待测物体固定于电极界面。纳米颗粒具有良好的生物兼容性、表面活性位点多、加快电子传递速率等特性常作为载体固定敏感分子,适用于生物化学分析检测[25]。申建忠[26]通过合成二氧化硅包金纳米棒多组分纳米材料结合抗体等3种纳米复合材料制备方法,以放大信号,实现对乳制品中的大肠杆菌高灵敏度快速检测。贾飞等[27]通过制备还原氧化石墨烯/碳纳米管/纳米金复合材料,构建阻抗型电化学适配体传感器,实现对铜绿假单胞菌的定量检测。目前的研究中,基于纳米材料自组装的复合材料电化学免疫检测法虽灵敏度极大提高,但其制备过程繁琐,检测周期长,不太适用于快速检测场景。
针对传统自组装纳米材料方法(如普鲁士蓝-多壁碳纳米管-纳米金复合材料)存在的问题,利用电化学阻抗检测法的高精度,免疫层析法的高结合力以及可快速重复操作的便捷性,将两者结合在一起,以NC膜为介质,构建大肠杆菌-纳米金-抗体-NC膜电极,实现大批量大肠杆菌浓度快速检测[28]。苏敬等[29]也曾利用NC膜良好的特性,基于ELISA竞争机制,采用电泳方法将完全抗原固定在修饰NC膜的金电极上,以构建快速检测氯霉素电化学免疫传感器。免疫层析法具有便捷,操作简单等优点,常用于快速定性检测,精度不高的场合,硝酸纤维素膜(NC膜)对蛋白质分子有极强的非层析法的转移介质。结合图7的预测结果,说明使用NC膜作为固定待测物基底的电化学检测方法具较强的蛋白质吸附特性,可较牢固固定待测物,既简化了传统方法中繁杂的前期准备工作,又规避了固定材料脱落的潜在风险。
基于遗传算法的SVM模型和基于树的XGBoost模型都是新兴的机器学习算法,在生物医学领域得到广泛应用。本研究基于电化学阻抗法采集到的阻抗数据具有样本量大、影响因素多、数据复杂多样、非线性等特点,所以选择适合的模型非常重要。SVM是一种用于识别对数据点进行明显分类的算法,采用二次规划求解支持向量,模型较大,训练效率较低,因此SVM算法对大规模训练样本难以实施。XGBoost是一个优化的分布式梯度提升库,通过在代价函数中加入了正则项,用于控制模型复杂度,且内置交叉验证法,具有良好的可扩展性,可以提供出色的预测[30]。电化学测试中受检测溶液、电路、待测物等影响,相比于SVM算法,XGBoost更适用于电化学测试的非线性数据。
通过建立大肠杆菌-抗体-NC膜模型检测大肠杆菌的交流阻抗,采用XGBoost量化模型预测菌液浓度,同时也将该模型应用于预测抗生素浓度。该方法在同行业领域中易于实现,具有灵活性,并且预测菌液浓度平均均方根误差(RMSE)为2.18×10-3lg CFU/mL,预测抗生素浓度平均均方根误差(RMSE)为7.45×10-3μL/mL。这些表明了以基于菌液浓度变化的电化学参数为特征的XGBoost模型在大批量微生物检测以及抗生素用量预测数据分析领域的适用性。除此之外,所采用的XGBoost模型在盲浓度数据的预测上较为准确,具有很大优势,对于未来针对不同的电极形状、电极结构下大肠杆菌的统一化浓度预测具有重要意义。虽然预测抗生素浓度误差相对于直接菌液浓度预测较大,但预测精度仍可达0.01 μL/mL,符合预期效果。同时,可通过药物作用时间的加长对加入抗生素后的菌液持续检测,根据抗生素作用时程趋势实现较高精度的抗生素浓度预测,进而实现公共环境下的低阈值水平抗生素对于食源性微生物长时程模型作用效果评估,达到抑菌效果定量检测和用量控制,为菌类耐药性长时程研究提供依据。
4 结论
基于阻抗特征参数的XGBoost模型反映了大肠杆菌菌液浓度以及抗生素抑菌效果的预测量,该预测量证明电极在生物电化学实验中的有效贴附界面,即当电极表面被微量的蛋白质和细菌等生物膜贴附后造成的不同状态,都可在该模型中进行电化学检测及机器学习评估,下一步可对细菌耐药性的长时程评估做进一步的研究,从而助力公共环境下的抗生素对于食源性微生物长时程模型作用效果评估。通过阻抗法和XGBoost模型预测相对应的生物膜贴附界面的动态变化及细菌浓度,为定量分析细菌在电极表面的培养及抑制分析提供更多依据。