基于MALDI-TOF MS平台结合机器学习算法鉴别三唑耐药热带念珠菌
2022-06-06王金宇夏翠萍王中新
王金宇,张 可,夏翠萍,王中新
近年来,随着免疫抑制剂和广谱抗生素不合理地应用,以及各种侵入性诊疗的进行,临床真菌感染率、耐药率及病死率大幅升高[1]。为了指导临床抗生素的使用,需要及早检测出真菌对抗生素的耐药性。
基质辅助激光解吸电离飞行时间质谱(matrix-assisted laser desorption/ionization-time-of-flight mass spectrometry,MALDI-TOF MS)以其快速、可靠的菌种鉴定能力,已广泛用于实验室菌种的快速鉴定[2-4]。同时,MALDI-TOF MS主要通过分析指纹图谱特征峰的差异来区分耐药株及敏感株[5],但是仅通过有限的特征很难准确区分。机器学习算法能够计算出数据的统计相关性和非线性特征之间的影响。为了充分利用MALDI-TOF MS数据中包含的信息来简化耐药性的测定[6-9],该研究引入机器学习算法来探讨一种快速区分三唑(氟康唑、伏立康唑、伊曲康唑)耐药和敏感热带念珠菌的方法。
1 材料与方法
1.1 菌株来源收集2018年1月—2021年3月自安徽医科大学第一附属医院临床各类标本中191株热带念珠菌,其中120株为三唑敏感的热带念珠菌,71株为三唑耐药的热带念珠菌。所有分离株均通过MALDI-TOF MS平台进行鉴定。耐药性依据美国临床和实验室标准化协会(CLSI)指南,使用微量肉汤稀释法对上述菌种进行药物敏感性实验。
1.2 仪器与试剂Autof ms1000全自动微生物质谱检测系统及配套试剂(郑州安图实验仪器有限公司)、生物安全柜(上海瑞仰净化装备有限公司)、UP700 恒温培养箱(英国GreenPrima公司)、微量移液器(德国Eppendorf公司)、科马嘉显色培养基(合肥天达诊断试剂有限公司)。
1.3 方法
1.3.1MALDI-TOF MS数据采集 数据采集流程:① 菌株接种,35 ℃温箱过夜培养16~18 h;② 挑选生长良好的单个菌落均匀涂抹于靶板上;③ 加入1 μl甲酸;④ 加入1 μl基质溶液;⑤ 使用质谱仪Autof ms1000进行峰值采集。
1.3.2特征峰选择 采用随机森林(random foreset,RF)算法[10]对特征峰重要性进行评分,10倍交叉验证保证结果的稳定,挑选出重要性排名前10的特征峰,使用Mann-Whitney U-test对特征峰进行相关性分析(表1),检验均为双侧检验,P<0.01具有统计学意义。符合条件的峰值作为特征峰用于RF模型及径向基函数核非线性支持向量机(the radial basis function support vector machine,RBF-SVM)模型的开发。
1.3.3RF模型及RBF-SVM模型构建与性能评估 本实验引入RF模型及RBF-SVM模型对热带念珠菌敏感株和耐药株进行识别分类。RF模型及RBF-SVM模型均基于Python环境开发的机器学习模块scikit-learn[11]提供预封装的工具包进行构建。RF模型调优:使用随机搜索交叉验证对参数决策树数量 、最大深度进行调优,然后用网格搜索在一定浮动范围内微调选择参数最优解。SVM模型调优:再通过相同的方法,确定RBF-SVM的最佳核参数(γ)和最佳代价参数(C)。对RF模型及SVM模型进行10倍交叉验证以确保参数的稳定性。在模型的性能评估中,计算每种模型的准确性、AUC、F1值、特异性和敏感性作为评价指标。此外绘制非线性分类器RF模型与SVM模型受试工作者特征(receiver operating characteristic curve,ROC)曲线,对模型进行更直观的比较。模型构建流程见图1。
图1 模型构建流程图
1.4 统计学处理采用Mann-WhitneyU-test对MALDI-TOF质谱峰特征进行分析,所有统计检验均为双侧检验,P<0.01为差异有统计学意义。
2 结果
2.1 数据采集结果所有热带念珠菌应用MALDI-TOF MS进行光谱采集的结果均处于得分区间[9.0, 10.0] ,达到种水平置信度。耐药株及敏感株在质荷比2 000~20 000范围内的所得到的总光谱峰数分别为5 746、9 620个,特征峰得到76个。
2.2 特征峰选择结果特征峰3 481、7 549、6 500、3 048、6 892 m/z经过双侧检验后P<0.01,据有统计学意义。为了尽量减少数据内部信息的损失,根据RF算法的结果,基于10倍交叉验证,60%以上的模型筛选出2 596 m/z也纳入后续模型的构建。
2.3 RF模型及RBF-SVM模型性能评估的结果图2显示对于模型区分热带念珠菌中敏感株和耐药株的性能,最佳预测模型为RBF-SVM模型(AUC=0.930 5,95%CI:0.868 1~0.955 3)。其中RF模型(AUC=0.927 3,95%:0.830 1~0.949 9)具有相似的性能。表1列出了RBF-SVM模型和RF模型预测性能评估结果,与RF模型相比,RBF-SVM模型敏感度为0.91低于RF模型,特异度为0.73高于RF模型。所有结果均进行10倍交叉验证确定。两种预测模型性能很接近且整体预测性能都能达到0.8以上。
表1 RBF-SVM模型和RF模型性能评估结果
3 讨论
机器学习算法[11]主要包括支持向量机、RF、遗传算法、K近邻算法等。目前,最佳的机器学习算法尚未明确,国内外研究[5,8,12-13]通过应用多种机器学习算法建立不同的分类模型,最终选择结果最优的模型作为最优分类模型,并且这些研究结果证明了支持向量机算法和RF算法在分类模型中的优越的表现,因此,本研究采用这两种算法对MALDI-TOF MS平台收集的光谱进行分析。
模型构建的重点在于模型的稳定性和可靠性。多数研究[8,12-13]通过交叉验证(5或10倍)来避免模型的过拟合。模型构建图显示,在本研究实验流程中,通过10倍交叉验证来实现模型的稳定性和可靠性。RBF-SVM模型和RF模型性能评估结果显示两种模型效能非常接近,这与Wang et al[13]研究结果类似。但是本研究中两种模型的准确度仅为0.84,这很可能与数据采集过程中多种因素有关,包括菌种反复冻融、靶点上菌落涂抹厚薄不均、基质液裂解不充分、MALDI-TOF MS参数调优不佳等。
本研究得到的76个特征峰中,并不是所有的特征峰都有助于敏感株和耐药株的区分,通过Mann-WhitneyU-test得到的峰中,只有3 481、7 549、6 500、3 048、6 892 m/z具有统计学意义。Fangous et al[6]和Rhoads et al[9]的研究通过单个或者几个特征峰来判断菌株的耐药性,也证明了在判断敏感株和耐药株时,并不是所有的峰都有意义。
在临床应用中,常规抗生素敏感性试验结果通常在真菌分离后至少需要24 h才能得到,成本也比较昂贵。抗生素治疗的不及时会导致住院时间延长、治疗费用增加,以及因不恰当的抗生素治疗增加住院死亡率。然而本实验所研究的RF模型及RBF-SVM模型的优点是速度快、成本低,可以快速获得热带念珠菌药敏结果,从而指导临床医生进行准确且快速的抗真菌感染治疗,这对于规范临床抗生素的使用以及因抗生素的滥用导致细菌耐药率逐年增高方面有着重要意义。
RF和RBF-SVM模型虽然平均准确度都能够达到0.8以上,具有较好的分类识别能力,但是模型的普适性仍有待研究。如提取方法不同,Lu et al[14]研究使用了试管提取法,而本实验使用直接涂板法,这增加了数据采集时的不稳定;Liu et al[12]研究中特征峰是基于统计或多元回归进行选择的,相比之下,本实验直接使用RF算法来选择特征峰值;到目前为止,最佳的数据的降维处理方式还不明确,不同的降维分析方式对于结果的影响有待后续的研究。同时,MALDI-TOF MS光谱质量范围通常仅为2~20 ku,然而,与真菌耐药密切相关的一系列高分子量酶往往不在这一领域,如热带念珠菌中的羊毛甾醇14-α去甲基化酶分子量远大于2 ku,细菌中的青霉素结合蛋白分子量约为76 ku[15],这将导致菌株中一些重要信息无法在光谱中反应出来,使得分类模型无法发挥到最佳性能。
综上所述,该研究表明机器学习算法结合MALDI-TOF MS平台的方法可以一定程度上快速区分热带念珠菌的敏感株和耐药株。这种方法有助于指导临床医师更快速、精确地使用抗生素,从而减少患者住院时间和费用。但是机器学习算法结合MALDI-TOF MS平台方法仍处于起步阶段,在后续的研究中有必要解决样本量小、缺乏外部验证、重现性差等相关问题。