APP下载

梯度增强机算法预测重症手足口病的应用价值

2018-12-28冯慧芬秦新华赵保玲易佳音

解放军医学院学报 2018年11期
关键词:重症变量检验

王 斌,冯慧芬,王 芳,黄 平,秦新华,赵保玲,赵 敬,易佳音

1郑州大学第五附属医院 消化内科,河南郑州 450052;2郑州大学第五附属医院 感染科,河南郑州450052;3郑州大学附属儿童医院 感染科,河南郑州 450052

手足口病(hand-foot-mouth disease,HFMD)是一种好发于儿童的常见肠道传染病,以肠道病毒71型(EV71)和柯萨奇A组16型(CoxA16)多见[1],近年来柯萨奇病毒A6(CVA6)也呈增长趋势[2]。典型的HFMD病例表现为发热、口腔疱疹和手、足、口和臀等部位的皮疹。其中大多数HFMD患儿症状轻微,病情具有自限性,但有极少数可进展为重症,出现严重的并发症如肺水肿和脑炎等,至心肺衰竭而死亡[3]。因此,如何及早识别出重症HFMD患儿对于临床医师进行有效的干预治疗尤为重要。梯度增强机(gradient boosting machine,GBM)是一类源于Boosting算法家族的新一代集成学习算法,其主要用于包括回归、分类和排序等的机器学习[4]。GBM有很多别名,如GBRT、GBDT、MART都是指这一算法。集成学习的三大主流算法包括Boosting、Bagging和Stacking三种方法。区别于Bagging算法,Boosting是通过分步迭代的方式来构建模型,其每一步构建的弱学习器都是为了弥补已有模型的不足[5]。在国际KDD Cup、Kaggle组织的很多数据挖掘竞赛中,GBM算法表现出优秀的预测性能。因此,本研究拟借助于GMB算法来实现预测重症HFMD的模型构建,为后续研究及临床实践提供更多参考。

资料和方法

1 资料来源 收集郑州大学附属儿童医院2017年5 - 12月住院部收治的HFMD患儿病例资料。HFMD确诊依据《手足口病诊疗指南(2010年版)》[6]。纳入标准:1)新确诊的HFMD病例;2)住院信息及实验室检查结果完整;3)发病时间小于1周者。排除标准:1)处于恢复期的HFMD;2)合并有其他感染性疾病;3)存在先天发育缺陷等。

2 方法 将患儿分为轻症组和重症组。病例资料借助于Epidata 3.1软件手动录入,双人独立录入后进行一致性检验且对数据录入格式进行可靠性检验,对于有争议的病例追溯原始病历资料进行校对,最后将数据导出用于分析。

研究方法的重点是建立两个模型和一个思路,分别为:

1)Logistic回归模型:为非条件logistic回归模型,因变量为诊断状态,即HFMD预测结果,赋值:1=重症,0=轻症。建模样本为后面将介绍的训练样本。自变量即经表1单因素分析所获的有显著性的指标/因素,并参照表1进行伪变量赋值(阳性方向的水平赋值1,否则赋0;例如,在体温中,高温相对于低温属于危险因素,则将“≥38.5℃”定义为阳性方向,其余同理)。将自变量一次性代入多因素Logistic模型中,使用向前条件法进行模型构建。接下来用所得的回归模型进行应变量的核测(使用检验样本),核测结果与各病例的真实情况相比,计算正确率(即阳性病例“重症”和阴性病例“轻症”的判断正确率)。预测正确率=(阳性预测正确的人数+阴性预测正确的人数)/总病例数×100%。所有计算结果,由程序运行后自动给出,无需手动计算。

2)GBM算法:按机器系统提示,参照机器学习的标准流程(输入数据,调用建模函数,输出结果),借助R软件'mlr'包中相应功能实现。其官方教程链接:https://mlr.mlr-org.com;输入各病例的各项指标数据(使用训练样本)。程序自动调用GBM函数库功能进行计算,运行后得到一结果模型,再将据此模型直接代入预测函数运行,并获得其诊断/判断结果(使用检验样本),仍然仿上做预测正确率的计算。

CMB算法的技术核心:先根据初始模型计算伪残差,之后建立一个基学习器来解释伪残差[7]。该基学习器是在梯度方向上减少残差,再将基学习器乘上权重系数(学习速率)和原来的模型进行线性组合形成新的模型[8]。目的就是希望通过集成这些基学习器使得模型总体的损失函数不断下降,模型不断改进。算法步骤简要如下:①输入训练数据;②采用梯度下降的思想进行函数或参数寻优;③构建GBM模型;④输出对检验数据的预测结果[9]。

3)综合思路:在建模环节,构建GBM和Logistic回归模型,最后以Logistic回归模型作为参比来评价GBM模型的性能。将预处理后的数据(本研究样本)先进行打乱,然后分割为训练样本(70%)和检验样本(30%)。分别对训练样本构建GBM和Logistic回归模型,相关参数采取包中默认的设置。再使用检验样本对上述两个模型进行性能检验。最后,进一步评价该二模型的性能,所有性能测试,均使用'mlr'包中函数功能(参见上述官网教程链接),采用ROC曲线分析法、模型学习曲线及分类器校准图对两个模型进行比较。

3 统计学方法 所有资料的分析使用R 3.4.3软件,主要用到的R包有mlr、gbm、stat、ggplot2、caret等。对原始资料进行数据清洗及整理等。由于箱型图自带四分位数和离群值,便于直观显示整体情况,因此借助于箱型图对每个变量进行离群值检验,去除缺失值及异常值的个案。依据临床经验和检验结果的参考范围对连续性变量进行二分类处理,使用χ2检验对分类变量进行相关检验,使用Logistic回归作为预测结果的参比模型,使用ROC分析法进一步比较两种方法的差别。P<0.05为差异有统计学意义。

结 果

1 基线资料比较 共纳入1 137例HFMD,平均年龄为2.0±1.4岁,其中轻症组930例,重症组207例。两组一般资料见表1。

2 模型构建结果 以训练样本为基础分别构建两个模型(GBM模型,logistic模型),并将模型直接作用于检验样本,计算检验样本的预测正确率,即训练样本只负责生成模型,而所有评价指标,都唯一指检验样本的评价指标。输出结果:GBM模型给出的的正确率为82.1%;Logistic为76.4%。

进一步输出Logistic模型的危险因素分析结果,见表2。根据OR值排序,居前3位的变量依次为血糖、EV71和心率。绘制GBM的预测变量重要性,结果见图1,前3位分别为白细胞计数、EV71和中性细胞比率。

表1 两组HFMD一般及临床资料比较Tab. 1 Comparison of demographic and clinical data between two groups

3 ROC曲线分析 继续建立两法分析结果的ROC分析模型,ROC曲线见图2。曲线下面积AUC:Logistic 为 0.752(95% CI:0.693 ~ 0.731),GBM 为0.813(95% CI:0.796 ~ 0.829)。两种模型的 AUC 有一定的差异,以GBM为优。

表2 重症HFMD患儿危险因素的多因素Logistic回归分析Tab. 2 Multivariate logistic regression analysis of risk factors in children with severe HFMD

图2 两种模型的ROC曲线图Fig. 2 ROC curves of two models

图1 GBM模型的预测变量重要性Fig. 1 Importance of predictors for the GBM model

图3 不同指标的模型学习曲线分析图Fig. 3 Analysis of model learning curves for different predictors

4 学习曲线 借助官网教程中相应函数用法的指导,构建不同指标(包括真阳、假阳、真阴和假阴)的学习曲线图(图3),及整体学习曲线图(图4)。四种指标的对比中,可以看到GBM在假阳性和真阴性方面较好,而真阳性和假阴性方面与Logistic回归差异不大。整体学习曲线分析图中,可以看到对数据的总体预测性能GBM表现更佳。

5 模型校准 绘制模型校准图,结果见图5,图中的参考线(虚线)即为理想校准线,表明模型的预测结果和实际结果完全符合。从图中可以看出,相比于Logistic模型,GBM模型更接近理想参考线,表明在识别重症类别方面能力更强。

图4 模型的整体学习曲线分析图Fig. 4 Overall learning curve analysis of two models

图5 两种模型的校准图Fig. 5 Calibration plot for two models

讨 论

本研究使用了GBM算法构建了一个预测重症HFMD的模型,并以Logistic回归模型作为参比进行了一系列模型预测性能探究。在既往相关研究中,大多数学者使用Logistic回归模型的传统算法[8],在机器学习领域,按照学习任务主要分为回归、分类与聚类三种。Logistic回归算法也可以实现相应的分类功能,但是其在处理非线性问题方面能力较弱,还暴露出许多缺点,如分类精度不高以及对异常值敏感,此外还容易陷入过度拟合[9-10]。而GBM算法具有以下优势:1)自然而然地处理混合类型的数据;2)在对抗异常值方面的稳定强(通过强大的损失函数);3)结合决策树和梯度提升算法,可以处理传统方法缺乏的复杂交互作用[11]。这些优势决定了GBM算法的强大。而近年来新开发出GBM优化算法,包括XGBoost和lightGBM更是在计算速度等方面做了很大优化,同时XGBoost和lightGBM算法在数据挖掘竞赛中屡次夺冠。但是目前限于GBM模型的实现必须借助于编程式统计软件,如主流的R、Python软件等,而国内大多数学者对统计软件的掌握仅停留在菜单式的SPSS软件中,因而在中文数据库中检索到的文献中最多的是使用Logistic模型,而在外文数据库中,新颖模型的机器学习文章在Pubmed中比较热门。

本研究构建了GBM和Logistic模型,并利用多种方法对两者的模型预测性能进行了评估。预测变量的重要性体现了不同变量对模型构建的贡献价值,与传统的危险因素临床意义略不同,预测变量主要反映了临床上相应指标诊断重症HFMD的价值,也就是重要性中排名越趋于前位的预测变量越有助于成为辅助临床诊断的依据。比较两个模型排名前3位的变量,除了EV71相同外,其余两个均不同,从侧面体现了两者在建模时选取变量的标准有较大区别。

学习曲线是一种评估模型性能的数据可视化方法。对于结果的预测,理想模型应该是越倾向于判断正确,而减少判断为假性,即模型在真阳性和真阴性图中的折线位置越高,表明判断为真性能力越强,而在假阳性和假阴性的图中折线位置越低,表明判断为假性的能力越弱。模型校准图反映了当前模型趋于理想模型的程度,当模型的预测结果与实际结果匹配时,模型被“校准”,即可以完全正确区分出轻症和重症两类HFMD患者。如果模型校准线越贴近于参考线,表明模型区分出重症HFMD患者的能力越强;越远离,则表明模型性能越差。借助于以上多种模型评估的可视化方法,最终发现本研究构建的GBM相比于传统Logistic模型在不同的预测性能指标对比中,GBM模型均表现出较佳的性能,从而对重症HFMD的诊断更具临床价值。

Zhang等[12]的研究除了使用临床特征和实验室检查结果外,新增了MRI检查结果,最终构建的GBM模型,其ROC曲线下面积达到0.985,此外Zhang等还使用该模型进行了相关预测变量的交互作用探讨,论证了GBM在识别重症HFMD、探究交互效应方面优于Logistic回归模型。相比于Zhang等的研究,我们的研究加入了病原学中EV71结果的预测变量,在最终的GBM模型的预测变量重要性中,EV71变量居第2位。不论是机制研究,还是大型流行病学调查结果,EV71在所有病原学中,是导致所有重症HFMD的重要原因[13-14]。此外,提取的其他重要预测变量均与既往研究较为一致[15-18]。

本研究尚有以下不足:1)纳入的样本以及预测变量有限,当样本量和变量增多时,可能更好地体现出两个模型间的差距;2)交互作用在机器学习算法中也具有一定的影响,本研究尚未探究变量间的交互效应;3)本研究虽然使用了R软件进行模型构建,但是仅采用了相应函数的默认参数,其余还涉及很多详细参数,需要精通R语言编程的技术人员结合临床实践进行配置。

综上所述,本研究发现GBM模型可以用于预测重症HFMD患者,且相比于传统Logistic算法具有一定的优越性。而相应的GBM优化后的如XGBoost和lightGBM升级算法在重症HFMD模型预测方面的应用价值仍有待后续研究挖掘。同时伴随着大数据的到来,未来机器学习算法将结合人工智能推动医疗事业的快速发展。

猜你喜欢

重症变量检验
序贯Lq似然比型检验
上海此轮疫情为何重症少
抓住不变量解题
也谈分离变量
2021年《理化检验-化学分册》征订启事
对起重机“制动下滑量”相关检验要求的探讨
舌重症多形性红斑1例报道
关于锅炉检验的探讨
SL(3,3n)和SU(3,3n)的第一Cartan不变量
分离变量法:常见的通性通法