机器学习算法对危重患者死亡率预测效能的比较*
2020-09-14李惠萍胡安民
李惠萍, 胡安民
深圳市人民医院 1呼吸与危重症医学科, 2麻醉科(广东深圳 518020)
医疗信息化的发展促进了大数据技术的进步和在医疗领域中的应用,包括优化患者治疗,提高临床决策,改善临床试验设计,合理分配医疗资源以及实施个体化治疗等多个方面。数据科学使用机器学习(machine learning,ML)算法建立疾病预测和预后模型,尽早识别病情变化并进行干预,评估患者可能的临床终点,以利于指导临床决策。重症监护室(ICU)患者病情重,病死率高,其中ICU老年患者的30 d死亡率为11.6%,而合并真菌血症的ICU患者死亡率可达40.6%[1-2]。目前临床上常用的简化急性生理评分-Ⅱ(simplified acute physiology score-Ⅱ,SAPS-Ⅱ)可在一定程度上反映患者的危重度,但此评分要求变量与对应结果呈线性关系,在病情复杂、存在众多影响预后因素的ICU患者上使用时,其准确性受到影响。机器学习算法是一门交叉学科,综合运用概率论、统计学、算法复杂度理论等多种知识,对大型数据库进行分析学习,并优化程序性能。机器学习包括监督学习、非监督学习和强化学习3种模式,其中监督学习中的支持向量机(support vector machines,SVM)和随机森林(random forest,RF)算法可对多个变量进行模式识别,构建预测模型,可应用于疗诊断辅助、图像分析等,同时这两种算法还可通过非线性关系规则,构建危重患者预后的预测模型[3-6]。本研究使用美国重症医学数据库(medical information mart for intensive care,MIMIC-Ⅲ)的临床数据,分别使用SVM和RF算法构建预后模型,并与SAPS-Ⅱ模型进行比较,评估这3种模型对危重患者30 d全因死亡率的预测效能。
1 资料与方法
1.1 一般资料 2018年1月至2019年6月,本研究基于MIMIC-Ⅲ,收集库中2002年6月至2012年10月的重症患者信息。MIMIC-Ⅲ数据库由Beth Israel Deaconess医疗中心重症监护室中住院的46 520例患者的医疗数据组成。数据库根据患者的人口学信息、诊断编码、实验室检查、医疗干预事件进行分类整理[7]。该数据库经过严格的去隐私处理,得到哈佛大学医学院伦理审查委员会与麻省理工学院共同批准。本研究数据由通过“保护人类受试者培训”的研究人员胡安民(证书编号:26450451)提取。下载的数据均已通过严格去隐私化。纳入标准:首次接受ICU治疗的成人重症患者。排除标准:年龄<18岁或>89岁;ICU停留时间<24 h。
1.2 研究结局与预测变量 以患者进入ICU接受治疗后30 d内的死亡率为主要研究结果。纳入患者的死亡时间,以及患者进入ICU首日可能影响预后的103项数据,包括性别、年龄、种族、体质指数,入ICU类型、时间,首日的液体出入量、尿量、生命体征(脉搏血氧饱和度、心率、收缩压、舒张压、体温)极大值和极小值、血气分析(酸碱度、碳酸氢根浓度、血钾离子浓度、血钙离子浓度、钠离子浓度、氯离子浓度、阴离子间隙、碱剩余、动脉血氧分压、动脉血二氧化碳分压、肺动脉-氧压力梯度、血乳酸)的极大值和极小值、血常规(血红蛋白、血细胞比容、血小板、白细胞计数、中性粒细胞百分比)的极大值和极小值、凝血功能检查(凝血酶原时间、活化部分凝血活酶时间、国际标准化比值)的极大值和极小值、肝肾功能检查(血清总胆红素、丙氨酸氨基转移酶、天冬氨酸氨基转移酶、血清白蛋白、血清肌酐、内生肌酐清除率、血清尿素氮)的极大值和极小值、C反应蛋白极大值、心肌标志物(肌酸激酶同工酶质量、肌钙蛋白T、肌钙蛋白I)极大值、脑利钠肽极大值、GCS评分极小值、是否存在合并症(高血压、糖尿病、肺循环疾病、慢性肺部疾病、充血性心力衰竭、心律失常、瓣膜疾病、糖尿病并发症、肝病、肾病、中风、其他神经系统疾病、外周血管疾病、消化性溃疡、艾滋病、淋巴瘤、实体肿瘤、转移性癌症、类风湿关节炎、凝血功能障碍、体重下降、电解质紊乱、失血性贫血、缺铁性贫血、酒精滥用、药物滥用、精神病、抑郁)。
以上变量经过特征变量筛选后用于构建预测模型。用于构建模型的原始数据均发布在ZENODO数据库中(http://doi.org/10.5281/zenodo.3876289)。
1.3 模型评价 基于数据库采用结构化查询语言(structured query language,SQL)进行数据提取。将筛选出的原始数据通过Rv.3.6.0软件进行数据分析、构建模型并评估。研究首先基于SAPS-Ⅱ评分构建逻辑回归模型。将数据库患者的影响预后的特征变量资料通过R语言的Boruta包进行数据清洗后筛选[8]。存在缺失值的特征变量通过RF多重插补算法依次进行建模插补[9],分别构建SVM模型[10]和RF模型[11]。研究采用十折交叉的方法进行模型性能的验证,把数据随机分为10等份,依次将10等份中的每1份作为单独测试集,其余9份作为构建模型的训练集,进行效能验证。
在完成构建模型后,通过计算真阳性率(true positive rate,TPR)、阳性预测值(positive predictive value,PPV)、F值、受试者工作特征(receiver operation characteristic,ROC)曲线下面积(area under the ROC curve,AUC)进行模型评估。TPR=正确判断为阳性/所有实际阳性的样本×100%;PPV=正确预测到的病例数/预测病例总数;F值是TPR和PPV的加权调和平均值,综合反映模型整体性能。
1.4 统计学方法 采用Rv 3.6.0统计软件,连续性计量资料的比较采用t检验和单因素方差分析,计数资料的比较采用2检验。以P<0.05为差异有统计学意义。
2 结果
2.1 危重患者数据的基本特征 筛选出符合条件的危重患者30 833例,中位年龄65岁,住院的中位时间为7.5 d。进入ICU后的30 d内死亡2 909例(9.4%)。与存活的患者比较,死亡患者年龄更大,女性占比多,急诊纳入ICU比例高,体温、pH值和血红蛋白的最小值均更低,SAPS-Ⅱ评分更高,ICU治疗时间和住院时间均更长,见表1。
表1 患者总体人口学特征及进入ICU 30 d后存活或死亡的患者特征 例(%)
2.2 特征变量筛选和多重插补 筛选后得到特征变量59个,依次对含有缺失值的特征变量通过RF算法构建多重插补模型,然后使用该模型插补缺失值,补齐后的数据用于构建危重患者死亡率的预测模型。
2.3 模型评估 根据十折交叉验证结果,SAPS-Ⅱ模型的TPR值明显高于SVM模型,差异有统计学意义(P<0.001),但SAPS-Ⅱ模型与RF模型之间差异无统计学意义。SAPS-Ⅱ、SVM、RF的PPV值之间差异有统计学意义(P<0.001)。SVM模型和RF模型的F值均显著高于SAPS-Ⅱ模型(P<0.001)。3个模型的AUC值逐渐升高,其中RF模型显著高于SAPS-Ⅱ模型和SVM模型(P<0.001),RF模型预测较SAPS-Ⅱ、SVM模型更加精准。见表2、图1。
注:A:TRP;B:PPV;C:F值;D:AUC;*P<0.001
表2 3种模型的预测效能比较
3 讨论
危重患者的病情复杂,影响其预后的因素众多,预后评估方法繁琐,导致临床医生难以得到患者个体死亡风险结论[12]。此外,临床工作中往往容易忽略个体患者的弱预测变量之间相互作用所导致的潜在风险,从而影响对患者预后评估。因此建立能够精准预测患者预后的模型十分重要。传统的SAPS-Ⅱ评分预测模型要求预测变量与相应结果之间呈线性关系[2],对多元共线性数据、缺失数据和非平衡数据敏感性差,难以实现高阶交互作用[13]。此外未得到充分校准的SAPS-Ⅱ评分模型无法准确预测患者的死亡率[14-15]。因此SAPS-Ⅱ评分预测模型的预测效能并不理想。
本研究使用机器学习的SVM和RF算法构建危重患者30 d死亡率的预测模型,并评估其预测效能。SVM具有分类思想简单、分类效果好、通过使用核函数可以向高维空间进行映射来解决非线性的特点[10]。RF模型对分类不平衡的数据和缺失数据具有很强的抗干扰能力,抗过拟合能力比较强[9],因此可用于构建死亡预测模型。本研究结果显示,与传统的SAPS-Ⅱ预测模型比较,SVM和RF算法构建的模型均优于SAPS-Ⅱ模型,而RF模型比SVM模型在危重患者预后的预测效能更好。
在这项研究中,我们证明了机器学习算法可通过提供全面的危重患者临床数据而深度整合,具有重要的临床意义。先前的大规模研究已经证明了SAPS-Ⅱ评分系统选择变量有限,对危重患者的预后预测存在缺陷[14-15],而机器学习算法能够在大量数据的基础上在很多领域进行准确预测和决策,同样机器算法也可以为危重患者预后风险分层提供更好的预测模型。SVM和RF模型各有特点,但RF模型比SVM模型对危重患者30 d死亡率的预测效能更好,从而为建立新的危重患者预后预测系统提供了重要依据。
但本研究尚存在不足之处:首先,机器学习方法是通过使用更多的变量和交互作用来预测风险,对明确能够降低该个体患者风险的具体治疗目标指导作用相对比较弱。目前临床需要根据危重患者的病理改变进行对应的治疗,如果无法确定具体的风险因素或相互作用,则可能减弱医生治疗方案调整的及时性。另外,本研究只讨论机器学习算法的可行性和预测效能,未能讨论其具体实现的过程。本研究采用的机器学习方法具备处理大量多维度信息的能力,但只有在将这些变量实际输入到机器学习算法中时才具有优势。目前这一过程相对耗时,随着计算机计算能力的提高,这一问题也会逐渐解决。目前我国很多医院可以自动收集危重患者临床数据,为医院构建多变量的预后模型提供便利[16],因此在对模型的实际应用中不会给医护人员带来额外负担,从而可以进行即时风险评分计算。
本研究证实,基于机器学习算法的SVM和RF模型优于传统的SAPS-Ⅱ模型,但在危重患者30 d全因死亡率的预测效能上,RF模型整体预测性能优于SVM模型,能更准确地协助临床医生进行决策。本研究为今后危重患者预后的预测系统在临床使用提供坚实的数据支持。