基于机器学习的重症股骨颈骨折患者死亡风险预测模型构建和验证
2023-01-13徐凌霄韩春霞艾自胜
徐凌霄, 刘 俊, 韩春霞, 艾自胜
(同济大学医学院,上海 200092)
股骨颈骨折(femoral neck fracture, FNF)大约占全身的骨折3.58%[1],其在全球范围内的患病率有逐年上升的趋势。据调查,1990年世界范围内的男性和女性髋部骨折总数大约为338 000和917 000[2]。而在中国骨折人群中,股骨颈骨折占髋部骨折的48.22%[3]。
重症监护医疗信息市场(Medical Information Mart for Intensive Care, MIMIC)数据库是目前临床医学研究中常用的公开数据库,其中包含了贝斯以色列女执事医疗中心2001年至2012年间重症监护病房中的大约6万例患者的医疗数据。该数据库中的数据包括生命体征、药物、实验室测量、护理提供者绘制的观察结果和注释、体液平衡、程序代码、诊断代码、成像报告、住院时间、生存数据等[4]。重症监护(Intensive Care Unit, ICU)数据库具有信息高维度、高信息量的优点[5]。入住ICU的患者相比普通患者会接受更多治疗手段和检查项目,这些治疗手段和检查项目记录的大量数据有助于对ICU患者进行密切观察,以检测与病情恶化相关的生理变化,为临床研究提供更有价值的因素[6]。MIMIC数据库作为重症医学数据库中唯一一个可免费访问的高质量数据库,在临床医学研究中得到了广泛应用。Scherpf[7]等从MIMIC-Ⅲ数据库中提取入院时未被诊断为脓毒症的成年患者进行回顾性分析,并使用循环神经网络预测脓毒症的发作;Feng等[8]利用MIMIC-Ⅲ数据库中公开的经胸超声心动图,探索经胸超声心动图检查对脓毒症患者预后的贡献。Mandalapu等[9]采用机器学习方法,探究影响院内周末死亡率的重要因素。
目前,已有大量的文献对股骨颈骨折患者出院后死亡率以及死亡风险进行研究,但关于入住ICU的这类重度股骨颈骨折患者院内死亡及其影响因素尚未有明确研究。因此,本研究利用MIMIC数据库中记录的股骨颈骨折患者的电子病例信息,采用主流机器学习模型对股骨颈骨折患者院内死亡因素进行探索,发掘对院内死亡预测有意义的指标,尽早提供预防措施,降低患者院内死亡风险。
1 资料与方法
1.1 数据来源
MIMIC-Ⅲ的患者数据作为本研究的数据来源,该数据库是重症大数据研究常用的数据库,包含了46 520例重症患者的临床信息,如人口统计学信息、生命体征、实验室检查、治疗方案、诊断编码等。经哈佛大学医学院伦理审查委员会与麻省理工学院共同批准后,通过“保护人类受试者培训”的研究人员方可下载数据库中已通过严格去隐私化的患者数据。该数据集的质量已经过众多研究验证,具有较高研究价值。数据由笔者提取(证书编号: 38335409)。
1.2 纳入排除标准
本研究根据诊断编码,从MIMIC-Ⅲ数据库中提取因股骨颈骨折入院并进入ICU的患者。本研究纳入的病例信息均以第1次入院情况为准,按照诊断编码顺序,选取第1顺位诊断编码为股骨转子骨折、股骨粗隆间骨折以及股骨颈骨折但具体位置不明型骨折的患者数据。排除年龄≤18岁或ICU住院时长<24 h的患者,对于医疗数据记录严重不全(缺失数量>50%)的患者同样进行排除。病例筛选流程如图1。
图1 病例筛选流程图Fig.1 Case screening flow chart
1.3 数据收集
本研究数据收集依据主要为临床经验、已发表文献和MIMIC Ⅲ数据库数据记录情况。股骨颈骨折患者的数据收集主要从以下3方面进行。(1) 患者人口统计学信息: 性别、年龄、身高、体质量、入住ICU时长、既往疾病史(高血压、糖尿病、冠心病)、简化急性生理评分(simplified acute physiology score, SAPS)Ⅱ;(2) 入住ICU后24 h内的生理生化指标: 血清钙含量、红细胞比容、血红蛋白含量、乳酸脱氢酶含量、心肌肌钙蛋白T(TnT)含量、肌酸激酶(CK)含量、肌酸激酶同工酶(CK-MB)含量、维生素D含量、红细胞含量、白细胞含量、肌酐含量;(3) 结局: 入住ICU的股骨颈骨折患者发生院内死亡。
1.4 方法
1.4.1 数据预处理 (1) 病例筛选: 对纳入研究的病例进行筛选,排除缺失值超过50%的病例。
(2) 缺失值填补: 采用随机森林算法对含有缺失值的变量依次进行循环填补[10]。
目前常见的填补缺失数据的方法有均值法、众数法、中位数法和固定值法,而随机森林算法是一种具有潜力的填补缺失数据的方法。将缺失值作为新的标签,建立模型得到预测值进行填充。随机森林算法用于填补缺失数据,能够处理混合类型的缺失数据,并具有扩大到大数据环境的潜力。
(3) 平衡数据集: 由于本研究中提取的结局标签具有不平衡性(死亡组48例,生存组318例),为了减少训练模型中产生的偏倚,对原始数据集进行了平衡处理。
目前常用的平衡数据集的方法有上采样和下采样,本研究中采用上采样方法,基于SOMTE算法对相对少数的死亡组样本进行分析。根据原死亡组的48例样本人工合成318例新死亡样本,并添加到数据集中,最终获得一个新的平衡数据集(死亡组∶生存组=1∶1)。平衡后的数据集共包含636例股骨颈骨折患者数据。
(4) 归一化处理: 本研究中采用线性函数归一化方法对新的平衡的数据集进行归一化处理。
归一化处理的是为了消除不同数据量纲引起的计算误差,将数据归一化至[0,1]的范围内,以保证每个特征被分类器平等对待。目前常用方法有线性函数归一化(min-max scaling)和0均值标准化(Z-score standardization)。
(5) 随机化处理: 将归一化处理后的数据集按照7∶3的比例平均划分测试集和训练集。最终得到445例用于训练预测模型,191例用于验证模型的预测性能。
(6) 筛选特征变量: 使用XGBoost算法对特征变量进行筛选,并按重要性大小逐步纳入模型中进行训练。由于本研究中的原始变量较少,重要性较低的变量也会对模型的训练带来增益效果,因此在训练模型时纳入全部的特征变量。
1.4.2 模型构建 目前,Logistic回归是常用的识别预测并发症发生的危险因素的方法之一。与传统Logistic回归模型相比,机器方法的准确度提高了30%,更适合临床应用[11]。
(1) 随机森林(random forest, RF)是由随机放回的再抽样样本形成的多棵决策树组成的集成学习算法,适用于样本数远小于特征数的问题。对于缺失数据和不平衡数据也具有效果稳健、学习速度快、泛化能力强和分类性能好的优势。
(2) 反向传播算法(back propagation, BP)神经网络是一种前馈性的神经网络,也是目前最成功的神经网络算法。该算法具有较高的自学习和自适应能力,同时具有较强的泛化能力,对未经过训练的数据也有较好的预测性能。同时BP神经网络的容错率较高,即使系统受到局部损伤后仍可以正常工作。
(3) 梯度提升(extreme gradient boosting, XGBoost)算法是一种基于树模型的提升算法,也是当前主流的机器学习算法,被广泛应用于疾病发生的预测以及患者的不良结局预测等临床研究中。在多项研究中均证实XGBoost算法较其他机器学习模型的预测能力更强。
因此本研究采用随机森林、BP神经网络和XGBoost 3种算法构建机器学习预测模型。
1.5 统计学处理和模型评价
采用PostgreSQL数据库系统提取数据。本研究中涉及到的统计分析均采用SPSS 22.0进行。数据清洗、模型构建与性能评估均采用Python进行。对研究中所有连续型变量进行正态性检验,均不符合正态性,因此连续型变量采用中位数(四分位数)表示;计数资料以例数(百分比)表示。连续变量的单因素分析采用Mann-WhitneyU检验,分类变量单因素分析使用Pearsonχ2检验或Fisher精确检验。P<0.05为差异有统计学意义。
模型整体评价指标采用受试者工作特征曲线下面积进行评估。采用准确度(accuracy)、精确度(precision)、灵敏度(sensitivity)、特异度(specificity)和F1-Score进一步对模型的预测性能进行评估。
2 结 果
2.1 入住ICU的股骨颈骨折患者的基本特征
经筛选,符合条件的股骨颈患者共366例,平均年龄为78岁,其中发生院内死亡的患者年龄较大,平均年龄为(83±17.8)岁,与存活患者相比,年龄差异有统计学意义(P<0.05);死亡组患者的SAPSⅡ评分、乳酸脱氢酶含量及肌酐含量均高于存活组患者,差异有统计学意义(P<0.05)。
表1 纳入研究的ICU股骨颈骨折患者基线数据Tab.1 Baseline data of ICU patients with femoral neck fracture [n(%), M(P25,P75)]
2.2 特征变量重要性排序
使用XGBoost模型对特征变量的重要性进行排序,得到特征重要性排名的变量依次为: 维生素D、乳酸脱氢酶、肌酐、SAPSⅡ评分、血清钙、入住ICU时长、白细胞、年龄、BMI、CK,见图2。以上生化指标均为入住ICU后24 h内测量。
图2 XGBoost模型中重要特征排名Fig.2 Ranking of important features in the model
2.3 模型评估
2.3.1 ROC曲线 构建随机森林、BP神经网络、XGBoost模型3种机器学习模型及传统Logistic模型,分别对测试集和训练集进行训练,得到4种预测模型的ROC曲线,如图3。4种模型在训练集上的ROC曲线下面积分别为0.99、0.95、0.98和0.86。其中随机森林和XGBoost模型效果最佳,BP神经网络次之,但AUC均达到0.95以上。整体来看,机器学习模型在测试集和训练集上的效果均优于传统Logistic模型,但差异无统计学意义(P>0.05),见表2。
图3 4种预测模型的ROC曲线Fig.3 ROC curves of four prediction modelsA: 随机森林模型;B: BP神经网络模型;C: XGBoost模型;D: Logistic模型
表2 模型预测结果差异显著性分析Tab.2 Significance analysis of prediction results of four models [n(%)]
2.3.2 混淆矩阵 使用准确度、精确度、灵敏度、特异度和F1-Score对4种模型的预测性能进行评价。随机森林的准确度、精确度、灵敏度、特异度和F1-Score分别为0.96、0.97、0.96、0.97和0.92。XGBoost和BP神经网络的F1-score均为0.89,但XGBoost的准确度、精确度、灵敏度和特异度均高于BP神经网络。3种机器学习模型的预测性能均优于传统的Logistic回归模型,见图4、表3。
图4 4种预测模型的混淆矩阵Fig.4 Confusion matrices for four prediction modelsA: 随机森林模型;B: BP神经网络模型;C: XGBoost模型;D: Logistic模型
表3 4种模型性能评价Tab.3 The prediction performance evaluation of four models
3 讨 论
股骨颈骨折是老年患者的一种潜在致命疾病,具有较高的死亡率。据报道,此类骨折在老年人群中的30 d死亡率为9.6%,1年死亡率为33%[12],院内死亡率高达7.5%[13]。入住ICU的患者具有病情重、术后并发症风险高的特点。本研究中选取的重症股骨颈骨折患者具有较高的死亡率,术后院内死亡率为13.1%。
Logistic模型作为传统的统计学预测模型,在股骨颈骨折病死率预测方面已有较为广泛的应用[14],但Logistic回归对多重共线性数据较为敏感,难以对不平衡数据集进行处理,且模型的准确率低,在拟合数据真实分布上的能力相对较差。近年来,机器学习被不断地应用于临床医学中疾病的发生和不良结局的预测,如高文鹏等[15]使用Logistic回归、随机森林和LightGBM算法分别预测ICU患者的急性肾损伤风险,3种模型预测24 h后的急性肾损伤风险灵敏度依次递增,随机森林和LightGBM算法的模型效能明显优于Logistic回归。因此,本研究在既往研究的基础上,选取3种表现优异的机器学习算法,建立了重症股骨颈骨折患者的院内死亡风险预测模型。3种机器学习模型在训练集和验证集上均表现出了优异的性能,ROC曲线下面积分别为0.99、0.95和0.98,且较传统Logistic模型相比具有更好的预测性能。在3种机器学习模型中,随机森林模型在各项指标中均具有最佳表现。相比XGBoost和BPNN算法,随机森林算法能处理高维的特征数据,并且不依赖特征选择[16];同时,随机森林算法具有很强的抗干扰性,对于不平衡数据和有大量缺失的数据集仍然可以维持较高的准确度[17],而XGBoost和BPNN算法在有缺失的数据集上的性能则弱于随机森林,本课题组认为这可能是本研究中随机森林在3种机器学习模型中效果最优的原因。
同时,本研究中XGBoost模型通过计算特征变量的重要性,对常见的预测因素进行排序,进一步确定了维生素D、乳酸脱氢酶、肌酐、SAPSⅡ评分、血清钙、入住ICU时长、白细胞、年龄、BMI和CK是预测股骨颈骨折患者死亡的显著特征。在既往研究中,Seitz等[18]发现,骨矿化缺陷以及25羟维生素D的减少与股骨颈骨折死亡率增加有关。25羟维生素D是维生素D在血液中的主要存在形式,本研究中维生素D和血清钙作为影响股骨颈骨折患者院内死亡的重要的影响因素,验证了这一结论,提示在临床治疗中,通过补钙等措施,平衡血清25羟维生素D水平,可能降低股骨颈骨折的死亡率。Paccou等[19]进行的一项前瞻性对照研究认为,乳酸脱氢酶水平和肌酐含量是预测骨密度损失的重要因素,而骨矿物质密度被认为与死亡率有关。较快的骨密度损失与更高的死亡风险相关[20],与本研究结果相符。此外,较以往有关股骨颈骨折病死率的预测研究[21-23],本研究发现SAPSⅡ评分对患者病死率预测也具有重大意义。然而现有的预测研究中,SAPSⅡ评分常用于神经疾病患者、腹腔感染患者及呼吸窘迫性患者[24-26]的预后研究,对于SAPSⅡ危重评分在股骨颈骨折中的预测研究较少,本研究结果为SAPSⅡ危重评分在股骨颈骨折临床中的应用提供参考价值。
本研究也存在一定的局限性。首先,本研究是基于MIMICⅢ数据库进行的单中心研究,未进行外部数据库的验证,模型的性能需要前瞻性的研究进行进一步验证。其次,机器学习模型的可解释性不佳,虽然对模型的预测结果进行显著性分析,但仍无法从统计学角度对这些特征和院内死亡之间的因果关系进行评价。
综上所述,本研究使用患者的临床数据建立了3种机器学习模型用于预测入住ICU的股骨颈骨折患者院内死亡的风险。3种机器学习模型的预测性能均优于传统的Logistic模型。未来,经过国内数据库的验证以及模型参数调整后,可将该模型应用于临床实践中。从而更好的辅助临床医生进行临床决策,调整重症股骨颈骨折患者的治疗方案,更好的分配医疗物资,减少不良结局的发生。