随机森林模型和logistic回归模型在维持性血液透析患者动静脉内瘘失功预测中的应用效果比较
2021-02-17梅游英王诣涵潘若玲南晓领
郑 诗 梅游英 王诣涵 潘若玲 南晓领
温州市中西医结合医院血液净化中心,325000 浙江 温州
血管通路是血液透析患者赖以生存的生命线[1],自体动静脉内瘘(arteriovenous fistulas,AVF)因其操作简便、费用低、预后良好等诸多优势,已成为长期血液透析患者的最佳血管通路类型[2-3]。但AVF并非终身使用,其可因各种原因引起血管狭窄或者闭塞,从而导致内瘘失功。研究表明AVF失功是导致血液透析患者预后不良的重要原因之一[4]。因此,了解AVF失功的危险因素并构建其相关预测模型,对预防和早期干预AVF失功至关重要。随机森林模型作为一种新兴的、灵活度高的机器学习算法,与logistic回归等传统分类算法相比具有抗噪声、高准确性、可评估各个特征的重要性及不依赖于全部数据特征等优点[5-7]。本研究分别采用随机森林算法和logistic回归模型构建维持性血液透析患者AVF失功预测模型,并对其应用效果进行比较分析,为早期预防AVF失功的发生提供参考依据。
1 对象与方法
1.1 研究对象
以2017年5月至2020年11月在温州市某中西医结合医院血液净化中心进行维持性血液透析的患者为研究对象。
纳入标准: 1)入院年龄>18岁;2)在该院单上臂首次造瘘,且行头静脉-桡动脉端侧吻合形成AVF者;3)AVF术后 1个月以上者。
排除标准:1)于外院行 AVF成形术者;2)改用腹膜透析等肾脏替代治疗方式而放弃使用AVF者;3)既往行血管内手术者。
1.2 研究方法
采用统一设计的个案数据表,对研究对象的资料进行回顾性收集。
1)一般资料,包括性别、年龄、体质量指数(BMI)、吸烟史、糖尿病史、高血压史及Charlson合并症指数[8];
2)透析资料,包括透析中低血压、透析脱水量;
3)实验室指标,包括血红蛋白浓度、嗜酸性粒细胞、血小板计数及红细胞比容;
4)生化及凝血相关指标,包括钙磷乘积、C反应蛋白、凝血酶原时间、纤维蛋白原以及国际标准化比值;
5)营养指标,包括营养风险指数、血浆白蛋白、碱性磷酸酶、甘油三酯以及胆固醇。
1.3 AVF失功的诊断标准
AVF失功定义为开始透析后发生至少以下1种情况[9]:
1)触诊内瘘震颤减弱或无法触及,听诊血管杂音无法闻及;
2)血流量过低(<200 mL/min)无法满足透析需要,血管彩色多普勒超声检查提示通路狭窄(血管狭窄程度≥50%,或吻合口直径<2.0 mm、内瘘静脉直径<2.7 mm)。
1.4 统计学方法
2 结果
2.1 一般资料
共558例维持性血液透析患者纳入最终研究。发生AVF失功的患者96例,其中男性56例,女性40例,年龄范围42~87岁,平均年龄(56.88 ± 15.21)岁;未发生AVF失功的患者462例,其中男性240例,女性222例,年龄范围35~82岁,平均年龄 (51.10±13.91)岁。
2.2 血透患者AVF失功危险因素的单因素分析
单因素分析结果显示,年龄(χ2=-3.640) 、有吸烟史(χ2=8.266) 、糖尿病史 (χ2=18.521)、钙磷乘积(t=-4.332)、营养风险指数(t=8.830)以及透析中低血压(χ2=5.552)在血透患者动静脉内瘘正常组与失功组的组间差异有统计学意义(P<0.05)。见表1。
表1 血透患者AVF失功危险因素的单因素分析
2.3 随机森林预测模型分析结果
共有395个训练集用于建立随机森林模型。根据基尼指数减少平均值对23个变量进行排序,营养风险指数、碱性磷酸酶、年龄、血小板计数、红细胞比容为预测血透患者动静脉内瘘失功发生重要性前5位指标。见表2。当决策树数量为31时随机森林预测误差曲线趋于平稳,可得到最优模型,此时袋外错误率为6.83%。见图1。
表2 各变量基尼指数减少平均值情况及重要性排序
图1 随机森林预测误差与决策树数量的动态变化关系
2.4 多因素logistic 回归分析结果
以年龄、吸烟史、糖尿病史、钙磷乘积、营养风险指数及透析中低血压作为自变量,以血透患者是否发生动静脉内瘘失功为因变量进行多因素logistic回归分析。变量赋值见表3。结果显示,年龄、吸烟史、糖尿病史、钙磷乘积升高以及透析中低血压是血透患者动静脉内瘘失功发生的危险因素(P<0.05),而营养风险指数升高是血透患者动静脉内瘘失功发生的保护因素(P<0.001)。见表4。
表3 变量赋值表
表4 血透患者AVF失功的多因素logistic回归分析
2.5 2种预测模型的比较
采用测试集数据比较2种模型对血透患者动静脉内瘘失功的预测效果。随机森林预测模型的特异度、阴性预测值低于logistic预测模型;敏感度、准确性、阳性预测值高于logistic预测模型。见表5。
表5 两种模型的预测性能比较
随机森林预测模型的AUC为 0.911(95%CI:0.857~0.964,P<0.001),见图2。logistic回归预测模型的AUC为0.755(95%CI:0.649~0.862,P<0.001),见图3。随机森林预测模型的AUC大于logistic回归预测模型的AUC(Z=2.600,P=0.009) 。
图2 基于随机森林预测模型的ROC曲线
图3 基于logistic预测模型的ROC曲线
3 讨论
本文基于随机森林模型和多因素logistic回归模型建立AVF失功的预测模型,结果表明随机森林算法可以有效地区分可能发生AVF失功的个体和不会发生AVF失功的个体,且其预测准确性高于logistic回归模型。此外,随机森林预测模型结果显示,营养风险指数、碱性磷酸酶、年龄、血小板计数、红细胞比容、钙磷乘积、C反应蛋白、凝血酶原时间、性别、甘油三酯等为预测血透患者AVF失功发生重要性位列前10的因素。logistic回归模型结果可根据效应值的大小直观地解释营养风险指数、年龄、吸烟史、糖尿病史、钙磷乘积以及透析中低血压等因素与发生AVF失功风险间的关系,且其在特异度、阴性预测值等模型性能指标上的表现优于随机森林预测模型。
营养风险指数作为一个评估营养评分的客观指标,可能是预测AVF失功发生的最重要因素。随着营养状态的恶化,血管内皮受损、修复功能障碍,内源性凝血途径由于胶原暴露而被激活,这些变化均可促使血栓形成[10-11]。汤睿莹等[11]应用竞争风险模型探讨血透中心老年患者AVF失功的危险因素,发现较低的营养风险指数是导致老年患者AVF失功的独立危险因素;本研究进一步表明营养风险指数可作为全年龄段患者发生AVF失功的独立预测指标。研究还显示维持性血液透析患者发生AVF失功的风险每增加1岁就会增加0.035倍的风险。研究通过多因素logistic回归模型表明糖尿病史是AVF失功的独立危险因素。机制研究表明糖尿病与AVF失功的发生与其致动脉粥样硬化和胰岛素抵抗有关;这可以通过增强凝血因子及血小板功能加速血栓形成[12]。吸烟作为公认的心血管疾病和静脉血栓形成危险因素[13-14],在本研究中也被证实与AVF失功发生有关;可能是因为长期吸烟损害内皮细胞的抗凝功能,从而导致AVF血栓形成和失功。钙磷代谢紊乱是慢性肾脏疾病患者常见的并发症,钙磷乘积升高可以促进血管平滑肌细胞增殖,血管钙化加速,继而影响血管舒缩功能,使血管狭窄或闭塞[15]。本研究中AVF失功组患者的钙磷乘积显著高于正常组,也证实了钙磷代谢紊乱与AVF失功发生有关。1项纳入12篇病例对照研究的meta分析发现透析中低血压患者发生AVF失功的风险是其他患者的3.27倍[9],本研究通过多因素logistic回归模型也表明透析中低血压是AVF失功的危险因素,其可能与血浆渗透压相对快速变化有关[16]。
本研究有以下几点优势:首先,研究使用随机森林来预测维持性血液透析患者发生AVF失功的风险,随机森林可将所有可能风险因素纳入分析,然后筛选出重要变量并建立预测模型,使模型的预测更加准确;此外,建立预测模型的所需数据可在临床中获取,并有助于临床医护人员迅速评估个体发生AVF失功的风险,并对高危个体实施个性化干预。本研究局限性:鉴于本研究为一项单中心研究,可能导致建立的模型在其他人群中使用效果不佳;同时本研究建立基于随机森林算法和logistic回归模型构建的维持性血液透析患者AVF失功预测模型,仍需通过多中心、前瞻性研究进一步验证。
综上所述,随机森林模型相较于logistic 回归模型对AVF失功发生总体预测效果好,但logistic回归模型能直观地解释结果,两种模型可互为补充,从各个方面描述影响AVF失功发生的因素及作用。