基于随机森林模型的抗肿瘤化疗患者经外周静脉植入中心静脉导管置管后导管相关感染及影响因素
2024-02-24周菊珍王丽华陈秋萍
周菊珍,王丽华,陈秋萍,鞠 阳
[1. 苏州大学附属第四医院(苏州市独墅湖医院)肿瘤科,江苏 苏州 215000; 2. 苏州大学附属第一医院肿瘤科,江苏 苏州 215000; 3. 苏州大学附属第四医院(苏州市独墅湖医院)静疗门诊,江苏 苏州 215000; 4. 苏州大学附属第一医院全科医学科,江苏 苏州 215000]
经外周静脉置入中心静脉导管(peripherally inserted central catheter, PICC)具有穿刺风险小、留置时间长等优势,已广泛应用于临床,常用于接受长期化学治疗(化疗)、抗菌药物治疗、全肠外营养等的患者[1-2]。国外研究[3]表明,PICC置管后导管相关感染临床上较为常见,患者病死率为12%~25%。近年来,尽管已有大量研究[4-5]报道了化疗患者PICC置管后导管相关感染的高危因素,但结论多针对特定肿瘤患者或感染部位,缺乏系统性,且分析方法多采用多因素回归分析,该方法虽具有一定的预测作用,但由于特异度偏低容易影响预测结果。随着大科学统计和大数据分析的不断进步,随机森林算法在临床上得到广泛应用,可高效处理混杂和高维度的数据,避免过度拟合[6],从而提高预测的准确度,但目前其在预测PICC置管后导管相关感染方面的研究仍然缺乏。因此,本研究选取接受化疗并PICC置管后的400例肿瘤患者作为研究对象,基于随机森林模型的集成分类算法探讨化疗患者PICC置管后导管相关感染的危险因素,旨在为临床提供可靠理论指导。
1 资料与方法
1.1 一般资料 选取2018年2月—2022年8月于苏州两所医院接受治疗并行PICC置管的肿瘤患者为研究对象,采用计算机产生随机数法将就诊患者以3∶1 的比例分为训练集和测试集。纳入标准:(1)年龄≥18周岁;(2)化疗耐受;(3)意识清楚,能配合研究;(4)临床资料完整。排除标准:(1)有抗肿瘤治疗史;(2)合并重要脏器功能障碍;(3)有不能耐受的不良反应或不能完成整个治疗过程;(4)妊娠或哺乳期;(5)发生远处转移。
1.2 研究方法
1.2.1 临床资料收集 收集患者年龄、性别、是否合并糖尿病等基础信息,并记录患者发生导管相关感染前单次置管穿刺次数、置管时间、导管是否位移、化疗周期、白细胞计数(WBC)、免疫功能及换药频次等临床资料。
1.2.2 导管相关感染诊断 采用美国凤凰BACTEC9120120XL全自动血培养仪器对PICC置管导管相关感染培养出的细菌进行鉴定,出口部位感染、导管相关血流感染、隧道感染及皮囊下感染诊断标准参考《医院感染监测标准》[7]。
1.3 统计学分析 数据统计分析应用SPSS 23.0,计量资料组间比较采用t检验,多组间比较采用单因素方差分析;计数资料组间比较采用χ2检验。多因素分析通过logistic回归模型进行,预测模型采用随机森林模型的集成分类算法构建。采用受试者工作特征(ROC)曲线评估模型预测效能,检验水准α=0.05。
2 结果
2.1 两组临床资料对比 共纳入患者400例,其中训练集300例,测试集100例。训练集男性164例,女性136例,平均年龄(54.98±4.66)岁;测试集男性53例,女性47例,平均年龄(55.03±4.12)岁,训练集和测试集患者基线资料比较,差异均无统计学意义(均P>0.05)。
训练集300例化疗患者中,32例患者出现导管相关感染(10.67%),被分为感染组,其余为无感染组。其中,出口位感染8例(2.67%),隧道感染12例(4.00%),皮下囊袋感染12例(4.00%),32例感染患者共检出病原菌56株,以革兰阴性菌为主(32株,57.14%),革兰阳性菌15株(26.79%),真菌9株(16.07%)。与无感染组比较,感染组患者单次置管穿刺次数更多,PICC留置时间更长,导管移动比例、合并糖尿病比例及换药频次更高,WBC水平及免疫功能更低,差异均有统计学意义(均P<0.05),见表1。
表1 两组患者临床资料对比
2.2 多因素logistic回归分析 将单因素分析中具有统计学意义的因素纳入,采用似然比前进法筛选变量,进行多因素logistic回归分析。结果显示,导管移动、PICC留置时间≥60 d、合并糖尿病,以及换药频次>7 d是化疗患者PICC置管后导管相关感染的独立危险因素(均P<0.05),而WBC≥3.0×109/L及免疫功能正常为保护因素(均P<0.05),见表2。
表2 化疗患者PICC置管后导管相关感染多因素logistic回归分析
2.3 变量共线性诊断 共线性诊断结果显示,各变量方差膨胀因子(variance inflation factor, VIF)均小于10,说明变量之间相互独立,不存在共线性,见表3。
表3 化疗患者PICC置管后血管导管相关感染变量的共线性诊断系数
2.4 随机森林模型的重要性分析 随机森林模型各变量重要程度的排序结果依次为:PICC留置时间、导管移动情况、合并糖尿病情况、WBC、换药频次及免疫功能,见图1、2。
图1 随机森林模型中各影响因素重要程度排序
图2 随机森林模型中各临床特征的累积重要程度
2.5 构建预测患者出现导管相关感染的随机森林的集成分类算法模型 通过梯度提升回归树算法调整随机森林模型参数,从第20棵决策树开始,扩展的随机森林算法的误差(均方差)逐渐趋于平缓,说明模型泛化能力有所增强,而决策树数目过大后误差呈升高趋势。因此将每片森林的决策树数目设置为20棵,见图3。
图3 决策树数目与袋外评估平均值之间的关系
2.6 两种预测模型诊断预测效能比较 将测试集100例患者带入两种预测模型,结果显示,logistic回归模型曲线下面积(AUC)为0.791,标准误为0.044,95%CI:0.64~0.82,P<0.001,预测的灵敏度为75.23%,特异度为56.38%,准确度为67.71%。随机森林算法模型AUC为0.872,标准误为0.047,95%CI:0.63~0.87,P<0.001,模型预测的灵敏度为66.24%,特异度为65.83%,准确度为65.49%,见图4。
图4 随机森林算法模型和logistic回归模型的ROC曲线分析
3 讨论
肿瘤是我国常见的恶性疾病,具有非常高的发病率,尽管诊断和治疗方法不断进步更新,但仍然是导致患者死亡的重要原因之一[8]。肿瘤的发生发展机制复杂,其过程涉及多种基因、多个步骤,以及免疫、环境和遗传等多种内外因素[9]。研究[10]显示,相关基因突变在肿瘤的病情进展、病理分型及预后方面均发挥着重要作用。近年来,肿瘤患者人数逐年增长,针对不能进行手术的患者,化疗是最好的治疗方案。虽然最佳的细胞减灭手术联合化疗对肿瘤患者具有一定疗效,但部分患者在PICC置管后出现导管相关感染,导致一系列并发症[11]。PICC导管在材料及置管技术方面尽管已有所改进,其导管相关感染仍时有发生,加上化疗药物的不良反应,患者置管后发生感染的概率为12.80%~15.02%[12]。本研究训练集纳入的300例患者中,32例患者置管后出现导管相关感染,感染发病率为10.67%,与既往研究[13]结果一致,可见肿瘤患者置管后出现导管相关感染的风险很难避免。
导管相关感染是常见的医院感染类型,不仅增加患者住院时间,甚至可能导致患者死亡。本研究结果显示,PICC留置时间、导管移动情况、合并糖尿病情况、换药频次、WBC及免疫功能均为患者PICC置管后导管相关感染的独立影响因素。随机森林算法模型显示,不同影响因素重要程度排序结果依次为PICC留置时间、导管移动情况、合并糖尿病情况、WBC、换药频次及免疫功能。癌症化疗通常需要多个周期,因此置管时间相对较长,并且癌症患者的免疫力低下,易导致细菌繁殖从而引发感染[14]。由于身体活动,患者导管固定不牢,易出现移动等现象,增加穿刺次数,为细菌侵入提供便利[15]。合并糖尿病的肿瘤患者,其自身免疫力相对正常人低,代谢速度变慢,导致血清中WBC水平降低,随着化疗次数的增多,药物对患者造成的不良反应更加明显,导致骨髓抑制,增加感染发病率[15]。林海燕等[16]研究表明,乳腺癌化疗患者导管相关感染的影响因素为置管时间、合并糖尿病情况、治疗季节及化疗次数等。王道军等[17]研究表明,肿瘤患者免疫功能、穿刺次数及化疗次数可能是PICC相关感染的独立影响因素。韩如慧等[18]发现,PICC置管时间越长,血液相关肿瘤患者出现导管相关血流感染的概率越大。
随机森林算法是随着计算机功能的发展及大数据应用和分析逐渐健全而产生的机器学习模型,可对各预测变量进行排序,提高了诊断疗效。在随机森林算法中,随着决策树数量增加,模型的复杂度也随之增加,可能导致过拟合现象。因此,需在复杂度和泛化能力之间找到平衡点。本研究通过利用梯度提升回归树算法找到最优的决策树数量为20,以获得更好的模型性能,从而提高感染预测效率。本研究构建了随机森林模型和logistic回归模型。在基于随机森林模型影响肿瘤患者导管相关感染的预测模型中,PICC留置时间、导管移动情况、合并糖尿病情况、WBC、换药频次及免疫功能是排名前六的影响因素,与logistic回归分析结果一致。使用ROC比较两个模型的预测效能发现,在训练集中,随机森林模型的预测效能显著高于logistic回归模型,AUC高达0.872。
基于以上研究结果,预防经化疗的肿瘤患者PICC置管后导管相关感染应采取如下策略:(1)尽量缩短PICC留置时间;(2)对合并糖尿病的患者进行积极治疗,维持患者血糖相对正常水平;(3)加强对PICC置管患者的监护;(4)调整换药时间。作为单中心研究,本研究纳入患者例数有限,部分影响因子纳入不全,如化疗药物的种类等,因此部分结果可能存在偏倚。
综上所述,PICC留置时间、导管移动情况、合并糖尿病情况、换药频次、WBC水平及免疫功能是化疗患者发生导管相关感染的独立影响因素,随机森林模型的集成分类算法可用于化疗患者发生导管相关感染的预测分析,其预测性能优于logistic回归模型。
利益冲突:所有作者均声明不存在利益冲突。