基于随机森林算法的心电图引导手臂输液港静脉导管头端精准定位的影响因素研究
2021-11-13徐湘妍玉吉昕宇宋昀杰徐晓霜徐海萍张汝阳
徐湘妍玉,吉昕宇,宋昀杰,徐晓霜,徐海萍,张汝阳
(1.南京医科大学公共卫生学院 生物统计学系,江苏 南京,211166;2.复旦大学公共卫生学院 流行病与卫生统计学系,上海,200032;3.南京医科大学第一附属医院 乳腺科,江苏 南京,210036)
手臂输液港是恶性肿瘤患者的常用治疗措施,临床常采用X射线定位静脉导管头端。近年来,采用心电图进行静脉导管头端定位者逐渐增多。完全植入式静脉输液港(TIVAP)是完全植入人体内的闭合输液装置,包括头端位于上腔静脉的导管部分和埋植于皮下的港座部分,其中静脉导管部分与经外周静脉置入中心静脉导管(PICC)相似。临床应用输液港可减少许多并发症的发生,如静脉炎、血栓、纤维蛋白鞘等[1]。与PICC相比,输液港增加了1个港座,保留的时间更长,更适合长期化疗[2]。输液港应用过程中的关键问题之一是保证导管头端定位的精准性,若静脉导管头端位置定位不精准,可能会引发相关并发症[3]。心电图引导技术具有安全性高、精准率高、无辐射等优点[4-7],近年来已被广泛应用于临床。LIU G等[8]的一项关于心电图引导PICC研究的Meta分析结果显示,成年患者置入PICC过程中采用心电图引导相较于X射线法具有更高的定位精度,精准度可达89.7%,且没有重大的安全性问题。与传统的解剖标志定位相比,心电图引导方法也具有明显的优势[9-10]。本研究基于随机森林算法探讨心电图技术引导手臂输液港静脉导管头端精准定位的影响因素,现报告如下。
1 资料与方法
1.1 一般资料
选取2018年9月—2019年9月南京医科大学第一附属医院乳腺病科收治的338例植入输液港的女性乳腺癌化疗患者作为研究对象。应用心电图引导静脉导管头端定位,并收集患者的相关信息。患者年龄、婚姻状况、文化程度、家庭月收入、医疗费用支付方式的资料来自问卷调查。新辅助治疗、手术方式来自患者在医院接受治疗时的资料。身高、体质量、输液港植入侧臂围数据于置港前由护士统一测量所得。导管置入位置、导管置入静脉、导管置入长度、穿刺点至胸锁关节长度数据在植入手臂港过程中获取。
1.2 导管长度及头端定位精准性的判断方法
导管进入上腔静脉时,出现高尖P波。导管到达上腔静脉与右心房的上壁交界连接点(CAJ)时,P波达到最高峰。若导管进入右心房,则会出现负向P波。本研究中,当P波振幅达到QRS波高度50%时,将此时的导管长度视为导管置入静脉的长度。手臂输液港囊袋中的港座与导管连接帽的长度为1 cm,最终记录的导管长度为导管置入静脉的长度再加上1 cm。
2016年美国静脉输液护理学会发布的新版《输液治疗实践标准》[11]指出,导管的头端位置位于CAJ为安全性最佳。本研究中,导管头端位置在CAJ或位于CAJ上端1个椎体,均视为导管头端位置精准。
1.3 随机森林法筛选重要变量
随机森林是一种机器学习算法,由BREIMAN L[12]于2001年提出,其基本思想是从1个样本量为N、特征数为M的数据集中,利用Bootstrap法有放回地抽样产生1个样本量为N、特征数为m[常设为sqrt(M)]的Bootstrap数据用于模型训练。理论上,原始数据中约有1/3的样本不会被抽取,称为袋外(OOB)数据。重复以上过程k次,可得含有k棵决策树的随机森林。本研究设置5 000棵决策树。
决策树首先选定所有样本为根节点,继而根据某变量生成2个子节点。根据节点中各结局的频率,可计算出根节点与2个子节点之间基尼不纯度的差值。建树时,选取使基尼不纯度变化最大的变量划分根节点。每个子节点都重复上述过程进行划分,直至子节点中基尼不纯度不再减小。在整个森林中,可以计算出某变量使整个森林平均减少的基尼不纯度,称为平均不纯度减小(可作为变量的重要性评分)。
本研究采用滑动窗口序贯向前选择法(SWSFS)筛选变量[13-14]。按照重要性评分从大到小依次纳入变量,每加入1个变量重新进行随机森林分析。选择使得OOB错误率最小时对应变量集进行后续分析。
1.4 基于重要变量构建决策树
首先,将原数据集按照2∶1比例随机划分为训练集与测试集。基于训练集,采用所筛选的变量构建“导管头端定位精准”的决策树。在测试集中,评价决策树的灵敏度、特异度、阳性预测值、阴性预测值、准确率和受试者工作特征(ROC)曲线的曲线下面积(AUC)。重复上述步骤1 000次,得到各统计量的抽样分布。
1.5 统计学分析
2 结 果
2.1 2组患者基线资料描述性统计分析
6个连续变量(年龄、身高、体质量、穿刺点至胸锁关节长度、导管置入长度、输液港植入侧臂围)的t检验结果提示,2组身高、导管置入长度比较,差异有统计学意义(P<0.05)。7个无序分类变量(导管置入位置、导管置入静脉、婚姻状况、文化程度、医疗费用支付方式、新辅助治疗、手术方式)的卡方检验结果提示,2组上述指标比较,差异无统计学意义(P>0.05)。等级变量(家庭月收入)的秩和检验结果显示,2组家庭月收入比较,差异无统计学意义(P>0.05)。见表1。
表1 精准组与不精准组患者的基线资料比较
2.2 随机森林筛选重要变量
采用随机森林法评价13个变量的重要性评分,由高至低依次为:身高17.7分,年龄17.3分,体质量13.5分,输液港植入侧臂围12.1分,穿刺点至胸锁关节长度11.9分,家庭月收入5.4分,教育程度3.8分,医疗费用支付方式3.6分,置入位置2.8分,新辅助治疗2.2分,置入静脉2.1分,手术方式1.9分,婚姻状况1.2分。当进入模型的变量数量为3时,模型错判率最低(见图1),即前3个变量使得模型OOB数据错误率最低,因此重要变量分别为身高、年龄和体质量。
2.3 基于重要变量构建决策树
在训练集中,基于重要变量构建决策树。在测试集和全人群数据中,评价该决策树的效果。结果提示,所构建模型的准确率(0.84)、灵敏度(0.98)、阳性预测值(0.85)尚可,特异度(0.19)、阴性预测值(0.54)、曲线下面积(AUC)(0.67)较低。见图2、表2。
表2 决策树模型在测试集及全人群中的各统计量结果
基于全人群数据集的决策树提示,身高<155 cm、体质量>52 kg、年龄49~63岁的患者更易发生手臂输液港静脉导管头端定位不精准的情况。见图3。
3 讨 论
本研究随机森林和决策树模型的结果提示,身高、体质量和年龄可能是手臂输液港静脉导管头端定位不精准的影响因素。身高较低的患者,上腔静脉一般较短,因此操作过程中导管的移动空间较小,易导致头端定位不精准,与徐海萍等[15]Logistic回归模型研究结论一致。除了患者本身的特征外,心电图图像的稳定性也是影响导管头端定位精准性的重要因素。郭素萍等[16]研究表明,约5%的患者在心电图引导静脉导管置入术中不能获得稳定心电图。此外有学者[17]指出,除了心电图信号本身外,其他无线电信号和周围医疗设备的干扰也可能对心电图的图像产生影响。
多项研究[15,18-20]结果显示,不同体质量、年龄对心电图P波改变或静脉导管头端定位精准性比较,差异无统计学意义(P>0.05)。这可能是因为大多数研究只考虑了体质量、年龄的主效应,而忽视了其与其他因素间的联合效应或交互作用。本研究采用的决策树模型能够很好地识别变量之间的复杂效应。然而,体质量、年龄影响导管头端定位精准性的机制仍待进一步研究。本研究结果提示,临床医师应着重关注身高<155 cm、体质量>52 kg、年龄49~63岁的患者,因为此类患者更易发生静脉导管头端定位不精准的情况。
本研究采用随机森林算法评估了静脉导管尖端定位精确性的影响因素,随机森林可对变量进行重要性排序,排序结果显示了各变量对结局的贡献大小。作为一个初步探索性研究,本研究为后续确证性研究提供了思路。本研究局限性在于仅以女性乳腺癌化疗患者为研究对象,且只收集了常见的、易获取的研究指标,未来有待选取其他肿瘤患者为研究对象且扩大样本量、研究指标进行更深入的后续研究。