APP下载

基于随机森林算法的COPD 病人功能障碍的影响因素

2024-03-18孟小暄张永媚王昕宇于镇婕沈悦好李艳娥

护理研究 2024年5期
关键词:功能障碍森林变量

孟小暄,张永媚,王昕宇,于镇婕,沈悦好,禹 玺,李艳娥,王 岚*

1.天津医科大学护理学院,天津 300070;2.天津医科大学基础医学院;3.天津医科大学总医院;4.天津市第一中心医院

慢性阻塞性肺疾病(COPD)是一种进行性全身炎症性疾病,且最主要的功能特点是不可逆的气流受限,导致病人不仅肺功能持续下降,还出现合并症增多、免疫力降低、日常活动能力下降等问题,进而引发多种功能障碍[1]。COPD 病人的功能障碍给医疗卫生系统带来沉重的疾病负担,并直接影响病人的生存质量[2]。功能状态被定义为个体为实现日常生活需求而进行的活动水平,包括身体、心理、社会、精神、智力和角色。其表现水平与个人性质、结构和条件的期望水平相对应[3]。《国际功能、残疾和健康分类》(International Classification of Functioning,Disability and Health,ICF)作为一种有效评估功能状态和残疾分类的工具,可将个体功能状态视为健康状况与背景因素的相互作用与复杂关联,是从整体水平对COPD 病人的功能状态进行细致、具体评估的有效方法。本研究应用简明版ICF-COPD核心集[4]对COPD 病人的功能障碍进行多角度的综合评估,应用随机森林算法筛选重要影响因素,联合多因素Logistic 回归分析进一步挖掘影响因素,为后续从功能水平加强COPD 防控提供依据。

1 对象与方法

1.1 研究对象

采用便利抽样法,选取2020 年6 月—2021 年3 月天津市3 所三级甲等医院住院或门诊就诊的COPD 病人作为研究对象,进行多中心问卷调查。纳入标准:符合慢性阻塞性肺疾病全球倡议(GOLD)[5]诊断标准的病人;签署知情同意书。排除标准:患有心脑血管、肝肾等严重疾病而导致身体功能受限的病人;无法对问卷上的问题作出回答者。根据Kendell 粗糙工作准则[6]进行样本量估计,回归分析样本量可为自变量个数的5~10 倍,本研究共有22 个自变量,考虑10%的脱落率,计算所需样本量为121~242 例。使用随机森林算法时,将80%的病人设为训练组,20%的病人设为验证组。本研究已获得相关伦理委员会批准(批准号:TMUhMEC2020028),病人均已获得知情同意,自愿参与本研究。本研究已在中国临床实验注册中心完成注册(注册编号:ChiCTR2000040723)。

1.2 研究方法

1.2.1 研究工具

1.2.1.1 一般资料调查表

一般资料调查表包括社会人口学资料、生理因素、行为因素3 个方面,共纳入16 个变量。其中社会人口学资料包括性别、年龄、体质指数(BMI)、婚姻状况、居住方式、文化水平、经济状况、健康保险和家族史;生理因素包括COPD 分期(分为急性加重期与稳定期)、GOLD 分级[5]、近1 年急性加重次数、合并症情况;行为因素包括吸烟指数(吸烟指数=每天吸烟支数×吸烟年数)、是否用药、是否使用家庭氧疗。

1.2.1.2 疾病相关量表

1)COPD 疾 病 评 定 量 表(COPD Assessment Test,CAT):综合评估COPD 病人疾病症状及对生活的影响,由咳嗽、咳痰、胸闷、睡眠、精力、活动耐受力、外出信心和对家庭日常活动影响8 项指标组成,每项指标评分为0~5分,总分为0~40分,分值越高代表影响程度越严重。总分≥10 分为影响较重,<10 分为影响较轻[7]。2)改良版呼吸困难问卷(Modified Medical Research Council,mMRC):主要用于评估COPD 病人呼吸困难的程度,分为0~4 级,0 级或1 级为呼吸困难症状轻,2 级及以上为呼吸困难症状较重[5]。

1.2.1.3 简明版ICF-COPD 核心集

该评价工具由团队前期研究开发,共包含身心功能、身体结构、活动与参与以及环境4 个维度,其中身心功能、身体结构以及活动与参与维度评分0~4 级,“没有障碍”计0 分,“完全障碍”计4 分;环境维度分为双向评分,本研究将其赋值为有利计0 分,无利计1 分。所有维度中,8 代表“未特指”,9 代表“不适用”,在统计过程中将其视为0 处理。前3 个维度得分越高代表功能障碍情况越严重。该量表经过前期测评,内部一致性信度较好,内容效度较高[4]。本研究主要使用身心功能、身体结构、活动与参与3 个维度评分计算总分(满分56 分),对COPD 病人功能障碍进行评价。参照既往ICF 评估病人功能障碍情况的研究,将环境维度作为自变量进行分析[8]。

1.2.2 调查方法

由多名调查员经过培训后进入医院进行调查。按照纳入标准与排除标准筛选病人,对其说明调查目的及方法,并签署知情同意书。采用统一的指导语,让病人进行面对面填写,对于不能自行填写的部分,由调查员逐条提问并代为填写,提问过程中注意避免提示或诱导。填好后当场收回检查,对于缺漏项目及时确定及补充。共发放问卷230 份,回收有效问卷214 份,回收有效率为93.04%。

1.2.3 统计学方法

采用SPSS 26.0软件进行数据统计分析。定性资料采用率(%)表示,比较采用χ2检验。采用Python 3.9.0实现随机森林模型构建以及变量重要性解析。采用网格搜索的方式对随机森林进行优化,主要对决策树数量、生成最佳森林时最大特征数、树分裂的最小个数、随机森林树的最大深度、对特征的评价标准以及叶子节点最少样本数6 个随机森林算法中的重要参数进行调优。部分依赖图(partial dependence plot,PDP)能够展现1 个或2 个特征变量对模型预测结果影响的函数关系。本研究使用其对连续变量进行进一步可视化解析。并通过Python 中的SHAP(Shapley additive explanation)解释随机森林输出的变量重要性。将随机森林算法筛选出的重要变量纳入多因素Logistic 回归分析,使用方差膨胀系数(variance inflation factor,VIF)检验变量间是否具有多重共线性,再根据Logistic 建模结果分析COPD 病人功能障碍的影响因素。使用受试者工作特征(ROC)曲线下面积(AUC)、灵敏度和特异度对构建的预测模型进行评价。

2 结果

2.1 影响简明版ICF-COPD 核心集得分的单因素分析

本研究共纳入COPD病人214例,男159例(74.3%),女55 例(25.7%);简明版ICF-COPD 核心集在身心功能、身体结构和活动与参与3 个维度的总分为(15.13±8.36)分,使用中位数对总分进行分组,高分组107 例(50%),低分组107 例(50%)。单因素分析显示,共有11 个变量差异有统计学意义(P<0.05),见表1。

表1 影响简明版ICF-COPD 核心集得分的单因素分析 单位:例

2.2 随机森林模型结果

将11 个变量放入随机森林进行分析,并将筛选的重要变量纳入Logistic 回归分析。在随机森林中,使用80%的数据作为训练集,20%作为测试集,根据网格搜索对参数进行调优,见表2。通过参数调优后模型拟合效果有所提升,AUC 值从0.64 提升至0.91,训练出最优质的模型来解析影响因素的权重及作用方式。赋值方式,CAT 得分:<10 分=0,≥10 分=1;近1年急性加重:无=0,有=1;e110 个人消费用的用品或物质:有利=0,无利=1;e225 气候:有利=0,无利=1;GOLD 分级(GOLD):Ⅰ级=1,Ⅱ级=2,Ⅲ级=3,Ⅳ级=4;合并症:无=0,有=1;性别:男=0,女=1;年龄:≤65岁=0,>65 岁=1;家庭氧疗:是=0;否=1;mMRC:低分组=0;高分组=1;COPD 分期:稳定期=0;急性加重期=1。

表2 COPD 病人功能障碍随机森林模型参数调优最优范围及最优值

对随机森林进行SHAP 分析后,使用堆叠的条形图对变量的重要性进行比较,见图1。生成最优随机森林时最大特征数为6,分别为CAT 得分、近1 年有无急性加重、e110“个人消费用的用品或物质”、e225“气候”、有无合并症和GOLD 分级。使用部分依赖图解析连续变量GOLD 分级对COPD 病人功能障碍随机森林模型的作用,见图2,结果显示,GOLD 分级越高,COPD 病人严重功能障碍的可能性在不断上升。

图1 COPD 病人功能障碍随机森林模型变量条形堆叠图

图2 COPD 病人功能障碍随机森林模型中GOLD 分级的可视化分析

2.3 多因素Logistic 回归分析

对随机森林算法筛选出的6 个变量进行多重共线性检验,所有变量的VIF 值均小于5,不存在多重共线性。将6 个变量进入多因素Logistic 回归,共有5 个影响因素(考虑到GOLD 分级对COPD 病人的重要影响,故在模型中亦纳入)构成模型,见表3。该模型ROC 曲线下面积为0.803,灵敏度为74.5%,特异度为76.6%,Hosmer-Lemeshow 拟合优度检验显示,χ2=14.725,P=0.065,说明模型可接受,效果良好。见图3。

图3 ROC 曲线

表3 COPD 病人功能障碍影响因素的多因素Logistic 回归分析

3 讨论

3.1 COPD 病人功能障碍现状

本研究使用简明版ICF-COPD 核心集评价病人功能障碍得分为(15.13±8.36)分(总分56 分),样本整体功能障碍水平处于中等偏低的程度,与既往研究结果[9-10]类似,因本研究样本来源于多所医院,并且包括住院病人与门诊就诊病人,满足较高的样本多样性要求。结果表明,疾病严重程度越高,功能障碍表现得越严 重(GOLD 分 级,OR=1.474),而 既 往 研 究 表 明COPD 病人的生活状态与ICF 反映出的功能障碍密切相关,所以,深入探究COPD 病人功能障碍的影响因素[11],以找到合适的切入点控制功能障碍的进展尤为重要。

3.2 使用随机森林算法结合Logistic 回归分析探究影响因素的优势

对于多维、复杂的医学数据,如何筛选重要特征深入探究影响因素,并使后续的干预措施更具有针对性,是一个值得深思的问题。目前对于传统的统计学方法与新出现的机器学习之间的优劣性一直被诸多医学科研工作者广泛关注。与既往研究不同的是,本研究先通过随机森林算法筛选重要影响因素,再使用Logistic回归解析变量的作用程度与方向。随机森林作为机器学习的一种,由于其不易受变量共线性影响、运行稳健、不存在过拟合等优势,已广泛应用于医学研究中[12]。它可将各自变量对于因变量预测的重要性进行展示,有数据降维、预先筛选特征的作用,其生成的重要性评价排序结果可为后续临床决策提供参考依据[13]。本研究使用网格搜索对随机森林的参数进行调优,使模型AUC 值从0.64 升高到0.91,从而得到生成森林的最大特征数为6 个变量,进而筛选出重要的影响因素。而Logistic 回归分析可以解析模型中变量的作用程度与方向,能弥补随机森林算法中只能得出变量权重,不能知晓作用方向的缺陷。二者结合可使影响因素的分析更加深入、全面。

3.3 COPD 病人功能障碍的影响因素

3.3.1 CAT 评分

研究结果显示,CAT 得分(≥10 分)较高的病人,功能障碍程度越严重。既往研究指出,功能障碍不仅局限于器官功能,还包括体现病人参与日常生活中活动能力的社会功能[14]。CAT 条目间的相互关联增强了其对于功能障碍的敏感性,如睡眠不足会导致病人日常活动功能下降、机体免疫功能与精神状态均会受到负面影响[15]。无论是在随机森林算法的结果中还是在Logistic 回归分析中,CAT 评分与功能障碍的关联强度均居首位,并且CAT 评分是GOLD 指南推荐的评估COPD 病人生活状态的适用工具,因此本研究建议将其作为ICF-COPD 的参考标准,以减小评定者间差异,从而使功能障碍程度的层次划分更有依据。

3.3.2 物品利用障碍

当COPD 病人物品利用有障碍时,会增加其功能障碍的风险,与既往研究结果[16]相同。“个人消费用的用品或物质”具有障碍是指当病人在购买或利用食物或药品有障碍。首先,药品利用障碍可以体现在无效用药上,相关研究结果表明,仅有27.8%的COPD 病人在长期用药过程中可以正确使用吸入剂[17],而错误的使用方式与COPD 临床结局恶化显著相关[18]。病人使用吸入剂的方法不正确,导致无效用药的发生,进一步加重病人的功能障碍。其次,COPD 吸入剂价格较高、购药取药困难也会使药品利用障碍发生率较高[19]。不良的用药情况会使病人急性加重次数增多、肺功能下降以及出现更多不可逆性的损害,导致其功能障碍进一步加重。

3.3.3 合并症与反复的急性加重

本研究表明,近1 年有急性加重史的病人,其功能障碍较高的可能性是没有急性加重史病人的2.347倍,与一项多中心研究结论[20]一致。而当COPD 病人同时合并其他疾病时会导致功能障碍的危险增加。COPD 急性加重的主要原因是感染、空气污染、气候以及合并症等原因[21]。并且由于COPD 病人全身炎症属性,也导致其容易合并多种并发症[22]。合并症与急性加重都因为增加了COPD 病人的疾病复杂程度,进而增加了其功能障碍程度。病人每次急性加重都与身体活动、骨骼肌功能、运动耐量和健康相关生活质量的显著降低有关,导致肺功能乃至其他器官功能不可逆的损伤[23]。并且,较为严重的急性加重经历往往会成为病人恐惧外出、社交活动减少、家庭参与感降低的主要原因[24],也会进一步导致病人社会参与功能障碍愈发严重。合并症的产生也会导致一系列的症状负担以及治疗的复杂化,使得呼吸困难程度和衰弱程度增加、运动能力以及生活质量下降[25]。这些都将直接导致COPD 病人功能障碍加重,因此,加强对COPD 病人合并症的管理,以及预防和控制急性加重的出现显得尤为重要。

3.3.4 GOLD 分级对预测COPD 病人功能障碍的可视化分析

本研究采用PDP 图对随机森林模型中的GOLD分级进行可视化分析,发现随着GOLD 分级的升高,COPD 病人功能障碍的可能性升高,且1~2 级、3~4级间功能障碍的可能性增长较为明显。与Huang 等[26]的研究结论相同,认为COPD 功能障碍程度与GOLD分级呈正相关。GOLD1 级的COPD 病人症状相对较轻,而当严重程度变为GOLD 2 级时症状负担明显升高,对活动的信心与耐受度都大幅受限[27];GOLD 4 级与3 级病人相比,更易出现慢性炎症感染[28]、肌肉减少症[29]以及胃肠道症状[30],进而使功能障碍更为严重。随着GOLD 分级的上升,病人的运动能力会下降而症状负担会升高,较差的肺功能与呼吸困难会进一步加重心脏负荷,这些均会对病人的日常活动造成较大影响[31-32]。综上所述,在管理COPD 病人时,GOLD 1 级病人的干预措施需集中在疾病认知方面,提高其积极锻炼的依从性;对GOLD 3 级的病人应提高自我管理效能,采取有效措施避免急性加重,防止功能障碍进一步加重。

4 小结

本研究依据简明版ICF-COPD 核心集对病人整体功能障碍情况进行评估,通过构建随机森林模型和Logistic 回归分析,对病人功能障碍情况进行预测模型的构建与影响因素的解析。当疾病情况较差及对生活的影响较大(CAT 评分≥10 分)、药物获取或有效利用存在障碍、具有合并症、近1 年有急性加重史和GOLD分级较高时,COPD 病人功能障碍更严重。提示在COPD 功能障碍预防与控制中,要重点从上述影响因素入手,进行干预及控制,降低病人症状对生活质量的影响,建立有效的取药就医通道,降低病人合并症及COPD 急性加重的发生率,减缓病人肺功能下降速度。目前对于COPD 病人功能障碍关注相对较少,后续研究可从病人健康功能出发,综合评估影响因素的重要性,为COPD 病人的管理及康复制定更为全面、个性化的干预措施。

猜你喜欢

功能障碍森林变量
抓住不变量解题
也谈分离变量
勃起功能障碍四大误区
哈Q森林
哈Q森林
哈Q森林
哈Q森林
高血压与老年人认知功能障碍的相关性
SL(3,3n)和SU(3,3n)的第一Cartan不变量
术后认知功能障碍诊断方法的研究进展