基于Logistic回归与决策树模型的老年多重慢病及影响因素分析*1
2024-03-14董海颖梁笑笑何燕
董海颖, 梁笑笑, 何燕
(1.郑州大学公共卫生学院社会医学与卫生事业管理学系,河南 郑州 450001;2.海南医学院)
随着老龄化程度的不断加剧,平均寿命的不断延长,老年人失能和共病成为全球医疗保健关注的重要问题,老年多重慢病现象日趋普遍[1]。世界卫生组织(WHO)将共病定义为同时具有多种长期且需要持续性、多样化治疗的健康问题[2]。多重慢病不仅使老年人的功能状态和生活质量下降,还会使其失能、衰弱及死亡的风险明显增加,给家庭、社会带来沉重的经济负担[3]。由于老年多重慢病的影响因素较多,Logistic回归分析模型和决策树模型共同运用可以优势互补,提高分析效能[4]。虽然决策树现被广泛应用于卫生医疗领域[5-7],但尚缺乏在老年多重慢病影响因素的研究。本研究通过描述老年多重慢病的一般情况,通过Logistic回归及决策树模型探讨老年多重慢病的影响因素,以期为我国多重慢病的管理和防控提供依据。
1 对象与方法
1.1 研究对象
本研究于2021年9月至11月,在青岛,广州,苏州三个地区采用多阶段分层随机抽样方法选取社区老年人为研究对象。首先,在每个城市辖区内随机抽取一个县/区。青岛市选择即墨区,苏州选择昆山市,广州选择越秀区。其次从每个县/区中随机选择两个街道,每个街道随机抽取4个社区。纳入标准:(1)年龄≥60岁;(2)意识清晰、能正常沟通交流;(3)自愿参与本次调查,并签署知情同意书。排除标准:(1)严重认知障碍者;(2)严重记忆障碍者;(3)删除关键变量缺失问卷。本研究通过郑州大学生命科学伦理委员会的审查(审查批准号:ZZUIRB2022-07)并获得研究对象的知情同意。
1.2 方法
本研究采用自制的一般资料调查表,内容主要包括性别、年龄、婚姻状况、文化程度、医疗保险、子女数量、月均收入、吸烟、饮酒、睡眠时间,慢病情况(是否患有慢性病两种及两种以上)等。根据既往研究结果[8-9]选取在老年人中常见的且老年人对其认知度较高的慢性病,将高血压、糖尿病、冠心病、脑卒中、哮喘、慢性支气管炎等27种慢性病纳入调查。通过调查对象对“您是否患有以下疾病或有以下疾病史(经医生诊断或有过发病的情况)”这一问题的回答,判断老年人的慢性病及慢性共病的患病情况。采用一对一询问的方法收集数据,调查前统一对调查员进行培训。
1.3 统计学方法
采用EpiData 3.1 进行数据的双录入,使用SPSS 21.0进行数据分析。计数资料以频数(百分比)表示,用χ2检验,将单因素分析中具有统计学意义的变量纳入Logistic回归和决策树模型中,构建老年慢病影响因素的预测模型。Logistic回归及决策树模型预测效果通过构建受试者工作特征曲线(ROC曲线)进行比较,计算两种模型的ROC曲线下面积(AUC),判断两种统计模型分析预测效果。以P<0.05为差异有统计学意义。
2 结果
2.1 基本情况
本次共调查1273名老年人,男性为565人,占比44.4%,多重慢病患病率为21.7%;女性为708人,占比55.6%,多重慢病患病率为31.2%。以老年人是否患多重慢病作为因变量,将性别、年龄、婚姻状况、文化程度、医疗保险、子女数量、月均收入、吸烟、饮酒、睡眠时间为自变量进行χ2检验,结果显示性别、年龄、婚姻状况、医疗保险、子女数量、吸烟具有统计学意义(P<0.05)。见表1。
表1 多重慢病老年人的单因素分析
2.2 二分类Logistic回归分析
以是否患有多重慢病作为因变量,将性别、年龄、婚姻状况、医疗保险、子女数量、吸烟作为自变量进行Logistic回归分析。共线性诊断显示各变量方差膨胀因子在1.013~1.246,容忍度在0.803~0.987,表明各变量间不存在多重共线性。结果显示年龄、婚姻状况、医疗保险、吸烟为多重慢病的影响因素。见表2。
表2 多重慢病老年人的二分类Logistic回归
2.3 基于CHAID算法的决策树分析
以是否患有多重慢病作为因变量,将性别、年龄、婚姻状况、医疗保险、子女数量、吸烟作为自变量纳入决策树模型,决策树生长层数为3层,父节点最小样本量为100,子节点最小样本量为50。结果显示对老年多重慢病有影响的变量主要是医疗保险、吸烟、年龄、婚姻状况。位于树第一层为是否有医疗保险,说明多重慢病老年人与是否有医疗保险的关联性最强。有医疗保险的老年人中,与多重慢病关系最密切的是年龄,年龄越大患病风险越高,60~70岁老年人的婚姻状况也影响其多重慢病情况。没有医疗保险的老年人中,吸烟可能会导致老年人多重慢病患病率的增加。见图1。
图1 慢性共病老年人的CHAID决策树分析
2.4 两种模型分析结果比较
两种模型的分析结果显示,年龄、婚姻状况、医疗保险、吸烟均为老年多重慢病的影响因素,Logistic回归模型的灵敏度为74.3%,特异度为55.3%,约登指数为29.6%,ROC曲线下面积为0.700(95%CI 0.728-0.671)。决策树模型的灵敏度为57.2%,特异度为73.3%,约登指数为30.5%,ROC曲线下面积为0.653(95%CI 0.683-0.623)。两模型曲线下面积均接近0.7,表明两个模型的分类预测效果有实际意义,并且模型分类均具有一定的准确性。综合来看,两种模型分类效果虽然接近,但决策树模型的特异度较Logistic回归模型高,但灵敏度相对较低,将二者结合,更有利于分析老年多重慢病的影响因素。具体见表3、图2。
图2 Logistic回归模型和决策树模型的ROC曲线
表3 Logistic回归模型和决策树模型的分类效果比较
3 讨论
3.1 社会人口学因素对老年多重慢病的影响
多项研究表明,老年人群是慢性疾病的主要患病群体,老年多重慢病与高死亡率、机体功能下降、生活质量下降有密切的相关性[10]。多重慢病不仅损害个人的整体健康,对家庭、卫生系统和社会也造成严重的经济负担[11]。
不同年龄段的老年人发病情况存在差异,年龄越大器官老化程度越深,免疫能力和机体的抵抗力则逐渐下降,所以多重慢病的患病风险随着年龄的增长而增加,这与马建、刘帅帅的研究一致[12-13]。婚姻状况[14]也是影响慢性病的重要因素,60~70岁的已婚老年人可能身心压力较大,容易加重或引发慢性病。有研究发现,烟草会导致多种疾病的发生,在当今社会经济和环境的多重压力下,人们常常通过吸烟等方式缓解压力,但容易引发慢性病,患共病后吸烟也是造成期望寿命减少的最重要的原因[15]。王维华等[16]的研究也显示吸烟者比非吸烟者总体慢性病患病率高,患病风险也大幅度增加。建议开展慢性病健康教育,鼓励老年人树立科学就医的观念,增强自我保健意识,做好老年人健康管理工作;加大基层卫生资源投入,根据慢性共病的特点进行重点防控,做好慢性病检测和规范化管理。
3.2 医疗保险对于老年多重慢病的影响
本研究显示,不论采用决策树模型还是Logistic回归模型,医疗保险都是老年多重慢病的主要影响因素[17],慢性病病程较长,医疗费用高,对于没有医疗保险的自费的老年慢病患者来说,日常用药及治疗会加重其经济负担[18],降低生活水平和幸福感,增加慢性病的发病风险。政府应继续推进医保改革,加大医保报销力度;医务人员应综合考虑患者病情及家庭经济承受能力,尽可能处方经济、有效的药物;提升对老年多重慢病患者的医疗支持力度,减轻经济负担。
3.3 老年多重慢病的Logistic回归模型和CHAID决策树模型比较
目前,对于老年多重慢病影响因素的研究多采用Logistic回归分析,该方法旨在表现某变量的主效应,Logistic回归模型反映了年龄是老年多重慢病的保护因素,婚姻状况、医疗保险、吸烟是老年多重慢病的危险因素。但该方法在处理变量共线性及潜在交互作用方面存在一定局限性[19]。而基于CHAID算法的分类决策树模型不受变量间共线性的影响,在提取自变量时变量间相互独立,影响因素潜在的交互作用能被很好的体验出来[20]。本研究中的决策树模型分析显示,医疗保险在第一层,表明有无医疗保险与老年多重慢病的相关性最高,第二层则显示变量间交互关系,吸烟和年龄是老年多重慢病的主要因素。两种模型的ROC曲线比较可以看出二者分类预测效果相差不大,但两种模型各有优劣,将两者结合,构建的分类预测模型将具有较高的灵敏度和特异度。
本研究显示医疗保险、婚姻状况、年龄、吸烟是老年多重慢病的影响因素,两种模型在不同领域应用广泛,各有优缺点,可以通过联合建模的方法弥补缺陷。因此,在今后的研究中,可以将两种模型结合使用分析老年多重慢病的影响因素,加大资源和政策投入,提供科学且针对性管理方案,满足患者健康需求,提高老年人生活质量。