基于logistic回归与决策树模型的社会资本对老年人自评健康的影响研究*
2022-05-28曾雁冰
阙 霜 曾雁冰 方 亚
【提 要】 目的 探讨社会资本对老年人自评健康的影响,为有针对性地开发利用社会资本提供依据。 方法 基于2018年中国老年健康影响因素跟踪调查(CLHLS)数据,以自评健康为因变量,以社会资本(人际信任、社会参与、社会支持)为自变量,并纳入个人人口学特征、社会经济特征、生活方式等作为协变量,分别建立二分类logistic回归模型和基于CHAID算法的分类决策树模型分析社会资本对老年人自评健康的影响,并分析比较两种模型的差异。结果 logistic回归结果显示,人际信任水平、社会参与水平、社会支持水平高的老年人,其自评健康状况更好,OR值分别为1.141、1.918、1.377;分类决策树分析结果显示,在自评经济水平中等且患2种及以上慢病的老年人中,社会参与水平越高,其自评健康状况越好,而在自评经济水平中等且患3种及以上慢病的老年人中,人际信任越低,其自评健康状况越差;两种模型分析结果比较显示,二分类logistic回归模型的灵敏度为68.7%,特异度为56.9%;CHAID分类决策树模型的灵敏度为76.7%,特异度为45.1%。 结论 利用社会资本例如定期组织集体活动,加强社区文体娱乐设施建设,帮助家庭适应新时代的养老需求等对促进老年自评健康具有积极意义。两种模型均具有一定的分类预测价值,但各有优劣,logistic回归模型的特异度较高,分类决策树模型的灵敏度较高,二者可互补,从而使分析结果更具有实际意义。
随着我国人口老龄化程度不断加深,老年健康成了不可忽视的问题,比如慢性病增多、健康疾患增多、身体功能和认知能力下降等,由此引发了对老年各种健康状况的影响因素研究。众多研究结果证明,社会因素是影响老年健康状况的主要因素之一,而从社会因素中的社会资本视角来研究老年健康问题日渐成为一大研究重点。最早将社会资本引入健康领域的研究始于发达国家,虽然其使用的数据不同,对社会资本的定义不同,对社会资本构成要素的划分也有所区别,但大多认为社会资本作为一种无形的社会资源能够影响人的健康[1-3]。由于社会发展水平、社会结构等方面的差异,社会资本对健康的影响研究在我国尚处于起步阶段,特别是以老年群体作为研究对象。目前,在健康领域的研究中,多以美国学者普特南[4]在2000年提出的社会资本概念作为理论基础,即社会资本是个人之间的联系,社会网络以及在此基础上形成的互惠和信赖的价值规范。本研究结合全国调查数据,以人际信任、社会参与、社会支持三个重要内容来衡量个体的社会资本,运用logistic回归和决策树两种模型探讨社会资本对老年人自评健康的影响,并分析比较二者的优劣,为培育和开发社会资本、促进老年健康提供更好的决策依据。
资料与方法
1.数据与样本
本研究的数据来自于2018年北京大学老龄健康与家庭研究中心开展的追踪调查“中国老年健康影响因素研究(CLHLS)”,调查的总人数为15874人。 结合研究目的,剔除自评健康为缺失值以及无法回答的老年人,对其他缺失值进行多重插补,通过数据清洗后,最终纳入分析的65岁及以上的老人为14531人,占总人数的91.54%。
2.变量选取
本研究的因变量为研究对象的自评健康状况,将回答“很好、好、一般、不好、很不好”前2项合并表示为自评健康好,后3项合并表示为自评健康差。自变量为社会资本因素中的人际信任、社会参与、社会支持。具体而言,人际信任通过问题“您是不是经常会觉得周围的人都不值得信任?”来测量,按照“0=总是/经常、1=有时、2=很少/从不”进行赋值。社会参与通过问题“您现在从事/参加以下活动吗?”来测量,先将每一项活动的回答按照是否参与来进行赋值,之后根据研究对象针对“户外活动”等10项活动的回答进行加总,按照“0=不参与社会活动、1=参与1~2个社会活动、2=参与3个及以上的社会活动”来重新赋值。社会支持通过问题“目前,当您身体不舒服时或生病时主要是谁来照料您?”来测量,按照“0=无人帮助、1=朋友邻里/社会服务/保姆、2= 配偶/儿子/儿媳/女儿/女婿/儿子和女儿/孙子女/其他亲属”进行赋值。涉及的控制变量包括人口统计学特征(性别、年龄、婚姻状况)、社会经济学特征(居住地、教育水平、养老保险、自评经济状况)、生活方式(吸烟、喝酒)及其他(患慢病种类数、居住方式)。具体变量代码及其赋值见表1。
表1 变量赋值
3.统计学方法
采用SPSS 25.0统计软件,通过均数±标准差和构成比分别对连续型变量和分类变量进行描述性分析;以老年人自评健康状况为因变量,性别、居住地、年龄、婚姻状况、吸烟、喝酒、教育背景、是否参加养老保险、自评经济水平、居住方式、患慢病种类数、人际信任水平、社会参与水平和社会支持水平为自变量,分别建立二分类logistic回归模型和基于卡方自动交互检测(chi-squared automatic interaction detector,CHAID)的分类决策树模型。其中,基于CHAID算法的分类决策树采用卡方或似然比卡方检验结果来确定决策树的最佳分组变量和分割点,最终形成一棵分类树[5-6]。由于随着决策树的生长,样本量不断减少,很可能出现“过拟合”现象,本研究采用预修剪技术来控制决策树的充分生长[7]:生长层数为3,父节点和子节点的最小样本量分别为800、400,如果决策树的层数达到指定深度或分组后父节点、子节点样本量低于最小样本量,则停止生长。根据模型预测结果画出ROC曲线,分析并比较两种模型的差异性。检验水准α=0.05。
结 果
1.基本情况
共纳入14531人,平均年龄为(84.53±11.33)岁;男性6456人(45%),女性7895人(55%);居住在城镇和非在婚的老年人占较大比例,分别为55.5%和56.5%。同时,调查中有52.4%的老年人接受过教育,63.9%未参加养老保险,69.8%自评经济水平一般。大多数老年人现在不吸烟、不喝酒、选择与家人一起居住,占比分别为84.5%、85.2%和80.3%。一半左右(50.7%)的老年人患有1~2种慢性疾病。老年人自评健康好与不好分别占46.9%和53.1%。社会资本方面,人际信任水平高、中、低的比例分别为73.7%、11.4%和14.9%;社会参与中,高、中、低水平分别占50.0%、36.4%和13.6%;社会支持水平的高、中、低分别为94.0%、4.1%和1.9%。
2.二分类logistic回归分析
二分类logistic回归分析结果显示,年龄、婚姻状况、喝酒、养老保险、自评经济水平、患慢病种类数、人际信任水平、社会参与水平和社会支持水平是老年人自评健康的主要影响因素。随着年龄增加,处于75~84岁年龄段的老年人自评健康状况更倾向于不好;处于在婚的老年人自评健康状况相对比非在婚老年人差;现在喝酒的老年人自评健康状况好于不喝酒的老年人,是其1.533倍;有参加养老保险的老年人自评健康状况相对好于没有参加养老保险的老年人,是其1.107倍;与自评经济水平低的老年人相比,自评经济水平越高的老年人,其自评健康状况越好;与没有患慢病的老年人相比,患慢病种类数越多的老年人,其自评健康状况越差;与人际信任水平低的老年人相比,人际信任水平中等的老年人更倾向于自评健康不好(OR= 0.578,P<0.001),而人际信任水平高的老年人更倾向于自评健康好(OR=1.141,P<0.05);与社会参与水平低的老年人相比,社会参与水平越高的老年人,其自评健康状况越好(OR=1.918,P<0.001);社会支持水平高的老年人自评健康状况好的概率是社会支持水平低的老年人的1.377倍,具体见表2。
表2 老年人自评健康二分类logistic回归分析结果
3.基于CHAID算法的分类决策树分析
根据所设的生长和修剪规则建立分类决策树模型,模型共包含3层,24个节点和15个终端节点,详见图1。从模型图可见,性别、是否参加养老保险、自评经济水平、患慢病种类数、人际信任和社会参与是老年人自评健康的主要影响因素。其中,根节点是自评经济水平,表明自评经济水平与老年人自评健康状况的相关性最高,在自评经济水平低的老年人中,自评健康不好的占76.3%,而自评健康好的仅占23.7%。在自评经济水平分别为高、中、低的三个亚群中,均受到患慢病种类数的影响,患慢病种类数越多,老年人自评健康状况不好所占的比例越高。在自评经济水平中等且患2种及以下慢病的老年人中,自评健康的主要影响因素是社会参与,社会参与水平越高,其自评健康好所占的比例也越高;在自评经济水平中等且患3种及以上慢病的老年人中,自评健康的主要影响因素是人际信任,人际信任处于中低水平老年人自评健康状况为不好的比例为79.0%,好的为21.0%。在自评经济水平高且患1~2种慢病的老年人中,是否参加养老保险是其自评健康的重要影响因素,有参加养老保险的老年人自评健康好的比例(66.4%)高于未参保的老年人(61.3%)。在自评经济水平高且未患有慢病的老年人中,性别是其自评健康的重要影响因素,女性自评健康好的比例(71.6%)低于男性(78.8%)。
图1 老年人自评健康CHAID分类决策树分析图
4.两种模型分析结果比较
两种模型的分析结果均显示,参加养老保险、自评经济水平、患慢病种类数、人际信任水平、社会参与水平是老年人自评健康的影响因素;而居住地、居住方式、教育背景均没有统计学意义。根据两种模型所得的预测概率作为检验变量,分别绘制受试者工作特征(ROC)曲线,如图2所示。两种模型的ROC曲线均远离对角线,说明模型具有一定的预测效果;两种模型的ROC曲线几乎重合,说明二者的分类效果相近。但也应注意,两种模型存在不同之处。二分类logistic回归模型中的影响因素:年龄、养老保险和社会支持水平,在分类决策树模型中被剔除,而决策树模型中性别这个影响因素在回归模型无统计学意义。
图2 二分类logistic回归模型和分类决策树模型的ROC曲线
两种模型具体的分类效果比较见表3。二分类logistic回归模型的ROC曲线下面积AUC为0.684(95%CI:0.675~0.692),灵敏度为68.7%,特异度为56.9%;基于CHAID算法的分类决策树模型的ROC曲线下面积AUC为0.666(95%CI:0.657~0.675),灵敏度为76.7%,特异度为45.1%。二者P<0.001,表明两种模型的分类效果具有实际意义;且二者的AUC值均接近0.7,表明两种模型的分类预测结果具有一定的准确性。综合来看,两种模型虽然分类效果接近,但logistic回归模型的特异度较高,分类决策树模型的灵敏度较高,将二者结合,更有利于分析影响老年人自评健康的因素。
表3 二分类logistic回归模型和分类决策树模型的分类效果比较
讨 论
1.社会资本因素对老年人自评健康的影响
本研究发现,相对于人际信任水平低的老年人,人际信任水平高的老年人自评健康较好。良好的人际信任不仅可以促进信息交流,还可以增加老年人安全感,提供情感支持,从而促进积极的社会交往和社会参与,如Cao等[8]研究发现,邻里信任与老年日常生活能力、心理健康以及自评健康均存在正相关。本文还发现,人际信任水平中等的老年人自评健康反而较差,可能原因一是人际信任水平中等的老年群体介于多疑防备和渴望信任的复杂心理状态中,这种矛盾的心理使老年人在社会交往中始终保持紧张状态,无法从人际交往中获益,最终导致其自评健康不好;二是人际信任水平中等的老年人相对只信任特定的人群,社交圈相对较封闭,其获取社会资本的途径受到限制,更容易因对方分享“不良社会资本”而伤害自己(比如负面信息、负面行为等),从而影响自身健康。人是“社会”人,离不开各种社会关系、社会网络、社会活动等,因此定期组织集体活动,加强社区间的信任对提高老年人健康有重要意义。
本研究结果显示社会参与和老年人自评健康呈正向相关。有研究表明,参加社会活动有利于老年人的健康,社会参与可以显性地直接影响身体健康,隐性地间接影响心理健康[9]。通过提高社会参与水平,不仅可以改善老年人的机体功能状况,还可以有效缓解老年人的焦虑、抑郁、孤独等负面情绪。因此,要鼓励社会参与,加强社区文体娱乐设施建设,并根据不同老年群体的兴趣爱好开展一系列健康促进项目,以此提升其晚年生活质量。
相比社会支持水平低的老年人,社会支持水平高的老年人自评健康状况更好,这与朱伟珏[10]研究结论一致,社会支持程度高的老年人,其主观健康感也更强。来自家人的社会支持对老年自评健康更有积极影响,可能原因是由于受“孝”文化影响,老年人更能从家庭成员提供的社会支持中感受到来自配偶、子女以及其他家人的爱,从而获得心理慰藉。因此,应大力倡导子女多与老年人沟通交流,同时加大来自社会的支持力度,将养老服务社会化和制度化,帮助家庭适应新时代的养老需求。
2.社会经济学特征对老年人自评健康的影响
本研究发现参加养老保险、自评经济水平高是老年人自评健康的积极影响因素,一定程度上反映了经济状况对健康的影响,这与韩婷婷[11]研究结论一致。可能原因有,一是老年人社会经济水平越高,意味着更高的受教育水平,具备更高的健康素养,其更积极主动去获取健康相关知识,改善自身生活方式;二是社会经济地位高,在医疗卫生服务可及性和利用程度上具有一定的优势,为满足老年健康需求提供有效保障。因此,完善养老保险制度,扩大保障范围,落实医疗服务可及性对缓解由社会经济地位导致的健康不平等问题至关重要。
3.对老年人自评健康产生影响的其他因素
本研究根据分类决策树分析发现,在自评经济水平高且未患有慢病的老年群体中,男性比女性自评健康状况好。正如Slivey等[12]研究指出,女性更容易受到性别期望的影响,即女性被认为更应该给他人关心和支持,导致女性面临更大的压力和患病风险。logistic回归分析结果表明,随着年龄增加,只有75~84岁这个年龄段对老年自评健康影响有统计学意义,而85岁及以上的年龄段则没有统计学意义,这与Arezzo等[13]研究发现自感健康随着年龄的增长而恶化的结果尚不一致。可能是85岁及以上的高龄老年人情绪更稳定、心态更平和,因此该年龄段对健康的影响并未彰显。处于非在婚状态的老年人自评健康状况较好,可能原因是在同样患病的情况下,非在婚的老年人由于缺乏婚姻的保护作用[14],存在较高的健康风险,而在婚的老年人在配偶的关心与支持下,其带病生存时间被延长,反而使其自评健康相对较差。
本研究还发现,喝酒的老年人自评健康状况反而较好,可能是目前尚在饮酒的老年人还维持着较好的人际关系,这种社交饮酒给其带来心理上的益处,所以会自认健康状况较好。Jeong等[15]调查了饮酒对韩国老年人死亡率的影响,发现问题型饮酒,尤其是过度饮酒,与老年人全因死亡率增加有关,而社交饮酒是普遍的,符合文化背景,在一定程度上可提高社会心理健康。患慢病种类数越多,老年人自评健康状况越差。与张凤梅等[16]的研究结果相同。可能原因是老年慢性疾病的病程长,预后差,且多种慢病共存,易导致生活自理能力下降、并发症和残疾发生等,给老年人身心带来重大伤害。因此,应全面推进老年健康管理,如定期体检、有针对性地提供健康指导、慢病预防和管理等,改善老年人的生存状态。
4.二分类logistic回归模型和分类决策树模型的应用比较
目前,国内关于社会资本对老年健康的影响研究中多采用logistic回归分析,但该方法在处理变量共线性、变量间潜在的交互作用等方面还存在一定的局限性[17]。因此,本研究引入机器学习中基于CHAID算法的分类决策树模型,该模型简单高效且具有强解释性,并且CHAID算法可以从统计显著性检验角度确定当前最佳分组变量和分割点[18],最终形成的树形图可以明确指出各因素间的相互作用以及某因素在各亚群中是否有意义。比如,人际信任水平在自评经济水平中等、患3种及以上慢病的老年人中是其自评健康的影响因素,而在自评经济水平中等、患0~2种慢病的老年人中没有意义。两种模型的ROC曲线比较可以看出二者的分类预测效果相差不大,但两种模型各有优劣,若二者结合起来,构建的分类预测模型将具有较高的灵敏度和特异度。通过联合建模的方法既可以弥补logistic回归方法的缺陷,又可以获得自变量与因变量之间的数量依存关系。因此,本研究建议在未来的研究中,可以进一步采用决策树模型联合logistic回归法分析社会资本对老年健康的影响,便于针对不同的亚群特点,采取有针对性地干预措施来促进健康老龄化。