基于随机森林模型的我国老年人抑郁症状影响因素分析
2022-12-17许金鹏王海鑫张博锴张洪宇田国梅
许金鹏,康 正,王海鑫,张博锴,张洪宇,张 婷,石 淇,刘 剑,田国梅
1哈尔滨医科大学卫生管理学院社会医学教研室,黑龙江哈尔滨,150081;2哈尔滨医科大学附属第四医院核医学科,黑龙江哈尔滨,150081
第七次全国人口普查数据显示,与2010年相比,我国60岁及以上人口比重提升了5.44%,65岁及以上人口比重提升了4.63%,人口老龄化程度进一步加深。而随着老年人社会角色的转变、身体机能的衰退、抗疾病能力的减弱,他们开始重新评估自身价值,容易产生孤独、失落、抑郁等心理问题[1]。这种消极的心理倾向不仅削弱了老年人的社会功能,甚至还会诱发自杀等行为,影响着社会安定与和谐。因此,改善老年人的心理健康、缓解老年人的精神危机对于实现“健康中国2030”奋斗目标具有重要的现实意义。
随着社会保障机制和医疗服务体系的完善,老年人的心理健康受到了越来越多的关注,诸多文献指出个体、家庭和社会因素均会对老年人的心理健康产生显著影响。高龄老年人的心理健康状况普遍比中低龄老年人要差[2],无配偶的老年人面临较高的抑郁风险[3];躯体功能的恶化容易引起老年人抑郁程度的加重[4];同时,医疗保障可以有效缓解因就医贵、就医难引发的老年人心理健康问题[5],对老年人心理健康存在显著影响。但目前绝大部分研究仅仅局限于某一地区或某一特定群体老年人,缺乏对老年人心理健康状况的宏观把控;研究方法多采用二元或多元logit回归,分析不同变量对因变量的影响,缺乏对各变量重要性的度量。本研究将从宏观层面对我国老年人口的抑郁症状展开研究,采用随机森林模型度量各种因素的重要性,进行多变量之间重要程度的对比,综合相关结果给出建议,为相关部门制定决策提供参考依据。
1 资料来源与方法
1.1 资料来源
数据来源于北京大学和国家自然科学基金资助、北京大学中国社会科学调查中心实施的中国家庭追踪调查(China family panel studies,CFPS)2018年的截面数据。CFPS采用多阶段、内隐分层、成比例的抽样方法,从全国649个村(居)委会抽取并发放家庭户样本19986户。本文选取其中60岁以上的群体作为研究对象,经过筛选,剔除缺乏相关变量的样本,最终得到6960个样本。
1.2 变量选取
1.2.1 因变量。本文因变量是老年人的抑郁症状。采用流调中心用抑郁量表对老年人的抑郁状况进行评价。该量表由Radloff于1977年编制,按照过去一周内各项目发生的频率评定[6]。量表包括6个对消极情绪的感受项目与2个对积极情绪的感受项目。研究对消极感受项目的回答赋值为0、1、2和3,对积极感受项目的回答赋值为3、2、1和0。总分范围为0-24分,得分越高,抑郁症状越严重。
在本次研究对象中,6960名老年人抑郁症状得分最高分为24分,最低分为0分。研究指出,该量表的分界点大于或等于9,表示受访对象存在显著的抑郁症状[7]。据此,如果老年人得分不超过9分,则定义为无抑郁症状;反之,则定义为有抑郁症状。
1.2.2 自变量。根据现有研究[8-9],将自变量分为人口学因素、家庭因素、社会因素、生理健康因素。依据国家统计局划分方式将老年人所在经济地区分为东北、东部、中部、西部地区。其中,家庭因素包括子女经济支持、子女劳动支持和子女精神支持,分别用子女平均经济支持金额、子女劳动支持频率、子女探望频率、子女联系频率衡量,经样本K-S检验得出子女平均经济支持金额为非正态分布,百分位数P25为0元/月,P50为33.33元/月,P75为200元/月,本文以百分位数P50和P75为分割点,将子女平均经济支持金额划分为3个维度。社会因素中,是否享有医疗保险包括公费医疗、城镇职工基本医疗保险、城乡居民基本医疗保险、补充医疗保险,凡具备其中任意一项则认定为享受医疗保险。变量赋值情况见表1。
1.3 研究方法
1.3.1 二元logit回归模型。为了探究导致我国老年人抑郁症状的影响因素,本文选用二元logit回归方法分析对老年人抑郁症状有显著影响的变量与抑郁症状之间的量化关系。
1.3.2 随机森林模型。运用随机森林模型对我国老年人抑郁症状各影响因素的重要性进行度量。随机森林算法由多个决策树构成,借助bagging算法对样本信息随机抽样产生多个训练集,然后对每个训练集采用决策树作为基分类器,根据多棵树多数投票的结果作为最终的预测值,不仅可以用来做分类,也可用来做回归和预测。相比于单个决策树算法,其分类、预测效果更好,不容易出现过度拟合的情况。重要性分析则是以决策树中选择的最佳变量作为分类节点,从而对变量进行重要性排序[10]。具体步骤如下。①对每一颗决策树,选择相应的袋外数据(out of bag,OOB)计算袋外数据误差,记为errOOB1;
表1 变量赋值情况
②随机对OOB所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值),再次计算袋外数据误差,记为errOOB2;③假设森林中有N棵树,则特征X的重要性可由下式计算。
这个数值之所以能够说明特征的重要性,是因为如果加入随机噪声后,袋外数据准确率大幅度下降(即errOOB2上升),说明这个特征对于样本的预测结果有很大影响,进而说明重要程度比较高。
1.3.3 数据统计及分析。采用Stata 16.0进行数据描述及分析。单因素分析采用χ2检验,多因素分析采用logit回归分析,检验水准α=0.05;使用随机森林方法进行影响因素重要性度量。
2 结果
2.1 调查对象基本情况
由表2可知,调查对象中,男性为3536人(50.80%),女性为3424人(49.20%)。其中,有19.17%的老年人无配偶,东部地区的老年人最多(35.60%),92.79%的老年人享受医疗保险,69.73%的老年人领取养老保险,自认为人缘关系好的老年人占73.26%,自认为不健康的老年人占29.93%。25.00%的老年人存在抑郁症状,30.64%的女性老年人和29.43%的农村老年人存在抑郁问题。
2.2 影响老年人抑郁症状的单因素分析
单因素分析结果显示,人口学因素中,年龄因素的卡方显著性值P=0.329,说明年龄对老年人的抑郁症状没有显著性影响。社会因素中,养老保险没有通过检验,即老人是否领取养老保险对老年人抑郁症状没有显著影响。其他因素对老年人抑郁症状均有影响,差异有统计学意义(P<0.05)。
2.3 影响老年人抑郁症状的多因素分析
研究以老年人抑郁症状为因变量,采用逐步递进方式分别构建二元logit回归模型。表3中,模型1考察了人口学因素对老年人抑郁症状的影响,模型2在模型1的基础上纳入了家庭因素,模型3、模型4则分别纳入了社会因素与生理健康因素,4个模型的P值均<0.05,模型整体显著性良好。从模型4来看,人口学因素、家庭因素、社会因素、生理健康因素的统计显著性与前3个模型相比,并无太大变化,因此主要报告模型4的结果。
模型4显示,性别、城乡分布、婚姻状况、受教育程度、所在经济地区对老年人抑郁症状的影响均显著。男性老年人抑郁的概率是女性的0.678倍,有配偶的老年人抑郁的概率是无配偶老年人的0.522倍。城镇和经济发达地区的老年人心理抑郁的概率较低,城镇地区的老年人抑郁的概率是农村老人的0.728倍,中部地区的老年人抑郁的概率是西部地区的0.794倍。
家庭因素中,除子女经济支持金额大小与子女个数外,其余变量影响均显著。子女每周劳动支持频率≥1次的老年人抑郁的概率更高;子女每周探望频率≥1次的老年人抑郁的概率是<1次的0.741倍,子女每周联系频率≥1次的老年人抑郁的概率是<1次的0.794倍。
表2(续)
表3 我国老年人抑郁症状的影响因素分析
社会因素中,看病点医疗条件为老年人抑郁症状的保护因素,认为看病点医疗条件很好的老年人抑郁的概率是认为医疗条件不好的0.904倍;对医疗点是否满意对老年人抑郁症状没有显著影响;人缘关系好的老年人抑郁的概率更低。
结果还显示,生理健康是老年人抑郁症状的保护因素,过去两周身体不适、患有慢性病、一个月内有抽烟行为的老年人抑郁的概率较高。一个月内每周饮酒超过3次的老年人抑郁的概率是不超过3次老年人的0.738倍。
值得注意的是,随着自变量的逐步纳入,所在经济地区、子女探望频率、子女联系频率的OR值逐渐增大,当纳入家庭因素、社会因素、生理健康因素之后,相比西部地区,东部地区的老年人抑郁的概率从原来的0.626倍提高到0.719倍;模型4与模型2相比,子女探望频率的OR值由原先的0.697提升到了0.748,子女联系频率的OR值由原先的0.739提升到了0.794,说明所在经济地区和子女精神支持对老年人抑郁症状的影响在不同社会支持和生理健康因素的老年人之中的影响程度存在差异,所选变量与方法是有价值的。
2.4 各因素对老年人抑郁症状的影响重要性度量
针对分类型自变量,二元logit模型只能展示自变量对因变量的影响方向和程度,各个因素之间的重要程度无法度量,为了度量影响我国老年人抑郁症状的各个因素的重要程度,本文将抑郁症状作为因变量,对老年人抑郁症状有影响的20个因素作为自变量建立了我国老年人抑郁症状的随机森林模型。见图1、图2。
图1 确定模型决策树数目
随机森林模型在建立的过程中有两个比较重要的参数,一个是随机森林中建立的决策树数量ntree,另一个是每棵决策树生成过程中,每个节点通过随机选择特征确定用于分裂的变量数mtry[11]。根据图1可见,当建立的决策树数量为500时,模型趋于稳定,出于谨慎考虑,本文设置迭代次数为1000。经过模型调优,根据图2所示,随机选择的特征数数目为2时模型的均方误差最小(0.2523)。
图2 确定模型特征树数目
从图3重要性度量的排名情况来看,在本次研究纳入的20个自变量中,排在前1位的是老年人子女个数,后面依次是所在经济地区、自评健康状况,排在后3位的是老年人的饮酒情况、是否享受医疗保险以及受教育程度。
图3 重要性度量结果
3 讨论
3.1 老年人抑郁症状存在地区差异,西部地区老年人抑郁症状相对严重
研究发现,我国四分之一的老年人存在抑郁症状,人口学因素、家庭代际支持、社会因素、生理健康状况均会不同程度地导致老年人的心理抑郁问题。女性、无配偶、低学历、农村地区的老年人抑郁的可能性更高,与于慧慧等人的研究结果一致[12]。年龄对老年人的抑郁症状没有显著性影响,符合傅素芬等人的研究结果[13]。与此同时,老人所在地区经济越落后,抑郁的概率越高[14]。相较于其他地区,西部地区的老年人抑郁症状更为严重。重要性分析结果显示,老人所在经济地区的重要性排名第2,这可能是不同地区之间社会保障、经济收入的差异性导致的。一方面,经济发达地区的老年人生活水平较高,子女在当地就业的可能性较大,老人获得来自子女的代际支持更多,不容易产生心理问题[15];另一方面经济地区较好的老年人接受过良好健康教育的可能性较高,社会保障机制较为完善,进而间接导致了其良好的心理健康状况。因此,针对老年人抑郁症状的差异性,政府及相关部门应重点关注弱势老年人的心理抑郁问题,尤其是对经济不发达地区、农村地区、无配偶、受教育程度低、女性老年人给予必要的关心和支持,及时关注该类弱势老年群体的身心状况,对于心理健康状况较差的老年人,结合其个性化需求在心理慰藉、生活照料、康复护理等方面给予适当的帮扶与支持,帮助其消除不良情绪。
3.2 子女劳动支持和精神支持对老年人的抑郁症状有显著影响
回归分析结果显示,子女劳动支持频率高的老年人出现抑郁症状的可能性反而更高,符合王萍等的研究结果[16]。日常生活中,子女的劳动支持主要体现在直接支持老人的日常生活起居、家务劳动、生病护理照料等生活照料方面,这虽然能够满足老人各方面的生活需要,保证其良好的生活质量,但也会使老人在生活中过度依赖子女[17],减弱或丧失代际间双向的互利互惠能力,长久以后会使老人丧失对其自身生活的控制,一旦老人意识到自己对生活失去掌控度,往往会对自己、对生活产生失落情绪,不利于心理健康的良好发展。同时,由于生活照料是一种劳动和时间密集型活动,子女照料老人的机会成本高,自身容易产生压力大、焦虑等负面情绪,从而导致子女和父母的关系趋于紧张,并间接影响到老人的心理状态[18]。相较于经济支持和劳动支持,子女的精神支持显得更为重要。虽然情感支持的载体不如经济支持和劳动支持那么实体化、物质化,但其在人们的生活中扮演着不可或缺的作用。对于情感支持,国内外的研究均得出了其对老人心理健康存在积极作用的一致结论[19-20],印证了本文的结果。重要性分析结果显示,子女个数在老年人抑郁症状中发挥着重要作用,子女个数越多,所能提供的情感支持也相对更多,老年人出现抑郁症状的可能性较低。因此,从子女的层面,应在给予老年人经济与劳动支持时更多地考虑父母的感受,在父母尚有行为能力之时让其继续做一些力所能及的工作,如此可能更容易维持老年人的价值感。更重要的是不能忽视或冷落老年人,加强对父母的看望和问候,给予老年人更多的精神支持,减少抑郁情况的发生。从社会的层面,政府在制定政策时,应将子女代际精神支持纳入健康老龄化政策的内涵之中,鼓励成年子女加强与老年人的沟通交流,给予老年人更多的代际支持,充分发挥家庭养老功能的作用。
3.3 生理健康的老年人产生抑郁症状的可能性较低,医疗保障因素对其抑郁症状存在影响
研究结果显示,社会因素与生理健康因素对老年人的抑郁症状有显著影响,提升老年人看病点的医疗水平与其对看病点的满意度均会改善其抑郁症状;自评健康的老年人抑郁的可能性更低,与常韵琪等人的结果相符[21]。同时,根据随机森林模型的结果,老年人的自评健康状况、看病点医疗水平、对看病点的满意度均对其心理健康状况有着十分重要的意义。人们越到老年,越容易担心自己的身体状况,有些老年人健康状况较好,但因过分担心身体健康,容易产生焦虑心理,消极对待生活,产生抑郁情绪[22]。同时,生活自理能力是衡量老年人健康水平的一个重要因素,一旦老年人最基本的自理能力出现问题,其健康自评状况必然较差,由此带来的抑郁症状就会越明显。与身体健康状况相关的另一个问题就是看病就医,在本次调研中,对看病点条件满意度综合考察了医疗条件和交通因素,老年人所感知到的医疗保障与卫生服务越完善,其内心的安全感就会越强,从而促进其心理健康。因此,一方面,应更加注重老年人的生理健康,为老年人提供更丰富全面的健康保健知识和体检服务,引导老年人的健康生活方式;另一方面,应促进医疗资源合理配置,完善经济不发达地区的医疗基础设施建设,提升看病点医疗水平和医疗可及性,从根本上解决老年人看病难、看病贵的问题,使老年人真正做到“病有所医、老有所养”。