我国中老年人健康的机会不平等
2024-06-17聂鹏徐泊阳周博赵方
聂鹏 徐泊阳 周博 赵方
摘要:伴随着我国老龄化进程的不断加快,老年人健康不平等问题变得越发突出。基于2011—2018年中国健康与养老追踪调查数据,使用线性回归、条件推断树和条件森林三种估计方法,对我国45岁及以上中老年居民健康(适应负荷和自评健康)的机会不平等进行测度,并对各变量在健康机会不平等的相对贡献大小进行度量。结果表明,适应负荷与自评健康的机会不平等相对值分别介于3-21%—7-76%与5-15%—10-44%之间,人口学特征(年龄和性别)和儿时社会经济条件均为造成适应负荷和自评健康机会不平等的主要因素。与线性回归结果中出生地区/省份是最重要的影响因素不同,两种机器学习的估计结果表明,人口学特征与儿时社会经济条件是造成适应负荷机会不平等的两大诱因。研究证实基于条件森林的健康机会不平等测度效果优于传统的线性回归,这一研究结果对于使用单个客观健康指标、调整可观测的环境变量之后依然是稳健的。健康的机会不平等是隐藏于健康不平等背后的深层原因,而针对我国中老年人健康机会不平等的综合评估对于帮助老年人有效减少健康不平等的公共政策的出台具有重要的现实意义。
关键词:健康机会不平等;Shapley值分解;条件推断树;条件森林
中图分类号:C913-6文献标识码:A文章编号:1000-4149(2024)03-0043-14
DOI:10-3969/j-issn-1000-4149-2024-00-014
一、引言
同教育不平等一样,健康不平等本质上是社会成员在健康机会上的不平等[1]。根据罗默(Roemer)的机会平等理论,总体不平等可划分为由个体努力水平、个体特征和外部环境造成的不平等[2]。由个体努力如工作时间和教育程度等导致的不平等是合理的不平等,而由个体特征(性别等)和外部环境(家庭背景等)导致的不平等是不合理的不平等[3]。
在机会不平等的测度研究中,由于努力程度为个体的主观信息难以精确度量,事后方法的适用性较低,而且其结果的可靠性也备受争议[4]。此外,虽然机会不平等测度方法常见的是参数法和非参数法,但是非参数法需要超大样本数据用于测算不平等。值得注意的是,目前国内所采用的参数法存在三个明显的缺陷:首先,在健康水平的度量中往往仅使用主观健康指标[5],如自评健康。其次,拥有丰富儿时环境变量的全国代表性数据比较匮乏,而有限的儿时环境变量的信息可能导致健康机会不平等水平的低估[6]。最后,参数法一般以线性函数形式引入环境变量,但存在影响个体健康水平的不可观测的环境变量,最终导致健康机会不平等估计的不准确性[7]。有鉴于此,考虑到关于努力因素的界定标准尚不统一,本文采用2011—2018年中国健康与养老追踪调查(CHARLS)数据,除引入自评健康(selfreportedhealth,SRH)之外,基于多个生物标记物信息构建综合的客观健康指标——适应负荷(allostaticload)。在此基础上运用传统线性回归以及条件推断树和条件森林三种估计方法,对我国中老年居民健康的机会不平等进行测度,并进一步识别造成健康机会不平等的重要根源。
二、文献综述
健康机会不平等研究一般包括三个部分:定义、测度和分解,本文将从这三个方面展开。
健康机会不平等的定义最早由罗尔斯(Rawls)提出,他认为由个体选择差异所导致的结果不平等是可以接受的,但健康是自然的产物,并不受社会因素的控制,所以社会公正的核心变量和机会不平等的研究对象不应包含健康[8]。
随后,罗默等学者在其开创性研究中,构建“环境—努力”二元理论框架,正式将机会不平等引入经济学研究中[2]。基于该理论,居民的健康水平由其环境因素和努力因素共同决定。环境因素指个人无法控制的外生因素,如儿时社会经济条件,努力因素指个人可控的因素,如生活习惯和受教育水平。其中,环境因素所导致的健康差距即为健康机会不平等,而努力因素所导致的健康差距为合理的差距[9]。在国内研究中,史军和赵海燕基于罗尔斯的“作为公平的正义”理念,从理论上讨论了健康公平的内涵,并强调罗尔斯的公平正义理论虽然不是为健康问题而设计的,但对健康公平研究极具价值[10]。李红文和毛新志提出社会地位综合征导致了健康等级的差别[11]。健康公平要求消除不同社会群体之间的系统性差异,即由社会经济制度等人为社会因素造成的健康不平等。
在健康指标的度量方面,现有研究多使用自评健康指标。在国外研究中,有学者运用1965—2004年英国国家儿童发展研究数据,发现自评健康的机会不平等主要由父母的社会经济条件和儿时健康状况等环境因素所决定[12]。特兰诺伊(Trannoy)等基于欧洲健康与养老追踪调查中的法国数据,发现由环境因素包括父母社会经济条件和健康状况所导致的健康机会不平等解释了57%的健康总体不平等[13]。
唐尼(Donni)等运用2000—2005年英国家庭追踪调查数据,研究发现32%—41-2%的自评健康不平等来源于健康的机会不平等,而环境变量中父亲的社会经济状况是解释自评健康机会不平等的重要因素之一[9]。
然而自评健康可能存在主观认知的偏差从而产生健康机会不平等估计的偏误[5],卡列里(Carrieri)和琼斯(Jones)首次引入生物标记物作为客观的健康指标,发现环境因素(包括出生队列、性别、个人教育和出生地区)是胆固醇、糖化血红蛋白和综合不良健康机会不平等的最主要解释因子[14]。进一步地,卡列里等根据英国家庭纵向研究数据,发现适应负荷不平等的三分之二可归因于环境因素[15]。在国内研究中,刘波等运用中国家庭追踪调查数据,发现性别和3岁时所处的经济区域是导致自评健康机会不平等的主要因素[16]。丁兰琳等使用2011—2015年CHARLS调查数据,采用生物标记物和分位数回归方法发现出生省份、家庭社会经济条件以及儿时健康和营养状况是60岁及以上老年人健康机会不平等的重要诱因[6]。
在测度方法上,由于自评健康一般为有序或虚拟变量,一般运用非线性模型方法来估计健康决定方程[17]。另外,赵广川将自评健康这一有序变量转化为连续变量,运用线性回归来估计健康机会不平等[18]。但目前国内有关健康机会不平等的研究尚未综合运用线性回归和机器学习方法来测度健康机会不平等。
在健康机会不平等影响因素的分解上,现有研究一般采用Shapley值或Oaxaca分解方法来量化不同环境因素对健康机会不平等的相对贡献大小。考虑到机器学习模型的计算复杂度较高,最近的研究如布鲁诺里(Brunori)等运用置换变量重要性来计算环境变量的重要性[7]。此外,由于Shapley值分解在环境变量较多时可能会出现“维度诅咒”问题,因而现有分解方法一般基于单个变量或将变量进行分组[7]。而施特伦贝利(trumbelj)和科诺年科(Kononenko)提出基于敏感性分析的Shapley值分解技术,能够较好地在环境变量较多时对单个变量的Shapley值进行量化,目前该方法已广泛应用于机器学习的相关应用研究中[19]。
值得强调的是,丁兰琳等主要运用参数方法(分位数回归方法)分析了我国60岁及以上老年人在2011与2015年生物标记物的机会不平等水平,并使用Shapley分解方法量化了各环境因素的贡献度[6]。类似地,聂鹏等基于2011—2018年CHALRS调查数据,分别在Barry、Roemer和Swift三种情境下,运用参数方法测度了我国老年人事后健康不平等水平,以及环境、努力、人口学特征因素的相对贡献及其变化趋势和成因[20]。
与上述研究不同,本文的创新之处在于:
第一,本文使用主观(自评健康)与客观(适应负荷)两种健康指标进行健康水平的度量。其中自评健康能够更加全面地捕捉受访者整体包括心理健康状况,但可能存在主观报告误差。而适应负荷是基于特定慢性健康状况的诊断、监测和临床管理直接相关的生物标志物所构建的指标[21]。它不仅是一个基于综合的、多系统的测量方法的健康指标,而且能够反映出由于个体慢性心理压力暴露积累而导致的身体“磨损”[22]。
第二,本文充分利用2014年CHARLS生命历程调查中有关环境因素的丰富信息,引入七大类(人口学特征、儿时的社会经济条件、父母健康及行为、健康及医疗可及性、人际关系、出生地区/省份和战争)共31个影响中老年人健康结局的环境变量,并使用置换变量与Shapley值分解两种方法来量化单个环境变量以及不同环境变量类型的相对重要性,对影响我国中老年居民健康机会不平等的环境因素进行更加全面而细致的分析。
第三,在测度方法上,除线性回归方法外,本文采用条件推断树与条件森林两种机器学习方法进行健康机会不平等的测度和分解,并将线性回归方法与两种机器学习方法的估计结果进行比较,这增加了健康机会不平等估计的稳健性,并为机器学习方法在该领域的应用提供一定参考。
三、实证方法与数据
1.数据来源及变量选取
本文主要采用CHARLS数据,该数据是一项具有全国代表性的中老年人纵向调查,包括对社区居民的社会、经济和健康状况的评估。由于生物标记物信息仅在CHARLS2011和2015年中存在,因此本文主要基于这两期数据对我国中老年人适应负荷的机会不平等进行测度。此外,CHARLS2014年生命历程调查数据提供了丰富的有关儿时的人口、社会和经济变量。本文进一步将2011年和2015年数据进行合并,并与2014年生命历程调查数据相匹配,以便将受访者的健康指标信息与儿时环境变量相联系。类似地,本文运用CHARLS2011、2013、2015、2018年数据中的自评健康,并与2014年生命历程调查数据进行合并,最终获得受访者自评健康与儿时环境变量的基础数据库。在此基础上,剔除存在缺失值的个体,获得适应负荷和自评健康的样本量分别为6940个和21831个。基于T检验结果,研究样本中的绝大多数变量与其全样本的均值不存在显著差异,进而排除样本选择偏误问题。
在健康的度量中,与丁兰琳等和达维亚(Davillas)等的研究相似[6,21],本文构建一种综合的健康测度指标,即适应负荷,它引入腰高比、收缩压和六种生物标志物(糖化血红蛋白、胆固醇比率、甘油三酯、C反应蛋白、白细胞数和肌酐)。相较于自评健康,适应负荷不仅基于临床和血样指标,有效地避免了自评健康的报告偏误问题,而且能够捕捉到与社会和环境压力相关的慢性生理反应[23]。借鉴达维亚和琼斯的研究[21],本文将生物标志物指标转化为标准差单位,并将其加总后获得适应负荷得分,其数值越高表明个体的健康状况越差。同时,本文也引入自评健康作为健康的主观测量指标。健康指标的详细定义见表1。
如表2所示,在2011—2015年期间,本文所采用的生物标记物如糖化血红蛋白、甘油三酯、C反应蛋白和肌酐的均值都有明显增加,这意味着我国中老年慢性病状况在恶化。而自评健康的均值从2011年的3-7905上升至2015年的3-7945。由于自评健康数值越高表明健康状况越差,因此,这反映出受访者健康水平在2011—2015年期间在不断恶化。但在2018年均值显著下降至2-9479,这可能由自评健康的报告误差所致。
遵循现有文献的做法[6],同时考虑数据的可获性,本文选取七大类影响健康的环境变量,具体包括人口学特征、儿时社会经济条件、父母健康及行为、儿时健康条件及医疗可及性、人际关系、出生地区和战争,共计31个环境变量受篇幅限制,具体环境变量分类、定义及操作化过程未展示,如感兴趣可向作者索取。
2.健康机会不平等的测度
本文参照罗默的机会平等理论框架[2]对健康机会不平等进行测度,具体的健康决定方程设定如下:
yi=h(Ci,Ei(Ci,vi),ui)(1)
其中,个体i的健康水平受到两大因素影响,即个体无法控制的环境因素Ci和个体可以控制的努力因素Ei。其中vi与ui为误差项。在事前机会不平等中,我们假设环境不受努力影响,而努力受到环境的影响。当所有人取得的成果只与其付出的努力相关,即付出相同努力就会取得相同的回报时,机会平等就完全得以实现。因而,我们只考察环境因素对健康的影响。故在机会不平等的估计中,上述公式(1)可以改写为:
yi=h(Ci,ui)(2)
我们进一步假设健康决定方程为线性且可加的,则得到如下公式:
yi=αCi+εi(3)
使用OLS估计方法对上式进行估计得到y^i,由于所有的解释变量均为环境变量,所以使用测度不平等的函数I(·)即可算出健康机会不平等绝对值。参照已有研究[26],本文使用平均对数偏差(meanlogarithmicdeviation,MLD)作为健康不平等的测度函数I(·),这主要是考虑到在度量健康机会不平等的过程中,平均对数偏差具有良好的路径独立性,而且考虑到本文所选取的基于生物标记物的健康指标多为定比变量,因此平均对数偏差更为适合。健康机会不平等的绝对水平可以用以下公式表示:
θa=I(y^i)(4)
类似地,对健康水平的实际值yi进行估计,并求得与θa的比值即为健康机会不平等的相对值,该值介于0到1之间,公式如下:
θr=I(y^i)I(yi)(5)
3.条件推断树与条件森林
(1)条件推断树。在机会不平等的测度中,通常使用条件推断树进行拟合。与一般的回归树和分类树使用方差、准确率或交叉熵等作为分类标准不同,条件推断树采用置换检验的p值来对自变量进行分类。在使用条件推断树估计式(2)的过程中,自变量为Ci={C1i,C2i,…,Cpi},因变量为yi={y1i,y2i,…,yNi}。通过对Ci分类可以将样本分成不相重叠的组G={g1,g2,…,gM},对同一组内所有样本条件推断树的估计值y^i即为每一个组所有样本yi的均值[7]。具体包括四个主要步骤:第一步,设定假设检验的显著性水平α。第二步,检验因变量的无条件分布与基于自变量的条件分布是否相同,H0:D(yi|cji)=D(yi),并对检验结果的p值进行Bonferroni修正。第三步,若p≤α,则选取第二步中p值最小的变量cki进行分类,从该变量所有可选的分类点中选取p值最小的分类点;若p>α,则退出算法。最后,重复第一至第三步,直至算法结束。
(2)条件森林。由于条件推断树对样本根节点切分使用的变量相对敏感,因此,本文进一步引入条件森林,该方法通过选取部分变量生成一定数量的条件推断树,每棵树的生成算法如上述第一步至第四步所示,预测时将所有树的预测结果进行平均,并使用最小袋外误差(outofbagerror)来进行参数迭代,从而在一定程度上优化单个决策树存在的问题[27]。
遵循既有研究的做法[27],本文使用适应负荷样本对条件推断树进行参数优化,当分割标准的显著性p值为0-05时,条件推断树的均方误差最小。对于条件森林,本文参照布鲁诺里等的模拟分析结果[7],使用参数、非参数以及参数和非参数混合三种数据生成规则,随着条件森林中决策树数量的增加,模型的均方误差逐渐减小。而且,当在决策树数量达到200后,均方误差减小速度显著下降并趋于平稳。因而考虑到环境变量与未观测到的努力变量可能存在相关性,以及条件森林模型可能导致过度拟合,本文选择决策树个数为200和显著性p值为0-01的条件森林。
线性回归方法、条件推断树与条件森林三种方法的拟合能力存在差异。相较于线性模型,后两种方法实现了非线性回归,其将变量间的交互作用考虑在内,进而提升了模型的拟合能力。三种方法的变量重要性结果也存在差异,线性回归具有变量间的“对称性”,即单个变量的取值变化不会影响其他变量对于模型预测结果的贡献大小。而后两种方法不具有变量间的“对称性”,主要通过对样本进行逐步切分来进行模型训练,因而越是优先作为条件推断树分类标准的变量取值发生变化,其对模型预测结果的影响越大。与条件推断树相比,条件森林方法通过选取部分变量生成决策树后取平均的方法,避免了单个条件推断树可能产生的过拟合问题,具有更好的稳健性和可推广性。
4.变量重要性的测量方法
本文采用置换变量重要性和Shapley值分解方法来对造成健康机会不平等的主要环境变量及其类型进行分解并计算其相对贡献大小。置换变量重要性主要通过计算在一个变量随机置换后,模型预测误差的增加百分比来衡量变量对模型预测能力的重要程度。参照布瑞曼(Breiman)的方法,如果置换该变量的取值会增加模型误差,则该变量是“重要的”,表明模型依赖于该变量进行预测[28]。置换变量重要性一般用于比较不同变量重要性的序数关系,同时由于这一方法可以适用于任何回归模型,且计算复杂度较低,因而被广泛应用于机器学习方法的相关研究中。
已有关于机会不平等测度的文献往往采用Shapley值分解作为计算环境变量对于机会不平等相对贡献大小的方法[29]。为了对健康机会不平等进行全分解,文献往往使用基于机会不平等绝对值的分解方法,即计算在所有变量排列组合中,是否包含某个或某组变量对机会不平等绝对值的贡献值,从而计算出某个或某组变量的相对贡献大小。然而,在使用Shapley值分解方法精确计算每个环境变量的重要性时,若有k个变量,需要精确计算2k种排列组合,每次计算都需要重新对模型进行训练。同时基于Shapley值分解方法本身的性质,若在计算某组变量相对重要性的情形下,该组变量的重要性与基于该组中每个变量计算出的重要性之和不完全相等,则主要归因于未观察到组内每个环境变量与所有其他变量的交互作用,进而产生一定的估算误差。此外,由于条件森林模型计算复杂度远远高于线性回归,为了统一进行变量重要性的比较。
本文使用基于预测均值与敏感性分析的Shapley值分解方法计算出每个变量的相对重要性,并使用偏依赖图方法量化各个环境变量对健康影响的平均边际效应。
四、实证结果与分析
本文使用线性回归、条件推断树、条件森林三种方法,对适应负荷和自评健康的机会不平等分别进行测度。对于适应负荷,线性回归、条件推断树与条件森林三种方法测度出的机会不平等的绝对值分别为0-0005、0-0006与0-0003,相对值分别为5-63%、7-76%与3-21%(见表3PanelA),这一结果与使用适应负荷的已有研究结论一致[6]。从模型的拟合水平来看,条件森林的拟合优度最高,R2为0-0421,其次为线性回归(0-025),最后是条件推断树(0-0192)。对于自评健康,上述三种方法得出的机会不平等的绝对值分别为0-0005、0-0006与0-0003,相对值分别为6-82%、10-44%与5-15%
(见表3PanelB)。从模型的拟合水平来看,条件森林的拟合优度最高(0-1160),其次为线性回归(0-0808),最后是条件推断树(0-0514),这可能是由于相较于线性回归方法,条件森林方法尚未对所估计的函数形式进行限定,进而能够捕捉到环境变量与健康之间的非线性关系。表3的估计结果进一步表明,相较于适应负荷,自评健康的机会不平等较高。这一研究结果与已有健康不平等的研究结论保持一致,即基于自评健康的不平等相较于客观健康的不平等往往造成高估[30]。
2.不同环境变量类型的重要性
为了识别不同环境变量类型对于健康机会不平等的重要性,本文使用置换变量和Shapley值分解两种方法来识别不同环境变量类型的重要性(见表4)。对于适应负荷(见表4PanelA),基于置换变量方法的结果表明,线性回归中最重要的三类环境变量分别为人口学特征(性别和年龄)、出生地区/省份和儿时社会经济条件。而条件推断树结果中处于前三的环境变量类型分别为人口学特征、儿时社会经济条件和战争。最后,对于条件森林结果,人口学特征、儿时社会经济条件和出生地区/省份为最重要的三类环境变量类型。由此可见,人口学特征和儿时社会经济条件始终是导致健康机会不平等的重要因素。这一研究发现与现有研究的结论保持一致[6]。针对单个条件推断树在适应负荷的样本中,仅依赖其最重要的三种环境变量类型中的变量进行预测,因而其他环境变量类型的置换变量重要性结果均为1。
Shapley值分解结果表明,线性回归中前三位最重要的环境变量类型分别为出生地区/省份(36-39%)、人口学特征(25-18%)和儿时社会经济条件(16-20%)。对于条件推断树结果,人口学特征(71-85%)、儿时社会经济条件(16-38%)和战争(11-77%)为最重要的三种环境变量类型。针对条件森林的结果,人口学特征(30-77%)、儿时社会经济条件(26-89%)和出生地区/省份(16-51%)是影响健康机会不平等的三大重要诱因。
运用两种变量重要性计算方法所得到的环境变量类型的相对重要性在三种健康机会不平等测度方法中结果基本一致,且主要环境变量在不同模型结构中均具有相近的变量重要性,说明对于环境变量重要性的测度具有稳健性。进一步地,与线性回归结果中出生地区/省份是最重要的环境类型不同,两种基于机器学习的估计结果表明,人口学特征与儿时社会经济条件是影响我国中老年人适应负荷的两大主要因素,而出生地区/省份次之。此外,与置换变量方法相比,Shapley值分解结果更为直观,因为它不仅考虑到不同环境变量间的交互作用,而且能够计算出变量重要性的相对贡献大小。
表4PanelB展示了自评健康的环境变量类型重要性。当运用置换变量重要性方法时,线性回归结果表明,前三位最重要的环境变量类型分别为人口学特征、战争和儿时社会经济条件。而对于条件推断树结果而言,儿时健康条件、出生地区/省份和儿时社会经济条件为影响自评健康机会不平等的三大重要因素。类似地,条件森林的结果显示,儿时社会经济条件、出生地区/省份和儿时健康条件是最重要的三大诱因。
进一步地,使用Shapley分解方法,线性回归中前三位最重要的环境变量类型分别为出生地区/省份(28-29%)、儿时社会经济条件(20-78%)和人口学特征(18-64%)。条件推断树结果显示,儿时社会经济条件(29-02%)、儿时健康条件(26-79%)和出生地区/省份(19-73%)占据前三位。条件森林的结果表明,儿时社会经济条件(30-73%)、出生地区/省份(21-18%)和儿时健康条件(18-59%)为最重要的三大环境变量类型。
对适应负荷和自评健康的结果进行比较,我们发现,无论是置换变量重要性排序还是Shapley值分解,人口学特征和儿时社会经济条件均是造成健康机会不平等的两大诱因。进一步地,对于适应负荷的机会不平等而言,人口学特征是最重要的环境变量类型,而对于自评健康的机会不平等而言,儿时社会经济条件是最重要的。
3.单个变量重要性与平均边际效应
考虑到Shapley值分解的相对优势,后面将主要采用该方法对单个环境变量的相对重要性进行分析,如表5所示。为节省空间,这里主要展示重要性排名前十位的环境变量及平均边际效应。
对于适应负荷(见表5PanelA),三种回归结果均显示,人口学特征中的年龄是造成适应负荷机会不平等的最重要因素,且其平均边际效应为正。具体地,年龄每增加一岁使得适应负荷平均增加约0-457(条件森林)至0-845(线性回归)。由于适应负荷的数值越大表明健康状况越差,因此随着年龄的增长,中老年人健康状况逐渐恶化。此外,性别在条件推断树与条件森林中重要性位居第二。在上述三种方法中,除年龄之外,出生省份对于线性回归方法重要性较高,这一结果与已有基于线性回归方法计算健康机会不平等的研究结论保持一致[6]。
对于自评健康而言(见表5PanelB),基于三种健康机会不平等的测算方法,我们发现,针对线性回归结果,年龄是导致自评健康机会不平等的重要诱因,其次是儿时健康状况。然而,相较于线性回归结果,条件推断树和条件森林的结果均显示儿时健康状况是造成自评健康机会不平等的最重要因素。边际效应结果进一步表明,良好的儿时健康状况对我国中老年人的健康具有一定的促进作用。另外,参照奥帕利娜(Oparina)等对于不同测度结果相似性的对比方法[31],本文计算三种测度方法在Shapley值分解重要性的Spearmanrank系数(见表6)。不同方法间变量重要性的相关系数均较高且在1%的水平上显著(除针对适应负荷的线性回归与条件推断树在5%的水平上显著外),这一结果表明三种健康机会不平等的测算方法所得到的变量重要性结果具有较高的一致性。
五、稳健性检验
1.基于其他健康指标的机会不平等估计
(1)单个客观健康指标。单个的客观健康指标不仅有助于我们捕捉到不同维度的健康状况(详见表1),而且能够检验主分析结果的稳健性。基于此,本文采用2个客观临床指标和6个生物标记物重新测算健康机会不平等。线性回归结果表明,健康机会不平等的相对水平介于3-1%(C反应蛋白)至31-1%(肌酐)之间。C反应蛋白的机会不平等相对水平较小,该结果与现有研究保持一致,这主要是因为C反应蛋白的取值在健康和不健康人群中变化较大,导致其绝对水平过高进而使得最终的相对水平较低[6]。而肌酐的机会不平等相对水平较高,这一结果可能是由于肌酐的正常值标准(男性0-7—1-3mg/dL,女性0-5—1-0mg/dL)存在性别差异。这一结果与已有研究结论是一致的。比如,丁兰琳等也发现我国中老年人健康机会不平等的相对水平介于2%(C反应蛋白)至24%(肌酐)之间[6]。此外,基于条件推断树和条件森林的健康机会不平等的相对水平分别介于2-2%至34-0%和2-1%至20-9%之间受篇幅限制,单个客观健康指标的健康机会不平等检验结果备索。
更为重要的是,针对三种估计方法的解释力大小,不论使用哪一个客观临床指标或者生物标记物指标,估计结果均一致地表明,条件森林的拟合水平最高,而线性回归次之,最后是条件推断树方法,这与表3中的主要结论保持一致。相较于线性回归和条件推断树,条件森林的拟合水平提高可能是基于以下两个主要原因:首先,条件森林方法可以观察到解释变量与被解释变量间的非线性关系,以及解释变量间的交互作用;其次,条件森林在条件推断树的基础上通过最小化袋外误差生成,较单个条件推断树具有更好的稳健性和可推广性。
(2)慢性疾病和失能。由于生物标记物信息的样本仅限于2011年和2015年,为进一步深入研究健康机会不平等以及各环境因素的相对贡献,本文选取2011—2018年患慢性疾病情况和失能作为两个健康指标进行分析。具体地,本文根据CHARLS问卷中针对受访者被诊断出的慢性疾病个数的问题定义老年人慢性疾病的个数,分为0、1和2种及以上的慢性疾病。此外,本文从日常生活自理能力和工具性日常生活自理能力测度我国老年人的失能状态。其中,日常生活自理能力(ADL)包括6项指标,分别为穿衣、洗澡、吃饭、上下床、如厕和控制大小便。工具性日常生活自理能力(IADL)包括5项指标,分别为做家务、做饭、购物、吃药、管理财务。因此,失能变量共包含11项指标。按照老年人在完成各指标所涉及的活动中存在困难的数量,将失能变量定义为一个三分类变量:各项活动均不存在困难、1种活动存在困难和2种及以上活动存在困难。基于慢性疾病和失能的测度结果与主分析结果保持一致受篇幅限制,关于慢性疾病和失能的机会不平等的测度结果备索。
2.调整可观测的环境变量
由于战争环境变量类型中的抗日战争变量与解放战争变量均与年龄具有较强的相关性,出生于抗日或解放战争时期的受访者年龄均已超过60岁。因而,参照丁兰琳等的做法[6],本文通过去除战争这一环境变量类型来检验主分析结果的稳健性。与主分析结果相比,去除战争变量后,对于适应负荷样本,线性回归、条件推断树、条件森林三种方法测度的相对不平等分别下降约0-1%、0-5%、0-2%,对于自评健康,三种方法测度的相对不平等分别下降0-7%、0-6%、0-1%受篇幅限制,三种方法测度的健康指标相对不平等水平未展示,结果备索。
这一结果与表5中的主要结论保持一致。此外,本文也计算了剔除战争后单个客观临床指标和生物标记物指标,估计结果也与主分析结果是一致的。剔除战争这一环境变量类型后,对于适应负荷和自评健康,无论采用置换变量重要性还是Shapley值分解,各环境变量类型的重要性排序与主分析结果一致受篇幅限制,各环境变量类型重要性排序结果备索。
此外,不同方法中适应负荷和自评健康的变量重要性结果的Spearmanrank系数大多较高且显著。最后,参照已有研究[22],引入个体受教育水平作为成年后的环境因素进行健康机会不平等的测度,纳入受访者受教育水平的健康机会不平等分析结果与主分析结果保持一致。
六、结论与政策建议
本文采用2011—2018年CHARLS调查数据,引入自评健康和适应负荷,综合运用线性回归以及条件推断树和条件森林三种估计方法,对我国45岁及以上中老年人健康的机会不平等进行测度,并识别造成健康的机会不平等的关键环境因素。本文研究结果表明,适应负荷和自评健康的机会不平等相对值分别介于3-21%—7-76%与5-15%—10-44%之间。对于适应负荷,分解结果进一步表明,人口学特征、儿时社会经济条件和出生地区/省份是造成健康机会不平等的主要因素。与线性回归结果中出生地区/省份是最重要因素不同,条件推断树和条件森林的估计结果表明,人口学特征与儿时社会经济条件是造成健康机会不平等的两大主要因素。对于自评健康,分解结果表明儿时社会经济条件、出生地区/省份、儿时健康条件为造成健康机会不平等主要因素。这一结果证实了健康机会不平等研究中运用客观健康指标的重要性。同时,基于条件森林的健康机会不平等测度效果优于线性回归与条件推断树。这意味着未来有关健康机会不平等的研究,除主观健康指标之外,还需引入客观的综合健康指标,同时可以结合机器学习等手段对健康机会不平等进行更为精确的测度[7]。
总的来看,本文所使用的测度方法得到的变量重要性可能会受到方法性质本身的影响。在机会不平等的测度上,有两个方面值得强调:首先,条件森林因其能够捕捉健康不平等的非线性特征和诸多因素间的交互作用,展现出较强的拟合优度。它通过划分特征空间并集成多个推断树来避免选择性偏差,从而能更准确地反映结果的变异性,并减少预测误差。相比之下,线性回归和条件推断树在解释性和可视化呈现方面具有优势,前者能提供较为详尽的统计信息,而后者则直观地展现了健康不平等的结构特征。其次,在健康机会不平等的分解方面,条件森林为我们提供了一种相对均衡和稳健的环境因素重要性估计,而条件推断树强调了根节点变量的相对重要性,并基于较少的变量进行预测。线性回归可能会因为引入大量的地区和省份虚拟变量而高估这些分类变量的重要性,而这在条件森林中得到了有效控制。总的来看,三种方法的结果呈现出一定差异性,因而对三种方法变量重要性的解释仍需要谨慎,但对于变量重要性的估计仍具有价值。
一般来说环境变量中重要性越高的变量,越可能与被解释变量存在因果关系;对同一样本,使用多种机会不平等测度方法与变量重要性测度方法得到的重要性较高的变量,更能说明其重要性。以上结论的政策含义在于,健康的机会不平等是隐藏于健康不平等背后的深层原因,而针对我国中老年人健康机会不平等的综合评估对于帮助老年人减少健康不平等的公共政策的出台具有重要的现实意义。本文提出以下对策建议:其一,加强老年人和女性的健康保障。考虑到年龄和性别是造成健康机会不平等的重要因素,未来的政策干预需更加关注老年人健康水平监测,如提高老年群体多病共治能力,不断完善老年健康服务体系,有效地满足老年人家庭的养老需求。同时,为了促进健康的性别平等,需要建立完善女性全生命周期健康管理模式,如提升“两癌”筛查的覆盖面,将HPV疫苗纳入医保或降低接种价格等。
其二,从生命早期阶段开始实施健康干预。关注儿时社会经济条件和健康条件,如加强婴幼儿养育照护指导,特别是改善居住于经济欠发达地区和农村地区儿童的营养状况及医疗资源的可及性,促进全生命周期的健康教育等。此外,开展多渠道的健康宣传,通过普及合理膳食、控制烟酒、加强体育锻炼和积极参与社会活动等健康的生活方式,提高中老年人的健康意识和健康素养,并制定针对特定脆弱性群体如女性及老年人等的健康干预措施。
其三,推动地区间的协调发展和医疗资源与服务在不同收入群体之间、城乡之间和不同地区之间的均等化。由于出生地区/省份在中老年人健康机会不平等中扮演着重要角色,政策干预应推动各省份及地区间的协调发展和医疗资源配置的均等化。
参考文献:
[1]鲁万波,于翠婷,高宇璇.中老年人健康机会不平等的城乡分解[J].财经科学,2018(3):42-54.
[2]ROEMERJE.Equalityofopportunity[M].Cambridge:HarvardUniversityPress,1998:5-12.
[3]ROEMERJE.Equalityofopportunity:aprogressreport[J].SocialChoiceandWelfare,2002,19(2):455-471.
[4]雷欣,贾亚丽,龚锋.机会不平等的衡量:参数测度法的应用与改进[J].统计研究,2018(4):73-85.
[5]DUVATB,ODONNELLO,VANDOORSLAERE.DifferentialhealthreportingbyeducationlevelanditsimpactonthemeasurementofhealthinequalitiesamongolderEuropeans[J].InternationalJournalofEpidemiology,2008,37(6):1375-1383.
[6]DINGL,JONESAM,NIEP.ExanteinequalityofopportunityinhealthamongtheelderlyinChina:adistributionaldecompositionanalysisofbiomarkers[J].ReviewofIncomeandWealth,2022,68(4):922-950.
[7]BRUNORIP,HUFEP,MAHLERD.Therootsofinequality:estimatinginequalityofopportunityfromregressiontreesandforests[J].TheScandinavianJournalofEconomics,2023,125:900-932.
[8]RAWLSJ.Atheoryofjustice[M].Cambridge:HarvardUniversityPress,1971:1-560.
[9]DONNIPL,PERAGINEV,PIGNATAROG.Exanteandexpostmeasurementofequalityofopportunityinhealth:anormativedecomposition[J].HealthEconomics,2014,23(2):182-198.
[10]史军,赵海燕.公平与健康:罗尔斯正义原则的健康伦理意蕴[J].自然辩证法研究,2010(9):84-89.
[11]李红文,毛新志.论健康公平[J].伦理学研究,2015(2):90-94.
[12]DIASPR.Inequalityofopportunityinhealth:evidencefromaUKcohortstudy[J].HealthEconomics,2009,18(9):1057-1074.
[13]TRANNOYA,TUBEUFS,JUSOTF,etal.InequalityofopportunitiesinhealthinFrance:afirstpass[J].HealthEconomics,2010,19(8):921-938.
[14]CARRIERIV,JONESAM.Inequalityofopportunityinhealth:adecompositionbasedapproach[J].HealthEconomics,2018,27(12):1981-1995.
[15]CARRIERIV,DAVILLASA,JONESAM.Alatentclassapproachtoinequityinhealthusingbiomarkerdata[J].HealthEconomics,2020,29(7):808-826.
[16]刘波,胡宗义,龚志民.农村居民健康差距中的机会不平等——健康指标选择、模型构建与基于CHARLS的实证研究[J].科学决策,2021(4):39-70.
[17]白春玲,陈东.我国中老年群体健康不平等的早期根源追溯——基于机会不平等的测度与分解[J].人口与经济,2022(2):104-123.
[18]赵广川.国民健康不平等及其内在影响机制、演变过程[J].世界经济文汇,2017(5):55-74.
[19]TRUMBELJE,KONONENKOI.Explainingpredictionmodelsandindividualpredictionswithfeaturecontributions[J].KnowledgeandInformationSystems,2014,41(3):647-665.
[20]聂鹏,林夕力,丁兰琳.我国老年人健康的事后机会不平等——来自三种机会平等理论的新证据[J].经济评论,2024(5):1-17.
[21]DAVILLASA,JONESAM.Exanteinequalityofopportunityinhealth,decompositionanddistributionalanalysisofbiomarkers[J].JournalofHealthEconomics,2020,69:e102251.
[22]DAVILLASA,PUDNEYS.Concordanceofhealthstatesincouples:analysisofselfreported,nurseadministeredandbloodbasedbiomarkerdataintheUKUnderstandingSocietyPanel[J].JournalofHealthEconomics,2019,56:87-102.
[23]MCEWENBS.Biomarkersforassessingpopulationandindividualhealthanddiseaserelatedtostressandadaptation[J].Metabolism,2015,64(3):2-10.
[24]CHENW,XIAC,ZHENGR,etal.Disparitiesbyprovince,age,andsexinsitespecificcancerburdenattributableto23potentiallymodifiableriskfactorsinChina:acomparativeriskassessment[J].TheLancetGlobalHealth,2019,7(2):e257-e269.
[25]FERREIRAFH,GIGNOUXJ.Themeasurementofinequalityofopportunity:theoryandanapplicationtoLatinAmerica[J].ReviewofIncomeandWealth,2011,57(4):622-657.
[26]李金叶,郝雄磊.机会不平等的测度:回归树模型的应用与比较[J].统计与信息论坛,2019(10):3-13.
[27]BREIMANL.Randomforests[J].MachineLearning,2001,45(1):5-32.
[28]刘波,胡宗义,龚志民.中国居民健康差距中的机会不平等[J].经济评论,2020(2):68-85.
[29]NESSONET,ROBINSONJJ.Onthemeasurementofhealthanditseffectonthemeasurementofhealthinequality[J].Economics&HumanBiology,2019,35:207-21.
[30]OPARINAE,KAISERC,GENTILEN,etal.Machinelearninginthepredictionofhumanwellbeing[M].Oxford:UniversityofOxfordPress,2023:1-38.
InequalityofOpportunityinHealthamongtheMiddleagedandElderlyPeople
inChina:NewEvidencefromMachineLearningMethods
NIEPeng,XUBoyang,ZHOUBo,ZHAOFang
(SchoolofEconomicsandFinance,XianJiaotongUniversity,Xian710061,China)
Abstract:WiththecontinuousaccelerationofChinasageingprocess,theissueofhealthinequalityamongtheelderlyhasbecomeincreasinglyprominentandimportant.Drawingondatafrom2011-2018ChinaHealthandRetirementLongitudinalSurvey,thisstudyemploysthreeestimationmethods,namely,linearregression,conditionalinferencetreeandconditionalforest,tomeasuretheinequalityofopportunityinhealthadaptiveloadandselfratedhelth
amongmiddleagedandelderlyadultsaged45andaboveinChina.Italsomeasurestherelativecontributionofeachcircumstancevariabletotheinequalityofopportunityinhealth.Theresultsshowthattherelativevaluesofinequalityofopportunityforallostaticload(selfreportedhealth)rangesfrom3-21%(5-15%)to7-76%(10-44%)respectively.Thedecompositionresultsfurtherindicatethatdemographiccharacteristics(ageandgender)andchildhoodsocioeconomicstatusarethekeycontributorsforinequalityofopportunityinbothallostaticloadandselfreportedhealth.Unlikelinearregressionresultswhereregion/provinceofbirthisthemostimportantfactor,
thetwomachinelearningestimatesshowthatdemographiccharacteristics(ageandgender)andchildhoodsocioeconomicconditionsarethetwomainfactorsaccountingfortheopportunityinequalityofallostaticload.Thispaperprovesthatthehealthopportunityinequalitymeasurementbasedonconditionalforestisbetterthanthetraditionallinearregression.
Thisresultremainsrobustforindividualobjectivehealthindicatorsandtheadjustmentforobservableenvironmentalvariables.
Healthopportunityinequalityis
theunderlyingreasonsbehindhealthinequality,andacomprehensiveevaluationofhealthinequalityformiddleagedandelderlypeopleinChinaisofgreatpracticalsignificancefortheintroductionofeffectivepublicpoliciestoreducehealthinequalitiesfortheelderly.
Keywords:inequalityofopportunityinhealth;Shapleyvaluedecomposition;conditionalinferencetree;conditionalforest
[责任编辑武玉]