我国城镇居民健康自评数据的几个统计检验
2017-04-27熊彦
熊 彦
(1.中南财经政法大学统计与数学学院,湖北武汉430073;2.佛山科学技术学院数学与大数据学院,广东佛山528000)
我国城镇居民健康自评数据的几个统计检验
熊 彦1,2
(1.中南财经政法大学统计与数学学院,湖北武汉430073;2.佛山科学技术学院数学与大数据学院,广东佛山528000)
研究个人健康与社会经济地位之间的关系,基于微观调查数据,分别从卡方齐性和卡方独立性两个角度,检验了自评健康得分与教育程度、职业地位的相关性。结果显示,自评健康得分与教育程度高度相关,教育程度高的个人,其自评健康越好;自评健康得分与就业身份相关。
自评健康;卡方齐性;卡方独立性;
健康原本是一个医学课题,从上世纪70年代开始,学者们认识到健康与社会经济状况密切相关,随着越来越多的研究关注收入、教育和职业等社会经济地位相关指标和健康之间的关系,健康已经成为医学、社会学、统计学和数据科学等多学科的一个综合课题。文献[1-2]对基于跨国层面和英美国家内部数据的健康指标与经济社会指标之间的关系进行了研究。由于数据获取等方面的原因,针对我国的相关研究比较薄弱,已有的一些研究,主要集中在居民健康与宏观经济指标之间的关系方面[3],基于微观层面的文献尚不多见。本文旨在利用微观调查数据,对个人健康与个人经济社会地位之间的关系进行相关统计检验,为进一步的定量研究奠定基础。
1 数据来源与指标选择
本文的数据来源于中国家庭收入分配项目(CHIP)调查数据,CHIP项目由中外学者共同组织,并由国家统计局协助实施,至今已进行了6次,相关调查技术和实施细节在文献[4]中已有详细介绍,在此不再赘述。最新发布的CHIP数据为2013年的数据(以下简称CHIP2013),调查范围为全国15个省份,其中东、中、西部各5个,样本对全国总体状况有较好的代表性。鉴于我国城乡二元分割的现状,项目组在发布数据时,将样本分成了城镇居民、流动人口和农村居民三类,本文选取其中的城镇居民作为研究对象。CHIP2013涵盖了居民个人在健康、人口特征、教育职业、社会关系和经济状况等方面的信息。
在既有的研究中,个人健康的度量指标,随着研究者对健康概念的不同界定,有不同的选择,一般来讲,侧重医学考量的文献较多选择疾病营养方面的指标,而侧重社会经济考量的文献,通常选择自评健康作为测度指标。发达国家的经验研究表明,自评健康指标与客观的疾病营养方面的指标有高度相关性。本文选择受访者自评健康作为测度个人健康的指标。CHIP2013中,个人自评健康分为5个等级,分别为非常好、好、一般、不好和非常不好。
社会经济地位是一个主观的概念,测度标准更难以统一,本文在此不做过多探讨,鉴于较为常见的是从教育程度、职业和收入等维度入手,本文采用统计检验手段,分别检验我国城镇居民自评健康与个人教育程度、职业地位之间的关系,其中教育程度选用最高学历,职业地位选择当前就业身份。CHIP2013中,最高学历有9个选项,分别为未上过学、小学、初中、高中、高职、中专、大专、本科、研究生;就业身份有4个选项:雇主、雇员、自营职业和家庭帮工。删除遗漏条目后,最终样本量为10 168条数据,各变量描述统计见表1。
表1 样本描述统计
2 相关性统计检验
由于所选指标均为分类数据,其中自评健康为有序分类数据,性别、教育程度和职业地位为无序分类数据,因此需选择定性数据相关性检验方法。
2.1 卡方齐性检验
考虑自评健康与教育程度之间的相关关系,先将自评健康与学历汇总成列联表。从表1的描述统计中看出,学历变量有9个分类,较为分散。根据实际情况,将其合并为三类,其中1~3为义务教育类,4~7为职业教育类,8~9为高等教育类。
我们需要比较每一个教育程度组别中,各自评健康得分的相对频率是否一致,或者说每一个教育程度组别中的健康相对频率的差异是否全由随机因素导致。为此,将每一个教育组别对应的健康分类看成一个多项分布,每个多项分布有5个类,问题转化为:要检验各多项分布在每一个类的概率都是相同的。
更一般的,对J个多项分布,每一个有I个分类,如果用Pij表示第j个多项分布中第i个类的概率,则检验原假设为
为检验原假设,构造皮尔逊卡方统计量,比较观测值与期望值。先假定数据由每个多项分布的独立样本组成,用nij表示第j个多项分布中第i类的计数,ni表示第i类的总数,nj表示第j个多项的总数,n..表示累积总数。要求出期望频数,还需要如下引理估计多项分布的概率。
引理1 在H0假设下,参数Pi(=Pi1=Pi2=…=PiJ)的最大似然估计为
证明 见参考文献[5]。
于是,对于第j个多项分布,第i类的期望数为
因此,皮尔逊卡方统计量为
可以证明,该统计量在大样本下,近似服从χ2=((I-1)(J-1))。将观测频数、期望频数列于下表2。
表2 自评健康与学历列联表
计算得出,城镇居民样本数据中,卡方统计量值为206.59,对α=0.01与α=0.001,χ2(8)的上侧分位数分别为20.09与26.12,因此,拒绝原假设,即各教育组的各自评健康得分类有显著差异。通过逐一比较各单元格观测频数和期望频数,可以看出,义务教育组中,自评健康不好和非常不好的观测频数均高于期望频数;职业教育组中,自评健康好的观测频数高于期望频数;高等教育组中自评健康非常好的观测频数高于期望频数。这一结果显示:教育程度越高,其自评健康的得分越高。
2.2 卡方独立性检验
考虑自评健康得分与就业身份的相关性,同上将二者汇总成列联表。由于自营职业者和家庭帮工比例较小,合并成一类,称为自由职业。与上面检验思路不同的是,我们在这里将自评健康得分和就业身份视为两个随机变量,列联表数据视为二维变量的一次观测,问题转化为检验两个随机变量是否统计上相互独立。
一般的,样本容量为n,记Pij(i=1,…,I,j=1,…,J)为二维随机变量的单元概率,令
分别表示边际概率。两个随机变量相互独立的原假设即为
同样,为构造卡方统计量,需要如下引理。
引理2在H0原假设下,Pij的最大似然估计为
进而
证明 见参考文献[5]。
可以看出,此处期望频数与上一节的期望频数是一致的,因此,后面统计量的构造及分布同上。我们把自评健康与就业身份列于表3.
经计算,卡方统计量的值为54.58,对α=0.01与α=0.001,的上侧分位数分别为20.09与26.12,因此,拒绝原假设,即各教育组的各自评健康得分类有显著差异。
表3 自评健康与就业身份列联表
3 结论及讨论
本文基于中国城镇居民微观调查数据,用不同的统计方法分别严格检验了个人健康与教育、职业间的相关性。考察个人健康与教育相关性时使用了卡方齐次性检验,考察个人健康与就业身份的相关性时使用了卡方独立性检验,两种思路假设不同,抽样思路也不同,齐性检验是在行或列边际固定的条件下推导的,独立性检验是在仅仅固定总量的条件下推导的,两种思路最终在统计量设计,自由度计算上一致。统计检验结果表明,教育程度与个人自评健康有很强的相关性,具体而言,教育程度越高,自评健康越好;就业身份与个人自评健康有相关性。本文的结论揭示了健康与社会经济因素之间关系的一方面,而这些社会经济因素变量究竟通过什么机制影响个人健康,如何量化这些影响,值得进一步深入研究。
[1]BACKLUND E,SORLIE P D,JOHANSON J.A Comparison of the Relationships of Education and Income with Mortality:The National Longitudinal MortalityStudy[J].Social Science&Medicine,1999,49(3):1373-1384.
[2]BENZEVAL M,JUDGE K,SHOULS S.Understanding the Relationship between Income and Health:How Much can be Gleaned fromCross-Sectional Data[J].Social Policy&Administration,2001,35(4):376-396.
[3]齐亚强,牛建林.地区经济发展与收入分配状况对我国居民健康差异的影响[J].社会学评论,2015(3):65-76.
[4]SHI L,SATO H,SICULAR T.Rising Inequality in China:Challenges to a Harmonious Society[M].Cambridge:Cambridge Universitypress,2013:337-415.
[5]JOHNA.Rice:Mathematical Statistics and Data Analysis[M].Singapore:Cengage LearningPress,2007:354-365.
【责任编辑:王桂珍 foshanwgzh@163.com】
Some statistical test on self-rating health data of urban residents of China
XIONGYan1,2
(1.School ofStatistic and Mathematic,Zhongnan UniversityofEconomyand Law,Wuhan 430073,China; 2.School ofMathematic and BigData,Foshan University,Foshan 528000,China)
The relationship between individual health and socioeconomic status is researched in this paper.Based on micro-data,the correlation between self-rating health and education,self-rating health and occupational status is tested by chi-square homogeneity and chi-square independence separately.The result shows that self-rating health and education is high correlation,the higher one’s education status is,the higher score his self-ratinghealth is.What’s more,there exists correlativitybetween self-ratinghealth and occupational status.
self-ratinghealth;chi-square homogeneity;chi-square independence
R195
A
1008-0171(2017)02-0005-04
2016-11-09
熊 彦(1982-),男,湖南娄底人,佛山科学技术学院讲师,中南财经政法大学在读博士生。