APP下载

研究健康相关生命质量影响因素的分位数回归分析*

2016-06-24米白冰李强党少农赵亚玲杨睿海颜

中国卫生统计 2016年2期
关键词:位数线性维度

米白冰李 强党少农赵亚玲杨睿海颜 虹△



研究健康相关生命质量影响因素的分位数回归分析*

米白冰1李 强1党少农1赵亚玲1杨睿海2颜 虹1△

【提 要】 目的 介绍分位数回归这一方法在健康相关生命质量量表数据分析中的适用性,并通过实例数据展示该方法的应用价值。方法 分别应用分位数回归和传统线性回归模型分析汉中农村居民健康调查中获得1781例女性的SF-36量表数据及问卷调查资料,了解健康相关生命质量的影响因素,比较两种方法的结果及其适用性。结果 传统线性回归分析显示患有高血压是影响农村女性健康相关生命质量的独立危险因素(β生理机能=-4.39;β躯体疼痛=-2.81;β一般健康状况=-8.27;β精力=-3.04;β情感职能=-3.00;β精神健康状态=-2.82;β躯体健康综合状况=-1.90)。分位数回归分析结果确证了上述结论,并进一步探索患有高血压在不同健康相关生命质量得分百分位上的影响程度的差异。结论 分位数回归与传统线性回归模型的结论并不完全一致,前者获取信息更多,结果更稳健。故分位数回归应用于人群健康相关生命质量的研究具有较高的应用价值。

【关键词】分位数回归 健康相关生命质量 影响因素 SF-36

1.西安交通大学医学部公共卫生学院流行病与卫生统计教研室(710061)

2.汉中市人民医院心内科

随着新的生物-心理-社会医学模式的观念深入到卫生保健事业工作中,健康相关生命质量(health-related quality of life,HRQOL)作为评估个体健康状态的主观循证指标受到卫生工作者的日益重视[1-3]。值得注意的是,目前多采用EQ-5D量表、WHOQOL量表和SF-36量表等定量评估工具应用于国内临床疗效评估、卫生经济学评价等实践工作中对HRQOL进行评估[2,4-6]。研究者多采用传统的线性回归模型对上述量表数据结果进行描述和分析。但线性回归模型分析健康相关生命质量量表数据具有一定的局限性。本研究介绍分位数回归这一方法,讨论其在HRQOL量表数据分析中的适用性,并通过实例数据展示该方法的应用价值。

原理与方法

1.分位数回归

传统上,研究者广泛使用线性回归模型对健康相关生命质量量表的影响因素进行分析。该方法基于最小二乘回归原理,其逻辑解释与人们的直观想象一致,易于计算,当研究数据符合最小二乘法的假设条件时,该方法具有无偏,高效的优良性质,因此获得了广泛的应用。但在实际应用中,传统线性回归模型有较为严格的限制条件,如方差齐性,随机误差独立性和正态性,当数据分布是偏态或有异常值时,结果的稳健性较差。此外,对于大量的数据,应用传统线性回归模型只能得到一条回归曲线,而一条曲线所能代表的信息有限。故而,针对大量数据存在偏态分布的情况,人们采用分位数回归的方法进行分析。

分位数回归模型自Koenker和Bassett提出以来,历经30年发展完善,现已成为社会学、经济学、医学等领域的常用方法之一[7]。它是在给定变量X时,估计应变量Y条件分位数的一个基本方法。其具体原理如下:

设X为实值随机变量,分布函数为F(χ)=P(X≤χ),则对任意0<τ<1,有

称该式为X的τ分位数。仿照传统线性回归求解过程,我们可以推广估计条件分位数的函数模型。当给定x时,y的条件分布记作Fy(y|x),则其逆函数表示为Qy(τ|x)=inf{y:Fy(y| x)≥τ}。定义Qy(τ| x)=xTβ(τ)为样本条件分位数函数,其中x为p维向量,则可由

估计得到,其中τ∈(0,1),β为系数向量,它随分位值τ的变化。可以看到,分位数回归的本质是求解任何分位值时,各自变量x的回归系数。其能在一定程度上全面展示所有数据的信息,但更侧重于对特征分布不同位置人群的异质性分析。它不仅可以度量回归变量在分布中心的影响,而且还可以度量在分布上尾和下尾的影响,因此较之传统线性回归模型具有独特的优势,能够得到全面的分析结果,尤其适用于不均匀的条件分布,且分位数回归系数较传统线性回归模型的系数估计更稳健[8]。

2.HRQOL评价方法

HRQOL的评价量表有多种,本文选择国际通用的SF-36量表中文版进行介绍,该量表自引入中国以来,获得广泛的应用,具有良好的信效度[9-11]。通过对36个条目进行计分,获得分别代表生理机能(physical functioning,PF)、生理职能(role-physical,RP)、躯体疼痛(bodily pain,BP)、一般健康状况(general health,GH)、精力(vitality,VT)、社会功能(role-emotional,RE)、情感职能(mental health,MH)以及精神健康状态(social functioning,SF)的八个维度得分,得分从0 到100分,分数越高生命质量越好[12]。各维度得分计算公式如下:

随后,将上述维度的生命质量得分代入常模中计算分别获得躯体健康状况(physical component summary,PCS)和精神健康状况(mental component summary,MCS),使用PCS得分和MCS得分对人群HRQOL进行综合评价,因缺乏国人的常模数据,本例中采用美国常模的相关数据计算PCS得分和MCS得分[13]。具体计算公式如下:

首先,对各维度分数进行Z变换:

然后,利用Z变换得分及常模中因子得分系数,计算PCS和MCS得分,公式中Mx、Sx分别代表各维度得分的均值和标准差,Wx和Vx分别代表常模中各维度的因子得分系数。

3.应用分位数回归评价HRQOL量表数据的必要性

实际过程中,SF-36量表的数据常常存在偏态分布的情况。2010年汉中农村高血压横断面调查中获得的60岁以上老年人群SF-36量表各维度的得分分布情况如表1。

表1 SF-36量表各维度得分数据分布特点

从偏度、峰度以及极端值的分布比例上可以看出,SF-36量表各维度得分不服从正态分布(P<0.05),且由0分比例和100分比例可知,各维度得分存在不同程度的天花板和地板效[14],存在大量极端值,这一数据分布特点不宜使用传统线性回归模型,而应考虑应用分位数回归方法进行分析。后文通过具体实例展示分位数回归的具体方法及其相教于传统线性回归模型的优点。

分析实例

以2010年汉中地区农村高血压横断面调查中获得的1781例女性人群SF-36量表数据进行实例分析,该项调查由西安交通大学公共卫生学院和汉中市人民医院合作组织,调查过程另文详述[15]。使用Epidata 3.1软件建立数据库,采用双录入的方法录入调查数据,确保录入质量。采用SAS 9.3进行数据分析,用均数±标准差的形式描述计量资料,用率和构成比描述计数资料,以α=0.05作为检验水准。样本人群一般人口社会学指标、行为习惯、既往疾病史的情况见表2。

表2 纳入研究对象的一般情况

本例拟研究在控制年龄、性别、婚姻状况、文化程度、教育程度、财富指数、收缩压、舒张压、体育锻炼时间、是否吸烟、是否饮酒、是否存在并发症等影响因素后,是否患有高血压对农村地区女性HRQOL的影响程度。得出不同百分位数(P10~P90)下SF-36各维度得分上患有高血压对老年人各维度得分影响的β系数估计值及其95%可信区间,观察其变化情况,并与传统线性回归模型计算得到的β系数估计值及其95%可信区间进行比较,结果见表3。

对SF-36量表各个维度进行传统线性回归分析显示,在控制其他变量的影响后,相对于正常人群,高血压患者的生理机能、躯体疼痛、一般健康状况、精力、情感职能、精神健康状态、躯体健康综合状况得分降低(β生理机能=-4.39,P生理机能<0.01;β躯体疼痛=-2.81,P躯体疼痛<0.05;β一般健康状况=-8.27,P一般健康状况<0.01;β精力=-3.04,P精力<0.05;β情感职能=-3.00,P情感职能<0.05;β精神健康状态=-2.82,P精神健康状态<0.05;β躯体健康综合状况=-1.90,P躯体健康综合状况<0.01),提示患有高血压是影响农村女性健康相关生命质量的独立危险因素。对各维度高血压的影响进一步做分位数回归显示,患有高血压对不同维度的影响程度与传统线性回归模型分析结果有所不同,且随被调查人群生命质量得分不同分位数而异。可以看到,相比于传统线性回归模型,分位数回归结果显示患有高血压对精神健康状态没有统计学影响(P>0.05),但对精神健康综合状况得分在P20分位数上有明显影响,提示患有高血压在该分位数点上是一个独立的危险因素(β躯体健康综合状况|P20=-3.79)。

在具有显著影响的维度上,分位数回归模型获取的信息更丰富,模型较稳健,进一步探索患有高血压在不同健康相关生命质量得分百分位上的影响程度的差异,发现在生理职能、一般健康状况和躯体健康综合三个维度上,患有高血压在大部分百分位上均为显著的独立危险因素。而在精力和情感职能两个维度上,患有高血压主要影响各维度健康得分在P20~P50之间的人群,提示患有高血压主要表现为较低健康相关生命质量人群的独立危险因素,且表现出一定的趋势,该维度得分越低的人群,受患有高血压的影响程度越严重。

讨 论

数据分析结果显示传统线性回归模型与分位数回归得到的结论并不完全一致。传统线性回归分析结果较为简单,仅分析患有高血压对不同维度健康相关生命质量的整体影响,受线性回归假设条件影响较大,若条件不满足,则结果与实际情况可能存在不同。分位数回归则可进一步分析其在不同维度得分不同百分位数上的影响,发现其影响程度不同。以患有高血压对情感职能维度上的影响为例,相对于传统回归方法结果(β情感职能=-3.00,P情感职能<0.05),分位数回归进一步比较了不同百分位点上的影响程度,在肯定患有高血压对农村女性的情感职能存在负性影响的情况,β系数估计值从-5.68到-0.90,在中低得分女性中(P20到P50百分位)上存在统计学意义(P<0.05),进一步探讨影响程度的强弱,发现存在如下趋势:随着维度得分百分位数的降低,β值由P50处的-3.94变为P20处的-5.68,变化趋势明显,且上述各百分位上β值均有统计学意义。

本研究采用分位数回归这一方法研究HRQOL的影响因素,分位数回归避免了传统线性回归仅研究影响因素与因变量平均水平的关系的弊端,不仅可以描述应变量与一系列协变量的条件均值的相关性,而且通过估计整体分位数模型能更加全面地刻画分布的特征,从而得到全面的分析结果,尤其适用于不均匀的条件分布,且分位数回归系数估计比传统线性回归系数的估计更稳健,获取信息更丰富。综上所述,分位数回归应用于人群HRQOL的研究具有较高的应用价值,推荐广大医务工作者在科研工作中使用。

表3 SF-36各维度得分传统线性回归及分位数回归结果

本研究的不足之处在于本次调查的数据是一次横断面调查,存在一定的信息偏移。此外,尚不能凭一次调查的结果总结该地区居民的生命质量和相关影响因素,但本次调查对于了解高血压与生命质量的相互关系仍有一定价值,为进一步的研究提供了线索。

致谢:感谢汉中市人民医院和汉台区下属9个乡镇的相关卫生人员、被调查村民的积极配合,感谢参加调查的西安交通大学老师及学生的热情工作,感谢中华医学基金会的鼎立支持。

参考文献

[1]周王艳,吉珂,陈家应.我国农村居民健康相关生命质量及其影响因素分析.南京医科大学学报(社会科学版),2011,(3):189-193.

[2]张耀光,徐玲.中国居民健康相关生命质量研究.医学与社会,2013,(06):82-84.

[3]张丽.山东三县农村居民生命质量及其影响因素研究.山东大学,2014.

[4]韦懿芸,颜艳,王多劳,等.中文版SF-36在社区老年人生存质量评价中的应用.中南大学学报(医学版),2006,(2):184-188.

[5]徐波,饶和平,马亚娜.苏州市城区老年人生命质量及影响因素分析.中国老年学杂志,2009,(21):2791-2793.

[6]潘廷芳,司超增,何慧婧,等.我国6省市人群的健康相关生命质量研究.基础医学与临床,2011,(6):636-641.

[7]Koenker R.Quantile regression.Cambridge:Cambridge University Press,2005.

[8]关静.分位数回归理论及其应用.天津大学,2009.

[9]Li L,Wang HM,Shen Y.Chinese SF-36 Health Survey:translation,cultural adaptation,validation,and normalisation.J Epidemiol Community Health,2003,57(4):259-263.

[10]Lam CL,Tse EY,Gandek B,et al.The SF-36 summary scales were valid,reliable,and equivalent in a Chinese population.J Clin Epidemiol,2005,58(8):815-822.

[11]Yang Z,Li W,Tu X,et al.Validation and psychometric properties of Chinese version of SF-36 in patients with hypertension,coronary heart diseases,chronic gastritis and peptic ulcer.Int J Clin Pract,2012,66(10):991-998.

[12]Ware JE,Gandek B,Kosinski M,et al.The equivalence of SF-36 summary health scores estimated using standard and country-specific algorithms in 10 countries:results from the IQOLA Project.International Quality of Life Assessment.J Clin Epidemiol,1998,51(11):1167-1170.

[13]Taft C,Karlsson J,Sullivan M.Do SF-36 summary component scores accurately summarize subscale scores?.Qual Life Res,2001,10(5):395-404.

[14]Seymour J,McNamee P,Scott A,et al.Shedding new light onto the ceiling and floor?A quantile regression approach to compare EQ-5D and SF-6D responses.Health Econ,2010,19(6):683-696.

[15]Zhao Y,Yan H,Yang R,et al.Prevalence and determinants of metabolic syndrome among adults in a rural area of Northwest China.PLoS ONE,2014,9(3):e91578.

(责任编辑:邓 妍)

New Approach for Analying the Influence Factor of Health-related Quality of Life:the Quantile Regression

Mi Baibing,Li Qiang,Dang Shaonong,et al(Department of Epidemiology and Biostatistics,School of Public Health,Xi′an Jiaotong University Health Science Center(710061),Xi′an)

【Abstract】Objective To introduce quantile regression on its applicability in health-related quality of life data analysis,and showing the method through an example.Methods Respectively applying traditional linear regression model and quantile regression model to analysis SF-36 scales data and the questionnaire survey information about 1781 cases women obtained from Hanzhong rural residents health survey,understanding health related life quality of effects factors,compared two species method of results and applicability.Results Traditional linear regression model displayed the health-related quality of life with hypertensive patients in rural women was lower than normal women(β Physical Function =-4.39;β Bodily Pain =-2.81;β General Health =-8.27;β Vitality =-3.04;β Mental Health =-3.00;β Social Functioning =-2.82;β Physical Component Summary =-1.90).Quantile regression confirmed this conclusion,furthermore,explored the difference between hypertensive and normotensive people in different health-related quality of life score percentiles on each domains.Conclusion Quantile regression and linear regression models discussed are not entirely consistent,the former one provided more information and robust results.Quantile regression applied for analying health related quality of life was higher value to health workers.

【Key words】Quantile regression;HRQOL;Influence factors;SF-36

*基金项目:国家自然科学基金(81230016);美国中华医学基金会(08-925)

通信作者:△颜虹,E-mail:xjtu_yh.paper@ aliyun.com

猜你喜欢

位数线性维度
渐近线性Klein-Gordon-Maxwell系统正解的存在性
理解“第三次理论飞跃”的三个维度
线性回归方程的求解与应用
五次完全幂的少位数三进制展开
连续自然数及其乘积的位数分析
认识党性的五个重要维度
浅论诗中“史”识的四个维度
二阶线性微分方程的解法
非齐次线性微分方程的常数变易法
遥感卫星CCD相机量化位数的选择