adaptive LASSO logistic回归模型应用于老年人养老意愿影响因素研究的探讨*
2017-03-09韩耀风覃文峰李博涵滕伯刚
韩耀风 覃文峰 陈 炜 李博涵 滕伯刚 方 亚△
adaptive LASSO logistic回归模型应用于老年人养老意愿影响因素研究的探讨*
韩耀风1,2覃文峰1,2陈 炜1,2李博涵1,2滕伯刚1,2方 亚1,2△
目的 探讨adaptive LASSO logistic回归模型在老年人养老意愿影响因素研究中的应用。方法 基于厦门市60岁及以上老年人口的多阶段整群抽样调查数据,建立老年人养老意愿影响因素的adaptive LASSO logistic回归模型,通过交叉验证法选择模型中的调和参数λ;通过与全变量和逐步logistic回归结果的比较,探讨adaptive LASSO logistic回归模型的优势。结果 共纳入1244名老年人,其养老意愿为家庭养老、社区居家养老和机构养老的比例分别为70.0%、21.1%和8.9%。交叉验证法选择的λ 为0.018;此时adaptive LASSO logistic回归模型纳入的自变量为居住地、年龄、婚姻状况、文化程度、子女数、每月退休金收入、公费医疗和住院情况;BIC和AIC分别为1931、1888,均低于全变量logistic回归(2077、1923)和逐步logistic回归(2025、1912)。结论 adaptive LASSO logistic 回归模型可用于老年人养老意愿影响因素研究。老年人的养老意愿受多个因素影响。
adaptive LASSO logistic 回归模型 养老模式 影响因素
2010 年第六次全国人口普查结果显示,中国60 岁及以上老龄人口已达到 1.78亿,所占比例从 2000 年的 10.2%增至 13.3%[1]。随着老龄化速度的不断加快,在经济发展与社会结构转型的过程中,传统家庭养老和单纯的机构养老远远不能满足当今社会的养老需求。在此背景下社区居家养老应运而生,形成了多种养老方式并存的多元化养老模式。老年人养老意愿的影响因素复杂,如何选择自变量是研究的关键点。本研究拟基于对厦门市老年人养老意愿的调查数据,探讨adaptive LASSO logistic回归模型在老年人养老意愿影响因素分析研究中的应用,分析老年人养老意愿的影响因素,为完善多元化养老模式提供依据。
基本原理
1.LASSO logistic回归模型
对于多变量logistic回归问题,一般常使用变量子集选择的方法来选择变量。Zou等人[2]提出变量子集选择有两点限制:首先,当变量的个数较多时,子集选择的运算量庞大,甚至可能无法运算;其次,因为子集选择方法存在内在离散性[3],子集选择的结果是不稳定的[4]。
作为变量子集选择的替代方案,逐步回归克服了变量较多时的运算量问题,但是得到的结果仍具有内在离散性和不稳定性[3-4]。同时逐步回归得到的结果一般为局部最优解而不是全局最优解[2],且忽略了变量选择过程中的随机误差和不确定性[5-6]。
LASSO方法[6-8]用模型的绝对系数函数作为惩罚项来压缩模型的系数,使绝对值较小的系数为0,达到同时进行变量选择和参数估计的目的,而传统方法变量选择和参数估计是分开进行的。LASSO方法很好地克服了逐步回归变量选择方法的局限性,同时又保留了子集选择和岭回归的优良性质。采用LASSO方法选择自变量而建立的logistic回归模型即为LASSO logistic回归模型。
假设有独立同分布的观测值(Xi,yi),i=1,2,…,n,其中Xi(xi1,…,xip)和yi是模型的自变量和因变量。logistic回归模型的条件概率如式(1)所示。
(1)
其中
(2)
(3)
其中λ是一个非负的正则化参数,它决定了LASSO logistic回归模型系数的压缩程度,称为调和参数。随着λ 的增大,各个变量系数估计值逐渐被压缩,当λ足够大时,一些变量系数被压缩为0。研究表明,LASSO方法具有优良的理论性质,适合于稀疏的多变量回归问题[9-11]。选择λ的常用方法有自助法、交叉验证法、广义交叉验证法等。在交叉验证法中,每个子样本验证一次,交叉重复n次,得到n次的模型拟合情况,从中选择最优λ。
2.adaptive LASSO logistic回归模型
LASSO logistic 模型虽然可以较好地进行多变量的选择,但得到的结果是有偏估计,且不具有模型的相合性和参数估计渐进正态性,即不具有Oracle Property(哲人性质)[2,4]。Zou等人于2006年提出了一个改进的LASSO方法,被称为adaptive LASSO方法[2]。adaptive LASSO logistic回归模型既具有LASSO logistic回归模型的优点,同时估计结果具有渐进无偏性和Oracle Property。
(4)
(5)
资料与方法
1.资料来源
采用横断面调查的方法,调查厦门市60岁及以上常住老年人,调查内容包括个人信息(性别、年龄、子女数、婚姻情况、文化程度、居住地)、生活基本情况(每月退休金、城镇职工基本医疗保险、城镇居民基本医疗保险、公费医疗)、健康状况(健康自评、是否曾住院)和养老意愿(家庭养老、社区居家养老、机构养老)等信息。
2.统计分析
采用Epidata 3.1软件进行双人双录入资料,使用 R 3.2.0 进行统计分析。本研究使用卡方检验分析分类变量与养老意愿的关系,通过建立adaptive LASSO logistic回归模型分析老年人养老意愿的影响因素,其中λ 的选择使用交叉验证法。将adaptive LASSO logistic模型与全变量logistic回归、逐步logistic回归进行比较,采用AIC和BIC准则评估adaptive LASSO logistic回归模型的拟合效果。检验水准取α=0.05。
结 果
1.基本情况
本次调查共发放问卷1328份,回收有效问卷1244份,有效应答率为93.67%。1244名老年人的年龄60~100岁,中位年龄71 岁;其养老方式选择意愿的分布分别为家庭养老(70.0%)、社区居家养老(21.1%)、机构养老(8.9%)。各分析变量及养老方式意愿情况见表1。
2.老年人养老方式选择的单因素分析
对各分类变量与养老方式选择进行单因素卡方检验,结果见表1。其中居住地、文化程度、每月退休金、城镇职工基本医疗保险、城镇居民基本医疗保险、公费医疗、是否曾住院等因素有统计学意义(P<0.05)。
3.老年人养老方式选择的多因素分析
(1)变量选择与模型估计
在单因素分析的基础上,以居住地、年龄、子女数、文化程度、每月退休金、城镇职工基本医疗保险、城镇居民基本医疗保险、公费医疗、是否曾住院等因素作为自变量,建立logistic回归模型,分析它们对养老方式选择的影响,各变量的赋值情况见表2。
以家庭养老为参照,利用R软件包glmnet[12]进行adaptive LASSO logistic回归模型分析。通过交叉验证得到模型误差与λ的关系,折叠次数为10次,结果如图1示。由图1可见,模型误差最小时对应的λ为0.018,此时入选的变量有居住地、年龄、婚姻状况、文化程度、子女数、每月退休金、参加公费医疗和住院情况,即这些因素为老年人养老方式选择的影响因素。
表1 各分析变量的养老方式意愿情况
表2 变量赋值表
图1 Lambda与模型误差
*:上方的数字为模型变量选择数;横坐标()内的数字为λ
图2为随着λ 值的变化模型变量的筛选情况。可见,随着λ 增大,模型压缩程度增大,模型中包含的自变量个数减少,模型选择主要变量的功能增强。
(2)模型的参数估计
为了对比LASSO变量选择的结果,本研究还建立了全变量logistic回归模型和逐步logistic回归模型。各模型的参数估计及AIC和BIC结果见表3,其中adaptive LASSO logistic回归模型的AIC和BIC均为最小,而全变量logistic回归的AIC和BIC均为最大。
表3 不同回归模型参数估计结果
*:P<0.1,**:P<0.05,***:P<0.01。
讨 论
对于多变量选择问题,子集选择具有运算量大和变量选择结果不稳定的缺点。逐步回归克服了较多变量时子集选择的运算量问题,但是变量子集选择具有内在的不连续性,从而导致变量子集选择的结果不稳定,逐步回归方法得到的变量选择结果并不一定是最佳子集[6]。逐步回归方法还忽略了变量选择过程中的随机误差和不确定性。adaptive LASSO logistic模型使用绝对系数函数作为惩罚项来压缩模型的系数,同时在参数估计时对于不同的系数分配了不同的权重。它既具有LASSO logistic回归模型的优点,同时参数的估计结果具有渐进无偏性和Oracle Property。adaptive LASSO logistic回归模型很好地克服了传统变量选择方法在选择模型方面的不足,同时又保留了子集选择和岭回归的优良性质,适合于多个影响因素研究中的变量选择问题。本研究以厦门市60岁及以上常住老年人的养老意愿数据为基础,拟合全变量logistic回归、逐步logistic回归和adaptive LASSO logistic回归模型。结果发现,adaptive LASSO logistic回归模型的AIC值和BIC值均小于全变量logistic回归、逐步logistic回归,说明adaptive LASSO logistic回归模型对数据的拟合效果最好。
老年人养老方式选择的影响因素较为复杂,往往受多种因素的影响。本研究的单因素分析、adaptive LASSO logistic回归模型、全变量logistic回归模型和逐步logistic回归模型均显示,居住地、年龄、文化程度、公费医疗和住院情况与养老方式的选择有关联。在本次调查中,城市老年人选择家庭养老的比例高于农村,而农村老年人选择机构养老的比例低于城镇;赵海林等人对淮安市的研究和谭小林等对重庆市老年人的调查也发现这样的差异性[13-14]。本研究发现随着年龄的增长,老年人选择家庭养老的可能性降低。刘小春等人对江西省的研究发现,年龄越长者越倾向于选择机构养老模式,年龄越小者越倾向于选择家庭养老模式或社区居家养老模式[15]。但陈玉兰等的研究发现,老年人的年龄越小,越倾向选择机构养老和社区居家养老[19]。国内多数学者均发现,文化程度是老年人养老意愿的影响因素,文化程度越高,选择机构养老和社区居家养老的比例越高,而文化程度越低,选择家庭养老的比例越高[15-17]。本研究还发现享有公费医疗的老年人选择机构养老和社区居家养老的比例高于未享有公费医疗的,而后者选择家庭养老的比例高于前者;曾住院的老年人选择机构养老和社区居家养老的比例高于未曾住院的,而后者选择家庭养老的比例高于前者。目前很少有学者关注公费医疗、住院情况与养老意愿的关系。本研究的adaptive LASSO logistic回归模型、全变量logistic回归和逐步logistic回归模型结果显示婚姻状况与老年人的养老方式选择有关,在婚的老年人选择社区居家养老的比例较高,而非在婚的老年人选择家庭养老和机构养老的比例较高。国内多项研究发现,婚姻状况与老年人的养老意愿有关[15,17]。
子女数、每月退休金收入仅在adaptive LASSO logistic回归模型中显示出与老年人养老意愿的相关性。随着老年人的子女数增多,与社区居家养老、机构养老相比,老人更有可能选择家庭养老,说明子女对于老年人的抚养对老年人养老方式的选择有一定的影响。顾永红等人对全国9个省份27个地级市进行的研究和刘小春等人的研究均显示子女数与老年人养老意愿之间的这种关系[15,18]。选择机构养老意味着老年人需要定期给养老机构支付一定数额的资金,需要一定的经济基础。本研究发现,每月养老金收入高于2000元的老年人,更有可能选择机构养老或社区居家养老。覃丹等人以湖南省某市开展的研究[19]和赵海林等人的研究[13]也得出了类似的结论,研究发现经济有保障和社会地位较高老年人群,退休金一般在2000元以上,对生活质量和精神文化生活要求较高,在生活方面比较独立,能够自费购买老年服务或者选择入住养老机构,在对养老模式的选择上更具有主动性[19]。
综上所述,adaptive LASSO logistic回归模型可用于老年人养老方式选择影响因素分析,得到的模型具有更好的解释性。老年人养老意愿受多个因素的影响,应加强农村、高龄、在婚、低文化程度、子女数较多、低收入、未享有公费医疗和未曾住院老年人的养老保障的覆盖及社会养老的宣传教育,开发有针对性的养老方式。
[1]中华人民共和国国家统计局.2010年第六次全国人口普查主要数据公报(第1号).中国计划生育学杂志,2011,54(8):511-512.
[2]Zou H.The adaptive lasso and its oracle properties.Journal of the American statistical association,2006,101(476):1418-1429.
[3]Breiman L.Better subset regression using the nonnegative garrote.Technometrics,1995,37(4):373-384.
[4]Fan J,Li R.Variable selection via nonconcave penalized likelihood and its oracle properties.Journal of the American statistical Association,2001,96(456):1348-1360.
[5]Shen X,Ye J.Adaptive model selection.Journal of the American Statistical Association,2002,97(457):210-221.
[6]张秀秀,王慧,田双双,等.高维数据回归分析中基于LASSO的自变量选择.中国卫生统计,2013,30(6):922-926.
[7]Tibshirani R.Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society,1996,58(1):267-288.
[8]陈江鹏,彭斌,文雯,等.微阵列数据中的先验信息对基于LASSO变量选择方法影响的模拟研究.中国卫生统计,2015,32(3):407-409.
[9]Meinshausen N,Bühlmann P.High-dimensional graphs and variable selection with the lasso.The annals of statistics,2006,34(3):1436-1462.
[10]Donoho DL,Elad M.Optimally sparse representation in general(nonorthogonal) dictionaries via l1 minimization.Proceedings of the National Academy of Sciences,2003,100(5):2197-2202.
[11]Donoho DL,Huo X.Uncertainty principles and ideal atomic decomposition.Information Theory,IEEE Transactions on,2001,47(7):2845-2862.
[12]Friedman J,Hastie T,Tibshirani R.Regularization paths for generalized linear models via coordinate descent.Journal of statistical software,2010,33(1):1.
[13]赵海林.淮安市老年人养老模式选择意愿实证分析.南京人口管理干部学院学报,2012,28(2):9-12.
[14]方匡南,章贵军,张惠颖.基于Lasso-logistic模型的个人信用风险预警方法.数量经济技术经济研究,2014(2):125-136.
[15]刘小春,李婵.中部欠发达地区城镇居民养老模式选择行为实证分析——基于江西省的调查数据.社会保障研究,2014(2):24-31.
[16]陶涛,丛聪.老年人养老方式选择的影响因素分析——以北京市西城区为例.人口与经济,2014,(3):15-22.
[17]扈映,杨康,舒泰.农村居民养老居住意愿选择的实证研究.调研世界,2014,(8):24-29.
[18]顾永红.农村老年人养老模式选择意愿的影响因素分析.华中师范大学学报(人文社会科学版),2014,53(3):9-15.
[19]覃丹.城市老年人养老需求及养老模式选择研究.华中师范大学,2015.
(责任编辑:郭海强)
Influencing Factors on Elder’s Preference for Supporting:Application of an adaptive LASSO logistic Model
Han Yaofeng,Qin Wenfeng,Chen Wei,et al
(SchoolofPublicHealth,XiamenUniversity(361102),Xiamen)
Objective This study was aimed to analyze influencing factors on elder’s preference for supporting in case to provide evidence for diversified elderly supporting.Methods This article applied an adaptive LASSO logistic model to the multi-stage cluster sampling data of the population aged 60 or older in Xiamen to analyze influencing factors on elder’s preference for supporting.Cross validation method was used to choose λ for adaptive LASSO logistic model.In addition,we evaluated the model fitting of adaptive LASSO logistic model by comparing the BIC and AIC with full logistic model and stepwise logistic model.Results The cross validation method resulted in λ=0.018 for adaptive LASSO logistic model,in which variables retained were residence,age,marital status,education level,number of children,the monthly pension income,medical insurance and hospitalization.BIC of adaptive LASSO logistic model,full logistic model and stepwise logistic model were 1931,2077and 2025 respectively.And AIC of the three models were 1888,1923 and 1912 respectively.Conclusion Compared to full logistic model and stepwise logistic model,adaptive LASSO logistic model was the best fitting model for influencing factors on elder’s preference for supporting.Adaptive LASSO logistic model could be used to analyze influencing factors on elder’s preference for supporting.There were multiple factors which influenced elder’s preference for supporting.
Adaptive LASSO logistic model;Elderly supporting;Influencing factors
厦门大学大学生创新创业训练计划项目(2015Y0827)
1.厦门大学公共卫生学院(361102)
2.卫生技术评估福建省高校重点实验室
△通信作者:fangya@xmu.edu.cn