二元选择分位回归的自适应LASSO改进
2018-11-02李楚进张翠霞
李楚进 张翠霞
摘 要 为避免模型出现过拟合,将自适应LASSO变量选择方法引入二元选择分位回归模型,利用贝叶斯方法构建Gibbs抽样算法并在抽样中设置不影响预测结果的约束条件‖β‖=1以提高抽样值的稳定性.通过数值模拟,表明改进的模型有更为良好的参数估计效率、变量选择功能和分类能力.
关键词 应用统计数学;分位回归;自适应LASSO; 变量选择;二元选择模型
中图分类号 O212.1 文献标识码 A
Abstract Binary quantile regression model with the adaptive LASSO penalty is proposed for overfitting problems by presenting a Bayesian Gibbs sampling algorithm to estimate parameters. In the process of sampling, the restriction on ‖β‖=1 is motivated to improve the stability of the sampling values. Numerical analysis show there are better improvements of the proposed method in parameter estimation, variable selection and classification.
Key words applied statistics & mathematics; quantile regression; adaptive LASSO; variable selection; binary regression
1 引 言
二元选择模型是一种离散选择模型,被广泛用于经济、医学、生物和教育等领域,其常见形式有线性概率模型、Probit模型和Logit模型等.这些模型均为条件均值模型,刻画的是响应变量的平均水平.当数据出现尖峰后尾或结构突变等特征时,用条件均值并不能够准确揭示变量之间的关系.Koenker和Bassett(1978)[1]系统介绍了分位回归的思想.分位回归聚焦在条件分位数上,通过变动分位水平来揭示特定情形下响应变量与解释变量的关系,挖掘的信息更加具体、丰富.特别的,Manski(1975)[2]阐述了二元选择分位回归的思想,并提出模型参数的极大得分估计.Yu和Moyeed(2001)[3]证明了在不考虑数据原始分布时,利用非对称拉普拉斯分布(ALD)来建立贝叶斯分位数回归是一种非常自然且有效的方法.Benoit和Van den Poel(2012)[4]年提出了基于ALD 的二元選择分位回归模型的贝叶斯估计方法.
为了消除因缺少重要解释变量而造成的模型偏差,通常将尽可能多的变量纳入模型,而这又可能会使模型出现过拟合问题.因此,如何从众多变量中选出重要变量来构建模型意义重大.Tibshirani(1996) [5]提出LASSO方法,通过对解释变量施加非线性约束以实现变量的压缩与选择.但实际上,解释变量对响应变量的影响程度往往是各不相同的,从而添加LASSO惩罚项得到的估计量一般是有偏的.Zou(2006) [6]考虑引入权重向量来克服LASSO过度压缩参数的问题,提出了改进的自适应LASSO算法;并且指出,如果能合理选择权重向量,自适应LASSO的效果会很好.Benoit、Alhamzawi和Yu(2013)[7]将LASSO方法引入二元选择分位回归模型以研究高维问题,利用Laplace似然比与似然先验构建估计,并通过贝叶斯MCMC实现参数估计,证实模型改进效果很好.Hashem、Vinciontti、 Alhamzawi和Yu(2016)[8]将组LASSO引入二元选择分位回归模型,利用贝叶斯Gibbs抽样估计模型参数,并实现对群组内变量的选择.Ji、Lin和Zhang(2012)[9]用随机搜索变量方法结合二元选择分位回归进行建模,实证和数值分析都有很好的表现.
这里,尝试利用贝叶斯方法构建基于自适应LASSO的二元选择分位回归模型,通过数值模拟和实证分析来验证该模型的参数估计效率、变量选择功能和分类能力等.
5 结 论
为避免分位回归模型出现过拟合,引入自适应LASSO变量选择方法改进模型. 首先,提出一种自适应的Laplace先验,对不同的解释变量系数考虑不同程度的惩罚,建立基于自适应LASSO二元选择分位回归的贝叶斯分层模型.接着,构造一种容易实现的Gibbs抽样算法,特别在抽样过程中施加不影响预测结果的约束条件‖β‖=1以提高抽样值的稳定性,并基于后验样本对模型进行参数估计.随后,通过数值模拟表明,所采用的贝叶斯Gibbs算法是恰当的、有效的,得到的参数估计值能够准确和全面地反应各解释变量对响应变量的影响程度,并通过比较分析说明基于自适应LASSO变量选择方法改进的模型具有良好的变量选择能力和分类能力.最后,利用改进模型对UCI机器学习公开数据集中的德国信用数据进行建模分析,并考虑与其它模型进行对比分析.实证结果表明,自适应LASSO二元选择分位回归方法能够准确刻画数据的分布特征,识别出对个人信用有重要影响的因素,便于信贷机构决策者有针对性地对申请者进行信用评估,降低非重要因素的搜集成本和管理成本等.
参考文献
[1] Roger Koenker, Gilbert Bassett, Regression Quantiles [J]. Econometrica, 1978, 46(1):33-50.
[2] Charles F. Manski, Maximum score estimation of the stochastic utility model of choice [J]. Journal of Econometrics, 1975, 3(3):205-228.
[3] Keming Yu, Rana A. Moyeed, Bayesian quantile regression [J]. Statistics & probability Letters, 2001, 54(4):437-447.
[4] Dries F. Benoit, Dirk Van den Poel, Binary quantile regression: a Bayesian approach based on the asymmetric Laplace distribution [J].Journal of Applied Econometrics, 2012, 27(7):1174-1188.
[5] Robert Tibshirani, Regression shrinkage and selection via the LASSO [J].Journal of the Royal Statistical Society, Series B, 1996, 58(1):267-288.
[6] Hui Zou, The adaptive LASSO and its oracle properties [J]. Journal of the American Statistical Association, 2006, 101(476):1418-1429.
[7] Dries F. Benoit, Rahim Alhamzawi, Keming Yu, Bayesian lasso binary quantile regression [J].Computational Statistics, 2013, 28(6):2861-2873.
[8] Hussein Hashem, Veronica Vinciontti, Rahim Alhamzawi, Keming Yu., Quantile regression with group lasso for classification [J]. Advances in Data Analysis and Classification, 2016, 10(3):375-390.
[9] Yonggang Ji, Nan Lin, Baoxue Zhang, Model selection in binary and tobit quantile regression using the Gibbs sampler[J]. Computational Statistics & Data Analysis, 2012, 56(4): 827-839.
[10]Beong In Yun, Transformation methods for finding multiple roots of nonlinear equations [J]. Applied Mathematics and Computation, 2010, 217(2): 599-606.