基于Gibbs-DA算法的贝叶斯分位回归模型研究*
2014-09-18朱慧明曾昭法任英华李招来
朱慧明,翁 元,曾昭法,任英华,李招来
(1.湖南大学 工商管理学院,湖南 长沙 410082;2.湖南大学 金融与统计学院,湖南 长沙 410079)
回归分析模型是实践中应用广泛的一类统计模型,如果模型中的随机扰动项来自均值为零而且同方差的分布,回归系数的OLS估计具有最佳线性无偏性,并且,如果随机扰动项服从正态分布,回归系数的OLS估计量和ML估计为最小方差无偏估计.但是,在现实社会经济系统中,这些假设条件通常难以得到满足,例如,数据可能出现尖峰或厚尾分布和异方差等问题,此时OLS估计量不再具有上述优良性.为了弥补OLS估计方法的不足之处, Koenker和Bassett[1]提出了分位回归模型的建模思想.与OLS方法相比,分位回归通过加权误差绝对值之和最小化方法得到参数的估计,这些估计量不容易受到异常值的影响,稳健性强.分位回归模型在金融风险度量、时间序列和生存分析等领域中获得了广泛应用[2-5].
分位回归模型参数估计方法很多,例如,对偶单纯形估计算法、内点法和外点法等.但是,它们是建立在经典统计理论基础之上,参数是固定不变常数.为了考虑参数不确定性问题,Yu和Moyeed[6],Tony和Sung[7],Tsionas[8]和曾惠芳[9]等利用MCMC抽样方法构建贝叶斯分位模型.但是,它们没有研究模型参数的随机抽样问题.本文利用Gibbs抽样和数据扩展(Data Augmentation,DA)算法,构建基于Gibbs-DA抽样算法的贝叶斯分位回归模型,解决模型参数不确定性风险问题.
1 非对称Laplace分布的混合表示
定义1如果随机变量U具有如下密度函数:
(1)
则称U服从位置参数μ,尺度参数σ和偏度参数τ的非对称Laplace分布,记作U~ALD(μ,σ,τ).特别地,当μ=0,σ=1时,记作U~ALD(τ).如果随机变量U服从非对称Laplace分布ALD(μ,σ,τ),则它的数学期望和方差如下:
U的特征函数为:
(2)
非对称Laplace分布与指数分布、正态分布之间存在密切关系:服从非对称Laplace分布的随机变量可以用指数分布、正态分布的随机变量的函数来表示.如果U1,U2分别服从指数分布Exp(1)和正态分布N(0,1),并且两者相互独立,记:
(3)
(4)
这就是μ=0,σ=1时非对阵Laplace分布的特征函数.根据特征函数的唯一性定理可知:U~ALD(τ).
2 贝叶斯分位回归算法
假设y与p维变量x之间具有线性函数关系:
y=x'β+ε
(5)
此处β=(β1,β2,…,βp)',随机误差项ε的概率分布函数为F.显然,对于给定的x,随机变量y的τ分位数等于x'β+F-1(τ),即:
Qy(τ|x,β)=x'β+F-1(τ)
(6)
其等价形式为:
Qy(τ|x,β(τ))=x'β(τ)
(7)
此处β(τ)=(β1(τ),β2(τ),…,βm(τ))',也就是说,β(τ)与分位数τ的取值大小有关.
假设(x1,y1),(x2,y2),…,(xn,yn)是(x,y)的一组观察值,则β(τ)的估计为:
(8)
其中ρτ(u)=u(τ-I(u<0))为损失函数,I(u<0)为示性函数.由于
(9)
等价于
(10)
而后者恰好是非对称Laplace变量的联合分布密度函数的核,因此,根据非对阵Laplace分布的性质,分位回归建模问题可以进一步转化为
i=1,2,…,n
(11)
中的参数β(τ);此处zi,ui相互独立,zi服从标准指数分布Exp(1),ui服从标准正态分布;模型(8)称为数据扩展模型,zi称为潜变量(latent variable).
则模型(8)可以简化为如下矩阵形式:
(12)
L(Y|X;Z,β(τ))
(13)
由于Z的分量相互独立,并且均服从标准指数分布Exp(1),其概率分布密度函数
(14)
为了进行贝叶斯分析,需要进一步设置分位回归模型参数的先验分布.根据文献[10]的观点,选择如下均值向量β0,协方差阵Σ0的多元正态分布作为模型参数β(τ)的先验分布,即
β(τ)~Np(β0,Σ0),β0∈Rp,Σ0>0
(15)
此处β0,Σ0可以由Koenker的经典分位回归方法确定.根据贝叶斯定理,潜变量和参数的后验分布密度与似然函数、先验分布密度的乘积成正比,即:
(16)
为了能够进行MCMC抽样算法,研究潜变量和参数完全条件后验分布.
1)参数β(τ)的完全条件后验分布.通过π(β(τ),Z|Y,X)关于β(τ)的积分运算,获得Z的边缘后验分布密度函数π(Z|Y,X),据此计算β(τ)的完全条件后验分布密度函数π(β(τ)|Y,X'Z).不难验证:参数β(τ)的完全条件后验分布密度函数为
(17)
显然,β(τ)的完全条件后验分布是均值μβ(τ),协方差阵Στ的正态分布,即
(β(τ)|Y,X;Z)~Np(μβ(τ),Στ)
(18)
2)潜变量U的完全条件后验分布.同样地,通过π(β(τ),Z|Y,X)关于Z的积分运算,求出参数β(τ)的边缘后验分布密度函数π(β(τ)|Y,X),据此进一步计算Z的完全条件后验分布密度函数π(Z|Y,X;β(τ)).对于给定的Y,X和β(τ),Z的完全条件后验分布密度函数为:
(19)
(zi|Y,X;β(τ))~GIG(1/2,χi,ψ),
i=1,2,…,n
(20)
其分布密度函数为
π(Z|Y,X;β(τ))
其中
根据潜变量Z和模型参数β(τ)的完全后验条件分布,确定贝叶斯分位回归模型的MCMC抽样步骤:
Step 1.设置参数β(τ)的初始值β(0)(τ),以及样本量lN.并且,假设(Z(j-1),β(j-1)(τ))为(Z,β(τ))的第j-1次抽样结果;
以上是基于Gibbs-DA抽样的单链条算法.当然,为了便于分析Markov链的平稳性,也利用Gibbs-DA抽样同时生成β(τ)的多条链.例如,给定β(τ)的m个初始值{β(i0)(τ),i=1,2,…,m},生成如下m个长度为lN的Markov链:
然后,根据Gelman-Rubin收敛诊断检验统计量分析Markov链{β(ij)(τ),i=1,…,m;j=1,…,lN}的收敛性问题.如果Gelman-Rubin检验统计量的取值介于1.0到1.2之间,则链条达到平稳状态,此时利用样本{(Z(i, lj),β(i, lj)(τ)),i=1,2,…,m;j=M+1,M+2,…,N},对模型参数进行统计推断,求出模型参数点估计及置信水平1-α的区间估计,并对模型进行拟合分析.
3 实证研究
作为上述方法的应用,我们考虑我国历年能源消耗弹性的贝叶斯分位回归问题.模型变量包括能源消耗总量(y,单位:万吨标准煤)、国内生产总值(GDP,单位:亿元),以及第二产业所占比重(P,单位:%)数据研究.数据来源于历年 《中国统计年鉴》、《中国能源统计年鉴》,涉及全国30个省市自治区(不含西藏),同时,为了便于比较分析,GDP数据按2005年价格计算.能源消耗总量、国内生产总值和第二产业所占比重之间存在如下关系:
ln (y)=β0+β1ln (GDP)+β2ln (P)+ε
此处P=GDP2/GDP×100;β1表示能源消耗的GDP弹性系数,而β2为能源消耗的产业结构弹性系数.
首先,利用2010年全国30个地区的数据,分别建立3个分位点(τ=0.25,0.50和0.75)的贝叶斯分位回归模型.为此,运用Quantreg初步估计分位回归模型系数,并将估计结果作为贝叶斯分位回归模型参数先验分布的均值向量;同时,参数先验分布的协方差矩阵如下:Σ0=diag(1 000,1 000,1 000).为获得模型参数的贝叶斯估计,通过运用R2WinBUGS软件,对每个参数模拟生成两条Markov链,每条Markov链的迭代次数均为100 000次,以确保Markov链的收敛性.在MCMC模拟初始阶段,Markov链取值可能与参数的初始值选择有关,为此,舍弃每条链的前50 000次抽样结果,利用余下的50 000次数据进行统计分析.表1给出了分位回归模型系数的贝叶斯估计结果.
表1 分位回归模型参数的贝叶斯估计结果
根据表1所列出的计算结果,0.25分位点的GDP弹性系数为0.681 2,也就是说,在产业结构保持不变的条件下,GDP增加大于1%,能源消耗总量增加0.681 2%;0.75分位点的GDP弹性系数为0.491 2,低于0.25分位点的估计值;与能源消耗的GDP弹性系数情况不同,0.75分位点的产业结构弹性系数的取值为1.016 0,大于0.25分位点的产业结构弹性系数.为了能够从时间维度和不同分位点两个方面分析能源消耗总量与GDP、产业结构之间的关系,利用2001-2009年的统计数据,根据前面的建模思路,进一步构建0.25,0.50和0.75三个分位点的贝叶斯分位回归分析模型,合计27个模型.
表2汇总了2001-2010年能源消耗的GPD弹性系数,即:30个分位回归模型系数 的估计,该表最后一列等于(β1(0.25)-β1(0.75))/β1(0.75)×100. 从时间维度来看,2001-2010年3个分位点的GDP弹性系数变化不大,但是,0.75分位点的GDP弹性系数明显小于0.25分位点的弹性系数.由于0.75分位点代表能源消费量较高的地区,主要是东部地区;而0.25分位点代表能源消费量低的地区,主要是中、西部地区.这说明我国东部整体单位经济增长所消耗的能源少于中、西部整体单位经济增长所消耗的能源,东部的能源利用率和节能力度优于中、西部.
表2 2001-2010年能源消耗的GDP弹性系数
表3汇总了2001-2010年能源消耗的产业结构弹性系数,即:30个分位回归模型系数β2的估计,该表的最后一列等于(β2(0.75)-β2(0.25))/β2(0.25)×100. 从时间维度来看,2001-2010年三个分位点的产业结构弹性系数下降趋势明显,但是,与GDP弹性系数情况不同,0.75分位点的产业结构弹性系数大于0.25分位点的弹性系数.这说明2001-2010年东部的高产出相对西部来说是依靠高能耗实现的.
表3 2001-2010年能源消耗的产业结构弹性系数
4 结 论
本文讨论了贝叶斯线性分位回归模型的构建、MCMC仿真分析及其应用问题.通过模型的统计结构分析,根据非对称Laplace分布的正态—指数分布的混合表示性质,利用服从指数分布的潜变量,据此获得模型的似然函数,推断了多元正态先验分布条件下分位回归模型参数的后验分布,证明了潜变量的完全条件分布为广义逆高斯分布.在此基础上,根据MCMC仿真分析思想,设计了贝叶斯分位回归模型的Gibbs-DA随机抽样步骤及统计分析.利用我国2001-2010年期间各地区的能源消耗总量,GDP和产业结构数据进行实证分析,研究结果表明,贝叶斯方法可以有效地应用于分位回归建模问题.
[1]KOENKER R, BASSETT G. Regression quantiles[J]. Econometrica, 1978, 46(1): 33-50.
[2]WOLTERS M H. Estimating monetary policy reaction functions using quantile regressions[J]. Journal of Macroeconomics, 2012, 34(2): 342-361.
[3]BAUR D G , DIMPFL T, JUNG R C. Stock return autocorrelations revisited: A quantile regression approach[J]. Journal of Empirical Finance, 2012, 19(2): 254-265.
[4]FITZENBERGER B F, KOENKER R, MACHADO J A F. Economic applications of quantile regression[M]. Heidelberg: Sprink, 2002:135-148.
[5]罗幼喜,田茂再.面板数据的分位回归方法及其模拟研究[J]. 统计研究, 2010, 27(10): 81-87.
LUO You-xi,TIAN Mao-zai. Quantile regression for panel data and its simulation study [J]. Statistical Research, 2010, 27(10): 81-87.(In Chinese)
[6]YU K M, MOYEED R A. Bayesian quantile regression[J]. Statistics & Probability Letters, 2001, 54(4): 437-447.
[7]TONY L, SUNG J J. Bayesian quantile regression methods[J]. Journal of Applied Econometrics, 2010, 25(2): 287-307.
[8]TSIONAS E G. Bayesian quantile inference[J]. Journal of Statistical Computation and Simulation,2003,73(9): 659 - 674.
[9]曾惠芳,朱慧明,李素芳,等.基于MH算法的贝叶斯分位自回归模型[J].湖南大学学报:自然科学版,2010,37(2):88-92.
ZENG Hui-fang, ZHU Hui-ming, LI Su-fang,etal.Bayesian inference on the quantile autoregressive models with MH algorithm[J]. Journal of Hunan University: Natural Sciences, 2010,37(2):88-92. (In Chinese)
[10]ALHAMZAWI R, YU K M. Power prior elicitation in bayesian quantile regression[J]. Journal of Probability and Statistics, 2011, 3(1): 1-16.