岭回归分析中广义岭估计的一种改进方法
2017-08-09赵东波
赵东波
【摘要】对于多重共线性条件下线性回归模型系数的有偏估计,统计学家提出了岭回归估计,Hoerl和Kennard提出了广义岭估计[1].本文主要讨论广义岭估计的进一步推广,基于均方误差和均方残差的比较,给出一种解决问题的新方法.
【关键词】线性回归模型;广义岭估计;均方误差;均方残差
一、引言
为消除或减弱设计阵的复共线性对参数估计的不良影响,国内外学者提出了各种有偏估计,如,岭估计[2]、主成分估计等等,这些估计在均方误差意义下可以优于LS估計[3].但是,在某种情况下还有一定的缺陷.
定义1[4]我们引进线性回归模型的典则形式:
Y=Zα+ε,E(ε)=0,Cov(ε)=σ2In,(1)
这里,Z=XΦ称为典则变量,α=Φ′β称为典则参数,其中Φ=(φ1,φ2,…,φp),且φ1,φ2,…,φp为X′X的对应特征根λ1≥λ2≥…≥λp>0的标准化特征向量.所以Z′Z=Λ=diag(λ1,λ2,…,λp).则α的LS估计为=(Z′Z)-1Z′Y=Λ-1Z′Y.其狭义岭估计为(k)=(Λ+kI)-1Z′Y=(Λ+kI)-1Φ′X′Y.在岭回归估计法的基础上,有学者提出了广义岭回归估计法,定义为β(k)=(X′X+ΦKΦ′)-1X′Y,其中K=diag(k1,k2,…,kp)>0.
本文主要是在前人提出的广义岭估计的基础上,对其中的一部分做了进一步的探讨与研究,并加以改进.首先,讨论广义岭估计的主要缺陷.
第一,只有在较小特征根所对应的特征向量的方向上估计才是不精确的,而在大的特征根所对应的特征向量的方向上估计是准确的.因此,我们只需要修正X′X全部对角元的一部分就可以,也就是只对X′X的接近于0的特征根进行修正.广义岭估计其实是对β进行了过分的压缩.
第二,广义岭估计的残差平方和为
RSS(K)=(Y-Xβ(K))′(Y-Xβ)
=(Y-Xβ)′(Y-Xβ)+(β(K)-β)′X′X(β(K)-β)
=RSSmin+ΔRSS.
这说明广义岭估计在降低均方误差的同时,又使得残差平方和增大.为了得到良好的拟合效果,我们当然要降低均方误差以使估计更接近真值,但又不能不顾及残差平方和的增大.
定义2[5]对于线性回顾模型,定义1-k型广义岭估计β1-k(K)=(X′X+ΦK0Φ′)-1X′Y.
其中,K0=11ki+1kp,k>0,i=t,t+1,…,p.
设X′X的较大的特征根有t个,t为正整数,且0≤t≤p,则需要修正的小特征根有(p-t)个.在多重共线性的情况下,X′X的特征根发生两极分化的结果可以人为地确定该对哪些特征根进行修正.由定义可以看出,β1-k(K)是广义岭估计类β(K)的一种估计.当ki=0,i=1,2,…,p时,β1-k(K)即化为LS估计.对于线性回归方程典则形式(1),定义1-k型广义岭估计α1-k(K)=(Λ+K0)-1Z′Y式中,Z=XΦ,α=Φ′β,其中Φ=(φ1,φ2,…,φp),且φ1,φ2,…,φp为X′X的对应特征根λ1≥λ2≥…≥λp>0的标准化特征向量.所以Z′Z=Λ=diag(λ1,λ2,…,λp).K0定义同上.
二、对β1-k(K)与β(K)的均方误差(MSE)进行比较分析
因为β1-k(K)是β(K)的一种特殊情况,先来看β(K)的MSE.
MSE(β(K))=σ2∑pi=1λi(λi+ki)2+∑pi=1k2iα2i(λi+ki)2 .
其中,K=diag(k1,k2,…,kp)>0,对ki(i=1,2,…,p)求偏导数,并令其偏导数为0,得MSE(β(K))ki=2α2ikiλi(λi+ki)3-2σ2λi(λi+ki)3=0.解出,当ki=σ2α2i(i=1,2,…,p)时,MSE(β(K))达到最小.
将上式中正定对角阵K用本文提出的K0替换,即得
MSE(β1-k(K0))=E‖β1-k(K0)-β‖2
=tr[Cov(β1-k(K0))+(Eβ1-k(K0))-β(E(β1-k(K0))-β)′]
=σ2tr((Λ+K0)-1Λ(Λ+K0)-1Φ′Φ)+tr[Φ((Λ+K0)-1Λ-I)αα′((Λ+K0)-1Λ-I)Φ′]
=σ2∑ti=1λi(λi+1)2+σ2∑pi=t+1λi(λi+ki)2+∑pi=t+1k2iα2i(λi+ki)2 .
同理,当ki=σ2α2i(i=t+1,t+2,…,p)时,MSE(β1-k(K0))达到最小.此时,将ki=σ2α2i(i=1,2,…,t)代入,得
MSE(β(K))-MSE(β1-k(K0))
=σ2∑ti=1λi(λi+ki)2+∑ti=1k2iα2i(λi+ki)2-σ2∑ti=1λi(λi+1)2
=∑ti=11+2λi-kiλi(1+λi)2(λi+ki).(2)
另外,当ki→0(i=1,2,…,p)时,MSE(β(K))ki=2α2ikiλi(λi+ki)3-2σ2λi(λi+ki)3<0.MSE(β(K))ki在ki≥0是连续函数,于是当ki充分小,MSE(β(K)) 由此可以得到结论,改进后减小了多重共线性对参数估计的危害.在理论上MSE(β1-k(K))的最小值要大于MSE(β(K))的最小值.虽然前者比后者的对于LS估计β的改进小,但是这种改进还是合理的.后者改进偏大,超过了应该压缩的程度.
三、对β1-k(K)与β(K)的均方残差(MSR)进行比较分析
由上可知
MSE(β(K))=E(RSS(β(K)))
=E(Y-Xβ(K))′(Y-Xβ(K))
=E[(Y-Xβ)′(Y-Xβ)+(β(K)-β)′X′X(β(K)-β)]
=MSR(β)+ΔMSR(β(K)).
其中,MSR(β)=(n-p)σ2为参数β所有估计的均方残差的最小值.ΔMSR为广义岭估计对LS估计的修正所造成的MSR的增量,下面我们来考虑ΔMSR项.
ΔMSR(β(K))=E‖Xβ(K)-Xβ‖2
=E‖Zα(K)-Zα‖2
=E[Z(Λ+K)-1Λα+Z(Λ+K)-1Z′ε-Zα-ZΛ-1Z′ε]·[Z(Λ+K)-1Λα+Z(Λ+K)-1Z′ε-Zα-ZΛ-1Z′ε]
=α′((Λ+K)-1Λ-I)Λ((Λ+K)-1Λ-I)α+σ2tr(Λ-1((Λ+K)-1Λ-I)Λ((Λ+K)-1Λ-I))
=∑pi=1λiα2ik2i(λi+ki)2+σ2∑pi=1k2i(λi+ki)2,
式中的K阵同上定义.将上式中正定对角阵用本文提出的K0替换,即得
ΔMSE(β1-k(K0))=E‖Xβ1-k(K0)-Xβ‖2
=E‖Zα1-k(K0)-Zα‖2
=α′((Λ+K0)-1Λ-I)Λ((Λ+K0)-1Λ-I)α+σ2tr(Λ-1((Λ+K0)-1Λ-I)Λ((Λ+K0)-1Λ-I))
=∑ti=1λiα2i+σ2(1+λi)2+∑pi=t+1(σ2+λiσ2i)k2i(λi+ki)2,
MSR(β(K))-MSR(β1-k(K0))
=∑ti=1(σ2+λiα2i)k2i(λi+ki)2-∑ti=1λiα2i+σ2(1+λi)2
=∑ti=1(σ2+λiα2i)[k2i(1+λi)2-(λi+ki)2](λi+ki)2(1+λi)2
=∑ti=1(σ2+λiα2i)λ2i(k2i-1)(λi+ki)2(1+λi)2.
若想得到MSR(β(K))>MSR(β1-k(K0)),則需要k2i>1.
综上所述,当1 MSE(β(K0)) MSR(β) 当ki>1λi+2时, MSE(β(K)) MSR(β) 四、结束语 以上对广义岭估计参数的改进是有效的,此时减小了广义岭估计过度膨胀的残差平方和.广义岭估计在降低均方误差的同时使得残差平方和增大,对数据的拟合变坏.以上对广义岭估计的尝试性改进有其合理性,但是其使用范围还是有限的. 【参考文献】 [1]Hoerl A E,Kennard R W.Ridge Regression,Biased Estimation for Nonorthogonal Problems[J].Technometrics,1970(12):55-67 [2]何秀丽.多元线性模型与岭回归分析[D].武汉:华中科技大学,2005. [3]戴俭华,等.岭估计优于最小二乘估计的条件[J].数理统计与应用概率,1994(2):53-58. [4]何良材.岭回归估计β^(k)的一个特性及其应用[J].重庆大学学报,1990(13):127-133. [5]李兵.线性回归模型参数有偏估计的进一步探讨[D].桂林:桂林电子科技大学,2007.