谬误回归中相关参数及统计量的极限分布与样本特征
2015-04-25范传棋
范传棋
(西南财经大学 中国西部经济研究中心,成都 611130)
0 引言
Rule在研究1866年到1911年英国的人口死亡率和教堂举行婚礼次数关系时发现二者具有很高的相关关系。如果将1950年到2011年间俄罗斯的人口数量与中国的人口数量进行回归,我们会得出同样的结论。在时间序列中分析中,如果对两个独立的时序列建立回归模型,我们有时会得出两个序列之间具有很高拟合度的结论,各个回归参数也具有统计学意义,这种现象称为谬误回归,在统计上也称为无意义相关。当出现谬误回归时,回归参数的估计特征异于经典单方程回归模型中各个参数的估计特征,同时相关统计量的分布不再满足正态分布特征。国内外学者在一元谬误回归方面做了大量的研究,1974年Granger and Newbold针对回归方程各个系数在统计学上显著,可决系数R2值接近1,而DW统计量接近0的现象做了分析,他们利用蒙特卡罗模拟方法证明了即使是两个独立的随机游走序列在做回归的时候也会出现谬误回归现象;1986年Phillips运用泛函中心极限定理从理论上揭示了谬误回归的表现,推导出了两个独立的随机游走变量回归时几个常用统计量的极限分布,指出谬误回归的t和F统计量的分布都是发散的;2004年Kim,Lee and Newbold研究发现谬误回归现象不仅仅发生在非平稳时间序列中,也存在于独立的趋势平稳时间序列中。张凌翔,张晓峒运用蒙特卡罗模拟方法对结构突变平稳过程与随机趋势过程中的谬误回归进行了研究,指出出现谬误回归时F统计量的极限分布是发散的,DW统计量以概率收敛于0,R2具有不退化的极限分布,并且在有限样本条件下谬误回归发生的概率较大。本文将Granger and Newbold的谬误回归理论以及Phillips泛函中心极限定理结合起来,利用蒙特卡罗模拟方法考察OLS下出现谬误回归时相关参数及常用统计量的极限分布。
1 谬误回归的极限定理解释
考察如下两个随机游走时间序列{yt}和{xt}:
其中W(t)是在C[0,1]上一个独立的维纳过程,对于序列{yt}上式的推导同样成立,序列{yt}中的维纳过程用V(t)表示,当T→∞时,式(2)中的各个系数与统计量满足
下列特征:
2 谬误回归时相关参数及各统计量的极限分布与样本特征
本文用于研究的数据均由式(1)生成,检验水平设置为5%;为了考察随着样本容量的增加,各个相关参数以及统计量呈现出的变化规律与分布特征,将样本分为十位样本、百位样本以及千位样本,百位样本选取T=20,40,60,80 ,100;千位样本选取T=200,400,600,800,1000;万位样本选取T=2000,4000,6000,8000,10000。
2.1 R2的极限分布与样本特征
R2是衡量回归方程拟合优度的统计量,在判别谬误回归中R2是一个很重要的判别指标。在出现谬误回归时,其分极限分布与样本特征异于经典回归方程中的R2分布形式与样本特征,其极限分布见图1(图1中纵坐标为当解释变量的t统计量显著时R2的频数F,横坐标为R2值),R2的样本特征见表1。
图1 10000次模拟的R2极限分布图
从图1中可以看出,尽管随机游走序列{yt}和{xt}之间是相互独立的,但是在解释变量的t统计量显著时,R2>0.5的频数F=1631次,即在10000次模拟回归中R2>0.5出现了1631次,从理论上来讲,在这10000次模拟回归中R2的值都应该为零,因此可以认定此次模拟回归出现了谬误回归。此时R2极限分布的偏度S=0.859>0,峰度K=2.685<3,JB=1271.4(数据见表1),其不满足正态分布特征,R2极限分布呈现低峰、薄尾、右偏的分布特征,具有一个不退化的极限分布。
表1 10000次模拟R2的样本特征
表1给出了出现谬误回归时,R2随着样本的增加而表现出的样本特征。可以看出随着样本的增加,标准差Std、偏度S、峰度K以及JB统计量变化不大,基本上保持稳定,而F值随着样本容量的增加而递增,也就是说在谬误回归中R2的分布是稳定的,其并不随着样本的增加而发生改变,同时样本容量的增加不但未能弱化谬误回归反而增加了出现谬误回归的可能性。
2.2 DW统计量的极限分布与样本特征
DW统计量是利用残差构成的统计量来推断误差项是否存在自相关,DW统计值的范围为[0,4],其为0的情况是很罕见的。下文给出了10000次模拟DW统计量的极限分布图,见图2,以及DW统计量的样本特征,见表2。
图2 DW统计量的极限分布图
从图2中可以看出,DW统计量值都小于0.01,DW统计量偏度S=1.402>0,峰度K=6.193>3,JB=7527(见表2),DW统计量的极限分布不满足正态分布特征,呈现高峰、厚尾、右偏的分布特征。
表2 DW统计量的样本特征
表2为在出现谬误回归时,DW统计量随着样本的增加而表现出的样本特征。DW统计量的标准差和均值均随着样本的增加而不断的趋近于0,当样本无穷大时,DW统计量以概率收敛于0;DW统计量的偏度随着样本的增加并没有发生太大的变化,而DW统计量的峰度和JB统计量随着样本的增减而递增,其高峰、厚尾、右偏的分布特征并未随着样本的增加而改变。
2.3 t(α)的极限分布与样本特征
t(α)为归方程中常数项的t统计量,出现谬误回归时,其极限分布与参数特征也同样会发生改变。
从图3中可知 t(α)为一个对称分布,其偏度S=-0.0145<0,峰度K=3.3347>3(见表3),其极限分布不满足正态分布的特征,呈现高峰、厚尾、左偏的分布特征。
图3 t(α)的极限分布图
表3 t(α)的样本特征
从表3中可知,在谬误回归的前提下,t(α)的标准差是随着样本的增加而不断递增的,也就是说t(α)是发散的,并未收敛于某个值;t(α)的偏度随着样本的增加并未呈现出较强的规律性,但S值始终大于0,JB统计量随着样本的增加呈现递增的趋势,可以肯定的是t(α)的极限分布不再服从正态分布。
2.4 α的极限分布与样本特征
α为回归方程中常数项系数,在发生谬误回归时,其相关参数与各个统计量随着样本容量的增加发生着不同的变化,见表4,随着样本的增加,α的均值绝对值不断递增,同时α的标准差随着样本的增加也在不断地递增,也就是说α随着样本容量的增加而发散,并不会收敛与某一值。由于S不等于0、K不等于3,所以α的极限分布不再服从正态分布,但是在样本为10000时α的S值有趋近于0,K值有趋近于3的趋势,随着样本的无限扩展α是否会近似服从正态分布这一论点需要更高级的计算机进行模拟论证。但是本文倾向随着样本的无限扩展,α仍然不会近似服从正态分布这一观点。
2.5 t(β)的极限分布与样本特征
t(β)是判别解释变量系数是否显著异于0的指标,在经典单方程回归中t(β)是服从正态分布的,在发生谬误回归时,其分布也发生了显著的变化。从图4中可以看出|t(β)|>1.96的频数非常高,这意味着在对两个独立的随机游走序列作模特卡罗模拟时,出现了谬误回归。t(β)的偏度S=0.02>0,峰度K=3.75>3(见表5),其极限分布为一个对称分布,不再满足正态分布的特征,呈现高峰、厚尾、右偏的分布特征。
表4 α的样本特征
图4 t(β)的极限分布图
从表5中可以看出P值随着样本的增加而增加,也就是说随着样本的增加,出现谬误回归的可能性也在增加。
t(β)的标准差随着样本的增加不断增大,可以认定t(β)不会收敛于某一个值,也就是说 t(β)是发散的;t(β)的偏度、峰度以及JB统计量并不随着样本的增加有过多的改变。
2.6 β的极限分布与样本特征
β为回归方程的系数,在出现谬误回归后,β的偏度S随着样本的增加时而为正时而为负,峰度K值和JB统计量值呈不断递减的趋势,S值有趋近于0的趋势、K不断趋近于3。在样本为10000的模拟条件下,β的分布呈现高峰、厚尾、右偏的分布特征,但是随着样本的无限增加,其分布是否会出现近似正态分布的特征,这就需要更高级、运算速度更快的计算机进行模拟。本文倾向随着样本无限扩展,β仍然不会近似服从正态分布这一观点。
表6 β的样本特征
β的均值呈现不断递增的趋势,也就是回归方程中解释变量的系数异于0的趋势在增强,β的标准差并未随着样本的增加有太大的变化,可以认定β会收敛于某个常数。
3 结论
综合理论分析与Monte Carlo模拟结果可以得出以下结论:
(1)出现谬误回归时,R2的极限分布不再服从正态分布,而是呈现低峰、薄尾、右偏的分布特征;R2的极限分布不会随着样本的增加而有所改变,但是R2>0.5的频数会随着样本的增加而递增,所以样本容量的增加不但不会弱化或者消除谬误回归现象,反而会增加出现谬误回归的可能性。
(2)出现谬误回归时,DW统计量的极限分布不再满足正态分布,而是呈现高峰、厚尾、右偏的分布特征;DW统计量的极限分布并未受到样本增加的影响;当样本无限大时,DW统计量依概率收敛于0。
(3)出现谬误回归时,随着样本容量的增加α不会收敛于某一个常数,也就是说α是发散的;随着样本的无限扩展α是否会近似服从正态分布这一论点需要更高级的计算机进行模拟论证,但是本文倾向认同即使样本无穷大α仍然不会近似服从正态分布这一观点。t(α)的极限分布不再满足正态分布而是呈现高峰、厚尾、左偏的分布特征,随着样本的增加,t(α)不会收敛于某个常数,同样可以认定t(α)是发散的。
(4)出现谬误回归时,在样本为10000的模拟条件下,β的分布呈现高峰、厚尾、右偏的分布特征,但是样本无穷大的情况下,其分布是否会出现近似正态分布的特征,这就需要更高级、运算速度更快的计算机进行模拟,本文倾向即使样本无穷大,β仍然不会近似服从正态分布这一观点;t(β)的极限分布为一个对称分布,同样不再满足正态分布,而是呈现高峰、厚尾、右偏的分布特征,t(β)的标准差随着样本容量的增加而不断增大,所以t(β)不会收敛于某个常数,也就是说t(β)是发散的。
[1]Phillips P C B.Understanding Spurious Regression in Econometrics[J].Journals of Econometrics,1986,33(3).
[2]Kim T H,Lee Y S,Newbold P.Spurious Regressions with Stationary Processes Around Linear Trends[J].Economics letters,2004,83(2).
[3]Granger C W J.Hyung W,Jeon Y.Spurious Regressions with Stationary Series[J].Escholarship,1998,(3).
[4]张晓峒,王贵鹏,聂巧平.一般序列相关下面板谬误回归研究—估计量的渐进分布和小样本性质[J].南开经济研究,2006,(2).
[5]张凌翔,张晓峒.结构突变趋势平稳过程与随机趋势过程的谬误回归研究[J].统计研究,2011,(28).
[6]樊欢欢,李嫣怡,陈胜可.EViews统计分析与应用[M].北京:机械工业出版社,2011.