多重共线性问题的偏最小二乘估计
2019-11-05毛雪莲
毛雪莲
【摘 要】多重共线性问题是多元线性回归分析中经常遇到的问题,怎么解决这一问题,没有绝对有效的方法,需要针对具体问题具体对待。针对使用时间序列数据建立回归模型的问题,遵循科学性原则,对数据进行可比性转化,之后检验各变量的平稳性及变量间的协整关系。由于建立的协整回归存在多重共线性问题,而采用偏最小二乘法估计模型的参数,得到了较合理的结果。
【关键词】多重共线性;偏最小二乘法;R软件;单位根;协整
中图分类号: O212.1文献标识码: A文章编号: 2095-2457(2019)27-0152-002
DOI:10.19694/j.cnki.issn2095-2457.2019.27.067
【Abstract】Multicollinearity is a common problem in multivariate linear regression analysis. There is no absolutely effective method to solve this problem, which needs to be dealt with specifically. If a regression model with time series data, the comparability and the stability of variables must be considered, and the cointegration relationship between variables are tested. Then, Multicollinearity problem appears in cointegration regression, therefore, the partial least squares method is used to estimate the parameters of the model, and a more reasonable result is obtained.
【Key words】Multicollinearity; Partial Least Squares; R software; Unit Root; Cointegration
在庞皓教授《计量经济学》第三版多重共线性一章中,选取我国1994-2011年旅游收入相关数据建立多元线性回归模型,经检验各变量之间存在较为严重的多重共线性,最终通过对各变量取对数的形式,缓解了多重共线性问题。这里在该分析方法的基础上探讨如何得到更为科学、规范的数据,期望建立变量之间的线性回归模型,并尽可能保留全部自变量,且各变量的系数经济意义合理。
由于此例中所使用数据为时间序列数据,所以对数据做了以下三个方面的处理:首先,扩充样本容量将数据完善至2017年最新可得数据(数据来源:2018年中国统计年鉴)。其次,变量中涉及到跨年度收入与消费指标,为了保证数据之间的可比性,使用消费者价格指数对各变量进行缩减。再者,对各变量进行平稳性检验,判断它们之间的协整关系。如果存在协整关系,检验模型是否合理,如果仍然存在多重共线性,则使用偏最小二乘法估计模型的参数。
1 数据来源与处理
对于国内旅游收入Y的影响因素分析模型涉及四个指标:国内旅游人数X2、城镇居民人均旅游花费X3、农村居民人均旅游花费X4和铁路里程X5。为了保证数据之间的可比性,消除物价上涨等因素的影响,此处对国内旅游收入Y,城镇居民人均旅游花费X3和农村居民人均旅游花费X4三个指标按居民消费价格指数(1994=100)进行了缩减。
2 平稳性检验及协整检验
2.1 平稳性检验
对于时间序列数据,直接使用传统回归分析建立计量模型,很可能因为不平稳性而出现伪回归问题。因此,在建立模型之前,需要对各时间序列数据的平稳性进行判断。
单位根检验是其中较为常用的方法,其判断原则是:如果某一时间序列存在一个单位根,则说明该序列是不平稳的;如果不存在单位根,则说明该序列为平稳序列。单位根检验常用的方法有DF检验和ADF检验,由于DF检验中多数时间序列可能存在随机扰动项自相关的问题,而不能满足模型的假设,所以人们对DF检验进行了拓展,形成了扩展的DF检验,即ADF检验。故这里使用ADF单位根检验方法,变量Y,X2,X3,X4,X5单位根检验的MacKinnon(1996) one-sided p-values及检验类型(c,t,k)(分别表示常数项、时间趋势和滞后阶数)分别为:0.9999(c,t,0),1.0000(c,t,0),0.0966(c,t,3),0.8399(c,t,0),0.9967(c,t,0)。变量Y,X2,X3,X4,X5一阶差分形式单位根检验的MacKinnon (1996) one-sided p-values及检验类型(c,t,k)分别为:0.0495(c,t,0),0.0064(c,t,0),0.0023(c,t,3),0.0199(c,t,0),0.0160(c,t,0)。可见所有变量均为一阶单整序列。
2.2 协整检验
如果多个非平稳变量的某种线性组合是平稳的,则说明这些变量之间具有协整性,可以用这个平稳序列来描述原变量之间的均衡关系,即此时建立的回归模型具有实际意义。
这里使用EG两步法进行协整检验,首先用最小二乘法对变量进行回归,得到残差序列。之后检验残差序列的平稳性,如果残差序列平稳,则说明原始变量之间存在协整关系,反之,变量之间不存在协整关系。
对国内旅游收入及相关因素做线性回归,即做Y对变量X2,X3,X4,X5的线性回归,并将其残差序列记为e,并检验e的平稳性,MacKinnon (1996) one-sided p-values及检验类型(c,t,k)分别为0.0154(0,0,0),可见e为平稳序列,故變量Y与变量X2,X3,X4,X5之间存在协整关系,可以建立协整回归。
作變量Y与变量X2,X3,X4,X5的协整回归,-2363.235+0.0427X2-5.6595X3+6.1441X4+536.6448X5,其中变量X3(城镇居民人均旅游花费)的系数为负,与实际不符。另外,变量X2和X5对应的方差膨胀因子分别为59.2629,72.7502,均显著大于10,表明模型中存在严重的多重共线性,因此,出现了X3系数为负的异常情况。
3 偏最小二乘法
3.1 偏最小二乘法原理
偏最小二乘法(Partial Least Squares,PLS)被称为第二代回归技术,融合了主成分分析、回归分析和典型相关分析的方法。偏最小二乘法在提取主成分时,不但考虑与各自变量X的相关性,还考虑到与因变量Y的相关性,选择与Y相关性较强又能方便计算出自变量的线性函数。由于仅考虑与自变量和因变量有关的线性函数而非考虑全部的线性函数,因此称为偏最小二乘法。偏最小二乘法中提取主成分的标准多使用交叉验证法,一般可参照以下方式选取:预测误差均方根RMSEP总和较小,且随着成分个数的增加,RMSEP没有明显减少,且各主成分对因变量的累积贡献率较高。
3.2 偏最小二乘法实现
4 总结
针对国内旅游收入Y与其影响因素国内旅游人数X2、城镇居民人均旅游花费X3、农村居民人均旅游花费X4和铁路里程X5之间的模型进行分析,扩充了样本数据资料,对变量Y、X3、X4按消费价格指数进行了缩减。使用ADF检验了各变量的平稳性,得到各变量均为一阶单整序列。并且这些变量之间通过了协整检验,但在建立的协整回归中自变量之间存在严重的多重共线性问题,为了得到合理的回归系数和保留尽可能多的自变量,使用偏最小二乘法对模型参数进行估计,得到了较为合理的结果。
【参考文献】
[1]铁卫,王天恒.财政科技支出与经济增长的实证分析——以陕西省为例[J].统计与信息论坛,2012(2).
[2]齐琛,方秋莲.偏最小二乘建模在R软件中的实现及实现分析[J].数学理论与应用,2013(6).
[3]张华东,阮陆宁.偏最小二乘回归在R软件中的实现及其优缺点剖析[J].科技广场,2015(11).
[4]庞皓.计量经济学(第三版)[M].北京:科学出版社,2014(6).
[5]何晓群.应用回归分析(R语言版)[M].北京:电子工业出版社,2017(7).