APP下载

基于“监督分组—残差”主成分回归的进出口贸易预测

2015-02-18

统计与决策 2015年13期
关键词:共线性因变量特征值

陈 锐

(西华大学,成都 611930)

随着改革开放进程的持续推进以及对外开放度的不断提高,我国外贸进出口贸易规模呈现出快速上升的态势。在对外贸易规模急剧扩大的同时,一些与之有关的争论也在学术界中产生,尤其是贸易竞争力与对外依存度方面的问题。本文采用传统的线性回归方程,从进口贸易值的各影响因素角度出发,对进口进行预测,同时针对时间序列模型中存在的多重共线性问题,利用主成分回归方法进行消除,更值得一提的是,时序预测中的预测因变量与预测模型的因变量之间相互独立的假设应当被要求,采用残差主成分方法对各年预测值误差进行主成分提取,以对后续年份预测值及其误差进行修正,从而达到预测精度的提高。

1 基本模型与指标设计

1.1 主成分模型

作为多元统计分析方法的一种,主成分分析的实质是采用少数几个变量对原有众多变量信息的综合,使各种统计分析变得更加简单有效。设有一个p维的随机向量:

其中ei=(ei1,ei2,……eip)T,是一个单位正交化向量,也是主成分的系数向量。这意味着主成分实际上是p个原始变量的线性组合。但主成分的目的是减少变量个数,实现降维,在实践中只取前m个主成分。

1.2 监督分组与残差主成分回归模型

(1)监督分组主成分。尹文静(2011)认为主成分回归的缺陷在于盲目地将并不相关的因素关联起来形成同一个综合因素,从而误导对分析结果的解读。从而提出了监督分组的概念,本文将其概括如下:有 p个变量,根据经济理论与经验判断将其分成若干组,为了便于表述,假设为3组,各组包含的变量个数为 p1,p2,p3,三者之和为p;对各组进行主成分提取,所提取的主成分分别记为;

利用监督分组后的形成的主成分构建回归模型有两个优势:一是消除了变量间的共线性,二是使得主成分信息提取不存在盲目性。

(2)残差主成分。使用主成分回归后,形成了各年分地区预测值的误差εt,误差之间存在着一定的相关性,说明存在共同信息可供提取,设有1个主成分能够包含所有年份误差中大部分信息:η=ω1ε1+ω2ε2+……+ωtεt,然后采用其对预测结果进行修正。

1.3 指标选取与数据来源

依据对以往研究的总结,结合数据的可获得性,选取变量如表1所示。研究时段和对象为2011~2013年各省、市、自治区,数据均来源于各年《中国统计年鉴》,因为本文的目的是进行预测,故采用2011、2012的各自变量数据与2012、2013年的因变量数据进行主成分分析和构建多元回归模型,并利用2013年数据对2014年的进出口贸易进行预测。

2 实证分析

2.1 分组自变量的监督分组主成分分析

对2011年“经济发展水平”的三个变量,从相关系数矩阵出发利用SPSS18.0软件计算特征值(2.515)、方差贡献率与累计方差贡献率,发现第一个主成分的方差贡献率高达83.838%,故提取1个主成分,记为F1,利用因子载荷矩阵除以该主成分特征值的平方根,得到主成分的线性表达式。

表1 指标体系

F1=0.53gdp1+0.62gdp2+0.57gdp3

根据相关系数矩阵可知,cov(gdp1,gdp2)=0.781,cov(gdp1,gdp3)=0.564 ,cov(gdp2,gdp3)=0.914 ,三次产业增加值之间确实存在着高度相关性,将标准化后的三项指标数值代入上式得到F1的得分。

同理,可计算出“人口与人民生活水平”包含的6项指标相关系数矩阵的特征值与累计方差贡献率,发现第1、2主成分特征值分别为4.195和1.567,累计方差贡献率为96.038%,故提取2个主成分 F21,F22。

F21=0.14pop+0.47ccons+0.47rcons+0.47cincome+0.47rincome+0.32reta

F22=0.75pop-0.15ccons-0.17rcons-0.14cincome-0.17rincome+0.58reta

从表1可以看出,多项指标间的相关系数均比较高,超过0.8的有7项相关系数。

对“经济政策”包含2项指标进行主成分分析,根据相关系数矩阵计算出的第一个特征值为1.854,方差贡献率为92.717%,所以提取一个主成分F3,得到该主成分的线性表达式为:

F3=0.71inv+0.71fina

两者间的相关系数为cov(inv,gdp2)=0.854,呈现出高度相关性。

2.2 回归分析

(1)以2011年自变量对2012年因变量进行主成分回归(2011~2012年)。因为进出口贸易总额数量级高,为了避免数据波动过大带来的异方差性,本文对进出口总额M取自然对数LnM,并以其为因变量进行多元线性回归分析,使用SPSS软件进行估计,结果如表3所示。发现四个主成分估计系数的t检验值未通过检验,且方差膨胀因子(VIF)均超过10,说明变量间存在着严重的多重共线性,而从共线性的产生原因看,除F21,F22之间外,其他主成分间均存在共线性,进一步对4个主分量进行主成分提取,得到前2个主成分特征值为2.935和1.005,累计方差贡献率为98..52%,下面给出这2个主成分的线性表达式。

表2 “人口与人民生活水平”6变量的相关系数矩阵

从主成分分析结果看出,经济发展水平主分量对进出口贸易对数值的贡献作用为0.2277,而人口与人民生活水平2个主分量分别表现出正和负两种效应,但整体上看为正(0.493>0.047),经济政策主分量对贸易贡献为正。为了进一步看清11个变量对贸易带来的影响,进行还原,得到:

依据对国际贸易贡献的大小,依次排名为农村居民人均消费支出、农村居民人均纯收入、城镇居民人均消费支出、城镇居民人均可支配收入、全社会固定资产投资额、地区财政支出、第二产业增加值、第三产业增加值、第一产业增加、人口,所以实现我国对外贸易的发展主要取决于居民的收入和和消费水平以及国家投资和其他财政支出,而三次产业的发展与人口的增加贡献较低。

表3 2011~2012主成分回归结果

(2)以2012年自变量对2013年因变量进行主成分回归(2012~2013年)。

根据2011年自变量预测2012年贸易数值的回归方程,发现提取的4个主成分同样存在着共线性,即对于本文而言不需要进行监督分组的主成分分析,故下文在使用2012年自变量数据对2013年因变量预测时,直接对11个变量进行主成分分析。发现前2个主成分特征值为6.983、3.335,累计方差贡献率为93.838%,根据碎石图提取2个主成分,表4为对应的因子载荷矩阵和计算得到的特征向量,可形成主成分表达式。

表4 因子载荷系数与特征向量矩阵

表5 回归结果

2.3 预测分析

下面利用2013年11个自变量对2014年贸易额进行预测,具体步骤是对2013年11个变量提取出2个主成分,这2个主成分的特征值为6.887和3.443,累计贡献率为93.908%。然后根据因子载荷系数除以对应主成分特征值的平方根,得到主成分表达式系数,再用该系数乘以11个指标的标准化数值,形成主成分具体数值。具体主成分表达如下:

图1给出了2014年全国各地区进出口总额预测值与预测增速,进出口总额最高的5个地区为广东、江苏、北京、上海、浙江,进出口总额预测值为122964、47555、45236、35941、24334千万美元,这几个地区的贸易额总额为276030千万美元,占总贸易额的64.89%。进出口贸易增长速度最快的5个地区是新疆、福建、重庆、天津、黑龙江,增速分别为53.43%、42.28%、41.17%、33.44%、30.21%。而内蒙古、宁夏、青海等地无论是在贸易总额还是增速上都排名靠后,从数据上看无论是总量格局还是增速格局都与上一年相似,这说明对外经济贸易与地区经济发展水平是息息相关的,短期内无法有效的得到改变。

3 结论

上文在实现人为分组的基础上,对影响进出口贸易的各项因素进行了考察,结论如下:(1)“监督分组”条件下的主成分回归仍然无法有效克服分组主成分变量之间的共线性问题,所以在使用监督分组主成分回归时仍然需要注意到变量分类在经济意义和计量经济学检验上的有效性。(2)尽管目前有关于预测的数理方法很多,但从目的变量形成机理出发进行考察更有助于采取合适的措施进行控制。但值得注意的是,线性回归预测模型存在着未来预测变量与模型构建中的预测变量应当保持不相关性,所以本文采取当年因变量和上年自变量进行建模,既达到了影响因素分析的目的,也达到了精确预测的目的。(3)对于线性预测中的公共残差提取是有必要的,因为经济变量之间的关系存在着一定的共性,对于不可解释的残差在不同时点上存在着一定的重叠,应当采取有效的方法对其挖掘。

图1 2014年全国各地区进出口总额预测值与预测增速

[1]邹晶,姜志新.基于GM(1.1)的灰色系统模型在我国外贸出口预测中的应用[J].国际贸易问题,2004,(2).

[2]张一,徐山鹰,汪寿阳.一类基于神经元网络的误差纠正模型的应用——2003年度中国出口预测[J].预测,2003,(3).

[3]肖智,陈婷婷.基于支持向量机的外贸出口预测[J].科技管理研究,2006,(7).

[4]陈颇,贾清秀,殷樱.ARIMA模型在我国体育用品出口预测中的应用[J].天津体育学院学报,2007,(4).

[5]尹文静,王礼力.农民生产投资的影响因素分析——基于监督分组的主成分回归分析[J].农业技术经济,2011,(2).

猜你喜欢

共线性因变量特征值
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
一类内部具有不连续性的不定Strum-Liouville算子的非实特征值问题
一类带强制位势的p-Laplace特征值问题
基于一类特殊特征值集的扩散算子逆谱问题
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
单圈图关联矩阵的特征值
银行不良贷款额影响因素分析
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
偏最小二乘回归方法