我国第三产业增加值影响因素的主成分回归分析
2017-11-14李林
摘 要 近年来,我国第三产业产值不断增加,其原因涉及多个方面。影响第三产业的因素包括批发零售业、餐饮业、金融业、房地产业、交通运输业、社会服务业和教育文化业等多个领域。本实验主要将各个领域的相关指标综合在一起进行主成分分析,降维处理后提取主成分,然后利用提取的主成分对第三产业增加值进行多元统计分析,从而研究主要指标对第三产业增加值的影响。选用了近9年的数据(2005~2013),包括批发零售业商品销售额等一系列的经济指标。研究发现,宏观调控和消费者行为影响着第三产业的发展。
关键词 第三产业 降维 主成分分析 多元回归分析 宏观调控 消费者行为
一、问题及背景
第一,背景。虽然我国的第三产业起步较晚,但随着改革开放以来,我国社会主义现代化建设事业的蓬勃发展,我国以服务业为主导的第三产业拥有非常大的发展空间以及广阔的发展前景。我国第三产业的产值在这样的背景下增长迅速,2011年已经突破20万亿。第三产业产值增加的原因是多方面的,因素不同,对第三产业的影响也不同。
第二,问题。为了分析影响我国第三产业产值增加的因素,本文选取批发零售业、餐饮业、金融业、房地产业、交通运输业、社会服务业和教育文化业七个行业的包括餐饮营业额、商品房销售额、批发零售业商品销售额、旅游总花费、货运量总计、股票筹资额、社会融资规模、全国教育经费总投入、直接医疗救助支出九个指标。由于指标较多,本文利用主成分分析的降维功能提取主要的成分,然后在此基础上进行多元回归分析,利用主成分之间不相关的特点消除多重共线性的影响,使模型更为准确。
第三,原始数据来源:中国统计年鉴。
二、数据处理
(一)方法简述
本实验主要的应用方法是主成分分析法以及多元线性回归。
主成分分析的概述:主成分分析是将多个变量通过线性变换以选取出较少个数重要变量的一种多元统计分析方法。其思想是将众多具有一定相关性的变量重新组合成一组新的互相无关的综合指标来代替原来的指标。
设F1表示原变量的第一个线性组合形成的主成分指标,即F1=a11X1+a21X2+... ap1Xp,由数学知识可知,每一个主成分提取的信息量可用方差来度量,方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2……XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1,F2)=0,所以F2是与F1不相关的X1,X2……XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2……Fm为原变量指标X1、X2……XP第一、第二……第m个主成分。
多元线性回归概述:多元线性回归是研究多个自变量因素对因变量的影响,解释变量可以有多个因素,被解释变量是一个因素,运用最小二乘法表可以求解多元线性回归方程。
(二)操作过程
第一,录入数据,将得到的数据录入统计软件SPSS。
第二,进行主成分的分析。首先计算累计贡献率,通过累计贡献率的计算结果可以看出因子分析的结果产生两个因子,考虑到因子分析与主成分分析的联系,在因子分析的基础上可以进行主成分的分析。前两个因子的累计贡献率达到了98%,因此提取了前两个,也就注定了会有两个主成分。
求特征向量并对原始数据标准化后定义了两个变量Z1、Z2依次进行计算:
Z1=0.36*Z餐饮营业额+0.35*Z商品房销售额+0.35*Z批发零售业商品销售额+0.35*Z旅游总花费+0.36*Z货运量总计+0.01*Z股票筹资额+0.34*Z社会融规模+0.36*Z全国教育经费总投入+0.36*Z直接医疗救助支。
Z2=-0.01*Z餐饮营业额+0.07*Z商品房销售额-0.09*Z批发零售业商品销售额-0.14*Z旅游总花费+0.01*Z货运量总计+0.96*Z股票筹资额+0.18*Z社会融资规模-0.04*Z全国教育经费总投入+0.00*Z直接医疗救助支。
第三,进行多元线性回归分析。将第三产业增加值这一列进行标准化处理,得到的数据命名为“Z第三产增加值”。以标准化后的第三产业增加值作为被解释变量,以提取好的标准化主成分作为解释变量进行多元线性回归分析:回归关系Z第三产增加值=0.357*Z1-0.031*Z2-7.196E-17。
三、结果分析
(一)主成分分析
从主成分分析的结果来看,成分Z1是主成分综合了各个指标作为第三产业增加值的反映。由于此处考虑单位不同的问题进行了标准化的处理,处理后的Z1按照数值进行排序是逐渐增大的,说明了我国与第三产业相关的各个指标在逐年增加,从2005~2013年有了一个较大幅度的提升。
Z2标准化后的主成分有正也有负,通过观察主成分特征向量F2,可以看出是餐饮营业额、批发零售业商品销售额、旅游总花费、全国教育经费总投入与其他指标的对比。而在特征向量中,直接医疗救助支出前面的系数为0。因此,Z2是以上四个指标与社会融资规模、货运量总计、股票筹资额、商品房销售额的对比。后四个指标反映的主要是宏观经济中投资、政府购买与货币政策方面的指标,说明的主要是在宏观的驱使下中国经济的发展走向。前四个指标则主要是消费者行为的反映、消费者的餐饮支出、日常批发零售支出以及旅游的支出,其中有一个是全国教育经费总投入,可以理解为消费者在教育上支出的发展趋势。
总之,Z2主成分主要反映了宏观经济大趋势与消费倾向的增加值之差。反映在最终的标准化数据上可以看出,两者之间的差值略有波动,基本上相差不大;近期宏观经济消费一直略低于消费者消费。同时,说明消费者的消费近期呈现出上升的趋势。
(二)多元回归分析
多元回归的结果可以看出:回归关系Z从第三产增加值=0.357*Z1-0.031*Z2 -7.196E-17,Z1作为贡献率较大的主成分回归系数也是比较大的,说明了第三产业各个领域的各个指标对产业增长都有一定程度的推动作用,对第三产业的发展有积极的影响。相对而言,Z2前的系数为负,而近期经济的繁荣导致消费的大幅度增加,个人消费的增长超过政府购买的增加,Z2成负数的趋势在增加,但是系数较小,说明了第三产业的增长与消费以及宏观的经济支持同步进行。根据回归方程,在未来,我国的第三产业仍然会稳步上升。
总之,第三产业的增加与消费、投资、政府购买等一系列經济活动密切相关,同时宏观经济政策的变化也会对第三产业有影响。
(作者单位为山东科技大学)
[作者简介:李林(1993—),男,山东济南人,硕士研究生,研究方向:金融数据挖掘。]
参考文献
[1] 陈胜可. SPSS统计分析从入门到精通[M].清华大学出版社,2010.
[2] 党耀国,米传民,钱吴永.应用多元统计分析[M].清华大学出版社,2012.
[3] 统计分析与SPSS的应用[M].中国人民大学出版社,2011.
[4] 俞梅珍.服务贸易总协定框架下中国第三产业的发展及对策[J].经济参考研究,2000.endprint