中国GDP与建筑业总产值和服务业总产值的线性关系分析
2014-09-22唐雪银,张应应
唐雪银,张应应
摘要:本文通过建立多元线性回归模型,得出中国GDP与建筑业总产值和服务业总产值的线性回归方程,并检验线性回归方程及线性回归系数的显著性。发现建筑业总产值对应的回归系数不显著,究其原因是自变量之间存在多重共线性。然后利用主成分回归修正多重共线性得出新的回归方程,最终分析出中国建筑业和服务业对于拉动中国经济增长的具体作用。
关键词:GDP;建筑业;服务业;线性回归;显著性检验;多重共线性;主成分回归
中图分类号:F12 文献标志码:A 文章编号:1674-9324(2014)06-0123-03
我国的经济增长速度是国际上的一个引人注目的话题。中国的GDP(国内生产总值)增长迅猛,同1978年相比,GDP年均增长近10%,有的地区超过20%,占世界份额超过5%,即使在最近的经济危机中,我国的GDP仍然能以8%左右的速度增长,可见我国经济正处于飞速发展的阶段,且暂无减缓的趋势。“十一五”期间,我国建筑业发展较为迅速[1]。2010年我国建筑企业达到70061家,从业人数达到了4043.4万人,中国房地产业的火爆大大提升了中国建筑行业在国际上的地位。统计数据显示,2010年中国向新建筑项目投入逾1万亿美元,房地产业的繁荣推动中国首次超越美国,成为全球头号建筑大国。目前建筑业已经成为我国名副其实的支柱产业,在国民经济中起着重要的支撑性作用,对于拉动经济增长和促进就业具有积极的作用。另外,衡量一个国家的发达程度,其服务业占生产总值的比重是一个关键的数据。十一届全国人大常委会第二十二次会议上提出我国将推动服务业加快发展,力争到2015年,服务业总产值占GDP比重达到47%左右。通过以往的数据,我们发现,建筑业总产值与服务业总产值分别与GDP呈一元线性相关,因此我们试图在这三者中建立一个多元线性回归模型,并通过这样的模型观察变量之间的具体关系。
一、多元线性回归
(一)符号与基本假设
对各因素赋予变量符号,见表1。
(二)模型构建及求解
我们利用多元线性回归模型。设(xi1,xi2,yi),i=1,2…,n为(X1,X2,Y)的实验数据,则多元线性回归模型为[2]: yi=β0+β1xi1+β2xi2+ε i=1,2,L,nεi:N(0,σ2), j=1,2,L,ncov(εi,εj)=0 i≠j,i,j=1,2,L,n其矩阵形式为:Y=Xβ+εε~Nn(0,σ2In)其中■,X=1,x11,x121,x21,x22 M1,xn1,xn2,0是n维零向量,In是n阶单位阵。当X是列满秩时,可以证明β的最小二乘估计为:■=(XTX)-1XTY,经验回归方程为:■=■0+■1X1+L+■pXp,设ε1=Y-X■为残差向量。通常取■2=■T■/(n-p-1)为■2的估计(这里p=2),它是σ2的最小二乘估计,■为残差标准差,它越小越好。相关系数的平方定义为:R2=■,其中SSR=■(■i-■)2,SST=■(yi-■)2。用R2来衡量Y与X1,X2,L,Xp之间相关密切程度,R2越大(接近于1)则所建多元线性回归模型的拟合程度越好。得到的线性回归方程需要通过回归方程的显著性检验及回归系数的显著性检验才能使用。在R软件中,我们只需要看相应的P值,若P值小于α(一般取为0.05),则认为是显著的,反之则不显著。当自变量出现多重共线性时,经典回归方法一般不能通过回归系数的显著性检验,此时应采用主成分回归以克服经典回归的不足。
二、主成分回归[3]
主成分法通过线性变换的方式来避开变量间共线性的问题。对原始变量X1,X2进行标准化处理得到相应的标准化变量X1*与X2*,计算原始资料阵的相关系数矩阵R的特征值 λ1*≥λ2*,及相应的单位特征向量a1*,a2*。利用特征值检验多重共线性,当模型存在多重共线性时至少会有一个特征值接近0。模型中只有两个自变量X1和X2,则最多可以提取出两个主成分:Zi*=ai*TZ*,i=1,2其中X*=(X1*,X2*)T。假设因变量与主成分之间的回归方程为:■=■*0+■*1■*1+L+■*mZ*m,其中Z*i=a*1i+a*2iX*i,i=1,2,L,m,m=1或2。多元线性回归模型中参数■i=(i=0,1,2)与主成分回归模型中系数■*i之间的关系为:■0=■*0-■■-■■,■1=■■,■2=■■。则得到■关于原始变量X1,X2的回归方程为:■=■0+■1X1+■2X2。
三、计算结果分析
本文数据[4]中各变量之间的散点图如图1:
运用R软件将数据先进行经典的多元线性回归和显著性检验。
得到的回归方程为:
■=6494.3814+0.4090X1+2.2594X2
在α=0.05的显著水平下,关于建筑业总产值(X1)的P值为0.801>0.05,所以认为建筑业总产值(X1)与GDP(Y)的线性关系不显著,与图1结果相矛盾。
考虑是否变量间存在多重共线性的问题,对原数据进行主成分分析。
主成分分析的结果见表2。
从表2中我们发现第一个主成分已达到99%的贡献率,而λ2=0.0562931412=0.00316891≈0所以自变量之间存在着多重共线性。
主成分回归得到新的回归系数和回归方程,且均通过检验,效果显著。得到的回归方程为:■=90396-75257.6Z1*,结果中得到的R2=0.9966,接近于1,说明拟合效果很好。
上述方程不易于应用,需要变换得到原坐标下的关系表达式,所以最终得到的回归方程为:
■=6141.687456+7.926687X1+1.159621X2 (1)
从多元线性回归模型中我们得出服务业对GDP的影响大约是建筑业的5倍。在对回归系数进行显著性检验之后,发现服务业总产值与GDP线性相关,而建筑业总产值则与GDP无线性相关性,究其原因是自变量之间存在多重共线性。在对多重共线性进行修正后发现之前的回归方程并不正确,我们得出了新的回归方程(1)。根据式(1)可以看出建筑业总产值每增长1元,GDP增加7.93元,服务业总产值每增长1元,GDP增加1.16元。我们发现建筑业的发展对GDP的影响非常的大,这符合当今中国建筑业的实际情况。从另一方面来说,我国的经济发展在一定程度上的确依赖于建筑业的发展,如果建筑业出现危机,将极大阻碍我国的经济发展,发展这一行业需要更稳健合理的措施。而服务业的影响从回归系数上看虽然没有这么大,但由于服务业总产值实际数据大约是建筑业总产值的5至8倍,其基数相当的大,所以服务业的增长对GDP也有显著的拉动作用。
参考文献:
[1]全球分析网建筑课题组.2010年中国建筑行业总产值分析[N/OL].2013-05-01].
全球分析网,2012-06-25.http://zx.qqfx.com.cn/news/103845.html.
[2]杨虎,刘琼荪,钟波.数理统计[M].北京:高等教育出版社,2004:125-127.
[3]薛毅,陈立萍.统计建模与R软件[J].北京:清华大学出版社,2007:423-441.
[4]中华人民共和国国家统计局.2011年中国统计年鉴[DB/OL].2012.
基金项目:重庆市自然科学基金项目(CSTC2011BB0058)。
作者简介:唐雪银(1991-),男,重庆人,本科,专业:统计学;张应应(1983-),男,重庆人,博士,讲师,研究方向:多元统计分析、期权定价。endprint
摘要:本文通过建立多元线性回归模型,得出中国GDP与建筑业总产值和服务业总产值的线性回归方程,并检验线性回归方程及线性回归系数的显著性。发现建筑业总产值对应的回归系数不显著,究其原因是自变量之间存在多重共线性。然后利用主成分回归修正多重共线性得出新的回归方程,最终分析出中国建筑业和服务业对于拉动中国经济增长的具体作用。
关键词:GDP;建筑业;服务业;线性回归;显著性检验;多重共线性;主成分回归
中图分类号:F12 文献标志码:A 文章编号:1674-9324(2014)06-0123-03
我国的经济增长速度是国际上的一个引人注目的话题。中国的GDP(国内生产总值)增长迅猛,同1978年相比,GDP年均增长近10%,有的地区超过20%,占世界份额超过5%,即使在最近的经济危机中,我国的GDP仍然能以8%左右的速度增长,可见我国经济正处于飞速发展的阶段,且暂无减缓的趋势。“十一五”期间,我国建筑业发展较为迅速[1]。2010年我国建筑企业达到70061家,从业人数达到了4043.4万人,中国房地产业的火爆大大提升了中国建筑行业在国际上的地位。统计数据显示,2010年中国向新建筑项目投入逾1万亿美元,房地产业的繁荣推动中国首次超越美国,成为全球头号建筑大国。目前建筑业已经成为我国名副其实的支柱产业,在国民经济中起着重要的支撑性作用,对于拉动经济增长和促进就业具有积极的作用。另外,衡量一个国家的发达程度,其服务业占生产总值的比重是一个关键的数据。十一届全国人大常委会第二十二次会议上提出我国将推动服务业加快发展,力争到2015年,服务业总产值占GDP比重达到47%左右。通过以往的数据,我们发现,建筑业总产值与服务业总产值分别与GDP呈一元线性相关,因此我们试图在这三者中建立一个多元线性回归模型,并通过这样的模型观察变量之间的具体关系。
一、多元线性回归
(一)符号与基本假设
对各因素赋予变量符号,见表1。
(二)模型构建及求解
我们利用多元线性回归模型。设(xi1,xi2,yi),i=1,2…,n为(X1,X2,Y)的实验数据,则多元线性回归模型为[2]: yi=β0+β1xi1+β2xi2+ε i=1,2,L,nεi:N(0,σ2), j=1,2,L,ncov(εi,εj)=0 i≠j,i,j=1,2,L,n其矩阵形式为:Y=Xβ+εε~Nn(0,σ2In)其中■,X=1,x11,x121,x21,x22 M1,xn1,xn2,0是n维零向量,In是n阶单位阵。当X是列满秩时,可以证明β的最小二乘估计为:■=(XTX)-1XTY,经验回归方程为:■=■0+■1X1+L+■pXp,设ε1=Y-X■为残差向量。通常取■2=■T■/(n-p-1)为■2的估计(这里p=2),它是σ2的最小二乘估计,■为残差标准差,它越小越好。相关系数的平方定义为:R2=■,其中SSR=■(■i-■)2,SST=■(yi-■)2。用R2来衡量Y与X1,X2,L,Xp之间相关密切程度,R2越大(接近于1)则所建多元线性回归模型的拟合程度越好。得到的线性回归方程需要通过回归方程的显著性检验及回归系数的显著性检验才能使用。在R软件中,我们只需要看相应的P值,若P值小于α(一般取为0.05),则认为是显著的,反之则不显著。当自变量出现多重共线性时,经典回归方法一般不能通过回归系数的显著性检验,此时应采用主成分回归以克服经典回归的不足。
二、主成分回归[3]
主成分法通过线性变换的方式来避开变量间共线性的问题。对原始变量X1,X2进行标准化处理得到相应的标准化变量X1*与X2*,计算原始资料阵的相关系数矩阵R的特征值 λ1*≥λ2*,及相应的单位特征向量a1*,a2*。利用特征值检验多重共线性,当模型存在多重共线性时至少会有一个特征值接近0。模型中只有两个自变量X1和X2,则最多可以提取出两个主成分:Zi*=ai*TZ*,i=1,2其中X*=(X1*,X2*)T。假设因变量与主成分之间的回归方程为:■=■*0+■*1■*1+L+■*mZ*m,其中Z*i=a*1i+a*2iX*i,i=1,2,L,m,m=1或2。多元线性回归模型中参数■i=(i=0,1,2)与主成分回归模型中系数■*i之间的关系为:■0=■*0-■■-■■,■1=■■,■2=■■。则得到■关于原始变量X1,X2的回归方程为:■=■0+■1X1+■2X2。
三、计算结果分析
本文数据[4]中各变量之间的散点图如图1:
运用R软件将数据先进行经典的多元线性回归和显著性检验。
得到的回归方程为:
■=6494.3814+0.4090X1+2.2594X2
在α=0.05的显著水平下,关于建筑业总产值(X1)的P值为0.801>0.05,所以认为建筑业总产值(X1)与GDP(Y)的线性关系不显著,与图1结果相矛盾。
考虑是否变量间存在多重共线性的问题,对原数据进行主成分分析。
主成分分析的结果见表2。
从表2中我们发现第一个主成分已达到99%的贡献率,而λ2=0.0562931412=0.00316891≈0所以自变量之间存在着多重共线性。
主成分回归得到新的回归系数和回归方程,且均通过检验,效果显著。得到的回归方程为:■=90396-75257.6Z1*,结果中得到的R2=0.9966,接近于1,说明拟合效果很好。
上述方程不易于应用,需要变换得到原坐标下的关系表达式,所以最终得到的回归方程为:
■=6141.687456+7.926687X1+1.159621X2 (1)
从多元线性回归模型中我们得出服务业对GDP的影响大约是建筑业的5倍。在对回归系数进行显著性检验之后,发现服务业总产值与GDP线性相关,而建筑业总产值则与GDP无线性相关性,究其原因是自变量之间存在多重共线性。在对多重共线性进行修正后发现之前的回归方程并不正确,我们得出了新的回归方程(1)。根据式(1)可以看出建筑业总产值每增长1元,GDP增加7.93元,服务业总产值每增长1元,GDP增加1.16元。我们发现建筑业的发展对GDP的影响非常的大,这符合当今中国建筑业的实际情况。从另一方面来说,我国的经济发展在一定程度上的确依赖于建筑业的发展,如果建筑业出现危机,将极大阻碍我国的经济发展,发展这一行业需要更稳健合理的措施。而服务业的影响从回归系数上看虽然没有这么大,但由于服务业总产值实际数据大约是建筑业总产值的5至8倍,其基数相当的大,所以服务业的增长对GDP也有显著的拉动作用。
参考文献:
[1]全球分析网建筑课题组.2010年中国建筑行业总产值分析[N/OL].2013-05-01].
全球分析网,2012-06-25.http://zx.qqfx.com.cn/news/103845.html.
[2]杨虎,刘琼荪,钟波.数理统计[M].北京:高等教育出版社,2004:125-127.
[3]薛毅,陈立萍.统计建模与R软件[J].北京:清华大学出版社,2007:423-441.
[4]中华人民共和国国家统计局.2011年中国统计年鉴[DB/OL].2012.
基金项目:重庆市自然科学基金项目(CSTC2011BB0058)。
作者简介:唐雪银(1991-),男,重庆人,本科,专业:统计学;张应应(1983-),男,重庆人,博士,讲师,研究方向:多元统计分析、期权定价。endprint
摘要:本文通过建立多元线性回归模型,得出中国GDP与建筑业总产值和服务业总产值的线性回归方程,并检验线性回归方程及线性回归系数的显著性。发现建筑业总产值对应的回归系数不显著,究其原因是自变量之间存在多重共线性。然后利用主成分回归修正多重共线性得出新的回归方程,最终分析出中国建筑业和服务业对于拉动中国经济增长的具体作用。
关键词:GDP;建筑业;服务业;线性回归;显著性检验;多重共线性;主成分回归
中图分类号:F12 文献标志码:A 文章编号:1674-9324(2014)06-0123-03
我国的经济增长速度是国际上的一个引人注目的话题。中国的GDP(国内生产总值)增长迅猛,同1978年相比,GDP年均增长近10%,有的地区超过20%,占世界份额超过5%,即使在最近的经济危机中,我国的GDP仍然能以8%左右的速度增长,可见我国经济正处于飞速发展的阶段,且暂无减缓的趋势。“十一五”期间,我国建筑业发展较为迅速[1]。2010年我国建筑企业达到70061家,从业人数达到了4043.4万人,中国房地产业的火爆大大提升了中国建筑行业在国际上的地位。统计数据显示,2010年中国向新建筑项目投入逾1万亿美元,房地产业的繁荣推动中国首次超越美国,成为全球头号建筑大国。目前建筑业已经成为我国名副其实的支柱产业,在国民经济中起着重要的支撑性作用,对于拉动经济增长和促进就业具有积极的作用。另外,衡量一个国家的发达程度,其服务业占生产总值的比重是一个关键的数据。十一届全国人大常委会第二十二次会议上提出我国将推动服务业加快发展,力争到2015年,服务业总产值占GDP比重达到47%左右。通过以往的数据,我们发现,建筑业总产值与服务业总产值分别与GDP呈一元线性相关,因此我们试图在这三者中建立一个多元线性回归模型,并通过这样的模型观察变量之间的具体关系。
一、多元线性回归
(一)符号与基本假设
对各因素赋予变量符号,见表1。
(二)模型构建及求解
我们利用多元线性回归模型。设(xi1,xi2,yi),i=1,2…,n为(X1,X2,Y)的实验数据,则多元线性回归模型为[2]: yi=β0+β1xi1+β2xi2+ε i=1,2,L,nεi:N(0,σ2), j=1,2,L,ncov(εi,εj)=0 i≠j,i,j=1,2,L,n其矩阵形式为:Y=Xβ+εε~Nn(0,σ2In)其中■,X=1,x11,x121,x21,x22 M1,xn1,xn2,0是n维零向量,In是n阶单位阵。当X是列满秩时,可以证明β的最小二乘估计为:■=(XTX)-1XTY,经验回归方程为:■=■0+■1X1+L+■pXp,设ε1=Y-X■为残差向量。通常取■2=■T■/(n-p-1)为■2的估计(这里p=2),它是σ2的最小二乘估计,■为残差标准差,它越小越好。相关系数的平方定义为:R2=■,其中SSR=■(■i-■)2,SST=■(yi-■)2。用R2来衡量Y与X1,X2,L,Xp之间相关密切程度,R2越大(接近于1)则所建多元线性回归模型的拟合程度越好。得到的线性回归方程需要通过回归方程的显著性检验及回归系数的显著性检验才能使用。在R软件中,我们只需要看相应的P值,若P值小于α(一般取为0.05),则认为是显著的,反之则不显著。当自变量出现多重共线性时,经典回归方法一般不能通过回归系数的显著性检验,此时应采用主成分回归以克服经典回归的不足。
二、主成分回归[3]
主成分法通过线性变换的方式来避开变量间共线性的问题。对原始变量X1,X2进行标准化处理得到相应的标准化变量X1*与X2*,计算原始资料阵的相关系数矩阵R的特征值 λ1*≥λ2*,及相应的单位特征向量a1*,a2*。利用特征值检验多重共线性,当模型存在多重共线性时至少会有一个特征值接近0。模型中只有两个自变量X1和X2,则最多可以提取出两个主成分:Zi*=ai*TZ*,i=1,2其中X*=(X1*,X2*)T。假设因变量与主成分之间的回归方程为:■=■*0+■*1■*1+L+■*mZ*m,其中Z*i=a*1i+a*2iX*i,i=1,2,L,m,m=1或2。多元线性回归模型中参数■i=(i=0,1,2)与主成分回归模型中系数■*i之间的关系为:■0=■*0-■■-■■,■1=■■,■2=■■。则得到■关于原始变量X1,X2的回归方程为:■=■0+■1X1+■2X2。
三、计算结果分析
本文数据[4]中各变量之间的散点图如图1:
运用R软件将数据先进行经典的多元线性回归和显著性检验。
得到的回归方程为:
■=6494.3814+0.4090X1+2.2594X2
在α=0.05的显著水平下,关于建筑业总产值(X1)的P值为0.801>0.05,所以认为建筑业总产值(X1)与GDP(Y)的线性关系不显著,与图1结果相矛盾。
考虑是否变量间存在多重共线性的问题,对原数据进行主成分分析。
主成分分析的结果见表2。
从表2中我们发现第一个主成分已达到99%的贡献率,而λ2=0.0562931412=0.00316891≈0所以自变量之间存在着多重共线性。
主成分回归得到新的回归系数和回归方程,且均通过检验,效果显著。得到的回归方程为:■=90396-75257.6Z1*,结果中得到的R2=0.9966,接近于1,说明拟合效果很好。
上述方程不易于应用,需要变换得到原坐标下的关系表达式,所以最终得到的回归方程为:
■=6141.687456+7.926687X1+1.159621X2 (1)
从多元线性回归模型中我们得出服务业对GDP的影响大约是建筑业的5倍。在对回归系数进行显著性检验之后,发现服务业总产值与GDP线性相关,而建筑业总产值则与GDP无线性相关性,究其原因是自变量之间存在多重共线性。在对多重共线性进行修正后发现之前的回归方程并不正确,我们得出了新的回归方程(1)。根据式(1)可以看出建筑业总产值每增长1元,GDP增加7.93元,服务业总产值每增长1元,GDP增加1.16元。我们发现建筑业的发展对GDP的影响非常的大,这符合当今中国建筑业的实际情况。从另一方面来说,我国的经济发展在一定程度上的确依赖于建筑业的发展,如果建筑业出现危机,将极大阻碍我国的经济发展,发展这一行业需要更稳健合理的措施。而服务业的影响从回归系数上看虽然没有这么大,但由于服务业总产值实际数据大约是建筑业总产值的5至8倍,其基数相当的大,所以服务业的增长对GDP也有显著的拉动作用。
参考文献:
[1]全球分析网建筑课题组.2010年中国建筑行业总产值分析[N/OL].2013-05-01].
全球分析网,2012-06-25.http://zx.qqfx.com.cn/news/103845.html.
[2]杨虎,刘琼荪,钟波.数理统计[M].北京:高等教育出版社,2004:125-127.
[3]薛毅,陈立萍.统计建模与R软件[J].北京:清华大学出版社,2007:423-441.
[4]中华人民共和国国家统计局.2011年中国统计年鉴[DB/OL].2012.
基金项目:重庆市自然科学基金项目(CSTC2011BB0058)。
作者简介:唐雪银(1991-),男,重庆人,本科,专业:统计学;张应应(1983-),男,重庆人,博士,讲师,研究方向:多元统计分析、期权定价。endprint