APP下载

深圳市财政收入的回归分析

2018-04-02

福建质量管理 2018年11期
关键词:共线性零售总额第二产业

(中央民族大学 北京 100000)

一、最小二乘回归

首先以12个变量为自变量,财政收入为因变量做最小二乘回归模型:

y=0.48x1+0.182x2+0.51x3+1.48x4+0.18x5-0.09x6+0.02x7+0.07x8-1.19x9-0.03x10+0.03x11-0.29x12

由回归方程可知:年末劳动者,年末常住人口,职工工资总额和城镇居民人均可支配收入的系数接近于0,说明这几个因素对深圳财政收入影响微乎其微;而固定资产投资,第二产业产值和第三产业产值有着较大的系数,特别是第三产业产值对财政收入影响极大,侧面反映了深圳市金融,互联网等第三产业的主导地位。

二、逐步回归和岭回归

因为发现最小二乘相关矩阵的条件数大于1000存在着极大的复共线性,所以用逐步回归方法降低复共线性。

最后筛选出x1,x2,x3,x4,x5,x9,x11,x12变量,其回归系数分别为0.468,0.184,0.313,1.854,0.158,-1.286,0.033,-0.343。

其中第三产业产值对深圳财政收入有着较大的正相关性,而社会消费品零售总额对财政收入有较大的负相关性,说明第三产业对深圳财政收入的提高极为重要,而社会消费品零售总额通过会导致财政收入的减少,其极可能是因为居民资产向外流出,从而间接导致财政支出的减少。但是年末劳动人口,年末常住人口,职工工资总和城镇居民人均可支配收入变量被剔除,其可能与深圳产业升级不需更多劳动力有关。而MSE(均方误差)仅为0.0007041403。

再尝试用岭回归法降低复共线性:

可得到x1到x12的12个系数分别为2.73e-1,4.47e-2,1.10e-1,1.80e-01,1.45e-1,-3.05e-2,3.27e-2,2.64e-1,7.74e-2,-6.35e-2,3.10e-2,5.86e-2,截距为5.92e-17。

发现其系数较大的有固定资产投资额,第二产业产值和第三产业产值,第三产业与第二产业产值比和职工工资总额,而其余的变量系数较小。固定资产投资额有着最大系数,说明了其可能促进深圳市的经济发展的活跃度,也就可创造出许多税收收入;与之同时,第二产业产值,第三产业产值和第三产业产值与第二产业产值比也与财政收入关系有正相关性。而MSE(均方误差)为0.008661725。

综上所述,可发现逐步回归挑选出的变量或岭回归系数较大的变量主要有第三产业产值和社会消费品零售总额等。

三、梯度下降法

梯度下降法可以降低回归计算过程中的计算代价,所以可用在前面可得到通过逐步回归筛选出来的x1,x2,x3,x4,x5,x9,x11,x12的八个变量进行梯度下降法线性回归,终止条件设为1e-13,固定步长取为0.001,最大迭代数设为1000,梯度下降法的参数设为alpha=0.20,beta=0.85。

而x1,x2,x3,x4,x5,x9,x11,x12的系数分别为0.460,0.184,0.310,1.850,0.158,-1.281,0.033,-0.343。

由上述结果可看出,经过454917次迭代,可得到这8个变量的回归系数,从回归系数可以看出x4第三产业产值的系数依旧是正的最大的,且是正相关的关系;而对于x9社会消费品零售总额而言,其系数有极大的负相关性。这个结果与逐步回归的结果是相似的,不同的是系数相对大小存在些许差异。MSE为0.0006941709,相对于逐步回归法,梯度下降法的MSE有了降低。

四、Adaptive-Lasso法

用Adaptive-Lasso法解决最小二乘或者逐步回归中局限于局部最优解以及变量过多而导致的子集选择极度多变问题。

对于Adaptive-Lasso参数估计公式可用LARS算法估计,对于每一个=1,LARS算法均会找到一个最优的。用R语言可得到如下结果:

除去x3,x6,x7,x8,x10系数为0外,剩下的变量x1,x2,x4,x5,x9,x11,x12系数分别为0.42673,0.13523,1.9786,0.09778,-1.11198,0.02404,-0.2865。

从上可看出,第二产业产值,年末劳动人口,年末常住人口,职工工资总和城镇居民人均可支配收入的因素的系数为0,说明其在Adaptive-Lasso模型中被剔除了。原因可能有如下几点:对于第二产业产值被剔除,是因为第二产业产值,第三产业产值和第三产业产值与第二产业产值比存在一定的复共线性;对于年末常住人口被剔除,是因为深圳的人口流动性强,所以有大量外省务工人员补充,因而对市政财政收入影响也较小;对于年末劳动人口被剔除,是因为深圳在向转型服务业转型即金融业和互联网业,这类行业并不需要过多的劳动者,所以年末劳动人口数量对财政收入影响很小;对于城镇居民人均可支配收入被剔除,是因为其与居民消费指数有明显的复共线性。由此看来,Adaptive-Lasso方法在构建模型是能够剔除所存在的复共线性关系的变量,同时也体现了Adaptive-Lasso方法对多指标进行建模的优势,而MSE(均方误差)仅为0.0009293436。

而可得到固定资产投资额,第一产业,第三产业产值,第三产业与第二产业产值比,社会消费品零售总额,居民消费指数和平均每人每月消费性支出是对深圳市财政收入影响的关键因素。其中,第三产业产值依旧有最大的正回归系数,社会消费品零售总额依旧有最小的负回归系数。

五、核回归法

为了减少由于线性回归模型过少的信息而带来的危险,可做非参数Epanechnikov函数核回归和Gaussian函数核回归。

而Gussian核回归和Epanechinikov核回归的估计值是比较接近的。而除去后两年外,其回归估计值是与真实值是比较接近的,有着很好的拟合效果,但后两年其估计值与真实值差异有些大。总体看来这两种核回归的拟合效果不是特别好的,Gussian和Epanechinikov核估计的MSE为0.05182504和0.05861696。同时也可以发现Gussian核回归和Epanechinikov核回归的估计值均是逐渐增大的,在2006年到2013年,其增速较快;而2013年2015年增速较慢。

六、总结

对上述几种模型比较其MSE并且结合其他因素进行评估,可得到Adaptive-Lasso法是最佳的回归模型。其回归模型中第三产业产值有着最大正回归系数,社会消费品零售总额有着最小的负回归系数,而与人口相关的变量系数为0。说明了第三产业产值对财政收入的提高是重要的,政府应当加快产业机构转型,把传统制造业升级为高新技术产业和金融服务业;同时也应当控制消费资金的流出,促进投资资金的流入。

【参考文献】

[1]张学均,云伟标等编著.R语言数据分析与数据挖掘.北京;机械工业出版社,2017.

[2]李新娜编著.核回归方法研究及其在图像去噪中的应用

猜你喜欢

共线性零售总额第二产业
银行不良贷款额影响因素分析
文氏图在计量统计类课程教学中的应用
——以多重共线性内容为例
不完全多重共线性定义存在的问题及其修正建议
2018年7月份社会消费品零售总额增长8.8%
2018年3月份社会消费品零售总额增长10.1%
2018年4月份社会消费品零售总额增长9.4%
社会消费品零售总额
国内生产总值指数
我国第三产业发展研究
生产性服务业与第二产业之间的互动机制