APP下载

基于岭回归和LASSO回归的安徽省财政收入影响因素分析

2022-08-08朱海龙李萍萍

江西理工大学学报 2022年1期
关键词:财政收入安徽省变量

朱海龙,李萍萍

(安徽财经大学统计与应用数学学院,安徽 蚌埠 233030)

一、引 言

财政政策是地方政府进行宏观经济调控的主要手段,而财政收入分配是财政政策的重要组成部分,通过增减财政收入调节资源的合理配置和生产要素的流动来实现提高人民生活水平的目标。参照《基本公共服务领域中央与地方共同财政事权和支出责任划分改革方案》对全国省份的划分方法,安徽省的实际经济发展水平及财力状况位于第二档,中央需要承担的比例比较大。安徽省作为中部地区的经济大省,在乡村振兴、脱贫攻坚及供给侧结构性改革中担负着十分重要的作用。在减税降费的背景下,安徽省的财政收支矛盾越发尖锐。为了更有效地促进本地区的财政增收和改善人民的生活水平,探究影响财政收入的重要因素,有助于政策制定者更合理地利用地方财政收入,并实施相应的政策举措。

国内学者对地方财政收入问题进行了大量研究,方法主要有:主成分分析、多元线性回归分析、logistic回归、灰色关联分析、LASSO回归、岭回归和逐步回归法等。刘荣提出通过建立逐步回归模型,分析影响我国财政收入的因素,并提出提高我国财政收入质量的政策和建议[1]。景宏军等基于VAR模型分析地方财政收入的动态预测和结构[2]。赵海华认为财政收入及其影响因素呈非线性变化,提出基于灰色RBF神经网络构建的财政收入模型[3]。随着机器学习的发展,越来越多的学者通过机器学习中的一些算法,弥补传统计量经济学方法中的缺点。舒服华提出运用岭回归的方法分析影响武汉市税收收入的因素,岭回归的方法可以有效解决变量之间共线性的问题[4]。董小刚等提出运用LASSO回归、岭回归和Adaptive-LASSO回归方法分析影响吉林省财政收入的因素,通过对比得出Adaptive-LASSO回归拟合的模型较优[5]。徐子卿选取1995—2017年的贵州省财政收入及其他相关变量,通过Adaptive-LASSO回归方法分析影响财政收入的主要因素,并建立BP神经网络模型进行预测,预测效果良好[6]。丁先文等基于岭回归讨论影响江苏省财政收入的因素,研究发现与普通线性回归相比,岭回归对各参数的估计更加具有精确性[7]。

地方财政收入是国家财政收入的重要组成部分,科学合理地分析影响地方财政收入的主要因素,能有效地避免预算收支规模的随意性和盲目性,对宏观经济调控具有非常重要的现实意义和作用。虽然地方财政收入影响问题的相关研究已经取得一定成就,但在具体的影响因素分析过程中方法比较单一,模型可能存在过度拟合的情况,不能准确地反映模型的适用性。另外,在相关参数估计过程中,使用最小二乘法会受到变量的多重共线性影响,往往存在方差较大的问题,达不到降低维度的作用,导致回归模型的精确度较差。为了减少模型过度拟合和多重共线性的问题,目前学者常采用岭回归和LASSO回归方法进行相关问题的研究。基于上述分析,选取安徽省的财政收入及相关变量数据,建立岭回归和LASSO回归模型,探究安徽省财政收入的影响因素。首先应用岭回归及LASSO回归模型降低变量间共线性的影响,然后再进行变量选择,最后对两模型进行比较,分析影响财政收入的主要因素,并提出相关政策建议。

二、回归模型的基本原理及数据说明

(一)岭回归模型基本原理

1962年,Hoerl首次提出岭回归,并在1970年和Kennard[8]进一步对岭回归模型做出了详细讨论,得出的结果为:自变量间存在多重共线性,岭回归是改良后的普通最小二乘估计,通过对最小二乘估计进行了改进,以达到消除共线性影响的效果。实际上,消除多重共线性的过程是一个自变量选元的过程。

岭回归是一种改良的最小二乘法,实际上是在线性回归的损失函数后加一个L2正则化项。

公式(1)中,X是输入的特征矩阵;y是输出矩阵;w是模型的参数向量;C是大于零的常数。在公式(1)中加入拉格朗日乘子法,将有约束的优化问题转换为公式(2)的无约束的惩罚函数优化问题。

岭回归的解为:

(二)LASSO回归模型基本原理

1996年Tibshirani[9]提出了最小绝对收缩和LASSO回归作为岭回归的替代方法,LASSO回归不会对参数施加二次惩罚,而是对压缩回归系数的绝对值进行惩罚。

LASSO回归方法是在线性回归模型中添加L1正则项作为惩罚项。LASSO回归模型的惩罚函数压缩回归系数,将不相关变量精确收缩到零,改善了回归模型中的多重共线性问题[10-11],定义为:

公式(3)中,β是n维参数向量;X是矩阵;Y是因变量;λ是收缩参数。LASSO在变量选择上利用最小角度回归(Lars)算法,可以有效地估计解的路径[12]。Lars算法核心思想是提出一种新的求解路径,即在已经入选的变量中,寻找一个新的路径,使得在这个路径上前进时,当前残差与已入选变量的相关系数都是相同的,直到找出新的比当前残差相关系数大的变量。LASSO是一种L1范数惩罚最小二乘算法,解决了以下优化问题:

公式(4)中,超参数λ∈(0,∞)是固定的,当λ的值趋于∞时,估计的系数缩小到零。λ越大,说明惩罚力度越大,模型中保留的变量就越少,以至于刚开始模型中没有任何变量为显著变量。但是,随着λ的值减小,模型中保留的变量开始变多,回归模型中依次出现显著变量。也就是说,相对于超参数λ,LASSO程序可以解释为逐步回归,估计模型的参数会朝着零的方向进一步收缩[13]。当模型中存在无关或者相关系数较小的变量时,通过LASSO回归,这些变量将会被筛除,从而提高模型的准确度和解释度。许多文献给予了LASSO回归在变量选择方面上的大量关注,然而,在实际情况下,不能完全期望得到一致的变量选择和参数估计。

(三)模型设定

基于上述理论,设定具体的线性模型:

公式(5)中,Y是被解释变量,即安徽省财政收入,为n×1维的列向量;X为n×p阶的矩阵,由影响财政收入的有关的解释变量组成;β为p×1维回归系数;ε为随机扰动项。

(四)数据说明

从模型的精确度和可信度从发,应该选取尽可能多的样本。许多指标虽有较长时间跨度的记录,但是前期的统计口径和后续不一致,盲目选择可能会带来较大的偏差。基于以上想法,选取对安徽省1988—2019年财政收入影响较大的14个因素,利用岭回归和LASSO回归方法对可能影响财政收入的因素进行分析和变量选择。文章数据来源于《安徽统计年鉴2019》,共计32个年度,样本容量为434,样本量基本充足。

(五)变量定义及描述统计

为研究影响安徽省财政收入的因素,将一般公共预算收入作为被解释变量。本文在借鉴相关文献的基础上[4],对指标体系进行了创新改进,提出影响因素分别从经济发展水平、产业结构、贸易程度、能源消耗和居民支出收入状况方面来考虑,具体指标分别为地区生产总值(X1)、财政支出(X2)、第一产业增加值(X3)、第三产业与第二产业产值比(X4)、进出口总额(X5)、居民消费价格指数(X6)、电力消耗量(X7)、全社会固定资产投资额(X8)、城镇单位就业人员数(X9)、常住人口数(X10)、城镇单位就业人员工资总额(X11)、城镇居民人均可支配收入(X12)、城镇居民人均消费性支出(X13)和社会销售品零售总额(X14),变量描述性统计分析如表1所列。

表1 变量描述性统计表

三、实证分析

(一)多重共线性检验

由于选取的14个变量的量纲不同,因此需要对原始数据进行标准化处理。同时,随着时间的推移,财政收入显著的时间趋势使得变量间存在异方差性,为了消除异方差的影响,对财政收入数据进行对数化处理。

对所有变量进行线性回归,虽然模型拟合度为99%,但大多数变量没有通过显著性检验。kappa值可以判断变量间是否具有严重的多重共线性。如果k〈100,说明共线程度比较小;如果100〈k〈1 000,有较强的多重共线性;k>1 000说明存在严重的多重共线性。经过计算,k值等于205.153 7,说明该样本存在较强的多重共线性。

方差膨胀因子(VIF)适用于检验变量共线性的强弱,大于10则说明存在严重的多重共线性。从表2可知,大部分变量存在显著的多重共线性,只有少数变量不存在多重共线性,如:第三产业与第二产业产值比(X4)和居民消费价格指数(X6)。

表2 变量的多重共线性检验

(二)岭回归分析

岭回归是一种专门用于共线性数据分析的有偏估计回归方法,实质上是改良的最小二乘估计法,通过放弃最小二乘的无偏估计,以损失部分信息、降低精度为代价获得更加实际、可靠的回归系数方法。通过R语言中ridge程序包中的linearRidge函数[14]可以自动进行岭参数的选择,根据岭回归模型给出的结果进行分析,结果如表3所列。

表3 岭回归分析结果

相较于普通回归,岭回归方法中大部分的变量系数显著提高,第一产业增加值(X3)、电力消耗量(X7)、城镇单位就业人员数(X9)、常住人口数(X10)、城镇居民人均可支配收入(X12)和城镇居民人均消费性支出(X13)系数均提高。

标准化后的岭回归方程为:

经过标准化处理后,模型中的截距项无空值,因此从方程(6)可知:居民消费价格指数(X6)、城镇单位就业人员工资总额(X11)和社会销售品零售总额(X14)与安徽省财政收入呈现负相关关系,居民消费价格指数对安徽省财政收入有负影响;第一产业增加值(X3)、电力消耗量(X7)、城镇单位就业人员数(X9)、常住人口数(X10)、城镇居民人均可支配收入(X12)和城镇居民人均消费性支出(X13)与安徽省财政收入呈正相关,当上述变量发生变动时会引起安徽省财政收入同方向变动。

(三)LASSO回归分析

LASSO回归是一种相对较新的方法,其原理是在RSS最小化的计算中加入一个范数作为惩罚约束,目前被广泛应用于参数估计和变量选择,是在变量选择和参数估计过程中同时进行的正则化方法。

与岭回归相似,LASSO回归通过加入惩罚项将有约束的优化问题转化为无约束的惩罚函数优化问题;不同的是,LASSO回归虽然无法得到具有解析式的解,但其回归结果有助于做出合适的特征选择,具有一定的优越性。

文章选取常用的Cp统计量法进行系数选择,运用R软件中Lars算法进行LASSO回归,从而得到相应的回归结果[15]。

Cp统计量是用来衡量变量间多重共线性,其值越小,说明所选子集个数就越优[16]。表4反映了LASSO求解中Cp值的变化情况,其中Step表示步数,RSS表示残差平方和,找到使Cp统计量达到最小值的步数,输出所对应解释变量的系数,并从中筛选出系数不为零的变量。可以看出,当变量选取到第22步时,Cp值取得最小值为12.676。

表4 LASSO求解中值的变化

图1为LASSO回归模型变量筛选的结果。图1中底部横轴表示模型系数比,右侧纵轴数据表示对应解释变量,左侧纵轴数据表示标准化参数;虚线代表变量,竖线表示惩罚值。

筛选变量后,筛选出X1、X2、X3、X4、X6、X7、X8、X9、X10、X11、X12和X13共12个变量,再进行线性回归,通过显著性检验的变量有:X2、X3、X4、X6、X11和X12。表5反映的是LASSO回归模型变量选择结果。

LASSO回归的表达式如方程(7)所示:

结合方程(7)和表5可以看出,运用LASSO回归方法进行系数求解,可以有效解决模型中存在多重共线性的问题,同时,获得具有较好泛化能力的回归模型,也对研究影响财政收入的最佳变量集给出一定的参考。文章通过LASSO回归选出了6个影响较大的变量:财政支出(X2)、第一产业增加值(X3)、第三产业与第二产业产值比(X4)、居民消费价格指数(X6)、城镇单位就业人员工资总额(X11)和城镇居民人均可支配收入(X12)。具有正向影响作用的解释变量有:第一产业增加值(X3)和城镇居民人均可支配收入(X12),具有负向影响作用的解释变量有:财政支出(X2)、第三产业与第二产业产值比(X4)和居民消费价格指数(X6)。

图1 LASSO回归方法下的变量选择

表5 LASSO的回归变量选择结果

(四)模型对比分析

运用岭回归模型和LASSO回归模型进行变量选择后,消除了变量间的多重共线性,通过对比模型检验及参数检验,选择较优的模型。表6为LASSO回归模型和岭回归模型的对比分析。对于表6的结果,从均方根误差RMSE来看,岭回归的均方根误差小,说明岭回归较优;但是从R2拟合优度来看,LASSO回归的拟合优度数值较大,说明拟合效果较好。在实际检验中,使得AIC(最小信息准则)或SBC(施瓦兹的贝叶斯判别准则)达到最小的模型为相对最优模型,从AIC及SBC准则来看,LASSO回归模型较优。

表6 模型对比分析表

四、结论与建议

文章运用岭回归和LASSO回归方法进行变量选择,将以地区生产总值、财政支出等14个影响因素作为解释变量,财政收入作为被解释变量构建回归模型。通过模型对比分析可以看出,LASSO回归模型相对较优,基于LASSO回归结果得到如下结论:

(1)安徽省财政收入与城镇单位就业人员数及常住人口数,存在显著的正向影响。就业人数和常住人数的增加,使得劳动力增加,促进当地就业水平提高,推动当地的经济发展,进一步引起财政收入的提高。常住人口数直接影响着居民的消费水平,城镇就业人数的上升伴随着居民消费水平的提高,间接增加财政收入。

(2)安徽省财政收入与第一产业产值存在正相关的关系。安徽省位于中原地带,有富饶的水域等自然环境,因此农业就显得至关重要,第一产业农业的产值越高,居民收入越高,消费水平也会随之增长,最终导致财政收入增长。安徽省的财政收入与能源消费总量也存在着正相关的关系。能源消费总量越大,说明工厂等一些重工业基地越多,这些企业会产生大量的税收,上缴的税收也会引起财政收入的增加。安徽省财政收入和第三产业与第二产业产值比值存在着负相关的关系,第三产业与第二产业产值比值的提高会引起财政收入的减少。第三产业与第二产业比值提高,意味着服务业发展迅速,工业发展减缓,需提高产业结构逐步优化。

(3)财政收入与居民消费价格指数存在负相关的关系。值得注意的是,居民消费价格指数是一个滞后性的数据,不仅决定消费者日常花费的增减,也决定了经营者的经营成本,还影响着投资者的投资决策问题,更对政府的宏观调控起着重大影响。居民消费价格指数的持续下行,会影响消费水平,进而影响财政收入。

通过上述结论,针对不同因素对安徽省财政收入的影响提出以下几点建议:

(1)为吸引劳动力,吸引人才,省内需要不断优化自身的生活环境和营商环境。在人才培养的过程中,根据新时代要求,布局新农业、新工科专业。培养人才后,通过落户补贴等留住人才,促进人才作用长远发展,真正做到人才强省、高水平的创新型省。另外,也要切实解决发展过程中遇到的不平衡不充分问题,就业人员工资和当地的财政有紧密的联系,财力紧张的同时,提高资金的指向性,确保财政经济运行的可持续性,保工资,保基本民生。从发展财政真正做到转向民生财政,促进人口红利走向素质红利。

(2)加快工业化升级,结合产业结构的特点,通过引进更加高端的装备和依托省内高校人才,在工业创新过程中,鼓励新型材料和新能源的创新研发。当地政府需要制定合理的税收政策,为产业结构创新升级提供源源不断的动力,扶持相关产业的孵化和成型,推进相关税收政策的改革,促进安徽省的第二产业朝着更高质量的发展。

(3)在当下以及未来的一段时间内,营造稳定的消费环境,使消费者可以放心消费,同时也要为非城镇的居民设立消费场所,电商进村,快递进镇,拓展居民消费。鼓励企业开展新兴的线上线下相结合销售形式,积极引导这些企业朝着健康绿色的方向发展,从而更好地促进省内的财政增收。

猜你喜欢

财政收入安徽省变量
成长相册
成长相册
成长相册
聚焦双变量“存在性或任意性”问题
2017年安徽省各市主要经济指标
1—4月份怀柔区地方财政收入平稳增长
中国财政收入走势图
分离变量法:常见的通性通法
不可忽视变量的离散与连续
变中抓“不变量”等7则