APP下载

SARIMA时序分析在税收预测中的应用
——以贵州省为例

2021-01-06任爽崔海波

湖北大学学报(自然科学版) 2021年1期
关键词:税收收入季节性差分

任爽,崔海波

(1.湖北大学计算机与信息工程学院, 湖北 武汉 430062; 2.湖北省高等学校人文社科重点研究基地(绩效评价信息管理研究中心), 湖北 武汉 430062)

0 引言

近年来,贵州省税收收入一路突飞猛进,在2017年就早已突破了1 000亿大关,而在2019年仅上半年就完成税收收入高达1 434亿,增长率远大于其他周边的省份.税收是地方政府财政收入的重要来源,也是宏观调控的重要手段.税收收入的提高不仅表现出经济发展的进步,也表现出城市发展的无限潜力.而如今贵州省的税收收入进入到新的发展阶段,如何预测其未来的发展趋势,从而为税务部门提供合理的参考数据,是本研究的探讨目的.

此前,贵州省地方税务局课题组使用1996—1999年的地方税源数据进行税收年增长率的预测[1].王时绘采用了多种数学模型对贵州省税务收入建立预测模型并调优[2].刘迪采用了BP神经网络算法对吉林省税收经济进行了分析与预测[3].田昭采用了多元回归分析对税收收入进行了预测[4],为制定税收政策提供了参考数据.

本研究在前人研究基础上,加入了对季节因素的分析和处理,采用季节性自回归移动平均模型(SARIMA模型)对贵州省2016—2019年的税收月度收入进行预测研究.该模型以贵州省月度税收收入为因变量,税收收入时间为自变量建立预测模型,对税收收入进行了拟合与预测.

1 数据来源与处理

1.1 数据来源本研究采集了2016年1月至2020年2月贵州省税收收入数据.数据来源于2016—2020各年的贵州省宏观经济数据库.

1.2 数据处理

1.2.1 税收收入的平稳性判断 建立时间序列预测模型前,要求序列是平稳序列,即一个序列的均值、方差和协方差不随时间推移产生变化[5].实际上,大部分序列都不平稳,首先可以通过时序图对序列平稳性进行判定.进一步采用单位根检验法确定序列的平稳性[6],如果数据不平稳可以采用取对数和差分来使其满足平稳性条件[7].本研究将2016年1月至2019年9月的数据作为训练集,2019年10月至2020年2月的数据作为测试集.

将近4年的税收收入数据绘制成折线图(如图1)可以看出,税收收入的金额是非平稳的,其滚动均值具有增长趋势.进一步,通过统计方法“ADF检验”来判断序列的平稳性.

图1 2016—2019税收收入时序图

ADF检验:一种常用的单位根检验,用于检查数据稳定性.其方法是假设序列具有单位根,是非平稳的.在给定显著水平(1%,5%,10%)下进行t检验.其原假设如为“时间序列是非平稳的”,测试结果由测试统计量及其临界值组成.如果“测试统计量”小于“临界值”,可以拒绝原假设,并认为序列是平稳的.

对税收收入样本数据进行ADF检验,其结果见表1.

表1 月度税收收入时间序列的ADF检验

此时的P值为0.339 890,在0.05的显著性水平下,不能拒绝原假设.所以该月度税收收入序列是不平稳的,需要对序列进行平稳性处理.

1.2.2 税收收入的季节性 本研究将2016年、2017年、2018年和2019年4个整年的数据绘制在一张折线图上,如图2所示.

图2 近3年税收收入趋势图(按月份绘制)

可以看出,每年的税收收入有明显的季节性:1月偏高,8月偏低,3年的月度数据变化趋势较吻合.

使用季节指数来判断,税收收入季节性是否具有统计显著性.所谓季节指数就是用简单平均法计算的周期内各时期季节性影响的相对数.季节指数反映了该月度与年度平均值之间的一种比较稳定的关系:

如果比值大于1,说明该月度的值往往会高于年度平均值;如果比值小于1,说明该月度的值往往会低于年度平均值;如果比值近似为1,就说明月度的值没有明显的季节性.

本研究计算的近3年税收收入的季节指数如表2.可以看出,除了5月、7月以及9月的季节指数接近1外,其他月份的季节指数均与1有明显差距.故可以得出,税收收入序列具有季节性,应采用去除季节性的序列进行时间序列建模.

1.2.3 季节性差分 在建立时间序列模型时,需要使用季节调整以消除季节性的影响[8],其中季节性差分是一种常用的方式,对于周期为s的序列,其季节差分形式为:

Δsxt=xt-xt-s.

在python中,使用“ts_diff=ts - ts.shift(12)”对序列进行周期为12的季节性差分后,进行ADF检验,并绘制自相关(ACF)和偏自相关图(PACF),如图3所示.

图3 季节性差分后的序列检验图

ADF检验的P值为0.000 54,远小于0.05的显著性水平,季节性差分后的时间序列是平稳的.自相关图不存在滞后点,序列可建模.

2 构建时间序列模型

对于一些既有季节效应又有长期趋势的时间序列,简单的自回归差分移动平均(auto-regressive integrated moving average,ARIMA)模型不足以提取其中的季节信息,应使用SARIMA模型[9].

SARIMA模型(seasonal auto-regression integrated moving average model,SARIMA)的全称是季节性自回归移动平均模型,综合d阶差分和以S为步长的季节差分运算,基于季节性差分后的序列进行ARIMA研究,称为SARIMA模型[10],记为SARIMA(p,d,q)(P,D,Q)s:

式中:BS为季节后移算子;S为季节周期;Φ(BS)为回归系数多项式;Θ(BS)为移动平均系数多项式;P为季节性的自回归阶数;Q为移动平均阶数;D为季节差分阶数.

2.1 模型参数的计算根据SARIMA模型描述可知,需要对参数范围进行确定,通过设置参数搜索区间,根据AIC信息准则确定最优的SARIMA模型参数.

AIC信息准则(akaike information criterion)是衡量统计模型拟合优良性的一种标准,由日本统计学家赤池弘次在1974年提出[11],它建立在熵的概念上,提供了权衡估计模型复杂度和拟合数据优良性的标准.其定义为:

AIC=2k-2ln(L),

式中k为模型参数个数,L为似然函数.从一组可供选择的模型中选取最优时,应选取AIC值最小的模型.

由图3,观察季节差分后的PACF和ACF图,可以确定各参数搜索范围是:(p,d,q)为(1,1,0),(P,D,Q)为(1,0,1),S为12.

通过使用python的itertools包中的product函数,构造出观察值范围内的各种参数组合,并将各参数组合作为迭代值分别计算各参数生成模型的AIC值,选取AIC值最小的为最优模型,其生成的搜索表及AIC值如表3所示.计算后的最优模型为:SARIMAX(0, 1, 1)(1, 1, 0, 12).

表3 不同模型参数对应的AIC值

2.2 建立SARIMA模型使用SARIMAX(0, 1, 1)(1, 1, 0, 12)模型对时间序列进行拟合.并对拟合后的残差进行ADF检验,绘制其ACF和PACF图,结果如图4所示.

图4 SARIMA模型拟合检查图

残差的ADF检验的P值几乎为0,远小于显著性水平0.05,故拟合后的残差是平稳的,且没有自相关性,该SARIMA模型是有效的.

3 模型预测与评估

3.1 模型的预测将SARIMAX(0, 1, 1)(1, 1, 0, 12)模型的预测值与真实值绘制在同一坐标系中,并计算其平均绝对百分比误差,如图5所示.

图5 SARIMA模型预测值与真实值曲线

由图5可以得出,模型在2017年1月至2019年9月的训练集预测曲线可以较好地反映税收收入的发展趋势,2019年10月至2020年2月的测试集数据拟合度较好.测试集数据显示的税收趋势较往年同期水平有增长,且趋势符合往年税收收入表现.

3.2 模型的评估由图5可得,模型的平均绝对百分比误差为13.29%,拟合程度良好.

使用SARIMA模型进行预测,抽取2019年10至2020年2月的真实值与模型的拟合值,计算其误差,如表4所示.可以看出,除2019年10月和2020年2月外,其他月份的误差均在5%左右,预测效果较好.受新冠疫情影响,2月份的税收收入较往年大幅下降,导致该月误差较大.

表4 2019年10月至2020年2月的真实值与预测值比较

再使用均方误差(MSE)、均方根误差(RMSE)对模型进行评估.

均方误差(MSE):是回归分析常用的性能度量指标.其中:pre表示预测值,real表示真实值.

均方根误差(RSME):

将总数据使用上述两个指标进行评估,其得到的结果如表5所示.可以看出模型可以有效的拟合税收收入时间序列.

表5 模型的统计评估表

4 结论

本研究使用贵州省2016—2019年的税收收入为样本,建立了季节性自回归移动平均模型.该模型的平均绝对百分比误差较低,均方根误差在合理范围中,可以作为税收收入预测的一个参考模型.但是可以看出随着时间的推移,一方面随着税收制度的全面深化改革和推进,对各行各业的影响显著,使得模型的预测准确性受到影响;另外一方面,由于SARIMA比较适用于短期预测,也导致后续预测准确度稍有下降.因此在税收政策平稳时期,模型的预测效果较好.

猜你喜欢

税收收入季节性差分
一类分数阶q-差分方程正解的存在性与不存在性(英文)
粕类季节性规律:豆粕篇
序列型分数阶差分方程解的存在唯一性
一个求非线性差分方程所有多项式解的算法(英)
季节性恋爱(外一首)
China
远离季节性过敏
基于差分隐私的数据匿名化隐私保护方法
贵州国税收入首次过千亿
浅谈日本料理特色