基于支持向量机的税收预测算法研究

2018-02-03贾晓光

电脑知识与技术 2018年2期

贾晓光

摘要：税收预测对财务预算和税收计划制定具有重要的意义。随着经济的快速发展，税务管理人员对税收预测精度和模型有效性提出了更高的要求。现有的税收预测模型主要用来验证模型的可行性，即主要目标是提高预测精度，没有充分考虑模型的实用性问题。该文从模型的预测精度和实用性角度研究税收预测问题，建立了基于网格搜索法优化的支持向量机税收預测模型。文中应用GM（1，1）算法建立税收指标因子序列的预测模型，为税收预测模型提供更为全面的数据基础。对税收数据进行验证性实验结果表明，该方法预测精度提高了，绝对误差从6.9%降低到1.8%，并且实现了税收预测功能，证明了模型的可行性和实用性。

关键词：支持向量机；网格搜索法；GM（1，1）；指标因子；税收预测模型；验证性实验

中图分类号：TP312 文献标识码：A 文章编号：1009-3044（2018）02-0242-04

Tax Forecasting Algorithm Based on Support Vector Machine

JIA Xiao-guang

（Yanshan University， Qinhuangdao 066004， China）

Abstract： Tax forecasting has important significance to the financial budget and tax planning. With the rapid development of economy， the tax management personnel put forward higher requirements on the accuracy of tax forecasting and the validity of the model. The existing tax forecasting model is mainly used to verify the feasibility of the model， that is， the main goal is to improve the prediction accuracy， and not to fully consider the practicality of the model. In this paper， we studied the problems of tax forecasting Based on the forecast accuracy and practicability of the model and established the model of support vector machine Based on the optimization of the grid search method. The GM （1，1） algorithm is used to establish the forecast model of the tax index factor， which provides a more comprehensive data base for the tax revenue forecasting model. The validation experiment results show that the prediction accuracy of this method is improved， and the absolute error is reduced from 6.9% to 1.8%， and the function of tax forecast is realized.

Key words： support vector machine； grid search method； GM； index factor； tax forecast model； verification experiment

1 背景

税收预测是税收收入的出发点和税收宏观分析的基础，是在对税收历史数据收集、影响因素分析以及国家宏观经济调控的共同作用下工作的。预测结果能够帮助税务管理人员更有效、更好的安排税收计划和预见未来的税收情况，也是领导进行科学决策的重要依据。因此，税收预测具有很重要的研究价值。

自从学术界提出税收预测这一概念以来，学者们提出了很多税收预测模型，包括：回归分析模型、时间序列预测模型、神经网络预测模型、GM（1，1）预测模型和支持向量机预测模型等。2006年，李继嵬等人基于税收影响因素和数据特征将税收预测方法分为解释性的预测方法和时间序列分析方法[1]，文中应用一次指数平滑法和二次指数平滑法预测税收，实验结果验证，二次指数平滑法的预测精度更高，但是没有指出选择这个算法的依据和优势。与传统的统计模型相比，C Shen等人将BP神经网络的应用于税收应用领域[2]，实验数据包括1994-2006共13组，实验指标包括8项，实验模型的验证结果体现模型具有较高的精度和实用性，但是没有克服传统BP神经网络存在的缺陷，算法收敛速度慢。李守丽应用时间序列模型预测郑州市GDP [3]，是税收应用领域的又一个预测方法扩展，但是模型具有应用领域的局限性。基于数据样本小、信息量少等特点，俞群等人结合定性分析与定量预测，应用GM（1，1）模型对税收数据进行预测[4]，实验数据包括1992-2001共10组，实验指标是税收收入，验证实验结果表明GM（1，1）比BP 网络预测更有优势，但是对税收数据的要求比较高。针对传统BP人工神经网络所存在的缺陷，林国玺等人在递归预测方法的基础上，将遗传算法与BP神经网络相结合，提出了基于实数编码的 GA-BP神经网络税收预测模型，预测效果优于传统的神经网络预测模型[5]，但是预测精度还有待提高。基于结构风险最小的支持向量机能够提高泛化能力，常青等人利用基于RBF径向基核函数的支持向量机建立税收预测模型[6]，改善了人工神经网络容易出现的局部最优问题，其中实验数据包括1994-2004共11组，实验指标共8项，。2011年，基于税收数据的动态和高度非线性等特点，张玉等人提出了基于主成分分析的支持向量机税收预测模型[7]，实验数据包括1988-2004共17组，实验指标包括9项，验证结果表明模型具有较高的泛化能力和预测精度。endprint

由上述文献分析可知，支持向量机算法适用于小数据集的税收预测，能有效改善模型泛化能力。但是传统的税收预测模型都是进行验证性试验，没有实现预测未来税收收入的功能，模型的实用性有待提高。本文基于模型的实用性问题，建立了将GM（1，1）与支持向量机相结合的税收预测模型，应用1994年-2009年的税收数据作为训练集，2010-2014年的数据作为测试集，预测了2015-2020年的税收收入，结果证明了该方法在税收预测领域的实用性。

2 预测算法及实现过程

本文通过应用GM（1，1）算法[8]输出税收指标因子的预测值，然后应用网格搜索法[9]求解优化的平衡参数和核函数参数，最后建立基于支持向量机算法[10]的预测模型。算法流程如图1所示。

算法详细步骤如下：

1）根据相关参考文献选择税收收入的影响因子，依据指标在《中国统计年鉴》中收集税收相关数据。

2）对税收数据进行标准化处理，消除各指标因子之间的量纲差异对税收预测结果的影响。

3）采用GM（1，1）对各个税收指标因子分别建立预测模型，求解各个指标2015-2020年的数据预测值。

4）建立基于支持向量机的预测模型，初始化模型参数，基于默认值求解税收预测值。

5）应用网格搜索法求解最优的模型参数：平衡参数c和核函数参数g。

6）将最优参数对应用于支持向量机模型，建立最优预测模型。

7）对训练集进行学习，对测试集进行测试，输出税收预测结果，分析预测模型的预测误差和实用性。

后续部分将对具体步骤进行详细介绍。

2.1 样本数据收集

税收收入的影响因素比较多，至今也没有统一的判断标准，文中参考多个文献资料，基于影响税收收入水平的产业发展状况、反映税收规模大小、人民生活水平、影响税收收入增长状况和反映税收增长与经济发展相互关系等因素，最终选择国内生产总值（[x1]）、国内增值税（[x2]）、营业税（[x3]）、国内消费税（[x4]）、个人所得税（[x5]）、企业所得税（[x6]）、第一产业（[x7]）、第二产业（[x8]）、第三产业（[x9]）、批发和零售业（[x10]）、关税（[x11]）等11项指标作为实验分析指标，根据《中国统计年鉴》和《中国税务年鉴》得到11项指标的原始数据，选取1994年-2009年的数据作为训练数据，2010-2014年的数据作为测试数据，如表1所示。

2.2 归一化过程

很多学者已经验证了不同量纲的实验数据会影响预测模型的预测结果和模型精度。本文中用于实验的税收数据单位不同，相关指标数据值的差异也比较大。为了消除预测指标数据之间的差异对税收预测模型性能的影响，需要在模型训练之前对税收数据进行标准化处理，即把所有数据归一化到 [0，1] 区间，具体处理过程如式（1）所示：

[x'i=xi-xminxmax-xmin] [x'i=（xi-xmin）/（xmax-xmin）] （1）

其中，[x'i]表示归一化后的税收值，[xi]表示税收数据实际值，[xmin]表示实际税收序列中的最小值，[xmax] 表示实际税收序列中的最大值。

2.3 GM（1，1）预测模型

对每一个税收指标因子的原始数据序列进行预处理，求解灰色参数，建立GM（1，1）预测模型。

首先对共17组税收样本数据进行学习，然后应用5组测试数据集进行预测验证，预测误差结果如表2所示。最后，预测2015至2020年的税收收入预测值，预测结果如表3所示。

通过对比分析预测结果可以看到：指标[x5]的相对误差和绝对误差比较小，而指标[x6]的相对误差和绝对误差值较大，预测结果表现出强烈的不稳定性。所以本文选用稳定性能较强的支持向量机算法来改善税收预测模型。

2.4 网格搜索优化参数

网格搜索法虽然预测速度相对较慢，但可以保证搜索到最优参数，进而达到理想的预测精度。税收数据集属于小樣本数据，考虑到模型的实用性和预测性能，本文应用网格搜索法求解得到平衡参数c = 1.7411，g = 0.020617。遍历过程如图2所示。

图2 最优参数结果

3 实验与结果分析

3.1 实验设计

为了提高税收模型预测精度，进而得到更准确的税收值，通过历史数据对税收预测模型进行验证。

1）基于原始数据序列依次生成累加生成数据序列、紧邻均值生成序列、常数项量矩阵和累加矩阵，构造灰色微分方程，建立GM（1，1）预测模型，求解税收预测值系列[{xi， yi}] [xi，yi]。

2）利用默认参数建立基于支持向量机的税收预测函数

[f（x）=i=1t（α*i-αi）K（xi，x）+b] （2）

3）应用网格搜索法求最优参数平衡参数和核函数参数，先定义大范围的数据区域求解，然后在求解的结果基础上再定更小范围数值。最终确定最优参数c和g。

4）利用最优参数建立最优税收预测模型

[f（x）=i=1l（α*i-αi）K*（xi?x）+b] （3）

5）求解税收预测值，并分析模型精度，检验模型预测性能。

3.2 税收预测结果及分析

应用网格搜索法得到最佳惩罚因子c和核函数参数g，然后基于最优参数建立最优预测模型，经过对训练样本学习和对测试样本测试，最后求得优化的税收预测结果。税收预测结果如表4所示。预测误差结果如表5所示。

由表5可以看出三种税收预测模型分别实现了对2010-2014年共5年的税收样本数据进行测试。其中，GM（1，1）的预测结果稳定性较差，基于支持向量机的预测模型的结果稳定，但是预测精度不高，最优预测模型弥补了GM（1，1）模型的不稳定性，同时应用网格搜索法优化了支持向量机预测模型参数，优化的预测结果表明，最优模型预测结果稳定，而且预测精度提高了，所以本文选取GM（1，1）与网格搜索法优化的支持向量机预测模型结合作为最终的预测模型。

基于最优预测模型求解得到2015-2020年的税收预测值，其中2015年148121.8亿元，2016年171217.3亿元，2017年197544.7亿元，2018年226603亿元，2019年256106.3亿元，2020年280001.5亿元。同1994-2014年的税收数据对比的结果如图3所示，税收预测数据的增长趋势基本趋于指数增长模式，符合实际数据序列的增长趋势，实验验证了模型的可行性和实用性。

4 结束语

针对数据量较少的税收数据序列，为保证税收预测精度，采用网格搜索法寻求最优参数，应用原始数据集以及由GM（1，1）生成的税收指标因子预测序列数据作为支持向量机预测模型的数据集，建立最优预测模型对税收进行预测。通过实验验证及预测，可以证明，基于网格搜索优化的支持向量机预测模型预测精度高，而且在税收预测中表现出良好的可用性。

参考文献：

[1] 李继嵬，刘书明，李春平，等. 数据挖掘技术在税收预测分析中的应用[J]. 计算机系统应用， 2006， 15（9）：61-64.

[2] Shen C， Zhang W. Economic Analysis on Tax Model Based on BP Neural Network[C]// Communications， Circuits and Systems， 2009. ICCCAS 2009. International Conference on. IEEE， 2009： 569-572.

[3] 李守麗. 时间序列模型在地级市GDP预测中的应用[D]. 郑州：郑州大学， 2013.

[4] 俞群，李为民，申卯兴，等. 灰色数列预测在我国税收预测中的应用[J]. 系统仿真学报， 2006， 18（s2）：971-972.

[5] 林国玺，宣慧玉. 遗传算法和BP人工神经网络在税收预测中的应用[J]. 系统管理学报， 2005， 14（2）：145-148.

[6] 常青，刘强. 基于支持向量机的税收预测模型的研究[J]. 计算机工程与设计， 2007， 28（7）：1653-1654.

[7] 张玉，尹腾飞. 支持向量机在税收预测中的应用研究[J]. 计算机仿真， 2011， 28（9）：357-360.

[8] 张徐，高承实，戴青，等. 网格环境下基于灰预测的信任评估模型[J]. 计算机工程与应用， 2006， 46： 81-83.

[9] 何俊，张玉灵. 灰色预测模型的优化及应用[J]. 数学的实践与认识， 2013， 43（6）：86-91.

[10] 王颖. 降维和SVM相结合的方法在基因数据中的研究[D]. 长春：吉林大学， 2014.endprint