APP下载

提升税收数据分析应用能力的关键要素

2014-03-13赵为民安徽大学经济学院安徽合肥230601谭荣华中国人民大学财金学院北京100872

国际税收 2014年8期
关键词:守法税务机关纳税人

赵为民(安徽大学经济学院 安徽 合肥 230601)谭荣华(中国人民大学财金学院 北京 100872)

提升税收数据分析应用能力的关键要素

赵为民(安徽大学经济学院 安徽 合肥 230601)
谭荣华(中国人民大学财金学院 北京 100872)

我国税务机关早在主要业务系统实现省级集中时,便开始了对税收数据分析应用工作的探索,至今已有十多年的历史。2009年,国家税务总局提出了“信息管税”的税收征管工作新思路;2013年7月,国家税务总局局长王军进一步要求税务机关“科学做好税收分析工作,着力服务经济社会发展”。各地税务部门围绕纳税人风险管理、纳税评估、税源监控等数据应用工作,较好地提升了税收征管能力,改善了纳税服务质量。但从总体上看,税收数据应用的广度和深度方面还远远不够,对税收工作的支撑与推动作用远未充分发挥。

税收数据分析应用目前采用的方法主要是经验式的,缺乏科学的理论指导,对统计模型和实现算法关注度不够,在技术路线和具体实践中尚有许多不合理处,本文主要针对当前税务机关重点开展的纳税人遵从风险管理、纳税评估等工作,基于统计学理论、机器智能理论,并结合多年的税收数据分析工作经验,对目前存在的问题进行了剖析,并提出相应的改进建议。

一、关于分析方法的选择

(一)当今应用普遍的三种分析方法

目前,税收数据分析应用主要集中在征收管理方面,如纳税人遵从风险管理、纳税评估、智能选案等工作。所采用的方法大致可分为三种:经验判断法、计量统计法和机器学习法。

经验判断法是指税务专家根据自己的业务经验,针对待考察行业的生产和经营特点,设定一个或多个指标,对每一个指标根据经验设定相应的值域和权重,最后依据指标计算的结果,结合主观判断,筛选疑点纳税人。该方法的关键是必须洞悉该行业的生产经营特点,了解该行业常用的逃税手段,有针对性地设置指标。

计量统计法是通过分析纳税人生产经营活动和税收缴纳情况,建立起刻画纳税人正常经营活动的经济和税收关系模型,基于这样的统计模型,发现逃税纳税人并计算逃税金额。这类方法建立在传统的统计理论和计量理论之上,主要采用判别分析、聚类分析、回归分析、时间序列分析等手段,对待测纳税人集合进行综合分析。

机器学习法又称为数据挖掘法,是计算机领域的专家和统计学家在最近三十年研究出来的新的统计分析方法。其生成的算法和模型不是封闭的数学公式,而是一段计算机程序。该方法对数据的要求低,没有苛刻的假设条件,对模型的适用性也不是通过各种假设检验来判断,而是通过标准均方误差来判断,从而避免了“假定分布→假设检验→p值”的统计过程,因此应用越来越广泛。目前可选用的数据挖掘方法包括随机森林(Random Forest)、提升算法(Boosting)、决策树(Decision Tree)、支持向量机(Support Vector Machine,SVM)、神经元网络(Neural network)等。

(二)评述及建议

上述三种方法,均是从微观的角度出发,研究纳税人个体的经济行为,分析这些纳税人个体的生产经营活动情况与财务现状,依法征收相应税款。三种方法均需要微观数据汇集形成的大数据集合,但是在具体操作上又有着较大的区别。

经验判断法是以人工为主、计算机为辅的方法,采用的都是单一指标模型,即便有多个指标,各指标之间也很少进行联合分析和结构分析。专家依经验设置的指标可能具有很强的针对性,所以简单、准确、有效。但是该方法的主观性过强,单一指标受数据的影响较大,定量分析功能也较弱,难以给出纳税人逃税的概率和金额,同时纳税人和税务机关的博弈是一个长期发展的过程,纳税人终会察觉到税务机关的关注点,并加以规避,导致该方法失效。

计量统计法大都不关注个别指标,而是关注整体结构。所谓的整体结构是指用到的解释变量和被解释变量的统计模型关系。计量统计法主要对同质的纳税人的相关涉税数据进行汇集,形成样本集,并对这样的样本集进行分析、统计并建立起总体结构模型。因为存在个体纳税人的不实申报,虽然在某个指标或某些指标上显示正常,但必然导致整体结构上与先前利用样本集建立的统计模型存在差异,对这种差异进一步分析,可以发现纳税人虚假申报的蛛丝马迹。计量统计方法有着坚实的理论基础,往往能给出疑点纳税人的定量结果。该方法在“前计算机时代”有其合理性:一方面是计算机的计算能力不强,不可能应付庞大的数据量;另一方面是数据类型比较单一,在一定的假设条件下,数学模型便于描述和处理。但是,统计模型的运用都有其适用范围,即对数据有一定的假设(正态分布、自相关、异方差等),如果假设条件不满足,则模型也就无效。中国的税收数据数量庞大、种类繁多、质量参差不齐、数据统计分布特征复杂,很难满足苛刻的假设条件,因此用传统的统计思想和统计模型套用这样的数据,其效果不可能理想,因此我们必须改变传统的统计建模思路,寻找适合税务数据的新的统计方法。

机器学习法在继承了传统计量统计法优点的同时,又克服了其条件限制过严的弊端,适合现实的复杂数据环境,代表着未来的发展方向。它实际上体现了统计方法上的两个转变,即从“模型驱动”到“数据驱动”的转变,从“数据建模”到“算法建模”的转变。目前机器学习法除了广泛应用于天文研究、气象分析、卫星遥感和基因研究等领域海量数据的应用分析之外,在传统的数据建模领地,例如国外金融、保险领域也大量使用机器学习方法,进行金融风险预测、贷款风险评判、信用卡欺诈检测等。在税务应用方面,美国国内收入局针对高收入人群的非法避税检查即应用了支持向量机的数据挖掘方法,使用2000-2003纳税年度的数据,识别了不少高收入纳税人不遵从的税收案例,每个案例都涉及上百万美元的逃税额。

目前我国税务机关主要采用经验判断法,但笔者认为,税务部门应更加关注机器学习法的应用:一是因为机器学习法自然包含了经验判断法,有针对性指标的引入只会使得模型更加准确;二是因为该方法更侧重总体结构平衡,不受个别指标失准的干扰;三是因为该方法比计量统计法的适用范围更广,不受严格的假设条件限制,适合海量数据复杂的分析要求;四是该方法可以同时做到定性和定量分析,给出的结论不需要统计学知识也可以理解,易于掌握和普及。目前很多统计软件内置有许多模块可以处理,例如现在流行的开源的R软件①R是一套完整的数据处理、计算和制图的免费自由软件系统。 R语言作为 S语言的一个分支,诞生于1980年左右,是S语言的一种实现,在统计领域广泛使用。,功能丰富,对机器学习法有很好的支持,而且开源软件是免费的,因此R软件将是税务部门做高级数据分析的一个非常不错的工具。

需要注意的是,和传统计量统计法一样,机器学习法在建立模型的时候数据必须是真实的,例如,银行利用机器学习法建立贷款风险识别模型,在建立模型的时候数据都是真实的,还款了或没有还款这些结果也是明确的,银行基于这样的数据构建风险识别模型,再利用建立的模型来预测某位申请贷款人的风险大小。但税务机关并没有这样的真实数据,纳税人申报的数据事先无法判断有无逃税。因此建立模型之前,必须首先获得部分已识别的样本。这就涉及到技术路线的探讨。

二、关于两种技术路线的评述及建议

(一)当前主要的两种技术路线

根据国内外的文献和实践经验,纳税人遵从风险分析以及纳税评估大致分为两种技术路线:一是先识别后模型,基于已经识别过的守法和不守法纳税人样本建立模型,然后通过该模型判断未知的纳税人遵从风险大小;二是先模型后识别,基于未知的总体纳税人建立模型,然后通过该模型,识别总体纳税人中每个个体的遵从风险大小。

美国国内收入局的纳税人遵从风险研究(TCMP项目)和其后的国家研究项目(NRP项目),均遵循先识别后模型的技术路线,每三年抽取4万份样本,通过人工审核和实地调查等方法识别这些样本,判断纳税人有无逃税,逃税金额有多大,根据识别后的样本,结合相应的涉税数据,建立纳税人遵从风险模型,因为人工对样本审核也存在犯错误的可能性,即把“不守法”纳税人误判为“守法”纳税人,纳税人遵从风险模型必须对样本审核中的“未侦测”问题建模。美国国内收入局采用DCE(Detection Controlled Estimators)方法对样本结论进行纠偏,然后再以此判断未知纳税人的遵从风险情况。我国目前大多数税务机关遵循先模型后识别的路线,对没有区分出“守法、不守法”纳税人的总体进行建模,建完模型后再去识别每一个个体纳税人的遵从风险。笔者认为这种识别仍然有待深入。

(二)评述及建议

先识别后模型方法的本质是事后归纳,而统计本身就是归纳的科学。如果有了“守法、不守法”纳税人样本,即训练样本,对建立统计模型至关重要。而先模型后识别缺少类似的先验知识,用没有区分出“守法、不守法”的样本来建立模型,缺乏理论基础。以纳税评估为例,基于异常值筛选的原理,它假设某个指标值服从正态分布,并通过样本计算出该分布的均值和方差,那么偏离均值较远的情况是小概率事件,如果某样本指标值落在了该区域,即认为该样本指标异常。这种方法存在如下问题:首先对指标服从的分布假设需要进行检验,否则计算的概率存在问题;其次在计算均值和方差时,没有排除异常样本的干扰,即对没有区分“好坏”样本的数据计算均值和方差,其结果是有偏的。统计学内在的规律要求,必须先识别出小部分纳税人的真实纳税情况,这包括守法纳税人和不守法纳税人,以上可称为识别,利用这些识别后的样本,作为训练样本采用某种统计方法建立模型。

机器学习法依然是一种统计方法,它也是对已有的或已发生的事实进行归纳总结。不论是采用经典统计法还是机器学习法,都应该遵循先识别后模型的技术路线。税务部门应重视建立纳税人标准样本库,即“守法、不守法”纳税人样本库,该样本库除了包括纳税人守法与不守法的结论以外,还应包括相应的纳税人的财务数据、发票数据、登记数据、申报数据以及第三方数据等,这样的标准样本库可以在数据仓库中实现,并有专门的部门定期维护刷新发布。数据应用部门基于这样的数据进行统计、计量分析,研究纳税人行为。

三、事前分析和事后分析

目前我国税务机关多侧重于事前分析,即关注于如何建立模型来预测纳税人的涉税风险,但是对风险应对后的结果,虽然有的税务机关也提出了“整理分户的提醒服务结果、风险核查结果及管理建议”,但这远远不够,笔者认为这里恰恰是模型可以大显身手的地方。

事后分析是指各部门完成纳税评估或风险应对后,必然会得出一系列的结论,如纳税人是否需要纳税服务提醒、纳税人是否有不遵从行为、风险出在什么地方、纳税人特征是什么等,税务机关要对这些识别后的结论采取统计分析的方法,建立如纳税人风险判别模型、工作绩效考核模型等,开展多种数据分析应用。

其实,在具体实践中重视事后分析,就是遵循了“先识别,后模型”的技术路线,因为各部门的纳税评估或风险应对,实际就是在做识别工作,事后分析就是利用这些结论建立统计模型。

前面所说的建立纳税人标准样本库,也可以通过事后风险应对的结论建立起来。因为风险应对的结论,都是由业务专家认真分析评估的,有的还是经过实地调查的,因此其结论相对来说比较准确可信。收集这些结论以及其他纳税人的特征信息,便可以形成前文所说的纳税人标准样本库。该样本库对应着提醒服务、纳税评估、税务稽查等风险应对结果,如果有了这样的样本库,便可以做很多有益的工作。比如,可以识别哪些纳税人需要服务提醒、哪些纳税人需要强制遵从等,从而进行有针对性的管理和服务,大大提高征管资源的配置效率。

实习编辑:张鸿飞

责任编辑:王 平

猜你喜欢

守法税务机关纳税人
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
纳税人隐私权的确立、限制与保护
信息化背景下税务机关获取自然人涉税信息范围的边界
关于如何规范税务机关执法行为维护纳税人合法权益的相关思考
国地税联合开办2017年第一季度纳税人学堂
服务于纳税人 让纳税人满意
浙江环保:以改善环境质量为核心 保持“高压”促守法
如此守法
税务机关舆论引导的策略
维护法治权威需要全民守法