基于大数据算法的纳税遵从风险识别以及影响因子分析
2015-01-01孙存一赵瑜
孙存一 赵瑜
(中国人民大学 金融财政学院,北京100872)
一、引 言
伴随知识社会的来临,驱动当今社会变革的不仅仅是无所不在的网络,还有无所不在的计算、无所不在的数据、无所不在的知识。互联网、大数据、云计算、机器学习等汹涌来袭,这不仅仅是信息技术领域的革命,更是启动创新、引领变革的利器,“大数据战略”给税务工作带来了新的机遇,税收数据的分析正面临着新一轮的改革和优化。不可否认,税务部门经过30多年的信息化建设,数据已初具规模,庞大的税收数据带来了可供深度挖掘和细致分析的潜在价值,同时又具有分散多样、价值密度低等特征,如何基于复杂的数据进行分析、整合,从而发现新知识、创造新价值?这值得全社会、尤其是数据分析者思考、研究和关注。
在经济税收领域,大多文献所介绍的模型对数据有一定的要求或假定,而且模型本身也可以有较明确的数学形式,关于模型或拟合的优劣,大都根据对数据的分布假定得到的检验来判断。但是,在大数据时代下,人们根本无法对真实的税收数据的分布做任何假定,同时,也很难想象复杂的现实世界能够用有限的数学公式来描述。之前“假定分布=>用明确的数学模型来拟合=>假设检验=>P值”的经典过程,似乎难以满足大数据时代分析需求。决策将越来越多地由数据来驱动,而不是由传统的理论或经验来驱动。如何选用代表大数据分析方法、又能和税收业务相结合的分析方法,精确制导税收业务应是下一步研究的方向和重点。
众所周知,不断变化与发展的经济税源状况给传统的税收征管方式带来了新挑战,经过几年的实践,税收风险识别成为风险管理在税务管理应用的基础和软肋。在风险管理中,纳税遵从风险是税务工作的核心问题,围绕纳税遵从风险的研究很多,一直以来,房地产业纳税遵从风险识别难度极大,房地产业周期较长,受经济波动、政策因素等影响大,同时再加上房地产业的产业链条多、财税核算复杂等因素,其涉税行为难以描述。房地产业纳税遵从有多大?主要风险指标如何刻画?提高房地产业纳税遵从度应该如何入手?等等问题悬而未决,以机器学习为基础的大数据分析技术便成了破局之选。本文基于实证分析,运用新手段、新技术、新理念、新方法,并将其应用于房地产纳税遵从识别,为我国建立以大数据分析为支撑、以风险管理为导向、以分类分级管理为基础的现代房地产税源专业化管理方法,提供了科学依据和技术支撑,同时也对其他领域、其他行业、其他主题的大数据分析具有参考价值。
二、文献综述
公开文献显示,我国对纳税遵从的测度是在借鉴国外的理论体系框架,结合我国征管实际的基础之上进行的,在计量方法体系上比较有代表性的有:夏南新(2000)运用现金比率模型对我国1979-1998年的进行了测试。梁朋(2001)、郝春虹(2004)等对我国地下经济以及相关的税收流失缺口规模进行了估算。贾绍华(2002)以国家公布的统计资料为数据来源,测算了我国1995-2000年间的税收收入流失情况。谭荣华,梁季(2005)通过对1999-2002年增值税收入能力的估算,通过征管力度得出由于征管努力程度不足导致的税收流失,通过比对实际征收数,得出税收流失率,进而得出税收遵从度。童疆明(2009)将实验的方法引入到对纳税人税收遵从主要影响因素的分析中,结果表明下列因素有助于提高纳税人的税收遵从度:较高的税收检查概率、较多的公共物品和服务、罚款率、较全面的“第三方报告的收入”信息。总而言之,当前国内理论界的学者、税收实务部门的工作者对税收遵从进行了较为广泛的研究,既有宏观层次的源于不遵从导致的税收流失规模的估算,也有从经典理论出发的税收遵从理论探索,但相当多的研究仍属于跟踪应用,使用宏观数据或者是单指标等分析手段,暴露出的问题有:(1)模型美观、易解释、好理解,学术味很浓,但应用起来效果相差甚远;(2)建模手段单一,选取几个代表性的变量,难以全面地考虑问题,不能更好地拟合现实数据;(3)挖掘深度不够,无法揭示出隐含在数据背后更有潜在价值的信息;(4)假设条件严格,精确度不高,实践指导意义大打折扣。所以,上述方法在纳税遵从风险的识别上难以满足实际工作需求,导致了诸多研究对税收征管、纳税评估等税务工作一线的指导意义并不大。
本文从大数据的理念出发,采用适合面向复杂数据分析的“机器学习+关联规则”方法,选用中国S省房地产行业的涉税全样本、全变量数据建立纳税遵从风险模型,深度解析数据规律,推算出税收流失额、识别出纳税人的风险等级,运用关联规则算法,将企业的纳税遵从风险等级与收入、成本和费用等指标进行相关性分析,推导出影响纳税遵从风险的关键指标,为税务机关进行纳税遵从风险分析提供实践性较强的方法与依据。主要贡献是:(1)所提出的方法是基于多年税收数据分析实践的基础之上,经过反复实践检验出来的“算法模型”,算法模型符合大数据时代的要求,支持规模超大、关系错综复杂的数据信息,符合我国税收征管数据现状;(2)选用了代表大数据分析方法、又能和税收业务相结合的模型,成功地将“机器学习+关联规则”算法进行有效组合,精确识别了房地产业纳税人的纳税遵从风险,分析了影响纳税遵从风险的主要因子;(3)建立了一个比较系统、完整、可操作的房地产税收风险识别方案,精确制导了税收风险管理,为加强税源监控、风险管控、保障税收收入平稳增长创造了良好的条件。
三、理论基础
(一)基本思路
OECD基于对税收遵从风险十多年的研究历史,将纳税遵从风险分为四类:未正确登记纳税人数、未按规定提交纳税文件、未正确申报应纳税款和未按期缴纳税款,根据OECD的调查,其中80%以上的风险为未正确申报应纳税款和未按期缴纳税款的风险,所以本文所指的纳税遵从风险指的是纳税人未正确申报应纳税款和未按期缴纳税款的行为。2008年12月,OECD在报告中给出了税收遵从风险模型的步骤:第一步是识别风险,第二步是评估和对风险分级,第三步是分析遵从行为(包括原因和应对措施选项),第四步是确定处理战略,第五步是计划和执行战略。基于以上步骤,本文的基本思路:以全样本数据为基础,运用机器学习法测算出单户纳税人的税收流失额度,按照流失的额度将纳税人划分出风险等级,以风险等级为结果目标,运用关联规则,寻找出影响的风险因子①风险因子,风险因子可根据专家经验进行设置(单指标、多指标)。考虑到房地产企业的财务状况,本文仅列举了营业收入、营业成本、营业费用、管理费用、财务费用5个核心指标,以证明方法的有效性。(如图1所示)。
图1 基本思路图
(二)算法选择
在大数据时代,以经济理论为导向构建的模型在经济预测中常常失效,于是很多经济学家、计量学家开始转向以数据为导向的模型研究,以数据为导向的算法很多,不同的算法适用不同的场景,其表现出的优势也有差异,所以选择恰当的算法组合应用到不同的主题是非常重要的。考虑到S省税收数据的情况以及分析主题的目标,本文组合使用了机器学习、关联规则两种算法。
1.机器学习。
机器学习的算法有很多,诸如:神经网络、决策树、支持向量机、聚类分析等。本文选择以决策树为主体的算法。决策树中的分类回归树(Classification and Regression Tree,简 称CART)是Breiman等于1984年提出来的一种非参数方法。CART方法可以分为分类决策树和回归决策树两种,由于本文因变量(企业所得税税收流失额,下文会有交代)是数值变量(连续变量),故而使用的是回归决策树。其基本原理:假定随机向量Xn×m(X1,…,Xm)为自变量(属性或称输入变量),Xi可以是离散变量,也可以是连续变量,设其定义域为Dom(Xi)。随机变量Y为因变量,如果Y为分类变量,设其定义域为Dom(Y)={1,…,J},则构建的决策树是分类树;如果Y为连续变量,Dom(Y)∈R,则构建的决策树为回归树。对于回归问题,回归R函数:Dom(X1)×…×Dom(Xm)→Dom(Y)。假如令Ω= Dom(X1)×…×Dom(Xm)×Dom(Y),则可以定义Ω空间上的概率测度P。利用这样的概率测度和一些损失函数L(比如均方损失函数L(a,x)=║a-x║2),在此定义回归误差为Rp(R)=Ep[L(Y,R(X1,…,Xm))],其中Ep是关于概率测度P的期望。回归树的构建类似于分类树的构建,就是从训练集D中,随机抽取N个独立同分布的样本中寻找函数R使回归误差Rp(R)最小,CART回归树分割选择的测度为
选择方差作为不纯度的度量是因为在一个节点中最优常数自变量是对应的测试样本的预测变量均值,所以方差是预测变量的均方误,回归树树叶的数值就是该模型的预测值①决策树能够产生过拟合的问题,处理的办法是进行剪枝(限于篇幅,不再赘述),或者组合的方法(比如,随机森林)。过拟合:给定一个假设决策树模型H,如果在假设空间上存在另一个假设决策树模型H*,H的训练误差率小于H*,而H的测试误差率大于H*,则称H对训练数据过拟合。。
以上N个独立同分布样本是以P从空间抽取的,CART由上到下的递归算法可表示为:构建树(Ti,Di,v)(T为节点,D为数据集分割,v为变量属性分割方法)。(1)在节点T应用v对数据集D训中分割变量(属性)X;(2)假设n为节点T的子节点数;(3)If(T分割);(4)把数据集D分割为D1,D2,…,Dn,并对分割变量X标记上T;(5)构建子节点T的节点T1,T2,…,Tn,并记edge(T,Ti),对应预测值记为q(T,Ti);(6)For eachi∈ {1,…,n};(7)构建树(Ti,Di,v);(8)End for each;(9)否则;(10)数据集D的多数分类标签记上T;(11)End if。由此可见,分来回归树是遍历可能的贪婪算法,在每个节点选取能对样本做最好分类的属性,直到决策树能完美地分类训练样本为止,或所有的变量(属性)均已被使用过。需要说明的是,分类回归树构建模型时,需要对原始数据集随机分成训练集和测试集,对训练集利用CART算法进行建模,得到分类规则,然后利用测试集对所得的分类规则的性能进行评估,直到模型有效为止。
2.关联规则
众所周知的 “啤酒和尿布”的例子,就是将啤酒、尿布有效关联的典型例子,实际上关联规则的算法也有很多,诸如APPIORI、ECLAT算法等。本文选择使用比较经典的APPIORI算法,该算法是Agrawal和Srikant于1994年提出的一种广度优先的逐层搜索算法,通过对事务计数找出频繁项集,然后再从中推导出关联规则,关联规则的形式为A=>B,A与B是互斥的项集,分别位于规则的左侧(Lhs)和右侧(Rhs),本文所选取的B项集为{风险等级高}。
1)关联规则挖掘的第一阶段是从原始资料集合中(即,下文表3数据),找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平,称为支持度(Support),若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。支持度的表达式为
其中:TA表示包含项目X的事务,TB表示包含项目Y的事务,N表示事务数总和(下同)。
(2)关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。A出现时,B是否也会出现或有多大概率出现,为此称之为信赖度。信赖度的表达式为
(3)在关联规则分析中,仅有支持度和信赖度,还不能证明是一条有效的关联规则,(2)中A⇒B的信赖度应该大于总体样本对B的支持度,即提升度。提升度的表达式为
由此可见,如果A、B相互独立,则lift(提升度)=1表示A、B不相关,是否有A对于B的出现不存在相关性,而lift<1表示A、B负相关,只有lift>1才表示A、B正相关。由此可见,lift越大说明关联规则越有效。
值得注意的是,考虑到关联规则挖掘的效率和产生信息的价值,其中的支持度、信赖度和提升度阙值需要人根据专业知识进行有效设定。另外,在所生成的关联规则中,其中部分规则与其他规则相比只提供了很少的额外的信息,或者说一条规则是另一条规则的超集时,两者的提升度相等,或者是前者的提升度更小,应该认定为冗余规则,此事需要进行冗余修剪处理,不再赘述。
从以上两种算法的介绍可以看出,机器学习、关联规则支持全样本、全变量数据分析,注重的是数据本身的随机特征,分析与主题相关的、能够获取到的所有数据,可以挖掘出事先未预料的信息。但以数据为导向的算法模型经济含义不是很明显,需要做进一步的认知和解释。
四、研究设计
(一)样本选择
基于不同的分析主题,理清税收大数据分析的边界是首要问题。一般来讲,同一时间、同一地区、同一行业的企业会具有相似的经营条件、业务范围、财务状况、税收政策等,其所体现出的经济行为才具有同质性。本文的分析主题是“房地产业纳税遵从风险识别”,于是选用了2012年度、S省某市、房地产业的税收征管数据作为样本(如表1所示)。
表1 数据总体概况
从表1的数据可以看出,数据涵盖了能反映纳税人经济性质、行业类型、地域范围重要维度的基础数据、有纳税人业务活动、缴纳税费、盈亏弥补、税收优惠等情况的申报征收数据、有反映纳税人经营状况的财务数据等等,另有纳税人房地产行业特征的第三方信息,以上数据来源真实可靠、信息充分,预计能够达到研究所期望的目标。
(二)数据预处理
在数据分析中,无论是小数据、中数据还是大数据,数据预处理是不可绕过的一关。数据的清洗与整备是非常繁琐的过程,除了有通用的规则之外,还要针对具体的数据情况进行深入分析,理论上来讲,本文经过长期的摸索实践总结出了“七步治数法”,简单介绍如下。
第一步,取数与存储。将取得的S省数据统一整理成数据库格式,以方便检索、加工、处理等。
第二步,初筛。以分析主题为导向,生成有针对性的数据集。比如,税务登记信息筛选顺序为:纳税人状态(正常户)→国标行业大类(房地产业)→行业分类(房地产开发经营)。
第三步,税务登记为基础,将各税种申报征收信息、财务报表信息、采集信息,按一户式归集整理成二维表。经过整理后的数据格式及数据项(如表2、图2所示)。
表2 一户式表结构
图2 一户式表零空值情况
表2、图2可以看出,经过整理之后的一户式数据集,其中的申报征收信息、财务报表信息等部分会有大量的零空值,因为不同的企业缴纳税目的不同,且业务的发生因企业不同而有所差异,数据的稀疏性,在数据,特别在大数据中是难以避免的。
第四步,业务逻辑校验。对表内、表间明显不符合业务逻辑的纳税人进行剔除①比如,从会计的角度流动资产+非流动资产=总资产,而数据中流动资产/总资产>1等等不符合业务逻辑的情况。。
第五步,以整理好的一户式信息为基础,将零散的数据项归类汇总合计处理。
第六步,对第五步新形成的数据集做异常值、偏离值、缺失值等的数据统计并处理,形成有利于模型识别的分析数据库(统计情况如表3所示)。
从表3中可以看出,样本数据集的数值变量、分类变量的分布也是具有一定的复杂性。从以上标注的图形看,JJLX分类变量很不均衡、YYSR数值变量也不属于标准正态分布。在此说明了真实数据一般是难以满足传统统计分析方法的假设条件,即正态分布、信息对称问题,引入大数据分析技术势在必行。
第七步,对依然成型的分析数据库做有利于数据分析的调整。
(三)变量选择
变量选择上区分为机器学习、关联规则分析两部分,如下
1.机器学习
因变量:企业所得税流失额②考虑到企业所得税财务关系比较明确,且在各税种中占有很大的比例,选取"企业所得税"流失额作为测算对象。。计算企业所得税有直接法、间接法,在此我们在预测中采用的是“间接法”,即:应纳税所得额=会计利润+纳税调整增加额-纳税调整减少额;应纳所得税额=应纳税所得额*适用税率-减免税额-抵免税额;企业所得税流失额=预测应纳所得税额-实际缴纳所得税额。
自变量:税务登记信息(考虑到分类变量过多会有噪声干扰,分类变量包含注册登记类型、行业分类、主管税务机关大类,数值变量包含从业人数、注册资产总额等)、申报征收信息(大多是数值变量,原则上予以保留)、财务报表信息(大多是数值变量,原则上予以保留)①机器学习支持全样本、全变量参与,符合大数据分析的需求。如果选用恰当的机器学习算法,会对异常值、偏离值的容忍度比较高,一般不需要做大幅度的处理,否则就失去了样本的原始属性,但是对于缺失值是非常有必要进行处理的,通常来讲有以下几种方法:一是可以从业务逻辑的角度或其他数据源进行推导,以弥补其"缺失";二是用平均值、中间值、最大值、最小值或概率统计函数值来代替零空值;三是通过模型自动弥补缺失,或人工输入可接受的某值,不再赘述。关联规则分析支持全样本、全变量参与,但仅支持分类变量,需要将数值变量进行处理,后边会提到。。
表3 一户式宽表统计分布情况表
附加变量:会计利润。会计利润=收入-成本-期间费用(营业费用、管理费用、财务费用)②考虑到企业所得税预测的复杂性,本次预测仅预测会计利润,企业所得税流失额=预测会计利润+纳税调整增加额-纳税调整减少额-实际缴纳所得税额(如果报表勾稽关系正确的话,实际缴纳所得税额=申报会计利润+纳税调整增加额-纳税调整减少额)。。为避免收入、成本和期间费用的多重共线性,本文将会计利润作为附加变量进行预测,不再单独预测收入、成本以及期间费用,同时对会计利润进行预测更能体现出房地产业的共性,因为纳税调整增加(减少)额是针对个别房地产业、个别业务而执行的税收政策。
2.关联规则
因变量:{风险等级高}。对于风险管理来讲,通常主要关注的是风险程度较高的企业。
自变量:营业收入、营业成本、营业费用、管理费用和财务费用五个核心指标。实际上,关联规则分析不受指标数量的限制,同时我们也可以根据专业知识选择组合指标,比如流动资产占总资产比例(流动资产平均总额/资产平均总额)、营业成本管理费用率(管理费用/营业成本)等等,限于篇幅难以枚举。
五、模型构造过程
(一)变量分析
在大数据分析中,变量分析是重要的一步。本文分析参与的变量较多,对样本数据中的变量的分布、相关性等进行分析也是非常重要的,其主要目的是对模型的参数等进行合理调整,以为构建真实、合理的模型奠定基础。由于设计的变量较多,本文仅列举重要变量(即:税务机关、行业、经济类型、营业收入、营业成本、营业费用、管理费用、财务费用)做如下可视化(如图3所示):
图3 重要变量散布图
图3中,对角线处分别为:税务机关、行业、经济类型、营业收入、营业成本、营业费用、管理费用、财务费用,上图反映了各变量之间的相关性及其分布状态等,我们可以依据散布图的辅助做模型参数的调整,不同的模型对参数的调整要求区别很大,不再赘述。
(二)模型构造
1.机器学习
(1)构造过程。决策树算法具有易理解、易解释的特点,基于以上原理、利用全样本数据,构建决策树的过程比较清晰。
也可以进一步将算法转化为树状,以更清晰地了解决策树的分析过程(如图4所示)。
从图4可以看出,决策树经过多次递归选择了以YYLR中的8 899 340为分界线开始分类,继而在YYLR、LRZE等中计入第二次分类,各分类下的P值(即回归误差)非常小。从业务属性上看,决策树上层所选择的变量属性与测算的目标(企业所得税流失额)关联度比较密切,这是符合业务常识的。
(2)误差检验。机器学习法不需要对数据做先验假设,产生的结果用交叉验证(Cross validation)的方法判断。基本原理:可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(Generalize)(交叉验证结果如表4所示)。
图4 决策树构造过程简图
表4 交叉检验情况表
表4中,训练集误差率一般都很小,这说明机器学习法逼近数据相关性的能力很强,但外推性是我们更为关心的,从测试集看误差率<1,且小的多,这是非常理想的效果,说明所构造的模型可靠性很高。
2.关联规则
关联规则的分析过程,从原理上已经比较清楚,对于关联规则来讲,不同的支持度、信赖度会对时间的开销影响比较大,本文设置支持度=0.01、信赖度=0.6,基于0.01的支持度每一条规则至少有0.01*N(N,表示观测值的个数)个正例。(频繁项集如图6所示)
从关联规则构建过程看,由于样本量、设置阙值等原因,本文所构建的关联规则过程时间开销不是很大,我们可以从关联规则的构造过程中看到其运行的过程(关联规则构造过程简表如表5所示)。
表5 关联规则构造过程简表
图5 关联规则频繁项集图
表5可以看出,由于所选取的样本量、各阙值的设置相对合理,系统在关联规则构造过程中所用的时间开销很小。在此说明,在关联规则挖掘中,常见的问题是挖掘出来的规则中有很多是没有意义的,为此必须要在左侧(Lhs)和右侧(Rhs)中设置感兴趣的条件,以避免不必要的结论,以争取更多的时间成本,另外也可以设置关联规则的最大长度(Maxlen),或者根据提升度进行降序排列等设置。
六、实证结果与分析
(一)风险识别
风险识别是风险管理的第一步,也是风险管理的基础。本文通过机器学习构建了理想的税收经济关系模型,预测出企业的应纳所得税额,推导出税收流失额,根据流失额进行风险排序和风险等级划分,在此基础上进行纳税遵从风险识别(风险识别结果如表6所示)。
表6 风险识别结果简表 单位:元
表5中,流失额是所测算出的税收流失额,风险排序以流失额大小进行的排序,按照流失额大小将风险等级为:高、偏高、中、偏低、低、无风险六个层级,考虑到存在纳税人税收流失额为0(包含少量税收流失额<0)的情况,将其单独作为 “无风险”等级,对税收流失额>0的纳税人按照五分位进行划分。由此可见,完成了OECD的前两步,即第一步是识别风险,第二步是评估和对风险分级。从表6可以看出,运用机器学习法推算出了分户的税收流失金额,这无疑是一个巨大的进步,为后续按不同维度、不同视角进行分析奠定了基础。
(二)因子分析
大数据分析,要求创新和精准。风险识别将不同风险程度的纳税人进行了划分,接下来还要对形成风险的原因进行分析。在此,我们以风险等级高的纳税人作为目标,以营业收入、营业成本、营业费用、管理费用和财务费用为影响因子,运用关联规则原理将造成该结果的原因进行推导(推导结果如表7所示)。
表7是基于支持度>=0.01、信赖度>=0.6且按照提升度由大到小排序所形成的结果,其中的“rf_pre_jg”表示 “风险等级”。从提升度可以看出,以上列举的5条规则(实际规则条数太多,不再一一列举)都是有效的。下面来解读以上关联规则,比如规则1提供的信息是:在总体样本中有0.01(1%)的数据支持A、B同时出现,且 A=>B的可信度为0.7(70%),结论为经济类型为有限责任公司,所申报的营业费用高、管理费用高、财务费用小于等于零(估计是利息费用所致),具备以上特征的房地产企业纳税遵从风险程度高。从而,该结论反映出其他有限责任公司房地产业往往通过多报营业费用、管理费用等手段来达到偷漏税的目的,对此应引起高度关注。
表7 关联规则推导结果简表
(三)可视化处理
大数据分析可视化形式很多,也在不断地发展之中,数据可视化是大数据的基本要求之一。
1.风险识别
以风险识别表6为例,以相关性为视角做可视化分析(如图6所示)。
图6是列举的比较前沿的可视化展示方法。图6左表示标准化之后的营业收入、营业成本、税收流失额之间的相关性,从图6左可以看出,税收流失额与营业收入、营业成本之间存在高度的相关性,这一点符合业务常识,当然也可以做其他指标的分析;图6右,是按序号选取了1-10户纳税人的营业收入、营业成本、营业费用、管理费用、财务费用、税收流失额之间的相关性。从图6可以看出,基于机器学习之后所形成的表5为传统的分析、复杂的统计分析提供了极大的便利性。
2.关联规则
关联规则推导结果简表为例,做进一步可视化处理,以方便解读(如图7所示)。
图6 基于相关性视角的简单分析
图7 关联规则推导结果简图
关联规则的可视化有很多,仅列举两个,可视化不同,思考过程也不尽相同。图7左是平行坐标图,从线路1可以看出,营业费用(高)+财务费用(小于等于零)+经济类型(其他有限责任公司)+管理费用(高)→风险等级(高);图7右是有向图,起点属于影响因子,各影响因子所指向的中间圆圈表示的是“共同指向”(圆圈的大小表示置信度、颜色的深度表示提升度),共同指向的下一步指向(即箭头终点)是结论。从图7可以看出,运用关联规则可视化技术,有利于形象地理解问题,同时更有助于实践工作。如此,已经完成了OECD所确立的五步中的三步,对下两步的确定处理战略和计划执行战略奠定了实质性的基础。
实际上,最终导致房地产业纳税遵从风险等级高的原因会有很多,不同的行业影响因子会有很大的不同,在面向某一个行业的影响因子分析中,也应该将所有的风险因子及其因子组合全部放进模型中进行推断,以找出影响纳税遵从风险的各种原因所在,在大数据分析中也是可以做到的。由于篇幅所限,本文仅提供技术上的可行性,在后续的文章中会继续探讨。
七、结论与展望
通过以上税收大数据的实践探索,以规范的技术流程、既定的业务规范系统地完成了纳税遵从风险识别以及影响因子分析,证明了“机器学习+关联规则”组合算法技术的可行性,为大数据时代税收数据的应用奠定基础。结果表明:(1)机器学习可以有效地用于纳税遵从风险识别,为税收风险等级划分以及纳税信用等级评定奠定基础;(2)关联规则算法可以推断影响房地产业企业纳税风险的影响因素,为找出纳税遵从风险存在的根本原因提供了科学依据;(3)恰当的算法组合,可以形成面向不同视角、不同主题的分析数据库以及可视化的形式,为我国建立以大数据分析为支撑的现代税源专业化管理,提供了强大的技术保障。
当然,从大数据分析利用来讲,仅仅是“抛砖引玉”。本文所采用数据量体上远没有达到大数据的要求,仅从涉税数据来讲,还要引入工商管理局、房地产管理局第三方信息的数据,甚至是影音、图像等非结构化数据,数据处理分析的技术、规则等的难度、复杂度也终将呈级数增长,当然,大数据分析技术也会在实践中日臻成熟。在数据可得的条件下,作者将进一步做深入研究。大数据时代给了我们更多可以应用数据的机会,与此同时我们也看到现实的挑战,数据要发挥更远的价值目标,需要我们不断地寻求和探索。据了解,国外许多机构已经投入了大量人力、物力和财力进行相应研发,而我国将机器学习为核心的算法模型应用到系统平台实例并不多,对此应引起高度重视。本文的建议如下。
一是要深入研究并构建大数据供应体系。确保税收征管数据的表内、表间逻辑性检验,同时对以往的存量数据做彻底清洗和规整。在这基础上,再着手第三方信息采集和应用,优先考虑政府内部数据,再考虑互联网数据。
二是理清税收大数据分析的边界。在税收大数据分析中,税收征管数据是税收业务的核心,进行税收数据分析,不能舍弃或背离这个核心,更不能眉毛胡子一把抓,要在求精的基础上逐步推进、延伸,才有利于税收实践和指导税收工作。
三是税收大数据分析从小问题开始。大数据概念在商业上已经被炒的像一个神话,其实也很少人知道应该怎么去做,经常我们得到一些需求都是特别宏观、特别大的,其实都不太容易落地,从实际落地的角度来看,大数据要有效的落地还是要从解决小问题开始。
四是要深入研究并建立强大有效的大数据技术体系。税务大数据应用是难以想象的复杂工程,它是硬件、软件、网络、应用系统、标准、安全、运维、工程、制度、业务、技术、流程、组织、管理、资金、人员的有机结合与团队的联合作战,放纵单打独斗必全局大乱。税务机关应借鉴市场上大数据搞的比较好的企业经验,比如互联网金融的大数据分析技术经验。
五是要加强大数据人才培养。大数据分析,是一个相对全新的领域,很多时候是摸着石头过河,对专业人才的要求极高。做好大数据分析,相关人员应该具有计算机、统计学、经济学等复合知识背景。当然,总局《全国税务领军人才培养规划》正可为大数据的人才培养创造契机。
[1]Nicolai,Meinshausen.Quantile Regression Forests[J].Journal of Machine Learning Research.2006,7:980-999.
[2]Nolan D,Speed T.Stat Labs:Mathematical statistics through Applications[J].Springer.2000.
[3]http://baike.baidu.com/link?url=t6EFwZBtEeeP VdQsfdPOpc2t-O6rGqM8EdtP7vaq1F2GGvS7RIw NjGbdcRA8x219HRnzqBFWDF-omCrvUzMfla.中国百度网,2015.
[4]Yanchang.R and Data Mining:Examples and Case Studies[M].Singapore:Academic Press:2012.
[5]陈赤军.税务评估审计概论[M].机械工业出版社,北京:2010.
[6]方匡南.随机森林组合预测理论及其在金融中的应用[M].厦门大学出版社,厦门:2012.
[7]谭荣华,焦瑞进.关于大数据在税收工作中应用的几点认识[J].税务研究,2014(9).
[8]涂子沛.The Big Data Revolution[M].广西师范大学出版社,桂林:2013.
[9]吴喜之.复杂数据统计方法——基于R的应用(第二版)[M].中国人民大学出版社,北京:2013.