APP下载

数据挖掘方法在税收风险管理中的应用研究综述

2016-09-05天津市地方税务局课题组

天津经济 2016年6期
关键词:纳税人纳税数据挖掘

◎文/天津市地方税务局课题组

数据挖掘方法在税收风险管理中的应用研究综述

◎文/天津市地方税务局课题组

近年来,各地税务机关在加强数据管理、深化数据分析应用、探索信息化支持决策与管理模式等方面,做了很多有益的探索,取得了一定成效,但如何有效地进行税收数据分析应用,提高税收管理的整体水平,一直是税务管理部门非常重视并急需解决的课题。

随着数据库、中间件、高级技术语言和网络安全等技术的迅速发展,人们积累的信息数据越来越多,以“大数据”为主导的信息化浪潮正席卷全球,成为全球范围推动政府职能转变、引领社会管理变革的利器。大数据既是一种海量的数据状态及其相应的数据处理技术,也是一种新的思维方式,是一系列新理念、新方法、新要素的集中体现。它不仅是信息化的一种手段,而且已经成为信息化社会发展演进的关键目标和实现发展目标的重要路径。

在大数据时代,税务人员需要以更新、更便捷、更有效的方法,对大量的征管数据进行分析、提取、挖掘出数据的潜在价值,以帮助税务部门优化工作流程、提高工作效率,并通过识别纳税特征,为纳税人提供差异化的纳税服务,辅助税务部门进行科学决策和行之有效的管理与服务。本文探索了如何运用数据挖掘方法,在税收风险管理中的应用,并提出防范风险的建议。

税务部门;数据挖掘;税收风险

近年来,各地税务机关在加强数据管理、深化数据分析应用、探索信息化支持决策与管理模式等方面,做了很多有益的探索,取得了一定成效,但如何有效地进行税收数据分析应用,提高税收管理的整体水平,一直是税务管理部门非常重视并急需解决的课题。

随着数据库、中间件、高级技术语言和网络安全等技术的迅速发展,人们积累的信息数据越来越多,以“大数据”为主导的信息化浪潮正席卷全球,成为全球范围推动政府职能转变、引领社会管理变革的利器。大数据既是一种海量的数据状态及其相应的数据处理技术,也是一种新的思维方式,是一系列新理念、新方法、新要素的集中体现。它不仅是信息化的一种手段,而且已经成为信息化社会发展演进的关键目标和实现发展目标的重要路径。

一、研究背景

(一)税收风险管理的挑战

随着纳税人数量的快速增长,税源呈现多元化、复杂化的特征,税源分布的领域越来越广,税源的结构越来越复杂,税源的流动性和隐蔽性越来越强,迫切需要我们借助现代信息技术手段切实提高税收风险管理水平。

(二)数据挖掘将服务于税务风险管理

在大数据时代,税务人员需要以更新、更便捷、更有效的方法,对大量的征管数据进行分析、提取、挖掘其隐藏信息数据中的潜能,对税务工作中存在的风险进行管理和控制。数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的作用主要体现在把海量的数据转化为有用的信息和知识,为帮助税务干部从海量数据中发现有价值的信息,降低运营成本、提供差异化的纳税服务,提供纳税行为,识别纳税特征,辅助税务干部进行行之有效的管理、服务提供了新的思路、新的方法和新的手段。

二、税收数据挖掘目标

(一)数据挖掘概念

数据挖掘(DataMining)是一种知识发现的过程,它主要基于统计学、人工智能、机器学习等技术,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,并对未来情况进行分析、预测,以辅助管理者、决策者评估风险、做出正确的决策。

(二)数据挖掘方法

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

(三)税收数据挖掘的目标

大数据时代的来临,信息数据越来越多,税务人员要以更新、更便捷、更有效的方法,从海量数据中发现有价值的信息,提供差异化的纳税服务,识别纳税特征,辅助税务干部进行行之有效的管理、服务。

1.评价纳税行为

借助信息化手段,从各税种应纳税所得额出发,依据审计学、财务分析、统计学等原理,设计和筛选涉税指标;根据当地经济发展情况,产业结构、行业特点、纳税人的生产经营规模、财务核算情况等信息资料,制定纳税评估指标及其预警参数,合理确定纳税评估对象,对纳税人纳税申报的真实性和准确性进行全面系统评估,做到有的放矢,有效管理。

2.监控执法过程

随着征管数据的向上集中,有了对征管流程进行监控的数据基础。通过一系列合法的手段和方法对税源进行全方位的信息跟踪和纳税控制,分析和预测税源发展变化的趋势,加强税源征管,有效地防止税款流失;通过梳理与整合,运用挖掘技术建立执法行为监控体系,监控税务部门的执法行为,监督管理流程,对税收执法疑点,做到事前、事中和事后的监控,规范执法行为。

3.提供决策支持

数据挖掘技术不仅可发现税收管理中的瑕疵,同时也为领导决策提供智能支持:通过数据的分类处理与分析,可全面分析宏观税负、行业税负等指标,了解税收收入总量增减的变化,科学判断税收收入增减的原因;通过数据概貌分析,可以得到一个地区税收增减的总体状况等等。

4.优化纳税服务

通过数据挖掘技术的应用,不断创新纳税服务手段,优化服务方式,拓宽服务内容,提高服务质量。运用现代数据挖掘手段,展开纳税服务数据的关联性分析,了解纳税人涉税事项的发生频率以及涉税事项之间的关联程度,为办税服务厅的窗口设置、办税流程的设定提供数据支持,从而科学安排服务流程,提高服务水平。

三、数据挖掘在税收风险管理的应用

数据挖掘在税务系统中的应用模型如图所示。在管理纳税人信息的各个阶段都会用到数据挖掘技术。通过对纳税人信息数据的分析与监管,有利于发现税收征管中的潜在风险,提高监管工作的效率。

微观层面的税收风险识别方法分为有监督学习方法和无监督学习方法。

(一)有监督学习方法

对于给定的训练样本,如果每个样本都有已知的类别标记,模型通过对这些带有类别标记样本的学习,确定模型结构及参数,然后对未知类别的样本判断其类别,这类方法称之为有监督学习方法。在数据挖掘算法中,有很多统计和智能的方法都属于有监督学习方法,如判别函数法、人工神经网络、支持向量机、决策树以及遗传算法等随机方法。

(二)无监督学习方法

有监督学习方法借助有类别标记的训练样本进行学习确定模型参数,当没有有类别标记样本可以用时,就必须根据未知样本类别的数据集内部的特征,利用模型算法自动寻找分类的规律并进行分类,这类的方法称之为无监督学习方法。常见的无监督学习方法有各种聚类算法、自组织特征映射算法、主成分分析方法以及综合评价方法等。

税收风险管理为税务部门提供了一个利用信息化手段,辅助管理纳税人履行纳税义务的理念,在税收工作中愈加重要。在信息化高速发展的时代,要做好税收风险管理,利用大量的税收数据信息进行深入的数据分析、数据挖掘、数据建模,从而建立高效的风险识别系统,是必不可少的手段,国内各级税务部门在各个领域都进行了一些实践工作,做出了有意义的探索。

四、数据挖掘模型在天津财税工作中的应用案例

(一)数据挖掘在企业纳税终止行为分析中的应用

1.模型数据准备

(1)纳税终止定义

本研究中对纳税终止的定义为在预测时间窗口内连续两个月无任何纳税申报行为。

(2)数据窗口定义

本研究中选取12个月的纳税数据为研究对象,最终建模定义的时间窗口如下:

(3)数据源选择

由于税务机关的纳税人数据量巨大,纳税人纳税终止的因素也很多,从全面刻画纳税人特征角度及目前可以获取的数据资源综合考虑与权衡,初步确定用于本次课题建模的数据为企业基本信息、纳税人申报入库信息、纳税人经营相关信息。

2.数据范围选择

(1)行业选择

按企业户数与非正常户比例考量,企业数量太少则没有代表性,非正常比例较少,难以抓住纳税终止的普遍特征;本课题首先选择企业数量较多且非正常企业比例较大的行业,如图右上部分所示。商务服务、批发零售、居民服务等几个行业是最优选择。

(2)纳税人样本选择

本次课题最终选定的研究对象为:

在观察期前已在税务机关登记半年以上的企业(单位纳税人),且在观察期末状态正常的企业。

模型预测的结果可以用下面的交叉表解释:列项目表示实际的结果,行项目表示预测的结果,T代表纳税终止,F代表仍正常纳税。实际样本数4596户(非原始样本,而是模型调整后的样本),其中实际为T的有1259户,预测为T的有1656户。行项目的百分比(86%)代表实际为T的企业预测正确(T)的比例,这里表示在终止纳税的企业中能够有86%的企业预测正确;列项目百分比(65%)代表预测为T的企业中,实际为T的比例,这里表示预测纳税终止的企业中有65%的企业实际纳税已经终止。

图2 模型预测结果

影响模型的因素按对模型的重要程度依次是:企业的收入规模、企业等级注册类型、企业的税收波动程度、企业的注册规模、行业等。

按模型的效果和准确度,得到两个等级的预警名单,分别是:

预警一:模型的置信度高,企业纳税终止的概率很高;

预警二:模型的置信度一般,企业终止纳税的概率一般。

对预测出来的可能纳税终止的企业名单可以进行进一步的分析和监控,如:

对于企业的属性特征进行详细分析;按企业纳税规模或概率排序,选择重点监管企业;

按税务所分类,提交各税务所监管;考察最近三个月纳税情况,是否有零申报,零入库,税收衰减;考察企业的财务状况;考察企业的欠税与违规情况,如拖欠税款等违规行为。

对这些企业根据预警级别的不同,可以优先考虑关注置信度高的可能纳税终止的企业。对这些企业进行特征分析,能够发现:85%集中在其它服务业、零售业和商业服务业的咨询行业;约80%集中在私营有限责任、个体工商和其它有限责任公司;约50%集中在10万以下的小企业;约30%集中在10万~50万之间;约80%集中在月平均纳税额在1000元以下的小企业。

3.模型构建指标体系

在纳税终止行为模型构建过程中,以上所准备的各种数据多为非结构化数据或文本类数据信息,经过数据处理,进行指标构建,并对所构建的指标进行预处理,得到构建模型要用的数据。

指标体系的建立是进行预测或评价研究的前提和基础,它是将抽象的研究对象按照其本质属性和特征的某一方面的标识分解成为行为化、可操作化的结构,并对指标体系中每一构成元素(即指标)赋予相应权重的过程。

纳税终止行为预测模型指标体系主要从四个方面描绘纳税人的行为特征,包括企业基本属性、纳税申报行为特征、欠税行为、缴纳税款入库情况。

基于构建的纳税终止行为预测指标体系,对重要指标与是否终止纳税关联进行了初步分析,以便于找出纳税终止的重要影响因素,作为模型的输入变量。

指标1:近一年是否有过未申报

在最近一年有过未申报记录的企业在未来半年出现纳税终止的比例要远大于全部申报的企业。

注:FLAG_NSZZ为未来半年内纳税终止标志,等于1为纳税终止,等于0为未终止。

指标2:近半年零申报次数比例

近半年申报金额为零的次数出现的越多,终止概率越高。

指标3:从业人数趋势值

从业人数整体呈减少或不变趋势的纳税企业,未来半年纳税终止的概率较高。

4.模型构建与结果解读

考虑企业申报特征的差异,影响企业纳税终止的因素也不尽相同,本课题对企业按照其纳税申报特征进行初步聚类,从不同类别考虑采取不同的研究方式。在方法选取上,选择数据挖掘中解决分类问题的决策树算法进行研究,通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。

本课题首先对批发零售企业按照其纳税申报特征进行初步聚类,从不同类别考虑采取不同的研究方式。

以下为聚类结果:

对各个群体,首先采用单一模型进行建模。由于纳税终止的企业(以下称之为“坏企业”)数量较少,单一模型一般难以得到理想的结果,因此,在构建多个单一模型后,再采用多个模型组合的方式进行集成,以获取最佳结果。

(1)单一模型结果与评价

单一模型结果

以下为群体2,选取70%的样本作为训练集,30%的样本作为测试集,以训练集得到的模型检验测试集中的样本,采用决策树某单一模型反复训练,得到的建模结果为:

聚类企业户数纳税终止户数纳税终止比率群体特征研究方式群体030626085.0%最近一月未申报 纳税终止概率非常高。无需建模,直接判定为纳税终止企业群体1100014914.9%近12个月有过未申报情况(不含群体0)企业户数不多,但纳税终止概率较高,建模群体22383614276.0%近12个月都有正常申报,最近3个月有过零申报记录涉及企业户数较多,需重点建模群体3329623761.1%近12个月都有正常申报,且最近3个月没有过零申报记录纳税终止概率很低,需建模,重点关注终止概率较高企业

预测变量重要性表明:对于群体2(近12个月都有正常申报,最近3个月有过零申报记录),重要的变量包括:近一年个税申报次数;近一年零申报次数;最近3个月零申报比例变化;近3个月平均申报金额;个税申报金额的趋势及波动等。

单一模型评价

采用决策树某单一模型的评估情况:

模型的提升率为1.4,较不用模型预测效果提高1.4倍(最优为2倍),已有初步的成效。

其中,提升率指的是用模型和不用模型相比,预测能力调高的倍数。模型预测结果的提升图曲线越靠上面表明其预测效果越好。

训练集与测试集提升图

模型预测的结果可以用下面的混淆矩阵解释:

列项目表示实际的结果,行项目表示预测的结果,1代表纳税终止,0代表仍正常纳税。以测试集来看,实际样本数918户(非原始样本,而是模型调整后的样本,且30%的样本是测试集),其中实际为1的有417户,预测为1的有582户。行项目的百分比(72.662%)代表覆盖率,即实际为1的企业预测正确(1)的比例,以测试集看,这里表示在终止纳税的企业中能够有72.662%的企业预测正确;以测试集看,列项目百分比(52.062%)代表预测为1的企业中,实际为1的比例,即命中率,这里表示预测纳税终止的企业中有52.062%的企业实际纳税已经终止。两者值越高,模型预测效果越好。可以发现,模型在训练集及测试集均收到了初步的效果。

训练集混淆矩阵测试集混淆矩阵

(2)组合模型结果与评价

在预测中由于各种单项预测具有不稳定性,各种预测方法都存在时好时坏的特点,而组合预测在保持预测稳定性的同时,可以提高预测的精度。因此,在构建多个单一模型后,再采用多个模型组合的方式进行集成,以获取最佳结果。同样,选取70%的样本作为训练集,30%的样本作为模型测试集。

组合模型的提升率接近30,较不用模型预测效果提高近30倍,模型效果得到很大的提升。

测试集的覆盖率为77.645%,命中率为88.209%,即在终止纳税的企业中能够有77.645%的企业预测正确;预测纳税终止的企业中有88.209%的企业实际纳税已经终止。模型在命中率上有较大提高,对纳税终止的预测效果较单一模型提高较多(单一预测模型覆盖率72.66%,命中率52.06%)。

训练集混淆矩阵测试集混淆矩阵

5.预测纳税终止企业特征刻画

从模型所获得的规则集来看,具备以下特点的企业有较高概率发生纳税终止行为。

(1)最近3个月内有过未申报的情况;

(2)最近三个月内没有申报过经营性主税种(即营业税或增值税。对于批发零售企业,由于主税种不在地税缴纳,因而重点关注是否有国税附加税申报);

(3)最近三个月有较高比例零申报的情况,但是之前半年零申报比例并不高;

(4)最近三个月无个人所得税申报,但之前有过个税申报;

(5)个税申报金额有显著下降(平滑后数据);

(6)主税种申报金额有显著下降(平滑后数据);

(7)最近一次申报的人均收入相比之前有显著下降;

(8)最近半年有过因之前未申报而补申报的行为;

(9)短期内,有未缴清的欠税对纳税终止并无显著影响;

(二)数据挖掘在企业欠税行为分析中的应用

1.研究背景与方法

(1)应用背景

(2)分析方法

本文我们应用聚类分析、风险评价、关联规则、决策树模型等多种模型,重点分析企业的欠税风险、税种关联规则、房产税欠税特征及欠税原因。通过多种方法的应用,对欠税企业整体有了更深入了解。

2.数据处理与指标构建

(1)欠税企业属性集

税务领域的数据挖掘分析对象是纳税人。纳税人属性大体包括以下几类:

基本信息、鉴定信息、税源信息、申报征收、财务报表、发票信息等,在进行数据挖掘的同时,针对具体分析目标,对纳税人属性集进行合理约减。

本文分析对象是欠税企业,因此首先要建立有关欠税企业的属性集。利用数据挖掘进行税务数据分析,通常用到基本信息、纳税行为信息、外部门如工商等数据,根据简单有效原则,具体选取属性如下图所示:

(2)数据处理与样本筛选

在建模之前,需要对原始数据进行数据质量校核与处理,由于本文涉及到的表比较多,数据处理流文件较多,如下图:

(3)样本企业数据表现

从欠税税种看,企业最容易形成欠税的税种是企业所得税,它占全部欠税税款的55.6%,其次是房产税,占了13.7%。

从欠税行业看,在欠税企业里,欠税最多的行业为房地产业,欠税26980.42万元,约占欠税企业的73.9%,欠税企业数量最多的行业为批发零售业,数量为762户,约占欠税企业的38.6%。

3.欠税企业风险等级

根据欠税企业属性集,衍生出适合风险评价指标,建立欠税企业风险指标体系,包括六个部分,基本信息、申报信息、异常认定、欠税信息、财务信息、入库信息。具体指标如下图:

根据易操作原则,参考聚类分析中指标重要性,再加入现实经验对指标权重进行调整,设计出应用的主要指标及分值权重,如下表:

4.关联规则在税收业务的应用

(1)数据处理及流构建

设置税款属期在2013年以后,按照纳税人管理代码(RTP_ID)作为处理对象,以税种为列名,再处理成布尔型数据,构造成欠税税种的数据集,其中有欠税的企业纳税人1972,数据集如下表:

(2)税种之间网络图展现

设置40以上是强链接,20以下是弱链接如图:强链接有4条,其中12和15,链接最强,即房产税和城镇土地使用税,条数为340,全部为1972,占17.241%,即规则支持度为17.241%。其次是10/16/61/62/65,即城建税、印花税、教育费附加收入、地方教育附加、防洪费。

(3)关联规则应用

根据纳税人某个或某几个欠税税种推导出另外某个或某几个欠税税种的关联规则。

分析过程:

①对数据进行布尔型数值转换处理;

②设置最小支持度阈值为0.1%,最小置信度阈值为80%,用Apriori算法对数据进行布尔关联规则挖掘,生产频繁项集;

③对生产成的频繁项集进行发掘,挖掘出关联规则83条。

筛选实例数大于10的规则如下:

④有效规则筛选

(4)欠房产税企业特征分析

重点分析欠不同税种的企业是否具有不同的特征,根据欠税企业数据表现知道,各欠税税种所占比例较大的有企业所得税和房产税,由关联规则挖掘出的主要是有关房产税的,因此重点研究欠房产税的企业,找出此类企业的显著特征。

通过数据挖掘决策树模型C5.0建模,得到模型正确率识别率超过90%,影响因素可信度很高,发现影响欠房产税的因素主要是欠税金额、有无陈欠、上半年是否连续亏损、所属分局等因素

企业欠税规模分布如下图所示,可发现欠税规模越大,欠房产税概率越大。

企业有无陈欠分布如下图所示,可发现有陈欠,欠房产税概率变大。

企业零申报规模分布如下图所示,可发现企业零申报次数越多,欠房产税概率越大。

企业上半年连续亏损情况分布如下图所示,可发现企业经营状况越不好,欠房产税概率越大。

经过对欠税企业的数据挖掘,单纯从数据的角度,对企业欠税原因进行了总结如下:

①由于企业办理迁移注销,或者其他原因导致企业变更注册信息,造成欠税;

②由于企业连续经营亏损,造成欠税;

③由于行业因素,如房地产,造成欠税;

④企业申报异常和存在陈欠,造成欠税;

⑤企业申报正常,但零申报较多,造成欠税;

5.结果应用与业务指导

(1)结果应用

对于模型产生的结果,大概有三个方面的应用:

①风险评价

以2015年欠税企业为例,通过聚类分析和权重设置,得到风险得分,将欠税企业分成四个等级,重点对高风险和高危风险的企业进行筛查,追补欠税。

②特征刻画

利用关联规则和决策树模型,找出房产税欠税规则,挖掘出欠房产税企业特征及原因分析。

③风险防控

对高风险名单,可以进一步挖掘,通过调整完善指标体系和权重设置,对业务更具有指导性,防止风险企业造成税款流失的发生。

(2)欠税规律探查

从产生的纳税人欠税行为关联规则中,结合业务人员的税收理论和操作经验,挑选出有价值的规则应用到税收征管业务中。对关联规则置信率较高的规则进行验证后,对不满足有效关联规则的企业,划入疑似名单,对这些疑点异常户进行深入分析挖掘,查找可能漏税户。

五、研究课题的应用效果

(一)预测企业纳税行为终止

1.企业纳税行为终止预警。对可能发生纳税行为终止的企业进行预警,考察潜在的税收损失;给出可能发生纳税终止的企业名单,重点抓好这些企业的清理欠税工作,避免税收损失。

2.纳税终止企业的特征分析。细分企业的纳税行为特征,给出发生纳税行为终止可能性较大的企业具备的共性特征,对这部分企业加强征收管理。

(二)企业欠税税种间关联分析

通过数据挖掘的分析方法,利用关联规则挖掘算法分析纳税人欠税税种之间的关系,分析纳税人属性与欠税行为之间的关系,分析纳税人出现欠税与出现违法违章手段的关系判断纳税人欠税的可能性等。税务部门可以将数据挖掘知识及成果应用到日常管理工作中,加强税源管理,提供税收征管和决策水平,降低纳税人欠税或流失的可能性。

[1]魏长水,罗忠文,李刚.关联规则数据挖掘在税务稽查系统中的应用[J].福建电脑,2008(24).

[2]姚亮.关联规则挖掘技术在税收执法管理中的应用研究[J].合肥工业大学,2007.

[3]宋茹桦.关联规则挖掘算法研究与应用[J].山东大学,2006.

[4]刘以堂.关联规则在税收征管中的应用[J].科技创新导报,2012(17).

[5]李宇.浅谈税务挖掘与深度利用[J].中国科技信息,2008(5).

牵头单位:天津市财税信息中心

协作单位:天津市河东区地税局、天津市南开区地税局、天津滨海新区地税局、天津市静海区地税局、天津市纳税服务局

课题指导:天津市财政局信息化处、天津市财政局收入规划核算处、天津市财政科学研究所

撰稿人:于众、陈杰、刘颖、张磊、于学深

责任编辑:高丽丽高艳芳

F812.42

A

1006-1255-(2016)06-0051-10

猜你喜欢

纳税人纳税数据挖掘
辽宁省2020 年度纳税信用A 级纳税人名单
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
建筑企业实施纳税筹划的几点思考
个人所得税纳税筹划
增值税一般纳税人与小规模纳税人身份转换的现实困境与对策研究
税负平衡点在混合销售时纳税人身份选择中的应用
软件工程领域中的异常数据挖掘算法
偏关县地税局:建立税企QQ群 推进创先争优活动