基于数据挖掘技术的中小企业纳税评估模型构建
2014-02-24张春瑜陕西财经职业技术学院咸阳712000
张春瑜(陕西财经职业技术学院,咸阳,712000)
基于数据挖掘技术的中小企业纳税评估模型构建
张春瑜
(陕西财经职业技术学院,咸阳,712000)
本文构建了基于数据挖掘技术的中小企业纳税评估模型,解决对中小企业纳税问题的研究。
数据挖掘;纳税 ;评估模型
1 纳税评估模型理论依据及评估流程
中小企业由于其自身规模与政策的限制,一般都不能保持长期稳定的发展状态,这将会对投资人投资回报率的稳定性造成直接影响,所以,纳税人的生产经营情况在很大程度上影响着纳税人的决策。除此之外,纳税人多存在偷税、漏税的侥幸心理也是影响纳税决策的重要内因。
从纳税本身来讲,它属于一种对纳税人财产所有权进行强制转移的一种行为,从表面上看似乎不是一种利益对等的行为,因此纳税人从自身利益出发,希望能够减少税负或者是表现出纳税不遵从的行为。在这种情况下,通过对中小企业的生产经营数据进行分析,并以此来预测纳税人纳税遵从行为是合理的,通过对纳税人“税收遵从”或“税收不遵从”的分类属性进行分析,以此来提高纳税评估模型的准确度和纳税评估工作的效率。
纳税评估从税务登记、发票管理、申报征收、行政审批环节及外部信息库取得相关数据,并以此为依据来确定评估对象, 对纳税人扣缴义务人一定时期内申报缴纳税款的情况进行综合评价并进行相应处理。主要工作流程包含四步,即确定评估对象工作流程,实施评估工作流程,评估结果处理工作流程和评估反馈工作流程。
2 数据挖掘技术在纳税评估模型中运用的可行性
随着数据采集与存储技术的不断进步,人们拥有的数据量也在逐渐增加,透过这些数据为人们的决策提供了更多的参考,但是在越来越多的大量数据中如何寻找对决策具有决定性意义的数据是人们目前普遍关注的重点,数据挖掘技术的应用恰恰解决了这一难题,数据挖掘技术借助于数据仓库,通过数据源的集成和选择,将大量模糊、随机的数据转变为有序的数据,并通过对目标数据的多次处理和分析,产生知识模式,并最终表现为有价值的信息。纳税评估对象的选定过程本质上就是对纳税人的涉税数据进行分析,进而得到纳税人分类,二者的总体逻辑框架是一致的,因此,运用数据挖掘技术优化纳税评估模型是完全可行的。
3 基于数据挖掘技术的中小企业纳税评估模型的构建
3.1 中小企业纳税评估数据仓库的构建
纳税评估数据仓库是数据挖掘实现的数据平台,应该包含定性、定量分析过程中涉及的各类涉税数据,数据仓库体系结构如图1所示。
图1 数据仓库结构
按照数据的覆盖范围可以分为集中式数据仓库和数据集市。运用元数据和其它管理工具对数据仓库进行组织和管理。
OLAP 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。
前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。
数据仓库的设计主要包括两个部分:与操作型系统接口的设计和数据仓库本身的设计。前者的设计主要指ETL 组件的设计,ETL 组件通过对操作型数据进行清洗、转换、加载,把事务数据转换成数据仓库中的数据;后者的主要设计问题是:粒度、分区和适当设计。粒度问题是设计数据仓库的最重要的方面,因为它会深刻影响存放在数据仓库中的数据量的大小以及数据仓库所能回答的查询类型,要在数据量大小和所能回答查询的细节级别间做出权衡,为此,拥有海量数据的企业往往采用多粒度级的设计。
3.2 数据挖掘技术的应用过程
数据挖掘技术的应用过程一般包括以下四步:
第一步,确定业务对象:在开始数据挖掘之前最基础的工作就是理解数据和实际业务问题,在这个基础上提出问题,并对目标进行明确的定义。认清数据挖掘的目的是数据挖掘的重要一步,因此必须清晰的定义出业务范围。数据挖掘的最后结构是不可测的,但应对要探索的问题有预见性,为了数据挖掘而数据挖掘则带有盲目性,一般不会成功。
第二步,数据准备:这一步是保证数据挖掘得以成功的先决条件,数据准备在整个数据挖掘过程中占的比重最大,大约是整个数据挖掘工作量的60%,数据准备包括数据选择、数据预处理和数据转换。
其中,数据选取的目的是确定发现任务的操作对象,即目标数据,是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换。当数据挖掘的对象是数据仓库时,一般来说,数据预处理己经在生成数据仓库时完成了。数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。
第三步,数据挖掘:数据挖掘就是对所得到的经过转换的数据进行挖掘,除了选择合适的挖掘方法外,其余工作可自动地完成。
第四步,结果分析与知识的同化:对挖掘结果进行解释并评估。数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这时需要将其剔除。也有可能模式不满足用户要求,这时则需要整个挖掘过程回退到前续阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法等等。另外,由于数据挖掘最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户容易理解的其它表示形式,如把分类决策树转换为“if…then…”规则。知识的同化就是将分析做得到的知识集成到业务系统的制度结构中去。
4 纳税评估模型的构建
4.1 选取训练样本集
为了评估模型的准确性,尽量避免纳税评估过程中评估人员的主观经验判断,本文认为应该从已知纳税人的分类属性中挑选训练样本集,以训练样本集的逻辑判断验证测试样本集的分类属性。因此,构建纳税评估模型首先应该选择训练样本集,样本集中的每一个元素都已知其分类属性,且样本中所含元素越多越好,样本集合应包括如表1所示的内容。
表1 中小企业纳税评估模型样本集
在表1中, 0l、02是对7项业务指标属性和样本元素分类属性的定量表示。其中,业务指标若为01,表示业务指标“正常”,02表示“异常”;样本元素的分类属性D若为01,表示纳税人“税收遵从”,若为02,则表示“税收不遵从”。
4.2 计算两种分类的先验概率
对训练样本集中的“分类属性”进行统计,得到分类属性为O1的样本总数C-D1和属性为02的样本总数C-D2,并计算“税收遵从”和“税收不遵从”的先验概率P(D1)=C-D1/(C-D1+C-D2),
P(D2)=C-D2/(C-D1+C-D2)
4.3 计算业务指标的条件概率
以分类属性为界限,再次对训练样本集的业务指标进行样本数统计,得到分类属性D为“纳税遵从”情况下税负率差异幅度Z1“正常”的样本数C-Z1-N1-D1、“异常”样本数C-Z1-N2-D1,分类属性D为“纳税不遵从”情况下税负率差异幅度Z1“正常”的样本数C-Z1-N1-D2、“异常”的样本数C-Z1-N2-D2,并据此得到所有业务指标的相关信息。
判定完纳税人的分类属性之后,税务机关可挑选“纳税不遵从”对象,利用评估分析、询问核实、评定处理等一系列程序,完成纳税评估工作。
5 结论
综上所述,本文在对数据挖掘技术进行分析的基础上,运用数据挖掘技术优化纳税评估模型,构建了基于数据挖掘技术的中小企业纳税评估模型,将纳税评估的对象选定工作置于科学的逻辑框架下,以提升纳税评估的效率。
胡艳容.中小企业纳税遵从成本影响因素研究[D].江西农业大学,2013.
张春瑜,女,1982—,河北南宫人,讲师,研究方向:税收、会计、金融
Construction of SME tax assessment model based on data mining technology
Zhang Chunyu
(Shaanxi Vocational College of Finance and Economics,Xianyang,712000)
This paper constructs a data mining technology based small and medium enterprises tax assessment model, to solve the problem of the research on small and medium-sized enterprise tax.
data mining;tax;assessment model