税收风险管理大数据分析平台的设计与实现

2022-01-14单玉莹苏钧驿秦喜文

吉林大学学报(信息科学版) 2022年1期

刘铭,单玉莹,苏钧驿,秦喜文,蒋扬

(1.长春工业大学数学与统计学院,长春130012;2.合肥工业大学软件学院,合肥230009;3.中电文思海辉技术有限公司汽车制造数字化事业部,辽宁大连116000)

0 引言

自2009年国家税务总局提出将税收风险管理理念引入税收征管以来,各地税务机关逐步建立了税收风险防范管理机构、机制和操作规程。在现代大数据背景下,对我国税收风险管理的研究和探讨,有助于行政资源的有效配置,降低纳税风险,为实施以专业化管理为特征的现代税收征管体系提供切实可行的途径。然而,新经济和新商业模式的出现,使市场参与者的数量急剧增加,加之税法的不断变化,给税收风险管理带来了新的挑战。

针对新形势,国家税务总局提出要充分利用税收大数据,举办“智税”大赛,鼓励地方税务机关积极探索更加科学、精准的税收风险管理模式。在大数据时代背景下,加强税收风险的管理,可以大大提高税收业务的合理化和规范化,促进社会经济的稳定发展。从企业的角度研究税收风险,也有助于全面分析税收抵扣问题。因此,税务风险管理大数据分析平台的科学性和准确性,是税务管理大数据资源能否得到公平有效配置的关键,影响税务风险管理的效果和效率。税务从业人员使用税收风险管理大数据分析平台进行税务风险管理将大大增加人工效率、降低成本。

目前我国已逐步完善税收风险管理机构体系,税收风险管理工作也逐渐趋于专业化。企业税收风险管理也成为学者们谈论的热点[1-3]。随着科学技术的快速发展,人类进入了一个新的时代,以互联网为平台,涌现出了大数据、人工智能、区块链、机器学习、迭代推理、云计算等技术[4-5]。随着互联网技术的迅猛发展,国内对大数据在税收风险管理中的作用探讨不断增多[6-13]。对如何使用数字技术创新税收征管模式,李伟等[14]提出当前税收风险管理需要打造具有智能化、自动化、系统化特征的全流程税收风险管理数字化监管体系,以提升风险管理部门整体工作效能。

笔者从税收大数据和风险管理的理念出发,结合国内税收风险管理工作的发展,分析了基于大数据的税收风险体系的构建,采用Java编程语言技术和Oracle数据库建立税收数据库,通过搭建税收风险管理平台,对税收风险进行预警。

1 基本概念及理论

1.1 税收风险

在目前的税收风险管理研究中,税收风险有广义和狭义两个概念。广义的税收风险是指所有导致税收损失或没收的可能性,主要包括经济环境风险、税收执法风险和税收公平风险。从狭义上讲,税收风险仅指税收公平的风险,当纳税人违反税法规定从事不当的税收行为时,可能导致税收公平目标的实现恶化[15]。笔者和大多数现有的研究以及税务局对税收风险管理的定义,主要集中在狭义的税收风险管理,即评估、预防和控制税收合规风险。

税收风险与风险具有相同的特征。一是机会主义,风险是一种不确定的概率事件,税收风险是指纳税人的税收责任,税收风险表现为由于纳税人可能的不遵从而导致的一定程度的税收流动;二是隐蔽性和潜伏性强,纳税人的生产经营活动复杂多变,导致税收风险大量存在,税务机关在常规征管中难以发现和控制;三是税收风险与国家的政治体制、税收制度、税收管理体制等存在着非常密切的关系。

1.2 税收大数据

税收大数据是指通过各种方式有效采集、整合各类税务数据信息,专门对海量税务信息进行数据加工和深度数据应用。大数据时代税收数据管理面临各种挑战,随着纳税人数量的急剧增加,生产经营活动的变化,多元化的跨区域、跨专业的大型企业集团相继出现,呈现出税源、区源的国际化:人员的流动性增加了,表现为电子化、团队化和专业化的服务形式,多样化和个性化税收服务渐渐被大众所需求。

1.3 税收风险管理

税收风险管理是整个税收工作中不可或缺的一部分,即税务机关运用风险管理理论和方法,通过风险预警、纳税评估、税务会计和反偷税调查等手段防范和管理税收风险[16]。在综合分析纳税人税收信用的基础上,采取税务稽查等风险管理措施,根据纳税人面临的不同类型和水平的税收风险,适当配置税收管理资源,提高税收合规性。在税务管理部门的税务管理活动中,准确引用和有效应用风险管理理论和方法的能力对税务管理至关重要。税收风险管理是现代税收管理的先进理念和国际惯例,有助于完善我国税收管理体制,增强监管能力,是实现税收现代化的有效对策。

2 基于大数据背景的税收风险管理平台

税收风险管理大数据分析平台是税收风险管理的重要工具,支撑着风险排序、查询和指标管理的关键环节。因此,税收风险管理大数据分析平台的科学性和实用性决定税收征管大数据资源能否得到合理有效配置,影响税收风险管理的成效与结果。基于此,笔者构建了一个基于大数据背景的具有更高科学性和实用性的税收风险管理平台。

2.1 系统设计

笔者利用Java编程语言和Oracle数据库构建税收风险管理平台。根据以往的税收风险处理过程,并考虑现有数据源特点,得到平台的架构图如图1所示。

图1 系统总体架构图Fig.1 Overall system architecture diagram

系统处理数据的整个过程为:数据导入是由后台调用Shell脚本执行Sqoop的import命令,启动Sqoop导入任务,最终解析成一个或多个MapReduce任务,任务只有Map任务,并不存在需要溢写操作的Reduce任务,这极大地提高了数据导入效率。Map任务的工作就是将数据库中的数据导入Hadoop分布式文件系统上;Apache Spark用于处理存储在HDFS(Hadoop Distributed File System)集群上的数据,分为加载、清洗、加工、匹配、分析数据和存储结果等步骤;MySQL用于存储Apache Spark处理完的结果,比如对每个纳税人或纳税企业进行风险评级的结果;部署在WEB Server上的WEB程序根据用户的请求,借助Spring data jpa提供的规范从MySQL数据库中查询相应数据返回给用户,最终展示在用户的浏览器页面上。

平台的设计目标是实现一款基于大数据的税收风险分析的平台。主要税收风险管理模块共分为风险排序、查询和指标管理3部分。风险排序部分可按风险分类展示纳税人的风险信息和纳税人信息,例如用户想按照收入变动率从高到低查看纳税人信息,只需要点击按收入变动风险排序即可。标记按钮可以让税务工作者对存在风险并已经进行了相关的措施处理后的纳税人进行标记,并可以让其不显示在列表中。风险查询部分可以方便用户进行精准查询纳税人的各项风险指标以及纳税人信息。风险指标管理界面可以让拥有此权限的用户修改各项指标标准值并保存,修改后的指标标准值会在下次导入数据并分析时生效。

2.2 风险管理控制

风险管理控制分为3部分。第1部分是风险排序,其是在用户指定风险类别之后进行的,例如用户选中收入变动风险后,系统会按照主营收入变动率从高到低依次排序,此时用户可以清晰地看到变动率最高的企业纳税人信息。风险排序流程如图2所示。

图2 风险排序流程图Fig.2 Risk ranking flow chart

第2部分是风险指标管理,其模块支持用户修改相应指标的标准值。第3部分为风险查询,用户只需要输入纳税人识别号即可显示纳税人信息和纳税人的各类风险指标值。各类风险指标如表1所示。

表1 风险指标Tab.1 Risk indicators

笔者将风险评估指标分为4类,分别是收入类评估分析指标(Iincome)、成本类评估分析指标(Icost)、费用类评估分析指标(Ifee)以及利润类评估分析指标(Iprofit)。

其中Cprofit表示现期利润,Lprofit表示基期利润。

上述4类指标中任一指标或多个指标超出标准值范围,都能成为纳税人的可疑点。例如,如果收入指标值超出标准值范围,则可能原因是企业在纳税申报时少报收入或多报成本支出等;如果成本指标值超出标准值范围,则可能原因是企业在纳税申报时瞒报收入或多报成本支出以及擅自增加税前扣除项目等;如果费用指标值与标准值差距较大,则可能原因是企业在纳税申报时多列费用项;利润指标值与标准值差距较大,则可能原因是企业多结转成本支出或在纳税申报时瞒报或少报收入。

不仅仅是单一指标的不合理能出现税收风险问题,指标与指标之间的比例不合理同样存在税收风险问题。存在以下4种比例关系。

上述4种比值超出标准值范围,也将成为纳税人的可疑点。如果收入利润比超出标准值范围,可能存在企业纳税时少报或瞒报收入以及多列成本费用等问题;如果收入成本比超出标准值范围,则可能是企业在纳税申报时瞒报收入或多报成本支出以及擅自增加税前扣除项目等;如果收入费用比与标准值差距较大,则可能是企业在纳税申报时多提、多摊相关费用、将资本性支出一次性在当期列支或多转成本、虚增成本;如果成本利润比与标准值差距较大,则可能是企业多结转成本支出或在纳税申报时瞒报或少报收入。

2.3 相关技术

该平台利用Sqoop工具导入各类涉税数据到Hadoop分布式文件系统中,然后通过大规模数据处理引擎(Apache Spark)对税收数据进行处理,处理后的用于展示的结果数据将存储在关系型数据库MySQL中。税收风险大数据分析平台采用Java语言开发、Tomcat作为Web容器的B/S架构。

2.3.1 分布式文件系统

Hadoop分布式文件系统[17-18]属于Apache Hadoop的一部分,也是最核心的部分,因为它是存储和管理数据块的部分。传统的文件系统只是构建在单机上,并且不能存储超过硬盘大小的文件。HDFS是分布式的,所以存储于之上的数据并不都存储在同一台机器上,HDFS会将文件分解为单独的块(Block)并将它们分发到群集中的不同节点(DataNode),从而实现高效的并行处理。

2.3.2 大规模数据处理引擎

Apache Spark是一个分布式的集群计算框架,也可以说是一个基于内存的大规模数据处理引擎,可以对静态或动态(批处理)的大量数据进行抽取、转换、装载、分析、机器学习和图形处理(流处理)。不仅如此,Spark还提供了丰富的编程语言API,目前支持Scala、Python、Java、R语言和SQL。

Spark为集群内存中的计算提供了一种称为RDD(Resilient Distributed Dataset)的高效抽象,Apache Spark的多阶段的计算引擎可以在内存中运行大多数计算,因此Spark大多数在进行某些复杂计算时能提供更高的性能,例如迭代算法或交互式数据挖掘。

2.3.3 数据交互工具

Apache Sqoop被开发用于在Hadoop分布式文件系统和数据库之间快速传输数据。其支持从关系数据库(比如Teradata、SQL Server、Oracle、Postgres、MySQL、HSQLDB和Netezza等)导入数据到Hadoop分布式文件系统上,还支持从Hadoop分布式文件系统上插入数据到关系数据库。其之所以能高效传输数据,是因为Sqoop将导入工作变成了一个或多个MapReduce任务。由于MapReduce的Shuffle阶段是最耗时间和资源的阶段,Sqoop巧妙地将Reduce任务数设置成了0,从而避免不必要的资源消耗,也节省了大量的时间。Sqoop的优势在于利用了分布式计算的思想,对传输量越大的导入任务,其优势越明显。

由于当前税务部门的大部分数据存在于传统的关系型数据库中,要想联合利用这些数据,必须将数据重新整合,所以采用Apache Sqoop工具作为平台的数据交互工具。

2.3.4 程序开发框架

笔者构建的税收风险大数据平台的工程引入Spring Boot提供支持。Spring提供的依赖注入(DI:Dependency Injection)技术可极大地提高代码的复用性,例如A类依赖于B类,则B类将由Spring自动注入,这称之为控制反转(IOC:Inversion of Control)。Java程序员可以把类的对象(Bean)交由Spring管理,当某个类依赖于另一个类时,Spring将自动创建该类对象并注入,当程序其他地方再次需要该类时,Spring会直接将原来创建好的对象注入,也就是说以往的由程序员自己控制创建对象这部分工作交给了Spring管理。Spring Boot不仅封装了Spring的所有核心功能,还带来了更加精简的配置,使程序开发效率再次得到提高。

3 结语

大数据背景下的税收风险管理仍处于探索阶段,需要在组织机构建设、第三方信息获取、优化风险管理平台功能、人员团队建设等方面提供保障。针对这些问题,笔者对税收风险管理的保障措施提出建设性意见:扎实组织税收风险管理,完善数据。建立优质税收数据库,优化大数据和税收风险管理平台功能:加强建设,充分挖掘利用所掌握的海量数据资源。无论是业务驱动的传统税收风险管理,还是数据驱动的分析模型,都很难从单方面提高税收风险管理的精准度,所以笔者基于大数据背景,将税收数据库和税收风险管理相结合进行研究,建立税收管理大数据分析平台,提高税收风险管理的准确性和可应用性,完善税收风险管理基础,达到了更好的税收风险管理的目的。