APP下载

基于大数据的企业集团税收数据采集系统建设研究

2020-12-14

长沙大学学报 2020年2期

刘 静

(长沙学院经济与管理学院,湖南 长沙 410022)

“大数据”一词最早出现在上世纪80 年代,当时是指涉及的信息资料规模庞大到技术条件无法有效收集、储存和利用,数据濒于爆炸的情况.随着区块链等技术的发展,数据科技的快速进步和数据价值的深度应用,步入二十一世纪后,“大数据”已从过去无法有效开发的状态,转成为推动国家战略及区域经济发展,促进智慧城市建设,企业转型升级,社会管理及个人工作、生活等各领域创新和变革的重要工具.企业集团税收风险是税收管理的重点,对提升税收征管效能和经济运行质量具有重要意义.利用大数据技术对企业集团不同来源的税收数据进行有效处理,已成为当前促进企业集团税收信息采集能力提升,推进税收管理现代化的客观要求和必然选项.囿于研究问题的实践前沿性,关于企业集团税收数据收集的研究资料较为缺乏,目前仍以企业界和税务界的具体实践为主.自2009年国家税务总局成立大企业司以来,企业集团的税收管理经历了从税收风险为主向以内控风险管理为主的转变,企业集团税收数据采集系统建设的研究,正是基于这一转变的需要.

1 企业集团税收数据的来源及存在不足

1.1 数据采集来源

企业集团税收风险分析指的是依托现代信息技术手段和分析平台,把登记、申报、征收、退税、发票管理、情报交报等过程中产生的与企业集团有关的信息进行综合汇总和分类,运用数据清洗、去轨迹等操作方法,从海量的税收经济数据中获得企业集团税收风险的分析数据.这采用了多种分析技术和分析模型,对企业集团及其成员单位的涉税数据进行整合分析,从中了解企业集团内部控制和税收遵从的状况,将税务机关拥有的大数据优势演变成税收征管的信息优势,并提醒企业集团其潜在的税收风险,进而提升企业集团税收遵从意愿,实现征管资源的合理配置和风险应对的精确指导.其中,准确全面采集企业集团涉税数据是对其进行有效税收风险分析工作的基础.

1.1.1 税务征管系统数据

税务管理各个环节产生的涉税信息资源,构成了税务机关征管信息系统的主体数据.随着金税三期在全国的正式运行,全国税务系统已经建设形成了总局、省局、地市局、区县局的四级广域网,财税库银横向联网实现全国范围的覆盖.企业集团信息都被纳入管理,每天都有大量的数据产生并沉淀.

1.1.2 企业集团申报数据

纳税人报送的信息属于基础信息.企业集团由于存在多法人、多层级的组织结构,除了日常的申报数据外,还有其集团内部各层级在加强税收管理、各层级财务部门日常管理中等产生的大量涉税数据,以及企业集团开展涉税自查、涉税申报等产生的数据,以及企业集团内控管理产生的调查数据等.

1.1.3 第三方涉税数据

第三方数据是指独立于税务机关和纳税人之外的其他政府部门、金融、银行等服务部门或银监会、证监会等监管机构掌握的涉税相关数据.第三方涉税数据既是政府各部门的公共资源,又是税务部门宝贵且急需的征管资源.2008 年5 月1 日实施的《中华人民共和国政府信息公开条例》,已从制度层面为数据共享扫清了障碍.目前,湖南省14个市州均已建立政府综合治税平台,税务部门可以通过该平台采集与纳税人生产经营有关的来自于发改委、商务、建交、工商、统计、金融和国土房管等第三方部门的各类涉税数据,基本实现了政务数据的共享共通,提高了税收治理的社会参与度和征管效能.

1.1.4 互联网税收数据

互联网是一个无限的信息宝库,从企业集团掌握涉税数据的情况来看,既有格式数据,也有难以整理的图片数据.数据的内容涉及企业集团公开的财务税收,重大经营事项、股权转让等方面数据.行业协会网站公布的行业主要经营指标、价格数据、发展趋势.各大新闻站点、论坛、博客和微信等提供的搜索数据,以及对税收政策、税收征管、税收法制的讨论数据等.随着我国企业工商数据公示制度的落地执行,任何一家企业的基本情况与基本信息都可以在企业工商官网上查到,企业集团的经营信息也能够被及时了解.这种外部涉税数据和公开信息有力地节约了税务机关的征管成本.

1.1.5 其他相关数据

为便于科学研究,Wind、Osiris、BVD等商业数据库保持了企业集团数据的及时更新,上市公司特别是跨境企业的经营季报、年报,同行业企业经营、财务数据及其他相关的税收数据一应俱全.此外,企业问卷调查、国际税收情报交换等也是采集企业集团涉税信息的有效方式.

1.2 存在不足

数据采集质量的高低直接影响企业集团税收风险分析的质效,就目前企业集团采集的数据情况而言,与“大数据”要求的效率和精度还有一定差距.

1.2.1 数据采集的完整性需要加强

纳税人作为一个“理性的经济人”,在纳税操作当中考虑更多的是如何使自身利益最大化,在这一先决条件下很可能会隐藏一些对自己不利的涉税信息.企业集团纳税申报数据采集表经常只填写必填项目,不是关键的项目往往会被忽略掉.许多数据栏要么是空白要么填零,导致数据缺漏现象存在.而且,税务部门对企业集团的税收管理,仍以统计整理的纸质材料为主,对于企业集团的日常经营数据并没有接入管理端口,及时掌握动态信息.此外,对于银行、海关、房产管理、车辆管理等部门提供企业集团下属公司的注册登记、经营等涉税信息,还没有有效的采集办法.目前,对于企业集团的非结构化数据处理还处于起步阶段,网络搜索的全面性和精确度都有待提高.

1.2.2 数据采集的及时性需要加快

近年来,税务系统在信息化建设方面投入了非常多的人力、财力,构建了诸多系统,开发了很多软件,但未能将大量可用的信息及时进行整理共享,事实上形成了“信息孤岛”,使税务机关很难根据征管情况的变化作出反应.

同时,第三方数据公开体系缺失,即使一些数据的开放并未违反《中华人民共和国保守国家秘密法》,但是封闭的条块管理使得某些政府部门需要向上级部门汇报及领导层层审批,待上级相互协商、审批同意后,还要履行如填写各级审批表、向数据所在部门征求意见等各种程序,之后数据才能向相关单位和公众开放.公开数据也大多数都以再加工的信息为主,原始数据较少,一些政府的门户网站信息更新严重滞后,基础数据匮乏.由于审批程序的纷繁复杂加上缺乏从多个政府机构的离散数据库中提取有用信息的跨机构解决方法,导致税务部门无法及时获取有关数据.而《税收征管法》及其实施细则仅规定政府各有关部门和单位应当支持、协助税务机关依法履行职责,但对具体采取的方式和程序、违反规定应如何追究和处罚等均没有具体规定和处理措施.

1.2.3 数据采集的真实性需要改进

税务系统内部的金税三期系统和企业集团的外网申报平台虽然是不同的平台,但来自与其中的数据彼此之间却存在着重复或者交叉,这种同一项目数据的多样性使得税务部门在数据采集时面临对其真实性的判断与筛选.有些企业在报送财务会计报表和纳税申报表时隐匿收入、少报收入,甚至造假帐,反映的税源状况虚假不真实,如果税务部门不加以区别而按照虚假税源信息征税势必会造成税收收入流失.如BVD数据库提供的中国企业财务信息分析库,收录了30余万家中国内地上市与非上市公司、企业的财务分析数据,这与税务部门所掌握的企业集团有限征管数据相比,还存在一定程度的差距.

2 企业集团税收数据采集的国外借鉴

2.1 注重大数据的完整性

2.1.1 重视大数据的规划管理

英国政府是最早推进大数据规划的国家,为提高处理跨部门信息交换的能力,英国政府2004 年就启动了水平扫描中心项目.英国皇家税务与海关总署利用涵盖了23个资源系统和81种文件格式,共储存了8亿多个记录的高端软件程序来识别和显示风险,以达到排除地方差异影响的目的.英国政府重点分析了企业运营过程中整体性的趋势与规律,并给予了识别和排序.

2.1.2 加强企业数据仓库建设

澳大利亚国家税务局2007年开发了企业数据仓库.2010年,澳大利亚政府推出了电子密钥供澳大利亚政府部门使用.该税源监控平台与海关、银行等部门进行了联网,在法律许可的范围内可以随时跨库查询调阅所需资料.

2.1.3 重视网络爬虫技术应用

德国、荷兰、瑞典等国税务部门,较早利用网络爬虫技术,自动采集来自于twitter、facebook、互动类论坛等社交媒体的涉税数据信息.通过对网络涉税信息和税收管理信息的比对分析,用于税务管理和税收政策的制定.

2.2 重视大数据的开放性

2.2.1 及早做好大数据管理的立法

美国是世界上第一个制定法律法规体系保障政府公共数据开放的国家.美国各政府部门根据法律要求,将数据以及数据库上传至美国政府数据网站,再将所有的政府数据分类整理并汇总,分门别类供公众使用.2009年美国颁布了《开放政府指令》,确立了“透明”“参与”和“协同”原则,是美国政府在公共数据开放方面的最新进展.该法案鼓励美国政府不断丰富公共数据开放网站的内容,及时更新技术工具.此后,美国政府又相继添加了数据分级评定、高级搜索、在线交流以及社交网络互动等新功能,通过浏览美国政府数据网站,社会公众能够获取所有公布的美国政府数据,也能够为税务部门查找所需的公共数据提供充分的便利条件.

2.2.2 制定大数据开放的国家战略

英国在2012年11月推出政府数字化战略,数据开放被上升到国家战略层面,最终的目标是真正实现任何一个有权使用的用户都会选择简单方便的数字化服务,并且将投资近千万英镑打造世界上第一个“开放数据研究所”.

2.2.3 加强政府公共信息的共享交流

澳大利亚政府从2009年开始积极推广公共数据开放的理念,将Data.gov.au作为澳政府信息目录.澳政府为该网站提供了114个部门的1120个数据库和10余个应用软件供用户数据下载,提倡用户通过对工具和应用程序进行更新来提升满意度,并提供该网站以外其他数据的目录和资源的链接.

2.3 确保大数据的真实性

2.3.1 确保税收数据输入的真实性

德国、日本等国规定,税收数据必须经过会计师等专业从业人员的审核后才能录入税收信息系统,这有效保障了税收信息系统中输入数据的真实性.

2.3.2 加强税收数据输入的事后审查

英国在税收信息系统中插入了一个“事后检查程序”,针对企业纳税申报的数据开展税收分析,如果出现纳税申报比对异常,该纳税人将作为重点风险排查对象.

2.3.3 对输入税收数据进行交叉稽核

澳大利亚税务部门利用庞大的信息系统和可以跨库查阅数据的便利,对企业集团申报的情况进行对比分析,实现交叉稽核,并自动使用风险过滤器对所有企业集团的税收数据进行一年两次的筛选.风险过滤器筛选出数据比对出存在潜在高风险的纳税企业之后,由高级技术专家将对其进行人工分析.

3 企业集团税收数据采集系统的构建

3.1 税收数据采集的模式比较

与传统模式下的税收数据采集所不同,大数据模式下的税收数据采集更具有海量的数据采集规模、高速的数据采集流转、多样的数据采集类型和低密度的数据采集价值等特点.

从采集规模上看,大数据模式下的税收数据采集更注重原始数据的直接采集,与传统模式下的税收数据整理传输存在本质上的区别.由于企业集团多层级、跨区域、较分散的经营属性,其内部产生的诸如生产、销售、库存等即时数据是海量的.从采集速度上看,传统模式下的税收数据一般要经过企业集团各级财务部门整理汇总、分类分析、归口报送等过程,速度和反应能力上明显不足.大数据模式下凭借数据中心的集中处理能力,税收数据采集在量级上有大幅度提升,更注重的是数据采集和传输速度.从采集类型上看,大数据模式下的税收数据采集也借助遍布于企业集团各单位的控制器、控制系统、计量仪表等进行非结构化数据的即时转化,数据的来源和广度较传统的采集方式有了极大拓展.从采集利用上看,大数据的税收数据采集分析更多的是一种原始数据基础上的比对加工,进而验证税收数据来源的真实准确性.相比较税收数据的采集数量,大数据税收数据采集是一个密度较低的采集模式,单个税收数据的采集价值相对较低.随着企业集团涉税数据规模的急剧扩大和对企业集团税收管理要求的不断提升,加强大数据在企业集团税收管理中的应用也是大势所趋.表1列举了传统模式下税收数据采集模式和大数据模式下税收数据的采集模式的区别.

3.2 企业集团税收数据采集系统的基本架构

构建企业集团税收数据采集系统的设计,需要借鉴各国加强税收数据采集经验,将大数据及数据挖掘技术应用到税收采集工作中.一般而言,企业集团的大数据采集系统从架构上分为应用区和数据库区两块.应用区直接与企业集团下属公司财务、经营端口连接,用于存储企业集团各下属公司上传的税收数据并进行非格式税收数据的清洗、各类税收数据上传等操作,包括数据抽取、清洗转换、数据传输等工作,主要任务是实现税收数据采集的全网搜索,采集数据的清晰转换、大规模税收数据的格式化储存,以及各类税收数据的整理归集等.数据库区用于接收大数据采集系统应用层的税收数据整合,整合之后上传数据信息平台,以及税收数据的监控、分析和统计汇总等建立标准数据库的工作.整体上为便于企业集团税收数据管理架构的扩展,税收数据采集体系应采取SOA架构,以便于税收数据管理架构根据应用需要进行分布式部署、组合和使用.

3.2.1 企业集团税收数据的数据抽取

税收数据抽取模块是通过企业集团各级单位的财务、经营投资和资产管理等信息系统,以及相关部门监管企业集团的信息系统,定期抽取数据归集至税收数据采集应用区.税收数据集接口可以采取中间库或者视图两种方式,由税收数据抽取模块定期从各接口读取税收数据,并且对税收数据采集应用区中数据表和表中的字段选择性读取.税收数据抽取模块分为结构化数据库的连接、非结构化数据库连接和接口管理三个部分功能.其中,数据库连接数据读取设置和实时调度功能,接口管理包括接口连接和接口配置功能.而税收数据抽取模块系统的处理流程为:一是数据抽取模块对数据库进行查询操作,读取企业集团各级单位的中间库或者视图数据信息;二是税收数据抽取模块通过抽取时间的比对,集中对增量税收数据进行抽取和重点比对.

3.2.2 企业集团税收数据的清洗转化

数据清洗转换是加强企业集团税收数据管理和利用的关键环节.由于大数据的低密度价值属性,企业集团数据特别是非结构化数据在转化过程中存在海量的数据量和数据流,提升转化的效率和抓住关键字句,就成为了做好企业集团税收数据转化的关键.其中,及早着手起草《企业集团数据信息平台税收数据标准规范》最为重要,这是做好税收数据清洗转换的基础和依据.要依据企业集团所在行业和经营特点,明确规范税收数据的字段名、类型、大小和数据字典的定义和标准.税务部门对企业集团辅导建立税收数据规范时,要注意做好数据关键词的调试,并在企业集团各单位的各财务、经营端口建立起前置机数据库.

企业集团税收数据清晰转化的处理流程为:一是对税收数据进行校验,对被抽取的税收数据做好清洗、转化操作.在过滤掉多余的表字段的同时,补充缺少的表字段,并将不合格的税收数据转化为合格的税收数据.二是在企业集团各单位的每个财务、经营端口配置前置机,将各端口产生的数据全部转化为结构化数据,并传入各自的前置机数据库.三是做好前置机数据库的税收数据调度和管理.做好税收数据的输入、转化、过滤和输出,加强企业集团各单位前置机数据库的税收数据增加、删除、修改和查询等工作.

3.2.3 企业集团税收数据的即时传输

企业集团税收数据的传输实现着应用区和数据库区之间的数据传送,可以将存放于企业集团各单位财务、经营前置机数据库的税收数据,经过相应转换后变成存放于数据库区的整合数据,并最终按照要求实现税收数据的即时整合上传.企业集团税收数据的即时传输包括以下流程:一是企业集团各单位财务、经营端口税收数据同步到税收数据传输模块的应用区临时数据库;二是应用区数据库将税收数据按照项目、时间等方式进行整理合并,然后同步到税收数据库的数据库标准区.三是通过设置权限和传输要求,实现数据库区税收数据的即时上传至企业集团税收数据信息平台数据库.

3.2.4 企业集团税收数据的实时监控

企业集团税收数据监控模块发挥着对税收数据的抽取、转换和传输情况的监控作用.企业集团各单位财务、经营端口通过专网与企业集团税收数据平台联通,对网络进行实时监控,并及时显示上传过程中出现的问题显示并预警.企业集团税收数据的实时监控包括以下流程:一是对税收数据抽取、转换和传输模块配置的ETL、ssh、vpn等服务的节点予以监控;二是定期对节点的相关服务进行扫描监控,对发现问题的监控节点采取邮件、短信等方式的报警;三是自动记录各运行节点的工作状况,并自动保存记录.

3.3 企业集团税收数据采集体系的技术维护

在构建企业集团税收数据采集体系的同时,考虑到大数据对数据管理的技术要求,还应当做好相应的技术维护,具体有.

3.3.1 做好标准化税收数据接口的技术维护

根据企业集团税收数据采集的SOA架构,对企业集团已有的税收数据应用系统最大程度复用和广泛兼容,做好标准化接口的服务和业务流程编制.通过建立相应的编码规则,结构规范、数据整合等实现高度灵活性和扩展性.

3.3.2 做好税收数据安全性加密的技术维护

采用加密技术、访问控制技术、认证技术和安全审计技术等多种技术,保证税收数据安全不受侵犯.其中,税收数据采集可在各端口添加消息认证,数据传输可采用SSL技术在通信双方建立加密通道,以保证数据传输机密性.数据监控可采用审计技术自动记录系统运行情况,并监控其中的违规操作.

3.3.3 满足税收数据传输和储存的技术要求

信息系统的硬软件安全是保证税收数据安全性的基础.为保证税收数据的安全,企业集团各单位归集端口和运行环境应当采用国产服务器操作系统,各数据库软件也应当采用国产数据库软件进行数据储存,并做好定期备份.

4 做好企业集团税收数据采集的重点

企业集团涉税数据采集质量的高低以及广度,直接决定着数据应用分析工作的结果.我们可以从以下方面提高企业集团税收数据采集的质量和广度.

4.1 高度重视税收数据采集的顶层设计

当大数据上升为国家资源时,尤其是企业集团税收数据安全,必然要求中央政府从国家层面做出统一的制度或政策安排,提供必要法律约束与保障.制订统一的规范技术和第三方数据采集标准,将住建、工商、银行、海关等部门掌握的宏观经济指标和涉及企业集团的税收信息纳入数据仓库,以金税三期运行为契机,统一全国税收征管数据标准和口径,构建全国统一的税收外部信息管理系统和交换通道,努力提高数据交换的制度化和标准化水平.实现各部门之间的信息共享,提升税收数据的使用效能.同时,明确第三方部门提供涉税信息的法律责任与义务,为构建部门之间税收信息交换的长效机制提供可靠的法律支撑.

4.2 实时掌握税收数据采集的动态走势

从整个税务工作流程及监控的角度系统考虑数据的采集广度,全面搜集并整合企业集团集团的基础信息、财务核算与生产经营数据以及销售的商品名称、单价、数量等发票明细数据,对遗漏数据补充采集,加强数据动态采集,强化税源监控,引入搜索引擎、图形识别技术等,替换传统数据采集方法,在海量的数据里及时将所有非涉密涉税信息按照内容与性质的不同进行分类、综合后予以发布,实现从多渠道自动采集涉税信息的目标,提高数据完整率和及时性.

4.3 强化税收数据采集的真实性管理

深化数据库表内、表间数据逻辑审核,加强税务登记、纳税申报环节的数据审核,排查清理错误数据.建立互联网信息抓取的规范,运用数据爬虫软件定期采集包括不同行业的公告信息、通过关键词搜索和语义分析等大数据技术,对相关信息进行分类管理,加强对各类系统导出的数据、税源分析系统内数据以及第三方获取数据的核对和审核.通过数据优化整合,实现各类涉税数据的互联互通、逻辑关联和比对分析,最大限度地减少数据误差,确保数据的真实性.