税务系统大集中模式下数据利用的思考
2009-07-28张磊
张 磊
摘要:税务系统大集中模式下的数据利用是金税三期建设重点,开展数据利用有必要先弄清一些问题的答案,如数据集中后如何进行数据利用?数据利用和数据集中的关系是什么?数据利用的重点和难点在哪里?文章结合天津地税数据利用案例,从业务、技术和管理三个方面进行了回答。
关键词:大集中;税务系统;数据利用;一般利用;深度利用
中图分类号:D922文献标识码:A 文章编号:1674-1145(2009)17-0132-02
随着税务系统信息化的不断发展,金税三期提出:逐步实现涉税电子数据的集中处理和集中管理。数据集中后如何进行数据利用?数据集中和数据利用有何关系?数据利用的重点和难点又在哪里?这些问题可以从三个方面来解答。
一、业务需求
业务需求是开展数据利用的源动力,大集中模式下的数据利用也不例外。当信息化推进到大集中阶段,税务数据被有效地集中起来,随着数据的积累,开展数据利用的需求自然而然地就会被提上议事日程。数据利用从业务需求上可分两类:一般利用和深度利用。
(一)一般利用
长期以来,税务工作中的数据利用主要是一般利用,固定报表是其常见形式,其特征是基于简单计算的原始税收数据展现和对税收现象的一般描述。但是,在大集中之前,税务数据分散于相互独立的系统之中,要想实现精确的、实时的数据利用,大集中是必然的发展途径。
经过多年建设,天津地税完成了覆盖全市税收征、管、查的“津税”工程,系统和数据由市地税局统一维护。“津税”上线以前,各区县地税局使用的软件不统一,数据统计口径也不尽相同,上线之后,建立了集中的数据仓库系统和综合查询系统,各区县地税局可以使用会统分析、考核报表、“一户式”查询等掌握税收进度和纳税人基本信息,实现对税收数据全面、精确、及时的一般利用。
(二)深度利用
随着时间的推移,业务部门将不满足于对数据的一般利用,管理人员会主动向数据要结果,即在海量数据的基础上,运用管理学、统计学等理论建立数学模型,使用数据挖掘等技术,实现税收预测、纳税评估、稽查选案等深度数据利用。可以说,一般数据利用是深度数据利用的基础和前提,深度数据利用是一般数据利用的发展和提高,一般利用直观形象,是被动业务需求,深度利用则复杂抽象,是主动业务需求。
经过多年的数据积累,天津地税开始尝试对税务数据进行深度利用,提出了房地产一体化管理体系。房地产一体化管理是将税务信息、土地房屋信息、建安项目信息结合,深入研究,发现行业纳税规律,建立一套房地产业税收模型。利用这个模型对全市存量房总体把握,结合土地和房屋交易契税情况,以及行业整体盈利水平和平均税负,对全市房地产行业近期税收和远景税收做出预测。这种数据的深度利用要比一般利用在数据模型应用研究的深度与广度方面都上了一个台阶。
二、技术实现
税务系统大集中是并不是简单的数据叠加,其技术实现需要考虑软硬件等多方面问题,如百G级数据的存储和
查询,大并发下的硬件资源,网络带宽层次不齐时数据上下传输等。数据利用是以大集中为基础,除考虑上述问题外,其还有自身的技术重点。
(一)数据梳理
数据利用的首要工作是数据梳理,也叫数据剖析或数据审计,主要是对数据的结构、内容和关系进行分析,提供数据的质量信息。数据梳理的重要性常常被忽视,可以说它是开展数据利用的基础,数据模型的建立、维度的划分、数据的展现等都应从数据梳理开始。如果没有数据梳理,就谈不上数据的一致性和准确性。
如何进行数据梳理?可以从税务数据的不同来源入手梳理,将其分为纳税人、申报、入库、违法违章、发票、票证、稽查、外部等八大部分,然后与业务逐一对照进行梳理,避免数据遗漏。通过数据梳理,我们就能够全面掌握税务信息,展开全方位数据利用。例如利用从征管、契税、个所税全员申报等系统中采集到的个人收入、房产、车船等方面的信息建立“自然人财产和纳税情况监控”,对个人的收入和纳税情况进行综合评估,实现对个人纳税情况的全面监控。
(二)数据清洗
数据梳理之后需要进行数据清洗,因为税务数据是从多个业务系统中抽取,避免不了数据错误和数据冲突,这些数据显然不是我们想要的,称之为“脏数据”。数据清洗的任务就是过滤那些不符合要求的“脏数据”。
数据清洗是ETL过程的重要组成部分,ETL是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
天津地税选择Informatica ETL工具进行数据清洗。其优点在于Informatica PowerCenter基于纯JAVA开发,可以多平台移植;使用资料库管理维护工具Repository可以进行热切换和团队开发;使用Designer可以进行直观形象的ETL模型设计,并且能够内嵌自定义JAVA程序包;使用Workflow可以方便地对ETL模型实例化,调度调整各模型的运行顺序和运行条件。
(三)数据展现
数据利用的最终结果要通过前端展现出来,前端可以简单认为是人机界面,好的展现工具对客户端要求小、能够快速开发、便于维护、可形象直观地展现数据利用结果。天津地税采用BOXIR2(BusinessObjects XI Release II)作为数据利用的展现工具。
BO是集查询、报表和OLAP技术为一身的解决方案,它使用独特的语义层和动态微立方技术来表示数据库中的多维数据,提供钻取等多维分析技术,支持多种数据库,具有较好的查询和报表功能。在新版的BOXI中提供多种数据分析工具,有从BO6.5继承的客户端报表开发工具Desktopintelligence,有基于JAVA重新开发的Web浏览器展现工具Webintelligence和Olapintelligence,以及移植简单、开发灵活的水晶报表和水晶易表。最重要的是,BOXI完全支持JAVA和.NET技术,提供丰富的API接口和SDK开发包,方便技术人员二次开发;支持LDAP统一权限管理,能够实现单点登录,将征收管理系统和综合查询系统组成一个整体。
(四)数据指标化
数据利用中如何提高查询效率和正确反映历史数据是一个难点,数据指标化可以解决这两个问题。税务统计报表内容复杂,涉及数据量较大,在传统报表设计和查询的方式下,一个复杂报表通常需要将近一两个小时才能完成计算及展现。建立指标是当前统计行业常用的分析方式,也是国税总局近年来一直在推广和要求的。
数据指标化就是根据现有报表的内容进行分析,提炼而成,将报表内容分解成多个指标,定时进行指标加工、数据计算。在查看报表时调用按要求的格式生成好了的数据,极大地提高了查询速度。指标建立除了在报表速度的提高上有明显效果,同时也可以避免当前数据变动对历史分析的影响,例如2008年希望看一下2007年2月份时的“待征税收期末余额”,只要从指标里查找年月为200702的待征税收期末余额数据即可,不需要重新计算,保证了数据的连贯和一致。
(五)数据回放
大集中模式下的查询系统要同时支持多部门的数据利用需求,这就容易造成“万向查询”,系统响应慢、查询时间长。一个办法是提高硬件设备性能、优化查询语句、增加网络带宽,另一个办法就是进行数据回放。数据回放简单来说就是把集中管理的税务数据按照区县切分,回放到不同的数据库中,各区县地税局只查询本局数据,并且对本局数据有DBA操作权限,对其他区县的数据则没有访问权限,保证敏感数据的安全。
数据回复解决了集中查询速度慢的问题,同时又满足了各区县地税局个性化查询的需求。但是,数据回放不
同于大集中前的分散系统。首先,回放的数据是经过梳理和清洗后的干净数据,能够保证回放对象查询口径的一致;其次,数据回放不包括交易系统,不能代替大集中模式下的征管查系统,而是对其的有益补充。
三、管理机制
数据利用在实际操作中除了要重视业务需求和技术研究外,还需要建立相应的管理机制,向管理要效率,以机制促管理。
(一)制度建设
数据利用的开展要配合相应的制度建设,用信息化的手段规范业务流程,为数据的良好应用提供政策支持。制度建设至关重要,关系到数据利用的成败。试想一下,如果“脏数据”没人处理,怎能使用这些数据分析出正确的结果。若开展数据回放,各区县地税局对数据就有了自行利用的权利,哪些利用要统一进行,避免资源浪费,哪些可以由各局发挥主观能动性,这涉及权力的再分配,需要制度来保障。
(二)风险控制
数据利用特别是数据的深度利用作为高层的信息化应用,除了给我们带来巨大的管理水平提升之外,也存在着的较大的实施和应用风险。税务数据利用作为税务信息化的新兴热点,还处在起步阶段,其实施和应用风险不容忽视。摸着石头过河,充分估计难点和风险是目前较好的实施策略。
(三)人才培养
数据利用是对基础数据的综合利用,离不开人才培养。数据利用就像一篇优美的文章,写出它首先要理解手中的数据,数据梳理就是给我们了一本字典;其次掌握手中的纸和笔,了解建模的各种理论和工具;最后由既懂业务又懂技术的人员完成数据利用。数据利用需要的是能够把技术和业务结合在一起的复合型人才,人才培养就显得格外重要。
四、结语
综上所述,税务系统大集中模式下的数据利用是当前值得深入探讨的课题,数据利用是一个系统工程,需要多部门多学科的合作,深入开展数据利用工作可以促进税收规范,提高税收效率,反映税收趋势,为我国税收政策提供正确的依据。
参考文献
[1]王海森.关于税收数据深度分析应用的思考[期刊论文][J].现代经济信息(学术版),2007,(4).
[2]高玉虎,向育清,马铁柱.对加强税收数据深度利用的研究与探讨[期刊论文][J].现代经济信息(学术版),2008,(8).