佛山市税源地图大数据展示系统的设计与实现
2017-11-07谢辉荣谢刚生
谢辉荣,钱 佩,谢刚生
(1. 华南农业大学资源环境学院,广东 广州 510642; 2. 广东省国土资源测绘院,广东 广州 510500)
佛山市税源地图大数据展示系统的设计与实现
谢辉荣1,钱 佩2,谢刚生1
(1. 华南农业大学资源环境学院,广东 广州 510642; 2. 广东省国土资源测绘院,广东 广州 510500)
在智慧时空大数据与云平台建设工作中,如何进一步挖掘分析海量空间数据是实现高效应用的一项关键任务。针对佛山市税务机关的业务需求,研究了基于Hadoop框架的大数据技术,结合GIS数据,利用互联网云平台对海量税务数据进行存储、计算、分析的佛山市税源地图大数据展示系统的设计与实现。
智慧城市;大数据;数据挖掘;智慧税务;Hadoop框架
2016年底,国家测绘地理信息局库热西局长在全国测绘地理信息工作报告中指出,我国即将大力推进智慧时空大数据与云平台建设试点,在智慧时空大数据与云平台建设工作中,如何进一步挖掘分析海量空间数据是平台实现高效应用的一项关键任务[1]。经济运行数据是智慧时空大数据的一个重要组成部分,以空间大数据的维度研究经济运行数据的挖掘与分析,能够有效帮助智慧时空大数据与云平台的推广与应用[2]。
税务机关是国家经济运行的关键机构,在大数据分析与应用领域需求极为旺盛[3]。在税务领域,随着市场经济的不断发展,纳税人生产经营的形式呈现多样化,税源分布的领域越来越广泛,流动性和隐蔽性越来越强,对纳税人实施有效监控管理的难度越来越大[4]。在海量税收数据的基础上进一步开发完善基于GIS的税务查询分析辅助系统,利用空间地理信息数据的直观性为税务人员提供便捷的数据分析服务;提高数据利用能力,为以税收风险管理为导向的专业化管理及税源监控提供技术支持和保障,能够有效缓解以上难题。
佛山市税务机关在推进深化国税、地税征管体制改革方面,积极拓展了互联网与大数据的数据应用模式[5],基于空间地理信息数据,结合国税、地税大数据提出了税源地图大数据展示系统的业务需求,以期解决税务征管大数据空间化管理、分析、展示等问题,并将税务数据分析过程与结果以空间思维导向设计和展现。本文在税务信息化与大数据、时空信息基础上,以佛山市为例,通过延伸税务云计算体系,研究了基于空间大数据的税源地图大数据展示系统的设计与实现,构建税务业务、宏观经济分析、战略策划、风险预警、服务转型、管理创新、安防监管等的智慧化应用平台。
1 系统分析
1.1 需求分析
税收数据资源涵盖纳税人的全部涉税数据,包括从登记到注销的整个生命周期内所有生产经营数据信息。由于纳税人的生产经营活动存在明显的区域与时间特征,税务数据与公安、水利、城管等数据都属于非传统GIS领域的强GIS应用数据[6],这一类型数据的应用分析过程对泛在地理信息大数据的依赖日益增长。
随着各地“金税工程”一期、二期、三期的建设与陆续上线运行,税务部门已经建成了多级网络和管理系统,对大多数纳税人实现了统一的信息化管理,形成了海量税务数据,部分地方还通过综合治税平台建设、“网络爬虫”技术等方式,掌握了部分第三方数据[7]。不断拓宽的税务数据信息获取与利用渠道,不断整合的现有涉税数据资源,对提升税收数据利用层次及提高征管质量和效率具有重要意义[8]。
首先,系统应满足日常管理的需要。新一轮征管改革的特征是信息化支撑下的专业化,强化征管基础成为税务管理的重要内容[9]。税收数据的综合利用,对加强税源管理、监督企业按时准确申报、堵塞税收漏洞具有十分重要的推动作用。其次,系统建设需适应税源专业化管理发展的需要。税源专业化管理改革以来,通过税收数据一户式共享促进征管业务事项流程化,在一定程度上缓解了取消管户制征管模式所带来的信息获取渠道减少、征纳信息不对称等问题。最后,系统应能够强化税源监控。大企业之间经济往来的日益频繁,迫切要求税务部门加强重点税源户税收数据资源的分析和开发利用。
基于以上分析内容,系统应实现基本GIS、强化征管、税源专业化、税源数据分析4个层面的建设需求,对税收数据的分析与利用工作展开探索、实践,以满足税源专业化管理改革和税务人员日常征管查询的需求。
1.2 技术框架
系统采用基于J2EE的B/S架构,同时选择了基于J2EE实现的OpenGIS Web服务器规范的GeoServer实现地图数据发布,以及Apache基金会的Hadoop框架实现分布式计算与大数据处理。数据库采用轻量级的MySQL数据库,系统严格遵循SOA(service oriented architecture)面向服务的体系架构及基于OGC的地图服务标准化技术。将所有的地理空间数据处理成遵循OGC规范标准地理数据服务,通过发布网络地图服务(web map service,WMS)、网络地图分块服务(web map tiled service,WMTS)、网络要素服务(web feature service,WFS)、网络覆盖服务(web coverage service,WCS)和网络处理服务(web processing services,WPS)等来实现数据的集成共享[10],保证了系统在保留现有的IT资产、开发效率、异构环境支持、可伸缩性及稳定性等方面的需求。
1.3 数据组织管理方式
佛山市税源地图大数据展示系统拟处理的数据经前期估算,各类数据的总条目超过1亿条,数据总容量已达到TB级,同时数据类型包括相关记录、工作底稿、调查记录、电子信息、会计统计数据、企业纳税信息等各类税务文书及相关文字、数据、图片等,具备明显的海量数据与多源异构数据特征。再进一步考虑系统数据未来3~5年的增长量,这一体量的数据管理与处理方式在传统的数据库+文件系统的管理模式上存在显著的性能瓶颈。因此系统采用了关系型数据库MySQL结合分布式大数据框架Hadoop的组织管理方式。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储[11]。Hadoop框架的最核心设计为HDFS和MapReduce。HDFS为海量数据提供了存储,MapReduce为海量数据提供计算。HDFS存储Hadoop集群中全部存储节点上的文件,有高容错性的特点,普通硬件上就可以部署;通过高吞吐量来访问应用程序的数据。MapReduce是处理大量半结构化数据集合的编程模型;利用MapReduce极强的并行处理大数据集的能力来实现税源数据的快速查询、显示及分析处理[12]。
2 系统设计
2.1 架构设计
税源地图大数据展示系统总体架构由运行支撑层、数据层、管理层、服务接口层、应用层和用户层组成。
运行支撑层主要为系统运行提供软硬件、网络基础环境,其中基础软件包括操作系统、GIS平台、数据库平台、系统软件等;网络指税务内网;硬件设备包括服务器、网络设备、安全设备等计算机设备。
数据层为系统的运行提供数据存储与分布式运算支撑,主要包括基于Hadoop的分布式系统架构,以及公共地理框架数据、专题数据、业务数据和其他支撑数据等。
服务接口层通过企业服务总线来实现,主要包括经济税收数据、支柱行业数据、重点税源数据、区域信息数据等。
应用层即税源地图大数据展示系统,是直接面对用户的应用软件。
用户层是指使用该系统的用户,主要包括3大类,分别是领导、业务办公用户和其他用户,每类用户具有各自不同的特性。系统的架构如图1所示。
图1 系统架构
2.2 功能设计
佛山市税源地图大数据展示系统基于基本GIS、强化征管、税源专业化、税源数据分析4个层面的建设需求,严格遵循先进实用、完整规范、开放易扩充及维护管理友好的建设原则,以税务体系大数据服务为依托,结合国土资源登记发证数据,叠加税务专题数据,对全区域的税收数据进行空间可视化表达,主要设计实现了以下功能模块。
(1) 地图可视化引擎。为涉税数据的时空特征提供了有效的GIS支撑。
(2) 征管数据实时监控模块。强化征管基础,重点支撑监督企业按时准确申报、堵塞税收漏洞。
(3) 税源监管模块。通过对经济税收、重点税源、支柱行业、区域经济等数据的精细化分类管理,有效促进了税源专业化管理,在一定程度上缓解了取消管户制征管模式所带来的信息获取渠道减少、征纳信息不对称等问题。
(4) 分析决策模块。通过实现区域分析、分屏对比、企业清册等功能,对各类重点税源户税收数据资源的分析和开发利用得到了充分加强。
(5) 其他。系统设计了常用功能收藏、地址维护等其他功能,兼顾了系统的可用性与友好度。
3 关键功能实现
3.1 数据存储建设
本系统基于税源数据进行开发,采用分布式架构中基于云计算环境的海量数据组织模型,利用HDFS实现数据的分布式存储[13]。该模型为网络中分布着多个存储站点,存储管理中心站点负责管理虚拟存储空间,映射各个分布式存储站点。中心站点静态地将存储系统划分为N个虚拟磁盘空间(virtual disk space)。虚拟磁盘空间映射到M个分布式的存储站点上(其中M≤N),所有数据文件的直接寻址的路径信息都记录在嵌入式索引文件EIF中,创建索引,索引文件记录与数据的变更同步进行。VDS按照标准化的文件路径来组织管理税源数据,解析来自客户端的服务请求。
由于Hadoop缺失对空间数据计算能力的支持,在空间数据的存储与运算部分,针对税源类数据的空间数据结构相对较为简单,无需考虑高程数据及3D数据结构的特点,系统并未采用PostgreSQL+PostGIS或Oracle Spatial等成熟的GIS数据库解决方案。而是选择了在传统数据库MySQL或直接在文件中存储文本结构的点、线数据,同时在系统中单独开发对应的空间数据运算组件来实现,在基于Hadoop的分布式大数据运算能力的支持下,系统运算性能未受明显影响。存储架构如图2所示。
图2 存储架构
3.2 分析应用
系统的分析应用部分即为税源地图大数据展示部分,是直接面对用户的系统模块。
系统需要用到大量的空间分析展示效果,在电子地图等GIS模块采用ArcGIS API for JavaScript实现相关功能。近年来,在基于B/S架构的GIS开发领域,由于浏览器性能与兼容性的限制,大多系统均采用了基于富互联网应用的Flex或Silverlight技术实现,但无论Flex还是Silverlight都存在必须安装第三方插件、与后台逻辑层无法完全分离及不能良好支持移动互联网的特点。而在不考虑浏览器性能与兼容性的限制的基础上,基于HTML5及JavaScript的前端开发技术能够有效避免富互联网应用的缺点,Esri公司近年来也逐步加强了对ArcGIS API for JavaScript的推广力度[14]。同时为满足系统用户的个性化需求,系统采用了ArcGIS API for JavaScript+JavaScript模板技术的开发模式,避免了常用的ArcGIS JavaScript dojo框架业务功能修改较为复杂的问题,其中JavaScript模板采用了腾讯的artTemplate模板引擎以实现前后端的逻辑分离。
其他分析与展示模块的主要展示效果集中为图表分析统计,系统采用了基于JavaScript的Echarts框架实现,实现了按区域、时间、地址、行业、税源、企业等多种统计、查询方式。不但方便用户根据多种方式查询、统计数据及数据挖掘结果,同时兼顾了系统的兼容性与友好度。
4 功能展示
(1) 征管数据实时监控:对各类税务征管数据进行实时化的情况统计、分析及展示。
(2) 区域分析:基于空间位置的数据统计分析,同时提供表格、地图、统计图3种展现方式。
(3) 分屏对比:对固定时间不同区域的经济税收、支柱行业、重点税源、区域经济等各类数据实现分屏对比。
5 结 语
本文研究的税源地图大数据展示系统,是基于大数据技术结合GIS数据利用互联网云平台对海量税务数据进行存储、计算、分析的空间大数据应用系统,系统能够让经济数据信息自动生成对比分析,提供可视化、客观化的价值信息,实现信息增值[15],能够间接提高业务管理信息化的科学决策水平,增强政府调控宏观经济、驾驭市场变化、应对突发事件、总揽经济全局的能力。
[1] 杜江毅,边馥苓.面向大数据的空间数据挖掘综述[J].地理空间信息,2017,15(1):8-11.
[2] 杨丽娜,邵静,彭玲,等.面向智慧城市数据管理和多维决策的时空数据仓库建设[J].测绘科学,2014,39(8):45-49.
[3] 彭骥鸣,曹永旭,韩晓琴.大数据时代税源专业化管理面临的机遇与挑战[J].税收经济研究,2013(6):21-24.
[4] 任东飚,费铭海,袁明昌.税收数据在大数据中的利用探析[J].税务研究,2015(10):25-27.
[5] 新华网.广东深化国地税征管体制改革中的“工匠精神”[EB/OL].(2016-09-27)[2017-02-23].http:∥www.chinatax.gov.cn/n810219/n810724/c2276675/content.html.
[6] 季顺海,武俊红.市县级智慧城市时空信息云平台建设方案研究与应用——以智慧大丰时空信息云平台建设为例[J].测绘通报,2016(6):113-116.
[7] 王向东,王文汇,王再堂,等.大数据时代下我国税收征管模式转型的机遇与挑战[J].当代经济研究,2014(8):92-96.
[8] 张建光,朱建明,张翔.基于云计算的税务信息化建设模式探讨[J].税务研究,2013(11):59-61.
[9] 孙开,沈昱池.大数据——构建现代税收征管体系的推进器[J].税务研究,2015(1):96-99.
[10] 于艳超,许捍卫.基于OGC规范的WebGIS开源平台研究[J].测绘与空间地理信息,2015,38(4):56-58.
[11] 朱月琴,谭永杰,张建通,等.基于Hadoop的地质大数据融合与挖掘技术框架[J].测绘学报,2015,44(S0):152-159.
[12] 刘云峰,李发红,曹广强. Hadoop 框架下海量影像数据库管理系统的研究与实现[J].测绘通报,2016(12): 74-76.
[13] 王凯,曹建成,王乃生,等.Hadoop 支持下的地理信息大数据处理技术初探[J].测绘通报,2015(10): 114-117.
[14] 刘光,曾敬文,曾庆丰.Web GIS从基础到开发实践(基于ArcGIS API for JavaScript)[M].北京:清华大学出版社,2015.
[15] 张珣,于重重,张小虎,等. 利用经济普查数据建设商业地理信息系统——以北京市为例[J].测绘通报,2016(6): 41-45.
DesignandDevelopmentofFoshanBigDataMapSystemforTaxSourceData
XIE Huirong1,QIAN Pei2,XIE Gangsheng1
(1. College of Natural Resources and Environment, South China Agricultural University, Guangzhou 510642, China; 2. Surveying and Mapping Institute, Lands and Resource Department of Guangdong Province, Guangzhou 510500, China)
It is an important mission that how to mine the big geography data to build smart cloud platform for space-time big data.Directed against business requirement for Foshan tax office, this paper makes a study for design and development of Foshan big data map system based on GIS big Data with Hadoop and achieve big tax data’s storage, calculation and analysis using the Internet cloud platform.
smart city; big data; data mining; smart tax;Hadoop framework
谢辉荣,钱佩,谢刚生.佛山市税源地图大数据展示系统的设计与实现[J].测绘通报,2017(10):133-136.
10.13474/j.cnki.11-2246.2017.0331.
2017-02-20;
2017-04-26
国家自然科学基金(41101278)
谢辉荣(1987—),男,硕士生,主要研究方向为测绘地理信息应用开发。E-mail:450282452@qq.com
谢刚生。E-mail: cyberxp@163.com
P208
A
0494-0911(2017)10-0133-04