空间ETL技术在省级标准地址库建设中的应用研究
2013-12-11吴勤书曹全龙
唐 权, 吴勤书,曹全龙
(1.江苏省基础地理信息中心,江苏南京210013;2.江苏省测绘研究所,江苏南京210013)
一、引 言
随着经济社会对地理空间信息的需求日益增加,以及互联网的飞速发展和普及,GIS应用日益丰富,基于地理位置的服务广泛用于交通、医疗、教育、居住、娱乐、公共安全等行业服务中。门牌、道路、单位等地名地址数据作为最常用的社会公共信息资源之一,不仅与人们的日常生活息息相关,而且是政府行政管理、经济建设中不可或缺的基础信息资源,加快建立涵盖各行业各专题数据的标准地址库系统具有广泛的应用前景。在省级标准地址库层面,加快整合分散在市县政府各部门和其他单位的地址信息资源,实现跨部门、跨行业、跨应用系统之间的地址空间信息交换、共享与协同处理已成为当前迫切需求。然而,在实际工作中,各个机构或部门的业务系统大多是相互孤立的,且不同部门业务应用系统采用的GIS软件平台、数据模型、地理表达方式、投影方式等各不相同,导致地址数据存在着各种差异,造成数据共享和一体化管理较为困难[1-2]。
空间ETL技术能实现对空间数据的抽取、转换和装载,本文将其引入到省级标准地址库建设中,实现对各市县部门和其他相关部门地址信息资源的汇集和整合,并以江苏省警务标准地址库建设为例进行应用实践,成功汇集了全省5市警务地理信息平台(PGIS)和其他业务系统中的地址数据,取得了较好的应用效果,证明了基于空间ETL技术实现省级标准地址库的汇集方法的有效性。该方法具有一定的实践借鉴意义,可为其他地区和行业开展类似的标准地址库和空间数据汇集提供一定的科学参考。
二、空间ETL技术与标准地址库
ETL是数据抽取、转换和装载(extract,transformation,loading)的英文简称,是数据仓库获取高质量数据的关键环节,是对分散在各业务系统中的现有数据进行提取、转换、清洗和加载的过程,如图1所示[3]。空间数据主要指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据,空间数据仓库则是面向主题的空间数据集合[4]。空间ETL技术主要实现对空间数据的抽取、转换、装载。标准地址库可以视为空间数据仓库的一种子集。标准地址库主要包括门楼牌位置、地标中心点位置、兴趣点门面中心点或特征点位置和自然地物中心点等各类地址信息。数据属性项由地址描述、地址编码、地址空间位置、地址生命周期、管理属性等属性数据项构成。
图1 ETL实现的主要步骤
空间ETL不仅要处理常规的属性数据,同时还需要处理海量的、多时态的、多尺度的空间数据。因此,除了对属性数据进行处理之外,还需要与其他GIS工具相结合,如地理编码工具、坐标转换工具、尺度转换工具、空间数据拼接与分割工具,对空间数据进行有效的处理[5]。Safe Software FME(feature manipulation engine)是一款强大的空间ETL商业产品,可以支持150多种空间格式数据之间的转换,如图2所示。
图2 空间ETL实现的主要步骤
三、基于空间ETL技术实现省级标准地址库汇聚
空间ETL包括数据抽取、转换和装载3个过程,基于空间ETL实现省级标准地址库汇聚过程具体如图3所示。
1.准备数据源
地址信息是政府行政管理和社会经济建设的基础性信息资源,许多相关业务应用系统均涉及地址数据。这种现象在市县级政府部门中更为普遍,诸多部门建有与地名地址相关的业务系统。如民政局为实现更好地规范和完善地名的管理,建有“数字地名”系统;公安局为了通过门牌号实现可视化的网络门牌管理,并解决门牌、户籍、治安管理中的诸多问题,大力推进标准地址库建设;国土资源局、房屋管理局和规划局等其他GIS相关部门,为方便进行各种管理和应用,同样建有涉及地址信息的业务系统。因此,省级标准地址库的数据源可能来自于不同部门的数据库系统或者其他业务应用系统。
图3 基于空间ETL技术实现省级标准地址库汇聚过程
在开展地址数据整合之前,首先需要对各数据源进行调研分析,了解各数据源的数据格式、内容、相关指标体系、采集手段、时间跨度、数据质量、空间分辨率、坐标系等多源异构性,制订一套标准化整合方案和规划;然后,在严格的质量控制与保证体系下进行空间ETL数据整合改造,确保整合后的地址数据成果正确、规范、有效。
2.空间ETL实现
(1)数据抽取
利用空间ETL实现省级标准地址库汇聚首先是地址数据的抽取。从不同部门、不同的业务系统、不同数据库及数据格式中抽取数据,而且数据不仅指数据库中的标准空间地址数据,可能还涉及非结构化(如文本文件等)的数据,这需要设计多个接口去建立跨平台、跨数据访问、跨数据格式的数据读取接口,实现数据的访问与读取[5]。按照抽取时间的不同,数据ETL过程可以被分为两种类型:全量ETL过程和增量ETL过程。全量ETL过程一般用于数据仓库的初始化,而增量ETL过程则用于地址库的后期增量维护[3]。数据抽取是省级标准地址库汇聚的关键,抽取的数据集一般先保存到数据准备区内,在此进行数据清理、转换和集成,然后再装载到数据仓库中。
(2)数据转换
空间数据转换,也就是建立数据映射以后进行数据转换。数据的映射指的是从源数据到目标数据的映射,空间数据的映射转换就是要建立源数据到目标数据的关系,可以将源数据模型映射到目标数据模型的模式数据作为映射规则保存到映射规则文件中[5]。
空间数据转换步骤包括:
1)实现投影转换,将已抽取的数据源空间投影转换为与标准地址库相一致的投影;
2)实现数据格式化,将来自不同地址数据源的同类数据转换为相同格式;
3)实现数据类型转换,包括将某种数据类型或格式转换为另一种数据类型或格式的较低层次转换;
4)实现数据选择操作,根据选择条件对数据源中的数据进行选择;
5)实现字段抽取,从一个或多个数据源中抽取有用的字段;
6)实现字段合并,包括地址字符串操作、日期和时间算术运算、其他条件语句,以及基本计算等功能。
可以将各转换方法或转换步骤进行模块化设计,便于后续快速构建和重复利用转换模型,以提高转换效率,转换方法包括投影转换、格式转换、列值计算、属性空间化、空间属性化、联合处理和自定义SQL等。
(3)数据清洗
在已抽取的数据中有许多“脏数据”存在,因此,有必要对其进行全面检查及改正,消除数据差错,这一过程就称作数据清洗。数据清洗过程中要删除数据中的错误和不一致的数据,过滤掉不符合要求的数据。这些不符合要求的数据主要有不完整的数据(定位信息丢失、地址属性信息无值),错误的数据(定位信息错误、所填值无效),重复的数据(不同数据源抽取的相似数据、同数据源过程数据或相同数据)三大类。通过数据清洗转换,剔除“脏数据”,使得数据具有良好的正确性和较高的可用性。
(4)数据加载
各种地址数据在完成数据抽取、转换、清洗后,最后按照统一的数据格式进行存储和加载。利用空间数据库管理系统的批装载功能和优化装载技术,将支持整个地址数据装载处理过程。在装载过程中,数据库装载服务支持删除和重建空间索引、空间数据查询等基本功能,以及提供系统日志、错误报告、数据备份与恢复功能。
3.汇集省级标准地址库
经过抽取汇集的省级标准地址库负责最终地址数据的组织和管理。标准地址库中的数据组织是否合理、管理是否规范,对后续地址数据的应用效果起着决定性的作用。经过空间ETL过程形成的地址数据库为后续地址数据的分析和应用提供了统一的数据基础,从而为各政府部门、企事业单位和社会公众提供基础地理信息服务。
四、空间ETL技术在江苏省警务标准地址库建设中的应用实践
空间标准地址库是警用地理信息开展应用的前提和基础,如业务地理数据上图定位、批量比对、空间分析等,都以空间标准地址库为基础。目前,部、省和市三级公安部门已全面建设警务地理信息平台(PGIS),大量的公安业务数据通过标准地址库实现了业务数据的空间化,警用标准地址库已经成为公安业务系统与警用地理信息相互关联的桥梁。在江苏省范围内,已有南京、常州、苏州等市公安局在其警务地理信息平台中建设了市级标准地址库。江苏省公安厅在这些市级标准地址库和省厅已有人口住址信息、机构信息的基础上,通过空间ETL技术,建立各数据源的转换通道,对全省地址进行抽取、转换和加载,汇集形成了省级警务标准地址库,如图4所示。截至目前,江苏省警务标准地址库已经汇聚了南京、常州、苏州、南通、镇江5个市级PGIS平台中的标准地址库数据和省厅人口住址信息、机构信息中的地址数据,总记录数达200万余条,省级标准地址库还在进一步建设完善之中。
在江苏公安日常警务业务应用中,标准地址库取得了较好的应用效果。公安业务信息包括人员住址信息、机构信息、接处警信息、案事件信息等警务基础数据,警务标准地址库基本上覆盖了90%的这些公安业务数据中的空间地址信息。在人员和机构相关业务系统中,可直接引用标准地址库,如在标准地址库中可查找到相应地址,则直接保存该地址编码,而无需手动输入,大大减少了地址信息录入的工作量,增加了地址数据的规范性与准确性,减少了数据冗余。通过与标准地址库进行地址匹配,分析人员可以通过PGIS系统在地图上直接展示出110报警的位置、案事件的发生地,为后续空间分析应用奠定基础。由于所有地址均引用自唯一的警用标准地址库,以此作为相互关联的载体和桥梁,实现了各警务业务平台与地址相关的业务数据的互通,可以消除部门业务之前形成的数据孤岛,进一步拓展业务数据进行地理空间分析的广度和深度。
图4 基于空间ETL技术江苏省级警务标准地址库建设的应用
五、结论与讨论
标准地址库是数字城市建设中的基础工程之一,构建统一的省级标准地址库,在省域范围内整合各行业地址信息资源,基于标准地址使各部门分散的信息资源库建立起有机联系,可为全省各政府部门实现信息共享、交换和整合提供基础信息支撑。由于地址空间数据的多源异构性,导致了其整合工作的复杂性,本文提出的基于空间ETL技术实现省级标准地址库的汇集,较好地解决了地址数据整合过程中由于数据多源异构性而造成的数据难以实现集成的问题,并在江苏省警务标准地址库建设中进行了应用实践。江苏省警务标准地址库的成功建设取得了较好的应用效果,证明了基于空间ETL技术实现省级标准地址库的汇集方法的有效性,具有一定的实践意义,可为其他地区和行业开展类似的标准地址库和空间数据汇集提供一定的科学参考。
采用基于空间ETL汇集省级标准地址库的方法能够解决多源异构空间地址数据抽取、转换、清洗和装载,但是由于空间ETL技术的复杂性和地址数据的多源异构性,如何提高空间地址数据整合效率和数据质量等问题,尚待进一步深入研究。
[1]龚健雅.空间信息资源共享与互操作技术[J].国土资源信息化,2003(5):15-21.
[2]王雅琴,陶华学,高华,等.基于GML的多源异构数据交换模式研究[J].测绘科学,2006,31(2):88-89.
[3]徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20.
[4]田扬戈,边馥苓.空间数据仓库的ETL研究[J].武汉大学学报:信息科学版,2007,32(4):362-365.
[5]陈红华,王志杰,郑加柱,等.基于空间ETL实现VCT数据交换共享[J].测绘科学,2012,37(1):185-186.
[6]刘龙庚,杨东日,李小平.信息产业资源共享与分析平台中ETL技术研究[J].四川大学学报:自然科学版,2012,49(1):85-89.