浅谈ETL与ODS在不动产数据整合工作运用的新思路
——以不动产数据整合项目为例
2020-02-16赵丽宇赵晓明
张 涵,赵丽宇,赵晓明
1.东华理工大学,江西 南昌 330013;2.江西省煤田地质局普查综合大队,江西 南昌 330001
近年来,随着测绘地理信息产业的迅速发展,结合社会发展向智能化、信息化、网络化的发展方向。软件开发商、网络运营商等大都相继的转向地理信息相关平台、数据系统进行开发研究,由于不动产数据整合系统的建设及应用不同于其它的测绘地理信息系统,它包含空间地理位置的平台架设、存量数据的整合、外业测量数据的输入及成图、点线面等多类数据源的属性输入、空间数据的运算、各种分类面积的分项分宗分类分层的数据交换处理与计算出表等,数据源的存储与分层调入等、数据网络化管理并传输到上级更大系统平台等,实现有权级管理的网络信息化的区域登记管理系统,且用于日常常规政务工作中。然而,对以往普通平面地理信息数据库系统建设有较大的不同,原先相对简单的数据变得更复杂,较运算能力、数据校核及准确度、合理性的系统架构支撑更复杂,使人为的逻辑性分析及修改在数据整合过程中有大量的工作,主要分析有:数据库加载缓存量大,数据分析及可变通的运算能力还有提高的空间,数据库建设的平行处理能力要完善并加强。下面简要谈谈用ETL 技术与 ODS 技术在不动产数据整合工作中的应用,以不动产数据整合为例。
1 ETL 过程技术概括
1.1 什么是ETL
ETL(数据处理过程)指的是把项目中不同类的数据经过提取、过滤转换程序之后加载进数据库的过程,运用该技术可以把任务中散乱、标准不统一的数据整合关联在一起。
1.2 ETL 平台的特点
(1)功能强大、处理灵活
ETL 技术具有强大的管理功能的特点,如日志管理、权限管理等功能;ETL 技术还具有丰富的处理组件,这些组件因容易复用具有很强的通用性;ETL 技术还为用户方便控制相关数据的质量具有灵活的规则定制等特点。
(2)便于维护
数据库系统的建立,ETL 是必不可少的一项技术。ETL 技术不仅局限于处理数据的工具,更是数据整合的解决方案。标准化的操作过程,生成了统一的元数据,方便了后期客户的维护。
移动互联网的飞速发展的不断推动,使“数据”时时刻刻在产生,人们正在进入一个“大数据”的时代。“数据”,已经成为一种庞大的资源。在当今社会中,如何从庞大繁杂的数据中生产出对我们可用的信息是我们需要不断研究的课题。但在目前生产生活中,数据依然集成互通度不高,不同类型的数据通常是分布在若干个独立的信息系统中。通过ETL 技术可以增加数据整合的工作,提供开发利用的效率。
以不动产数据整合为例,不动产数据包含了房产、土地、林权等方面庞大的数据,包含有空间的矢量信息以及属性信息,这些数据由于由不同的部门使用不同的信息系统管理,数据类型、数据格式都有所不同,现在需要整合在一起,ETL 技术就是数据库管理的关键的技术。
1.3 ETL 技术可实现的目标
(1)首先能够实现不同数据库内部的数据转换及同一个数据库内部数据的转换。
(2)其次应该可以支持多个框架体系结构中的数据库之间的数据转换。
(3)再者通过工具可将多种结构数据源统一导入一个数据库中。并且数据转换根据需求配置实现复杂数据的计算、查询等。
(4)还可实现数据库内数据的高效精准转换。
2 ODS 技术介绍
2.1 ODS 的简介
ODS 取自Operational Data Store 的缩写,也就是操作型数据存储,它是一种常被用作存储数据的临时区域的数据库。ODS 作为存储业务系统和数据仓库间的过程数据,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据[1]。
有个理发师,理发时总讲些妖魔鬼怪的故事,问他为什么。他说:“我讲这些故事的时候,你的头发就会竖起来,这样我理起发来就容易得多了。”
2.2 ODS 技术的特点
(1)ODS 可以整合多种源中的不同数据,在操作时,可执行业务分析和报告。
(2)在当前使用操作中,可将大部分数据在被转入数据仓库(ETL),并在进行长期存储前只存储在当前操作型数据存储里。
(3)ODS的设计查询对象主要是那些相对简单的少量数据,对最终数据仓库中的大量复杂数据进行查询能力不足。这点与ETL 技术是最大的不同。操作型数据存储存储的是最近的信息,相反,数据仓库存储的是相对永久的信息。
2.3 ODS 技术可实现的目标
(1)ODS 系统中可以实现ETL 模块功能。
(2)支持计算和控制转换单元等更新对象。
(3)保障高质量的数据,并且应用于不同系统中。
3 ETL 与ODS 相互搭配[1]
随着社会信息化建设的快速发展,ODS 技术可用于数据共享平台,还可以根据数据模型进行数据的整合,可提供数据共享,可支撑不同系统中数据的应用为其提供高质量的数据。
普通的数据仓库的应用系统中,由于这些数据存放在不同的地理位置、不同的数据库、不同介质的系统之中,它们的数据来源都很复杂,从这些系统中提取这些数据需要转换才能实现,比如实际操作中数据源和存储目标不能直接连通,数据可能会用文件方式上传上来,这就需要将原始数据先存入临时数据库中。使用ODS 技术用于存放从业务系统直接抽取出来的数据,这些数据的数据结构、数据的逻辑关系上由于都与业务系统基本保持一致,在提取过程中大大减少了数据转化的复杂性,在数据提取时仅仅关注过程接口、数据量大小、抽取方式等方面的问题就可以了。
在ETL 过程技术开发和运维过程中,运维人员需要对发现的公式或处理逻辑有误的地方进行修改,每次修改之后还要再次调用之前一系列的批次数据,如果之前未保留这些时点上的原始数据,而源系统中的部分数据已经发生了变化,很多数据的调用将变得非常困难。所以需将数据快照下来用于和前端结果校验检查。临时区域的数据存储保留了原始数据当时时点的快照,这样便于数据转换后的校验排错和批次操作。
整个数据库完成之前主要是由业务系统来直接支持的大量的报表生成和分析任务,这个过程需要业务系统的运行支持对其产生相当大的压力,使用ODS 技术的数据从多个方面保持了与业务系统的一致,这样由原来的业务系统产生的报表、细节数据的查询也可以在ODS 中进行,从而降低业务系统的查询压力。如果从目标源数据到最终的分析结果的生成,需要花费较长时间进行ETL 转换,那么从ODS 中直接提取数据可以查询分析实时性的数据,两个技术互相结合能够减小系统的运行压力。
4 不动产数据整合工作
4.1 数据整合来源
不动产数据来源主要有不动产审批和交易数据、不动产增量登记数据、不动产存量数据登记、权籍调查数据等[2];不动产测绘对象包括有土地、房屋建筑、海域、林地、草原、矿山、农村土地经营权等。其中基础地理信息数据包括有行政区界限、控制点(点之记、点位、点号)信息、坡度图、等高线图等,房屋信息包括有建筑面积、房屋位置、使用用途等,林地、草原数据包括有位置、面积、界限、等级等,权属数据包括有各种不动产的权属调查信息等[2]。
4.2 不动产数据整合
不动产数据整合工作是指全面清理和整理各类不动产登记历史资料,遵循《不动产登记数据库标准》(试行),在数据整合建库技术规范的指导下,对土地、房产、林权等多方面的存量登记数据进行整合,并且建立他们间的图图和图属关联关系,最终建成支撑全国范围的可运行的不动产登记信息管理基础平台的成果数据库。
由于土地、房产、农业、林业等数据来源不同、数据存储标准不同、数据质量不同,在不动产数据整合工作中存在许多困难。具体困难有:
(1)许多地区城镇地籍调查数据库存在没有及时更新的问题,而且登记数据库和档案数据库没有相关联,造成了数据现势性较差的状况;
(2)很多地方出现房地无法关联,落宗难度大的状况,例如有地无房、有房无地、无房无地等情况增大了实地勘查工作量;由于历史记载的房屋登记比较分散,且位置记录模糊不清,导致了登记信息和空间信息无法关联。
4.3 使用ETL 技术进行数据转换
在ArcGis 软件的扩展模块中,有FME 引擎,FME 就是一种ETL 技术,在FME 模块中对数据进行转换,并且对数据做好质量检查工作,得到不动产登记规定的标准格式[3]。
4.4 数据库建设
为了实现不动产统一登记信息管理平台的建设基础就需要建立一个完整性、科学性、统一标准的数据库系统。有了统一标准的数据库系统,这样才能真正实现数据共享,在全省乃至全国方便的查询检索任何地方的任何不动产的数据。
结合进贤县不动产数据整合工作,其中数据库的建设工作包括有:海量基础数据存储的建设、存储不同结构的数据的建设,数据整合应用、公共服务工作等[3]。
4.5 管理系统的支持
我和队内同事结合不动产确权登记办证的需求开发出这个不动产确权登记办证管理系统,现已申请获得计算机软件著作权登记证书,登记号为2020SR0246512。该管理系统严格按照国家相关行业标准为不动产数据进行整合和管理提供一个解决方案。
具体地说,在不动产数据整合工作中希望通过ODS 技术来完成以下三个目标:
(1) 建立目标区域的不动产统一视图信息,方便后期不动产登记和精确管理;
(2)为实现数据共享平台的作用建立统一的标准,支持跨系统应用,建立整合数据的模型,最后生成不动产标准数据;
(3)解决各数据系统之间数据标准不一致、数据质量差的问题。
在数据整合阶段,使用ETL 技术作为ODS 数据库中的核心技术,能够从系统中提取数据进行转换、映射、处理、加工、加载等程序最后生成ODS 的数据,并将这些运用到不动产数据整合工作中去。
5 结束语
本文简述了ETL 和ODS 技术知识,探讨了不动产确权登记工作中的数据来源、数据整合、数据库建设,以及ETL 技术的使用,进一步说明了基础不动产数据整合的完整性、规范性、统一性。当然,还需要不动产数据整合工作制度以及不动产数据建库标准不断的完善,这样,不动产数据整合建库工作才能更好的完成。