APP下载

数据库ETL在房产信息系统数据迁移整合中的应用

2015-02-23吴国华

地球 2015年10期
关键词:关联数据库信息

■吴国华

(福州市勘测院 福建福州 350108)

数据库ETL在房产信息系统数据迁移整合中的应用

■吴国华

(福州市勘测院 福建福州 350108)

本文通过对房产信息系统中多源异构数据现状分析,接合数据库ETL,提出了借助ETL工具FME Suite,通过对多种格式数据的提取、转换,在转换过程中重新构造数据以及属性的挂接,从而实现数据无损转换、迁移。[关键词]数据库ETL无损迁移图属合一

1 引言

房地产管理信息化是我国当前数字城市建设的一项重要内容,房地产管理信息化的发展与我国数字城市的发展密切相关。数字城市的发展,为房地产管理信息化发展奠定了良好的基础,一大批数字城市基础设施可以为房地产管理信息化所直接使用。数字城市的建设也需要房地产信息化的发展和支持,因此房地产管理信息化是数字城市建设不可缺少的重要组成部分。为推动福州市房产信息化的发展,实现房地产业务审批环节图形信息、权属信息、档案信息一体化管理和“以图管房、以图管证、以图搜房、以图发布”的目标。福州市房屋登记中心在信息化建设过程中特别强调了 “数据先行”的原则,以测绘图形数据和产权产籍数据整理为先导,对历史各分散数据库中分布的异构数据进行整理,利用数据库ETL技术构建全市统一房产数据库。

2 现状分析

福州市房屋登记中心原系统是基于空间库、档案库、登记库搭建的,由于系统是陆续建设起来的,因此系统间缺乏统一的规划,各系统相对独立且数据格式不一,致使管理系统不仅数据准确性无法得到保证,也无法在系统内形成统一的信息采集、上报机制、数据共享等,严重影响到业务的办理效率与数据质量。

而房产测绘与房产GIS、MIS一体化集成是房地产行业现在和将来的发展趋势,用空间数据库技术正确存储和表达测绘数据成果,以精准的测绘成果关联各管理系统房产业务数据,是真正建立以图管房、图属合一的房产GIS系统的意义所在。为了实现数据的一体化集成存储管理,就必须完成对原有分散数据库的迁移整合。

3 ETL流程设计

ETL(Extract-Transform-Load的缩写,是数据抽取(Extract)、转换(Transform)、装载(Load)的过程)能够按照统一的规则集成并提高数据的价值,是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。整个数据迁移过程将从原有数据的分析、数据规划与设计、数据迁移主体间关系、数据迁移的技术手段和数据迁移的措施、数据模拟迁移等六个方面对整个迁移过程进行设计。

3.1 原有数据的分析

通过对原有数据的结构和质量分析,可以预估在实际数据迁移的过程中将会遇到的难点问题,并且提前对这些可能出现的难点问题优先和重点解决。

3.2 数据的规划与设计

针对目前数据方面存在的问题,提出新的信息库应包括:基础数据库、从业主体数据库、业务数据库、统计数据库和发布数据库。新的数据库设计将有效避免原来数据的冗余和关联异常问题,为房产测绘与房产GIS、MIS一体化集成提供数据层面的保证,从而为构建图档一体化和以图管房的业务系统奠定基础。

3.3 数据迁移主体间关系

进行数据迁移的主要任务是分析清楚迁移主体间的关系,即原数据库(空间库、档案库、登记库)与目前规划建设的房地产市场信息库之间的关系。根据数据规划与设计思想得出如下对应关系:原空间库与现基础数据库对应;原档案库主要与现业务库和从业主体库对应;原登记库主要与现基础库中房地产权属数据和业务库中的数据对应。

3.4 数据迁移的技术手段

传统的数据转换工具只能支持数据格式级别的转换,难以控制转换过程的细节,因此多数情况下不能达到数据转换迁移的目的;而采用FME平台的SETL(空间数据的ETL),是基于语义转换的GIS互操作无损迁移技术,通过对多种格式空间数据的提取、转换,以及对转换的空间数据进行操作和模型变换及属性的挂接,可从根本上达到对原数据无损转换、迁移。

3.5 数据迁移的措施

由于原数据库和新数据库在设计的结构差异,从原数据库到新数据库数据迁移极具挑战性,一旦措施不当,珍贵的数据资源将面临丢失的危险,要成功地实现数据库数据平滑迁移,需要周密计划、充分准备和安全备份,并按照一定的步骤来完成。

3.6 数据模拟迁移

根据数据迁移方案,建立一个模拟的数据迁移环境,它既能仿真实际环境又不影响实际数据,在数据模拟迁移环境中测试数据迁移的效果。数据模拟迁移前也应按备份策略备份模拟数据,以便数据迁移后能按恢复策略进行恢复测试。根据数据迁移测试方案检测模拟迁移后数据成果和应用软件是否正常,以及数据一致性测试、应用软件执行功能测试、数据备份和恢复测试等。

4 数据迁移实施

根据ETL的流程设计及房产信息数据库的特点,整个数据迁移实施工艺流程分为数据准备、数据抽取、数据清洗、数据过滤、数据处理、数据加载、数据校验等七个主要部分。具体迁移实施流程图如下图。

4.1 数据准备

原数据整理是对空间库、档案库、登记库等进行依据国家统一标准的规范性整理、补齐数据内容的完整性整理和保持与档案同步的一致性整理。并在整理过程中按照国家统一标准及本地需求,建

立结构规范的临时数据库(简称为整理库),将原生产数据转换导入该库。

4.2 数据抽取

根据原数据库接口及系统业务特点,数据抽取按年份以项目为单位进行分批,通过项目关联楼、楼关联户、户关联权属信息和业务流程数据等将对应楼盘所关联的所有属性信息、权属信息,全部提取放入备份数据库。增量数据的抽取采用时间戳方式进行增量抽取,时间戳方式是基于快照比较的变化数据捕获方式,在源表增加一个时间戳字段,在系统变更表数据的时候,同时修改时间戳字段值。当进行增量数据抽取时,通过比较系统时间与时间戳字段的值来决定是否需要抽取数据。

4.3 数据清洗

在数据迁移过程中需对各类数据库做一些必要的清洗操作,即把原先分散在不同环境中各种空间信息和属性信息数据进行规范化、标准化,并去除其中错误数据。针对数据库中数据的重复、错漏等不规范情况,数据清洗的思路以楼盘表为核心展开,通过数据清洗确保数据库中楼盘表的唯一性,并使楼盘表关联的地块、楼和单元合理准确、单元的办证情况没有重复且前后手数据不相互矛盾、房产抵押登记情况与楼盘上状态一致、房产限制条目信息与楼盘上状态一致同时清除各类表垃圾记录、关键字段空值、房产树信息无关联等。

4.4 数据过滤

由于现状数据库存在迁移变更、系统变换、数据统计等原因,使得现状数据库的属性库数据表格存在大量临时表、冗余表,经统计现状库数据表个数达493个,通过与新系统模板对照,把现状库中的属性数据设定过滤条件把表分类为如下三类:

村长知道不能跟他一本正经,反正就是嘻嘻哈哈,说对了就当敲打他,说错了也只当开玩笑打哈哈。动不动找什么镇长书记,我还不晓得你。如今人家还说你呢。你上次去县里找赵书记,说是赵书记还跟你说了话。人家问你,赵书记说什么,你说赵书记叫你滚开些。

与新系统有对照关联关系的属性表;

有参考价值而与新系统无对照关联关系的属性表;

没有使用价值的临时表和统计表等。

然后针对三类数据分别制定相应处理方案,重点迁移与新系统有对照关联关系的属性表数据;把有参考价值而与新系统无对照关联关系的属性表打包迁移到参考数据库;把没有使用价值的临时表和统计表打包迁移到历史数据库。

4.5 数据处理4.5.1数据补录

数据补录主要是对住建部 《房地产市场基础信息数据标准》所要求的以及新系统中需要扩充的业务数据,这些数据多数是非电子格式或非结构数据,或者原系统中已收录但数据结构和格式与需求相差太大无法通过数据整理工具整合,则必须人工补录或补录工具软件转换补录到新系统中。

由于新旧系统数据库的各对应属性表结构及其关联方式各异,因此数据迁移工作的关键就是对新旧系统数据库各对应属性表字段建立一一对照关系,从原数据库到目标库的数据迁移近似于把原数据库属性表各字段重新打乱后关联对照到目标库对应属性表中,同时通过原关联关系重新建立起新的关联关系。

4.5.3 数据融合

数据融合是把多源异构、格式不一的信息通过合适的方法结合起来得到一个更满意的综合信息的过程。原数据包含空间库、档案库、登记库等空间数据和非空间属性数据,通过数据融合把不同的数据整合到统一的框架下。把非空间的属性融合和空间几何位置的融合结合起来进行,在几何位置融合的同时从多种数据源中抽取所需的属性组成新的属性结构,按照语义转换方法对属性值进行转换,从而把各类属性信息与空间楼盘信息建立有机关联。融合后新数据不仅改变了属性结构,也从多个数据集中继承了属性内容。充分利用已有数据,降低成本,实现信息资源的共享,改进多源异构数据的可靠性和可维护性。

4.5.4 数据转换

本项目数据库基础软件平台采用SQL server、转换软件采用基于语义转换技术的空间数据处理软件FME(Feature Manipulate Engineering)Suite。FME优点是不再将数据转换看作是从一种格式到另一种格式的变换,而是将GIS要素同构化并提供组件能够将数据处理为所需的表达方式,在转换过程中重新构造数据及操纵数据。FME所执行的整个数据转换过程都通过语义映射文件来控制,实现了不同空间数据格式(模型)之间的转换,为进行大批量、快速度、高质量、多需求的数据转换迁移提供了高效、可靠的手段和支持。

4.6 数据加载

本项目在数据整理、数据迁移过程中均以数据的稳定性、生产高效合理性、成本节约等多方面综合考虑,采用基于语义转换的GIS互操作数据无损转换迁移技术,将各类异构数据装载到目标数据仓库中去,数据加载方式主要采用如下两种方式进行装载:

基本装载:按照装载的目标表,将转换过的数据输入到目标表中。

追加装载:主要是增量数据的装载采用此种方式。即目标表中已经存在数据,在保存已有数据的基础上增加新数据。当一个输入的数据记录与已经存在的记录重复时,输入记录可能会作为副本增加进去,或者丢弃。

4.7 数据校验

数据校验是为保证数据迁移的一致性、完整性,用一种指定的算法对转换前后的数据进行对比校验的过程。通过对转换前后数据结构和属性进行统计、对比分析,分别校验空间数据的几何位置和非空间数据的属性值在转换前后是否一致、完整,以及各类空间数据和信息数据的拓扑关系和逻辑关系是否正确等。并将目标数据库中各类数据重新组合和关联回迁到临时库与原数据库进行字段校验,确保整个数据迁移过程的质量。

5 结束语

一直以来房屋登记中心各类数据分散在不同业务处室,各自独立管理,投入大量的人员及空间用于日常管理维护。通过数据库ETL技术,把原有属性数据、图形数据以及空间基础地理信息数据整合在统一数据平台内,使得业务信息与图形信息得以实时关联与互访。真正实现了房地产业务审批环节图形信息、权属信息、档案信息一体化管理和“以图管房、以图管证、以图搜房、以图发布”。

数据整理迁移消除了大量冗余数据提高了管理效率,而统一标准的一体化集中管理则大大降低了日常管理维护成本。中心数据库就像一台交换机,有各种数据接口专门负责数据的采集与交换。某一房产应用子系统只需要和这个交换机建立数据通路,就可以和其他应用系统进行数据交换,而不必在两个需要交换的部门之间建立一条单独的数据通道。这样极大地减少了数据交换通道的数量,节省了数据交换的花费。

[1]田扬戈空间数据仓库的ETL研究 武汉大学学报 2007年4月.

[2]蒙迪 (Joy Mundy)Microsoft数据仓库工具箱 (第2版):使用SQL Server 2008 R2和Microsoft BI工具集2012-05.

[3]蒋海琴 房产管理信息系统 科学出版社 2007年4月.

[4]房地产市场基础信息数据标准 中国建筑工业出版社JGJ/T 252-2011.

P208[文献码]B

1000-405X(2015)-10-278-2

猜你喜欢

关联数据库信息
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
奇趣搭配
订阅信息
数据库
智趣
数据库
数据库
数据库
展会信息