基于ETL的校园数据集成技术研究
2013-12-29李军孙蕾王泽芳
摘要:针对目前校园由于缺乏统一的数据规划导致各应用系统数据标准不一致,难以共享使用,出现了一个个的“信息孤岛”的现象,ETL通过建立底层数据交换平台来联系各个异构系统、应用、数据源,实现无缝共享和交换数据的需要。
关键词:ETL;数据集成;数据转换;数据抽取
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)28-6429-02
学校一般具有很多信息管理系统,如教务管理系统、办公管理系统、劳资管理系统、图书管理系统等。这些系统一方面提高了工作效率,另一方面也使数据得到了保存。但是也存在一个很大的问题,那就是数据的不一致,也就是说各个部门都有自已的管理系统,也就是有自已的数据库,系统之间的数据不能及时统一更新。比如说,学生明明在财务管理系统里交了费,但在其它业务系统里还是未缴费状态,必须通过其它手式的方式来完成数据的更新,这样就会造成一个很大的问题就是数据如果不及时更新的话,各个部门的数据就会不一致。
为了更好提高提高学校信息化建设化水平,避免数据的不一致,可以通过数据集成技术来解决,数据集成技术主要是ETL技术,一种是借助ETL工具,一种是SQL方式实现。SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。目前市场上ETL工具计较多,有IBM的DataStage、Informatica 的PowerCenter,Oracle的OWB和ODI、SQLServer2005的SSIS,开源的Kettle,国内的有北京灵蜂的Beeload。
1 ETL技术
1.1 ETL技术介绍
ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,它是用来构建数据仓库,用户首先抽取数据,然后经过清洗和转换,最后加载到数据仓库中去。在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面。
1.2 ETL技术过程
1.2.1数据抽取
首先,做好准备工作。弄清校园里面有多少业务管理系统,各个管理系统的DBMS类型。然后,可以用数据库链接或ODBC的方式建立链接。从数据库中抽取数据一般有全量抽取和增量抽取。
1.2.2 数据转换
这个过程包括了数据清洗和数据转换两个步骤。数据清洗包括检查数据一致性,处理无效值和缺失值等。对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,发给客户,修改以后再进行数据转换。数据转换将不同业务系统的相同类型的数据统一,用一个相同的编码表示。
1.2.3 数据装载
数据装载是指将数据放到数据仓库中去。数据装载有四种装载模式:完全刷新,镜像增量,事件增量,镜像比较。
2 ETL工具介绍
2.1 Kettle
Kettle是国外开源的ETL工具,可以在Window、Unix等系统下运行,目前包括4个产品:Spoon、Pan、CHEF、Kitchen。SPOON 允许你通过图形界面来设计转换过程,PAN 允许你批量运行转换,CHEF 允许你创建任务,KITCHEN 允许你批量设计的任务 。
2.2 DataStage
DataStage能自动对多种数据源的数据抽取、转换和维护,并将数据仓库集成的工具。是一个基于C/S的软件,必须安装服务器和客户端软件,它的所有开发工作都是在一个工程中。在DataStage工具面板上有很多组件。Datastage包含四大部件:Administrator、Manager、Designer、Director。
2.3 PowerCenter
PowerCenter 是Informatica公司开发的ETL工具。此产品可以提供企业部门如XML、网站日志、关系型数据集成。PowerCenter在内存中执行所有的数据抽取转换、整合、装载的功能。
2.4 OWB和ODI
OWB是Oracle 的一个综合工具,它提供对 ETL、数据质量、数据审计,以及数据和元数据的整个生命周期的管理,适用于 Oracle 数据库的 ETL工具,OWB 11g 版包含在每个 Oracle 数据库 11g 版安装中。ODI和OWB一样,都是ETL工具,和OWB相比,它支持异构数据,可以和SOA集成。
2.5 SSIS
SSIS是Microsoft SQL Server 2005 Integration Services的简称。SSIS 的体系结构主要由四部分组成:Integration Services 服务、Integration Services 对象模型、Integration Services 运行时和运行时可执行文件以及封装数据流引擎和数据流组件的数据流任务。
2.6 BeeLoad
Beeload是由北京灵蜂纵横软件有限公司研发的一款ETL工具,可以通过简单直观的图形操作界面,帮助使用者快速定义ETL规则,使数据处理工作变得简单方便。
参考文献:
[1] 王要.BI项目中ETL设计与思考[OB/DL].http://www.cnblogs.com/mybi/archive/2010/09/11/1823819.html,2010-09-11.
[2] 李军,王泽芳.环保产学研信息平台的构建技术[J].商场现代化,2013,19,182-183.