数据中心信息交换平台的研究与设计
2010-10-18王益
王益
(浙江传媒学院 现代教育技术中心,浙江 杭州 310018)
数据中心信息交换平台的研究与设计
王益
(浙江传媒学院 现代教育技术中心,浙江 杭州 310018)
在数字化校园体系结构中,数据中心是支撑大量应用服务的底部基础,一个可靠的信息交换平台,既能解决数据之间互通问题,又能共享教育资源、降低教育运行成本。本文结合浙江传媒学院数字化校园建设的具体实践,在分析数据集成方法的基础上提出了数据中心信息交换平台的建设框架,为实现消除信息孤岛、建立信息与应用规范、集成应用服务提供了一个方案。
数字化校园;数据中心;数据集成
一、数据中心信息交换平台建设背景分析
1.业务系统建设现状
在我校信息化建设过程中,各个部门根据自身的业务需求,分别开发了各自的业务系统,如表所示。这些系统之间拥有各自的数据存储与访问方式,彼此独立,形成了一个个“信息孤岛”。此外,各个系统在建设时没有遵循统一的信息标准与规范,增加了数据之间互通的难度,对于一些基础数据重复建设,不仅浪费了人力、物力,更难以保障数据的权威性、唯一性、完整性和准确性。
表 主要业务系统情况
2.业务系统之间的共享需要
学校在日常事务处理中,往往会综合运用到各个系统中的数据,很多关键的信息存在着密切的联系,有共享的需要,如果能把基础的数据信息共享,可以解决数据不一致的问题。例如:图书借阅系统、财务系统、学工系统、教务系统等都会用到学生的基本信息,各个系统都需要维护一个正确的学生名单,产生了很多重复的录入,也同时增加了数据不统一的可能性。再则,学生基本信息也并不来自于同一部门,同一系统:学生在校期间各个系统,如迎新系统,教务系统,学工系统,离校系统,就业系统都在不断补充、更新学生的基本信息,产生各种变化,如没有一个权威的来源,很难保证数据的统一。正是这些业务系统之间的共享需要对数据中心信息交换平台的建设提出了要求。
二、数据中心信息交换平台建设框架
1.数据集成方法的选择
数据集成又可称为信息集成,用于解决数据的互通问题。数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率,透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。[1]
数据集成的难点主要集中在三个方面:数据源的异构性、分布性和自治性。[2]异构性:被集成的数据源通常是独立开发的,在数据语义、相同语义数据的表达形式、数据源的使用环境上存在着差异。分布性:而且数据源是异地分布的,依赖网络传输数据,存在网络传输的性能和安全性等问题。自治性:各个数据源有很强的自治性,它们可以在不通知集成系统的前提下改变自身的结构和数据。
典型的数据集成方法有模式集成法与数据复制法。这两种数据集成法各有优缺点与适用范围。模式集成方法为用户提供了全局数据视图及统一的访问接口,透明度高,但该方法并没实现数据源间的数据交互,用户使用时经常需要访问多个数据源,因此网络依赖性强,执行效率也相对较低。数据复制方法在用户使用某个数据源之前将用户可能用到的其他数据源的数据预先复制过来,用户使用时只需访问某个数据源或少量的几个数据源,这会大大提高系统处理用户请求的效率,但很难保障数据源之间数据的实时一致性。模式集成方法适用于被集成的系统规模大、数据更新频繁、数据实时一致性要求高的情况。数据复制则适用于数据源相对稳定、用户查询模式已知或有限的情况。[3]
如果采用模式集成方式的联邦数据库系统,每个系统都要实现一个与虚拟共享库的接口,要对原系统做相应的修改。同样对于中间件的模式集成需要建立一个全局的模式,需要花费大量的时间,更为重要的是目前现阶段建立数据中心主要目的不是为了数据的查询,而是为了共享数据的收集和交换。所以,单纯的模式集成法不能完全适应数字化校园建设需求的方案。因此,在经过详细的需求调研、分析与综合考虑各种因素后我们选择数据复制法,建立数据中心数据仓库,为今后的应用需求提供实现空间,而对于一些本身业务具有封闭性的系统则使用统一的数据封装格式如XML,通过通讯前置机来实现数据信息的共享。
2.信息交换平台框架
信息交换平台需要提供一个集成平台包括的所有数据集成的功能:基于数据的、基于事件的和基于服务的。核心交换组件如图所示:
图 数据中心信息交换平台交换组件
设计要点:
(1)保持现有业务系统基本不变,在各业务系统与数据中心之间做接口,完成对接,实现抽取与推送数据的目的,节约成本。
(2)根据实际应用的需求,数据交换采用数据库级交换与应用级数据交换相结合的方式来应对不同的数据交换要求。数据库级数据交换比较适合于数据集实时要求高数据量不大的数据交换,如学籍异动、成绩修改等类型数据交换提供数据的业务系统通过CDC(Change Data Capture)动态数据捕获机制,每次只捕获、集成有变化部分的数据,从而减轻数据中心平台网络传输及系统处理的负担。应用级数据交换比较适合于数据实时性要求不是很高但数据量比较大的数据交换。
(3)坚持信息共享这一基本原则,以师、生角色为主线,将分散在各部门业务系统的基础数据集中到数据中心统一存放,提供跨部门立体式的人事、教学、科研、公共资产等综合数据,从而为教工、学生提供全方位的信息服务。
(4)保证中心数据库数据的权威性,及时更新与同步各业务系统数据。
(5)虽然目前现阶段建立数据中心的主要目的不是为了数据查询,而是为了共享数据的收集和交换,但也需要提供良好的数据环境,为将来更高层次的决策和应用提供数据准备。
(6)建立统一的信息标准,保证信息的交流和共享。
三、结束语
数据中心信息交换平台是数字化校园核心技术支撑平台的重要组成部分,它保留了原有业务系统的数据库,实现了异构数据库之间的信息交换,推进了数据的集中和共享,解决了数字化校园建设中信息孤岛问题,为实现应用集成奠定基础,并为数据分析和挖掘提供了可能。此外,为了使信息能有序流通,还需制定全校性的信息编码标准,使学校的所有信息能够实时的互连互通,消除业务部门之间的数据冗余,避免多部门的重复劳动,节约人力成本,保证数据的标准化存储。
[1]陈跃国,王京春.数据集成综述[J].计算机科学,2004,31(5):48-51.
[2]C.Convey,O.Karpenko,N.Tatbul.Data Integration Services[EB/OL].http://cs.brown.edu/courses/cs227/archives/2001/groups/dataint/first_draft_Apr16/chapter.pdf,2010-07-07.
(编辑:杨馥红)
TP274
A
1673-8454(2010)21-0016-02