对外经贸大学:高校数据整合实施策略
2014-03-14方丹丹王义韩芹韩霖
文/方丹丹 王义 韩芹 韩霖
对外经贸大学:高校数据整合实施策略
文/方丹丹 王义 韩芹 韩霖
通过建设数据标准、集成中心数据库平台、公共数据库、数据仓库、数据综合应用,来实现各业务系统的数据整合,推进高校教学和管理工作的信息化、规范化和科学化。
经过二十多年的发展,我国各高校信息化建设已经开展并取得较为突出的成果,大部分高校实现了网络课程建设、数字图书馆建设、虚拟实验室建设以及教学、科研、财务、人事、后勤等相关的管理系统建设。但在发展过程中,也出现了诸多问题,如信息化建设前期缺乏整体的、长期的规划,各部门的信息化程度不一致,信息系统所使用的开发语言和数据库各异,导致数据标准不统一,数据共享程度低,信息孤岛现象严重,不但增加了管理难度, 降低了工作效率,而且制约了学校的发展和信息化水平的提高。因此消除信息孤岛、建立信息规范、整合数据与应用,是目前高校信息化建设普遍提出的重点建设目标,在原有信息化建设基础之上,通过完善信息标准和接口规范,实现智能化的数据整合, 以促进与完善各部门管理工作的数字化、规范化和科学化, 推动高校信息化的全面建设。
数据整合需求
经过对高校信息化建设情况的调研,我们发现,各高校的信息化基础建设已经开展并取得较为突出的成果,已经建成了以“人、财、物”为管理核心的业务系统。但由于历史原因和教育行业特殊性,导致各业务系统是在不同时间、不同环境、不同厂商甚至是不同的开发语言以及后台数据库的情况下逐步完成,数据分散、重复、孤立、来源不清是目前各高校的数据现状,而高校业务的开展对数据却有越来越多的需求和依赖。
各业务系统数据共享和交换的需求突出
随着高校IT应用的迅速发展,各种业务系统和数据的不断增加,系统间数据共享和交换的需求愈见突出,如科研、资产、教务、财务等系统都需要人事系统里的教职工基本信息;教务、档案、户籍需要学生一体化系统里的学生信息;人事、资产需要科研系统里的科研相关信息。目前各系统之间交换数据依靠传统的excel表导入导出,不仅操作麻烦且数据准确性、一致性不能保证。
表1以对外经济贸易大学为例,分析了各主要业务系统之间的数据流向。
表1数据显示,对外经济贸易大学的各信息系统间100%的存在数据流动关系,但目前实现数据交互方式90%的是手动数据导入。
基于数据的统计分析和决策支持的需求增多
基于数据的统计分析和决策支持的需求日益增多,目前的信息化现状,不能满足这些需求,如:要统计全校教师的整体情况,包括基本信息、本科教学课时量按年度统计、本科生教学评价按年度和课程统计、研究生教学课时量按年度统计、研究生教学评价按年度和课程统计、参与的项目、课题、论文、著作等的分类统计。目前要得到这些统计数据,需要从多个系统中查数据后手工统计,其中,基本信息来源于人事系统,本科教学课时量和本科生教学评价来源于本科生综合教务系统,研究生教学课时量和研究生教学评价来源于研究生综合教务系统,科研项目、课题、论文和著作等来源于科研系统,而且这些系统的有些数据甚至无法准确统计。纵观我校业务系统,跨系统的综合数据分析是信息化应用的高端,也是难点所在。
表1 各系统的数据流向
数据整合中遇到的问题
数据整合的界定
数据整合不是把学校所有数据都整合到一起,首先要确定的就是哪些数据需要整合,除了考虑目前的业务需求之外,还需要考虑未来的业务需求变化、未来的数据应用的趋势。充分并深度了解学校各业务部门的数据需求、深刻理解高校信息化建设现状和趋势,才能够做到比较准确地界定整合数据。
数据来源千差万别
各业务系统是在不同开发环境和不同的后台数据库下建成的,不仅存在于各业务系统的数据依赖的操作系统、应用系统、数据库管理系统不同,而且数据表结构、数据类型、存储模式都不同。这些差异带来了数据整合的首要问题,必须打破异构性,实现数据间的流通。
数据的不完整性
数据的不完整性是指各业务系统的数据缺失,或者数据的属性值缺失,造成这一现象的原因,一方面是由于系统本身的设计缺陷,另外一方面可能是使用过程中人为造成的数据丢失。
数据的准确性
由于业务系统的设计局限,没有对数据的准确性进行审核,造成某些数据不准确,比如人事系统的职工手机号码,由于没有让职工更新维护的功能,手机号码数据是职工入职时填写的,导致该数据不准确。
数据的不一致
有些数据存在于不同的业务系统中,对数据属性的定义不一致,或者数据的值不一致,比如学校部门的名称,可能在一个系统里,定义的字段类型是char,而另外一个系统里的字段类型是varchar2。而数据值有的是部门全称,有的是部门简称,部门名称变更后,有的进行了更新,有的依然用的是旧的名称。
经费的安排和计划
每一个业务系统都应该制定数据集成的计划,预留数据集成经费,但目前很少有系统会考虑到这部分的安排。尤其是一些使用了很多年的系统,即使是有经费也找不到系统维护人员,给数据整合带来很大的困难。
数据整合方案
数据整合架构设计
数据整合架构以数据集成中心库为中心节点,各业务系统围绕中心节点接入,在业务系统数据到数据集成中心库的集成过程中经过数据集成工具的处理,最后数据集成中心库的数据下发到公共数据库中为全局应用所用。
统一的数据标准
数据标准的建设是高校数字化校园建设的重要内容。有了统一的数据标准,高校在数据建模、信息采集、加工处理、数据交换的过程中有统一的规范,最大限度地实现信息优化管理和资源共享,帮助使用者方便、快捷、规范地建立应用系统的数据结构,满足信息化建设需求。
数据标准是高校管理信息所涉及的业务数据管理标准,数据标准规范了业务数据模式的设计,可以说为高校业务数据“如何存、存什么、存哪儿”提供了详细的规范。具体的建设内容将包括数据的UC(创建/使用)规则、共享数据模型设计、数据共享和交换的标准、数据中心存储的标准、业务系统数据模式的标准等。
建设统一的数据标准不仅需要完整的设计思想,也需要具备完善管理能力的工具作支撑,为高校信息标准的建设提供管理保障。数据标准管理系统即用以帮助高校轻松实现对标准的制定、维护、理解、分享、集成,使得标准具备一定的可管理性。
公共数据库建设
公共数据库即指高校当前各类需整合数据的聚合,是高校公共数据共享云服务平台的核心内容,主要包括:国标以及教育部、信产部等行业标准在内的参照标准模型及数据初始化;公共标准以及满足教学等管理需要的校执行标准模型及数据收集;教职工对象、学生对象、以及领导体制、师资队伍、管理制度、培养体系等相关活动在内的全局数据集模型。
公共数据库建设中,将以人为主题建设公共数据集。定义依据:教育部《教育管理信息化标准》中的涉及的信息、学校业务系统中实际收集到的数据。主要内容包括:教职工数据集 、本专科生数据集、研究生数据集、教学活动-开课课程数据集、教学活动-选课数据集、教学活动-学位申请数据集、科研活动数据集等。
数据集成平台建设
数据集成平台是数字化校园核心技术支撑平台的重要组成部分,是整个系统的信息传输、信息交换总线。通过数据集成平台将各业务系统数据库中需交换的数据自动上传到数据集成中心库中,并按各业务系统的数据需求将数据集成中心库的数据分发到各业务系统,从而实现数据的统一集成和标准化,为提供数据的综合查询、统计分析奠定数据基础。同时,保留各业务系统的原有数据库,又确保了各业务系统的完整性。
数据仓库建设
数据仓库事实上也是一种数据集成技术,建立数据仓库的目的是为了更好的数据利用,它的特长是在数据的检索、统计、分析、预测等方面。其特性是数据单向流动,不支持更新,适合于仅需综合查询、统计报表、数据分析等的应用场合,不能支持各数据源之间的数据互操作的需求。我校通过对业务系统的应用,积累了大量业务数据,通过数据仓库的集成,作为历史信息的归档和备份。在此之上,可以构建高层的BI分析模型,解决用户对于历史数据回溯的要求,保存时间、变更记录等相关信息,并提供复杂报表、关联查询、切片、钻取的多角色、多角度数据展现体系和决策支持服务。
数据综合应用
基于数据中心中的公共数据库、历史数据库与数据仓库,按照学校实际业务需求建设相应的数据综合查询、统计分析、决策支持功能,为学校各类用户提供数据综合应用服务:为师生个人用户提供查询自身相关基本情况;为学院、部门工作人员展示本部门现状信息;为院系领导、校领导决策提供数据决策支持。使学校各类用户都可以对于自身相关的信息情况有一个全面了解,通过其掌握学校整体宏观情况。
数据综合应用服务概况起来主要包括以下两个方面:
1.综合查询类服务
该项应用为教职工、学生和领导的提供针对个人用户的综合信息查询服务,服务内容包括个人信息中心数字档案、个人填表服务,进一步为师生提供丰富的数据服务;
2.统计分析类服务
该项应用实现学校的学生、教师、教学、资产、财务等各业务数据的综合分析,核心内容是提供学校基础情况数据统计,历史数据对比,关键指标项的分析功能。并通过引入其他高校的数据进行数据的横向比较,了解我校所处的位置和排名,以及自身的不足和优势,为学校的战略调整和规划提供有力的数据支撑。
数据整合关键技术
数据整合包括数据清洗和数据同步两个主要方面,其中数据清洗可以根据情况在数据中心端或者业务系统端进行,数据同步实现了业务系统与数据中心数据的获取和推送,两者保证了数据的标准性、可用性、完整性和时效性。
数据清洗
图1 数据清洗方法分类
在集成多个数据源的过程中,首先要消解模式冲突、相似重复记录等问题,解决这些问题的过程称为数据清洗过程。数据清洗(Data Cleaning,Data Dleansing 或者Data Scrubbing)的目的是检测数据中存在的错误和不一致,剔除或者改正它们,提高数据的质量。
不完整的、错误的和重复的数据都是数据清洗的对象。其中不完整数据是应有信息的缺失。错误数据的产生可能有多种原因,例如:业务系统不够完善,在用户输入后不对数据判断而直接存入数据库,以及数据库存在设计缺陷,对特定数据的存储类型不正确等。重复数据是指对于同一实体,存在多条不同记录,由于这些数据库差异,导致不能正确识别该数据项。
数据清洗的重点是要保证数据的完整性和标准性,所以在算法的设计和使用过程中,对于数据的识别和处理尤为重要,不仅要有识别和处理,还要具有可查可回溯可修复的附加算法和功能模块,便于在使用中进行微调。
数据清洗方法分类如图1所示。
数据同步
在相对独立的信息服务和管理系统中,以及不同的数据库系统中,有不少数据是相关联的甚至是相同的实体存在不同的记录。为了给数据中心提供可靠的数据,在数据清洗的同时,数据同步也是非常重要的部分。稳定、快速、安全的数据同步策略,能够增强数据中心的可扩展性,提高数据中心与各个业务系统数据同步的准确率、安全性和效率。
有多种主流工具可为数据同步提供支持。Oracle的同步产品ODI和Golden Gate工具,支持所有主流数据库操作系统的一对多、多对一、一对一场景,在性能方面也非常卓越,在效率上也能实现亚秒级同步。DB2对于异构复制采用CCD(Consistent Change Data)来实现,其强项是跨系统平台的兼容性以及模式转换,不足之处是CCD表创建和维护比较难,在处理压力大时性能下降。SQL Server的出版者-预订者方案也能支持一对一、一对多和多对一同步,但是实现起来比较复杂,且跨平台能力差,受Windows系统限制。
数据同步主要考虑的是性能,同步策略的设计要针对业务量的变化,使其性能随着业务量的增加不会迅速降低,尤其是在处理多个业务系统与中心库的大量数据时,单位同步过程用时要在指定标准时间范围内。在捕获同步数据的过程中,由于不同数据库中捕获方式各不相同,对其各自单独设计捕获方法势必影响系统的通用性,影响数据同步的性能,所以要充分考虑捕获方式的系统通用性。
3.清洗和同步的结合
数据清洗和数据同步的结合是在数据整合过程中的必然趋势。由于清洗过后的干净数据依然不是按照相同的标准来记录,所以在不同的业务系统与数据中心进行同步时,会产生统一字段的不一致,这种冲突会导致数据中心的库中数据变为“脏数据”,此时则需要进行再次清洗,而更好的办法则是将数据清洗方法应用到数据同步过程中,对不同的业务系统定制特殊的数据清洗和数据同步组合。
对于包含有差异数据的各个业务系统数据库,其数据在到达数据中心数据库是已经变为符合标准的“干净数据”,对于新加入的业务系统,既可以直接按照数据标准来建库,也可以针对建库情况定制数据清洗同步策略。如此,整个数据整合过程变得清晰可控,易于进行调整和扩展。
上述数据整合架构设计模型,通过建设数据标准、集成中心数据库平台、公共数据库、数据仓库、数据综合应用,来实现各业务系统的数据整合。经过集成平台的处理,各业务系统的数据进入到公共数据库,在公共数据库的基础上,开发各类数据应用,通过历史数据库和数据仓库的建设,实现历史数据的归档、备份,并利用积累的数据进行检索、统计、分析、预测。该模型可以实现高校各信息系统的数据整合,推进高校教学和管理工作的信息化、规范化和科学化,提高高校数字化校园建设的水平。
(作者单位为对外经贸大学)