浅谈高校信息化建设中的数据清洗与数据整合问题
2019-07-12陈军民
陈军民
(江西外语外贸职业学院,江西 南昌 330099)
一、高校信息化建设的现状
众所周知,近几年高校信息化建设发展迅速,业务部门根据各自的业务需求建立了很多信息管理系统,为业务部门的工作提供了很大的便捷,如科研系统、教务系统、学工系统等。但这些信息管理系统的数据是运行在各自的数据库管理平台上,有着各自的表格定义、字段定义,和各自的存储结构。这些信息管理系统形成了一个个的“信息孤岛”。
“信息孤岛”无法适应高校发展的需要。决策层领导不能及时获取全校数据,做出正确的决策;职能部门无法及时掌握本部门员工的科研、教学、带班等全面的信息;教师与学生,也不能通过统一的门户网站,一键登录查询自己的各方面信息,或更新自己的信息。
“信息孤岛”是高校信息化建设进一步发展的瓶颈。现有的信息管理系统数据由于运行在各自的数据管理平台上,数据存储结构不同,表格定义、字段定义等也不相同,数据不能相互共享,同时由于更新的时间点也不一样,同一数据往往还存在出入,降低了数据的信任度。涉及到各部门的数据,还是需要用传统的方法,经常性地需要重复收集数据,按要求制作各种表格,整天忙于这些“杂事”,增加基层班主任、办公干事等工作人员的工作量,增加学校的人力成本以致大家都以“表哥表妹”进行互称调侃。办工流程也没有优化,数据的审核,提交还是利用传统方法,需要数据录入口人员签名,部门盖章,领导签字,过程繁琐,没有发挥信息化建设的应有作用。
解决“信息孤岛”的唯一途径就是建立校级层面的,能提供给全校共享的数据中心。只有这样,决策层领导才能通过统一数据入口,及时获取校级层面的统计数据,做出正确地决策;职业部门通过统一的数据入口查询本部门员工的完整信息;教师与学生通过一键登录查看或更新自己的信息。只有这样,才能保证数据的一致性,提高数据的信任度,职业部门的数据才能共享,不需要重复收集数据,降低了学校的人力成本。
数据中心的建立,应基于现有的信息管理系统和其中的数据。一方面保护现有信息化建设的投资,另一方面,充分利用现有的数据。调研学校现有信息管理系统的数据存储平台,分析数据的存储结构、表格定义、字段定义,对现有数据进行清洗与整合,提供给学校层面的门户信息管理系统及后续可能加入的部门信息管理系统共享数据。数据中心的建立,还应该基于全校的视角,应对整个学校的办工流程进行优化,改变传统的数据收集,处理、分发,审核、签名等办公模式,实现“网上办公”与“无纸化办公”。
二、数据清洗与数据整合技术概述
目前所流行的数据清洗与整合的方法是通过数据联邦技术进行分布式数据访问,将企事业单位中各部门业务系统需要的数据抽取到对业务系统更方便、更集中的数据端进行统一存储和管理。分布式数据访问所使用的技术是企业信息集成EII(Enterprise Information Integration),数据交换使用的则是ETL(Extract Transform Load)技术,ETL是构建数据仓库的重要组成部分,EII 是数据联邦技术将大量的异构数据源作为一个单一的、统一的数据视图的方式实时的提供给一个用户或系统。在目前的高校信息自动化系统建设的中,ETL和EII技术通常是放到一起的,这样才能更好的适应高校的信息化建设数据集成要求。
信息化建设中的数据清洗与整合主要是为了实现数据共享的目的,建立校级层面共享的数据中心,可以用于智能统计决策、业务数据的管理以及基于数据清洗与整合平台的建设,但是这需要数据清洗与整合工具与WebSphereMQ服务、WebServices服务等进行对接,这样才有利于数据的共享和实时传输。
目前国内外已经有不少关于数据清洗与整合方面的设计方案,许多数据库生产厂家也发布了针对异构数据清洗与整合的解决方案。如 IBM的 DB2联 邦 系 统、Sybase 的 DI(Data Integration)、BEA的DSP(Data Service Platform),SQL Server 的 Integration Services等 都有各自的数据集成特点。许多生产数据库管理软件的供应商都提供数据抽取工具,这些数据清洗与整合工具在一定程度上实现了数据的清洗与整合。但这些数据清洗与整合工具大多数都不能实现数据集成的自动化,开发人员还需利用这些集成工具建立相应的管理控制程序。
还有其他公司提供的产品,比如IBM公司的WebSphere DataStagel就是一套有比较完善的解决方案的系统。DataStage 提供了图形框架,可以使用该框架通过可视化图形界面来设计和运行用于数据清洗与整合的任务,可以从多个不同平台的数据库中抽取需要的数据,进行数据清洗和数据转换,再加载到各个应用系统数据库里面。由于每一步操作都是在可视化图形界面上进行的,所以使用很广,做设计人员的技术要求不需要太高就可以完成。DataStage支持高度复杂的数据规则和海量数据的清洗与转换,以及大量的预先构建好的数据集成任务,如排序、合并、连接、过滤等,以便于高效地访问用于清洗与转换的关系数据库。
在数据清洗与整合方面,国内也有不少研究比较完善的成果,例如康赛信息技术有限公司的DCI数据交换平台,集数据抽取、清洗、转换及加载于一体,通过标准化各个业务系统产生的数据,向数据中心/仓库提供可靠的数据,实现部门内的应用和跨部门的应用的业务数据间单向整合、双向整合和多级数据共享,进而为实现商业智能、数据挖掘、应用集成、正确决策分析等提供必要的数据支撑。除了支持基础的数据清洗整合工作以外,还结合实际的问题做了大量的扩展,提供了数据整合管理系统(DCI-MS)、智能调度、可视化设计等辅助系统,以支持业务化的数据监控和管理、数据源管理、多引擎管理、问题数据管理和可视化业务建模等。
在数据集成的实际应用上,某大学的信息中心在学校的教育教学信息化建设中使用数据联邦技术建立了数据集成机制,通过数据仓库对各个业务系统之间的数据清洗与整合进行统一的管理和监控。数据交换平台会根据学校各部门的数据存储结构,建立一个共享数据中心,将学校基础数据和业务数据的数据存储标准进行有效的管理,再通过有效的机制及时共享到全校各业务系统中。对各业务系统中数据标准不一致的情况,要经过数据的清洗与转换,达到数据中心的规范要求才能进行数据通信,实时的共享给各个需要的业务系统里去,彻底解决高校的“信息孤岛”问题。
在数据清洗与数据整合中,有比较成熟的开发技术与工具软件和可借鉴的其它高校的解决方案。但数据清洗与数据整合是一个系统工程,每个高校现有的数据库管理平台不尽相同,面对的办公流程不尽相同,利用数据的办公流程不尽相同。本项目以江西外语外贸职业学院为例,在现有业务部门的数据管理系统基础上,面对学校的实际问题,研究数据清洗与整合的技术方案与业务优化问题,开发适合本校共享的数据中心。
三、高校信息化建设的技术路线
江西外语外贸职业学院的信息化建设发展迅速,现有科研系统、学工系统、财务系统、教务系统、图书系统等多个信息管理系统,但这些信息管理系统的数据管理平台各不相同,有SQL Server,Oracle,MySql等数据库系统,表格的定义,字段的含义,字段等各不相同。为了学校的长远发展,迫切需要对现有的数据管理系统的数据进行清洗与整合,建立一个全校能够共享的数据中心。
为了项目的顺利实施,须做好一些前期工作,明确研究内容,研究目标,需要解决的关键问题,然后制定技术路线。
(一)研究内容
1.研究学校现有业务系统平台的数据结构、表格定义、字段含义,字段长度、数据类型、数据安全机制等;
2.研究抽取现有业务平台数据,对数据进行清洗,对数据进行整合与优化的技术方案;
3.结合学校各职能部门及师生员工近期问题与未来对数据共享的需求,研究学校共享数据中心的数据利用方案等。
(二)研究目标:开发对现有管理系统平台的数据清洗与整合的软件实验性平台,建立学校层面的数据共享中心,提出符合学校实际情况的,切实可行的,适应学校近期与未来长远发展的信息化建设的技术解决方案与数据利用方案,彻底解决学校的“信息孤岛”问题。
(三)需解决的关键问题:
拟解决的关键问题的有三个,第一,在保证数据隐私的情况下,尽可能获取更多的样本数据;第二是数据抽取的访问速度与并发控制问题;第三是数据利用如何符合职能部门及师生员工近期与未来对数据共享的需求。
(四)项目实施技术路线
下面以江西外语外贸职业学院为例,介绍高校信息化建设的技术路线。见图1。
图1 建立校级数据中心数据清洗与数据整合技术路线
四、数据清洗与数据整合实验方案
在上述信息化建设的技术路线中,最关键的就是开发小范围网络数据清洗整合实验平台,开发实验平台应按以下四个步骤进行。
对学校各部门的业务系统及日常办公数据进行调研分析。
确定需要数据清洗的具体范围、确认各系统的业务流程、原系统使用数据库平台及版本,和数据存储格式。推算出需要清洗数据量的多少,需要清洗的数据业务字典表,需要清洗的数据关联关系,需要清洗的数据备份脚本等。
抽取各业务系统数据与日常办公样本数据,对全校数据进行统一管理。
抽取各业务系统与日常办样本数据的数据库数据与文件数据,统一各业务部门的业务标识,制定全校统一的数据标准数据字典,对全校的数据库数据与文件数据进行统一管理。
对现有数据进行清洗。这是项目研究的核心任务,为确保项目顺利进行,分三个小步骤进行。首先应对现有数据进行预清洗,修改错误数据,补齐缺失数据,抛弃重复数据,统一数据格式,删除正态分布异常数据,等。然后对数据进行建模。数据建模采用PowerdeSigner工具,数据模型必须真实反应学校现有业务关系,便于开发人员理解,数据结构精简有效,符合未来高校信息化的发展,同时兼容未来大数据发展,人脸识别数据特殊存储等。最后进行数据清洗。采用Kettle Spoon工具对数据进行清洗,并采用oracle数据库对数据进行存储。ETL开源工具如Kettle是一款开源的ETL工具,纯JAVA编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。在Kettle Spoon工具中编写JAVA代码进行业务控制,并调用Job实现数据的实时清洗。在预算允许的情况下可申请购买第三方数据清洗工具及数据中心工具对数据进行清洗存储。第四,建设统一开放灵活的数据传输接口。
采用企业总线ESB(开源框架Mule ESB,或付费ORACLE ESB等架构进行设计)作为数据传输通讯的开放标准接口。为各业务系统提供标准业务数据,达到数据清洗后保障现有数据的有效性及一致性要求。为今后的系统运营数据有效性提供良好的支撑。
具体实验方案见下图2:
图2 数据清洗与数据整合实验方案
结束语:信息化建设是一个系统工程,它不仅是技术的问题,更是人的问题与管理的问题,且每个单位所面对的情况都各不相同,所以在项目开始之前,必须做好充分的调研,技术上的储备,建立科学的方案。建立校级数据中心可以解决“信息孤岛”所产生的问题。其中的核心技术,就是对现有业务系统的数据进行清洗与整合。