基于数据仓库技术的数据集成在数字化校园中的应用
2016-09-08吴振涛
吴振涛
(青岛远洋船员职业学院图文信息中心,山东 青岛 266071)
基于数据仓库技术的数据集成在数字化校园中的应用
吴振涛
(青岛远洋船员职业学院图文信息中心,山东 青岛266071)
为解决数字化校园建设过程中形成的“信息孤岛”,提出了基于数据仓库技术的数据集成方案。该方案基于数据仓库技术,分析数字化校园中各个业务系统的使用现状和面临的问题,结合学校实际从上到下进行总体规划,构建基于数据仓库技术的数据集成框架,解决了数据集成过程中的实际问题,实现了应用系统资源的共享,发挥了数字化校园的整体协同功能。
数字化校园;数据集成;数据仓库;ETL
数字化校园是以网络为基础,利用先进的信息化手段和工具,实现从环境(教室、设备等)、资源(课件、讲义、图书等)到活动(包括教学、管理、服务、办公等)的全部数字化,构建一个集教学、科研、管理、服务为一体的数字环境,使传统校园在时间和空间上得到延伸,提升传统校园的工作效率,实现教育过程的全面信息化,从而达到提高教学质量、科研和管理水平的目的[1]。在数字化校园的建设过程中,由于各个信息系统建设时期不同,采用的标准规范、技术路线、编程语言等不同,形成了一个个的“信息孤岛”[2]。这些“信息孤岛”造成了资源分散,存储冗余,管理成本高,决策支持弱[3],各职能部门无法进行协同工作。
数据集成,被普遍认为是解决目前“信息孤岛”问题的重要方法[4]。常用的数据集成方式有基于联邦数据库、基于数据仓库和基于中间件[5],其中基于数据仓库技术的数据集成方式在实际应用中被证明是一种快速的、有效的方式。如何有效地利用数据仓库技术进行数据集成,实现数字化校园内各种资源的共享,充分发挥数字化校园的整体效能,成为摆在广大学校面前的一个重要问题。
1 基于数据仓库技术的数据集成概述
数据仓库(DataWarehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策[6]。基于数据仓库技术的数据集成,主要是将分散的、异构的数据源中的数据复制并提取出来[7],消除数据的异构性、分布性和自治性,实现各个系统间的数据共享,并提供集中的、统一的检索服务。
利用数据仓库技术进行数据集成主要实现[8]:
1)控制数据的完整性。
2)保证数据的绝对真实。
3)采用标准的、统一的、唯一的、自描述的数据格式。
4)采用统一的物理组织/存储,多样的逻辑组织形式。
5)实现异构数据的互操作。
6)实现对数据随时随地的获取。
7)实现数据的长期存储、定期更新。
8)实现数据的可视化。
9)提供数据工具等。
2 数字化校园建设现状及需求分析
数字化校园是传统校园的功能在时间和空间上的延伸,涉及学校众多的业务内容。利用数据仓库技术实现数字化校园的数据集成,必须围绕学校的业务实际来开展。本阶段主要通过对学校业务内容的深入分析,了解数字化校园中各个业务系统的现状,进一步明晰数字化校园的业务范围,关注异构系统之间的交互,确定数据集成的集成边界,阐述数据集成的主要需求。
2.1数字化校园建设现状
以Q高校为例,该高校经过多年的数字化校园建设,已经逐步形成了涵盖面比较广、功能比较全面的信息系统,较好地满足了学校内教学、科研、管理、办公、服务等的实际需要。已经上线的信息系统如表1所示。
表1 Q高校信息系统一览表
通过上表可以看出,虽然该校建设了众多的信息系统,功能涵盖了大多数业务范围,但由于采用的技术标准不同,不利于数据的共享,也不利于相关业务的整合,影响了数字化校园中各信息系统协同工作的能力。
2.2数据集成需求
学校完成某项工作往往需要多个部门的协调配合,这就需要多个基于业务的信息系统能够实现数据共享。但在实际应用中,往往存在数据多源头管理、交叉使用的情况,这很容易造成数据的不准确、不一致。为了解决这个问题,提高各个部门协调工作的能力,需要进行整体规划,规范业务流程,进行数据整合,实现资源共享,保证数据的一致性、准确性和实时性。学校需要进行集成的数据主要有:
1)学生信息
学生信息除记录了学生的姓名、身份证号等自然属性外,还记录了学生的学籍、学习、奖惩等情况。这些信息不是来源于一个部门,而是由多个部门在学生的日常管理中联合、动态形成的。这些信息既需要共享,又存在相互制约的关系。比如:学工处要对学生进行奖学金的评定,必须依赖于教务处提供的学生成绩,若教务处对学生成绩提供不及时或不准确,将直接影响学生奖学金的评定。涉及学生信息的系统主要有:教务系统、实训系统、学工系统、收费系统、电子图书馆等。
2)学员信息
学校除了承担学历班学生的教育之外,还承担着社会在职人员的培训。学员信息与学生信息的内容基本相同,但还包括学员在线(或离线)学习的信息等。涉及学员信息的系统主要有:远程培训系统、收费系统等。
3)教师信息
教师在学校的教学、科研、培训、管理中占据主导地位。教师信息除记录教师的自然属性外,还记录了教师的岗位、教学、科研、培训等情况。教师基本信息以人事处提供的数据为主,教务处提供教师的授课情况,培训处提供教师开展培训的情况,研发处提供教师的科研、学术情况等。这些信息提供者众多,无法进行简单地合并,且存在交叉使用的情况。涉及教师信息的系统主要有:人事系统、教务系统、培训系统、科研系统、学报系统、办公系统、邮件系统、电子图书馆等。
4)收费信息
学生(或学员)按照学校制定的收费标准缴纳学费、住宿费、教材费等相关费用。根据学生(或学员)的缴费情况,后勤处进行宿舍的分配,教务处进行教材的发放等。但由于学生缴费时间上的差异容易导致后续部门无法及时为学生提供相应的服务,特别是当出现学生退学情况,更是需要多个部门来进行管理。信息的延迟、不准确严重影响着相关工作的开展。涉及收费信息的系统主要有:收费系统、教务系统、培训系统、学工系统、电子图书馆等。
5)设备信息
资产部门进行仪器、设备等的新增、保管、调拨、报废等,但是要管理好资产,还需要其他部门进行配合。比如:要进行设备的调拨,资产部门必须通过人事部门了解教职工的部门信息等;当科研项目购置新的设备时,科研部门必须向资产部门进行报备;在教学过程中使用大型仪器设备时,教学部门必须向资产部门进行登记等。涉及设备信息的系统主要有:资产系统、科研系统、人事系统、教务系统等。
3 基于数据仓库技术的数据集成应用
学校在多年的数字化校园建设过程中,已经建成了多个支撑不同业务的信息系统。运用数据仓库技术进行数据集成,就是要根据数字化校园的数据集成实际需求,在不改变现有业务系统功能和操作方式的前提下[9],将各个信息系统在数据层联系起来,将数据从业务系统中抽取出来,根据数据仓库的特性面向主题重新进行组合,构建基于数据仓库技术的数据集成框架,实现业务系统间的数据共享,并提供汇总统计和快速查询。本文基于数据仓库技术,设计的数字化校园数据集成框架如图1所示。
图1 基于数据仓库技术的数据集成框架
数据源层包含了当前数字化校园需要集成的各类异构系统中的数据;数据缓冲区用来快速从数据源中获取数据,并进行暂时保存[10];ETL解决数据的抽取、清洗、转换和加载,并根据数据被需要的紧急程度提供基于集成规则的调度[11];共享数据中心以面向主题的方式对数据进行重新整合,向各个业务系统提供数据,并提供统一的查询服务。在运用数据仓库技术进行数据集成的实际应用中,需要重点关注以下几个问题。
3.1建立统一的信息标准
统一的信息标准,是利用数据仓库技术进行数据集成的前提。学校应该根据自身实际,兼顾国家标准、行业标准和市级标准等,严格遵循“一种信息只能有一个信息编码,不同的信息有不同的信息编码”的原则[12],统一代码的类型、结构和编写格式等,提高信息处理的效率,实现信息资源的共享。比如:教师的职工号作为识别教师的唯一标示,其编码规则必须唯一,唯有如此,教师信息在多个信息系统中的共享才会成为可能。
3.2规范对数据流的管理
数据流的规范管理,是利用数据仓库技术进行数据集成的关键。数据流依赖于业务流程,应基于对业务流程的深入分析,明确源数据,确定源数据发生变化后目标数据如何变化[13],并确定数据获取、提供的先后顺序。限于篇幅,文中以教师信息的数据集成进行举例说明。
从图2可以看出,教师信息在多个业务系统中使用和维护,如果不规范数据流,很容易出现同一个信息多个数据源,造成数据的不一致。人事处对教师信息的审核和维护是该流程中的关键节点。为了保证数据的一致性,人事处首先要为教师编制唯一的职工号,作为教师的唯一标识符;为了保证数据的实时性,人事处要及时为教师分配或者变更部门和岗位,唯有这样,其他业务系统才能使用教师的人事信息。其他部门在不同业务系统中及时、准确地维护相应的教师信息也是非常必要的,因为只有这样,人事处才能基于其他业务系统提供的信息,进行下一步的工作。
3.3设计和实施ETL
设计和实施ETL,是利用数据仓库技术进行数据集成的核心。ETL是从一个或多个数据源抽取数据,经过一个或多个转换步骤后,物理的存储到目标环境中[14]。它按照统一的规则集成数据,通过转换来提高数据的价值,负责完成数据从数据源向目标数据转化的过程。ETL的设计和实施是工作量最大的,其工作量约占整个项目的60%~80%[5]。另外,在ETL的实施过程中,除了要按照数据流定制转换外,还要根据实际业务的需要,处理好定时同步和实时同步之间的关系,合理分配数据仓库的资源。
3.4数据库的访问控制
利用数据仓库技术进行数据集成,不管是从业务系统数据库到数据仓库,还是从数据仓库到业务系统数据库,都需要对数据库进行访问,这不可避免的带来极大的安全风险。通过基于角色的访问授权,来实现对数据库的访问控制。这种方式既可以限制数据库的使用者对数据的访问,又可以防止非法活动者的侵入和合法活动者不慎操作产生的破坏[15]。
5 结束语
数据集成[16]不只是一个技术问题,也是一个管理问题,一个数字化校园内各个组织、各个部门协调合作的问题。笔者从学校的管理实际出发,利用数据仓库技术,将数据从业务系统中抽离出来,根据主题重新进行组合,实现业务系统间的数据共享,充分发挥数字化校园的整体协同功能。同时,笔者在文中主要以Q高校进行举例说明,提出的是一种相对通用的数据集成方案,由于各高校的业务流程存在差异,原有系统的底层架构和部署环境不同,具体的集成方案还需要根据各高校实际情况进行针对性的优化。
图2 教师信息数据流
[1]沈培华,王映雪.清华大学数字校园建设与思考[J].管理信息系统,2002(2):18-19.
[2]王欣.数据集成技术若干问题的研究[D].上海:上海交通大学,2010.
[3]石绍应,冯勤群.异构数据集成在数字校园中的应用[J].空军雷达学院学报,2010(1):54-57.
[4]于戈,鲍玉斌.数据仓库工程方法论[M].沈阳:东北大学出版社,2003.
[5]周伟.面向数字校园的异构数据整合的关键技术研究[D].成都:电子科技大学,2011.
[6]W.H.Inmon著 数据仓库(Building the Data Warehouse)[M].王志海,等译.北京:机械工业出版社,2000.
[7]E Malfach.决策支持与数据仓库系统[M].北京:电子工业出版社,2001.
[8]李新,吴立宗.数字黑河的思考与实践2:数据集成[J].地球科学进展,2010(3):306-316.
[9]刘利萍.基于数据仓库技术的智能建筑信息集成应用研究[D].重庆:重庆大学,2007.
[10]Matt Casers,Roland Bouman,Jos van Dongen著 Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案[M].初建军等译.北京:电子工业出版社,2014.
[11]宋杰.面向多类型数据源的数据仓库构建及ETL关键技术的研究[D].沈阳:东北大学,2008.
[12]蒋东兴,许庆红,谢矜,等.高校信息化建设的一体化思路与实践[J].中国教育信息化,2003(12):36-38.
[13]吴青,罗儒国,王权于.面向服务的企业应用集成在数字校园中的应用[J].现代远程教育研究,2012(4):91-96.
[14]Squire C.Data Extraction and Transformation for the Data Warehouse Solutions[C].//Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data. New York:ACM,1995:446-447.
[15]吴溥峰,张玉清.数据库安全综述[J].计算机工程,2006 (12):85-88.
[16]邝泉,赵贝.数据集成技术在智能小区管理平台中的应用[J].电子科技,2014(5):99-102.
Application of data integration based on data warehouse technology in digital campus
WU Zhen-tao
(Library and Information Center,Qingdao Ocean Shipping Mariners College,Qingdao 266071,China)
To solve the“information islands”in the construction of digital campus,we bring forward data integration solution based on data warehouse technology.This solution depends on data warehouse technology and analyzes the application status and existing problems of each system in digital campus.Meanwhile,combined with the status of college,it constructs the data integration framework based on data warehouse technology to solve the practical problems in the process of data integration from top to bottom,to achieve resource sharing,and demonstrate overall coordination function of the digital campus.
digital campus;data integration;data warehouse;ETL
TN919.3;TP311.13
A
1674-6236(2016)09-0028-04
2016-01-25稿件编号:201601235
山东省社科基金项目(11CJY13)
吴振涛(1984—),男,山东潍坊人,政工师。研究方向:信息系统建设,数据库管理,数据集成与数据分析,教育信息化。