大数据背景下院校数据治理的探究和实践
2020-12-24钱涛
钱 涛
(浙江农业商贸职业学院,浙江 绍兴 312000)
1 研究背景
高职院校在教育信息化的发展过程中,基本上都已建成基于三大平台的校园综合信息服务平台,同时平台也集成了教务、科研、OA、一卡通等多个业务系统,积累了体量较大的业务数据、师生行为数据以及访问日志数据等。与此同时也存在数据多头管理,数据多源异构以及数据全生命周期不完整等一系列问题,这些问题已严重制约了高职院校的信息化管理及信息化教学水平的提升,如何对其进行有效的治理进而为师生提供有效的数据服务,是下一阶段高职院校教育信息化发展的方向[1]。
2 高校数据所存在的问题
数字化校园建设的初期阶段,业务系统由相关部门各自牵头建设,缺乏统一管理,使得虽然积累海量数据但无法将它转换为真正的数据资产,主要存在着以下问题:
(1)数据多源异构。由于业务系统由部门分散管理,缺乏全局规划。因早期系统建设通常以业务逻辑为导向,底层数据结构设计不统一,导致系统间数据共享交换的深度、维度和效率都不高。
(2)数据管理缺失。业务系统管理人职责不明确,部分管理人员习惯以纸质或Excel文档的方式进行数据管理,当业务系统升级或相关厂商停止维护后,历史数据无法与新建系统整合,导致学校数据资产的大量流失。
(3)缺乏数据整合能力。校园大数据主要包含结构化和非结构化数据两类。传统的数据中心无法应对海量结构化数据的实时抽取、加工和转换,同时也缺乏对文档、音视频等非结构化数据的数据整合能力。
3 数据治理总体架构
数据治理进程中,将依托大数据、虚拟化技术,构建一个满足高职院校数据发展现状的共享数据平台,对高校数据层面进行全生命周期的管理[2]。由于数据治理不仅是技术问题,还包含着管理属性,因此在治理阶段还需推进数据治理管理体系和数据安全管理体系等制度的建设。数据治理平台总体架构(见图 1)从下而上包括数据来源层、治理层、服务层3个层面。数据治理遵循学校数据字典和信息编码标准,建立统一的数据交换体系,规范数据从采集、处理、交换到综合利用的全过程,实现全校资源数据的有效存储与管理,完成全校范围的数据的统一、集中和共享,为学校提供各种数据应用服务。
图1 数据治理框架
4 高校大数据治理体系构建策略
4.1 高职院校信息标准建设
信息标准在信息化建设中是至关重要的。无论是业务系统还是数据中心平台的上层应用,在业务活动、数据上报、数据统计分析的过程中都需要统一的信息标准来支撑。信息标准在全校范围内为数据库设计提供了类似数据字典的作用,为信息交换、数据共享提供了基础性条件。
我校已启动智慧校园数据治理相关工作,在信息标准建设方面进行了一定研究和探索,秉持“循序渐进,逐步完善”原则,基于国家标准、教育部标准、行业标准进行本院校数据标准的编制,我校信息标准包括系统子集信息标准、信息交互标准、身份认证标准等,其中系统子集信息标准包括数据集和代码集两方面。在数据标准维护工作中,实现通过图形化界面进行数据标准的日常管理,支持对数据标准的历史版本溯源和新版本的发布。
4.2 基于Oracle Rac的数据中心建设
学校内部应用系统需要共享数据的现象非常普遍,建立数据中心不仅能避免各应用系统相互共享数据形成网状结构,同时能够保证对外提供准确、一致的数据。将分散在各部门业务系统的数据集中到数据中心平台统一存放,以师、生角色为主线,提供跨部门的人事、教学、科研、信息服务等综合数据,从而为教职工、学生提供全方位的信息服务,并实现“谁产生、谁维护、谁负责”的权威数据源。
以我校数据中心建设为例,由于我校主要业务系统数据库主要以Oracle 11G为主,出于系统对接的可用性、成熟度方面的考量,集群数据库的解决方案。Oracle RAC[3]是当前比较成熟的数据库集群技术,具有容错性高、并发性好和较强的负载均衡能力。(1)容错性:当集群中某个节点或进程失效时,RAC的容错机制能够将对数据库的访问迁移到其他节点运行。(2)并发性:RAC支持多机并行处理一条或多条SQL指令,在海量数据查询和读写的场景下大大缩短数据查询与处理的时间,且对于用户而言是透明的。(3)负载均衡:处于不同节点的Oracle实例同时访问同一个Oracle数据库, 节点之间通过内部网络共享所有的控制文件、联机日志和数据文件, 实现负载均衡。
通过Oracle RAC双机集群的构建与负载均衡方案的部署,保证了数据中心的高效运行。目前学校校园数据中心已经初步建设完成,并对教务系统、认证平台、一卡通系统、图书系统等多异构业务系统进行一定程度的整合。
4.3 基于Oracle ODI的数据整合
数据集成和共享之前,需要对全校各部门进行初步的流程梳理和业务调研,大致确定学校的数据总体情况之后,通过数据集成工具将分散在各业务系统中的数据抽取出来,进入数据中心数据库,形成整个学校内唯一的、权威的数据集,从而实现数据的统一集成和标准化,解决业务系统间交互数据的问题。
数据集成方式一般有两种。方法1:采用面向服务(SOA)体系架构,封装成WebService 接口,优点是减少业务系统对数据中心的直接访问,降低数据中心整体负载水平,而且由于SOA架构的跨平台的特点,该方式有较好的兼容性。方法2:通过中间库方式,将数据推送至中间表或相应视图,业务系统按需取数据,根据数据库请求生成并返回每条数据资源的语义信息,便于数据库对数据检索的集成、集中搜索与展示,降低数据库中读写数据的获取难度。
我校数据中心采用 ODI(Oracle Data Integrator)工具创建接口,与其他ETL(Extract Transform Load)工具相比,ODI 突出表现为:(1)Oracle ODI支持多种异构数据库, 且当数据源或者目的库非Oracle数据库时,ODI自动生成针对当前数据库的操纵语句。(2)当检测到一个事件发生时将触发相应接口流程,ODI 通过日志记录仅需加载这些变化的数据即可,实现对实时数据的集成。(3)ODI数据抽取的模块接口, 涵盖普通应用所涉及的场景。通过Oracle ODI实现数据I/O接口的配置,采用定时全量采集、实时增量采集、手工数据补录等多种同步方式集成不同存储方式的数据源。若业务系统需要从数据中心进行抽取数据,管理人员根据系统所需要字段设计相关数据库视图,并同步至相应系统的中间库中。
5 结语
经过本次学校层面的数据治理,数据中心已实现与教务管理、一卡通、图书管理、OA等系统在数据层面的整合,将部门级数据上升为校级数据,初步形成学校数据资产。然而,数据治理是一个长远、渐进的过程,需结合自身的现状和需求,明确治理方向,逐步实现对数据资产整合,为学校教学、科研、管理以及持续发展提供有效、精确、权威的数据与信息服务。