高校数据仓库构建与应用研究
2015-12-02王珊珊孙其伟
王珊珊, 孙其伟, 陈 云
(上海财经大学,上海 200433)
0 引 言
高校信息化经过多年建设,各类管理信息系统已陆续投入使用,并积累了大量业务数据,如何利用这些宝贵的数据资源为高校管理与决策提供服务成为目前高校信息化建设面临的重要研究课题.目前各高校已经不同程度的开展统计分析工作以支撑决策,然而大部分统计报表直接基于业务数据库完成,而并未搭建完整、规范的数据仓库.通过构建企业级数据仓库,可以将不同业务系统的数据进行清洗、转换,有效解决数据不一致、冗余、异构带来的问题;同时基于数据仓库的校务决策支持系统除了满足日常查询与数据统计外,更重要的是可以支持多维度数据交叉分析和数据挖掘分析,更好地支撑学校管理和决策.另外,在性能方面,可以提升报表的运行和访问效率,不会对业务数据库造成任何影响.
1 系统架构
基于数据仓库的校务决策支持系统框架主要包括:数据源层、数据处理层、数据存储层、应用服务层和用户访问层,如图1所示.
图1 高校数据仓库系统架构
(1)数据源层
数据源层是数据仓库系统的数据来源,高校业务涉及的数据源主要分布于人事、学生、教学、科研、财务、资产等核心业务系统.
(2)数据处理层
数据处理层采用统一的ETL调度平台,实现对原始数据抽取、清洗、转换、加载,消除数据间的不一致和冗余,按数据仓库模型结构重新组织数据并加载到数据仓库,形成能够对决策提供支持的多重粒度级的数据仓库标准化数据.
(3)数据存储层
数据存储层主要包括操作数据层(ODS)、基础数据层(EDW)和数据集市层(DM)3层.ODS为操作型数据存储区,主要的层次为贴源层,主要保存了业务系统的原始明细数据,它基本保持业务系统的数据结构不变.EDW为基础数据层,是整个数据仓库的核心,它通过主题域来存储和管理各个业务系统的同一类业务数据,并且保留历史.基础层会进一步进行数据的标准化,建立统一的编码规则,使各个业务系统相同的或相似的业务在数据存储和管理上统一格式.DM为数据仓库的数据集市层,主要针对特定的内容建立维度汇总信息,为不同业务应用建立汇总数据区.
(4)应用服务层
应用服务层是访问数据仓库信息的核心,它接收用户请求访问数据仓库生成各种形式的复杂报表,并以多种方式展现,包括即席查询、预定义报表、多维分析、数据挖掘等.
(5)访问控制层
访问控制层是数据服务与用户之间的接口,该层提供用户对数据仓库数据的浏览、请求、存取等服务,以及数据服务向用户的数据交付.
2 系统建设
2.1 源数据分析
源数据分析是数据仓库建设的第一步,源数据分析充分与否,直接影响数据仓库包含的数据能否满足业务分析需求,以及数据模型设计的合理性.
源数据分析分为表级分析和字段级分析两部分,包含:整理数据库表清单、源表中文名称;统计各表记录数,以了解数据量和使用情况;将数据库表根据业务功能模块和存放的数据内容划分类型,如:基础表、流水表、代码表、参数表等;整理表的业务信息及主要字段,如:主键、外键、主要内容信息整理源系统数据库表之间的依赖关系,确定表之间业务逻辑上的主外健关系;筛选纳入数据仓库的数据表.
上海财经大学对教学、人事、科研、招生、学工(三助、住宿、就业)、学科、财务、资产等系统数据库的源数据表和字段进行了分析,共计3748张表和51749个字段,历时两个月时间完成,为数据仓库建模打下牢固基础.图2为上海财经大学人事系统数据的表级分析结果.
图2 人事系统表级分析结果
2.2 仓库主题分析
对源系统分析后,结合数据特点将我校数据仓库内容规划为公共、机构、人员、教学、科研、资产、财务、事件八大主题,主题间的关系如图3所示.
(1)人员主题:指各类人员数据,包括:人事系统的各类教职员工、教学系统的各类学生以及其他系统的各类人员.人员主题是数据仓库中最基础、最核心的内容,所有的业务活动都是围绕各类人员展开,与其他主题产生紧密联系.
(2)机构主题:指学校的各类组织架构,包括:校区、部门组织结构、研究机构、党团组织等.
(3)公共主题:存放各业务活动中的字典代码,包括:国标、行标、校标及业务字典表.
(4)教学主题:存放教学活动相关实体,包括:培养计划、班级信息、课程、教学活动、排课、选课、排考、考试成绩、各类资格考试、学生毕业论文活动、评教活动、学位毕业审核等相关内容.
(5)科研主题:存放科研业务活动相关实体,包括:科研项目、科研成果和科研考核等内容.
(6)财务主题:主要包括学校各类经费预算、收入、支出数据.
(7)资产主题:存放学校各类资产数据,包括:楼宇、房间、家具、设备、实验仪器等各类学校资产.
图3 数据仓库主题划分
(8)事件主题:指各业务活动的流水表,包括:薪资发放记录、绩效考核活动、专业技术职务聘任活动、奖学金申报活动、科研项目申报活动、宿舍卫生评比等.
2.3 数据建模
数据仓库建模是将不同业务系统的数据加以整合并规范存放,建立清晰的业务数据关系,为理解业务提供便利.
(1)ODS层建模
ODS层模型的表结构基本与业务系统保持一致,数据尽可能保持业务系统数据的原始面貌.为方便ODS的ETL及日常管理,所有表均增加加载日期字段,同时针对不同的业务系统建立不同的数据库用户存放数据.
(2)EDW层建模
EDW层数据模型按照三范式方法构建,对源数据进行重新组织,将数据模型分为当前表和历史表两大类,其中当前表中的数据反映的是业务的最新状态;历史表中的数据反映的是业务的历史情况和状态,可以对历史上每一天的数据进行追溯.上海财经大学采用Erwin来进行EDW层的数据建模,图3为上海财经大学教师基本情况逻辑模型.
(3)DM层建模
DM层采用维度建模方法构建,综合考虑空间和时间因素,存储空间足够的情况下采取更多有效的冗余,以满足性能的需要和访问的效率.在设计上主要采用宽表设计方式,把一个主题尽可能多的维度和指标合并在一起满足多种不同应用需求.
2.4 数据ETL
不同数据存储层之间都需要由ETL完成数据的采集、预处理、清洗转换、装载等步骤,最终完成数据的整个处理流程,形成目标数据.由于整个ETL过程面临复杂的系统环境,错综的数据关系,参差不齐的数据质量,需要有一个健壮的ETL系统统一运行维护整个数据处理过程,包括统一调度管理、统一监控管理、ETL出错管理、ETL回溯处理等.整个ETL过程处于管理控制之中,一旦出现问题可以及时处理,保证ETL过程正常运行.
图4 教师基本情况逻辑模型
(1)ODS层ETL
ODS层的数据范围在源数据分析过程中确定,但是需要把前端应用需求与ODS数据范围进行验证,以确保应用所需的数据都已经从业务系统中抽取出来.ODS层ETL是数据从源系统导入数据缓冲区的预处理过程.由于ODS层的表结构与业务系统基本一致,ETL过程不涉及转换、清洗等工作,本质相当于是将表从业务系统复制到ODS层,所以我们借助ETL工具或脚本完成批量转换.图5是上海财经大学采用Informatica开发的科研系统ODS层的过程.
图5 科研系统ODS层ETL过程
(2)EDW层ETL
EDW层ETL按照映射文档完成ODS层到EDW层的数据抽取、转换、清洗和加载.在加载方式上,根据ODS层是否有业务日期来决定采用增量方式还是全量方式加载.在加载策略上,根据表之间的依赖关系设计加载顺序,一般代码表优先加载,业务实体表根据相互依赖关系设计先后加载顺序.
(3)DM层ETL
DM层ETL开发面向应用的数据,一般采用视图、物化视图和存储过程方式.开发中结合数据的执行效率及复杂程度来选择具体方法,其中对于性能开销小的应用采用视图方式,以及时响应需求变更;对于性能开销较大的应用,采用物理表或物化视图的方式落地,提高数据访问效率.
以上三个步骤共同完成从业务系统源数据到数据仓库应用数据的ETL过程,整个ETL的调度执行需要考虑数据采集时间窗口及各层ETL的加载时间顺序.在开发工具上,可以使用商业工具如Informatica、开源工具Kettle、存储过程等.三种方式都使用过,各有优缺点,图形化工具开发常用功能效率较高,便于管理,但是开发复杂逻辑的ETL不够灵活;存储过程在开发复杂逻辑方面具有优势,执行效率相对较高,也便于维护.
3 应用实例
在数据仓库基础上,上海财经大学实现了较多的多维交叉分析,如论文职称、职务等分布情况,如图6所示,实时反映上海财经大学科研成果的分布结构,可以在一定程度上反应学校科研方面的投入产出,比较不同人员分类的科研成果,发现其中的薄弱环节,为进一步优化科研管理制度提供了科学的决策依据.另外,实现了一些数据挖掘分析,如预测论文的发表趋势等,如图7所示.
上海财经大学将在数据仓库基础上,进一步采用多维分析与数据挖掘技术,在教师绩效薪酬分析、学生学习行为分析、学生生活行为分析以及学生就业分析等方面进行更深层次的知识挖掘,更进一步支撑学校各级管理者决策.
图6 科研论文交叉分布
图7 科研论文趋势预测
4 总 结
本文基于上海财经大学数据仓库研究和建设的实际做法,对数据仓库系统架构、建设过程、相关技术和应用实例进行了介绍,希望通过探索和研究,为高校广泛构建规范化数据仓库提供参考和借鉴意义.基于数据仓库的决策支持系统能够充分发挥数据仓库在跨业务交叉分析、基于历史数据分析等方面的优势,不仅可以支持管理部门和师生员工的综合数据要求,更重要的是为我校管理层制定相关决策提供了数据支撑,通过优化资源配置和管理创新,进而推动学校各项业务的科学发展.
[1] LABERGE R.Practical data warehouse and busines intelligence insights(数据仓库与商务智能最佳实践)[M].祝洪凯,李妹芳.译.北京,机械工业出版社,2012.
[2] 高亮,王珊珊.上海财经大学数据中心与数据仓库系统架构设计说明书[M].上海:上海财经大学,2014.