高校数字校园数据质量管理平台构建研究
2014-03-19崔永锋
刘 伟,崔永锋
(周口师范学院 计算机科学与技术学院,河南 周口466001)
中国高校信息化经过二十多年的建设,现在已经转向基于网络对数字化信息收集、处理、整合、存储、传输和应用的数字校园建设上.数字校园的建设实现了数据集成和应用集成,一定程度上消除了信息孤岛[1].在构建学校数据中心平台的基础上,出现了大量的数据集成化应用,在数据到信息、信息到知识的转化过程中,数据集成的好处日益体现,提高了管理质量和管理效率,对学校发展规划制订及服务提高人才培养质量起到了促进和助推作用.但是,随着数据的不断积累和沉淀,由于集成平台自身BUG、各子系统BUG、操作系统BUG、数据库BUG、开发工具兼容性、用户数据质量等问题的存在,造成部分系统无法与数据平台对接、已对接系统主要业务数据缺失、数据清洗和数据质量管理功能缺失.随着时间的推移,数据质量会持续下降,差之毫厘、谬以千里,直至造成无法挽回的数据灾难.高校信息化建设的核心元素是数据,所有硬件、系统、软件、流程、算法等都是为数据服务的.在系统设计和应用过程中,数据是评判信息系统整体好坏的重要指标[2].所以,在数字化校园建设过程中,构建有效地数据质量管理平台是保障数据校园建设成果的重要举措.
1 数据质量管理平台需求分析
1.1 数据质量管理定义
数据质量管理是指对数据从计划、获取、存储、共享、维护、应用、消亡,生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提升.数据质量管理是循环管理过程,其终极目标是通过可靠的数据,提升数据在使用中的价值[3].
1.2 数字校园中数据质量管理平台的需求
数字校园中系统涵盖教学、教师、学生等各类管理系统,部分系统本身可能有一些简单的数据质量管理功能,比如对格式、重复度等进行数据验证等.但数字校园最终要抽取大量数据并形成分析报告用于支撑领导决策,相对于企业数据来说,数字校园的数据涉及面宽泛且抽象,数据链条交叉性强,单个系统简单的数据监管无法保证整个数据链的可靠性.即便个别集成平台集成了大量的数据质量控制措施,但始终摆脱不了既当运动员又当裁判员的尴尬局面.这就迫切需要一个专业的第三方数据质量管理平台对集成平台的数据进行全方位的数据质量监控,通过一些基础规则包对一些常见的、通用的数据质量问题进行监控,对一些重要的、复杂的数据质量问题,则通过定制扩展规则包进行专题监控.监管并发现数字校园存在的各类垃圾数据、错误数据,保证数据的真实、完备;监管数据传输质量及数据一致性,防止数据源缺失,保证数据链的连续性[4].
数字校园的数据管理平台应具有以下功能:
1)数据质量管理信息平台应基于网络平台管理,实现监管信息的网络管理,规范管理数据链的整个流程,实现数据质量的全方位监管.评估数据的准确性、完整性、及时性、一致性、唯一性、规范性、关联性[5].
2)制定统一格式的数据质量管理规则包,实现数据质量管理规则的快速装卸.对诸如数据字段为空、数据字段超出范围、数据字段不在数据字典中等数据质量管理规则包制定统一的格式,保证平台可随意增减规则[6].
3)制定统一格式的数据质量管理执行包,可兼容多种形式(定时执行、立即执行、远程执行、复制执行等)的监管执行.定时执行可按照设计的时间间隔、时间点定时进行数据监测;立即执行可立即启动执行作业进行数据监测;远程执行可通过远程执行接口对远程数据进行数据监测;复制执行可通过数据复制作业将目标数据复制到本地后再进行数据监测[7].
4)平台应具备一个高性能的执行引擎,能快速对执行包进行执行,并产生执行结果数据.
5)平台应拥有一个智能化的分析引擎,对执行结果数据进行智能分析,产生各种消息包.各种消息包通过多元化的消息引擎,产生各种消息格式(站内信息、邮件、短信、平台发布、监管报告等),自动进行消息推送服务.
6)平台应具有数据节点监管功能,对平台的数据节点的连通情况进行统一监管,随时掌握各个数据节点的详细情况.
7)平台应可以对各种数据进行专题监管,主要是平台中的重点数据、垃圾数据、重复数据、错误数据等.
8)平台应具备按照组织机构、工作岗位对数据进行分级、分类进行监管,保证数据的监管者可以第一时间快速地查看监管信息,定位监管数据,修正错误数据[8].
2 数据质量管理平台的构建
2.1 数据质量管理平台框架
数据质量管理平台是在数据集成平台上对数据进行质量监管,由于数字校园中数据集成平台集成了大量的业务子系统,各种业务子系统由不同系统架构、不同数据库类型组成,这就要求数据质量管理平台应支持这些复杂的模型,才能保证实现数据质量的全方位监管.根据数字校园的数据集成平台的特点,搭建对应的数据质量管理平台,平台框架图见图1.数据质量管理平台主要包括数据质量监管规则包、数据质量监管执行包、执行引擎、分析引擎、消息引擎等构件.
图1 数据质量管理平台框架图
2.2 数据质量监管规则包
数据质量管理规则包作为数据质量管理平台最核心的内容,是数据监管质量最直接的体现,制定格式统一、内容丰富的规则包,对实现监管数据类型的任意装卸及所有集成数据全方位监管具有非常重大的意义[6-8].以周口师范学院为例,目前已建成并投入使用的各类业务和管理信息系统,共20个.涵盖教务、学工、人事、劳资、科研、后勤(一卡通)、财务、OA、迎新、图书馆、设备、档案、网络教学、毕业论文等方面.通过数字校园的建设,已在这些管理系统之间,实现了数据集成(数据平台)和应用集成(门户平台和身份认证集成),初步实现了系统间的互联互通,大部分基础数据已经可以通过数据集成平台进行积累和沉淀,并通过数据平台对外共享,通过集成门户进行集中展现.但仍存在一些问题和不足,主要问题有:
(1)部分系统未与数据平台进行数据对接(共涉及9个,其中业务类系统4个:实验室管理、教学档案、毕业论文和网络教学;非业务类系统3个:邮件、网站群和机房;统计类系统2个:工作量和评估教学),数据平台中既采集不到这些系统的数据,也无法为这些系统提供基础数据.
(2)已对接的部分系统,由于业务部门在使用系统时的原因(未使用或仅使用部分功能),导致部分基础性或共享性、交叉分析性质较强的业务类数据缺失(如教务中的课程信息、课程安排、考试、成绩等).这些数据和信息的缺失,导致学校的数据链条不够完整,尤其是关键性信息的缺失,导致数据链断裂为孤立的几段,无法拼接成完整的信息图谱,这对于数据的长期积累是非常不利的.
(3)已对接并能够正常流入数据平台的数据中,由于缺少数据清洗和数据质量的管控,还存在不少的错误数据或流入的数据不够完整(字段信息不完整或在时间上不连续).无论软件系统多么成熟,总会造成或多或少的错误数据,因此,需要不断的数据清洗和数据质量管理,以避免随着时间的推移,造成错误数据的积累和数据质量的下降.
针对以上问题,笔者在制定数据质量管理规则包时,充分考虑对以上问题进行实时监管,并参考其他信息系统集成平台可能出现的各种问题制定适应各种情况的数据质量管理规则包.除了满足当前数据监管需要外,还充分考虑到以后的扩充.
2.3 数据质量管理执行包
如何将制定的各种类型数据质量管理规则包投入使用,使其能够在各种复杂环境下正确地执行,这就需要我们根据不同执行形式,制定各种标准的数据质量管理执行包.主要有立即执行、定时执行、远程执行、复制执行等.
1)立即执行:监管平台在处理立即执行的数据质量管理执行包时,根据执行包的优先级别,立即送入执行引擎对数据监管规则进行执行,多用于数据量较小或监管人需要立即获得监管信息的情况下.
2)定时执行:监管平台根据执行频度、执行时间点定时进行执行,可实现每年某个时间、每季度某个时间、每月某个时间、每周某个时间、每天某个时间、间隔多少小时等时间跨度,并根据系统的负载情况及执行包的优先级别,将执行包放入执行引擎的执行队列,实现执行包的定时执行,多用于需要增量监控或数据量较大需要较长监测时间的情况下.
3)远程执行:集成数据平台的某些子系统对安全、性能要求较高,不允许数据质量管理平台直接进行访问,这就需要通过数据质量管理的远程接口,将监管平台要监管的数据通过接口的方式进行提取,而后再进行分析,多用于保密系统或广域网系统需要开发远程接口情况下.
4)复制执行:对于实时性要求较高的系统,如何直接对系统数据进行数据质量管理,可能会影响到响应系统的实时性,这就需要在系统使用热度较低时,将要监测的数据复制到监测临时库中,数据质量管理平台在临时库中进行各种数据质量管理,虽然会造成数据质量监测与数据集成平台不同步,但也不失为全方位数据监管的一种重要手段.
2.4 数据质量管理各种引擎
为了能将数据质量管理的各种规则包、执行包快速、准确的执行为监管需要的各种消息格式,这就需要完善执行引擎、分析引擎、消息引擎,只有这些引擎能高效智能地工作,才能将各种数据监管结果以各种各样的形式发布到不同的目标渠道,从而实现数据的全方位监管.
2.5 数据节点监管
数据节点即数据质量管理平台要监管的一个物理节点,它可以是一台数据库服务器,也可以是一个应用服务器,还可以是某台数据库服务器的某个事例.通过数据节点监管,可以统筹掌握各个数据节点的详细情况,并实时监控各数据节点的连通情况,为数据质量管理提供数据链路参考.
2.6 专题数据监管及组织监管
每个集成数据平台都有其特殊性,虽然数据量较大但总有一部分数据是比较重要的数据,需要进行优先监管,这就是专题数据监管的重点数据监管.通过重点数据监管,实现数据集成平台重点数据实时监管,防止重点数据由于数据沉积而造成重大决策失误.同样对于容易出现垃圾数据、重复数据、错误数据的数据模块建立相应的专题,并针对相应的专题提供不同数据监管预案,做到没有数据异常监管数据异常,出现数据异常快速启动相应预案快速解决数据异常.对于一个数据集成平台而言,可能涉及成万上亿的数据,如果仅靠监管人员进行数据监管,难免会造成监管缺失及处理延时,这就需要建立按照组织机构、工作岗位进行分级、分类数据监管机制,相应部门的人员仅监管本部门的数据质量,相应岗位的人员仅监管本岗位的数据质量,缩小每个数据质量管理人员的数据范围,扩大数据监管的人群,为数据质量的提高提供有力保障.
3 研究结论
笔者以解决数字校园建设过程中出现的数据质量问题为目的,提出并建立了数据质量管理平台,分析了数据集成平台数据质量问题产生的原因及数据质量管理的必要性,阐述了数据质量管理平台的构建需求、整体框架,对框架中的构件进行了研究.数据质量管理平台的构建可对数据进行科学有效的质量管理和质量控制;通过技术手段实施数据监管,并通过各种模型实现各种监管方式.通过建立全面的数据质量管理平台,对数字校园中数据挖掘提供数据质量保证.
[1]林日.高校数字化校园建设的探索与思考[J].福建教育学院学报,2010(5):123-125.
[2]贾春燕,赵亚萍,程艳旗.高校数字校园数据质量管理研究[J].广西大学学报,2011,36(1):272-275
[3]孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001,38(4):385-395
[4]郭志憋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2081
[5]商广娟.有效的数据质量管理体系——21世纪管理的基石[J].航空标准化与质量,2005(2):18-22.
[6]凌冠华,左锋.高校数字化校园的数据建设和安全管理研究[J].价值工程,2010(29):202-203.
[7]吝春妮.数字化校园中数据中心建设与数据库安全[J].软件导刊,2011,10(4):163-165.
[8]裴茂伟,李可胜.高校数字化校园建设及安全问题研究[J].中州大学学报,2013,30(1):126-128.