高校数据治理的现状分析与探索
2020-11-06彭明刘建峰王常华
彭明 刘建峰 王常华
摘 要:数据的价值由数据质量决定,在分析高校数据的过程中,工作人员发现数据不一致、信息孤岛现象严重、数据质量差等问题严重制约着高校信息化的发展,为了提高高校信息化的服务水平,针对这些问题提出构建共享数据平台的方案,该方案利用ODI数据集成工具对分散在各业务系统中的数据进行集成,从而提高数据的质量、降低数据共享的难度、提升信息化服务能力和数据治理水平,促进高校信息化建设的发展。
关键词:数据治理;数据集成;数据质量;信息化建设;共享数据平台
中图分类号:G647;TP311.13 文献标识码:A 文章编号:2096-4706(2020)13-0137-04
Abstract:The value of data is determined by the quality of data. In the process of analyzing university data,the staff found that data inconsistency,serious information island phenomenon,poor data quality and other problems seriously restrict the development of university informatization. In order to improve the service level of university informatization,this paper proposes a scheme of building a shared data platform,which uses ODI data integration tools. In order to improve the quality of data,reduce the difficulty of data sharing,improve the ability of information service and data governance,and promote the development of information construction in colleges and universities.
Keywords:data governance;data integration;data quality;information construction;shared data platform
0 引 言
随着互联网、大数据等信息技术的逐渐发展,将信息技术同行业的发展模式相融合,制定出更加有益于行业发展的新模式,是促进行业可持续发展的重要条件,在此过程中,高校的信息化建设也在走向新的阶段[1]。目前,各高校都积极投身到信息化校园建设中,努力从数字化校园向智慧校园转变,取得了很好的成绩。南京中医药大学也以建设智慧校园为目标,不断向前发展,然而,在这个过程中发现,校内各部门、学院分别管理部门业务数据,导致“信息孤岛”现象严重、数据标准不一致、数据质量差、冗余度高、可用性低、共享难等问题。同时已经建设的信息系统与师生需求错位、重建设、轻需求的现象突出,高价建设的信息系统利用率却很低[2],因此,急需对校内积累的大量数据进行治理,南京中医药大学工作人员通过调研和分析,针对本校的实际情况提出构建共享数据平台的方案,该平台可以集成分散在各业务系统中的数据,统一数据标准,从而提高数据的质量、降低数据共享的难度,同时可以实现校内各部门的业务信息展示、数据中心大屏展示、基本校情展示、数据质量违规量展示、数据异动监测、质量问题分布展示、数据监测查询、代码执行异常检测等工作。
1 数据治理的现状
高校信息化校园建设初期,由于缺乏统一的数据管理标准和规划,尽管做了很多数据集成工作,可是由于数据不规范、不一致、冗余度高、部分数据共享难等原因,导致数据质量低下、可用性不高[3]。因此我们需要针对全校的业务系统建设一个标准的数据管理流程,以此对全校的数据进行全生命周期的管理[4]。
数据治理是将技术同管理相结合对数据进行的持续的标准化工作,是对数据全生命周期的管理[5]。数据治理过程中需要制定数据管理标准、代码标准、流程规范、监督及考核机制、技术工具等方面的内容。数据治理的目标是减少数据的冗余度、提高数据的质量,保障数据的安全性、可用性,实现高校内部分散数据的有效整合和业务部门之间的数据共享,从而更好地发挥数据在信息化建设中的作用[6]。通过研究与分析发现本校数据治理主要存在以下几个问题:
(1)数据不一致。校内师生在科研、教学、生活等方面需要重复填写很多信息,由于一些信息的格式、内容不固定导致在不同系统中产生的信息不一致,影响了数据的流动和整合。
(2)“信息孤岛”现象突出[7]。信息化建设初期,由于缺乏统一的数据管理标准和规划,各业务部门为了实现有序化管理,提高工作效率,根据自己的业务需求各自建设了部门的业务系统,这些系统之间相互独立,最终导致多头管理、代码标准不一致、数据标准不一致等问题越来越突出,无法实现信息交换与数据资源共享,信息关联程度也越来越低,加大了数据清洗、整合的难度。
(3)数据质量差。由于各部门业务系统相互独立,数据源上的数据质量水平不一致,导致数据质量偏低。此外,数据来源途径多且分散,数据从生产到使用过程不清晰,数据的完备性、准确性存疑,数据质量堪忧,数据融合困难。
(4)教职工信息化水平不高。高校信息化的發展需要校内各部门人员的参与,但一些部门存在管理人员数量不足、缺少管理经验、信息化水平不高、数据监管不全面、缺少统一的数据质量管控流程等问题[8]。
(5)数据全生命周期不完整。高校业务数据的使用、维护、备份、过期等管理不规范、流程不完整。
综上所述,本文提出一种构建共享数据平台的方案,该方案以ODI(Oracle Data Integrator)[9]数据集成工具为基础,不仅可以很好地集成各独立业务系统中的数据,达到数据交换与共享的目的,而且提供了代码标准管理、数据脱敏、运行监控、数据历史归档、数据监测等功能,既保证了数据的质量也满足了业务部门之间的多样化数据共享需求。
2 数据治理的建设思路
2.1 数据集成
数据集成是在逻辑上或者物理上对不同格式、不同数据源的数据进行汇总,并且利用信息交换,解决数据的异构性与分布性问题,从而为分散的业务系统提供数据共享。数据集成领域通常使用联邦数据库系统、数据仓库、基于中间件模型这3类集成模型。
中间件模型是最常用的一种模型,其通过统一的全局数据模型来访问分散的数据库、Web资源等。中间件位于应用层和数据层中间,发挥协调各数据源系统的作用,同时为访问集成数据库的系统提供通用的接口和统一的模式。该模型还可以很好地解决数据源中数据的更新问题,当数据源发生变化后,直接修改中间件模型的逻辑视图即可,从而提高效率,增强集成系统的可扩展性[7]。
本文介绍的是Oracle的产品ODI工具,ODI工具的集成包括两种方式:全量集成和增量集成。全量集成是将需要同步的数据一次性同步到目标数据库上;增量集成是只将发生变化的数据同步到目标数据库[10,11]。南京中医药大学利用该工具建立了一个中间数据库——共享数据平台,该共享数据平台定义了元数据、业务规则与约束,然后连接服务器执行代码,并将返回的结果与消息存储到共享数据库内。在集成的过程中,此共享数据平台采用全量集成方式将需要同步的数据集成到目标数据库内。
2.2 共享数据平台的设计
2.2.1 需求调研
本文介绍的共享数据平台是基于学校的一个高层应用平台,目的是实现学校各独立业务系统之间的数据共享,该平台使用ODI工具的全量集成方式将需要同步的数据一次性同步到目标数据库上。高校搭建共享数据平台之前,为了能够提高实施过程的效率,首先要掌握以下几点:各独立业务系统主机的操作系统类型,数据库的类型、版本号、用户名、密码、访问权限等;提供对应系统的需求文档,并详细记录该系统需要向共享库提供的数据类型和共享数据库需要推送给各业务系统的数据[12]。同时也要记录集成业务系统对应的数据库信息,包括源表和目标表的表结构、字段信息(是否为主键、字段名、字段唯一标识、字段类型、字段长度、字段说明等),源字段与目标字段的转换关系、集成方式、数据集成周期等。
2.2.2 集成总体框架
确定数据源与数据共享平台的共享流程架构是数据治理的关键。第一步,基于校内分散的业务系统进行数据抓取,包括人事系统、教务系统、研究生系统、科研系统、财务系统、资产系统、图书管理系统等;第二步,将抓取到的业务数据集成到共享数据平台,通过一系列的工具对数据进行清洗、转换为各个标准数据子集;第三步,将标准数据与其他需要的业务系统进行交换,从而实现数据的交换与共享;第四步,清洗后的数据可以更好地支撑上层应用,比如校园门户等。在项目实施过程中,数据标准是一个不断更新、完善的过程,数据治理工作完成后,再公开共享数据平台制定的数据标准[13]。
本文设计的共享数据平台采用如图1所示的集成中心库架构,该架构可以有效降低业务系统之间的耦合度、增加可扩展性、保证数据质量,还能够有效地控制对各业务系统的访问权限。而且采用集成中心库架构,可以更好地实现全局信息集成和为上层应用提供服务。
3 系统实际应用
本文的共享数据平台——数据集成中心如图2所示。该数据中心包括图2所示的10大功能模块。此数据集成中心有效地整合了分散的数据资源,实现了业务系统之间的数据交换与共享,按照集成中心制定的数据标准对数据进行标准化并进行数据的分析、展示、查询等。完成了数据中心大屏展示、基本校情展示、数据质量违规量展示、数据异动监测、质量问题分布展示、数据监测查询、代码执行异常检测、数据历史归档统计等工作,同时数据脱敏管理可以有效保护敏感隐私的数据,满足多样化的数据使用需求。下面着重介绍3大功能模块的应用。
如图3所示,元数据管理模块明确了各业务系统中数据库的类型,用户名,数据资产中业务表、代码表、字段的个数。包括数据源配置、数据模型管理、元数据属性模型,是整个数据治理过程的关键,它决定了数据集成平台如何满足各业务系统的需求。
如图4所示,代码标准管理模块包括代码标准管理、代码标准比对、代码参照采标、业务数据转标等功能。该模块明确了各业务部门数据类型的分类标准、展示了各部门业务代码表与比对标准表之间的统一数与统一率以及代码的参照采标率。还可以扫描到当前执行标准与业务标准不一致的情况,从而准确及时地进行数据治理,其中执行标准比业务标准多代码的差异,不会影响数据治理的效果,如果需要对业务系统加以规范,可以建议业务部门补充业务执行标准。
如图5所示,数据脱敏管理模块利用不同的脱敏算法对各业务部门不同的数据进行脱敏,如:对身份证件号和手机号使用编码脱敏算法;对姓名使用字符串脱敏,从而达到保护师生隐私的目的,降低隐私数据泄露的风险。
4 结 论
本文围绕高校信息化建设过程中数据集成面临的问题,详细分析了问题产生的原因,从而给出构建共享数據平台解决数据集成问题的方案,实现了高校内部各独立业务系统之间的对接,解决了信息孤岛的问题,使校园数据互联互通、互换共享,促进了高校信息化的发展。
参考文献:
[1] 孙琪扬.大数据时代下高校信息化建设现状探讨 [J].科技风,2019(29):94.
[2] 高杨,张雪超,孙震.大数据时代下高校信息化建设的现状及建议 [J].电子技术与软件工程,2018(24):202.
[3] 乔世娇,陈晓军,张平,等.高校异构数据集成技术ODI的研究与实现 [J].福建电脑,2014,30(5):155-156.
[4] 刘桂锋,钱锦琳,张吉勇.我国高校科研数据治理模型构建研究 [J].情报科学,2020,38(4):28-36.
[5] 章浩,刘波,邹恒华,等.高校数据治理的探索与实践 [J].电子技术与软件工程,2017(21):181-183.
[6] 李淑.高校管理信息化建设现状及对策浅议 [J].现代信息科技,2018,2(11):127-128.
[7] 张静.高校异构数据集成的分析与设计 [J].科技经济市场,2010(7):3-5.
[8] 邱坤.“双一流”目标下的高校信息化服务能力提升对策 [J].实验室研究与探索,2019,38(11):239-242+293.
[9] 李兰友,陈立,陈建红.基于ODI的数字校园数据集成研究与应用 [J].南京工程学院学报(自然科学版),2016,14(2):29-34.
[10] 陈熙.基于ODI的高校數据交换与共享平台的设计与实现 [J].计算机光盘软件与应用,2014,17(2):259+261.
[11] 乔玉涛,张曦.基于共享数据中心的数据治理方法研究 [J].科学技术创新,2019(13):104-105.
[12] 孙玮.基于ODI技术搭建高校数字化校园公共数据平台 [J].软件工程师,2014,17(7):56-57+44.
[13] 李林,钱丹丹,黄婷婷,等.高校信息化数据治理探讨 [J].中国教育信息化,2017(9):66-68.
作者简介:彭明(1991—),女,汉族,江苏徐州人,硕士,研究方向:大数据应用研究、智慧校园建设;刘建峰(1979—),男,汉族,江苏盐城人,工程师,硕士,研究方向:网络架构与安全、IPV6、大数据分析;王常华(1982—),女,汉族,山东聊城人,中级工程师,硕士,研究方向:计算机应用技术。