基于大数据环境的高校数据治理平台设计
2020-02-22潘银芳
潘银芳
摘要:随着高校大数据技术的应用与推广,数据治理的问题逐步凸显:很多高校没有整体数据标准,缺乏数据校验,问题数据不断沉积,造成大数据分析对领导决策的支持功能失灵甚至错误。同时,在智慧校园环境下应用系统微服务化、移动化增多,数据共享交换平台中数据交换的压力呈指数增长,数据管理部门对数据交换管理的难度和工作量迅速上升,利用传统的数据交换共享平台进行数据交换管理已经越来越不适应新的业务需求。该文作者对高校现有业务系统大数据进行分析,通过构建恰当的数据治理模型,制定高校数据标准和工作规范,提出了高校数据治理委员会等机构的设立和功能建设,采用可视化设计方案设计数据治理平台,提出全生命周期数据治理概念,覆盖了数据对象动态发展的全过程,进而建立数据治理体系,在此过程中高校中信息化涵盖的边界得到重塑,信息化与高校核心业务实现进一步融合。
关键词:数据治理;高校;全生命周期
中图分类号:TP311.13 文献标识码:A
文章编号:1009-3044(2020)36-0029-03
Abstract: With the application and promotion of big data technology in colleges and universities, the problem of data governance has gradually emerged: many colleges lack a school-wide overall plan for data standards and implement them in accordance with the plan, lack a data verification mechanism, and continue to deposit problematic data, resulting in big data analysis for supporting leadership decision-making malfunctioned or even wrong. At the same time, in the smart campus environment, application systems have become more micro-services and mobile, and the pressure of data exchange in the data sharing and exchange platform has increased exponentially. The difficulty and workload of data exchange management by the data management department has increased rapidly, using traditional data exchange. The traditional sharing platform for data exchange management has become increasingly unsuitable for new business needs. The author of this article analyzes the big data of the existing business systems in colleges, and by constructing an appropriate data governance model, formulating university data standards and work specifications, proposing the establishment and functional construction of institutions such as the university data governance committee, and adopting a visual design plan to design data governance. The platform puts forward the concept of full life cycle data governance, covering the entire process of the dynamic development of data objects, and then establishing a data governance system. In this process, the boundaries covered by informatization in colleges and universities are reshaped, and informatization is further integrated with the core business of colleges and universities.
Key words: data governance; colleges and universities; full life cycle
1 引言
近年來,随着大数据技术的推广应用,高校信息化建设进一步发展,在原有业务系统信息化的基础上,利用其产生的海量数据以及其他外部数据,进行挖掘和分析,通过建立分析模型,开发出了很多诸如行为画像、與情监控预警、就业指导建设、消费分析等大数据应用。在这些应用的开发和使用过程中,数据治理的问题逐步凸显:很多高校没有整体数据标准,缺乏数据校验,问题数据不断沉积,造成大数据分析对领导决策的支持功能失灵甚至错误。同时,在智慧校园环境下应用系统微服务化、移动化增多,数据共享交换平台中数据交换的压力呈指数增长,数据管理部门对数据交换管理的难度和工作量迅速上升,利用传统的数据交换共享平台进行数据交换管理已经越来越不适应新的业务需求。
在这种情况下,通过高校数据治理平台,对数据进行统一治理,将学校现有分散、重叠、杂乱的数据,进行统一整理,制定全校性的数据标准,对数据进行全生命周期管理,使业务系统保持数据健康、业务稳定,进而为学校决策提供大數据支持。
1.1 研究意义
运用对高校现有业务系统大数据进行分析,通过构建恰当的数据治理模型,制定高校数据标准和工作规范,提出了高校数据治理委员会等机构的设立和功能建设,从中观层面上完善了数据治理管理体系建设的相关理论。数据治理平台在设计过程中采用可视化设计方案,提出全生命周期数据治理概念,覆盖了数据对象动态发展的全过程,具备较强的创新意义,本项目设计的数据治理平台,是高校大数据应用建设中必不可少的前提条件,只有对经过有效治理的信息化业务数据进行挖掘、建模、分析才能产生正确、科学的决策支持;另一方面,通过数据治理体系的建立,高校中信息化涵盖的边界得到重塑,信息化与高校核心业务进一步融合,教育信息化在高校发展过程中的实际作用日益增强。
1.2 国内外同类研究工作现状
数据治理的概念起源于信息(IT)治理,李维安等[1]认为IT治理概念的分析包含对诸多概念的理解。美国学者索尼尔.索雷斯[2]认为大数据治理是广义信息治理计划的一部分。郑大庆[3]从大数据治理目标、权力层次、对象及范围、解决的实际问题4个维度,阐述了大数据治理概念的内涵。Weber[4]从IT治理和组织理论的概念延伸到数据治理,他提出了一个包含数据质量角色、决策区域、责任的职责分配矩阵。
1)数据治理模型和框架:包冬梅等[5]提出包含促成因素、范围和实施评估三个内容的数据治理框架;曾凯[6]提出包含数据各个层次的通用数据治理框架;赵安新[7]提出包含数据层、交换层、平台层和展示层的数据治理框架;李林、钱丹丹[8]提出RACI模型矩阵,通过包含(R)负责执行活动的角色、(A)对活动负全责的角色、(C)拥有完成项目所需的信息或能力的人员和(I)应及时通知结果的角色构成模型矩阵 ;余鹏[9]提出基于“五元管理”的教育大数据治理系统功能框架。Otto[10]针对电信行业数据治理的组织架构设计进行了研究,他挑选了两个具有代表性的架构设计:一种以BT公司为代表的项目驱动,自底向上的架构,另一种以德意志电信(Deutsche Telekom)为代表性的结构化,自顶向下的架构;Lai Kuan Cheong[11]通过调研发现:一旦缺乏清晰的角色定位和责任界定、缺乏对改进数据质量任务的授权,自适应数据治理模型的数据管理功能会受阻,他针对此种情况提出了一种强调IT和业务相协作的数据治理框架。
2)数据治理平台设计:张宝国[12]提出了一种闭环数据治理体系架构。金钊[13]设计的数据治理平台主要包括数据资产、数据安全以及数据质量管理三个应用功能和一个数据服务功能。
国内外文献调研显示,学术界针对大数据环境下高校数据治理进行了大量的研究,这为本研究提供了良好的现实基础,但这些研究重点在于宏观和中观层次上探讨大数据治理的体系内涵,对于大数据治理平台的设计和实现还仅仅停留在理论阶段,仅有部分研究者提出了传统的针对数据管理的治理平台实现方案。本项目提出将数据治理过程可视化,降低数据管理门槛,从而构建一个包含数据起源、清洗、开放的全生命周期数据治理平台,更加符合高校信息化管理实际需求,具备可操作性和创新性。
2 数据治理平台功能设计
2.1 数据治理规范制度建立
数据是学校重要资产,通过对学校各个业务系统数据资源进行充分调研,形成数据资源情况报告,以教育部信息标准为基础,结合学校现有数据情况和各管理业务标准,如人事处、教学处、学工处标准,然后再经过充分的实际调研工作之后,将根据学校的实际情况进行删减,并形成最终的学校事实信息标准。
制定校园数据集成、更新管理办法等制度和规范,以保证数据集成、更新、管理等活动正常运行,保证学校大数据系统的正常服务。
在学校数据治理建设的工作中,会基于学校的实施检验,最终出台《学校数据标准》《数据管理办法》《数据标准管理办法》《元数据管理办法》《数据质量管理办法》等管理制度,将学校的数据治理工作形成体系化的建设
2.2 数据治理平台功能模块
2.2.1 元数据管理功能模块
元数据是数据治理的基础,元数据管理功能模块包含元数据的采集、存储、分析。
元数据管理基于OMG的CWM标准规范,形成整个校园信息系统的数据视图,梳理业务系统数据之间的关系,以实现对各个业务系统数据运行的全面分析。
2.2.2 数据集成管理模块
数据集成管理模块主要包括数据清洗和数据集成两部分。主要包含以下功能:
数据清洗列表,显示数据清洗作业列表以及状态,设置批量和个性化操作。数据清洗按照预处理、格式处理、逻辑处理、业务关联性以及验证的步骤进行。数据集成作业列表,展示了当前已设置的作业。支持作业的批量开启和关闭,作业的调度时间设置。数据集成作业设置,在数据属性维度上进行处理,即可以是多个表的属性合并为一个表的属性,也可以把一个表的部分属性生成一个新表,可以设置表中字段之间的对应关系以及表与表直接的关联关系。
2.2.3 数据质量管理模块
我们设计的数据质量管理定位在多维度的全生命周期数据质量管理,通过量化数据质量指标对数据质量进行全生命周期监测,选择通用数据质量标准,建立一个监测、评价、分析、改进的闭环过程。
2.2.4 系统管理模块
包含账户管理、角色权限管理、数据权限管理、功能权限管理、角色用户查询、用户访问日志、系统数据备份等系统功能。
3 数据治理平台实施
3.1 数据调研