高职院校数据治理体系构建与实践研究
2024-04-03刘晓天顾大明
刘晓天 顾大明
关键词:数据治理;数据中台;数据服务;数据标准化;高职院校
0 引言
随着人工智能、大数据、云计算、物联网等现代信息技术的快速发展与广泛应用,我国高校信息化建设进入新阶段。2018年4月,教育部发布了《教育信息化2.0行动计划》,强调促进智慧校园建设全面普及,全面推进各级各类学校的智慧校园建设与应用。2021年3月,教育部发布《关于加强新时代教育管理信息化工作的通知》,明确要求加强教育数据规范管理、促进教育数据共享和强化教育数据质量保障。2023年6月,教育部教育管理信息中心下发《关于印发<全国教育智慧大脑院校中台(高职/中职)数据标准及接口规范(试行)><全国职业院校大数据中心建设指南>的通知》,为高职院校数据中心建设指明方向,对高职数据治理和数据服务提出更高要求。
高校作为数据产生、拥有和使用的主体,数据积累量和内部复杂度不断提升,数据整合困扰普遍存在。为此,本文开展了面向高职院校的数据治理应用研究,从数据治理角度对智慧校园建设进行统筹和设计,提出了契合高职质量和规模需求的、基于数据中台的数据治理体系架构,以某高职院校正在实施的数据治理项目实践为例,充分论证所提框架的正确性和有效性,实践证明:所提框架,能够有效解决数据的准确性、一致性和标准性等问题,有效促进高职院校的智慧校园建设。
1 高职院校数据治理困境
当前,高职院校数据中心建设和数据治理实施正逐渐成为数字智慧化转型的基础和关键,但由于传统信息化建设“重应用、轻数据、缺标准”等历史遗留问题和技术、经费、人员等因素限制,部分高职院校存在建设短板,如缺乏清晰的数据治理整体顶层梳理、缺乏数据呈现可视化模型等,数据治理的整体建设愿景实现得并不理想。
1.1 数据治理现状分析
顺应教育信息化2.0背景下的智慧校园建设的新要求和新变化,高职信息化建设总体呈现碎片化、服务化、移动化、可视化等显著特点,即应用的碎片化,流程重构和数据互通的服务化,终端设备的移动化,数据分析和呈现的可视化。长久以来,高职信息化建设解决了大量的业务需求,但随着系统规模增大、业务功能增加和数据持续堆积,逐渐出现一些问题:数据缺乏统一规范,没有形成统一数据标准,存在数据重复录入、不一致等问题,导致数据无法发挥应有价值;数据孤岛依然存在,无法实现数据实时或高频共享,仍存在双向互通不全面、信息不对称等问题,集成和共享覆盖面不足,导致数据流通和共享率不高;业务系统建设缺乏顶层设计;数据价值体现不足,数据融合分析和智能化服务能力不足,统计分析的维度、广度、精准度和可视度等有待加强,导致领导对校情数据掌控有限,数据的使用和查询诉求难以有效满足。
数据的整合、管理与使用成了目前制约高职院校智慧校园一体化建设的一个重要因素。因历史原因,分散分期建设的业务系统内沉积了太多纷繁杂乱的数据,数据标准不统一,难以关联、挖掘、统计和分析,无法形成整体视图,数据共享难度大,数据价值无法充分开发,重要决策得不到综合数据支撑,智慧校园整体建设效果大打折扣。因此,数据治理作为高职院校从“数字校园”迈向“智慧校园”的重要枢纽工程,是信息化建设当务之急。
1.2 数据治理主要难点
高职院校的数据治理在向深度治理推进的过程中,在数据采集、数据维度、数据标准、数据质量等方面存在着“数据不可知、数据不可取、数据不可控”等问题,难以支撑准确的大数据分析与应用。
主要难点[1]有:1) 数据中心黑盒运行,难以管理。数据中心黑盒运行,好处是使用者无需理解底层技术,即可实现实际应用的数据流转,坏处是一旦数据流转出了问题,要想准确定位排障,难度非常大。同时,数据中心的数据管理技术要求高、数据接口标准不一、数据标准缺乏全局统一、输出不准确、共享集成门槛高等职能,缺乏统一的全域解决方案。2) 数据维度缺失,难堪大任。业务系统功能缺失、重叠,数据重复、缺失、不完整,数据采集只有主数据和结果数据等,使治理后的大数据应用画像不完整、不准确,数据价值得不到充分利用。3) 数据标准不统一,难以共享。不同业务系统中对相同对象的不同建模、相同数据的不同描述,使数据的一致性不高,数据共享时更是似是而非,摸不着头脑。4) 数据质量缺乏保障,难以采信。部分数据缺失、错误、不完整,数据结构不全面,难以支撑数据统计、数据上报、数字画像等复杂应用场景的数据需求,数据的更新不及时、共享度不够、完整度不高等问题,使为跨部门信息化管理和领导辅助决策提供可信数据支撑的难度提升。为解决这些问题,高职院校需要重点思考基于数据中台的数据治理策略和方法,为信息化赋能。
为进一步加快高职院校业务系统的数据共享应用,盘活数据资产,支撑领导科学决策,构建全业务域、全数据域、全时间域和全质量管控域的全域数据中台,以此为基础,开展覆盖数据全生命周期的数据治理,以应用为抓手,以业务为驱动,推进大数據应用,增强师生的信息获得感,非常必要。
2 数据治理架构
数据中台是规范数据标准、提升数据质量、整合现有资源,以此达到系统间数据无缝对接的一整套综合管理平台[2]。数据中台是实现高职院校数字化转型的关键基础平台,通过整合、分析和挖掘各类数据,为学校提供高效、可靠的数据支持和解决方案,助力教学质量提高、资源配置优化、科研创新提升等。
数据中台兼有数据集成、数据模型、元数据管理、数据标准、数据质量管理、数据开放、数据监控等功能,对数据实施从采集到开放的全生命周期的开发和管理。数据中台最终要实现的目标:以“数据资产化、数据标准化、数据共享化”为导向开展数据治理,基于一体化数据开发平台,打通数据生命周期的各个环节,减少冗余,增加复用,以API接口服务方式实现数据共享与监控,快速响应用户和业务系统的数据需求,以数据驱动业务和管理的创新。以数据中台为基础,构建全域数据中心,打通现有业务系统,杜绝“数据孤岛”,全面实施数据治理、数据资产化运营和深度数据挖掘,最终实现学校全域数据的共享开放,为智慧校园建设提供强有力的数据支撑基座。
根据教育部教育管理信息中心下发的数据中心建设指南要求,结合高职院校基本校情,以“存管服用”为建设原则,基于数据全生命周期管理理念,基于“获取-处理-使用-服务-反馈-评估”的过程监管和“发现-监督-控制-沟通-整合-协同”的服务模式,以数据标准为起点,服务应用为终点,数据闭环治理为保障,构建数据治理和服务治理相结合的基于数据中台的数据治理体系框架[3-4],如图1所示。
体系框架主要由“后台的数据实体空间”“中台的数据能力空间”和“前台的数据应用空间”三个模块组成。数据实体空间主要实现利用批流一体集成工具将业务数据、离线数据、机器数据等全量抽取“进湖入仓”的功能。数据湖仓由贴源层、标准层和应用层等组成。贴源层主要实现数据“1:1”抽取进入数据湖,标准层主要实现按照数据标准要求进行初步数据治理,并将初步治理的数据拉进数据仓库,实现数据标准化,应用层主要实现对数据资产进行深度治理,并根据需要推送到相关主题库。數据能力空间主要实现数据管理、标准管理、数据编目、集成管理、数据监控、主题管理等与数据相关的从入库到开放的全生命周期的所有管理功能。数据应用空间主要实现业务服务中心(业务中台)和数据服务中心的所有功能,两个中心的所有应用和功能都基于治理后的数据实施,能够有效提升业务执行效率和辅助决策准确性。另外,数据应用空间的数据纠错、补录和回填的数据反馈功能则是数据治理体系中必不可少的重要能力。
3 数据治理方案
本文以某高职院校全量数据中心和数据治理平台建设实践为例,充分论证上述框架的正确性和有效性。案例基于对学校全域全量数据的梳理、采集、清洗和标准化,建立了一个数据标准规范、来源权威、高度融合、质量可靠的数据中台,在数据中台中实现数据的全面采集、规范建模、质量提升、安全存储、可控共享和充分应用,使数据的“存管服用”(存:实时批流湖仓;管:数据中台;服:业务服务中心;用:可视化运营中心)达到高标准、高质量和高效率。
3.1 数据准备
高职院校传统信息化建设“重业务,轻数据”,各业务系统数据不规范,标准不统一,即便相同数据的表述也可能千差万别。究其原因,是因为数据方面缺乏整体规划设计,所以,要想高职数据治理得到高质量推进,数据顶层设计和数据管理规范制定等相关工作必须先行。数据治理应作为学校“一把手”工程,由学校“一把手”领导主抓,由学校信息化职能部门牵头,教务、学工、人事、财务、后勤、办公室等业务部门协同,共同推进学校层面数据标准管理、数据质量保障、数据安全责任等规章制度体系的完善,共同推进所有业务系统的统一数据标准、统一开放接口、统一数据共享等事项的落地,共同推进数据产生、治理、运用、共享、传递和消亡的全生命周期的系统性管理。
3.2 数据治理
数据治理过程主要包括数据采集与识别、数据清洗与治理、数据应用与开放等环节,覆盖数据“采集- 应用-消亡”的全生命周期。具体来说[5],首先,利用批流一体统一集成工具(API、ETL、DB源等)全量采集学校所有业务系统的全量结构化和非结构化数据(图片、文件、音频、视频等),1:1进入数据湖贴源层;其次,通过对数据实施清洗、转换、去重、纠错、补漏等操作,对数据质量进行检测,根据数据标准(国标、行标、校标等)对数据进行质量规划绑定,按照标准数据模型和代码对数据进行统一建模,形成数据资产,并按照“8大域”(公共服务域、行政管理域、教工数据域、学生数据域、科研数据域、教学数据域、财务数据域、资产数据域)的要求,分类将数据纳入数据仓库标准层;第三,根据数据应用与开放的实际需求,将数据归结到学生预警、师生数字档案、领导驾驶舱、数据门户等不同的主题库和诊改、智慧大脑、高基报表等不同的指标库,以应对后续数据开放的实际需求;最后,根据业务服务中心(业务中台)和数据服务中心的数据需求,以API 接口的方式统一开放治理后的高质量数据,并开启实时数据监控,保障数据流转的时效性和数据应用的准确性,数据应用过程中,还需保持数据“治理-反馈”循环通道的畅通,持续迭代优化数据,提升数据质量。
3.3 数据反馈
数据的纠错和补录,作用在数据治理和应用的全过程。数据应用和呈现时,一旦发现数据有错,可立即通过数据门户中的反馈模块,提交反馈意见,管理员收到后,对该数据产出的全链条开展排查,根据排查结果,对源头数据进行处置或调整更新查询条件,并再次推送,数据使用者对处置结果进行确认,至此,完成了一个完整的“治理-反馈”循环,如还不准确,则继续推动循环。数据补录是在数据需求无法得到满足,需要提供新数据或某些字段缺少值等情况时,采用的一种数据补齐方式,可以到智能表单单独填报,也可以到业务系统中进行源头数据补齐。对数据的常态化纠错与补录,持续优化数据,是数据治理体系中必不可少的重要环节,充分保障数据治理的良性迭代和数据质量的不断提高。
4 结论
数据中台建设和数据治理体系构建,是高职院校数字化转型的基础,是智慧校园信息化建设的核心,开展基于数据中台的数据治理体系构建与应用研究非常必要。高职院校在实施数据治理过程中面临很多挑战,如数据来源的多样性、数据质量的保障、标准制定与执行等。本文探讨了高职院校如何运用数据中台来实施数据治理,并通过详细的分析和研究,为数据治理领域的高校实践提供了有益见解。通过实践研究,不仅理解了数据治理的重要性,还揭示了数据中台技术在实现全量、全维度、全生命周期数据管理方面的潜力。数据治理关键步骤的高效实施,如摸清家底、全量采集、标准制定、标准落地、积累与量化成果、知识库建设以及制度形成与保障等,能够确保数据管理的有效性和可持续性。数据治理不仅是一项技术性工作,更是一项战略性工作。高职院校在数据治理方面的成功实践不仅可以提高数据质量,还可以为学校的决策制定和教育质量提升提供有力支持。