APP下载

智慧校园背景下高职院校数据治理路径探索与实践

2024-10-15王彩萍李育荣

中国教育技术装备 2024年17期

摘 要 随着数据呈现爆发式增长的态势,如何对这些海量数据进行统一管理,进而形成有效的数据治理体系,成为前所未有的挑战。以江苏农林职业技术学院的数据中台建设为例,梳理数据治理的思路及治理路径,通过全维度的数据采集、集中和治理形成标准统一、分类清晰、质量可信的数据仓库和数据集市,推动学校治理体系和治理能力现代化,全面推进学校智慧校园的建设。

关键词 智慧校园;数据;数据治理;数据中台

中图分类号:G717 文献标识码:B

文章编号:1671-489X(2024)17-00-05

0 引言

2023年3月,中共中央、国务院印发《党和国家机构改革方案》,提出组建国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,凸显了国家从战略层面对数据要素的重视。伴随着物联网、云计算等新一代信息技术的发展,高校迎来了智慧校园建设的新发展阶段。目前,高校所产生和积累的数据呈现爆发式增长的趋势。在过去的几十年里,高校内部的数据管理和利用往往是分散、孤立的,各个部门和系统之间缺乏协同和集成,这导致了数据质量低、数据孤岛现象严重、数据安全和数据隐私无法保证、数据利用效率低等问题。学者普遍认可数据治理对高校科学决策、高效管理、创新服务和迅速应变的重要作用[1],

所以高校的数据治理工作势在必行。

国外高校数据治理研究已经取得了一些重要成果,例如,DAMA-DMBOK(Data Management Body of Knowledge)框架和MIT的TDQM(Total Data Quality Management)模型,这些框架和模型提供了数据治理的基本原则、流程和组织结构,帮助高校建立系统化的数据治理策略和实践;而Harvard Dataverse和UC Berkeley’s D-Lab则构建了数据共享平台,促进了高校之间和跨学科领域的数据协作。近年来,国内高职院校对于数据治理的重视程度日益提升,相关研究也逐渐增多,学界已有研究主要集中在高校数据治理模型和高校数据治理路径的探讨上,宋苏轩等[2]、周炜[3]从数据治理管理体系、优化路径等方面就高校如何高效实施数据治理进行了探讨;曹姣等[4]、胡水星等[5]从数据与信息、策略与机制、管理与决策、技术与平台等方面研究了数据治理体系框架。

虽然已有数据治理的相关研究较为丰富,但各高校还需要根据自身情况进行因地制宜的探索和实践,不断改进和提升,例如,南京理工大学、长沙民政职业技术学院的数据服务体系就是在多期滚动的数据治理中构建并完善的。大多数高校已经构建了数字校园时代的“三大平台”(统一身份认证平台、统一信息门户和数据中心),虽然部分数据实现了整合,但学校的校级标准没有形成或已形成的校级标准执行不彻底、数据管理相关制度缺失,依然存在数据孤岛现象无法消除、数据职责边界不清、来源不明、数据无人维护等问题;这些现状严重阻碍了学校的数字化转型。江苏农林职业技术学院围绕已有的各类业务系统以及现有平台存储的各类数据源进行全量校本数据中心建设,开展数据治理,目标是实现“一数一源”和清晰的数据资产,打造数字化技术赋能的数据治理新生态,建成校园数据大脑,推动学校数字化转型。

1kT+JxsUmBS9jc6mBSrfpwmCfsGYz+ptUwX1R8SLuZZM= 建设思路

根据“数据从业务中来,到业务中去,服务业务需求”的建设思路,学校将数据流转划分为“业务数据化、数据资产化、资产服务化、服务业务化”四个环节,形成有机闭环,支撑各类创新业务开展。在具体操作上,采用“自下而上”与“自上而下”相结合的双向融合治理模式,既考虑数据底座建设视角,又兼顾业务需求,构建学校数据治理体系,夯实数据基座,聚焦业务场景,解决实际问题,发挥数据的最大价值。

2 建设路径

学校按照“搭建平台→梳理数据→校级数据标准制定→汇聚数据→建设场景化专题库→资源开放”的路径开展数据治理工作,具体做法如下。

2.1 搭建平台

依托学校大数据中台能力,通过平台的智能化数据管理能力进行数据治理。学校数据中台架构如图1所示。

2.2 梳理数据

在数据治理初期,通过走访调研,对学校的数据资产进行详细的梳理,了解数据的来源、存储方式、使用范围以及与各个部门或院系业务系统的对应关系。调研的内容包括业务部门数据现状,本部门产生的权威数据,是否有相关数据字典,对外提供数据面临的问题,现阶段发现的数据质量问题,现有系统哪些代码、元数据可以采集引用为校级标准等,最终形成各部门数据调研报告,并理清数据源头、供需关系,明确数据治理范围,形成数据UC矩阵,通过UC矩阵表来记录数据项与来源部门的对应关系,其中,U(USE) 表示使用方,C(CREATE)表示生产方。例如,学生基本信息数据来源于教务处,则教务处应标为C,其他使用部门标为U。

2.3 校级数据标准制定

教育部2012版信息标准(JY/T 1006—2012,以下简称部标)确立了高等学校管理信息的基本体系结构、数据元素的元数据结构,规定了高等学校管理数据元素。学校在建立数据标准体系时,以最小成本原则为导向,采取渐进式改革方式,参考学校当前使用的业务分类和代码标准,利用现有资源最大限度兼容现状,通过迭代完善逐步提升标准水平,形成符合学校实际业务需求的校级标准。具体优化内容如下。

2.3.1 扩展命名规范

例如,部标中定义的数据对象包含表、字段、代码集,在落地校标时需要在此基础上扩展数据开发、过程管理、接口管理等命名规范。如ETL接口、任务、索引、序列、过程、函数等,并将这些命名规范纳入数据开发规范,以实现对数据开发进行规范化管理的目标。

2.3.2 代码集的优化

校标在部标代码集的基础上需要扩展学校相关属性的代码表,例如,教务系统使用的学期代码0代表秋季学期,1代表春季学期,而校标参考JY/T 1001—2012 中的学期代码,1代表秋季学期,2代表春季学期,确定使用部标代码集作为学校标准,通过建立两个代码集的映射关系,供教务系统及其他使用了学期代码的系统进行数据转换。

2.3.3 补充新标准

因为部标的普适性,需要在部标的基础上根据学校特色扩展新的标准内容,如党建思政数据子集、服务管理数据子集和日志数据标准等。根据走访调研的结果,确定学校的数据标准中涉及的数据主题域包括9个分类,见表1。

2.4 汇集数据

汇集数据又称数据采集,共分为三种:业务系统数据采集、线下电子表格数据采集和日志数据的采集。通常数据按如图2所示的流程采集入库。

2.4.1 数据识别和采集映射

数据识别是指通过业务系统提供的数据字典的指引,对原始数据进行识别理解,从中挑选出有效的数据(即校级数据标准所对应的数据范围),进行相应的标注:是不是主数据、是不是关键过程数据、备注等。数据识别完成后,再根据校级数据标准中建立的表与表、字段与字段之间的映射关系通过配置ETL接口的方式,将原始数据采集为目标数据。

2.4.2 元数据标识

元数据是描述数据本身的信息,用来解释和理解数据的含义、结构、格式和其他属性。为了满足学校数据互联互通的需求以及确定数据来源、明确管理责权,在数据治理阶段,将采集到的元数据进行标识,从而该字段在流转过程中的位置可以清晰掌握,今后当需要使用数据或发现数据有问题时,能够准确定位到对应的部门、岗位,以及对应的MIS业务系统、数据库表、字段等。

2.4.3 数据质量检测

数据采集识别完毕后,需要进行数据质量检查。全面、及时地暴露已有数据的质量问题是数据后期治理的重要依据。目前学校对于数据质量检测的主要定义为数据在非空性、唯一性、值域有效性、枚举有效性、关联一致性、正则规则这些方面的考虑,该过程通过学校采购的数据中台的数据质量管理模块完成操作。数据质量检查的步骤如下:

1)配置质量规则,例如非空性原则,说明该字段不允许为空,唯一性原则说明该字段值不允许与其他字段值相同;

2)在设置了数据质量检验规则之后,将质量规则绑定到对应字段上(一个字段可以同时绑定多个规则,根据字段的业务特性决定),然后按照规则选择数据字段进行规则检验。例如,年龄字段需要绑定对应的值域规则(0~100),电话号码字段需要绑定正则规则等;

3)执行质量检查,输出质量检测报告;

4)通过数据质量规则定义功能,结合数据质量报告功能,深度挖掘当前在数据层8J8yVk3Bzf5oGtUvAhbDnA==面需要改进的部分,并按照数据管理手段督促对应的数据负责人及时整改。

2.4.4 数据清洗

通过对数据进行质量检测,可以发现数据中存在的大部分结构性和小部分内容性问题点,通过数据清洗转换的手段可以提升数据质量,挖掘数据内在价值。而数据清洗又包括结构化数据清洗和非结构化清洗。

1)结构化数据清洗。结构化数据主要指来自学校各业务系统和各种Excel报表提供的能够以二维表形式存在的数据。

如图3所示,数据清洗主要是对原始数据中存在的明显错误进行识别和处理,包括遗漏值处理、噪声数据处理、不一致数据处理等内容。对于处理遗漏值的方法,按照处理主体的不同,可以分为人工处理方法和自动处理方法。目前被认定为噪声数据的主要是错误数据和重复数据,与数据遗漏类似。噪声数据也是真实数据中经常出现的问题,可分为内噪声数据和外噪声数据。一般来说,内噪声数据很难辨识,更不容易被修正。对于外噪声数据,一般情况下可根据整体数据的分布来辨识,通过分箱方法、人工智能法、人机结合法进行识别和处理。解决数据不一致性,主要是确认各类数据的权威源头,通过权威数据源头来控制其对于各个共享点的数据同步和更新,要做到数据在使用中“要么都对,要么都错”。最后通过ETL工具或数据总线集成到统一的数据存储库,在此过程中完成数据的同步和一部分数据的清洗转换。这一工作由学校采购的数据集成平台完成,提供数据集成资源展示,集中展示已配置到决策支持系统的各种数据源的各类信息,包括数据源的载体形式、连接方式、应用场景、数据规模、同步频率等信息,以及数据采集方式、数据集成相关统计信息(包括集成规模、集成数据源、集成表总数、数据模型总数、集成任务总数等),还提供全面的运行检测并记录日志数据,当天任务的集成状态,系统可以自定义集成任务状态列表,并通过图表显示运行状态。最后,经过数据转换后,进入数据中心库。

2)非结构化数据集成。除了来自学校各业务系统和Excel表格中的数据,学校的网络设备和系统、安全、网络行为等设备每天也产生大量的日志数据,这些数据除了体量大之外,还有一个特点就是结构杂乱无章,因此需要采用对应的解析将其进行从半结构化到结构化的处理。

日志数据解析的核心就是格式化。对于标准化程度不高的日志采用正则表达式进行切分,生成以固定分隔符‘|@!-|’区分的日志文本;对于标准化程度较高的日志,即本身严格按照一定分隔符(例如/ | ,等)区分的,则直接进行比对替换。以Nginx日志为例,解析模板如下:

(正则表达式)^(?<remote>[^ ]*) (?<host>[^ ]*) (?<requser>[^ ]*) \[(?<reqtime>[^\]]*)\] "(?<method>\S+)(?: +(?<path>[^\"]*?)(?: +\S*)?)?" (?<code>[^ ]*) (?<size>[^ ]*)(?: "(?<referer>[^\"]*)" "(?<agent>[^\"]*)")?$。

最后,通过数据关联实现不同的日志数据之间或日志数据与业务系统数据之间的关联匹配,最终实现与关系型数据资源进行关联分析。

2.4.5 数据建模

整个数据仓库的建设都依照已经建设完成的校级数据标准进行建模,建模工具使用数据中台的数据模型管理模块结合数据标准规定的分类和格式规范,生成相应的数据仓库结构,再将采集到的学校的各种有价值数据,按照质量要求进行清洗治理,按照数据标准的格式进行建模,利用大数据基础技术架构进行存储,形成全量数据仓库。同时,对重要状态数据进行历史数据积累,形成全生命周期数据资源体系。

2.5 建设场景化专题库

场景化专题库根据业务场景创新应用需要,QoQ39gczZJIuKZzYjXUzrA==提供专题数据服务,从标准层数据仓库中筛选合适的数据内容,进行必要的预处理,形成针对特定业务场景的数据资源集合,并以适用的接口形式向创新应用提供数据,保障数据对业务场景的适配性,确保数据与场景无缝融合。学校根据部门以及业务场景,将数据封装成不同类型的主题数据集,针对特定场景提供数据,根据学校当前需求,主要建设如图4所示的主题数据集。

2.6 资源开放

治理后的数据,将通过校级数据资源编目与发布,面向校内各级部门和校外数据使用者提供数据资源在线查看、申请和使用服务,使校级数据资源的使用和管理过程在线化、流程化、业务化。

3 结束语

经过多年的实践探索,江苏省农林职业技术学院形成了“自下而上”与“自上而下”相结合的双向融合治理模式,提升了面向场景改革的智慧校园数据治理能力,构建了新型数据治理体系,依托校本数据中台,坚持需求牵引、应用为王,打造了集“教”“学”“研”“管”“评”于一体的“智慧学堂”平台,完成全国职业教育智慧大脑院校中台数据对接工作,通过了江苏省高职院校内部质量保证体系诊断与改进的现场复核,实现了数据资产的价值最大化,助力学校高质量发展,推动了学校治理能力现代化。

4 参考文献

[1] 彭雪涛.美国高校数据治理及其借鉴[J].电化教育研究,2017,38(6):76-81.

[2] 宋苏轩,杨现民,宋子强.高校数据治理统筹管理体系的构成与实践路径[J].中国远程教育,2021(11):58-67.

[3] 周炜.大数据视域下高校数据治理优化路径研究[J].教育发展研究,2021,41(9):78-84.

[4] 曹姣,周志忠,杨莲勉.大数据时代下高校数据治理体系研究[J].科技资讯,2022,20(22):177-181.

[5] 胡水星,荆洲,王会军.我国高校大数据治理体系的关键要素与优化路径研究:基于DEMATEL-ISM的研究视角[J].电化教育研究,2022,43(11):38-44,52.

*项目来源:江苏省现代教育技术研究2022年度智慧校园专项立项课题“基于数据中枢的职业院校数据报送机制的研究与应用”(项目编号:2022-R-107246);江苏农林职业技术学院教育科学研究项目“基于‘四个统一’的智慧校园平台建设研究”(项目编号:JK202220)。

作者简介:王彩萍,实验师。