“双高建设”背景下的高职院校数据治理研究*
2022-06-02黄有福黄中伟
黄有福,黄中伟
(广州番禺职业技术学院教育技术与信息中心,广东广州 511483)
一、引言
2018年4月,教育部发布的《教育信息化2.0行动计划》指出,要构建一体化的“互联网+教育”的大平台,整合各级各类教育资源公共服务平台和支持系统,实现教育数据有效共享,完善教育数据标准规范,促进政务数据分级分层有效共享[1]。教育信息化2.0本质是要建立一种新的模式,核心目标是以教育信息化支撑和引领教育现代化,全面提升教育品质,构建新时代教育的新生态。2018年教育部职业教育与成人教育司启动中国特色高水平高职学校和专业建设计划,坚持扶优扶强与提升整体保障水平相结合,建设一批当地离不开、业内都认同、国际可交流的高职学校。即围绕办好新时代职业教育的新要求,集中力量建设50所左右高水平高职学校和150个左右高水平专业群,打造技术技能人才培养高地和技术技能创新服务平台,支撑国家重点产业、区域支柱产业发展,引领新时代职业教育实现高质量发展。
在“双高建设”背景下,教育信息化是“双高建设”的重要手段,教育大数据是实现智慧校园的重要保证,如何夯实数据基础,做好底层数据支撑能力的建设工作,以达到技术降本、应用提效、业务赋能的目标,已成为高校当前最为急迫的建设需求,面对各类业务系统日益增长的海量数据,如何更加有效地开展数据的治理工作,并能在数据驱动下,利用数据支撑教育教学的管理与改革,是目前很多高校所面临的重要问题,也是教育教学改革与教育管理研究的重要课题。
二、高校数据治理存在的问题
经历了多年的教育信息化建设,各高校从“数字化校园”到现在的“智慧校园”,建设了很多业务系统,也积累了海量的各类数据资源,包括结构化和非结构化数据,但是很多数据存在数据标准不规范,数据源或数据流转不准确、数据采集不完整等问题,具体问题如下:
一是数据不能有效共享。各个部门在拿到其他部门数据后都要按照本部门的代码标准对数据进行二次转换后才能使用,且多数部门并无具备此专业技能的工作人员,导致各部门数据不能实现有效的共享。
二是缺乏统一的数据标准。各部门数据进行应用开发时没有一个统一的数据/代码标准可以作为使用的依据,导致需将大量工作量花在了数据/代码标准转换上,最终出来的应用效果仍不能满足实际需求。
三是数据权责不清。随着高职学校数据使用需求的增多,数据使用部门在发现数据内容错误的问题后,往往无法找到对应责任部门来认领解决数据内容的问题,各部门对数据权责不清,最终只能由信息中心为数据问题背锅。
三、数据治理的研究现状
数据治理作为一个新的应用研究领域。在国际上,很多专家学者把数据治理称为数据管理。美国的国际数据管理协会(DAMA)对数据治理的定义为:对数据资产所行使和控制的活动集合称为数理治理。国际数据治理研究所(DGI)把数据治理定义为:一个通过一系列信息相关的过程来实现决策权和职责分工的系统称为数据治理。这些过程按照达成的模型来执行,描述了根据什么信息,在什么时间和什么情况下,用什么方法,采取什么行为,则是Who-When-Where-How-What[2]。在国内,专家学者认为,数据治理是企业的责任,是需要统一的解决方案和治理模型来保护及共享不同层面的数据。因此,数据治理实际上是对数据开发、实施、监管的综合过程,包括数据的计划、策略、流程和实践,主要的目的是在整个数据的生命周期内,为各业务系统及管理流程提供数据使用、控制、保护和输出数据,并最终能提升数据的价值。
四、“双高建设”背景下高职院校数据治理框架设计
高校的数据治理框架可以从业务和技术两个方面进行设计。业务方面主要针对数据管理、生产和使用者而言,了解所负责或所需要的数据内容;技术方面需要处理数据治理的整个过程,分析主要的输入数据是什么,最后的输出结果怎么样,所采用的架构及技术等因素。下面分别从业务视角和技术视角进行分析。
(一)业务视角
为了实现数据的全生命周期管理,数据治理是可以通过“数据中台”等管理系统,将数据管理从单纯的技术操作层扩展到“技术+业务+管理”的复合模式[3],将数据管理的参与者从信息中心推广到全校各个部门、岗位以及全体师生。对于数据管理部门,能够以全局视角洞察数据在其产生、流转、调用、改变、归档等过程中的全生命周期状态,能够看到各部门在数据使用、变更、维护过程中的各种状态,能够对数据的质量进行有效的管理,充分发挥全量数据的价值。对于各职能部门,可实现查看、浏览、使用数据标准和数据资产,管理本部门数据,对数据质量问题、数据填报需求、数据纠错申请进行处理,方便调用所需的数据,了解数据各个状态,让数据更好的支持部门管理过程,从而提交管理水平和管理效率[4]。而对于广大师生而言,让每个人够能够通过一网通办、移动校园等应用获得高质量的教学服务、生活服务,体验。可查看自己在学校各种数据,当业务办理不畅时能够查看数据的当前状态和故障原因,认识到数据及其流动过程影响着每一次事项办理、每一个管理过程,体验到数据服务给工作与生活带来的良好体验。总而言之,能充分发挥海量数据的价值。
(二)技术视角
从技术的视角对数据治理框架的分析,主要包括以下内容,共享库重构和ETL迁移,校级数据标准的制定,数据采集的相关治理,主题数据库定制,数据质量提升与第三方应用对接实现数据闭环,通过实现数据全生命周期管理构建高可靠的数据基础架构,通过制度建设实现数据全生命过程的规范操作和管理,如图1所示。
图1 高校数据治理框架
首先对共享库重构和ETL迁移,目标是获得完全的系统控制能力和所有配置信息的细节。制定校级数据标准的,结合当前业务和数据情况,通过深入部门的调研访谈形成校级数据标准,包含编码规则、代码集、数据集和相关被引用的国家标准和行业标准。其次通过数据治理软件和数据治理工程,对ODS中的数据进行采集、清洗、转换、聚合,并扩展数据管理范围,将线下表格、日志记录、安保监控、教学资源等数据也纳入统一管理,形成符合校标的标准化数据集合,成为全量数据仓库。然后通过对数据仓库的数据内容进行数据质量检测,将质量报告反馈到对应的负责部门以便其进行核实修正,使数仓中的数据最终符合各种应用对数据准确性和完整性的要求。通过数据治理软件、数据开放平台等实现数据标准、结构、属性、质量、接口、关系等方面的管理功能[5],从而形成数据治理的知识库内容,并可以对重要的数据进行历史数据保存。同时通过数据的开放平台,提供数据开放管理功能,以API、数据库连接、文件下载等方式向应用端提供数据。最终目的使数据管理方与数据使用方实现互动,使数据治理的技术层与业务层融合为一体,实现数据流动全程信息呈现、数据资源按需可控使用、数据质量闭环管理、数据故障主动提醒、数据责任明确划分,最终实现数据全生命周期管理的功能。
五、“双高建设”背景下高职院校数据治理的方法和流程
数据治理是一项系统性的工作,它包括了一系列互相关联、与数据的整个生命周期相关的流程,贯穿其生命周期的不同阶段。
(一)制定校级的数据标准
高校数据标准的制定,基于学校对数据的管理与使用需求。首先在制定标准时,需要结合参与学校现行业务系统使用的数据标准,结合以往发布的代码实际标准,为了减少对现有业务系统的使用影响,需要结合业务系统的数据字典,按照教育部颁布的教育管理数据标准要求,包括对数据管理的基本体系结构、数据元素的元数据结构等,主要对表结构、扩展命名规范、代码集等方面做优化[6]:(1)表结构优化,需要结合学校实际数据使用场景进行表结构的优化。(2)对扩展命名的规范,例如部标中定义的数据对象包含表、字段、代码集,校标需要在此基础上扩展数据开发、过程管理、接口管理等命名规范。代码集优化,校标在部标代码集的基础上需要扩展学校相关属性的代码表。(3)新标准补充,因为部标是通适性的规范,因此需要在部标的基础上扩展学校特有的标准内容。最终完成数据标准的发布,输出为校级数据标准库。
(二)数据采集和数据的有效性识别
数据采集的主要目的是实现对学校已有的业务系统(如:OA系统、实习系统、报修平台、科研管理系统、人事管理系统等)、物联网(如:智能WIFI、一卡通、智能门禁及车辆出入视频等)、社会及互联网(如:网络舆情、官方报道、公众号)等渠道的数据进行统一的归集到数据中心,主要的方法包括数据库采集、接口采集、互联网爬虫采集等,对于不同的采集对象及采集方式如表1。
表1 不同的采集对象及采集方式
同时可以通过业务系统的数据字典,对原始数据进行识别,对相应的字段做相关的标注,包括是否关键字、是否主数据、备注信息等。可以通过SQL语句的方式对数据进行检索,需要专业的数据管理人员操作;而对于前端的用户,由于不熟悉SQL语句,对于数据的检索无法进行;同时,为了满足学校数据互联互通的需求,可以设计多种数据流通方式,在前端的设计中,设计了数据检索的功能,对数据进行检索排序,在数据治理阶段,还要对前置数据库中的元数据进行标识,以便对数据进行排序、检查等。
(三)数据的审计与质量监控
数据采集识别完毕后,需要进行数据质量检查。数据质量检查的步骤方式可能按如下步骤进行,第一是配置数据质量检测规则,数据质量检测前,配置数据质量检测指标和检测规则(包括规则匹配性、枚举正确性、范围正确性和关联一致性)。然后将质量规则绑定到相应的字段上(一个字段可以同时绑定到多个规则,具体取决于该字段的业务特点),设置好数据质检规则后,绑定相应的字段和规则,然后根据规则选择数据字段进行规则检查[7]。最后实现质检并输出质检报告,自动执行数据质量检测后,支持对系统中的数据质量问题进行统计分析和预警,管理人员可以查看检测报告的详细信息。
(四)数据清洗转换
定义好数据标准后,需要对原始采集的数据进行预处理,数据预处理的过程包括数据集成、数据清洗、数据归约、数据转换、数据标签化等[8]。为了保证数据预处理过程的有效性,需要对预处理制定相应的规范,主要包含数据审核和数据筛选。对于原始数据来说,数据审核包括数据的完整性审核和数据的准确性审核两个方面,首先数据的完整性审核主要是检查数据是否填写齐全,是否遗漏,所有要求的各项指标是否填写完整等。其它数据的准备性审核从两方面进行,一是检查数据和客观实际情况、数据内容是否准备。二是数据是否有错误,数据的计算方法是否正确等。经常使用计算检查、逻辑检查等方法进行。其中对数据进行逻辑检查,包括数据内容是合理,数据对象有没有互相矛盾,这也是检查数据质量的一种重要手段;数据的计算检查是对数据的结果和数据的计算方法上有无错误、数据类型是否正确、字段长度是否准确等进行检查。数据审核的内容主要包括准确性、适用性、及时性和一致性审核。
(五)数据标准入库
原始数据经过采集、识别、质量检查、清洗治理之后,就形成了标准数据。标准数据的范围是依据数据标准涵盖的范围确定的。标准数据的数据结构是按照数据标准的内容定义的。标准数据存储在UDW(Oracel或MySQL)中,数据按照数据标准清洗转换后,依次按照数据子集分类存储到UDW,存储完成后,使用数据治理工具,对数据做一轮完整的数据质量检查,UDW中的数据符合数据标准(如表2)。
表2 数据质量检查结果
六、“双高建设”背景下的高职院校数据治理应用的思考
高职院校在“双高建设”背景下,从校级领导到各级管理部门,对数据治理都有了全新的认识,特别是高校的日常管理要求更加精细化,很多业务部门对数据更加重视,数据治理的效果及数据质量控制结果,对领导的决策有很大的影响。下面以广州番禺职业技术学院数据治理实践为例,按照上述数据治理思路与设计方案,在具体实施方面的思考。
(一)落地校级数据管理规章制度和制定校级数据标准是数据治理的前置条件
通过部门调研完成学校数据标准的制定工作,解决数据标准不一致导致数据共享交换过程中带来的数据/代码转换的问题。只有按学校的规章或学校的数据管理相关细则执行,按学校发布的数据标准执行,学校的数据治理才能做到有理有据,有章可循,这样才能为全校的信息化提供统一的、稳定的数据表达依据。
(二)理清数据权责关系,数据才可控可用
通过部门调研理清学校数据权责管使公共数据资源管理实现“谁主管、谁提供,谁采集、谁负责,谁校核、谁负责”的原则,各部门承担数据资源完整性和准确性等质量责任,数据责任单位在数据发生变化后及时维护和更新数据资源,保障数据的完整性、准确性、时效性和可用性,确保所提供的共享数据与本单位所掌握信息的一致性。
(三)一数一源、一源多用
学校各类系统已有数据的采集与引入服务,数据采集遵循合法、必要、适度、便捷原则进行,并确保数据采集的准确性、完整性、时效性。数据采集按照一数一源、一源多用的基本要求,实现一次采集、共享使用,凡通过共享平台可以获取的数据,不得通过其他方式重复采集、多头采集,实现全量数据采集。
(四)完成数据质量闭环诊改机制,解决数据实时交换问题
学校数据表的数据质量诊断及清洗工作,将符合校标的数据存入数据仓库,以驱动学校从数据集中管理阶段逐步向数据资产利用阶段转变。同时实现与学校现有数据纠错系统、数据补录系统、一表通系统的无缝对接,实现数据质量的闭环回流、打造数据质量循环改进机制,解决学校在迎新、离校、课表、考勤等业务办理过程中数据实时交换需求的问题。
七、结语
本文从当前“双高建设”的高职院校出发,结合学校的具体实际情况,从学校在数据应用与管理过程中,发现数据存在的不完整、数据标准不统一、数据质量难以保证等问题,通过数据治理的方法与流程的分析,通过对学校业务部门及数据产生、存储与使用情况的调研,结合学校数据标准,制定校级的数据标准体系,在校级数据标准的指引下,对学校各业务数据进行全面采集,最后通过对数据进行清洗、转换、标准化处理,完成数据的质量监控,最后开发各类主题数据库,为学校的各业务系统、各职能数据进行申请使用,把数据的使用结果进行收集反馈再治理,形成数据的闭环管理,实现数据的全生命周期应用。从数据治理流程到数据治理的方案设计,本文结合“双高建设”高校的实际,提出从管理机制到数据管理体系建设的相关建议,希望以“双高建设”高职院校为例,能对各类学校的治理提供借鉴,以实际解决困扰学校数据治理的有关问题。