教育信息化视角下高校教育数据治理方案探讨*
2023-05-10徐正杜婉君侯静娴孙子强梅天乐
徐正 杜婉君 侯静娴 孙子强 梅天乐
1.山东科技大学马克思主义学院;2.山东科技大学艺术学院;3.山东科技大学校团委;4.山东科技大学数学与系统科学学院
随着互联网、物联网、大数据等教育信息化技术的飞速发展,高校智慧校园建设已成为高水平大学建设的重要保障。高校教育数据是智慧校园建设的基本要素和重要资源,被称为是智慧校园的“血液”。高校教育数据治理,消除数据孤岛和提升数据质量成为当前智慧校园建设的必要支撑条件,也是高校信息化建设中的一项重要工程。本文以某高校为例,在技术支撑和服务管理两个方面提出教育信息化环境下的数据治理方案,通过对现有教育数据进行检测和治理,建立数据标准,完成数据的汇聚、检测、治理等过程,实现了高校数据信息与校园其他业务的融合共享,推动了高校治理体系和治理能力现代化,为高校全面推进“双一流”建设和内涵式发展提供有益参考。
随着教育信息化建设的快速推进,我国高校信息化建设已由“数字校园”向“智慧校园”迈进[1]。但在高校教育数据治理方面还处于“摸着石头过河”的实践探索阶段[2],存在数据治理制度不完善、业务部门数据治理意识不强、数据孤岛等问题[3]。基于此,本文从某高校智慧校园工程建设的大数据治理现实情况出发,探讨高校数据治理的方案路径。
高校数据治理路径包括:数据检测、数据治理和数据审计等方面。数据检测主要是通过预先定义的一系列的数据检测规则[4],包括对数据的有效性、完整性、精确性、准确性、唯一性的原则进行数据的检测,将有效、完整、准确的数据提交到主数据库[5],并且将有问题、不符合规范的数据拒之门外,定期形成数据检测报告,送给数据繁荣权威部门进行责令整改,确保进入主数据库的数据是规范的[6]。数据治理主要是通过用户在发现、使用数据过程中检测主数据库数据的准确性问题[7],将不准确的数据通过一定的流程和手段进行更新或报告给数据来源部门。数据审计主要是对主数据库更新的所有数据进行审计[8],包括什么系统、什么时间对什么信息项进行了数据更新,更新前与更新后的内容是什么[9],确保对主数据的更新都有据可查。
1 高校数据治理路径探索
高校数据治理路径建设思路包括以下几个方面:
(1)建设完善的数据质量检查规则和应用体系。数据自身质量巡检是指学校众多业务系统在不同时期、不同厂商的各种客观前提下建立的,其数据结构存在很大的异构性[10]。在这种情况下,原始数据的正确性、一致性、完整性和可靠性无法得到保障,导致依赖这些数据的分析平台的决策数据不正确,甚至导致错误的决策。数据质量管理支持任意两张数据库表之间做数据一致性检测,两张数据库表可以在同一数据源也可以在不同的数据源,可以比对两张表之间记录个数、记录内容,任务结束生成一致性报告。记录内容不同的数据需要展示源和目标的原始数据报表。
(2)支持自定义核查规则。系统内置通用核查规则外,系统支持自定义设置,自定义设置支持传入表名、列名等外部参数,可以实现通用规则在多个任务中复用的要求。
(3)便捷的任务配置。规整配置是让数据规整人员通过简单图形化的操作完成数据清洗转换、抽取的操作,规整任务支持多种定时调度设置。数据规整人员通过图形化方式来进行规整配置,配置过程中包含数据源、数据验证、数据转换等节点的配置。
(4)支持多种数据规整规则。数据的规整是要遵循一定的业务规则的,面对业务的原始数据开发人员是不知道如何进行清洗、转换的,因此需要系统提供抽取转换的规则。系统根据业务需要初始化常用的清洗转换规则以及自定义的规则,系统中的规则是由系统初始化得出,不提供增删改操作,但是可以根据业务需要进行自定义的规则制定。这次的转换规则如下:格式转换规则、内容转换规则、字典转换规则和自定义规整规则。
(5)实现数据全生命周期管理。通过主数据的定义将要素信息维度进行掌握,通过维度的掌握和数据库CRUD 的方式,对主数据信息变更情况进行全生命周期的记录,并同时记录下数据信息变更的时间,实现一个主数据对象的数据变更记录,并通过变更记录的实现,可还原主数据生态变化情况。利用对象数据库的存储结构,将变化作为节点的分支存在主数据库中。通过此类的变化可轻松的实现数据的全生命周期展现,改变要素数据的末态数据问题。可通过时间轴的方式,轻松的还原数据变化过程和详细变化情况。
2 高校数据治理功能模块研究
2.1 数据质量模块
规则分类管理,可针对质量的检查规则进行规则分类定义,以便于在质量规则定义时进行引用和对规则进行分类。常规规则配置,系统内置一系列质量检查规则,主要包括身份证号、姓名、手机号等常见字段的格式检查、逻辑规则检查、字典项检查等规则。自定义规则配置,可根据制定的数据标准和业务规范,对姓名、身份证、车牌号、日期、电话、邮箱、单位信息等信息项制定数据质量检查规则,并配置好相应的核查标准,以便与常规规则互相补充,完成数据质量巡检工作。
2.2 数据巡检模块
数据质量监控,可监测从各个业务单位汇集的原始数据,通过自动/手动方式发现原始库中存在的数据质量问题。系统提供唯一检查、非空检查、外键检查、代码检查、长度检查、值域检查、一致性检查、自定义检查等自动监测方式。系统主要提供两个功能:实体重复记录监测:列出所有表,对其中的重复记录进行比对去重;参照关系监测:参照数据字典,提供标参数、列参数、库参数等监测。
数据增量监控,可针对单表的业务数据在规定时间内数据变化的监控。通过建立监控任务,系统自动对其进行监控,并在监控后产生数据增量监控报告。
2.3 数据巡检报告
数据质量监控报告,可以查看数据巡检任务的运行结果情况,比如被巡检数据源符合数据规则的数量,总的问题数据的数量、记录时间等,根据问题数量找到原始数据核对,保证数据的准确性。
数据一致性监控报告,可针对数据一致性监测出的结果进行显示,解决由政务共享数据中心与原始数据源数据是否一致的信息报告,保证数据的一致性。一致性包括内容一致和条件一致两类。
数据增量监控报告,可针对数据增量的结果进行显示,实时、动态的掌握数据定时抽取的情况,以保持数据的及时性和同步性。
2.4 数据规整
字典转换规则,针对表述含义一致但表现、存储形式不一样的代码进行规范统一映射到标准编码上,字典转换规则即将非标准的字典数据进行标准化转换。根据定义的字典表标准,完成与标准字典映射。数据规整时需要根据字典转换规则对非标准的数据字典表进行标准化转换。
常规规整规则,可针对单个字段提供的数据规整规则,包括格式转换、内容转换等标准化处理规则,同时可以根据业务情况,进行自定义相关的规整规则,对数据进行加工、清洗的处理。
规整任务,可让数据规整人员通过简单图形化的操作完成数据清洗转换、抽取的操作。规整任务支持多种定时调度设置。
数据规整人员通过图形化方式来进行规整配置,配置过程中包含数据源、数据验证、数据转换等节点的配置。各节点的功能描述如下:数据源:数据来源库(表输入)或数据目的库(表输出),配置的信息项包含数据库的用户名、使用到的表名,目标表与源表字段、选择更新模式(全量、增量)、更新字段、更新条件字段等。
2.5 数据地图及资源监控
数据地图,“数据地图”面对校领导和业务部门,以动态化、形象化的方式实时展示各部门数据生产、共享、调用与预警情况,方便工作人员介入校园数据交换过程。形成项目建设成果的可视化呈现,从而进一步激发各部门数据共享热情,推动数据质量提升。
运行环境监控,重点监控总控服务所在设备(本地监控),以及交换服务所在的设备(交换机)的基本信息与实时动态。
2.6 数据共享与访问
基于数据交换中心数据下发,继承原有的数据交换平台,在原有系统中对主数据库的数据做T+1 的数据下发,并可对原有的共享至中间库的服务模式升级到共享至业务库的服务模式。
基于订阅模式的数据下发,数据服务平台应该支持订阅发布模式,数据服务平台能够根据各个应用系统订阅的内容对变更数据进行实时的推送。
基于API 的数据访问,主数据库按照标准开放数据服务接口,各应用系统可以通过这些接口主动获取数据。由于在数据共享过程中会涉及到数据的安全,针对这个考虑将制定相应的审批流程,在数据共享过程中对数据进行授权、加密处理。
3 结语
教育信息化时代,“数据治理”在高校智慧校园信息化建设中具有重要意义,同时也是是高校“双一流”建设和发展的重要支撑,其高效数据治理的详细流程图如图1 所示。本文从当前某高校数据治理面临问题出发,在管理和技术等方面提出了一些路径方案。未来,数据治理将大幅促进高等院校“教育和信息化”的深度融合,不断提升挖掘教育数据的潜力,对提升高校的综合实力,促进高校内涵式发展具有积极的推动作用。
图1 高校数据治理流程示意图Fig.1 Schematic diagram of university data governance process