基于教育部智慧大脑中台的职业院校数据治理与应用研究
2024-12-12陆颖
关键词:智慧大脑;诺兰模型;ETL工具;数据仓库分层;数据孤岛
0 引言
党的二十大报告提出:“推进教育数字化,建设全民终身学习的学习型社会、学习型大国。”这是“推进教育数字化”首次被写入党代会报告,标志着教育数字化转型进入了新的历史阶段。为贯彻落实国家教育数字化战略行动,进一步推进全国职业院校数字校园建设工作,教育部发布了《全国职业教育智慧大脑院校中台(高职/中职)数据标准及接口规范(试行)》和《全国职业院校大数据中心建设指南》,为职业院校数字化转型提供了新要求、新标准、新思路[1]。在人工智能、云计算、机器学习等新一代信息技术的推动下,海量教育数据不断涌现,教育数字化转型已成为必然趋势[2]。然而,当前高职院校在数据管理方面仍面临着数据标准不统一、数据质量参差不齐、数据汇聚整合困难、数据共享缺乏管控等问题,严重制约着学校数字化转型的进程。
为破解高职院校数据治理难题,本文以常州纺织服装职业技术学院为例,探索构建基于教育部智慧大脑中台的校本数据智能采集与推送平台,为职业院校数据治理提供参考和借鉴。
1 数据管理现状与问题分析
1.1 数据标准不统一、数据质量参差不齐
在信息化建设初期,高职院校普遍缺乏顶层设计和统筹规划,导致各类业务管理系统各自为政,形成了典型的“烟囱式”架构。由于各个系统的数据存储结构不一致,缺乏统一的数据标准[3],导致数据难以关联汇总和分析,形成“数据孤岛”现象。此外,由于功能缺陷、管理缺位、操作不当等原因,数据缺失、格式不统一等数据质量问题普遍存在[4],例如学生籍贯信息填写不规范等。这种参差不齐的数据质量状况,严重影响了学校基于数据的科学决策和管理效率,给教学质量评估、资源配置等工作造成困扰[5]。
1.2 数据汇聚整合困难、数据共享缺乏管控
各部门独立运作的信息系统在数据格式、接口标准和存储方式上存在差异,导致学校数据难以互联互通,需要进行复杂的数据转换和适配工作。同时,由于缺乏明确的数据共享政策和规范,数据共享存在较大的随意性和风险性,容易造成学生个人隐私信息、学校财务信息等敏感数据泄露和滥用。此外,数据共享缺乏有效的监督和评估机制,共享过程中的不当行为难以及时发现和纠正。
2 教育部智慧中台的研究分析
2.1 顶层设计先行
数据是重要的战略资产和生产要素,高职院校应高度重视数据治理工作,将其作为一项系统工程来抓。在数据治理过程中,要坚持顶层设计先行,制定科学合理的数据战略、构建完善的数据治理体系、建立健全的数据全生命周期管理机制。具体而言,在数据战略方面,院校需要明确数据在学校发展中的定位和作用,确定长期的数据发展目标和方向,并将其纳入学校整体发展规划。在数据治理体系方面,要明确各部门在数据管理中的职责和权限,制定统一的数据标准和规范,建立数据质量控制和数据安全保障机制。在数据全生命周期管理机制方面,要涵盖数据的产生、采集、存储、处理、分析、应用和销毁等各个环节,确保数据在各个环节的安全性和合规性。
2.2 数据标准与数据架构设计
数据标准是数据治理的基础,统一的数据标准是实现数据共享和互操作的前提。高职院校应在参考国家和行业标准的基础上,结合学校实际情况,制定统一的数据标准,包括数据元、参考数据、主数据、指标数据等。
数据架构设计是数据治理的蓝图,合理的架构设计能够有效地组织和管理数据,提高数据的可用性和价值。在数据架构设计方面,可以参考教育部智慧大脑中台的架构设计理念,构建以数据仓库为核心的数据管理平台。数据仓库可以集中存储学校各个业务系统的数据,并对数据进行清洗、转换、整合,为学校提供统一的数据服务[6]。
2.3 数据安全与隐私保护
在数据治理过程中,要高度重视数据安全和隐私保护,建立健全数据安全管理制度,明确数据安全责任,加强数据安全技术防护,防止数据泄露、篡改和滥用。要严格遵守国家有关法律法规,加强对学生个人信息的保护,明确数据收集、使用、存储、传输等环节的安全要求,建立数据安全应急预案,定期开展数据安全风险评估和安全审计工作,确保学校数据安全。
3 校本数据智能采集与推送平台
3.1 功能概述
诺兰模型[7]是描述信息系统发展阶段的抽象化模型,它将信息系统的成长过程划分为起步、扩展、控制、集成、数据管理、成熟6个阶段。参照诺兰模型的成长阶段,职业院校信息化建设过程可划分为烟囱式建设初期、集成式建设中期和数据管理与智能应用后期,如图1所示。
参照诺兰模型,职业院校信息化建设已进入“数据管理与智能应用”阶段。面对数据孤岛、数据共享困难等问题,该校第一时间组织梳理数据资产,厘清全校业务系统,分析整合现有数据资源,以ETL工具为数据抽取底座,采用数据仓库分层设计思路搭建校本数据智能采集与推送平台。
该平台协助该校完成与教育部全国职业教育智慧大脑院校中台85张表的数据对接工作,形成常态化数据治理机制,助推学校高质量发展。
3.2 数据采集
1) 界面化填报。针对学生毕业升学、就业、未就业等暂无系统对接的业务情景,该平台利用低代码表单引擎灵活定制文本、下拉、日期等格式的数据字段,依据推送要求,完成设置字段是否为必填项,在表单界面完成数据录入后,通过流程审批的方式对数据层层把关,有效保证填报质量。该采集方式解决了无数据源对接的难题,但填报时效性差。
2) 模板汇总导入。对于产学合作类等暂无系统对接且涉及产教处、教务处等多部门协作的业务情况,该平台提供采集模板进行数据收集,标准引用代码在模板中为下拉项。数据归口部门负责数据收集工作,协作部门配合提供相关数据。这种采集方式提高了部门之间的合作意愿,一定程度上解决了因部门数据标准不统一导致的数据质量偏低问题。但是,采集时效性较差,数据质量受人为因素影响较大。
3) 数据对接。对于教学、科研、服务管理类等可进行数据对接的业务情景,该平台利用开源KETTLE[8]工具从关系型数据库、文件、非关系型数据库等数据源抽取源数据,参照数据集标准,对源数据进行数据清洗、聚合、格式转换、字段映射以及加解密,最后完成数据装载,实现全流程自动化数据传输,具体工作原理如图2所示。
数据对接方式显著提高了采集效率,降低了数据质量受人为因素的影响,但学习成本高,技术难度大,对接过程容易造成数据泄露等安全隐患。
3.3 数据同步
数据同步分为全量同步和增量同步两种模式。全量同步将数据源中的全部数据一次性传输至数据集。增量同步传输自上次同步后新增或者修改的数据。全量同步操作简单,数据不易丢失,但同步时间较长。反之,增量同步耗时短,适用于数据实时性要求较高的场景。
该同步模块采用B/S 架构,通过SpringBoot+Vue 实现前后端分离。后端采用基于MVVM 模型的SpringBoot 框架搭配RabbitMQ消息队列的方式保证同步任务有序执行。前端使用Vue+Element-UI的方式开发管理界面,实现可视化配置数据源连接信息与计划任务功能。
该校使用“首次全量+永久增量”的同步策略。在初次同步时使用全量同步建立基准数据,然后使用增量同步进行日常的数据更新和变化跟踪。这种混合策略确保了数据一致性、提高了同步效率、降低了资源消耗。
3.4 数据推送
数据推送模块包含表字段映射、推送规则设置、数据校验、数据推送、结果查询等功能,覆盖了数据推送的全生命周期。
推送平台对推送表结构与清洗转换后的表结构进行字段映射,根据预先配置的计划任务同步85张表数据集合,对待推送数据集进行数据内容与关联性校验,最后依据推送规则上报合规数据。
在数据上报过程中,为规避全量数据上报耗时长、能耗大等弊端,该校采用比对特征值的方式增量上报变更数据,特征值计算方法如式(1) 所示:
式中:tzz表示特征值,valuei表示数据子类表中第i 个数据项值,md5[9]对数据项集合进行哈希计算,输出32位长度数值,利用tzz校验数据完整性,当tzz变化时表明数据有变更,tzz不变时表明数据未发生更新,平台上报tzz变化的数据集合。
3.5 数据看板
数据看板通过FineReport技术搭建而成,主要包含数据质量监控、数据分析报表、数据预警等模块,对多维度数据进行分析展示,直观反映学校发展现状,助力院校实现数据驱动的管理和决策。
数据质量监控模块对照八大数据集指标项对每日推送数据进行质量监测,采用柱状图、条形图、饼图等图表方式展示历史数据推送质量。
同时,参照教育部职教大脑监测大屏,深刻理解各数据指标计算公式,搭建校本数据分析报表,实时呈现数据上报状况。
数据预警模块对异常数据进行告警。对在上报周期前尚未完成数据准备的部门进行消息提醒,提高了数据上报的时效性。通过列表方式展示推送失败数据集合,方便数据归口部门直观发现并修正错误数据。
3.6 平台设计架构
1) 数据仓库分层设计。考虑到院校数据复杂多变、安全性要求高等特点,建立与业务需求、组织结构以及管理流程匹配的数据模型尤为重要。为了提高数据的采集、管理、流转和使用,实现对数据从接入、存储、开发、输出到展示的全生命周期管理,该平台采用数据仓库分层模型[10],如图3所示。
该模型将数据仓库划分为ODS、DWD、DWS、ADS 四个层次。其中ODS即操作数据存储层,用于存储从学校各业务系统实时或定期抽取最细颗粒度的原始数据,包括学生信息、课程信息、教学活动数据等,形成数据湖;DWD即数据仓库明细层,对ODS层的数据进行清洗、转换、规范化、关联整合等处理,构建出更清晰、准确、一致的明细数据;DWS即数据仓库汇总层,在DWD层基础上进行一定程度的聚合和汇总,形成主题相关的、具有一定概括性的数据集合。例如,从学年、专业等维度对学生升学与就业情况进行汇总。ADS即应用数据存储层,对DWS层数据进一步加工和定制,以直接支持院校特定的业务功能和数据分析场景。
2) 调度中心。该平台搭建任务调度中心[11],统一管理数据同步、数据集成、数据推送等作业计划。
调度中心从各数据源抽取教学、科研、党建类校本数据至本平台,形成数据湖,统一调度数据处理计划任务,将清洗转换后的数据装载至目标库,依据字段映射计划任务将处理后的数据集合映射至推送平台目标表,最后依据推送规则统筹调配资源完成数据推送作业。
该调度中心实时记录所有计划任务的执行状态,当任务执行失败时能够对预先设定的邮箱发送告警信息,以便管理员及时知晓任务执行状况。同时,能够在线修改生效cron表达式,在异常作业修复后可快速进行二次执行,显著提高了运行效率。
该调度中心合理分配系统资源,确保计划任务运行稳定,同时具备可视化监控与管理功能,能够实时查看任务列表、任务状态、执行日志等信息,实现了对定时任务的统一管理。
4 结束语
在深刻剖析教育部智慧大脑中台建设内容的基础上,构建出以数据仓库分层为核心的校本数据智能采集与推送平台。该平台解耦数据收集与数据推送功能,提高了数据处理效能。但是,平台使用的KETTLE工具学习成本高,难以采集非结构化数据。如何利用AI技术采集非结构化数据将是下一步的研究方向,比如利用教室监控收集学生签到率与认真听课率;对招聘网站进行爬虫,计算课程专业市场匹配度;对教学云平台学生作业进行AI评估,智能分析学生知识薄弱点等。