数字化改革背景下深化校园数据治理的探索
2022-11-20葛佳欢杨淑峰徐欢欢
葛佳欢 杨淑峰 徐欢欢
摘要:随着信息化的不断发展,数据作为人工智能和大数据的核心要素,将对教育领域发展带来深刻影响,如何使用和管理数据成为已成为当前学校信息化建设的重点和难点。文章以台州科技职业学院为例,探索如何在数字化改革背景下深化校园数据治理,力求营造校园数据治理生态,推动学校各领域的数字化改革工作。
关键词:数字化改革;数据治理;数据目录
中图法分类号:TP311文献标识码:A
Exploration of deepening campus data governance underbackground of digital reform
—Taking 'Taizhou Vocational College of Science& Technology as an example
GE Jiahuan,YANGShufeng,XUHuanhuan
(Taizhou Vocational College of Science&.Technology,Taizhou,Zhejiang 318020,China)
Abstract:With the continuous development of informatization, data , as the core element of artificialintelligence and big data , will have a profound impact on the development of the education field.Howto use and manage data has become a key difficulty in the current school informatization construction.Taking Taizhou Vocational College of Science&.Technology as an example,this paper explores how todeepen campus data governance in the context of digital reform , striving to create a campus datagovernanceecosystem,and promoting digital reform in various fields of the school.
Key words: digital reform,data governance,data directory
1 引言
2021年3月15日,教育部发布的《教育部关于加强新时代教育管理信息化工作的通知》提道,推动教育决策由经验驱动向数据驱动转变,提高教育数据管理水平。随后,浙江省也印发《浙江省教育领域数字化改革工作方案》《2021年浙江省教育领域数字化改革工作要点》的通知,指出数据是现代教育体系建设过程中的重要生产要素和核心驱动力。由此可见,数据在学校的信息化发展过程中占据了越来越重要的地位。随着数据容量的快速积累、数据质量和运算能力的不断提高,如何使用和管理数据已成为教育领域的一个重要课题[1]。
2 存在的问题
目前,大部分高职院校在“十三五”期间已初步完成了“数字化校园平台”建设,建立了基础数据库,数据的容量也越来越大。随着业务数据的不断积累,学校对数据管理的要求越来越高,相应的弊端也逐渐显现。以台州科技职业学院为例,目前数据管理主要存在四个问题。
2.1 数据缺乏统一标准
学校拥有众多信息管理系统,各个系统数据标准不统一,各自为政,“信息孤岛”仍然存在,没有形成定义明确、格式统一、职责明确的数据标准。部门之间存在数据重复、数据混乱现象,导致跨部门数据交换共享困难。比如,“在校生统计”分为“在籍(包括休学、参军)”“在校(真正在学校上学的学生,还可能包括成教学生)”“在籍在校”几种类型,各个部门关注的重点不一样,就会形成不同的定义,最后统计的数据相互之间就会有出入,造成数据不统一。
2.2 数据质量不高
前期信息系统建设普遍存在“重功能轻数据”的情况,缺少整体数据标准规划,无校核机制,导致问题数据不断积累,数据统计不准确,影响各项报表准确性,许多预期需求无法实现,对学校上层的决策和分析也带来不同程度的影响。
2.3 数据存在安全隐患
数据安全管理工作机制不完善,部分信息系统数据授权管理不严,缺乏管控,可能造成数据滥用和隐私数据泄露情况。部分师生缺乏数据安全责任意识,对安全隐患不够重视,系统账号弱密码、乱授权和系统操作、数据填报不认真现象比较普遍。学校部分网络建设与运维服务采用外包形式,由于承包商的技术水平和责任意识参差不齐[2],并不能完全保障数据安全。
2.4 数据管理责任不明确
因缺乏数据全生命周期管理,出现数据质量问题时无法溯源。并且,由于数据交换技术复杂,业务人员难以进行数据交换管理操作,无法实现数据“谁产生、谁维护、谁负責”。
3 数字化改革背景下深化校园数据治理思路
以数字化改革为抓手,全面推进学校治理体系和治理能力的现代化建设,提升校园整体“智治”水平,成为高职院校推动“双高”建设的一个重点目标,其中推动校园数据治理是实现该目标的一个重要途径。本文以我校当前的数据治理环境为基础,探索在数字化改革背景下深化校园数据治理的一种思路。
3.1 数据确权
数据确权是大数据应用和数据产业发展必须解决的核心问题之一,它针对不同来源的数据,以法律形式明确其产权归属,推动数据整合,加速数据共享和流通,从而激活庞大的数据资产价值和创新应用,使数据产业得以迅速发展[3]。数据确权可以解决我校的数据管理责任不明确,无法精确溯源的问题。对学校各个业务系统的数据进行摸底排查,并对学校的部门组织架构、管理机制、数据管理现状进行针对性调研了解,确定权威数据来源,建立标准统一、职责明确、结构清晰的校园数据目录,确保数据归属责任明确。
数据目录是数据共享和实现数据前后台联通、业务与数据管理联动的载体。对于我校而言,以目录的形式,将数据按照业务属性或部门归属,划分到各个目录中,可以按照目录对数据进行统计、监测和溯源,包括资产内容、资产质量等,如图1所示。比如,按照部门划分,可以分为人事处(教师发展中心)、信息中心(图书馆)、计划财务处、学生处(学生工作部、武装部)、后勤管理处等部门。
3.2 元数据血缘关系梳理
元数据是描述数据的数据,如数据库的配置、表编目信息等[4]。元数据的血缘关系描述的是一种层次结构,即目标数据来源于哪些源数据,又生成了哪些子数据。血缘关系的梳理可以为学校数据的合规性提供验证手段,帮助业务部门与 IT 支撑部门实现信息共享、提升协调工作效率。对学校各业务部门进行实地的走访调研,以明确数据来源。调研的内容主要包括:(1)各业务部门数据现状。了解业务部门内部数据的生产过程、数据存放的形式等;(2)数据来源。确定本部门、其他部门产生的权威数据以及交叉维护的数据;(3)数据字典。是否有数据字典,信息是否正确完整,电子格式或纸质文档;(4)数据交换与共享。对外提供数据面临的问题、使用其他业务部门数据面临的问题;(5)研究数据质量问题。讨论现阶段发现的数据质量问题,分析原因,讨论处理方式;(6)数据分析需求。本部门的数据分析需求及其他部门对本部门数据的分析需求;(7)可用的数据标准资源。现有系统哪些代码、元数据可以采集引用为校级标准;(8)数据质量问题。当前已经明确有哪些数据问题,数据质量检测规则、管理流程和制度。
最后,根据调研结果,确定数据血缘关系表。
3.3 元数据治理
元数据治理是对数据进行采集、清洗及转换,并生成标准化数据仓库的过程,也是数据治理的核心步骤。对全校的所有数据进行采集,采集的数据对象包括业务系统数据库中的数据,重要的线下文件中的数据,来自于网络系统的日志数据、来自于各物联网系统的物联网数据和来自互联网的外部数据等。采集完成后,进行数据质量检查,继而通过结构化数据清洗、转换的手段进行数据质量的提升,并生成标准化数据仓库。
3.3.1 数据采集
数据采集可以通过批量采集或者已有数据导入的方式进行,通过 MySQL 数据库进行存储。对采集后的原始数据进行识别理解,从中挑选出有效的数据。数据识别完成后,通过配置 ETL 接口的方式,将原始数据采集为目标数据。
3.3.2 数据质量检查
数据质量是保证数据应用效果的基础。数据质量检查是数据治理中的重要一环,是通过数据反哺业务,发挥数据价值的基石,也是大数据建设的重要前提。设定质量检查规则,包括但不限于对产品对数据资产数据空置率、填充率、合规性、总量、用户量、数据重复率、数据格式验证、数据一致性通用数据质量规则进行自定义配置。通过数据质量检查,可以获得干净、清晰、完整的数据。系统从数据使用的角度监控数据资产的质量,并以可视化报告的形式反映质量问题,辅助学校不断地提升数据质量。
3.3.3 数据清洗转换
数据清洗转换可以解决数据中存在的大部分结构性问题和小部分内容性问题,从而提升数据质量,主要是对原始数据中存在的明显错误进行识别和处理,包括遗漏值处理、噪音数据处理、不一致数据处理等内容。针对遗漏值处理,可以采取人工处理或者自动处理的方法,当发现一个记录的属性值有遗漏时,通过查找原始的记录,或者请业务专家手工填补所缺失的数值,以及通过已有的程序自动处理。噪音数据主要是指错误数据和重复数据,可分为内噪声数据和外噪声数据。针对噪音数据处理,可根据整体数据的数据分布来辨识,并进行适当处理。
3.3.4 标准化数据仓库
标准化数据仓库用来支持全校的流程服务、数据调用、交换共享、大数据分析、精准管理、科学决策等事务。对采集的结构化数据提供标准化存储服务。确保数据的组织方式和存储结构符合学校的校级数据标准相关要求。整个数据仓库的建设都依照数据标准进行建模分类和格式规范,生成相应的数据仓库表结构,通过采集学校的各种有价值数据,按照质量要求进行清洗治理,按照数据标准的格式进行建模,利用大数据基础技术架构进行存储,从而形成标准化数据仓库。图2为数据治理核心内容。
3.4 数据安全
数据安全管理是指通过技术手段,对数据的安全进行定级,保证数据资产使用过程的安全。数据安全是数据共享、开放的前提,也是数据管理的底线。针对我校数据管理存在的安全威胁,按照数据安全相关法律政策的要求和高校实际的业务场景,通过评估数据安全风险、制定数据安全管理制度规范,对数据进行安全分级分类,根据不同安全等级,对数据定制不同的申请审批和使用策略,全方位地保证数据的安全,建立体系化的数据保障措施,为充分发挥数据价值提供安全可靠的环境,从而保证数据被合法合规、安全地采集、传输、存储和使用。图3为数据安全测试界面。
4 结束语
目前,相关部门高度重视数字化改革工作,明确提出要建设网络强国、数字中国,国家“十四五”规划专门设置“加快数字化发展建设数字中国”章节,并对加快建设数字经济、数字社会、数字政府,营造良好数字生态作出明确部署。数字化改革也是浙江省近年来的热点和重点工作,相关部门对其高度重视,多次召开数字化改革工作推进会。在数字化时代,深化数据治理,对于支撑高校教学、科研和管理,推动学校数字化改革系统迭代、整体提升都起到至關重要的作用。本文提出的深化校园数据治理的解决思路,可以将分散、无序的“碎片化”数据转换成有效的资产,实现从无序到关联、从静态到动态、从隐性到显性,从数据到价值的转换。同时,可以加快推动数据的开放与共享,打破“数据孤岛”,提升数据质量,真正助推学校打造特色鲜明的高水平高职院校。
参考文献:
[1]梁正,吴培熠.数据治理的研究现状及未来展望[ J].陕西师范大学学报(哲学社会科学版).2021,50(2):65?71.
[2]吕庚.新时期下职业院校数字化校园安全隐患及应对策略[J].现代职业教育.2019(36):44?45.
[3]杜振华,茶洪旺.数据确权是大数据应用的核心[ J].重庆社会科学,2016(8):21.
[4]程世豪.面向元数据血缘关系的映射技术及实现[ D].成都:西南财经大学,2020.
作者简介:
葛佳欢(1987—),硕士,研究方向:信息技术。