职业院校数据治理框架模型的构建*
2022-11-17盘锦职业技术学院王菊郑黎明魏孔鹏
盘锦职业技术学院 王菊 郑黎明 魏孔鹏
随着职业院校信息化的不断发展,职业院校数据呈现更多元化的状态,传统的业务系统建设模式已不足以满足职业院校当下对于数据深层次挖掘利用需求,同时在大数据的背景下,数据的隐私和安全也是需要核心保障的。而对于以上两点的需求,传统的主数据平台(数据中心)建设模式无论是从能够容纳的数据体量以及数据供给的模式均无法满足需求。有鉴于此,针对职业院校信息化的特点,有针对性地提出了职业院校数据中台的建设模式,解决数据的存储、连通、使用三类核心问题。
职业院校在数据治理方面区别于本科院校的地方在于,一是信息化技术基础比较薄弱[1],信息化技术人员的经验和能力较为欠缺,二是职业院校虽然师生人数、办学水平等比如本科院校,但是由于职业院校基于人才实践能力的培养,在实验实训方面的建设[2]要优于本科院校,与之相对于的是对实验实训方面的信息化建设平台、软件和架构是本科院校没有的。基于以上两点,职业院校进行数据治理所面临的场景更复杂,遇到的困难更多。有鉴于此,构建适合职业院校的数据治理模型,需要更扎实的研究和实践,以期解决数据孤岛、数据协调、数据来源、数据发布和数据质量这5类问题,以及数据治理过程中遇到的数据采集、治理数据、发布数据、管理数据和分析数据这5类问题,最后形成以下5个体系:数据标准体系、数据资产体系、知识库体系、数据处理分析体系、制度规范体系。
1 职业院校数据治理的总体架构设计
职业院校数据治理框架的设计面临两种情况:一种情况是职业院校的信息化建设刚刚开始,这样可以从基础上构建一套可适应未来的数据治理框架,另一种是职业院校经过多年的信息化建设,已经自主开发或者购置多套信息化系统,积累了分属不同系统的数据。第一种情况对于设计数据治理框架相对简单,因为不存在第二种情况的数据孤岛、数据标准不统一、数据来源不一致的问题。现在从技术角度出发,数据中台是比较适合职业院校数据治理框架的平台和标准。
具体而说,数据中台并不是一个跨时代的全新理念,其建设的基础还是数据仓库和数据中心,在数仓模型的设计上也是一脉传承,但在传统的建设模式上升级了底层架构,并通过配套的工具进行组合,形成数据从采集、存储、计算、使用、管理等环节的闭环,进一步降低数据的使用门槛。
数据中台安装从底层到高层的逐层设计,依次为数据源层、数据采集处理层、数据仓库平台层、数据应用层。
数据源层包括MIS系统结构化数据、外部数据、日志数据、线下表格数据等。其中MIS系统结构化数据来源于职业院校前期建设(自主研发或者购买)的各信息化系统的数据,不同职业院校所拥有的信息系统不同,但是大体上包括以下全部或者部分系统:教务系统[3]、学生工作管理系统、招生系统、校友系统、财务系统、OA系统、一卡通系统、资产系统、图书馆系统、人事系统、科研系统、就业系统、第二成绩单系统、实验实训管理系统等。外部数据包括来自于Web、论坛、微博等的数据。日志数据[4]包括上网行为、无线WiFi、网络安全、服务系统、上网认证、数据库等数据。线下表格数据是不同的信息化系统中导出的数据,或者没有被信息化系统覆盖的各部门之间传递数据,或者职业院校向上级主管部门体检的Excel数据。
数据采集处理层包括数据治理工具和日志处理工具。数据源层的不同结构的数据通过不同的处理方法被采集到数据采集处理层进行处理,比如MIS系统结构化数据通过ETL工具[5]进行采集,线下表格数据通过线下数据采集进行采集、外部数据通过爬虫[6]进行采集、日志数据通过Flume进行采集。数据质量工具包括:数据标准管理(制定数据标准)、元数据管理(元数据采集)、数据任务监控(盘点采集数据)、主数据管理(数据分类建模)、数据质量管理(质量检查修正)、数据共享交换(主题数据入库)。日志处理工具包括:日志存储、数据解析、数据关联、数据透视、检索计算、数据可视化。
数据采集处理层通过数据治理工具得到的数据治理输出成果包括管理规范体系、数据标准体系和数据管理知识库体系。其中管理规范体系包括数据标准遵从、标准内容管理、标准发布更新、权威数据责任、数据质量保障、数据安全职责、应用开发规范、交换共享规范。数据标准体系包括:元数据模型、标准代码集、编码规范、对象命名规范、接口交换标准、数据质量标准。数据管理知识库体系包括:数据资产目录、元数据库、数据UC矩阵、数据血缘关系、质量规则库、数据质量报告。
数据仓库平台层通过数据资产管理子系统构建统一数据管理平台,从下到上包括关系型数据库、大数据组件、数据仓库、数据管理和数据供给。关系型数据库包括:Oracle、MySQL等,大数据组件包括分布式计算、分布式存储、高速检索、高速缓存、机器学习、NoSQL、流失计算、资源管理。数据仓库包括主题数据、派生数据、历史数据。数据管理包括数据封装、接口发布、数据授权、计算模型、数据模型、应用管理、隐私加密和用户管理。数据供给包括DB接口、API接口[7]、文件输出。
数据应用层包括统一数据应用平台和智慧校园应用两部分。数据仓库平台层通过数据供给的DB接口、API接口和文件输出提供数据给数据应用层的统一数据应用平台。统一数据应用平台从下到上包括应用服务、应用工具和应用容器。应用服务包括API对接、消息推送、定时任务、安全加密、多级缓存、运维监控。应用工具包括可视化设计、计算编排、页面生成。应用容器包括统一UI、统一权限、统一体验。统一数据应用平台通过应用容器开发智慧校园应用,包括数据可视化分析、学生个人数据中心、教师个人数据中心、综合校情决策支持、一站式服务平台[8]及其他应用。
2 职业院校数据治理方案
数据是一个组织唯一的、非耗竭的、无减损的长期资产。数据治理是一种体系,从范围来讲,数据治理涵盖了从前端事务处理系统、后端业务数据库到终端的数据分析,从源头到终端再回到源头形成一个闭环负反馈系统(控制理论中趋稳的系统)。从目前来讲,数据治理就是要对数据的获取、处理、使用进行有效管理,从发现、监督、控制、沟通、整合等方面构建组织数据资产。
“十三五”建设目标中智慧校园[9]的高质量运行需要多维、完善、准确的数据来支撑,而当前职业院校的数据现状与此要求相比,还存在很大的差距。主要表现在:数据标准不统一、数据孤岛普遍、数据治理不高、不够完善、来源不清、管理发布共享困难等。本质原因是传统数字化校园建设中“重流程、轻数据、缺标准”的历史状况所致。学校作为数据的生产、持有和使用的主体,面对这些纷繁杂乱、若隐若现、捉摸不定的数据,难以关联、统计、分析、挖掘,更无法形成整体数据资源,数据的价值更加得不到充分高效的开发利用,管理水平难以提升,重要决策难以支撑。这种情况下,“智慧校园”的推进收效甚微。
针对职业院校普遍存在的“数据问题”,探索研究了建立基于数据中台建设的完整的数据治理解决方案。方案对职业院校内外的全量数据进行盘点、梳理、采集、整合、清洗和标准化,建立一个标准统一规范、来源权威稳定、数据高度融合、数据治理可靠的全量数据平台,实现对数据的全面采集、规范建模、质量提升、安全存储、可控共享和充分应用。
数据治理主要活动包括设计职业院校校级数据标准,全量采集各种管理业务数据、电子表格数据、日志数据等,并对数据质量进行验核,针对质量问题进行清洗、转换、去重、补漏、纠错等操作,再按照标准模型和标准代码进行统一建模存储,形成战略级数据资产,并由大数据平台进行承载和运营发布。
通过开发数据治理工具软件、表格数据处理软件、日志数据处理软件、大数据平台,可以使整个治理过程可靠、可控、可视化,降低了数据治理的技术难度,显著提升了工作效率。同时,通过提供管理咨询服务和顶层架构设计,形成数据标准体系、数据工具体系、数据管理知识库体系和数据管理流程[10]制度体系,使数据资产成果能够长期持续、可继承、迭代和完善。
基于治理后形成的全量、标准化、高质量的数据资产,利用数据统计、机器学习、人工智能等大数据相关技术,实现各种微观、中观、宏观尺度的统计、挖掘、分析、预测,为广大高职院校师生、各个业务部门、各级领导提供数据化、智能化的智慧校园服务。
3 结语
数据治理是一个具有多个业务系统、复杂数据的组织解决数据问题的唯一出路,对于高职院校,数据来源的获得、数据标准的制定、数据治理的技术人员的招聘和培训等各方面都有难度,所以构建一个适应职业院校的数据治理架构模型至关重要。在此之上才能打好职业院校信息化和智能化的基础。