高职院校全量数据中心建设研究与实践*
2022-11-26孙兵,刘贺
孙 兵,刘 贺
(扬州工业职业技术学院,江苏 扬州 225127)
1 高职院校数据中心建设现状
随着之前数字化校园建设工作的全面展开,高校在网络基础设施和线上系统建设等方面进行了大量投入,信息化水平得到显著提升,但是在数据层面的建设成效却不明显,不少院校甚至没有建设数据共享交换平台,数据依然还是以线下单点交换的方式进行共享交换;即使部分学校建设了数据共享交换平台,但由于受限于其技术架构,使用过程中问题也日益突出。
1.1 缺乏统一管理架构
学校在数字化校园建设时期没有认识到校级数据资产的重要性,没有建立起一套自上而下、再自下而上的数据管理组织架构[1],用以统筹和规划学校信息化建设中的数据管理和使用规范。
1.2 缺乏统一数据标准
在推动线上业务系统建设过程中,学校并未建立起一套在国家信息化标准统一下的校级数据标准加以规范,或已建标准但没有落地执行,导致各个业务系统在建设时依然各自为政,数据孤岛问题依然突出。
1.3 缺乏统一数据管理
在前期信息化建设过程中,数据共享交换平台只进行了部分数据的集中,未对历史数据进行采集和留存,导致数据集中层面的空间和时间维度欠缺很多,不能支撑智慧校园顶层应用对数据的需求。此外,数据从采集到管理,直至对外共享开放,整个环节均呈现“黑盒化”状态,学校信息化部门难以对其进行统一全程管理,导致数据建设的成效无法复用。
1.4 缺乏统一数据共享
数字化校园建设时期,部分数据实现了初步的整合。但是数据的共享交换方式较为单一,即通过发布表或者视图的方式来进行数据共享,这种方式需要通过大量的数据库连接配置工作,增加了数据共享管理的工作量和难度,以及数据运维成本,而且数据共享开放过程难以有效监管,在数据安全管理层面会造成极大的风险。
智慧校园建设时代,各种应用分析系统对数据有着更为强烈的需求,需要更多维度、更高质量、更加便捷的数据,而许多高职院校还没有自己的全量数据中心,难以支撑智慧校园建设需求。因此,构建一个全维度、高质量、可管控、开放性的全量数据中心,对高职院校当下信息化建设有着极为重要的意义,对提高学校治理能力现代化水平有着不可或缺的支撑作用。
2 校级全量数据中心建设思路
充分利用信息化手段、大数据分析等技术对高职院校的线上业务系统、线下表格、日志设备及系统、物联网系统等结构化数据和非结构化数据进行统一采集、治理、管理和开放,构建全链路数据体系的全量数据中心。
1) 以支撑智慧决策、提升教学管理、服务人才培养为宗旨。对标教育部发布的《教育信息化2.0行动计划》,并综合考虑高职院校的诊改工作要求,校级全量数据中心的建设要以目标为导向,始终坚持将“支撑智慧决策、提升教学管理、服务人才培养”作为核心任务,要能够实现统一标准、上下联动、资源共享,能够消除信息孤岛,能够为学校教学管理水平提升、人才培养提供数据底层支撑。同时,以精准的数据统计分析,为学校的智慧决策提供辅助手段。
2) 以构建数据管理架构、完善数据管理制度为保障。全量数据中心的建设涉及到学校的大部分业务部门和工作流程,仅靠技术层面难以实现,还需从顶层规划数据管理的组织架构和管理制度作为保障,做到技术和管理两条线并行,推动数据中心的建设工作。
组织架构方面,建议成立数据中心工作小组[2]。决策层:由信息化分管校领导担任总协调人和责任人,负责提出总体建设目标、确定协调机制、进行重大决策等工作;控制层:由信息化部门负责整个数据中心建设的过程控制工作,具体负责技术层面标准的制定、工作环境的搭建、核检数据质量等内容;执行层:由各业务部门、二级学院、系统开发商等单位组成,主要负责部门间数据协调、数据字典提供、错误数据修正等工作。只有建立了这样自顶而下的数据管理组织架构,才能将信息化部门、业务部门、二级学院、系统开发商等各个单位融合在一起,让每个部门都有明确的职责,各司其职,才能保障数据中心的建设工作高效推进。
数据管理制度方面,每个学校可根据自身的实际情况,建立一套完善的数据管理制度,从顶层规范全校数据的交换、质量、共享开放、安全等方面,并下发给全校各部门执行。
3) 以制定数据标准为手段,逐步消除数据孤岛。学校已经建设的线上业务系统,大部分都是根据自身业务要求设计开发的,在建设时并没有考虑到数据层面的融合问题,每个系统都是相互独立的,信息呈“烟囱”式、“孤岛”化。随着线上系统建设越来越多,信息孤岛的问题日益突出,严重制约了学校信息化建设的发展。因此,通过校级数据中心的建设,要想达到彻底打通数据壁垒、消除信息孤岛的目的,首先就是要标准先行。在进行数据集中和治理之前,通过业务部门的调研,参考教育部标准,再结合学校实际情况,制定符合学校实际的校级数据标准,在元数据、编码规则等方面构建统一的数据标准体系和准入机制,为后面数据中心标准数据仓库层建设提供依据。
4) 以建设全量数据中心为目标,保证数据维度全面性。对高校而言,有价值的数据不仅包括线上业务系统数据,还有很多线下数据往往容易被忽略,比如一些未建线上系统的线下数据,这部分数据大多存在于管理人员的线下表格中;还有网络设备和系统产生的日志数据,这部分数据作为行为动态数据,具有极高的分析价值,但是这部分数据有别于传统的业务数据,数据体量很大,且不是常见的关系型数据结构,因此需要经过基于Hadoop 的大数据技术处理才能纳入数据中心并产生价值;还有一部分数据从时间维度上看是历史切片数据,这部分数据在以前的共享交换平台中是不被留存的,但是在构建大数据分析应用时,这部分数据因带有时间轴属性,非常具有分析价值。在构建校级全量数据中心时,要充分考虑到学校当前及未来的需求,将上述这些不论是空间维度的多源异构数据,还是时间维度的历史切片数据,在采集层都进行全量集中,以保证数据维度的全面性,为未来的数据应用与分析提供有力支撑。
5) 构建全链路数据监控体系,持续提升数据质量。数据经过全量集中后,需要对数据的全链路进行监控,尤其是对数据的质量要进行核检,这也是数据治理工作的重要环节。核检出的数据问题一般分为技术性问题和内容性问题两种。其中,技术性问题如身份证号码长度错误、手机号码长度错误、学号含有不应该出现的字符等,这一类技术性问题可以通过数据中心平台的数据质量检测模块检测出来,并形成数据质量报告,通过流程平台反馈至数据源头部门,进行对应修正;另一类内容性问题,如身份证号码与实际不一致、教职工号数字错误、教师论文统计数量错误等,这一类问题需要通过建设个人数据中心、领导驾驶舱等数据统计分析应用,让数据对个人、部门可见,通过个人或者部门对相关数据进行查验核对,并提交数据源头所在部门进行修正,保障数据及时更正和准确。通过上述两种问题的闭环修正流程,可为学校建立起一套完整的数据质量持续提升体系,确保智慧校园顶层应用对数据的高质量要求。
6) 数据统一便捷开放,切实降低数据使用门槛。就数据来讲,共享与分析即价值。之所以把各种空间维度和时间维度的数据都纳入全量数据中心,并且对数据质量进行闭环提升,最终目的是进行数据应用与分析,只有数据分析了、使用了、与部门和师生见面了,这个数据才有价值。因此为了使智慧校园的应用生态更加繁荣,需要通过构建全量数据中心提高统一数据开放能力,切实降低数据使用门槛,让数据的使用变得更加便捷、更加快速,使用者和审批者可通过轻量级的API 接口等方式进行数据的申请、审批、获取,保证应用系统快速上线。同时,在数据开放过程中,建立统一的安全管控通道,可对数据对外发布的全过程进行安全监控,防止出现数据安全问题。
7) 建设相关数据应用,检验数据中心能力。全量数据中心的建设核心是要为教学管理、科研管理、人才培养、智慧决策提供服务,数据中心的建设成效需要通过这些应用的构建去实际检验。因此,在建设数据中心的同时,可构建1~2 个与数据强相关的应用,如综合校情、师生个人数据中心、师生综合数据查询服务中心等,通过这些应用验证数据维度、数据质量、数据开放等核心能力。
3 全量数据中心平台落地实践
扬州工业职业技术学院在前期的信息化建设历史浪潮当中也做了很多的基础建设工作。新形势下,高校信息化建设产生变革,对学校的智慧校园建设又提出了新的要求,尤其是一些政策方向,不管是教育部的《教育信息化2.0 行动计划》以及学校的“十四五”建设规划,还是学校党政工作要点、高职院校诊改工作的要求等,都对学校的信息化工作提出了更高的要求。学校在2018 年就开始考虑以诊改工作为抓手建设全量数据中心平台(见图1),实现校园数据互通共享,在教师发展、学生成长及云课堂资源、一站式流程等建设方面都发挥了非常重要的推动和促进作用,并逐步建立起以软件硬件环境平台为支撑的“统一高效、资源整合、信息共享、智能监管、便捷服务”的“智能校园”信息体系。
3.1 数据统一标准、统一集中、统一管控、统一开放
统一标准:全量数据中心建设需以“标准先行”为牵引,在建立校级数据管理组织架构的基础上,统筹各部门制定符合学校实际情况的校级数据标准,并以此为标准,指导后续标准数据仓库的构建以及新业务系统的接入,构建起学校的数据准入制度[3],并在后续系统与应用建设中严格遵守执行。校级数据标准包括代码标准、编码规范、命名规范等方面,标准制定完成后,以正式发文和平台展示的方式在全校范围内进行发布,发布后将数据标准、版本说明进行保存备案,并将其作为成果数据存储的格式规范进行统一的管理。
统一集中:校级数据标准制定发布后,需要对全校数据进行汇聚。通常,学校范围内的数据主要为关系型数据库(含业务系统、物联网数据)、日志数据(含机器设备、软件系统) 以及Excel 文件等数据形态。需要通过全量数据中心的不同采集工具,针对上述不同形态的数据进行全量采集与存储,保证各类数据在数据湖层面做到数据全量、维度集中,确保能够满足智慧校园上层应用与系统对数据使用的需求。
统一管控:通过建设数据治理平台,对数据湖中的数据和标准数据仓库中的数据进行质量检查。根据数据的业务特性,对数据进行字段级质量规则绑定,配置相关的数据检测规则,一般可分为非空性、唯一性、值域有效性、枚举有效性、关联一致性、正则规则等几个方面。通过数据治理平台定时生成数据质量报告,并推送至相关源头业务部门,进行数据质量闭环提升[4]。同时,元数据作为全量数据中心最核心的部分,支撑了整个数据资产管理的全过程,可以完整地呈现数据全生命周期的链路,因此全量数据中心需要提供专业的元数据管理功能,通过元数据采集、版本管理等技术手段对技术元数据、业务元数据、管理元数据进行综合管理与呈现。
统一开放:数据对外开放是数据中心建设的重要一环,通过构建统一数据开放平台,定制了基础数据集和指标类数据集,提供了针对不同业务场景的多种数据服务方式:轻量级API 接口、文本订阅、数据库直连等,通过数据集市方便第三方开发者使用数据。针对数据对外发布的全流程,都可进行数据脱敏加密和安全监控,保障数据使用安全,并能在出现问题时追踪溯源。同时,基于统一数据开放平台构建校级数据资源目录,可面向数据管理中心、各职能部门、校内师生和软件开发者提供数据资源查看使用、数据事务处理、状态监控、授权管理的功能,为数据使用者(包括部门、岗位、师生) 和数据管理部门提供数据资源查看、申请、管理和访问入口,实现数据资产管理、供给、审核的一体化管控,提升公共数据服务能力,加快业务应用的快速落地。
3.2 建设数据分析应用
为检验全量数据中心平台建设成效和将数据资产可视化,充分挖掘数据价值,释放数据红利,以精准的分析应用为学校的校务治理工作提供辅助手段[5],学校还同期建设了大数据领导驾驶舱,以人事、科研、教学、学工、资产等不同主题将数据从多种维度进行直观化的展示,为校领导决策提供支持(见图2)。
3.3 未来建设规划
全量数据中心需要持续深化建设,在前期建设基础上,需要不断夯实数据中心的运营能力,充分释放出数据的价值,为学校建设服务。具体如下:第一,持续建设完整的校级数据资产目录体系,深度解决数据质量“最后一公里”问题。第二,做有温度的信息化建设,发挥数据中心的作用,解决师生重复填报问题;基于已采集和治理的数据,更多地为部门和师生做一些数据分析,为教学、科研和管理服务。第三,建设个人数据中心和师生综合数据查询服务中心,让数据“活”起来,让数据见到人,这样既能让数据对师生个人有价值,也能保证数据质量工作的常态化提升。
4 结束语
本文分析了高职院校数据中心建设现状及智慧校园建设需求,结合学校现有业务系统数据、线下数据、日志类型数据,对全量数据中心建设进行研究,并根据扬州工业职业技术学院的实际建设经验提出建设思路,为其他高职院校的全量数据中心建设提供参考借鉴。