职业院校数据中心建设探究与实践
—— 以常德职业技术学院为例
2023-01-08田威
田威
(常德职业技术学院,湖南常德 415000)
随着高校逐步从以信息化基础设施建设和普及应用为主的1.0时代进入到以深度融合、创新发展为主的2.0时代。如何合理配置资源、实现教育资源共享、使资源能最大限度地发挥作用,已成为高校在智慧校园发展阶段需要解决的首要问题[1]。我校当前管理与服务的信息化已经不再满足于对数据单纯的处理和查询,而需要利用这些收集到的大量数据进行相关分析,将其转换成有用的信息和知识,为决策提供有力的支撑,进而提升我校数据服务的能力。因此,建立符合我校的数据中心来统一集中管理数据、分析数据、开放数据迫在眉睫。
一、职业院校信息化建设存在的问题
(一)数据标准不统一,数据孤岛普遍
随着信息化1.0时代的到来,一般职业院校都建设了各类管理信息系统,各类系统都是相对独立的,因此各类系统采用的数据定义、代码集、计量单位、编码方式均自成一体[2]。随着时代的发展,我们要求实现大数据视角下的全维度数据分析和个性化服务,因此需要将各种来源、各种维度的数据汇总到一起进行全局分析。此时,数据时间标准、规范的不统一,使得大量的数据处于游离、孤岛的状态,难以实现关联汇总和大数据分析。
(二)数据质量不高,信息难以整合分析
各个信息系统运行时,由于种种原因(功能缺陷、管理缺位、操作不当等),各管理系统中的数据质量常常存在各种问题。例如,数据项缺失、数据结构化不良、无效枚举项、错误表达格式、数值错误等。另外,部分系统涉及开发的业务流程并不完全符合业务部门的实际业务需求,操作人员就没有使用这部分功能模块,这样导致了一部分高价值数据临时存储在某个电子表格中,甚至只留存了一些纸质材料,这部分数据的准确性、规范性都存在比较大的问题。大数据时代,对于数据分析的任务更是无法实施。
(三)数据协调困难,难以充分利用
各个部门在自己的管理过程中,经常需要用到其他部门生成的数据。但实际的数据协调工作经常面临“黑盒困境”:不知道所需的数据是否存在、存在于什么地方、如何登陆、如何获取、如何解读、如何使用,即使拿到数据以后,也经常发现数据的完整性、准确性缺乏保障,或者还需要找其他部门才能凑齐完整的数据。结果造成找一项数据要与多个部门协调,还要耗费大量的精力进行整合去重、判断正误、对比冲突,致使工作效率低下,费时费力还费钱。
(四)数据共享缺乏管控,数据安全面临风险
传统的数据中心模式下,部分数据实现了初步的整合,并向一部分业务系统提供数据交换共享。但这种模式下的数据共享管理存在管理难点和安全风险。首先,数据的供应只有一种方式,即通过对数据库的配置发布表或视图来提供数据。这种方式的弊端在于:大量的数据库连接配置增加了数据管理的工作量和难度,而数据发布过程中难以监控数据的调用过程、频度、用量等,无法发现和阻止对数据的不当使用,对数据安全管理造成不小的威胁。当管理人员岗位变动时,新接手的人常常无法判断每个接口的作用和业务属性,造成故障排查困难、维护不便。
二、数据中心的建设内容
(一)数据中心整体建设框架
笔者根据我校超融合虚拟化服务器资源以及业务系统整体架构,并且考虑到后续应用场景,设计了我校数据中心建设的整体框架,如图1所示。Oracle用来做主存储服务器,全量采集存储教务、学工、资产等各业务系统数据,使用Hadoop和Spark平台用于后续部署大数据、人工智能等应用。根据我校当前信息化存在的实际问题,数据中心建设内容包含数据治理、数据填报、数据管理和统一开放开放平台等内容。
图1 数据中心整体框架
(二)数据治理
我校的数据治理遵守国家强制标准、参考教育部推荐标准和其他学校数据标准、引入我校已有部分合格标准(含元数据模型和代码集),兼顾各个标准之间的兼容性、一致性以及标准的可扩展性,并且通过与教务处、学生处、图书馆、财务处等各部门协调沟通,深刻了解了我校的管理业务特性,确定数据子集的分类方式,建设和完善常德职业技术学院校级数据标准[3]。制定了学校自定义的编码规范并给出数据分类编码规格说明书,输出了一套符合学校实际的《常德职业技术学院数据标准》(数据子集、标准代码集、编码规范)。在数据治理实施过程中,再次与各部门业务系统管理员确认当前各系统的使用状况和处理细节,制定了一套符合我校数据治理的流程,实施过程严格按照我校制订的数据治理流程执行。具体实施过程如下:
首先,对各管理部门的业务内容、组织机构、管理信息系统、后台数据库信息、数据内容和形态、供需关系、交换共享要求、数据质量问题、可引入的标准资源等进行调研了解并输出数据现状报告。根据数据调研的结果,罗列所有已知的数据来源和分布,记录访问账号和入口,查看实际的数据内容。根据上述数据治理范围目标,从数据来源中识别出目标数据所在的库、表、字段、格式等。
其次,制订数据质量规则(如非空、唯一性、长度、取值范围、枚举范围、关联一致性等)根据每个字段应有的质量属性将正确的质量规则绑定到字段上。执行质量检查,将不符合质量规则的记录识别出来,形成数据质量报告,以便评估数据质量状况,定位有问题的数据,便于下一步修正处理。根据质量报告的内容,确定质量问题的内容、程度,并定位到具体记录。大致上,质量问题分为两大类:结构性质量问题:如代码集定义、表达格式、数据单位不一致等问题。这类问题可以通过批量的、规则化的转换处理即可转换成符合标准的数据,这类问题将通过ETL的转换规则实现质量提升。内容性质量问题:如数据缺失、内容错误等问题。一般情况下,这类问题无法通过简单的批量转换修复,因此需要将问题数据和质量报告提交到数据对应的负责部门,由部门进行核实、采集、填报后形成有效数据。数据修复后,需要记录在业务管理系统中,通过再次采集入库,直至质量检查合格。这部分工作是数据治理的核心工作,是整个过程中最复杂、最耗时的阶段。
最后,将各种清洗转换完成、符合质量标准的数据导入到之前已经建模完成的表格中,即形成了符合校标的、质量达标的成果数据。
当前已经完成对学校教务系统、人事系统、学生综合管理系统、网站群、办事大厅和统一身份平台、一卡通平台、教育阳光服务平台、财务系统、微信掌上云推平台的数据治理,通过数据治理后的结果统一对外共享和交换数据。
(三)数据填报系统
我校绝大多数数据都在业务系统中进行管理,数据存储在数据库中。但我校还存在部分业务系统不太健全的问题,有一些有价值的数据并没有通过业务系统进行管理,而是直接利用电子表格进行记录,如学综系统学生个人操行分、学生上课纪律情况登记等。因此,仅采集数据库中的数据,并不能完整地采集所有具有业务价值的数据。为了实现全量数据治理,必须采用系统化、高效率的方案将线下数据也纳入管理和采集的范围。
学校需要数据填报及审批系统,用来将线下的Excel记录的数据进行采集,使用数据库进行记录,并提供WEB界面对数据进行查看、编辑,从而使原先线下的数据生成过程完全在线化。同时,可以体现简单的流程协作能力,实现多用户的协同操作,即不同的用户去操作同一个表格,每个人负责编辑不同的字段。这些功能的组合可以实现一个简单的业务管理系统那样的多岗位流程管理功能。
具体操作时,由数据填报的发起部门设计好表格结构,将表格的编辑权限以及各字段的编辑权限分配给合适的对象,然后通知对方填写数据。数据填写完毕后,数据将自动记录在数据库中的一个表中。后面再通过ETL过程将数据进行采集、标准化、封装等过程,即可形成可供全校共享使用的标准化数据资源,数据填报系统如图2所示。
图2 数据填报系统
(四)全量数仓管理和开放平台
全量数仓管理平台,如图3所示,为管理人员提供直观、全面的数据治理工作展示页面,帮助管理人员快速了解当前业务系统的使用情况。通过数仓管理平台,管理人员能查看业务系统原始库、数据集中库、数据仓库这几类数据。其中业务系统原始库:用来直观展现业务系统数量、涉及部门、数据表张数、字段数、数据记录数等信息;数据集中库:用来直观展现体积大小、数据表张数、字段数、数据记录数等信息;数据仓库:用来直观展现体积大小、数据主题分类、涉及标准数量、数据表张数、字段数、数据记录数等信息,从宏观和微观角度去全面掌控学校的数据。管理人员能定期生成业务系统使用检查报告,详细列举出各系统存在数据缺失的信息项、数据不符合校方数据标准的信息项、数据存在错误等信息项,按照业务系统使用部门进行通知分发,令部门系统负责人进行整改,从而有效提高学校业务系统的使用质量。
图3 数仓管理平台
统一数据开放平台,如图4所示,是数据中心建设的核心系统,着眼于大数据管理及应用开发、大数据计算等层面,实现学院的一站式大数据落地,从根本上解决各业务系统“信息孤岛”的问题。平台需要为学院各应用系统、教务系统、人事系统、学生综合管理系统、办事大厅和统一身份平台、网站群、一卡通平台、教育阳光服务平台、财务系统、微信掌上云推平台等提供统一、安全、高效的数据出口服务,以解决传统数据贡献该过程中的沟通成本高、效率低等问题。平台提供数据服务的方式包含数据API、数据库链接、离线数据下载,安全保障方式为申请、审核、调用、监控等流程,数据提供方只需要简单地编写SQL语句,通过Web可视化编辑配置数据库信息,便可完成数据的开放。数据使用者只需在平台上便捷申请所需数据,当管理人员收到消息通知后,管理人员可以直接进行线上审核,即可通过API调用、数据库连接、离线文件下载三种数据开放方式获取所需数据,其中,API调用满足轻量级应用系统开发的数据调用需求;数据库连接在数据访问负载非常大超出API响应能力时使用;离线文件用来下载日常工作需要的电子表格形式数据,数据使用人员可以根据不同场景灵活选用适合的开放方式。数据的开放和共享全程线上完成,大大提高数据开发效率。
图4 统一数据开放平台
(五)日志处理工具
我校对数据治理存在的普遍性问题进行总结,针对我校日志体量大、日志厂商类型多等问题,通过部署CDH集群解决数据体量大的问题,满足我校日志数据处理的需求。同时根据厂商提供的数据字典,进行高效率解析,解析之后的日志数据体量仍然非常庞大,日志处理工具支持通过数据计算功能对解析之后的数据进行大体量的分析计算,满足高校对数据分析处理计算的需求,帮助高校解决日志数据分析的难题。支持通过可视化的图表将计算后的结果数据进行呈现,让分析出来的数据清晰可见,能够让数据使用起来,发挥出数据应有的价值[4]。
三、数据中心建设成果应用展示
当前我校基于微信掌上云推平台,自主开发了学校重要新闻和重要通知推送、网上报账、数字迎新、教务查询、财务查询、故障报修、数字资源等52个应用,如图5所示。学生能通过教务查询完成在线选课、教学评价、查询课表、查询成绩等操作;教职工能通过财务查询应用查询自己的工资发放明细和在线完成网上报账手续;师生能通过故障报修应用对学院网络故障、教室和宿舍内硬件故障等问题在线报修;校园资讯应用能实时推送学校重要新闻和重要通知,学生能第一时间收到学校的各种政策,师生能够及时了解学校的防疫政策,团结一心,共同抗疫,增强了学校师生的凝聚力;数字资源应用能让师生利用碎片化时间,随时随地浏览学校的图书资源,充分发挥出了学校自购的数字资源的使用价值。掌上云推平台52个应用的数据均来自数据中心统一开放平台,通过统一开放平台,只需要简单地书写SQL语句便能完成数据API的开放,完成系统与系统之间的数据交换和共享。
图5 掌上云推平台
四、结束语
目前我校已初步完成数据中心建设,解决了我校在信息化建设中遇到的主要问题。数据治理作为数据中心建设最主要的环节,它的建设不可能一步到位,我校的数据治理还存在很多细节问题,还需要花更多时间和精力去探索,不停地优化和完善我校数据治理标准。如何将大数据分析、云计算、人工智能等技术应用在数据中心,设计更多综合统计分析报表,并以更直观的图形和图表展现给部门和院级管理者,使设计人工智能应用更好地服务于学校师生的学习和工作,还需要多去参考学习国内外智慧校园建设比较成功的案例。