APP下载

打破信息孤岛构建民办高校新型数据交互中心

2020-11-25任颢长春财经学院

数码世界 2020年2期
关键词:新生数据中心民办高校

任颢 长春财经学院

关键字:信息孤岛 民办高校 数据中心

1 新型数据中心建设的意义分析

信息化是当今世界经济和社会发展的大趋势,对提高企业竞争力至关重要。但是企业的信息涉及面广,各种应用系统常常不能有效地共享数据,不断增加的安全威胁对数据的安全性提出了挑战,急剧增长的数据量使得既有的存储容量和应用系统难以适应企业的需要。因此建设高可靠、大容量的数据中心十分必要。

对于民办高校而言,安全问题可能是建校的根本。网络安全是各类安全保障中尤为关键的一环,对于学生的个人信息保护,财务数据的保密,教学成绩的维护等起着重要作用。另外,数据孤岛的存在,极大地阻碍了工作效率的提升,使得各业务系统仍然要通过传统的报表,文档形式进行数据互通,根本无法发挥出系统的最终作用,所以建设新型的数据中心势在必行。

2 数据中心的数据层面建设分析

信息孤岛问题一直存在,需要按照一定的思路、方法去逐一打通。

2.1 规划数据流转方式

数据具有一定的流转方向,为了使数据的流向明确,首先要分析各业务系统需要哪些数据作为业务依托、同时产生哪些数据,其中又有哪些数据可以被抽取,要具体到类别,以流程图的方式表现出来。如,迎新系统数据流转情况如下:

迎新系统:

接收数据:新生录取信息(源自招生)、教学机构(源自教务)、寝室信息(源自学工)、学生缴费数据(源自财务)。

产生数据:学号(自身生成)、新生基础数据(由新生录取数据获取)、新生学籍数据(自身分班产生)、新生住宿信息(自身产生)。

推送数据:

推送至教务系统:新生基础数据、新生学籍数据(上述数据经学籍注册后,转为学生基础数据、学生学籍数据);

推送至学工:新生住宿信息(由宿管系统登记入住后,转为学生住宿信息);

推送至中心库:新生报到信息(用于各个地区、分数、学生类型等大数据分析及信息门户平台展示)。

2.2 确立数据采集源

在高校中,学生和教师是最主要的两个角色,一般情况下,会直接定义将人事系统基本数据作为教师基本数据,将教务系统数据定义为学生基本数据,但是以往人事系统在高校,尤其是民办高校中的应用非常狭隘,人员信息大多登记于Excel表格中,而更具有挑战性的是相当一部分教师数据是只存在于教务系统中的,这就造成了数据混乱,且极易产生大批量的垃圾数据。因此,第一步,确定教师数据必须以人事系统为准,其余各系统待数据中心建立起来后分别接受被推送的人员数据,这个过程中势必会引发业务上的阵痛—数据清洗,并且是大量的数据清洗,而通过承受这种短期的阵痛,高校各部门的业务系统会统一享受到数据交互带来的便捷与工作效率的极大提升。经过数据清洗,确定了教师数据来源于人事系统,学生数据来源于教务系统。

2.3 建立数据标准

数据源确定好了,各业务系统将第一次接收到数据中心推送的数据,这时就需要对数据的标准化,格式化进行统一的规范。这件事情在实际操作中,不仅有技术上的难度,还会有人为影响的因素。技术方面,要对所有未经统一规划的数据进行统一化的转化,由大类到小字段,每个细节都必须顾及到,不仅要对各业务系统相互推送的数据进行规划,还要对非抽取数据,但是要留存的数据进行统一的标准化就会涉及到人为的因素,因为民办高校普遍信息化水平较为落后,对于信息化建设方面并无太多想法,再加上以往的工作局限性,很容易就拒绝提供非抽取数据的字段名、类别、长度等等,尤其涉及到本部门的权利问题,故要建立一套规范化,统一化,标准化的数据标准,是需要校领导牵头,协调相关部门,技术人员专业过硬等等诸多相关因素的。

2.4 规划ETL中脏数据清洗机制

由于各系统原有数据与标准数据的结构、编码不同,但又需要数据交换,因此需要制定出一套整理数据清洗、转换机制。对于不同的数据进行不同的处理,具体可分为以下几类数据:

针对数据缺失严重、可用性极差的数据进行完全清理;

针对数据少量缺失、可用性高的数据进行必要性完善;(规则性补充)

针对不符合标准的数据进行结构、格式对应转换(代码、编码对应转换)

针对完全符合标准的高质量数据进行集中保存。

具体的数据清洗方式可分为以下几种:

(1)手工实现:人工检测所有错误并加以改正,当然这种方式只适用于小数据量的数据源。

(2)通过编写应用:通过编写应用来检测错误,并加以改正,但是这种方式不太适用于民办高校,因为清洗数据反复进行,使得所用的程序工作量巨大,而民办高校少有可以做好此类应用的条件。

(3)某些特定领域的数据问题,比如可以根据概率统计学来查找数据异常的记录。

(4)与特定的清洗领域无关的数据清洗,这一部分的研究主要集中于重复记录的检测以及删除。

2.5 编制业务系统接口标准

作为数据处理的第一步,首先要梳理系统当中的中、高质量数据情况,根据系统中现有数据类型、格式进行调整,初步规范哪些数据可作为本系统提供的可复用数据(推送其他业务系统数据)及结果数据,对这两类数据提供不同流转方式及接口。可复用数据可通过中间库转换为统一格式,存储并向其他数据库进行转换、推送;结果数据可在筛查之后进行中间库转换,并存储至中心库,为之后的数据展示、数据分析奠定基础。

2.6 数据交换的规则

根据需要应该建立中心库、中间库机制:

业务系统复用数据——中间库

业务系统不良结果数据——中间库(清洗)——中心库

中间库作为数据交换及清洗缓冲地区,以业务系统分类,数据量杂乱,多保存过程数据。

中心库数据作为数据大数据分析基础,只保留各系统最终结果数据,推送中的过程数据不进入中心库。

2.7 突发事件处理机制

针对流程性业务数据的突发情况,(例如新教师入职,人事有数据后,接口没法用,无法推送给其他部门),要多做冗余,经常抽取,频查日志,防范于未然。另外,对于硬件性的突发故障,没电查电,没网查网,要对各种突发事件做到心中有数,处理及时且妥当。

3 数据中心数据的前景与发展

有了规模性的数据,还需要针对数据进行纵向梳理。截止目前所做的打通数据孤岛全是纵向整理,即让业务系统数据流转起来,对数据的横向整合,以人为单位,分门别类,对于某位学生整个在校期间和某位教师整个生命周期的所有贯穿在各业务系统中的数据情况进行统一整合,处理,分析,展示。

当数据完善工作完成后,就完成了数据集中转向数据仓库的工作,此时的数据仓库是一个巨大的,有迹可循的完善的存储池。然后就是大数据分析,以人为单位,使数据仓库转换为数据“集市”。根据趋势分析,数据集市的应用,可以进行个人行为的精准把控,预测。

4 结论

数据中心对于民办高校的实际作用非常重大,小至学生的日常行为把控,学校某些消费区域的相关价格调整,教师日常工作的偏好习惯;大至学校未来发展分析,招生招聘缺口把控等等,这些都对于民办高校有着颠覆性的意义。

猜你喜欢

新生数据中心民办高校
重获新生 庇佑
浅析数据中心空调节能发展趋势
民办高校图书馆电子书资源建设研究
关于建立“格萨尔文献数据中心”的初步构想
可持续竞争优势理论下民办高校可持续发展
“分类管理制度下民办高等教育发展战略研究”成果报告
坚守,让百年非遗焕新生
2017第十届中国数据中心大会榜单
民办高校大学生就业焦虑研究——基于社会支持视角
新生娃萌萌哒