APP下载

基于数据中心的高校决策支持研究
——以图书馆门禁数据为例

2022-06-23张梦琦

无线互联科技 2022年7期
关键词:数据中心图书馆

张梦琦,易 亮

(重庆文理学院,重庆 402160)

0 引言

当前,国内各类高校都已成功建设了用于日常各类业务处理的信息化服务系统,如智能化办公系统、教务信息管理系统、校园一卡通管理系统、智能门禁管理系统等。但由于此类信息管理系统都是为了解决单一的业务问题,采用单独建设的方式,并未进行多系统集成。因此,各系统之间相对独立,系统之间处于数据隔离状态,形成“数据孤岛”,无法实现系统互联,信息互通。高校内各类业务管理系统每天产生数十万条业务记录,这些存储于服务器的业务数据,既有结构化类型数据,又有日志、文档等半结构化类型数据,同时也存在音、视频、教学课件等多类非结构化类型数据。伴随着时间推移,日常业务记录数据的存储占据大量系统存储资源,如何对未来需要存储的海量数据进行集成与共享,使数据得到更好的利用,减少冗余数据的存储,是当前智慧校园建设中亟须解决的问题。基于此,很多高校提出建设一个能集成共享存储高校各业务系统实时数据、历史数据、音视频文件、日志等信息,满足资源集中融合、统一管理、高可扩展和高可用性的数据中心平台,为智慧校园建设提供数据支撑[1]。

1 建设数据中心

各高校在多年的建设中,已逐步形成和积累了大量优势资源,如师资力量,教学教务、科研资源、管理信息资源等[2]。如何有效地挖掘和充分利用这些宝贵资源,将对高校在学科建设、科学研究、综合管理工作等多方面发挥巨大作用。校园共享数据中心的建设为校园内各类业务系统之间的数据采集、数据分析、数据处理、数据存储、大数据挖掘以及历史数据存储等提供全面技术支持。欲实现各业务系统之间的数据共享与交换,则离不开一项关键的数据仓库技术 (Extract-Transform-Load,ETL)。这项技术用来描述数据从源端经过抽取、转换、装入目的端的过程[3]。

2 决策支持

从目前高校快速发展的现状来看,图书馆为高校管理部门提供决策支持服务对供需双方都有重要意义。

2.1 为学校决策提供信息支持

高校教育的发展离不开科学政策的制定。当前,高校伴随着不断扩张的教育规模,正在发生深刻的变革。随着学生规模的扩大,学科结构愈趋复杂,办学空间越来越大等多种因素的影响,使得高校决策也变得越来越难,越来越复杂。根据以往的经验判断,方案、谈判等形式的决策模式存在效率低、主观性强、缺乏数据支撑等缺点,已不适用于当前的环境。当前,高校在学科规划、人才评估、科研评价等方面的决策制定都需要海量数据作为参考和支撑,通过对大数据进行分析,辅助高校进行科学决策的制定。

2.2 将图书馆融入学校发展的主体

多年以来,各地高校图书馆都通过不断开展多式多样的服务,例如:嵌入式教学、知识服务、面向科研的学科服务等一系列主动性服务,极力挖掘高校图书馆更深层次价值。由于无法充分调动学生的积极性,教师与学生的参与度普遍不高。图书馆因此被作为教学辅助机构,成了被边缘化的弱势群体。如何将图书馆融入学校发展的大潮中,彰显图书馆的特长,发挥出更大的优势,跟上当前高校快速发展的步伐,扩大图书馆在校园内的影响力,开展更加切实有效的学科服务,成为当前高校学科服务关注的焦点。为学校各层级提供决策支持服务,可以有效地彰显出图书馆特长与优势,在一定程度上提升图书馆在校园内的影响力。

2.3 图书馆提供决策支持

为了提高对数据中心的数据的有效利用,本研究使用数据中心的数据对图书馆的图情进行分析,从而为图书馆的科学决策提供数据支持。

针对图书馆的数据进行专项研究,采集图书馆门禁进出的数据,分析师生进出图书馆的人数、在馆时间、高峰时段、各个二级学院师生对图书馆的利用率、教师考勤等。

在本校已建成的数据中心的基础上,应用门禁管理系统对图书馆刷卡、刷脸数据,学生综合管理系统的学生基本信息,人事系统的教职工基本信息,教务系统的课程基本信息,班级基本信息,学院基本信息等,及图书馆的进出数据进行各个维度的分析,例如:本年度全校图书馆进出次数、本年度各二级学院进出次数、教职工的出勤率、在馆时间的统计、本年度在馆时间最长的学生、本年度在馆时间最长的教职工、本年度进出次数最多的二级学院等,对分析结果进行柱状图、条形图等图形化展示,直观地查看统计结果。

3 关键技术

3.1 数据抽取与集成

数据的处理从数据源抽取与集成所需的数据集,提取出数据的实体和关系,经过关联和聚合之后采用统一定义的结构来存储这些数据。而数据抽取与集成并不是一项全新技术,在传统数据库领域此问题就已经得到了比较成熟的研究。伴随新数据源的不断涌现,数据集成算法也在不断演变发展。从现有数据集成模型来说,当前主流的数据抽取集成方式大致可分为以下 4 类:(1)基于物化或 ETL 方法的引擎。(2)基于联邦数据库或中间件方法的引擎。(3)基于数据流方法的引擎。(4)基于搜索引擎的方法[4]。

本研究利用结构化查询语言数据库(Structured Query Language,SQL)语句,从图书馆门禁管理数据库中抽取门禁数据。SQL 语句如下:

其中,本校两个图书馆,博文馆和弘文馆统一改名为图书馆。进馆的标志为0,出馆的标志为1。抽取进出馆时间、学号、姓名、进出标记等有效信息。本研究以学号为“201814254090”的学生查询为例。

3.2 数据清洗

数据清洗是对数据进行重新审查与校验的过程。目的是为了删除冗余重复数据,纠正错误数据,保持数据的一致性[5]。

图书馆门禁的刷卡数据中,每天新增上万条,存在大量的“脏数据”,即无效数据,不符合要求的数据主要是有缺失数据、错误数据、冗余重复数据三大类。采用合适的数据清洗算法,对“脏数据”进行过滤和清洗,取得可以使用的有效数据。

从图书馆门禁数据库中直接抽取的数据中,存在多条连续的进馆记录或者连续的出馆记录,这些记录不符合逻辑,不能被正常使用。

如图1 所示,使用KETTLE 数据转换工具,就表中得数据进行清洗,转换过程如下。

图1 数据转换过程

如表1 所示,通过KETTLE 清洗后,每条入馆数据对应一条出馆数据,表1 为转换后的结果集。

表1 数据转换结果集

3.3 数据分析

数据分析作为数据处理流程的最关键的核心,数据价值在数据分析过程中产生。

数据分析选用合适的统计学方法对经过数据抽取与集成得到的数据集进行分析,将数据进行分类、汇总、理解、消化和吸收,最大化地挖掘出数据的功能,充分发挥出大数据作用。数据分析就是为了提取数据中的有用信息并形成有用结论而对数据加以详细研究和概括总结的过程。数据分析的原始数据由异构数据源中抽取与集成而来的数据集构成,依据不同应用需求选择全部或部分数据进行分析。

抽取与集成图书馆智能门禁管理系统的历史数据经过数据清洗,即可得到有效数据,通过分析有效数据,提取刷卡时间、状态、人员信息等,运用适当的统计学分析方法,得到需要的数据,例如不同时间段内在馆学生人数及学生在馆平均时间等。

3.4 数据解释

即使数据分析在大数据分析处理过程中居于核心地位,但用户往往只关心对数据分析结果的解释。即使数据分析结果正确,如果未能选择适当的算法或方法对分析结果进行解释,那么用户往往很难理解数据分析结果,甚至在某些极端情形下会使得用户产生错误的认知。

数据可视化技术作为大数据解释最有效方式之一,率先在科学与工程计算领域成功运用。数据可视化是利用计算机图形学与图像处理技术将数据分析结果通过图形、图表的形式呈现在用户面前,使用户更易理解和接受,运用条形图、柱状图、饼状图等丰富的图表样式,展现出多彩的数据可视化效果。可视化的大屏可以更直观地展示数据。

人机交互技术让用户能够在一定程度上参与数据分析和解释的过程。交互的方式引导用户对数据分析结果逐步地解释,使用户既能得到理想的数据解释结果,又可以更清晰地理解数据分析的过程,同时也可采用数据溯源技术追溯整个数据分析的过程,更好地帮助用户理解结果。

4 结语

共享数据中心的建设是高校信息化进程中的关键环节之一,可有效消除高校数据建设中存在的信息化孤岛现象,实现不同业务系统间的数据共享。对数据中心的数据进行合理、高效的利用,为高校的科学决策提供有用的数据支持,助力高校信息化的建设,同时也有助于智慧校园的快速发展。

猜你喜欢

数据中心图书馆
酒泉云计算大数据中心
数据中心制冷节能技术及应用
民航绿色云数据中心PUE控制
图书馆
基于云计算的交通运输数据中心实现与应用
去图书馆
Overlay Network技术在云计算数据中心中的应用