基于高校数据中心的数据分析

2021-11-02杨众王旭东丛玉正

计算机与网络 2021年17期

杨众王旭东丛玉正

摘要：随着信息化技术的快速发展，高校的信息系统日趋完善，各种信息系统如学习平台、教学和办公应用系统都运行在数据中心，数据中心存储了大量的业务信息。对高校数据中心存储的各类应用数据进行抽取、转化和处理，建立面向主题的数据仓库。对系统数据进行挖掘和探索式分析，以可视化驾驶舱的方式直观地展现学校的实际数据状态，通过对数据的可视化分析可以为学校在办学、人才培养和学生管理等方面提供数据支持和决策。

关键词：数据中心；数据分析；数据仓库；可视化；智慧校园

中图分类号：TP393文献标志码：A文章编号：1008-1739（2021）17-65-4

0引言

自教育部发布《教育信息化十年发展规划（2011—2020年）》以来，国内各高校对信息化建设大力投入，各类业务系统逐步建设完善，信息化服务水平不断提高[1]。数据中心的建立有效地解决了各系统数据存储分散、数据标准不一致和数据共享困难等信息孤岛问题。下一步将围绕如何发挥数据中心的数据价值进行研究，对数据中心存储的大量业务数据进行有效挖掘，实现跨业务系统、高效的数据分析，让数据“说话”，达到数据分析展现的统一归口，实时展现学校各方面的数据状态，为学校领导提供决策支撑。

教育数据挖掘（Educational Data Mining，EDM）是一门涉及计算机科学、教育学和统计学的交叉学科，它致力于分析学校教育环境下的独特数据，目的是为了更好地了解学生及学校环境，从而提高学校教学成效[2]。

1技术路线

研究分析的数据来源于高校数据中心，数据中心通过与统一认证平台、人事系统、科研系统、学生系统和一卡通等系统进行数据交换进而存储大量的业务数据。通过对数据中心的数据源进行ETL（提取、转化和装载），将想要进行分析的主题数据进行高效的提取和处理，形成数据仓库，进行建模分析。数据仓库是专门为数据的统计分析和决策支持而设计的，存储着需要进行分析的面向主题数据，数据具有稳定并随时间变化等特点[3]。研究的技术路线情况如图1所示。

1.1数据操作

采用的开发语言为Python 3，开发IDE为PyCharm 2020，数据库为Oracle 12c。数据库操作基本代码如下：

1.2数据处理

由于数据中心的数据来源于不同系统，各个系统始建于不同时期，所用数据标准各不相同，导致数据质量参差不齐。要想对数据进行分析就需要对数据的质量问题进行处理。

Python中有着丰富的数据处理、分析和挖掘工具包。采用Numpy库实现了多维数组与矩阵的高效运算，Pandas库函数对数据的编码问题、缺失值问题与异常值的问题进行有效处理，生成规整数据装载进数据仓库。比如用dropna函数对不规整数据进行删除，fillna函数对空值进行替换等。

1.3数据展现

在数据展现方面，将对系统分析出来的数据通过Web可视化进行展现，这里采用Flask Web容器来部署pyechars技术。pyechars是Python语言中用于设计Echars图表的类库，对百度开源图表库Echars进行了封装，实现了Java Script的图表库技术。相比于Matplotlib绘图，pyechars有着可移植性强、展现直观、生动、可交互、可高度个性化定制等特点[3]。下面采用pyechars绘制学生消费情况柱状图，代码如下：

2数据分析设计实现

本研究对高校几大核心业务系统数据进行整理和抽取，按照招生、教职工、学生消费和科研4个数据主题进行展示与分析。

2.1招生分析

招生作為高校人才培养的主要入口之一，生源质量的好坏和招生计划是否合理都会影响学校的教学成果。本研究选取了学校近8年本科生招生数据进行研究分析，按照招生完成率、录取情况、学生情况和地区招生情况进行了统计分析。各主题分析指标类型如表1所示。

通过调用Python机器学习第三方模块Sklearn，对招生计划数和实际录取人数进行回归分析。研究利用corr（）函数对计划和实际录取人数进行相关性评估计算，得出分数为0.97，非常接近于1，这说明二者有明显的线性相关性，也就是说招生计划越多，实际招生人数也越多，招生情况回归分析如图2所示[4]。

利用最小二乘法对历年的招生数据建立数据模型，在LinearRegression中调用fit（）训练方法进行数据模拟仿真[5]。采用score（）函数对训练出的模型进行打分，为0.98分，模型效果比较理想，使用predict（）函数对未来招生的情况进行预测。预测结果为当招生计划数增加至2 000人时，实际招生人数会达到1 957人。预测实现代码如下所示：

2.2学生行为分析

随着各应用系统及大数据中心的建设，学生在校内的学习和生活痕迹都会被系统记录并存储。通过抽取、整合学生数据和一卡通数据，按照以下几个主题对学生日常行为数据进行分析展现，如表2所示。

图书馆和自习室是大学生主要的学习场所，对一年中30万条学生进出图书馆和自习室的门禁记录进行了统计分析，学生行为数据如图3所示。

发现学生行为数据存在如下规律：

①在学习方面，学生进出图书馆的时间主要集中在每年的6月、7月、12月和1月，每年2月和8月图书馆的访客最少，周末进出图书馆人数少于平时。从数据中可以分析出，学生在临近1月和7月的期末考试前夕进入图书馆自习室学习的次数最多，侧面反映出学生平时缺乏自主学习的能力。针对这种现象，建议学校增加学生阶段性过程考试，培养在校学生养成良好的学习习惯。

②通过对学生在一天之中进出图书馆的时间进行分析，发现学校进图书馆的时间主要集中在7时、8时、12时和13时，离开图书馆的时间集中在18时，在6—7月时，学生离开图书馆的时间推迟至22时。从数据中可以分析出学生在一天之中学习集中的时段，由于期末学习任务较重，学生在图书馆自习的时间较晚，建议学校在期末前夕适当延长图书馆的闭馆时间，为学生提供更多的学习时间。

在学生消費方面，统计出各年级和专业在校生的消费情况，包括平均消费和最低情况，为学校在评奖助学金和助学贷款方面提供消费数据支撑。

2.3教职工分析

教职工分析联合人事、科研和教务业务系统数据进行分析。

教职工基本情况：展示教职工的年龄、工龄、学历和户籍信息，向学校展现教职工的基本情况信息。

教职工发展情况：教师的岗位、职务、职称和编制类别等信息，分析各部门的岗位任职情况，为学校接下来的教师人才培养提供数据支撑。

博士教师情况：学校的博士教师情况和各部门博士人员数量，为学校申博和学科评估提供数据支撑。

人才引进/流失情况：学校每年招入和流出的人员信息，更有目的性地制定人才引进计划。

2.4科研分析

各部门科研情况：学院各部门的科研成果情况，包括项目、论文、著作、专利和鉴定等。分析学院各职称和各级别教师的科研成果情况：统计学校各专业科研成果，根据教职工的科研成果进行统计分析，按照专业和学科计算出科研分数，对科研分数进行统计分析，找出优势学科[6]。

3结束语

通过对学校各方面的数据进行分析和挖掘，使原来数据中心和业务系统的数据重新发挥了巨大价值。将数据进行可视化分析可以发现数据中存在的问题和规律，对学校在教学或科研上出现的异常数据进行预警，使学校管理者在决策上由被动变为主动，大大提高了学校信息化的服务质量，向实现智慧校园迈进。

参考文献