基于高校数据中心的数据分析
2021-11-02杨众王旭东丛玉正
杨众 王旭东 丛玉正
摘要:随着信息化技术的快速发展,高校的信息系统日趋完善,各种信息系统如学习平台、教学和办公应用系统都运行在数据中心,数据中心存储了大量的业务信息。对高校数据中心存储的各类应用数据进行抽取、转化和处理,建立面向主题的数据仓库。对系统数据进行挖掘和探索式分析,以可视化驾驶舱的方式直观地展现学校的实际数据状态,通过对数据的可视化分析可以为学校在办学、人才培养和学生管理等方面提供数据支持和决策。
关键词:数据中心;数据分析;数据仓库;可视化;智慧校园
中图分类号:TP393文献标志码:A文章编号:1008-1739(2021)17-65-4
0引言
自教育部发布《教育信息化十年发展规划(2011—2020年)》以来,国内各高校对信息化建设大力投入,各类业务系统逐步建设完善,信息化服务水平不断提高[1]。数据中心的建立有效地解决了各系统数据存储分散、数据标准不一致和数据共享困难等信息孤岛问题。下一步将围绕如何发挥数据中心的数据价值进行研究,对数据中心存储的大量业务数据进行有效挖掘,实现跨业务系统、高效的数据分析,让数据“说话”,达到数据分析展现的统一归口,实时展现学校各方面的数据状态,为学校领导提供决策支撑。
教育数据挖掘(Educational Data Mining,EDM)是一门涉及计算机科学、教育学和统计学的交叉学科,它致力于分析学校教育环境下的独特数据,目的是为了更好地了解学生及学校环境,从而提高学校教学成效[2]。
1技术路线
研究分析的数据来源于高校数据中心,数据中心通过与统一认证平台、人事系统、科研系统、学生系统和一卡通等系统进行数据交换进而存储大量的业务数据。通过对数据中心的数据源进行ETL(提取、转化和装载),将想要进行分析的主题数据进行高效的提取和处理,形成数据仓库,进行建模分析。数据仓库是专门为数据的统计分析和决策支持而设计的,存储着需要进行分析的面向主题数据,数据具有稳定并随时间变化等特点[3]。研究的技术路线情况如图1所示。
1.1数据操作
采用的开发语言为Python 3,开发IDE为PyCharm 2020,数据库为Oracle 12c。数据库操作基本代码如下:
1.2数据处理
由于数据中心的数据来源于不同系统,各个系统始建于不同时期,所用数据标准各不相同,导致数据质量参差不齐。要想对数据进行分析就需要对数据的质量问题进行处理。
Python中有着丰富的数据处理、分析和挖掘工具包。采用Numpy库实现了多维数组与矩阵的高效运算,Pandas库函数对数据的编码问题、缺失值问题与异常值的问题进行有效处理,生成规整数据装载进数据仓库。比如用dropna函数对不规整数据进行删除,fillna函数对空值进行替换等。
1.3数据展现
在数据展现方面,将对系统分析出来的数据通过Web可视化进行展现,这里采用Flask Web容器来部署pyechars技术。pyechars是Python语言中用于设计Echars图表的类库,对百度开源图表库Echars进行了封装,实现了Java Script的图表库技术。相比于Matplotlib绘图,pyechars有着可移植性强、展现直观、生动、可交互、可高度个性化定制等特点[3]。下面采用pyechars绘制学生消费情况柱状图,代码如下:
2数据分析设计实现
本研究对高校几大核心业务系统数据进行整理和抽取,按照招生、教职工、学生消费和科研4个数据主题进行展示与分析。
2.1招生分析
招生作為高校人才培养的主要入口之一,生源质量的好坏和招生计划是否合理都会影响学校的教学成果。本研究选取了学校近8年本科生招生数据进行研究分析,按照招生完成率、录取情况、学生情况和地区招生情况进行了统计分析。各主题分析指标类型如表1所示。
通过调用Python机器学习第三方模块Sklearn,对招生计划数和实际录取人数进行回归分析。研究利用corr()函数对计划和实际录取人数进行相关性评估计算,得出分数为0.97,非常接近于1,这说明二者有明显的线性相关性,也就是说招生计划越多,实际招生人数也越多,招生情况回归分析如图2所示[4]。
利用最小二乘法对历年的招生数据建立数据模型,在LinearRegression中调用fit()训练方法进行数据模拟仿真[5]。采用score()函数对训练出的模型进行打分,为0.98分,模型效果比较理想,使用predict()函数对未来招生的情况进行预测。预测结果为当招生计划数增加至2 000人时,实际招生人数会达到1 957人。预测实现代码如下所示:
2.2学生行为分析
随着各应用系统及大数据中心的建设,学生在校内的学习和生活痕迹都会被系统记录并存储。通过抽取、整合学生数据和一卡通数据,按照以下几个主题对学生日常行为数据进行分析展现,如表2所示。
图书馆和自习室是大学生主要的学习场所,对一年中30万条学生进出图书馆和自习室的门禁记录进行了统计分析,学生行为数据如图3所示。
发现学生行为数据存在如下规律:
①在学习方面,学生进出图书馆的时间主要集中在每年的6月、7月、12月和1月,每年2月和8月图书馆的访客最少,周末进出图书馆人数少于平时。从数据中可以分析出,学生在临近1月和7月的期末考试前夕进入图书馆自习室学习的次数最多,侧面反映出学生平时缺乏自主学习的能力。针对这种现象,建议学校增加学生阶段性过程考试,培养在校学生养成良好的学习习惯。
②通过对学生在一天之中进出图书馆的时间进行分析,发现学校进图书馆的时间主要集中在7时、8时、12时和13时,离开图书馆的时间集中在18时,在6—7月时,学生离开图书馆的时间推迟至22时。从数据中可以分析出学生在一天之中学习集中的时段,由于期末学习任务较重,学生在图书馆自习的时间较晚,建议学校在期末前夕适当延长图书馆的闭馆时间,为学生提供更多的学习时间。
在学生消費方面,统计出各年级和专业在校生的消费情况,包括平均消费和最低情况,为学校在评奖助学金和助学贷款方面提供消费数据支撑。
2.3教职工分析
教职工分析联合人事、科研和教务业务系统数据进行分析。
教职工基本情况:展示教职工的年龄、工龄、学历和户籍信息,向学校展现教职工的基本情况信息。
教职工发展情况:教师的岗位、职务、职称和编制类别等信息,分析各部门的岗位任职情况,为学校接下来的教师人才培养提供数据支撑。
博士教师情况:学校的博士教师情况和各部门博士人员数量,为学校申博和学科评估提供数据支撑。
人才引进/流失情况:学校每年招入和流出的人员信息,更有目的性地制定人才引进计划。
2.4科研分析
各部门科研情况:学院各部门的科研成果情况,包括项目、论文、著作、专利和鉴定等。分析学院各职称和各级别教师的科研成果情况:统计学校各专业科研成果,根据教职工的科研成果进行统计分析,按照专业和学科计算出科研分数,对科研分数进行统计分析,找出优势学科[6]。
3结束语
通过对学校各方面的数据进行分析和挖掘,使原来数据中心和业务系统的数据重新发挥了巨大价值。将数据进行可视化分析可以发现数据中存在的问题和规律,对学校在教学或科研上出现的异常数据进行预警,使学校管理者在决策上由被动变为主动,大大提高了学校信息化的服务质量,向实现智慧校园迈进。
参考文献
[1]王运武.中国教育信息化战略规划的世纪变迁[J].江苏开放大学学报,2016,27(4):37-46,89.
[2]黄连强.大数据背景下高校教学信息化研究[J].电脑编程技巧与维护,2018(4):96-97,121.
[3]李蒙昭.数据可视化平台图表推荐系统的研究[D].武汉:华中科技大学,2019.
[4]王瑞昌.面向教职工的数据中心数据共享的研究与实现[D].成都:西南交通大学,2012.
[5]李天辉.基于python的数据分析可视化研究与实现[J].电子测试,2020(20):78-79.
[6]刘少楠.基于B/S模式的高校科研管理系统设计与实现[D].沈阳:东北大学,2015.