高校智慧校园大数据平台的设计与实现

2020-05-08王立友

河北民族师范学院学报 2020年2期

王立友

（淮南联合大学计算机系，安徽淮南 232001）

1 引言

高校现有系统主要应用于师生管理。随着高校信息化建设的逐步完善和深入应用，高校正处在信息化建设的快速发展期[1]。高校现有管理系统内蕴含的巨量数据（数据量以TB计），为高校师生的学习、生活、教学、教科研、管理诸多方面提供了丰富的数据信息资源支撑。目前，高校通过自主研发或招标购买等形式，已有校园网、教务教学、人事管理、科研等多个管理系统。由于系统间相互独立，设计架构多元化、数据不同步、数据标准不统一、系统间关联性不大，数据不同步、处理效率低、不同部门间无法协同工作，难以有效整合及共享数据资源。导致高校现有管理平台中大量数据资源无法有效整合优化及继承管理。

智慧校园大数据平台依托于高校现有信息管理系统，旨在深度挖掘高校管理系统内的海量数据资源，对其优化整合。以人为本，让高校数据信息处理过程变得更加简单明了，使校园信息化进程得以延展。其核心是数据处理标准化、智能化。在大数据时代背景下，迫切需要更为精准、严谨可靠的数据处理技术。如何快速精准地处理高校信息系统内相关数据资源，成为高校当下迫切需要解决的问题。因此，探讨高校智慧校园大数据平台的建设具有实质性意义。近年来，高校业已初步积累了大量的学校相关业务数据，Hadoop大数据技术可以对其中的数据进行有效的组织及处理，整合海量的非同源异构数据，促使高校的服务成效、管理模块、用户属性及行为数据化。能够实现高校网络资源管理、师生学习及生活服务、学校职能管理、公共数据共享等功能的一体化。本文将利用hadoop大数据技术，搭建高校智慧校园大数据平台框架，为构建高校智慧校园大数据平台提供参考依据[2]。

2 Hadoop数据处理技术简介

Hadoop采用Java语言开发，是对Google的MapReduce、GFS（Google File System）和Bigtable等核心技术的开源实现。由Apache公司开发，以分布式文件系统HDFS（ Hadoop Distributed File System）和MapReduce计算框架为核心，以及一些支持Hadoop的其他子项目的通用工具组成的分布式计算系统。主要用于海量数据（大于1TB）的高效存储、管理和分析。在现代社会中，只要和海量数据有关的应用领域都会出现Hadoop的身影。

2.1 HDFS分布式文件存储系统

HDFS是典型的主从架构，由一个主节点（NameNode）、多个从节点（datanode）组成。主节点用于管理系统命名空间（NameSpace）、调度客户端（client）文件操作及存储任务管理，多个从节点提供真实文件数据的物理支持[3]。客户端通过主节点Namenode从多个datanode数据节点中获取数据块（block），datanode数据节点则自发提交获取到的文件的Namenode信息，用于存储文件的基本信息。Namenode对datanode的write、read等操作一律通过元数据信息实现查找。为防止Namenode数据缺失、无效，HDFS提供了Namenode的备份节点即SecondaryNameNode，类似于Namenode的克隆，以备不时之需。数据以数据块的形式进行存储，每个数据块可以在多个DataNode上存储多个副本，以提高数据安全性。

2.2 MapReduce并行计算框架

简而言之，MapReduce是一种思想，或编程模型。主要包括Mapper和Reducer两个抽象类，是一个基于开源的并行计算框架。Mapper用于将切分为块的原始数据进行处理；Reducer用于汇总归约Mapper处理结果，并输出终值。MapReduce计算框架中Mapper可以处理＜key，value＞格式的数据流，形成一系列的＜key，value＞形式的输出，这些输出经过相应处理，形成＜key，{value list}＞形式的中间结果；再将中间结果作为Reducer的输入，Reducer将key值相等的数据作进一步处理，最终形成＜key，value＞形式的结果数据，将结果数据写入HDFS中（处理过程如图1所示）。

图1 MapReduce模型数据处理过程

3 平台技术架构设计

3.1平台开发环境

平台设计使用C/S结构，由一台主机 (Host) 和3台从机(Slave) 构成，主机负责管理Hadoop集群中的Namenode节点，主要用于操作元数据，从机作为Datanode数据节点用于存储各类校园用户产生的数据，通过交换机实现互访。具体硬件配置环境为CPU：酷睿双核2．6GHz；内存：8GB；固态硬盘256G+1TB；网络带宽： 1Gbps。对应软件环境配置如表1所示。

表1 智慧校园大数据平台集群软件环境配置

3.2 Hadoop分布式集群搭建

智慧校园大数据平台采用Hadoop作为数据处理框架；Zookeeper 作为资源协调管理器；HDFS作为分布式文件系统；HBase作为分布式非关系型数据库。本文大数据平台由4个节点构成： 1台作为Namenode主节点，3台作为Datanode从节点。集群搭建顺序如下：

(1) 安装CentOS操作系统。

(2) 安装Java运行环境JDK。

(3) ssh免密登录。

(4) 安装Zookeeper集群。

(5) 安装Hadoop搭建完全分布式环境。

(6) Hbase 安装部署。

启动Hadoop集群，运行主界面如图2所示。

图2 集群启动界面

3.3 平台技术架构设计

依托现有高校信息系统，设计基于Hadoop智慧校园大数据平台系统的技术架构。整个架构由数据源、数据采集清洗整合、分布式数据存储、数据分析&可视化等模块组成[4]。模块间通过元数据的共享交互，用以实现海量多源异构数据的实时采集、存取及计算、离线批处理和流式计算等功能（技术架构如图3所示）。

3．3．1 数据源

目前，高校数据分为校园内部数据和第三方数据。校园内部数据可以通过现有高校管理系统平台、网络监控等途径获取，这类数据大多属于结构化数据；第三方数据可以通过Internent（网络日志）等途径获取，这部分数据中存在非结构化数据。高校数据的采集量非常之大，这些海量的数据中包含了大量具有实用价值的信息[5]。大型关系数据库用于采集结构化数据，如Oracle；其他非结构化数据则使用爬虫、ETL、HBase等工具进行采集。

图 3 平台技术架构

3．3．2 数据采集清洗整合

在数据挖掘之前，ETL( 抽取、转换、加载) 尤为重要，是指在数据预处理阶段对前期采集到的原始数据在导入 HDFS 之前进行一系列的清洗与转换[6]。高校产生的数据绝大部分均为未整合数据，经常出现数据异步、缺失、或重复无效，无法直接参与计算，都需要对数据进行分析和预处理以提高高校数据质量。

3．3．3 分布式数据存储

数据分布式存储主要利用HDFS系统及MapReduce框架将数据存放到Hadoop集群中的多个计算节点上，当客户端存储数据时，需要访问Namenode主节点，然后由Namenode主节点分配一组地址信息给客户端，客户端根据地址信息向Datanode中存储数据信息；当客户端需要提取其中的某个数据资源时，询问Namenode文件所在位置，然后直接获取资源。分布式数据存储是整个平台的核心层，用户既可针对不同的数据集在算法列表中选择对应算法，亦可上传自定义算法进行运算，算法运行完成后，将运行结果及说明性文档存储至 HDFS或关系型数据库，进而实现了数据的大规模处理、

3．3．4 数据分析&可视化

高校产生海量的数据背后蕴藏着非常大的应用价值，若无法解析这些数据真正含义，再多的大数据分析方案都是无用的。本文利用SPSS、SAS等专业可视化工具建立校园用户行为大数据可视化模型，对高校管理系统中用户数据进行分析及可视化，使系统管理人员更为便捷地洞悉用户数据结构关系。大数据可视化模型能够实时分析用户行为数据，实现相似行为特征值数据聚类分析。对用户进行分类，生成相对应大数据分析模块。

4 平台设计目的及功能实现

4.1 平台设计目的

智慧校园大数据平台通过hadoop数据引擎，利用大数据处理技术进行信息的挖掘、整理、分析，进而发现数据背后所隐藏的价值，为高校的教育教学管理发展提供决策支持，优化业务流程、促进业务融合、提高办事效率、分析校情、辅助决策的基础，为科研和创新活动提供核心支持；理解老师和学生的潜在需求，实现更加智能化、精细化、个性化的服务。实时分析师生个人学习、阅读、消费相关业务管理数据，并推送各类学习报告、阅读报告、消费报告给校内师生用户，使之更加全面细致的掌握个人相关行为。同时，在统计数据分析和挖掘的基础上形成的领导管理报告，可以更有效地协助学校各级领导进行研究和决策，最终实现学校信息综合服务能力的提升。

4．1．1 多系统单点登陆为全校师生提供智慧型的一站式校园数据服务管理

智慧校园大数据平台给每个用户提供单一的账号及密码。具有统一的初始化登陆界面，使分散的系统业务平台集成一体化。用户使用单一账号登录后，可实现各平台系统业务不同模块间的自动切换，大数据平台系统可以自动识别用户身份及赋予不同用户拥有不同的操作权限，用户类型主要有学生、教师、院系处办公人员、校领导和游客五种类型，能依据学校的实际需求添加其他用户类型。

智慧校园大数据平台实际上是学校信息化达到一定程度的内需，平台将Hadoop大数据处理技术与教育教学有机融为一体，搭建学校师生日常生活、教学、管理、科研及学生行为预警等功能的智慧型平台框架。将学校现有的管理系统中的历史数据移植到智慧校园大数据平台上，通过服务器虚拟化和大数据技术建立完善的数据中心，采集学校现有管理系统中数据，完成数据的无缝移植对接及优化整合，共享Hadoop集群数据资源，实现校园数据的一站式管理。

4．1．2 消除信息孤岛

学校现有管理系统间架构多样化，所产生的历史数据存储在自身的服务器主机上，数据相对孤立和封闭，这些信息孤岛消耗大量的软硬件资源，学校系统运维、管理成本居高不下。智慧校园大数据平台搭建了集中的数据资源管控平台，实现数据访问及交换、统一数据格式，消除上述的系统间信息孤岛问题[7]。

4．1．3 教学智能化、多元化

打破传统的老师教、学生学的教学模式，智慧校园大数据平台的教学板块蕴含了丰富的学习资源、技术支持及服务教学。平台可以依据学生的个人喜好，推送个性化学习资料及学习方案[8]。通过多元化学习途径激发学生的学习兴趣，形成学习资源共享与教学交互的良好学习环境[9]。结合学生个人职业生涯规划、学习计划，依托智能教室以及大数据平台，建立以学生为主体、以教师为主导的多元化学习与创新模式，智能分析学生的特长爱好以及教师的研究方向，为师生的教与学提供有力保障，促进师生专业知识素养水平的提升。

4.2 平台功能实现

4．2．1 平台功能架构

智慧校园大数据平台主要实现了用户账户单点登录、异常行为预警、贫困助学认定、师生行为画像等功能（平台功能架构如图4所示）。

4．2．2 平台功能演示

学生在校求学期间，如果学生自身家庭经济状况非常差，学生可以向学校申请国家助学金用以资助学生完成在校期间的学业，解决学生的经济困难。但现有的贫困助学金申请过程过于依赖纸质的证明文件及学生自身对家庭的经济状况的阐述，缺乏客观性、公正性。平台中的贫困助学认定模块，可以依据学生一卡通流水来采集学生在校期间的食堂、超市、用水等多种消费数据，并利用SPSS等辅助软件对学生的消费行为进行聚类分析，得出学生自身的消费水平，客观公正地判定该生获取国家助学金的合理性，优化贫困助学认定工作。由于平台功能众多，本文仅就贫困助学辅助认定功能进行演示（如图5所示）。