浅析基于Hadoop的高校大数据云平台设计
2020-04-22孔德丽屈会雪卞志勇
孔德丽,屈会雪,卞志勇
(南京机电职业技术学院,江苏 南京 211135)
1 现状与价值
1.1 研究现状
目前,高校数据中心建设主要分为两种形式:一是直接使用传统服务器搭建数据中心的存储及应用。服务器的架构价格高,能源消耗高,资源利用率偏低。二是采用专业的VMware虚拟化软件对IT基础设施虚拟化成资源池供各类应用部署。
1.2 建设价值
基于Hadoop的高职院校大数据平台[1-2],避免了传统数据中心的各种弊端,不仅可以充分发挥集群的威力,还能够充分挖掘大数据中的隐藏信息,在职业院校决策、管理与服务中可以得到更广泛的应用,以提高学院的工作效率。
2 云计算大数据平台设计
2.1 总体架构设计
本项目是在linux开发环境下开发的,大数据云平台总体架构及各分平台的设计思路及大数据云平台总体架构设计如图1所示。
图1 大数据云平台总体架构设计
2.2 数据云平台模块设计
以Hadoop为基础构建的大数据云平台,可以很方便地与现有各类业务信息系统实现集成。
1) 结构化数据的存储与设计
高职院校现有数据库大多为关系型数据库,HBase数据库对结构化数据支持不足。为解决这个问题,以Apache开源软件开发的Hive数据仓库工具作为接口,将结构化的数据文件映射为HBase数据库的一张表,并提供完整的SQL查询功能。还可以将SQL语句转换为MapReduce任务来运行,充分利用并行运算的速度优势。使用Hive,不仅解决了结构化数据的存储问题,而且提高了数据查询和存储的速度,提高了工作效率。下面以一卡通信息系统中常用的结构化数据为例,针对结构化数据,使用Hive数据仓库平台,实现数据的存储和查询。结构化数据存储设计如图2所示。
图2 结构化数据存储设计
2) 非结构化数据的存储设计
在视频教学系统中会产生大量视频或图片文件,常规存储方式速度太慢。以典型的7200r/min的硬盘为例,其最大传输速度约为22.3MB/s,这极大地限制了映像文件的存储和查询速度,而以分布式存储能解决这个问题。本文以视频教学系统视频和图片等文件存储为例,阐述如何解决非结构化数据存储过程中的核心问题。
非结构化数据存储系统设计在视频教学系统中,单个课堂教学视频文件往往会有数百兆大小的文件。以HBase存储保证数据安全性的同时不仅可以实现数据的快速查询和存储,还能实现对历史视频或图片文件的快速查询。非结构化数据存储系统架构设计如图3所示。
图3 非结构化数据存储系统架构设计
3) 机器学习平台的设计
以Hadoop为基础的分布式计算对大数据的机器学习具有更高的效率。在本项目中使用开源项目Mahout提供的机器学习工具[3],开发机器学习模块,在此模块基础上采用机器学习的结果为教学工作者提供建议,优化教学流程,还可以作为数据挖掘的基础为更高级功能提供基础架构。基于Hadoop的机器学习平台如图4所示。
图4 机器学习平台设计
机器学习的系统底层是Hadoop框架,从HBase和Hive中获取数据,通过MapReduce进行分布式计算提供机器学习算法,利用Mahout数据进行整合、清理,然后进行机器学习[4]。获取数据之后,使用Mahout提供的算法,这些算法包括朴素贝叶斯分类、支持向量机、随机森林等分类算法和EM聚类、K-means等聚类算法,利用其API实现对数据中心数据的有效利用。
2.3 数据共享交换平台
数据共享交换平台主要包括以下几个部分:数据交换引擎;安全管理服务;系统管理服务;Web服务管理;Service接口;中心数据库。将分散建设的若干应用信息进行整合,进行数据传输与共享。此平台可以接入学院所有业务系统的数据,在中心数据库汇聚,并为学院各部门提供数据业务协同功能,推动智慧校园建设。
3 结语
基于Hadoop构建的学院大数据云平台,对结构化与非结构化数据存储的优化设计,不仅满足了学院大规模业务数据存储的需求,还提供了强大的云计算能力。学院数据中心存储了教务信息、学工信息、科研信息、招生信息、就业信息等各类业务系统的海量信息,利用这些信息可以对教学改革、科研方向规划、招生宣传、专业设置、就业导向等提供数据支持,辅助学院高层领导决策。