浅谈大数据平台在智慧校园中的应用
2021-01-20迟耀丹吴博琦刘安琪
陈 颖 迟耀丹 吴博琦 刘安琪
(吉林建筑大学,吉林 长春130118)
随着时代的不断进步发展,高校管理变得越来越艰难,“智慧校园”应景而生。然而,随着学生的人数增多,使之对应的相关数据量变大,并且随着时代的进步,学校对于每个学生管理的数据类型也在增加。这导致了学校需要掌握的学生的各项数据在数量上飞速增加。而大数据平台正是针对于大量信息处理的使用思路及技术,能和不断发展的校园管理系统完美结合。
在校园系统中搭建大数据平台,利用相关技术采集、分析和挖掘师生产生的数据,例如基本信息(姓名、性别、班级、学号或工号、家庭住址等)、教学数据(成绩录入和分析、课程选择和选课等)、生活数据(一卡通的消费数据和图书馆借书信息等),为师生提供便捷、高效的服务平台,是智慧校园发展道路上的一个重点研究问题。
1 智慧校园发展历程
智慧校园的前身是数字化校园。从数字化校园到智慧校园一共经历了五个阶段[1]。
第一阶段是90 年代,电脑、校园广播、多媒体设备等电子产品的普及;
第二阶段是90 年代到00 年代,办公室、教室等办公学习地区互联网相通;
第三阶段是00 年代,此时老师和学生可以通过有线无线网络及移动网络,随时随地的进行学习和沟通;
第四阶段是00 年代到10 年代,一卡通、智慧教室等教育信息化工具开始联网;
第五阶段是在10 年代之后,基本可以实现学生自由多样有个性的学习,老师差异化的教学。
智慧校园发展的五个阶段如图1 所示:
现在的智慧校园,已经可以给师生提供一个良好的工作、学习和生活的环境。但是冗杂海量的数据却成为智慧校园未来发展道路上的一颗绊脚石。为解决这一难题,工程专家结合发展迅速的大数据平台,利用相关技术建设更加完善的智慧校园。
图1 智慧校园发展的五个阶段
2 大数据发展历程
硬件成本的降低、网络宽带的提升、云计算的兴起、网络技术的发展、智能终端的普及以及物联网的发展是大数据产生的前提。
二十世纪末,大数据刚开始出现,还停留在数据挖掘阶段;2003 年到2006 年,开始自由探索大数据,处于突破阶段;2006年到2009 年,并行计算和分布式系统开始形成,大数据逐渐成熟;2011 年到2013 年,麦肯锡全球研究所先后发布研究报告《大数据:下一个创新、竞争和生产力的前沿》[2]和《颠覆性技术:技术改进生活、商业和全球经济》[3],使大数据广为人知,越来越多的专家开始投身研究。
3 大数据分析工具与处理技术
大数据的分析与处理,主要有数据采集、数据存储、数据挖掘和数据可视化四部分[4],常与云计算结合分析数据。现在智慧校园建设中,运用最多的大数据分析工具是基于云计算的Hadoop 及其生态圈以及Spark 技术。
3.1 Hadoop 及其生态圈
目前,Hadoop 云计算平台主要采用开源技术。Hadoop 技术框架是大数据建设的主流技术,核心是HDFS 和MapReduce[5]。
Hadoop 技术框架中,HDFS 组件[5]是数据存储管理的基础,可以满足基于流数据模式访问和超大文件数据存储的需求。HDFS 组件的优点是高容错性、高可靠性、高可扩展性、高获得性、高吞吐率,可以解决普通存储存在的存储故障等问题,为大数据的应用处理带来了很多便利。
分析计算模型——MapReduce,是Hadoop 中的并行计算框架。MapReduce 组件[6]对大数据进行分析处理,将接收到的数据分析任务分为并行的Map 任务和Reduce 任务。
3.2 Spark 技术
Spark 技术[7]是在MapReduce 的基础之上发展而来,计算性能远远超过Hadoop,计算速度是Hadoop 的110 倍。Spark 与Hadoop 一样采用开源技术,是一种基于内存的数据分析集群计算框架,Spark 利用Scala 语言来优化迭代式工作负载。实际上,Spark 可以在Hadoop 文件系统上与Hadoop 一起运行。Spark 技术的核心组件有SparkSQL、SparkStreaming、SparkGraphX 以及SparkMLlib。
SparkSQL[8]是Spark 技术中用来处理结构化数据的一个模块,让内部可以使用其他结构信息来执行更成熟的优化,外部可以让SQL 和DataSet 的API 交互。SparkSQL 的开发目的是为用户提供关系查询和复杂过程算法混合应用的灵活性,能在很快的时间里产生结果数据。
SparkStreaming[8]是Spark 技术中的应用计算程序,可以对实时数据进行高通量、高容错的流式处理,将流式数据转化为RDD,操作方法类似Map 任务和Reduce 任务。
4 智慧校园分析平台
随着时代的进步和高校老师教学、学生学习的需求,智慧校园应景而生,随之而来的是各类数据的集合。利用时下最热的大数据平台处理师生产生的海量数据,从而得到对高校有益的知识。
智慧校园大数据分析平台分为平台层、功能层、服务层三个层次[9]。平台层是智慧校园大数据分析平台的基础支持;功能层的功能是存储数据、挖掘知识;服务层为用户提供便利的大数据服务。在智慧校园平台里,师生可以通过用户界面查询工作、学习或生活各方面的信息。智慧校园大数据分析平台如图2 所示:
图2 智慧校园大数据分析平台
大数据处理首先是进行数据抽取与清洗,将用户界面上的学生和老师的信息收集起来,检测数据,剔除或改正错误、不一致的数据;然后是将数据存储起来进行分析,将得到的数据存储在HDFS 组件中;最后是利用Hadoop 或者Spark 进行数据挖掘,利用算法找到隐藏在海量数据中的重要信息,方便老师和学生查询使用。
数据挖掘是大数据处理平台的核心,是一种将原始数据分析方法和决策算法结合起来的技术。虽然数据挖掘这一概念的提出才短短30 年,但是现有社会的发展十分迫切的需要数据挖掘技术。数据挖掘的步骤如图3 所示:
图3 数据挖掘的步骤
数据挖掘中必然的一步是进行数据预处理。它的主要目的是处理智慧校园用户界面收集到数据中存在的噪声、不完整性和不一致性;审核数据是否完整、准确,是否有用、及时;剔除存在问题、不符合条件的数据;将得到的数据按一定的顺序排列好。数据预处理有四个方法:数据清理、数据整合、数据变换、数据归约。
结束语
建立智慧校园大数据分析平台已经成为高校快速发展中不可忽略的一个重要环节。本文通过对智慧校园发展进程的简单了解,对大数据中基于云计算的Hadoop 及其生态圈以及Spark技术的简要介绍,提出了一个能使在校老师和学生便于科研、学习和生活的服务型平台框架,为智慧校园建立大数据分析平台提供参考。本文不足之处在于只提出了一个简单的智慧校园服务型平台的框架,在后续研究中,可考虑实现该平台。