基于Hadoop的高校校园大数据系统设计
2017-06-08赵亮
赵亮
(锦州医科大学 公共基础学院,辽宁 锦州 121000)
[摘 要]随着信息技术的不断发展应用,高校数字校园、智慧校园工程的持续建设,高校校园环境中存储的各类数据数量急剧增加,一个高校校园大数据环境已初步形成。建立基于Hadoop技术的高校校园大数据系统,可采集、存储、处理校园大数据环境中的各类数据,能够为高校教学和管理提供可靠的数据支撑。基于此,本文分析了基于Hadoop的高校校园大数据系统设计。
[关键词]大数据;Hadoop;高校
doi:10.3969/j.issn.1673 - 0194.2017.10.142
[中图分类号]TP333 [文献标识码]A [文章编号]1673-0194(2017)10-0-02
大数据(Big Data)又称为海量数据(Massive Data),数据科学家维克托·迈尔·舍恩伯格和肯尼斯.库克耶在所著《大数据时代》中,指出大数据不采用随机分析法而应对所有数据进行分析处理。研究机构Gartner则提出大数据是一种具备多样化、高增长率的信息资产,在新型处理技术、处理模式下能够实现更强的流程优化效率、提供更科学的决策依据,且大数据具有大量、高速、多样、价值和真实性的特点。高校校园中存在多类大数据,通过信息化手段的采集和数据挖掘,能够体现出巨大价值,这在传统的高校校园教学和管理中往往被忽视了。设计构建高校校园大数据系统,有助于当今信息时代高校校园大数据的采集、存储、管理乃至应用,是相关教育和科研人员正在进行的研究之一。
1 高校大数据环境现状
当下高校校园大数据环境已初步形成,各类校园数据来源广泛、类型复杂、数据量庞大。以高校学生为例,高校学生的大数据可以分为两大类,一是学业大数据:其包括高校生的选课数据、每门功课的出勤数据、各门功课的平时测验和考试成绩等数据;二是生活大数据:其包括门禁卡通行数据、图书馆阅览数据、校内超市消费数据,甚至包括学生的微信、微博等数据。大规模数据集和多等级数据质量对高校校园数据的存储、分析、研究、应用提出了挑战。传统的管理理念和方法渐渐无法满足日益增长的数据处理需求,设计和构建基于Hadoop的高校校园大数据系统,以用来采集、存储、处理高校校园中的多类数据,并通过数据挖掘和数据分析,为高校教学和管理提供数据支撑,特别是为高校学生的学业、生活提供风险识别和预警功能。
2 基于Hadoop的高校校园大数据系统设计
2.1 Hadoop
Hadoop由开源组织Apache基金会开发,是一个分布式系统基础框架,它能够实现在多硬件集群上运行应用程序,组成具有高性能、高可靠性、高扩展性、低成本的并行分布式系统。Hadoop由多种元素构成,其三大核心技术包括分布式文件系统(Hadoop Distributed File System,HDFS),用于存储集群硬件中的文件;编程模型Map Reduce,用来处理多种数据集合;分布式数据库HBase。利用Hadoop的分布式技术,设计构建高校校园大数据系统,能够实现对高校学生的大量多类数据进行存储、分析和高效处理,进一步推进高校智慧校园建设的进程。
2.2 高校校园大数据系统设计
2.2.1 高校校园大数据系统总体框架
基于Hadoop技术的高校校园大数据系统的总体技术框架,可将系统分为三层,其中大数据采集与存储层应用HDFS文件系统,校园数据分析层应用Map Reduce计算模型,数据源层、大数据采集与存储层的数据抽取,对接需要开发适合的底层适配接口模块,用来采集高校校园大数据环境中的多类数据。基于Hadoop技术的高校校园大数据系统总体框架,如图1所示。
基于Hadoop技术的高校校园大数据系统分为数据源层、大数据采集与存储层和校园大数据分析层。
数据源层用来采集数据,包括學业数据和生活数据,其中学业数据包括学生自然情况数据、选课数据、出勤数据、平时测验成绩数据、考试成绩数据;生活数据包括一卡通数据(门禁卡通行数据、图书馆阅览数据、校内超市消费数据)、微博、微信等媒体数据。
大数据采集与存储层通过数据共享接口获取数据源层提供的各类数据,校外数据需要开发商提供开放接口才能获取。大数据采集与存储层对收集到的数据进行抽取、转换和存储。
大数据分析层在Hadoop的Map Reduce编程模型上,构建各类数据分析包,对提交的学生大数据进行分析。从学生近些年的数据信息中得出学生的学业情况,对异常数据进行判断、分析和预警,为高校教学和管理人员及时关注学生、制定针对性教学策略、帮助学生全面、健康发展提供决策依据。
2.2.2 功能设计
基于Hadoop的高校校园大数据系统,使用Java语言编写后台代码,分层设计预留多个扩展接口,方便后期添加新的校园大数据功能。前台使用B/S模式采用ASP.NET语言开发,对分析结果进行展示。基于Hadoop的高校校园大数据系统的功能架构如图2所示。
基于Hadoop的高校校园大数据系统具体功能架构分为以下3个部分:分析结果发布层、大数据分析层、管理功能层。分别提供公告和查询等数据分析结果的发布功能;学生个体关注、历史分析、实时分析的大数据分析功能;多用户管理和数据管理的管理功能。
3 结 语
随着信息技术在高校校园中的进一步应用,智慧校园工程的持续建设,高校校园教学和管理理念的不断发展,高校校园大数据环境一定会愈加完善。建立基于Hadoop技术的高校校园大数据系统,能够使原本被忽视的重要数据变废为宝,通过科学合理的大数据管理和大数据挖掘,能为高校教学管理人员关注学生学业和生活提供数据分析依据,也能为高校制定教学管理方针提供可靠的据数据支撑。
主要参考文献
[1]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015(1).
[2]张兰廷.大数据的社会价值与战略选择[D].北京:中共中央党校,2014.
[3]孙丹.基于TOE-RBV理论的大数据采纳影响因素的实证研究[D].青岛:中国海洋大学,2015.
[4]崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012(z1).
[5]王格芳.某金融系统海量数据并行处理架构优化设计与实现[D].北京:中国科学院大学,2014.