APP下载

大数据背景下高职Hadoop课程内容体系建设

2017-03-06裴浩

电脑知识与技术 2016年30期
关键词:大数据教学改革计算机

裴浩

摘要:大数据技术的发展对人才的需求发生了变化,提出高职计算机相关专业增加Hadoop课程作为教学内容,调整人才培养计划,以满足大数据技术岗位的要求。文中分析了Hadoop的架构,并给出了Hadoop教学平台的实施方案和具体的课程教学内容,促进教学改革的实施。

关键词:大数据;高职;计算机;Hadoop课程;教学改革

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)30-0131-02

1引言

近年来,随着数据的极速膨胀,大数据技术研究越来越深入,并且得到了广泛的应用。因此,为了适应大数据发展的要求,Apache基金会开发了一个分布式系统架构——Hadoop,已成为广泛应用的大数据运算平台。同时,高职院校应调整相关专业的培训计划,增加Hadoop课程教学,调整培养目标,以满足大数据技术发展的人才需求。具体的培养目标是:培养具有计算机网络、大数据及云计算的专业知识,实践能力强、职业道德素养高,具备云平台的管理能力和网络软件开发能力,能够从事网络工程设计实施、网络高级管理维护、网络开发、云平台组建及管理以及大数据存储、计算及分析等岗位的高级技能型人才。

2 Hadoop架构

如图1所示,Hadoop的核心设计就是:HDFS文件系统和MapReduce编程模型。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。用户可以基于Hadoop开发分布式程序,并且使用集群计算机的能力实现数据的分布式并行处理,实现充分利用集群的威力进行高速运算和存储。

1)Hadoop节点

Hadoop主要包括MasterNode主节点和SlaveNode从节点。

MasterNode主要运行NameNode名称节点和Job Tracker任务追踪,前者主要负责数据存储(HDFS)的调度,后者负责数据并行处理(Map-Reduce)的调度。它们主要运行在管理端服务器上。

SlaveNode主要运行DataNode数据节点和Task Tracker實例追踪,它的运行需要大量计算机的支持,完成具体的分布式数据存储以及运行计算。每个SlaveNode都运行DataNode和Task Tracker,Task tracker由Job Tracker管理,DataNode由NameNode管理。

2)Hadoop数据流

在Hadoop中,每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两种阶段:map阶段和reduce阶段。这两个阶段分别用两个函数表示,即map函数和reduce函数。map函数接收一个形式的输入,然后同样产生一个形式的中间输出,Hadoop函数接收一个如形式的输入,然后对这个value集合进行处理,每个reduce产生0或1个输出,reduce的输出也是形式的。

3)Hadoop生态系统

如图2所示,随着Hadoop研究的深入,其它围绕Hadoop的开源项目也在发展,比例HBase、Hive、Pig、Zookeeper等构建了Hadoop生态系统,它们隶属于不同的项目组,提供了更完整的大数据处理方案。其中,生态系统的核心仍是HDFS和MapReduce。

3 Hadoop课程教学实施

3.1 Hadoop教学平台

1)拓扑结构

现有计算机实验室大多已构建成局域网,因此可以基于现有实验室计算机和交换机,完成Hadoop教学平台的构建。

2)系统要求

MasterNode主节点服务器需要较高的运算能力,因此要求使用较快的CPU和较大的内存,其他节点使用原有配置。所有计算机采用Linux Ubuntu 64位网络操作系统,可以提供稳定的网络服务和计算性能。

3)Cloudera CDH开源框架

目前,主要的免费Hadoop提供商为Apache Hadoop(原始版,其他均基于此版本改进)、Cloudera CDH(Clouderas Distribution Including Apache Hadoop,CDH)、Hortonworks HDP(Hortonworks Data Platform,HDP)。由于Cloudera CDH的优点,绝大多数应用选择CDH。Cloudera CDH和Apache Hadoop相比主要改进如下:

(1)CDH版本划分清晰,只有CDH3和CDH4两个系列,在兼容性、安全性和稳定性性都比Apache Hadoop要好。

(2)CDH更新速度快,并且能够及时修改Bug,比比Apache hadoop同功能版本提早发布。

(3) CDH支持Kerberos安全认证,与Apache Hadoop简单的用户名认证相比,要安全的多。

(4)CDH文档清晰,便于用户的阅读和操作。

(5)CDH支持多种安装包,安装更灵活,如Yum/Apt包、Tar包、RPM包等。然而,Apache Hadoop只支持Tar包安装。

3.2 Hadoop教学内容

如表1所示,Hadoop教学内容主要包括大数据基础、Hadoop原理、Hadoop实现及Hadoop应用四大模块,每一个模块又包含子模块。

各子模块的具体教学内容如下:

1) 大数据基础:大数据概念、云计算、云管理平台。

2)Hadoop基础:Hadoop介绍、Hadoop基本概念、Hadoop应用案例。

3)Hadoop生态系统:HBase数据存储、Flume、Sqoop数据集成、Spark数据处理、Hive、Pig和Impala数据分析、Oozie工作流引擎、Mahout机器学习。

4)Hadoop集群:HDFS文件系统、MapReduce模型、硬件要求、Hadoop集群搭建

5)MapReduce原理:MapReduce API接口、Driver、Mapper及Reducer编写、Eclipse Hadoop开发。

6)Hadoop API使用:ToolRunner的使用、Combiner的使用、Setup和Cleanup的使用、HDFS程序访问、Distributed cache的使用。

7)Hadoop数据处理:Partitioners和Reducers 、数据的输入与输出。

8)MapReduce应用:大数据集的排序与查询、二次排序、数据索引、字频统计、数据集合并。

9)Hadoop工具使用:Sqoop示例RDBMS转成HDFS、Flume示例实时数据管理(日志文件)、Oozie示例、Pig示例。

10)大数据案例应用:HIVE案例应用、HBase案例应用。

4结束语

文中分析了大数据背景下的应用技术,对人才培养提出了新的要求。另外,基于Hadoop架构,并详细说明了Hadoop课程实施的具体方案,完善了计算机相关专业的教学体系,有效促进了课程改革和调整。

参考文献:

[1]陈吉荣,乐嘉锦. 基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10).

[2] 陳 玺. Hadoop生态体系安全框架综述[J].信息安全研究,2016,2(8).

[3]鲍爱华,陈卫卫.云计算课程内容体系的建设与实践[J].计算机工程与科学,2014,36(A2).

[4]许娟,袁家斌.云计算课程教学内容和教学方法的选择[J].现代计算机,2014(6).

[5]杨旻.Hadoop云计算平台在高校实验室教学环境中的实现[J].电脑知识与技术,2011(9).

[6]徐苑苑.云计算环境下的开放课程应用研究[D].2013,10.

猜你喜欢

大数据教学改革计算机
计算机操作系统
基于计算机自然语言处理的机器翻译技术应用与简介
信息系统审计中计算机审计的应用
Fresnel衍射的计算机模拟演示