“基于Hadoop的大数据分析”课程规划与设计
2015-05-08王涛邵国强邹红付丹丹
王涛 邵国强 邹红 付丹丹
摘要:大数据时代社会各行业对大数据方向人才的需求凸显,为顺应产业发展需要,我校改革课程设置,建设以开源分布式框架Hadoop为技术基础的大数据分析课程。文章从目标内容设置、师资团队建设、实践中心配备、授课方式特色,以及考核制度革新多个方面展开对课程规划与设计的详细论述,藉此为国家和社会培养具有工程意识和创新思维的高素质精英人才,也为其他高校同类课程的开设提供一定的借鉴和参考。
关键词: Hadoop;大数据;课程规划;人才培养;授课方式
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)07-0190-03
Abstract: In the era of big data, the demand for talents from all walks of life is increasing. In order to adapt to the need of industrial development, we are carrying out the curriculum reform by constructing a big data analysis course based on Hadoop. Several aspects of the course on the design and planning are discussed in detail. They are the target and content settings, the construction of teaching team, the equipment of practice center, the teaching methods specialties and the appraisal system innovations. Our work helps to cultivate talents with the awareness of engineering and innovative thinking, and also does good for other colleges offering similar courses.
Key words: hadoop; big data; course planning; talent cultivation; teaching method
1 引言
当前计算机技术全面融入人们的社会生活,移动互联、社交网络、电子商务等极大拓宽了互联网的边界和应用领域。大数据浪潮正汹涌来袭,并渗透到社会的方方面面。越来越多的企业期望使用大数据和云计算的技术来对海量数据进行整合分析,以解决生产经营业务中的难题[1-3]。而与此大的发展趋势不相协调的则是高校计算机专业毕业生在大数据方向上基础薄弱,真正掌握大数据管理、分析和产品研发等相关技术的人才极度匮乏。高等院校需要以实际行动回应社会对计算机专业人才培养的需求,以更为有力的方式来承担大学应有的责任,培养出高水平人才以适应产业发展需要[4-6]。这也是我校建设大数据分析课程的初衷。
经过最近短短几年的发展,Hadoop已经成为架构云计算平台进行大数据存储和计算分析的首选。Hadoop以HDFS和MapReduce为核心,为开发者提供了系统底层细节透明的分布式基础架构,从而轻松地组织计算资源,利用集群的能力完成海量数据的处理,目前其已发展成为包含很多开源框架项目的生态系统[7-8]。因此该课程即以Hadoop为基础来展开对大数据分析的原理、技术和方法的讲授。
2 明确目标,落实人才培养
2.1 培养对象
大数据分析涉及到众多学科内容,如计算机网络、数据库原理、数据结构、分布式系统、LINUX操作系统、云计算、数据挖掘、算法设计与分析等基础性课程等,本课程可作为计算机学科研究生的专业课和本科高年级学生的专业选修课。因为处于该阶段的学生有了足够的知识储备,并且对学科方向有了清晰的认识,对未来的就业前景也不再迷茫,有更多学习上的主动性和进取心。此外,鼓励学生拓展知识领域,自觉阅读国内外文献资料和网络资源,为该门课程的学习打下坚实的基础。
2.2 培养目标
很多行业领域都为大数据方向的专业技术人才提供了施展才华的舞台,如电子商务、金融证券、科研院所、互联网企业、大公司的数据中心,以及政府机关部门等。当前大数据方向的岗位需求大致分为三类,分别是:系统研发工程师,负责海量数据业务模型构建、分布式云存储、NoSQL数据库架构以及数据平台优化升级等;应用开发工程师,负责利用海量非结构化数据研发基于大数据技术的应用程序及行业解决方案,为单位创造良好的经济效益或社会效益;大数据分析师,负责从纷繁复杂的海量数据中找到数据间的潜在关系,挖掘大数据蕴藏的巨大利益并指导产品研发。
课程即从系统框架搭建、应用研发及数据分析三个主要层面培养具有扎实理论基础和实战经验的高素质、实用型大数据人才。在授课过程中,注重学生工程意识和实践创新能力养成,指导学生密切结合自身对未来职业的发展规划,在通识整体的前提下选择某一特定领域进行深入钻研。对于有意继续深造的学生,则引导其深入学科领域前沿,掌握最新的原理方法,并大胆提出自己的设想,小心地科研探索求证。
2.3 教学内容
课程内容把基础理论与工程实践相结合,详细讲述大数据分析的原理和关键技术,系统阐释大数据平台搭建、优化和数据分析方法,并深入探究当今世界大数据分析的成功案例及典型应用。在授课时不局限于Hadoop框架本身,而是扩展到其整个生态系统,如图1所示,引导学生充分利用这些开源框架提供的便利,并在技术精深后为开源社区贡献出自己的才智。
本课程内容分为三个部分,第一部分介绍Hadoop的发展史和技术特点,从而把握分布式计算框架现状及未来发展方向,为企业的技术选型和架构设计提供决策支持;第二部分全面掌握Hadoop的宏观架构和应用场景,并通过贯穿课程的服务器日志分析项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发,课程还涵盖分布式计算领域的常用算法,帮助学生拓宽视野,在利用大数据方面取得积极进展;第三部分将深入理解Hadoop技术架构的原理细节,对Hadoop运作机制和管理优化有清晰全面的把握,可以独立规划和部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
3 多举措并举,打造课程精品
3.1校企合作,建设优秀的师资团队
大数据分析是一门理论性和实践性都很强的课程,对其原理性和前沿性的理解高校中从事该学科教学和研究的教师理解更为深刻,但对该产业应用领域的理解没人比在大企业一线从事该方向的工程师更有发言权。因此,要充分结合双方的特长,终结“一师”时代,开创师资团队组合授课模式,每位教师只在自己最擅长的专业领域授课。
通过校企合作,聘任企业中有大数据分析实践工作经验的工程技术人员担任实践性内容的主讲教师。他们能把实际工作中的项目案例和经验技巧等引入到课堂教学中,这些教师充分理解企业需求,从而能增强教学的针对性和有效性,激发学生的兴趣,培养目标感和方向性,切实提高教学和就业质量。
在从企业聘任教师的同时,优化高校内部教师队伍结构,选拔出有潜力的中青年教师,到合作企业中进行培养锻炼,提高中青年教师的实践水平,培养“双师型”教师,为应用型本科院校的发展积蓄储备力量。此外,还应充分发挥老教师的模范带头作用,用他们严谨的治学态度来带动中青年教师,形成良好的教风和学风。
总之,通过一系列的措施和手段,打造一支理论上过硬,实践上够强的师资队伍。
3.2 完善设施,推进实践中心建设
大数据的教学实践需要一个良好的专业环境。在硬件上,进行大数据集分析需要使用分布式计算框架来向数十、数百甚至数千的计算机集群分派工作,由此对服务器平台有很高的要求。但在课程构建的初期,完全可以进行小规模的集群测试运行,比如以每5-10台计算机搭建一个集群,并建立有保障的实验室高速传输网络。软件上,大数据实践平台需要搭建开发和处理大规模数据的Hadoop系统平台,实现海量数据的计算与处理,进而为大数据的挖掘、存储和分析提供支撑;学生可通过设计新的算法、开发新的应用,为决策服务提供更好的支持。在海量数据源的选择上,大数据实践平台可以部署多个企业级的数据源,其中包括社交网络数据、服务器日志记录、气象历史数据等,学生可在平台上展开数据分析、数据挖掘和数据统计等应用,不断提升运用、解释及挖掘数据的能力。
3.3 变换形式,突出授课方式特色
第一,基础理论与项目实践并重。大数据分析的基础理论具有指导和优化项目实践的功能,可以为实践提供信息资料、方法策略和目标方向,如果不能深刻领会理论教学的内容,那项目实践的意义就会大打折扣。项目实践应该与理论紧密结合,让学生从实践中总结理论经验,又可以从实践中获得对理论理解的升华,从而真正掌握知识。
第二,转换传统讲授模式为研究性互动式教学。在讲解一个全新的框架时,把学生预设为框架设计师的角色,教师充当课程的设计者、引导者和推进者,由教师引导学生进行框架功能设计和架构设计,集中精力进行核心功能处理,之后完善设计应对各种异常情形。在学生自主设计的框架版本构想完成(不需要具体实现)之后,与将要学习的框架作对比,捕捉学生创意的闪光点,分析存在的不足,以此种方式吸引学生的注意力,培养其创新能力,而不仅仅是知识的传授。
第三,深入Hadoop等开源框架内部进行源码分析与解读。首先学习并熟练应用框架的核心功能,明晰框架的关键运行流程;之后按程序逻辑的执行过程采用断点调试的方法一步步追踪,搞清业务执行背后的代码逻辑,但不需要理清每一个具体细节;最后在不修改其源码的基础上做一些扩展开发的工作。以后工作中可以在源码的基础上进行修改并优化,做开源框架的二次开发。
第四,进行企业级案例分析和实际项目演练。培养学生处理复杂数据、整合异构数据的能力,掌握和利用Hadoop平台技术进行分析、处理、预测和优化的工作技能,鼓励学生通过实习参与商业化大数据平台建设。在实践中获得能力和素质的提升,快速汲取开发经验,尽快领悟开发真谛,化理论知识为实际项目经验。
3.4 多项评价,改革课程考核制度
课程的改革不仅体现在知识内容的演进、师资和硬件的配备更新上,考核评定方式的革新也是非常重要的一个环节。传统的期末卷面一次考试的评价方式暴露出了如考核形式单一、考核内容片面、考核重结果轻过程等很多缺陷和短板,并不能建立起对学生的合理评价,造成培养的学生实际工程能力较弱,也制约了教学水平和教育质量的提高。为适应时代的发展,培养高素质创新型的专业人才,结合本门课程的性质和特点,采用基于核心能力(包括岗位职业能力和通用职业能力)的课程考核方式,加强平时考核在总成绩中的权重,将考核贯穿于课程教学的全过程,采取“平时成绩+实验成绩+项目成绩+期末考试”的考评方式,并将重点放在过程性考核上。每学完一个核心的框架,即组织一次针对该框架的应用和编程演练,以此激发学生学习的主动性和积极性,加强学生的实践应用能力、创新能力和团队合作能力。
4结 论
大数据被誉为“21世纪的新石油”,在各个行业领域遍地开花,产业前景光明。在大数据的背景之下,精通大数据分析处理的专业人才成为众多企业争抢的对象,人才缺口巨大。《基于Hadoop的大数据分析》课程的设立就是在积极践行为国家战略新兴产业培育高水平、复合型精英人才,该课程及相关课程的设立将拉近信息产业界与高校学生专业教育的距离,让学生在学校内就可以在大数据环境中参与企业项目实践,把握未来企业需求,掌握好大数据的管理、分析、挖掘以及产品研发等方面的核心技能,从而在走向工作岗位后成为大数据业务领域的中流砥柱。
参考文献:
[1] 孟小峰, 慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013,50(1):146-169.
[2] 冯芷艳,郭训华,曾大军,等. 大数据背景下商务管理研究若干前沿课题[J]. 管理科学学报,2013,16(1):1-9.
[3] 王元卓,靳小龙,程学旗. 网络大数据:现状与展望[J]. 计算机学报, 2013,36(6):1125-1138.
[4] 曾明星,周清平,等. 软件开发类课程翻转课堂教学模式研究[J]. 实验室研究与探索, 2014,33(2):203-209.
[5] 刘在英,杨平,张丽晓. 程序设计课程实践教学模式的探讨[J]. 实验室研究与探索, 2013,32(10):156-159.
[6] 李海林. 大数据环境下的数据挖掘课程教学探索[J]. 计算机时代, 2014(2):54-55.
[7] 陈吉荣,乐嘉锦. 基于Hadoop生态系统的大数据解决方案综述[J]. 计算机工程与科学, 2013, 35(10):25-35.
[8] 栾亚建,黄翀民,等. Hadoop 平台的性能优化研究[J].计算机工程, 2010, 36(14):262-266.