职业院校“Hadoop平台及运维”课程教学实践与思考
2023-09-06高龙
摘 要:“Hadoop平台及运维”是大数据专业的核心课程,课程具有对前置课程要求高、交叉性强、实践难度大等特点,传统“以教为中心”的大数据平台运维教学方式很难实现以应用为导向的目标。文章以兰州石化职业技术大学为例,基于高职院校学生的学习特点,结合近几年的教学实践经验,从课程教学模式优化、课程内容安排、实践教学平台运用及考评方式改进等方面,提出了以职业技能和职业素养培养为导向,符合学生实际状况的教育教学策略,为大数据专业其他课程的实践教学提供参考。
关键词:大数据平台运维;Hadoop;实践教学;教学思考
中图分类号:TP39;G434 文献标识码:A 文章编号:2096-4706(2023)14-0194-05
Teaching Practice and Reflection on the Course of“Hadoop Platform and Operation and Maintenance”in Vocational Colleges
—Taking Lanzhou Petrochemical University of Vocational Technology as an Example
GAO Long
(Lanzhou Petrochemical University of Vocational Technology, Lanzhou 730060, China)
Abstract:“Hadoop Platform and Operation and Maintenance” is the core course of big data major, which has the characteristics of high requirements for pre-courses, strong cross-disciplinary skills and difficulty in practice. However, the traditional teaching method of “teaching-centered” dig data platform operation and maintenance is difficult to achieve the goal of application oriented. Taking Lanzhou Petrochemical University of Vocational Technology as an example, based on the learning characteristics of students in higher vocational colleges, combined with the teaching practice experience in recent years, from the aspects of course teaching mode optimization, course content arrangement, application of practical teaching platform and improvement of evaluation methods, this paper puts forward the education and teaching strategies that are oriented to professional skills and professional quality cultivation and conform to students' actual situation, providing reference for practical teaching of other courses in Big data specialty.
Keywords: big data platform operation and maintenance; Hadoop; practical teaching; teaching reflection
0 引 言
隨着网络的普及和信息科技的快速发展,全球的数据量正在以指数级的速度增长,传统的数据采集、加工、处理方式已无法满足当下对数据高效存储与处理的要求。为解决此问题,用于大规模数据存储及处理的分析引擎Hadoop应运而生。在Hadoop生态体系中,包含了分布式文件系统、分布式计算引擎、分布式列式存储数据库、分布式协作服务、数据仓库等一整套工业级解决方案,在企业中得到了广泛的应用。在国家“新基建”战略的推动下,各行各业逐步向数字化应用转型,对于大数据运维人才呈现出了供不应求的状态。作为人才培养的主战场,越来越多的院校积极响应社会发展趋势和市场需求,申请大数据相关专业,开设大数据系列课程。然而高职院校由于起步较晚,没有符合职业特色的可借鉴的成熟的人才培养模式,加之大数据专业是一个交叉型学科,其生态体系内的技术组件更新迭代快,这就要求大数据系统运维人员必须拥有较强的学习能力和行业知识更新能力。因此,现在高职院校的大数据专业的人才培养面临着新的困难和挑战。本文从大数据专业核心课程“Hadoop平台及运维”的特点出发,以兰州石化职业技术大学为例,通过对高职院校学生的学习特点进行分析,从课程教学模式优化、课程内容安排、实践教学平台的运用等方面提出了具体的教育教学策略,以尝试解决当前大数据专业人才培养面临的问题,提升专业人才培养质量。
1 课程特点分析
“Hadoop平台及运维”是大数据专业的一门核心专业课程,其目标是让学生了解Hadoop核心组件的功能配置及工作原理,熟悉常用的系统性能诊断工具及集群监控管理工具,掌握大数据平台的安装配置以及大数据平台的优化策略和方法。本文通过相关调研交流并总结实践教学经验,对该课程的特点分析如下。
1.1 对前置课程要求较高
“Hadoop平台及运维”是一门综合性、实践性、应用性都很强的课程,其前置课程主要有:Java/Python语言编程基础、计算机网络、MySQL数据库以及Linux操作系统。在搭建Hadoop分布式集群之前,首先要安装配置好集群的基础环境,这涉及Linux系统的网络配置、防火墙配置、SSH远程登录配置、SELinux(Security-Enhanced Linux)配置及时钟同步,此外还需配置Java、Scala、Python的运行环境,配置环节多且复杂,任何环节的配置错误都会影响后续Hadoop集群的搭建及应用软件的开发。在部署使用Hive组件时,由于Hive使用类SQL语句实现对数据的操作,因此要求学生熟练掌握SQL语句,这对于关系型数据库知识掌握不牢固的学生而言无疑是一个难点。由此可见,“Hadoop平台及运维”课程对部分前置课程的知识要求较高,对学生的实操能力也有一定的要求。
1.2 涉及知识面广
大数据运维不同于传统的IT运维,运维人员不仅要掌握大数据平台维护管理技巧,利用监控分析工具掌握系统运行状态,还要具备分析运维日志并通过运维数据挖掘价值的能力。该课程涉及计算机、数学、统计学等学科知识,交叉性强,涉及知识面广,对学生学习此课程带来了不小的难度。此外,Hadoop生态体系庞杂,除分布式文件系统HDFS、分布式计算框架MapReduce及列式存储数据库HBase三大核心组件外,还包括数据仓库Hive、分布式协调服务ZooKeeper、ETL工具Sqoop、Flume等,图1展示了本课程要学习的Hadoop生态体系中的关键组件框图。
1.3 运行机制理解难度大
作为一名合格的大数据运维人员,不仅要能够搭建配置Hadoop生态体系中的各类组件,更应具备快速排除系统故障,保障业务稳定运行的能力,这就要求学生对大数据组件知识的理解不能仅仅停留在表面,而是要进行更深层次的学习,理解其底层运行機制。但是Hadoop生态系统中的大部分组件都是分布式系统,底层逻辑复杂,运行流程难以理解。
1.4 对实践环境要求高
以在单台计算机上搭建包含3个节点的Hadoop分布式集群为例,计算机硬件配置的最低要求为:4核心CPU,16 GB内存,50 GB硬盘,对实验计算机硬件配置有一定要求,学生个人电脑可能无法胜任部分实验。此外,部分院校可能没有云计算实验室,只能在传统单机上利用VMware、VirtualBox等虚拟化软件模拟搭建集群环境,学生无法真正地感受到大数据时代云计算和大数据与普通数据的不同。
1.5 缺乏真实演练环境
大数据运维岗位既要满足业务快速上线的需求以保障系统安全可用,又要求从业人员有较丰富的实践经验,因此在真实工作环境中的演练,才能真正提升能力和素质。然而由于大数据运维的特殊性,很多问题场景不能重现,学生无法从相同场景中模拟演练,无法积攒排错经验,实践能力得不到提升。
2 高职学生学习特点分析
随着我国高等教育由英才教育向大众教育的转变,高校招生规模逐年扩大,高职高专教育也得到了迅速的发展[1],高职院校的扩招使得生源结构多样化,生源质量层次不齐。各类生源中,普通高中毕业生基础相对较好,学习能力相对较强,中职类毕业生次之,扩招生源相对较弱[2]。通过调研及教学实践过程发现,高职院校大部分计算机专业学生在学习上存在以下共性特点:
1)学习目标不明确,缺乏学习动力。对于高职学生来说,由于在前期的学习阶段没有打好基础,缺乏学习热情,加之大学课程多、难度大,更让他们应接不暇。学生没有明确的学习目标,对自我认知存在偏差,缺少自信,执行力弱,失去了学习动力。
2)学习意志力薄弱。高职的学生在学习中表现出来的往往是意志比较薄弱的现象[3],遇到学习困难时,缺乏克服困难的信心和勇气,因而常常退缩,致使学习半途而废。
3)缺少良好的学习习惯。良好的学习习惯是保证学有所获的前提,由于高职学生在以往的学习经历中没有养成好的学习习惯,导致学生学习专注力低,依赖心理严重,普遍缺乏提问意识和独立解决问题的能力。
4)更偏向于实践教学。相比于枯燥的大数据技术理论教学,高职学生对实践教学的接受程度更高,实践教学更能吸引学生的注意力,提高学生的学习体验,同时也激发了学生的自主合作意识,培养了团队协作能力。
3 课程教学方法探索
3.1 持续优化课程教学模式
针对“Hadoop平台及运维”课程特点和高职学生学习特点,构建“做学合一、工学结合”的理实一体化课堂教学模式[4],将“耳听为虚”的Hadoop组件运行机制转化为“眼见为实”的实操过程,犹如单步调试程序一般,尽量摊开底层细节,通过实践验证理论,帮助学生实现由感性认知到理性理解的转变,激发学生的学习兴趣。以任务驱动教学,设计难度适当的任务模块,设定明确的任务目标,让学生在任务过程中实现“学中做”“做中学”,锻炼学生的思考能力和动手能力,图2为本课程的教学设计架构图。对学生在任务实现过程中遇到的问题,要求以Markdown(https://www.markdownguide.org/)方式做好有图有文的电子笔记,在个人思考、借助搜索引擎、互相讨论等方式均不能解决的前提下,将问题反馈记录在本课程的“常见问题解决共享知识库”内,由授课教师和学生共同解答,提供解决思路和关键步骤,而不是现成答案。针对一些重难点问题,在问题解决知识库中标以重点标记,启发遇到类似问题的学生尝试自己解决,如此不仅可以促进学生学习的主动性,提升其独立解决问题的能力,也避免了学生养成遇到困难就打退堂鼓的不良习惯。在结束一个模块的教学内容后,针对学生遇到的重难点问题及共性问题,在课堂上再次复盘总结,加深理解。同时作为平时成绩的考评项,要求学生对重点知识、学习心得和问题解决方法及时记录在电子笔记中,学会持续的复盘总结改进,实现知识的学习应用由量变到质变。图3是基于Baklib(https://www.baklib.com/)知识库软件搭建的课程“问题解决共享知识库”,可以邀请所有学生一起在线为知识库贡献内容,并设置站点仅限内部人员查看权限。针对课堂知识难沉淀、难共享、难利用的问题,借助知识库类软件可以有效解决此类问题,帮助学生养成良好的知识管理习惯。
结合课程特点和高职学生学习特点,借鉴吸收省内外其他院校的经验做法,持续优化改进课程教学模式,形成“教、学、做、评”的闭环教学系统,持续改进教学质量,让学生在边学边练的理实一体的教学模式中强化理论学习,巩固技能本领,真正成为知识的主动获得者和技能的积极操作者[5]。
3.2 不断充实教学内容
本课程以培养大数据平台运维能力为中心,以企业需求为核心,将职业认证资源课程化,融入职业院校技能大赛拓展内容,构建了从初级到中级职业能力递进式的课程内容体系,使学生实现技术技能的阶梯式提升。整个课程内容包括Hadoop大数据平台集群部署、大数据组件(Hive、HBase、Zookeeper、ETL)的维护、大数据平台优化、大数据平台的诊断与处理4个部分,其中前两个部分为初级内容,后两个部分为中级内容,具体内容安排如表1所列。
本课程以获取“大数据平台运维”1+X职业技能证书为导向构建课程教学内容,同时对接全国职业院校技能大赛标准,适当调整更新部分课程内容,例如2022年全国职业院校技能大赛中Hadoop集群是基于Docker(https://www.docker.com/)容器部署使用的,则在后续的课程中及时更新了基于Docker容器快速构建Hadoop集群的内容。通过以上方式,有序实现课证赛融通,促进了学生专业能力和职业素养的提升。但受制于课时数,本课程的缺陷在于缺少综合性实战运维项目,对学生的技能培养达不到高级难度级别,这也是今后课程改革的主要方向。
3.3 灵活运用实践教学平台
在学校建设大数据实训室之前,本课程主要利用VMware/VirtualBox虚拟化软件在单台计算机上构建3个CentOS 7操作系统虚拟机,在虚拟机中安装部署Hadoop集群及相关组件,图4是在VMware中同时部署运行3个Hadoop节点的界面。这种实践方式的特点是对计算机硬件的配置要求较高,同时要求学生的实操能力必须过关,有利于培养学生的动手能力和问题排查能力。
随着大数据实训室的建成,大数据专业的部分核心课程开始逐步采用新引进的在线大数据实验教学系统和大数据技能演练与实战系统,该系统以云平台架构为基础,以虚拟机形式为工具,为学生提供大数据实验环境,可同时容纳60人进行线上实验。图5是大数据实验教学系统的课程资源界面,该系统实验案例丰富,实验步骤详尽,学生只要按部就班地操作就能够完成实验,但不利于学生独立思考能力的培养和解决问题能力的提升,比较死板,不灵活[6]。
鉴于此,本课程将两种实践平台有机结合起来,按需使用。大数据实验教学系统教学资源丰富,利用该平台可有效降低教师备课难度,学生可借助此平台完成课后拓展练习,拓宽技术视野。尤其是在准备职业院校技能大赛时,大数据技能演练与实战系统上真实的行业数据集和场景可作为学生模拟演练的竞赛环境,提高竞赛技能。在虚拟机中部署配置集群的方式则作为上课的主要实践演练平台,锻炼学生解决问题的能力,培养工程师思维。
3.4 改进考核评价方式
相比于以往平时成绩占30%,期末考试占70%的考核评价方式,本课程加大了平时成绩的占比到60%,平时成绩主要有以下部分组成:学习的电子笔记质量(占20%)、课堂实践任务完成度(占20%)、“问题解决共享知识库”贡献度(占10%)、课后作业完成情况(占10%)。其中电子笔记质量的评阅由全体同学共同参与打分,评选出条理清晰、图文并茂的笔记在班级内展示;“问题解决共享知识库”贡献度主要看学生的有效提问记录数目、回答数目和质量,对于活跃度高、互动高频的学生,教师打较高分。
通过上述课程考核方式的改进,不再是仅仅关注结果,而是更加注重考核的过程性和有效性,由“重知识、轻能力”的考核方式转变为“重技能、重职业素养”的方式,为学生毕业后正式走上工作岗位打好基础。
4 结 论
在2020和2021级两届学生的教学实践过程中,根据课程特点和高职学生学习特点,本课程持续优化,加之随着校内实践条件的不断完善,在课程结束后,学生的实操技能和职业素养普遍得到了较大的提升,在职业院校技能大赛中也取得了较好的成绩,具有较好的现实意义。但也存在着需进一步改进的问题,例如受制于课时少,课程缺少综合实战运维项目,学生对所学内容在实际工程中的应用缺乏深层次的认识;Hadoop生态体系内的技术组件繁多且更新迭代快,课程内容的更新速度赶不上技术工具的变革速度,因此如何平衡这两者之间的关系,也是值得思考的问题。今后的课程改革中,应“以岗位能力为课程目标,以工作过程为课程模块,以实训项目为课程内容,以最新技术为课程视野,以职业能力为课程核心”为宗旨,思考大数据技术类课程的发展方向,切实培养基础实、能力强、素质高的职业技能人才。
参考文献:
[1] 施卫民.刍议高职学生学习特点及分析 [J].科技视界,2019(33):184-185.
[2] 张丽景,张文川.基于对比分析法的高职“MySQL数据库”课程设计——以兰州石化职业技术大学为例 [J].现代信息科技,2022,6(21):188-191.
[3] 郭婷,夏瑜.对高职学生学习心理特点的分析及教育策略探究 [J].教育现代化,2017,4(38):282-283.
[4] 刘雪玉,沈洁惠,陆炎,等.基于“做学合一”的理实一体化城轨信号教学方案 [J].创新创业理论研究与实践,2022,5(15):27-29.
[5] 覃容飞,郑夏燕,姚明泉.基于工作手册式活页教材应用的理实一体化教学实践——以《茶树优质高产栽培(南方本)》为例 [J].福建茶叶,2022,44(7):78-80.
[6] 曹素丽,杨延广,张翠轩.以学生为中心的“Hadoop大數据平台”课程的教学设计 [J].微型电脑应用,2019,35(11):11-14.
作者简介:高龙(1992—),男,汉族,甘肃兰州人,助教,硕士,研究方向:自然语言处理、大数据技术。