大数据环境下机器学习课程的教学实践探索
2023-06-06杜科君
摘要:结合大数据应用的时代背景,高校教学科研的重心也随之发生变化。机器学习课程作为数据科学与大数据技术专业的专业核心课,依托于现阶段计算机技术的更新迭代,涉及多学科的交叉学科课程,兼顾理论与实践应用。正因为学科的复杂性和时效性,本科生学习该课程面临较大难度和挑战,基于这一现状,教师更应从理论出发,不断探索大数据环境下机器学习课程教学的新模式。
关键词:机器学习;大数据;教学研究
引言
大数据时代的到来依托于信息技术的不断革新和发展,但是仅靠信息技术的发展,还是不能完全促使大数据时代的最终来临。大数据时代的来临必须依托于数据量的爆炸式增长和完善,而这在很大程度上取决于数据产生方式的变革。而在高校教学层面,随着大数据应用的大量普及,机器学习的重要性也愈渐凸显。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能[1]。目前,机器学习技术已经成功应用于自动驾驶、自然语言处理、时间序列预测、生物医学信息处理等领域,也因此唤醒了各个行业[2]。在此背景下,大数据专业方向的教学应高度重视对机器学习人才的培养,本文重点讨论《机器学习》课程的教学改革方案与具体实践。
1. 课程简介
《机器学习》课程是一门介绍大数据基础理论并与实践相结合的课程,在注重大数据时代应用环境前提下,从初学者角度出发,以轻量级理论、丰富实例对比性地介绍大数据常用的各种基础工具,主要讲述机器学习的基本概念、方法分类、实际应用、常用工具及模型原理等。该课程考虑大数据集成需求多样复杂的基本情况,将理论与实例结合,对比性地介绍机器学习原理和工具。
1.1 目标
考虑到当前大数据发展处于起步并逐步赶超先进的阶段,应用领域丰富广泛,在教学过程中应注重掌握大数据分析的实践操作。课程旨在引导学生掌握扎实的机器学习基础知识和相关应用方法、工具和环境。通过《机器学习》讲授模型解决生活实际中可能遇到的数学问题,具备一定的大数据分析技术开发能力,培养独立思考和判断、分析问题和解决问题以及较强的实践动手能力。
通过本课程的学习,学生可以了解机器学习中的算法模型原理,掌握机器学习的基本概念、决策树等基本概念、降维、回归、分类、聚类等模型及原理等。通过相关原理和设计方法的学习,为学生达到“对本领域复杂工程问题具有分析、设计和实现等能力”的专业培养目标奠定基础,并培养学生适应大数据行业快速发展的素质,具备良好的大数据处理技术职业道德。
1.2 前置课程
作为数据科学与大数据技术专业本科生必修课,《机器学习基础》的主要任务是讲授包括监督学习、非监督学习、半监督学习等分支下的不同数学模型原理,同时通过大量实验,培养学生的动手能力及对代码的理解,从而达到灵活解决生产生活中具体实际问题的能力要求。选修课程是《python语言程序设计》《概率论》《数据分析与可视化》。
2. 課程教学面临的挑战
笔者认为,理想情况下的机器学习课程授课结果本应是理论知识、代码实践、实际应用的统一,这三者环环相扣,如图1所示。然而在具体的教学过程中,情况往往不尽如人意。
在编订教学大纲之时,大数据专业的培养目标是在课堂上首先传授理论知识。在透彻理解机器学习每一章所需要的模型原理后,引出经典代码示例,并在此基础上辅以相关题目引导学生练习,在丰富了多种模型之后开始实际运用。
2.1 数学基础与理论讲解分离
根据实际讲课情况来看,许多学生缺乏一定的数学基础,无法较好地对之前学习过的数学模型进行灵活运用,导致课堂上还需要匀出一部分时间来完成对先前知识的复习,降低了学习效率。《机器学习》课程讲授应以数据处理模型为主线,将本课程所涉及的各项知识点学习贯穿起来,方便学生理解和记忆。
在大数据专业的核心课程中,《机器学习》作为数学与计算机编程相结合的课程,需要对高等数学、线性代数、概率论等数学知识拥有较扎实的基础,比如朴素贝叶斯章节时用到的贝叶斯公式、全概率公式,以及回归时用到的偏导数概念。然而在大学三年级开设此门课程时,大部分学生表示对大学一年级时学过的数学模型与公式有所遗忘,导致课上不得不花费额外时间回顾以往内容。
2.2 代码实践与模型转换分离
本门课程设置配套课程设计,期间所有项目均要求学生提供项目设计报告以及对应的项目代码,杜绝任何抄袭及过度借鉴行为,鼓励学生相互交流学习,并根据自己个人的兴趣、爱好和能力,自主设计数据库应用系统的功能。
在实际过程中,大部分学生仅能完成教师布置的指定题目。例如在学习决策树模型时,学生会很容易理解剪枝与预剪枝的数学模型,基本都可以对决策树的每一个剪枝步骤画出相应图形。但在将图形化理论知识点转换成代码时却不尽如人意。更有甚者,对着给出的参考代码有样学样,直接对着屏幕一行行机械化打字,完全没有任何思考,甚至在做完练习题后还是没有对理论模型有较好的理解。
2.3 实际应用与课堂演练分离
在实践过程中,学生要学会把实际问题抽象为软件模型的思维方法,提高独立分析和解决实际问题的能力,深化对大数据设计的理解,掌握必要的大数据技术分析、设计和开发方法。主要内容设置应遵循“兼顾课堂与实践”的原则,引导学生学好课本知识的同时,利用课余时间动手实践所学内容,真正做到学以致用。
实际上,学生在学会基本数据建模后,往往倦于思考更大数据集的应用,更难将课堂所学应用于生产实际。比如,在医学方面可以使用机器学习中的逻辑回归模型等来分析临床参数用于疾病预测,还有助于治疗计划的改进。而在这一方面,大数据专业的学生在就业时也往往疏于思维拓展,只局限于互联网行业的应用,甚至更多地偏向于纯计算机方面的工作岗位,如软件工程师等。
3. 课程教学探索思路
教学应重视教学方法的改革,根据教学内容适时灵活采用不同教学方法,例如启发式、讨论式、翻转式、案例式等,并进行合理的教学设计,激发学生的学习兴趣,训练学生的分析判断能力、表达能力、思维反应能力以及团队合作能力。
3.1 线上学习和线下推演的融合
课堂教学采取在机房上课的模式。教师首先进行理论讲解和实例演示,然后由学生进行练习案例,学生机需要安装相关的软件。而正因为《机器学习》课程需要在理论教学的基础上辅以大量实践,光靠课堂上的时间是远远不够的,因而对其中的重点课程,应加以线上教学作为辅助,具体章节内容和教学方式如表1所示。
笔者认为,线下机房的授课仍然是教学的重中之重,然而教师还可以创新选择“第二课堂”如学习通、网易云课堂等,通过直播课、录播课、云端作业、测试、测评等方式,敦促学生合理利用课后时间训练,教师可以在线上平台规定时间点发布任务,通过线上方式检查学生的课业进展并在课上统一纠错辅导,进一步提高线下授课效率。
3.2 学生主导的课堂翻转
翻转课堂是指重新调整课堂内外的时间,将学习的决定权从教师转移给学生。本课程作为专业主干必修课程,重点在于向学生介绍机器学习的基本模型及算法应用,其主要内容设置应遵循“兼顾课堂与实践”的原则,引导学生在学好课本知识的同时,利用课余时间动手实践所学内容,做到学以致用。尤其在课堂上,应主张“采用教师启发和学生反馈的双向模式,提高学生对理论知识的认知。[3]”
在教学探索中,笔者尝试在课堂上提高学生的自主能动性,开展“算法+应用教学”的结合,引导学生主动学习机器学习知识,教师在课堂快速演示和总结。例如,在每节课后布置2~3个下节课的知识点,引导学生每节课课前通过提前查阅资料准备相关资料,鼓励学生主动上前回答课堂演示,结合PPT与板书来独立讲解《机器学习》相关模型,从而有利于学生对各种分析方法的掌握和理解。
除组织课堂研讨外,授课教师还应向学生及时提供答疑服务;要布置课外作业,课外作业应结合课程进度布置课后练习题,避免直接从教材上抄到答案的简答题;作业应尽量全部批改,并及时进行作业讲评。真正做到以学生为学习主体,从教师主导的灌输式教学转变为以学生为主体的自主式学习[4],充分发挥学生的学习兴趣,调动学生的积极性与能动性。
3.3 课程考核办法创新
本课程的授课模式为“课堂授课+上机”,其中,课堂主要采用多媒体方式进行授课,并通过测试题检验学生的掌握程度。考核比例按实验和理论考试3∶7的比例开展,期末考核方法為闭卷考试。期末考试成绩为50分以下时,不允许加平时成绩。其中,平时成绩参考实验课的学习情况,需要遵循一定的指导原则,并设计合理的考核方案,综合、全面地评估学生对理论知识的掌握和实践操作能力。
上机实验主要是通过编写程序来考查学生的动手能力,要求学生自主完成指定的程序设计或算法验证,使学生增加对机器学习与实际生活应用的认识,提升理论联系实际的工作能力。在上机实践题目设计过程中,循序渐进采用“分单元—小综合—实践项目”的思路展开[5]。
结语
结合大数据应用的时代背景,高校教学科研的重心也随之发生变化。《机器学习》课程作为数据科学与大数据技术专业的专业核心课,依托于现阶段计算机技术的更新迭代,涉及多学科的交叉学科课程,兼顾理论与实践应用。因其特殊的专业性和应用性,结合现阶段本科学生的专业知识掌握情况,对于教师的教学要求较高。既不能难度过高,又不能将知识模型流于表面;既不能贪图理论知识灌输,又要结合当今大数据发展现状,还需要学生熟练掌握并应用数学知识和python编程能力。
目前,高校本科生机器学习课程的创新实践仍然处于起步摸索阶段。在实际教学过程中,教师会遇到很多挑战,但这也是对大数据专业教师的一次考验。笔者认为,大数据环境下《机器学习》课程的教学探索更应该与时俱进,摒弃传统的课堂教学模式,避免造成理论、代码、实践割离的结果,使得学生进一步提高学习兴趣,从而对《机器学习》课程有更好的理解和应用,更好地为大数据行业培养专业人才。
参考文献:
[1]李昊朋.基于机器学习方法的智能机器人探究[J].通讯世界,2019,26(4):241-242.
[2]曲衍鹏,邓安生,王春立,等.面向机器学习课程的教学改革实践[J].计算机教育,2014,(19):88-91.
[3]叶明全,黄道斌,卢小杰,等大数据时代下数据挖掘课程实践教学探索[J].池州学院学报,2016,30(6):128-130.
[4]覃海焕,芦立华,吕品,等.大数据技术课程混合式教学探索与实践[J].福建电脑,2022,38(3):110-113.
[5]李洁,魏宇轩,武妍,等.机器学习课程中递进式实验案例设计[J].计算机教育,2022,(1):134-138.
作者简介:杜科君,硕士研究生,助教,研究方向:数据科学。