专业认证背景下大数据专业机器学习课程群建设研究与实践
2022-05-31崔嵬
崔 嵬
(保定学院 数据科学与软件工程学院,河北 保定 071000)
2016年6月中国正式加入《华盛顿协议》,此协议是工程教育本科专业认证的国际互认协议[1],任何一个签约国已通过认证专业的毕业生,均可被其他签约国视为已获得从事相关工程工作的学术资格,由此可促进本科资格国际互认和工程技术人员的国际流动。自2017年198所高校846个工科专业通过中国工程教育专业认证协会的认证以来,专业认证工作在我国全面展开。
随着大数据产业的迅速发展,各行各业对大数据人才的需求呈上升趋势。2015年9月国务院印发《促进大数据发展行动纲要》,2016年北京大学、中南大学和对外经济贸易大学三所高校获批设立大数据专业。之后,为了应对大数据人才需求旺盛与供应短缺的矛盾,许多高校开设了大数据专业。作为一个新兴专业,大数据专业具有多学科交叉的特点,对高校教师的教育教学提出了挑战。因此,本文结合专业认证进行了大数据专业机器学习课程群的研究和实践。
一、大数据专业机器学习课程群
课程群是以现代教育理念为标准,对某一专业中联系紧密的课程进行重新整合、设计的课程集合,其强调整体设计建设目标,各门课程相互配合形成集群效应。近年来,课程群建设已经成为众多高校教学改革的重要举措,并且积累了很多宝贵的经验[2-3]。
大数据专业课程体系分为四个部分:第一部分是数学与计算机基础课程,包括高等数学、线性代数、概率统计、离散数学、数据结构和操作系统等;第二部分是核心课,包括数据科学导论、云计算系统、分布式计算系统、统计方法与机器学习等;第三部分是方向课,包括深度学习、自然语言处理等;第四部分是实践课程,包括毕业设计等实践环节。机器学习作为大数据专业核心课程之一,是人工智能的算法基础,又是统计方法的一种延伸,与其他课程关联度较高。因此,我们尝试进行了课程群建设实践研究,把机器学习与概率统计、统计方法基础、深度学习等课程组合为一个课程群,称为机器学习课程群,见图1。
图1 机器学习课程群
根据图1所示,机器学习课程群各课程开设顺序依次为:概率统计、统计方法基础、机器学习、深度学习。概率统计是对数据进行定量分析的理论基础,是基于抽样的统计推断,基本内容包括随机事件及概率、随机变量及其分布、大数定律与中心极限定理、参数估计、假设检验和回归分析等;统计方法基础是数理统计的扩展,内容由参数估计扩展到非参数估计,由一个维度的随机变量推广到两个维度,比如时间序列分析、马尔可夫向量场等;机器学习是大数据时代基于全样本的数据分析方法,不仅是数据量级的增长,更体现在数据质量的变化,机器学习算法涉及统计学、计算机等多个学科,有广度又有深度,是人工智能和大数据专业的核心,不但具有理论研究价值,而且具有广泛的应用价值,相当于自然语言处理、语音识别、机器翻译、智能驾驶等智能算法的“芯片”;深度学习是机器学习的延伸,主要内容为深度神经网络,应用于人脸识别、视网膜识别、虹膜识别、智能控制、智能对话机器人等人工智能领域。机器学习课程群中各课程既是独立的,又是相互联系的,对大学生的能力培养方面具有相辅相成、相互促进的作用。
二、专业认证背景下机器学习课程群建设的必要性
(一)遵循“产出导向”理念,重构课程设计的必要性
专业认证的“产出导向”理念关注学生取得的学习成果,强调学生取得哪些成果、如何取得这些成果、教师如何有效帮助学生取得这些成果、取得这些成果是否满足社会需求等等。现行大数据课程设计中多采用“正向设计”模式,注重单门课程的系统性,教学过程中,教师往往根据以往的经验,通过系统讲解教材,完成教学计划。这种模式做到了有章可循,保障了大数据专业学科的系统性和完整性,但不可避免地存在着内容重复、观念更新不及时等弊端,而且更多地关注知识本身,忽视了学生的能力培养。因此,根据“产出导向”重新设计课程,在关注知识的同时,把注意力转移到学生身上是十分必要的。
(二)遵循“学生中心”理念,优化教学模式的必要性
专业认证“以学生为中心”理念关注学生的成长、专业能力提升和情感共鸣,突出学生的主体地位。传统教学模式注重单向灌输,大多是在教师为主体的模式下,完成“概念+理论+方法+计算+应用”的一贯式教学。学生的学习过程是获得知识,以学生为中心的理念应是教师搭建平台,体现学生的主体地位,让学生探究知识。
(三)遵循“持续改进”理念,构建评价体系的必要性
课程群建设是动态的,随着时间的推移和课程的深入会取得预期成果,但也会出现一些新的问题。现有考核注重终结性评价,即使有过程性考核,也多为考勤、作业、期中考试等形式,与大数据专业的课程目标结合不够紧密,对专业培养目标的支撑作用发挥不够,无法全面、客观、科学地评价学生学习的全过程。因此,根据专业认证“持续改进”理念,构建全方位的动态的评价体系实为必要。
三、专业认证背景下机器学习课程群建设实践
根据机器学习课程群的目标,笔者所在教师团队以保定学院2019级大数据专业学生为对象进行了一系列的课程改革实践。
(一)基于“反向设计/正向实施”的理念整合课程资源
为了更好地帮助学生取得学习成果,采用“反向设计/正向实施”理念整合课程资源。
首先,遵循反向设计原则,从专业认证需求出发,制定机器学习课程群建设目标;其次,整合课程资源,根据后续课程所必备的能力要求对先修课程教学知识点进行梳理;最后,整合课程内容,制定教学计划,去除重复知识,补充新知识,强化重要知识,力争做到知识脉络清晰,能力培养循序渐进,并通过“线上+线下”融合方式正向实施课程。课程资源整合情况见图2。
图2 机器学习课程资源整合情况
比如,笔者通过梳理发现,条件概率在对数几率回归模型、决策树模型、贝叶斯分类器、集成学习和聚类算法中均有应用,是算法原理理解与应用的重要概念。因此,在概率统计的教学中对此知识点一定要高度重视并强化;线性回归模型是机器学习的重要内容,在概率统计中也有涉及,为避免重复讲授,故将概率统计中相关内容去除;梯度下降法是神经网络算法的基础,但在先修课程中均未涉及,所以在统计方法基础课程中,以教学模块的形式补充相关内容;机器学习的全连接神经网络后置到深度学习课程中,与卷积神经网络、循环神经网络共同形成神经网络体系。
(二)根植“学生中心”理念,打造特色教学
为了更好地契合专业认证“学生中心”的理念,课程团队积极打造机器学习课程群特色教学,主要体现在三方面:
第一,兴趣化教学。以兴趣点的挖掘为抓手,导入课程知识点、能力点,有效激发学生学习兴趣,增强学生学习的积极性和主动性,为创造性思维的养成奠定良好的理论基础。
第二,问题驱动式教学。在理论教学环节,改变原有传统教学模式,以问题为驱动、教师为主导、学生为主体,以问题解决为主线,把数学不可视的基础、无趣的推导和计算、看不见的应用等融入到案例教学中,使学生在解决问题的过程中,体会机器学习算法的应用性,达到能用、会用、巧用,为解决复杂问题打下坚实的理论基础。
第三,三层次项目化实践教学。在遇到实际问题时,扎实的理论功底可以帮助学生快速找准问题的关键点,剖析数据的本质,但问题的顺利解决还需要大量的、有针对性的实践锻炼。在机器学习课程群中,涉及实践教学的课程为机器学习和深度学习,传统的教学方式多为利用波士顿房价、鸢尾花、手写数字、人脸等数据集,完成相应的回归、决策树、支持向量机、朴素贝叶斯、全连接神经网络、卷积神经网络和循环神经网络等分类或聚类任务,这与行业要求的复杂数据的处理能力、决策能力及创新能力的需求之间还有较大的差距。为了提高学生实践操作能力,锻炼学生的大数据处理与创新能力,我们采用了三层次项目化实践教学,见表1。
表1 三层次项目化实践教学
项目化教学[4-5]是由师生共同参与整个项目的教学过程,从确定项目任务、制定工作计划、组织项目实施、检查评估项目、展示成果的整个工作过程入手,对学生进行创新能力的培养。相较于传统的教学方法,该方法强调学生在整个项目实施过程中的主导作用,能够有效提高学生分析能力、团结合作能力、综合概括能力、动手能力等。
(三)着眼人才培养,打造科学合理的评价方式
为了建立“持续改进”的科学评价体系,以实现课程群的动态持续优化,除采用“过程性+终结性”考核相结合的评价方式以外,还从以下两方面进行创新。
第一,“串行+并行”考核相结合。原有的课程考核为学完一门,结业一门,在后续的课程中教师不再关注,后续课程中用到相关知识时,也基本靠学生自主查阅、学生间讨论、向老师求助等方式获取。这对有强烈学习意愿的学生来说,基本不会影响后续课程的学习效果,但对于学习主动性较差的学生,由于缺少了先期基础知识的支撑,后续课程的学习效果会大打折扣,甚至会造成越来越差、最终掉队的“死循环”。基于“一个都不能少”的教育情怀,也为了破解“死循环”的困境,采用“串行+并行”考核的策略。所谓“串行”考核是指先修课程的知识点、能力点依然会进入后续课程的考核中,从始至终贯穿于所有课程。“并行”考核除了每门课程的考核之外,还有综合水平评价环节,随同深度学习课程下发任务,以此作为综合能力考查的依据。
第二,“定性+定量”融合评价方式。课堂教学是师生互动的多边活动,“即时评价”作为师生交流互动的一种有效方式,始终贯穿于教学活动中,对教学活动起着重要的导向作用,可以有效促进学生学习兴趣的养成,但“即时评价”大多是一种“定性”的评价,难以量化。而学习平台线上学习数据的留存恰恰提供了“量化”的数据,所以“线上+线下”的教学形式为“定性+定量”的融合评价方式提供了数据支撑。定量评价采集的数据主要来源于慕课平台和超星学习通平台。比如中国大学慕课后台会记录某课程的学习时长、单元测验成绩、期末测验成绩等信息,这都可以量化学生的学习积极性、主动性、学习效果等。另外,本课程团队成员根据课程群建设的目标和子课程的教学大纲,精心编写了部分章节的训练题目,发布于学习通资料库。学生可以自行下载或在线练习,实时评卷功能可以帮助学生针对错题进行查漏补缺,激发学生的学习兴趣,形成学生之间讨论、合作的良好学习氛围。
四、大数据专业机器学习课程群建设成效
(一)机器学习课程群建设前后学生成绩比较
学生通过课程的学习,能否达到应有的知识水平和能力素质,是衡量课程有效性的核心指标。为了考察课程群建设效果,笔者将大数据专业2018级和2019级学生概率统计课程成绩进行了比较分析,结果见表2。
表2 2018级与2019级学生概率统计成绩比较(n=53)
由表2可知,2018级低分段(0~59)学生占比17.0%,2019级则降到0;中等分数段(60~79)学生占比基本持平;2019级高分段(80~100)学生占比49.1%,虽然90分以上学生人数有所减少,但总体占比明显提高,说明2019级整体水平有了大幅提升,大数据专业机器学习课程群建设成效显著。
(二)课程群目标达成度评价
专业认证内涵发展的根本性落地取决于课程建设,而课程群建设水平的提高需要基于课程目标达成度评价进行持续改进[6]。
首先,计算单门课程的目标达成度,以2019级大数据专业概率统计课程为例。2019级概率统计课程学生成绩见表3。
表3 2019级概率统计课程学生成绩
概率统计教学大纲中,按照知识目标、能力目标、立德树人目标逐次递进的原则设定为6个目标,过程性考核三项成绩和期末成绩对应各自的课程目标。设Ai1、Ai2分别表示第i个课程目标对应平时目标分值和平均分值,Ai3、Ai4分别表示第i个课程目标对应末考目标分值和平均分值,则课程目标i的达成度为
其中 α 表示末考成绩权重,i=1,2,…,6。
表4 概率统计课程目标达成度
相同的方法计算可得,统计方法基础课程目标达成度为0.842 8,机器学习为0.798 7,深度学习为0.821 4。
其次,按照单门课程占70%,终结性项目占30%,各门课程按学分比例分配权重的原则,计算课程群建设目标达成度见表5。
表5 课程群目标达成度
从表5可以看出,课程群每个环节的达成度均在75%以上,说明每个环节各评价指标对课程目标的达成均具有显著的促进作用;总达成度为82.73%,说明以学生为中心、培养并提高学生数据综合处理能力和数据决策能力为目标的机器学习课程群建设目标达成情况良好。
另外,除了这些可见的建设成效以外,课程群建设团队教师通过课程教学资源的重新整合,建立了与大数据专业相匹配的课程群理论与实践体系,推动了专业课程内容与实践对接,实现了专业快速高效发展;经过特色教学,学生学习的积极性、主动性有了明显改善,独立思考问题、解决问题的能力和复杂数据的决策能力均有不同程度的提升。