APP下载

数据分析与机器学习课程的案例式教学改革

2021-03-23李大威

实验室研究与探索 2021年2期
关键词:编程机器研究生

李大威,艾 欣

(东华大学信息科学与技术学院,上海 201620)

0 引言

随着我国科技、教育事业的快速发展,在国内外频繁密切的学术交流背景下,当前我国的高等教育已经迈入了全新的阶段。除了科研实力以外,国内高校的人才培养,特别是研究生的培养质量也已经不可避免地加入国内外同行的激烈竞争和比较中。信息与计算机技术的飞速发展对相关学科的课程体系和教学内容带来了全新的内涵和挑战,特别是近几年AI学科的异军突起,对许多产业和国民生活都带来了广泛的影响。深度学习技术的流行使数据挖掘和机器学习等研究生课程具有了更丰富的内涵和更广的应用范围。这些因素都迫使我们一直在思考如何推动信息学部的研究生教学改革,传统的教师主动传授、学生被动接受的授课方式显然已经不适应当前的人才培养需要[1]。因此很多信息与计算机学科的教师与科研人员提出了诸如CDIO、翻转课堂[2]等教学新模式,鼓励线上线下、网络公开课与实际课堂综合的教学方式[3-10]。

随着“大数据”时代的到来,重要的决策将日益基于数据和分析而做出,而并非基于经验与直觉[11]。数据分析是综合使用检索策略、数学工具与算法、计算机等从大量数据中获取用于决策的知识与规律,辅助决策者做出正确策略的一种方法。数据的有效分析离不开机器学习技术,机器学习是人工智能的基础,也是致力于研究如何通过计算的手段、利用经验来改善系统自身性能的一门学科;也是通过模拟或实现人类的学习行为以获取新的知识技能的一门学问。因此“数据分析与机器学习”不仅是信息学部的重要教学内容,也已经成为人工智能课程群的一门主干课程。由于课程难度较高,为了保证教学效果,不少学者开始提出使用案例式与分层教学方法,以实践带动理论知识的讲解为理念进行教学改革,取得了一些成果。比如周志华[12]撰写的“机器学习”教材被同学们亲切地称为“西瓜书”,正是因为其中有不少以西瓜数据作为范例的算法讲解。胡雪蕾等[13]在“机器学习”课程改革中引入问题驱动的教学法和实践驱动教学法进行了教学改革。在这些机器学习相关的课程教改成果启发下,本文以我校控制科学与工程研究生专业为例,介绍“数据分析与机器学习”课程在案例式教学和实验教学等方面的改革特色。该课程为控制科学与工程学位点的专业选修课,同时面向学术型与专业型的一年级硕士研究生开放。该课程每年开课一学期,共32 学时、2 学分,选课学生人数每年稳定在80 名左右。

1 教学问题与主要举措

“数据分析与机器学习”课程的教学特点和问题以及针对这些问题进行的教改举措主要有:

1.1 学生的本科专业五花八门,课程基础不一

虽然选修本课程的研究生绝大部分来自控制科学与工程及控制工程这两个专业,但同学们的本科专业则五花八门。对2018、2019 两级选修课程的学生的本科专业进行了调研,结果以饼图的形式展示于图1,可见近两年间半数学生来自于自动化专业,剩下许多同学本科学习的是电气工程及其自动化、机械与动力工程、物理与光电等相关专业,对本课程需要的数学知识和机器学习相关入门概念的了解比较薄弱。

图1 2018、2019两级选课学生的本科专业分布情况

针对选课学生的特点,课程在教学上安排了完整的由浅入深的过程。在课时安排上,第1 周的课程全部讲述与数据相关的概论知识,从课程内容的整理安排开始,先后讲数据之广、数据之大、数据之美、数据之能、数据之惑、数据之害等内容,以丰富、风趣的案例唤起学生对课程的兴趣。第2 周的课程以教材为主干,对机器学习的一般方法进行简单的概述,特别对机器学习算法的基本划分,比如无监督学习、有监督学习以实例进行讲解和区别。为了帮助本科专业为非自动化和计算机类的同学尽快能够适应本课程,在第3 次课的前半部分,以互动式课堂习题的方式讲解4 个关于向量以及向量范数的微分计算实例,并推荐一本专门查表向量与矩阵运算的开源工具书“matrix cookbook”[14],为后面课程在数学公式的推导方面奠定基础。

1.2 教材繁多,但适合本课程教学要求的却较少

机器学习的教材卷帙浩繁,国内外虽然已有不少优秀教材,但是适合于课时和涵盖面的非常少,要么面面俱到内容繁多,要么牵涉太多艰深理论。

本课程要在32 学时内将主要的数据分析方法与机器学习技术进行全面讲解难度较大,只能考虑对重点算法进行讲述,因此选择了杉山将著、许永伟译的《图解机器学习》作为本课程教材[15]。它的第1 个优点是使用几何方法和多种示意图表帮助初学者理解艰深的机器学习原理中的代数问题;第2 个优点是随书附带了不少在Matlab 平台下可执行的算法小案例代码,便于学生调试和运行各类算法,加深理解。

1.3 本门课程理论内容枯燥,难度较高

本门课程理论内容枯燥,在算法细节上充满了数学公式,缺乏与实际问题的联系。整个课程的教学涉及概率论、矩阵论、数值分析、高等数学、优化理论、多种计算机编程工具等多方面的知识,给学生的学习过程带来了严峻的挑战。因此,需要将课程内容与实际问题相连,以理论联系实际,改进教学效果。

为了降低课程学习门槛,采用了案例式教学方法,课程设置了核密度估计模型、主成分分析算法、高斯混合模型聚类算法3 个各2 课时的大案例。这3 个大案例教学分别对应于线性学习模型、降维方法、无监督聚类方法这3 个重点教学章节,而且在案例的最后都布置了具有详细说明和要求的编程大作业,使学生可以在课后加深对课程的认识。同时,还做到了在课程当中每45 min就至少有一个小案例进行穿插,其内容或是对算法细节的说明,或是一个完整的算法应用,很好地缓解了同学们的理解难度。以“稀疏学习”章节为例,课程使用栗子果皮多刺的形态类比1 型范数高维参数约束空间的几何形态,帮助学生理解在1 型范数约束的最小二乘法的解容易出现在参数空间的尖端的现象。在“稀疏学习”章节,通过借鉴原子力显微镜对氢键成像所采用的伴生物间接观测法这个小案例[见图2(a)],阐述了使用伴生上确界曲线把不可微分的1 型范数约束的最小二乘法优化目标转化为可微分的二次优化目标形式的思维方式[见图2(b)]。这些小案例帮助加深了学生对机器学习算法的理解。

1.4 成绩计分方法需要改进

传统课程考查成绩主要由期中考试+期末考试成绩决定,缺乏灵活性,而且书面考试并不适用于需要大量实践与编程的研究生课程。在吸取了国外同行的丰富经验后,决定对课程采用积累式打分法。在大课程案例讲解结束后,要求学生完成对算法用编程进行实现的大作业。每项大作业不仅要求提交代码,还需要学生对实验结果进行分析和梳理,写成课程报告的形式。每次大作业的成绩单独打分,全部通过加权的方式计入最终成绩,在总成绩中期末考试成绩的比重下降到30%。

2 案例式教学与实验室支持

2.1 大案例教学与编程大作业

图2 课程小案例展示

本课程对线性学习模型、主成分分析、EM 算法等重点章节进行了案例式教学+大作业的课程改革。以主成分分析(PCA)所在章节为例,在讲解这种无监督降维方法时,使用了4 层认识组织教学内容,使学生能够层层递进地认识PCA的本质、思想以及其局限性。第1 层认识是通过帮助摄影者对一个茶壶的拍照角度进行选择的案例,来表明对三维物体拍摄的最好照片往往意味着它能表达这个物体最丰富的信息,而没有学习过PCA概念的摄影者往往已经在潜移默化地使用PCA 的思维方式去寻找最佳拍摄角度。通过对PCA的第1 层认识,不仅提升了学生听课的兴趣,也在潜意识上降低了学生的认知难度,同时也做到对PCA的浅层本质进行了较贴切的阐述,达到了一举三得的目的。对PCA的第2 层认识以一个多摄像机观测理想弹簧滑块系统的工程案例开始,讲述了使用能够表达最丰富信息的向量空间正交基构成数据映射矩阵P,使得原始数据矩阵X通过Y=PX映射为新的数据矩阵,体现数据真实结构。紧接着,课程回顾了一些线性代数的定理和知识,引入第3 层认识,即通过特征值分解来求PCA,完成最佳正交基的求解。最后,通过舍弃矩阵P 中不重要的主成分,就完成了数据的降维,实现了对PCA的第4 层认识—即证明了PCA从根本上而言是一种无监督线性降维方法。在课程PPT中,用1 页PPT对之前的PCA 4 层认识进行了1 页内容的总结[见图3(a)],方便学生把概念串联理解。在介绍PCA 概念后,紧接着介绍了PCA 在两个工程实践中的应用,第1 个应用是使用三维扫描仪对植物冠层进行成像,采集并计算其点云空间特征,形成具有6维特征(每个点都有3维空间坐标加3维法向量方向)的植物冠层点云数据。再使用PCA对6 维特征的植物冠层点云进行降维并进行数据可视化。第2 个应用是设计迭代式的PCA算法,对具有一定空间形态的三维点集不断使用PCA算法,拟合出最适合于点集的平面,最后进行可视化。为了加深学生对这两个工程实践的理解,课程分别留下了两个数据集并布置了从格式到细节的各项大作业要求[部分要求见图3(b)],限制学生在10 天左右时间内完成。在形式上,大作业不仅要求学生通过邮件系统提交1 份类似科研论文格式的报告,而且需要同步提交代码。

图3 大案例教学与对应的大作业要求展示

在主成分分析课程的最后,回顾了这两年PCA算法的最新发展态势和前沿应用,着重介绍了Proceedings of IEEE 上关于PCA 在现代数据集合、算法和应用方面做的专刊内容,鼓励学生大胆学习最新领域的前沿论文,形成的PPT页面见图4。

2.2 实验室支持

为了方便选课的研究生进行大作业的编程实践,向学生开放了东华大学——西门子先进自动化实验室。实验室包含多达60 台高性能计算平台,预装了多种操作系统和多套编程环境,可以方便学生关于课程内容进行机器学习、深度学习算法的实践与开发(见图5)。西门子先进自动化实验室内不仅配备了高性能计算平台,还有工业4.0 智能智造装配生产线系统、多种型号的六轴KUKA 机器人系统以及虚实结合的工业网络实践平台。该实验室是信息学院重要的多用途先进实验室,也是学院重要的本硕博一体化实践平台。不仅服务于研究生课程数据分析与机器学习,还支撑了本科的自动化专业综合实习、自动检测技术、本科毕业设计等多门课程的实践教学,也向控制理论与控制工程专业的部分硕士博士开放。

图4 对PCA类算法近两年在学界和业界发展的回顾以及对未来相关研究的展望

图5 东华大学——西门子先进自动化实验室内一角

3 结语

在当今大数据和人工智能大发展的背景下,数据分析与机器学习这门课程在研究生课程体系中的地位变得举足轻重,为了解决在研究生课程教学中出现的新问题和情况,采用了案例式教学的方式进行课程设计与教学改革。在32 学时的课程时长中,不仅特别挑选了适合教学目标的教材,而且针对不同的教学章节和算法概念设计了大小不一的案例进行讲解,最后布置积累到最终成绩的编程大作业以引导学生更深地理解各种算法。课程还向学生开放了完成编程大作业的实验室条件,在东华大学—西门子先进自动化实验室的高性能计算平台上学生可以使用多种代码环境实现机器学习算法的案例编程。从教学反馈而言,案例式教学改革的近两年间,课程受到了较高的匿名教学评价,学生的平均满意度在95 分以上,这表明案例式教学改革措施是有效的。

猜你喜欢

编程机器研究生
机器狗
机器狗
编程,是一种态度
元征X-431实测:奔驰发动机编程
编程小能手
纺织机上诞生的编程
未来机器城
蔡智及其研究生作品选登
幸福院里出了个研究生
军事科学院招收1995年研究生