APP下载

民族院校“机器学习”课程教学与实践改革研究

2024-01-02康怡琳田莎莎

教育教学论坛 2023年51期
关键词:机器学习机器聚类

康怡琳,汪 红,田莎莎,任 恺

(中南民族大学 计算机科学学院,湖北 武汉 430074)

机器学习是一门多领域交叉学科,涉及理论基础,包括高等数学、线性代数、概率论与统计学、数据库、最优化理论、复杂度理论等多门学科,它是人工智能的重要技术基础,也是智能科学的核心。目前人工智能的4次浪潮都与机器学习的方法有关。因此,“机器学习”课程是人工智能专业和智能科学与技术专业学生必修的一门基础课[1]。

一、民族院校“机器学习”教学与实践课程现状及思考

民族院校在教育领域有着独特的地位和特点,如何在民族院校中进行机器学习课程的教学与实践改革,培养新时代人工智能人才具有重要的现实意义[2-4]。

传统“机器学习”课程局限在介绍机器学习的主要经典算法原理与机制。由于其中大部分方法是基于复杂的数学模型,使学生望而生畏,反而对该门课程产生消极情绪。此外,传统机器学习课程采用教师讲授、学生听课的方式进行。学生被动接受知识,很难对这门课程产生兴趣和热情。在新工科背景与教育部产学研项目的支持下,历经八年的教学实践,笔者摸索出一套课程的教学与实践改革经验。以社会需求与企业需求为导向,以交叉融合、共享、创新为主要途径来培养多元化、创新型人工智能人才。

二、基于案例的课堂教学设计

“机器学习”课程作为人工智能专业、智能科学与技术专业的核心基础课程,一般安排在第三、四学期开课。在课程的安排上,既要涵盖Python的基础知识,也需要机器学习的几大模型:回归、分类、聚类、推荐、神经网络等[5]。以典型案例为铺垫,提高学生学习兴趣;采用启发式教学,提高学生思维能力,发挥主观能动性;将所学知识运用于当前阶段的热点或前沿问题上进行实践。下面将详细介绍课程模块。

(一)Python与数据处理基础

要求学生在课前安装好Anaconda软件,课堂边讲解理论知识边实际操作。安装和配置Jupyter Notebook,演示如何创建新的Notebook和Markdown单元格;介绍Python语言的特点,以及其在数据处理和分析领域的重要性;讲解Python语言的基本语法、数据结构和编程方法;讲解Pandas库的特点和使用场景,以及如何用Pandas进行数据处理和分析;讲解Numpy库的特点和使用场景,以及如何用Numpy进行数组操作和数学计算,演示如何加载、处理和分析数据。

(二)线性回归

1.教学目的:引导学生理解回归问题的本质,即通过输入特征预测连续目标值。

2.教学过程:以房价预测为切入点,首先让学生理解问题本质,从而介绍线性回归的基本概念,包括回归方程和线性模型。讲解如何拟合线性回归模型。其次解释过拟合和欠拟合的概念,以及它们的影响,演示如何使用训练集和测试集来评估模型性能,并讨论如何选择合适的模型复杂度。再次介绍梯度下降算法的基本思想和数学原理,演示如何使用梯度下降来优化线性回归模型的参数。最后讨论损失函数的概念,如均方误差损失函数,讲解如何计算和解释RMSE作为性能指标。

3.课堂编程实践:提供编程实践练习,让学生在房价预测的问题中实现线性回归模型和梯度下降优化。学生使用实际数据集来进行模型训练和评估,解决一个真实世界的回归问题,并带领学生分析案例中的数据、模型和结果。

(三)分类

1.教学目的:使学生能够理解分类问题的本质,区分分类和回归任务的不同之处,并掌握几种常见的分类模型;学习如何使用似然函数和代价函数来训练逻辑回归模型,并了解决策边界、训练分类器和评估指标的重要性;能够解释什么是一个好的准确率,并了解学习曲线和模型偏差的概念。

2.教学过程:引入情感分析问题,解释为什么情感分析可以视为分类问题,例如将情感分为正面和负面;阐述分类和回归的差别,以图示和示例来加深学生对这两个任务的理解;介绍简单阈值分类器,讨论其原理和局限性,并在实际数据集上进行演示;深入研究逻辑回归模型,解释似然函数和代价函数的概念,以及如何使用梯度下降来训练模型;讲解决策边界的概念,如何在图上可视化不同分类模型的决策边界;指导学生通过训练数据来拟合分类器,讨论模型参数的优化和调整;引入评估指标,包括准确率、错误率、混淆矩阵,并图示如何计算这些指标;通过实际案例和示例,说明什么是一个好的准确率,并强调准确率不是唯一的评估标准;最后探讨学习曲线和模型偏差的概念,以帮助学生理解模型的偏差与数据集大小之间的权衡。

3.课堂编程实践:在电影影评的问题中实现从文本中推测情感倾向。学生使用豆瓣影评数据集来进行模型训练和评估。解决一个真实世界的分类问题,并带领学生分析案例中的数据、模型和结果。

(四)聚类

1.教学目的:理解聚类分析的概念和应用领域,掌握文档检索中的词袋模型和TF-IDF模型,理解文档相似度的计算方法,学习K近邻算法和K均值算法的原理及应用,能够确定K均值算法中的k值,理解聚类与分类的区别和联系。

2.教学过程:引入聚类:介绍聚类的概念和应用领域,如文本聚类、图像聚类等;介绍文档检索与特征提取:解释文档检索的概念,引入词袋模型和TF-IDF模型,讲解如何使用词袋模型和TFIDF模型将文本转换为向量表示。讲解余弦相似度和欧氏距离等文档相似度的计算方法;介绍K近邻算法的原理,讨论如何根据文档相似度进行近邻选择。演示K 近邻算法的应用;详细讲解K均值算法的原理和步骤。讨论如何确定K均值算法中的k值,引入常见的方法,如肘部法则。总结聚类与分类的区别:对比聚类与分类的异同,强调聚类是一种无监督学习方法,而分类是有监督学习方法。

3.课堂编程实践:提供名人的文本数据集,包含多个名人的介绍文本。演示如何使用词袋模型和TF-IDF模型将文本数据转换为特征向量;让学生编写代码来计算不同名人之间的文档相似度;使用K近邻和K均值算法进行聚类,并讨论聚类结果的合理性。通过这种实践,学生能够将所学的聚类概念和算法应用于实际文本数据,加深对聚类分析的理解和应用能力。

(五)推荐算法

1.教学目的:理解推荐系统的基本概念和应用领域,理解推荐系统的利弊。掌握不同类型的推荐算法,熟悉推荐系统评估指标,如精准率、召回率和AUC。能够运用所学知识实现一个简单的歌曲推荐系统。

2.教学过程:引入推荐系统的概念和应用,介绍《互联网信息服务算法推荐管理规定》,引出推荐系统的优势和局限性,特别关注信息茧房的问题以及解决方法。介绍基于流行度的推荐系统和基于分类的推荐系统的原理及应用场景。深入探讨共生矩阵、协同过滤和矩阵分解等关键概念。解释精准率、召回率和AUC等推荐系统评估指标的意义及计算方法。分组讨论推荐系统的伦理和隐私问题,提出解决方案和建议。分析不同类型的推荐系统在不同场景下的适用性,并讨论案例。讨论推荐系统在电商、社交媒体等领域的实际应用和成功案例。

3.课堂编程实践:带领学生使用Python和相关机器学习库来实现一个歌曲推荐系统,使用流行度和协同过滤方法来为用户生成个性化的歌曲推荐。需要考虑数据预处理、模型训练、评估指标等方面的工作。在实践过程中,学生将学会如何使用推荐算法,以及如何评估推荐系统的性能。

(六)深度学习

1.教学目的:理解深度学习的基本概念和背景,包括神经网络的发展历史;掌握神经元的工作原理和基本数学概念。通过神经网络实现手写数字的识别的案例,理解神经网络的工作原理;熟悉ImageNet数据集和深度卷积神经网络在图像分类任务中的应用;分析深度学习的优缺点,包括模型复杂性和数据需求;掌握迁移学习的基本原理和应用场景。

2.教学过程:简要介绍深度学习的背景和历史;解释神经元的基本原理,包括激活函数和数学表达;讲解逻辑运算中的AND、OR和异或问题,演示如何使用神经网络解决这些问题;引入MNIST数据集,教授如何使用深度学习模型实现手写数字识别。探讨图像检索和人脸识别的基本概念和方法;讲解ImageNet数据集和卷积神经网络的基本原理;讨论深度学习的优点和缺点,包括模型复杂性、数据需求和泛化能力等方面;引入迁移学习的概念,讲解迁移学习的原理和实际应用场景。

3.课堂编程实践:讲解如何使用深度学习框架构建一个手写数字识别的深度学习模型。使用MNIST数据集进行模型训练和性能评估,调整模型的架构和超参数,以优化性能。

(七)面向科研主题的研讨交流活动

学生分组交流讨论机器学习领域的最新进展,如自然语言处理(NLP)的最新进展:该组学生可以选择一个NLP领域的最新研究论文,探讨其中的方法和技术,并分享其在文本生成、情感分析等任务中的应用。

三、机器学习课程设计实践教学探讨

机器学习课程设计顺应创新型国家发展需要,在经典机器学习项目的基础上,以先进的智能平台为载体,以智能车、机械臂、机器狗、机器人应用为导向,围绕其运动以及听、说、看、思开展课程相应的活动,以促进学生知识、能力、素质协调发展为目标,将机器学习相关理论和技术综合应用于分析和解决机器人复杂工程问题,全面提升学生在科学研究、技术创新、项目开发、组织管理、团队协作等方面的综合素质。以下列举一个课题范例:智能四足机器人智能报警电话识别。

(一)设计内容

智能四足机器人(机器狗)是国际上处于领先水平的一种全地形移动机器人形态。机器狗作为仿生移动机器人,可适应绝大多数地形环境,部署成本低廉,可在各种行业,多场景覆盖巡检。请模拟机器狗在安防巡检场景下穿过复杂地形,识别报警电话标志并语言播放报警。

(二)数据集

请通过网络和机器狗的视觉传感器收集报警电话标志的训练集。

(三)设计要求

1.模型设计和训练。对收集的图像进行预处理,需要在数据集上尽可能地进行数据增强,将扩充的数据集用于训练模型:设计一种神经网络结构,完成报警标志的识别。针对识别结果进行分析,并输出每个模型的混淆矩阵、精度、准确率和召回率,对模型进行参数调整和优化。

2.机器狗识别和播报。标志摆放在距离机器狗前端至少1米处,机器狗视觉相机必须在6秒内正确识别标志并对识别的标志进行语音播报。

四、培养效果

在本课程学习的基础上,学生以赛促学,在机器人国际及国家级赛事、泰迪杯、ASC超算大赛中取得了多项国家级和省级奖项。鼓励学生将学习成果转化成科研成果,多名本科生参与科研工作,发表多篇论文。同时,在教师的带领下,学生积极服务学校与社会,前往新疆和广西开展“科普边疆行”,向当地机关及教育机构科普机器学习相关知识;利用课程知识,承担了学校的机器人导览任务和博物馆机器人讲解员Nao的开发工作;举办湖北省科技活动周科普开放活动,还走进多所小学给小学生进行科普讲解,相关工作曾多次被官媒报道。

猜你喜欢

机器学习机器聚类
机器狗
机器狗
未来机器城
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例