APP下载

“多元统计分析”课程教学拓展研究

2020-11-24朱威上海电力大学数学系

数码世界 2020年1期
关键词:聚类机器案例

朱威 上海电力大学数学系

多元统计分析作为信息与计算科学的一门专业课程,是理论与应用联系十分紧密的一门学科,在社会学领域和自然科学领域都有着非常广泛的应用,该门课程的教学需要结合时代对我国人才培养的需求与时俱进。已有文献中对该课程的教学展开的很多有价值的研究。李卫东(2016)根据多年教学的体会,探讨了多元统计分析教学中开展案例教学的必要性,并结合教学内容探讨了实例分析在课程教学中的具体应用。马艳梅、汪冬华(2013)具体研究了如何以案例为导向、以统计思想为主线、以实验教学为依托培养经管领域学生的统计能力。肖枝洪、郭明月(2009)[3]则是通过国内外多元统计教学现状进行比较研究后,对研究生的多元统计教学提供改革的方向和途径。

下面从拓展的意义和必要性、拓展的途径和方式、拓展预期达到的教学目标三个方面展开论述。

一、拓展的意义和必要性

本人在该门课程的长期教学中,体会到学生的迷惑与茫然。首先这门课程是具有相当的难度,它需要基于高等数学、线性代数和概率论与数理统计课程作为先行课,作为本科生,本课程具备一定的难度和深度,有的学校甚至是作为研究生课程开设的。其次,学会了统计知识点,通过了考试,却不知道如何运用统计知识,典型的落差在于“空有屠龙宝刀,而无屠龙之技”,碰到社会生活或者自然科学中的实际问题,不知道如何从已学的知识库中调用合适的知识链条来解决问题。机器学习的兴起和广泛无疑为运用为该门课程的教学改革提供了契机。

按照Tom T.Mitchell(2003)的定义,机器学习是指计算机程序通过经验来提升处理某项任务性能的行为。这里的经验,通常是指历史统计数据,比如数字记录、语言、图像、视频等。机器学习集中了前人的大量成果,综合运用了算法理论、优化理论、概率统计理论、信息论等各种学科的知识,借助大数据的时代背景,成为科学理论研究和商业应用的热土。机器学习中的无监督学习的聚类方法,k-means 近邻法,逻辑斯谛回归分类,主成分分析降维等都是多元统计分析的核心理论。本课题将探讨如何适当拓展多元统计分析的内容,结合相关的机器学习案例,激发学生兴趣和热情。同时,该课程若能成功的将学生引领进机器学习的领域,便会进一步拓展知识边界,无论以后是从事技能工作还是学术研究,都大有裨益。从人才培养的角度,该课程向机器学习拓展既整合了已有教学基础,又呈现开放性。既提升了学生能力和素质,也激励教师自身不断地跟踪前沿领域,教学相长。

二、拓展的途径和方式

以笔者教授的“多元统计分析”课程为例,本课程主要的知识结构为以下几部分:多元正态,多元线性回归,逻辑斯蒂回归,主成分与因子分析,典型相关分析,判别与分类以及聚类分析。机器学习由于发展迅速,知识体系还在不断更新之中,但目前的主要理论是这几部分:监督学习、无监督学习、强化学习、深度学习以及新发展出来的迁移学习等。监督学习是指利用一组带标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据,达到分类或者回归的目的。无监督学习是指对无标签数据的一类学习算法。因为没有标签信息,意味着需要从数据集中发现和总结模式或者结构。无监督学习主要用于分类或者聚类。监督学习和无监督学习的重要区别在于数据是否有标签。深度学习是指一类通过多层非线性变换对高复杂性数据建模算法的合集,其主要特征是多层和非线性,在某种程度上深度学习可以等同于深层神经网络。

主成分分析和k 均值聚类作为非监督学习的主要算法,在任何多元统计分析教材中都是不可或缺核心理论。这可以作为一个拓展的突破口。多元统计分析主要是介绍学院式的基础理论,更强调的是理论的严谨性,在应用上主要局限于小规模的案例数据集。可以考虑在教学活动中,以一个中小型产业应用的案例提出问题,并且核心解决方案是以主成分分析和k 均值聚类为主要思想方法来锻炼学生的应用能力。比如人脸识别就是一个极具有吸引力的选项。

逻辑斯蒂回归是经典的非线性理论,该理论是多元统计分析的重要部分,同时也是深度学习理论的基础。卷积神经网络在图像识别、自然语言处理等领域的高效率大大的改变了产业界的信息处理方式,AlphaGo 在围棋大战上的惊艳表现令世人对一度尘封的神经网络理论再次焕夺目光彩。逻辑斯蒂回归本质上是基于线性回归加上了一个sigmoid 函数,sigmoid 函数真是神经网络理论的基础。教师可以利用MNIST 手写体数据集,通过手写数字的识别问题,来拓展逻辑斯蒂回归理论。

在多元统计分析向机器学习拓展的过程中,几乎肯定会涉及到多元统计分析课程教学大纲之外的知识点,但作为一线教师切不可画地为牢,固步自封。应始终怀有一种开放的心态和终身学习的态度来面对求知若渴的学生。知识体系的不断更新和创新思想的突进,对高校的教师自身知识结构时刻是一个巨大的挑战,教师自身的确需要不断与时俱进。

三、拓展预期达到的目

多元统计分析向机器学习拓展的教学革新有如下目标:

一是为了让学生将理论与实践结合的更加紧密,提升学生的动手能力,特别是使用计算机程序解决小型项目的能力;二是使学生的基础更加牢固,学生之前的先行课如线性代数、高等数学、概率论与数理统计、最优化理论等有了更多的应用场景,促使学生夯实这些理论课基础;三是拓展学生的知识边界,让学生树立开放的学习态度,不断关注最前沿科学理论的发展动向。

四、结论

本论文主要对多元统计分析课程向机器学习拓展进行了初步探讨,指出了拓展的意义和必要性,对拓展的途径的方式给出了具体的建议,对整个教学改革的目标作了清晰的阐述。当然,这里只是初步的探讨,作为一门有课时和知识圈限制的课程,我们只能对有限的章节作合适的拓展,具体的教学效果反馈和教学细节上的考虑需要作更进一步的规划,对教学案例需要做更详尽的准备。

猜你喜欢

聚类机器案例
一种傅里叶域海量数据高速谱聚类方法
机器狗
机器狗
一种改进K-means聚类的近邻传播最大最小距离算法
案例4 奔跑吧,少年!
TWO VILLAS IN ONE CEDIA 2020案例大赛获奖案例
Bespoke Art Deco Media Room CEDIA 2020案例大赛获奖案例
未来机器城
改进K均值聚类算法
随机变量分布及统计案例拔稿卷