“数理统计学”与“机器学习”的融合式 教学的探索与实践
2022-03-17王化琨
摘 要:随着计算技术的飞速发展,经典的数理统计理论得到快速应用与推广,并且同计算技术相结合的统计机器学习理论应运而生。文章将探讨在传统的“数理统计学”教学中融入现代的机器学习方法的教学模式,并在实际教学活动中通过与以往的“数理统计学”单一教学模式相比较,检验这种融合式教学模式的效果与质量。
关键词:“数理统计学”;“机器学习”;融合式教学
中图分类号:G642 文献标识码:A 文章编号:1002-4107(2022)02-0065-02
数理统计学是以概率论为基础,利用来自总体的大量随机样本,对总体的规律性属性,如参数、分布、相关性等进行推断。经典的数理统计学理论,涵盖估计与假设检验两部分,是以来自描述随机现象的总体的样本为研究对象,使用数学的方法与技巧,挖掘提炼样本里蕴含的总体信息[1]。随着计算技术的蓬勃发展,特别是高性能并行计算软硬件的出现与改善,使得人们可以收集到海量样本,同时也可以使用高通量的数据进行各种统计推断,这与经典数理统计的小样本情形差别较大,随之也诞生了一门新的学科——机器学习。机器学习是适应大数据的统计,它的理论内容与经典数理统计学高度重合,但也有其自身的优势,具体表现在它克服了经典数理统计学倾向于小样本的特点,与计算技术高度融合,强调计算机在算法理论中的应用[2]。
黑龙江大学为本科生和研究生开设了“数理统计学”课程。一直以来,“数理统计学”的讲授主要以经典数理统计学的理论和方法为主,以数学理论为工具,强化数理统计的理论完备证明,而应用方面则涉及较少。为研究生开设的“机器学习”课程,则以机器学习的算法应用为主,忽视了理论的证明与推导,导致学生在学习过程中,较为机械地理解记忆各种各样的机器学习算法,而对算法的优化能力不足。文章针对“数理统计学”与“机器学习”的高度契合特点,创造性地提出了“数理统计学”与“机器学习”的融合式教学模式,同时兼顾理论与算法实践两方面的教学,并在实际教学中通过学生的反馈检验这种融合式教学的效果与质量。一、“数理统计学”与“机器学习”理论教学内容的融合
“数理统计学”与“机器学习”的教学内容高度重合,例如,它们都包括回归、分类、聚类。但是在具体讲授内容上又各有侧重。以回归为例,在“数理统计学”的教学中,教师重点讲授最小二乘法的原理以及点估计的优良性,即最小二乘估计是最小方差线性无偏估计,并且做了严格完备的理论证明。以最小二乘估计为基础,详细讨论了回归系数及回归方程的显著性检验问题。而在“机器学
习”的教学中,教师通常忽视最小二乘估计的理论推导,而是重点强调这种估计方法的基本思想,即它是以平方损失为目标函数,使用优化方法求目标函数的极小值点。在回归的深入教学中,教师通常以实际应用中的带惩罚项的回归为主,主要是岭回归、lasso回归。就其数学本质来说,岭回归是L2约束条件的回归,而lasso回归是L1
约束条件的回归。“机器学习”侧重于岭回归和lasso回归的计算实践与应用,而不是从理论上探讨它们的完备性。因此,教师应在教学中融合“数理统计学”与“机器学习”的侧重内容。在讲授完最小二乘法的完备理论后,再详细讲授带约束条件的线性回归模型,并且将最小二乘法的原理应用于这种类型的参数估计问题,从理论上阐明它们的估计方法。在教学中,教师也可以适当启发学生提出自己的约束条件,以及怎样求解等问题,培养锻炼学生的理论创新能力。“数理统计学”教学的判别分析部分,相当于“机器学习”中的分类问题,但二者在教学内容上各有侧重。“数理统计学”侧重贝叶斯判别法与Fisher判别法的理论介绍。Fisher判别法是经典数理统计学的判别分析方法,而贝叶斯判别法是贝叶斯学派的统计理论在判别分析中的应用,它需要指定k个总体的先验概率。先验概率通常是指在没有样本之前,人们对总体的认识。例如,根据某地区的历史资料定义该地区人口得癌症的概率。贝叶斯判别法在此基础上定义了广义平方距离,也就是在这一距离中先体现先验概率,再使用贝叶斯公式提出贝叶斯判别准则,即给出样本空间的一个划分,根据样本落于划分子空间的情况将它归类,这时带来的平均损失最小。“数理统计学”的判别分析理论性较强,导致以往的教学重理论而轻实践。在“机器学习”的分类问题教学里,教师侧重于主流的分类算法及其实践应用效果的讲解。例如,K-近邻法、决策树、随机森林、神经网络等算法。在讲授这些分类算法时,教师往往只介绍基本的算法原理、思想,而忽略深刻的数学理论。这导致学生对算法的理解領悟仅停留在应用层面,而欠缺对算法的优化创新能力。因此,在“数理统计学”与“机器学习”的融合式教学中,教师应详细介绍机器学习主流算法的数学原理,使学生深刻理解这些算法的来龙去脉。然后,教师采用启发式的教学方法,引导鼓励学生对所学的算法进行优化推广。首先,讨论分类算法的优缺点、适用条件;其次,采用模拟与真实数据相结合的方式来例证所得到的结论。这些监督式的学习过程,不仅加深了学生对所学知识的本质内涵的理解,而且训练了学生的自主科研创新能力,潜移默化中提高了学生主动发现问题、理解问题、解决问题的能力。
二、理论教学与案例教学相结合
以往的“数理统计学”教学,注重经典的统计理论的数理证明,计算应用也多是在小样本情形下的计算问题[3]。在与“机器学习”的融合式教学里,“数理统计学”教师应吸收借鉴“机器学习”的案例教学模式。具体来说,分为计算模拟数据与真实场景数据的算法验证教学两部分。在基于计算模拟数据的算法验证教学中,教师向学生讲授常见的数据分布形态以及样本生成方法。例如,高斯分布的数据,其常见的聚类方法有k-means法、knn法,但聚类的结果都不理想,而基于相似图特征分解的谱聚类算法却很奏效。在模拟高维复杂分布的样本时,马尔科夫链蒙特卡洛法(Markov Chain Monte Carlo,简称MCMC)是一种常用的样本生成技术。MCMC使用蒙特卡洛积分,构造了一条平稳分布为已知的复杂分布的Markov链,通过这条Markov链产生样本。在计算模拟数据的教学环节中,教师将训练学生对于这些理论与抽样技术的理解与运用。在基于真实场景数据的算法验证教学中,首先,教师向学生介绍数据的获取方式。数据获取主要有两种方式:第一种获取方式,从现有的数据存储网站下载。例如
Kaggle,它是一个为数据业务客户和数据分析爱好者提供机器学习、数据竞赛的平台。Kaggle于2010年创立,历经10年的发展,现已成为数据科学领域最具知名度的竞赛网站之一。目前,很多研究生的科研课题都来自于该平台的开放数据竞赛内容,同时该平台还有很多优秀的数据业务解决方案,供全世界的数据科学爱好者学习交流。另一个知名的数据存储平台UCI,它是一个机器学习算法数据库,提供数据集的实时更新维护,现已成为学生、教师和科研工作者主要的机器学习数据源。第二种获取方式,即使用“爬虫”计算技术,从网站实时抓取数据。这种数据获取技术的优点是可以动态获取更新的数据,但对计算机编程能力要求较高。其次,教师向学生介绍数据预处理技术。数据预处理是数据分析前的重要环节,预处理的效果直接影响后续数据分析的准确性。在数据预处理的教学中,教师将介绍常见的特征提取与归一化方法。最后,教师向学生讲授变量选择与特征工程技术。来自现实业务场景的数据,通常包含太多的特征变量,而它们中的大多数与所研究问题无关。如何从众多的变量中挑选出相关的变量,是首先需要解决的问题。变量选择通常在某一准则下进行,如AIC准则、BIC准则等。在数据分析问题里,特征工程是必做的分析过程,在这一过程中,将对所选变量进行加工、整理、提炼等操作。数据实践证明,好的特征工程将有助于提高预测模型的精准度,甚至不需要使用高级的数据模型也能得到高精度的结果。在实践教学中,教师应采用渐进式的方式,引导学生建立自己的特征工程,从大量的实践环节培养学生的综合运用能力。
三、以编程为主的案例实操教学“数理统计学”和“机器学习”与计算机的联系越来越密切。以编程为主的算法实现是学生必备的专业素养。为此,教师在授课全过程要求学生至少熟练掌握一门编程工具。例如,R语言或Python语言。同时,教师鼓励学生同时掌握这两种编程语言,可以根据问题需要,在两者之间灵活选择。计算编程是一个由熟练到精通的循序渐进的过程。R语言偏重于统计模型、方法的编程实现,在CRAN(The Comprehensive R Archive Network)网站有3千多个实现各种统计计算的函数包方便学生下载使用。在教学过程中,教师鼓励学生将所学、所解的统计模型,编写成R包,上传到CRAN网站,训练学生的R编程设计能力。Python是机器学习热门编程软件,它提供了功能强大的算法库实现各种算法。例如,机器学习通用算法库scikitlearn、數值运算库pandas、NumPy、数据可视化库matplotlib、深度学习库keras等。教师在讲授各种机器学习算法理论的同时,积极引导学生自主学习常用的Python库函数,培养学生借助Python库便利化编程的意识和能力。学生普遍对编程训练感兴趣,以编程带动理论学习的教学模式,收到了良好的教学效果。
参考文献:
[1] 茆诗松,王静龙,濮晓龙.高等数理统计[M].第2版,北京:高等教育出版社,2006:237.
[2] 周志华.机器学习[M].北京:清华大学出版社,2016:191.
[3] 王化琨,李春艳,陈莉莉.“多元统计分析”课程教学内容与教学方法的改革与实践[J].黑龙江教育(理论与实践),2019,73(12):56.
■ 编辑∕陈晶
2540501186295