APP下载

非参数统计课程思政案例研究

2022-12-16汪政红郭仲凯

科教导刊·电子版 2022年30期
关键词:论文知识点思政

汪政红,郭仲凯

(中南民族大学数学与统计学学院,湖北 武汉 430074)

0 引言

课程思政是指将各类课程与思想政治理论课同向同行,形成协同效应,把“立德树人”作为教育的根本任务的一种综合教育理念。2019年10月教育部发布的《关于一流本科课程建设的实施意见》中,对教师在教书育人与课程思政方面提出了具体要求:“推动课程思政的理念形成广泛共识,构建全员全程全方位育人大格局。确立以学生为中心、产出导向、持续改进的理念,提升课程的高阶性,突出课程的创新性,增加课程的挑战度。”作为一名理工科课程教师,做好课程思政是我们的责任和使命,实施好课程思政是我们面临的挑战。本文将以非参数统计课程为例,进行理工类课程思政的实践探索。

非参数统计是应用统计专业的一门主干课程,是统计学的一个重要分支,以数理统计为先修课程,数理统计的先修课程是概率论,概率论的先修课程是数学分析、高等代数,依照序贯原则,非参数统计常在高年级或研究生阶段开设。作为参数统计方法的重要补充,非参数统计对总体分布没有任何假定前提,更接近真实数据,因而方法灵活多样,适用范围广,应用性强,但理论推导相对复杂,是一门教学难度偏大的课程。因此挖掘和探索生动有趣的教学元素,成为落实课程思政的迫切需求。

关于课程思政的一般论述在网上有很多资源,包括论文、讲座等,其中叶志明等(2020,2021)[1-2]在论文中均给出了教师在教书育人与课程思政等方面可借鉴的理念、方法与案例,言简意赅、发人深省。周茂袁等(2021)[3]一文结合非参数统计课程利用正能量拟人化的方式讲解枯燥的知识点(核密度估计),同时将“学会分享”的思政思想融入其中,使我深受启发,遂结合本人多年从事《非参数统计》课程教学的经验,对课程思政的案例进行深入挖掘和探索。

1 学科起源相关案例

1940年代,Wilcoxon[4]是美国氰胺公司的一个化学家,使用当时的标准方法即t检验和Fisher的方差分析分析实验数据时,发现由于“极端值”或样本太大太小的影响,结果产生了异常,他基于他所接收到的最新的统计理念:科学研究或测量得到的所有观测具有同等效力,认为不能人为地删除“异常值”,为了得到一个好的分析结果而去挑选看上去正确的数据。因此他试图找到一种新的方法分析实验数据,降低“异常值”对结果的影响。Wilcoxon首先尝试搜索相关文献,没有找到;然后他被迫按照自己的想法进行基于排列组合的计算,写了一篇论文,投稿到Biometrics期刊,他投稿的目的是希望审稿人能告诉他之前哪里发过这样的论文,这样他可以验证一下自己的计算是否有误,因为他觉得自己这篇论文不可能是原创。但是,事与愿违,审稿人和编辑判断这是原创性工作,并在1945年将论文发布。

紧接着,1947年,一位经济学家HenryB.Mann和一位统计学研究生Whitney发表了一篇论文,论文中提出了一种排序法,涉及一系列简单但冗长的计数方法,用于确认1940年的工资分布比1944年的工资分布低。很快人们发现Wilcoxon检验与Mann-Whitney检验关系密切,并证明了二者的等价性。这种检验的特点是没有对任何总体参数进行估计,这是一种非参数检验!Wilcoxon的开创性工作带来了一个新的学科分支──非参数统计的蓬勃发展,这一学科到20世纪60年代成为学术界的研究热点。

化学家Wilcoxon发现自己的工作开创了一个新的统计分支,大受鼓舞,对其产生浓厚的热情,逐渐离开了化学领域,进入统计领域,1960年开始进入佛罗里达州立大学统计系,担任统计教员,培养统计系研究生,直至去世。

这样的故事每次都能极大地吸引学生的注意力,屡试不爽,同时故事中的科学家充满正能量,具有很好的育人价值。Wilcoxon先生尊重每一个真实的实验数据,谨慎对待分析结果,是我们每一个统计专业人士必备的素养;Wilc oxon先生谦虚、严谨、低调的治学态度,是我们每一个研究者应该学习的素质。Wilcoxon先生因为兴趣从化学领域转行到统计领域,职业生涯发生了巨大改变,是以最佳的方式诠释了爱因斯坦的名言──“兴趣是最好的老师”。我们可以借机引导学生在选择就业或深造方向时,一定要结合自身的兴趣,做自己喜欢、擅长的事情,将时间投入到热爱的工作中,我们才能感到自我满足,焕发出难以估量的力量。

此外,这个故事还可以将教学环节中四个很重要的知识点[5]串联起来,单样本符号秩检验、两独立样本秩和检验、多个独立样本的 Kruskal-Wallis检验和 Jonckheere-Terpstra检验,见图1。涉及第①、②个知识点的教学时,教师可以以小样本为例重现历史故事中的困境,手工计算展示这其中的排列组合的技巧。随着样本增大,计算复杂度增加,鼓励大家借助现代软件技术编程实现其中的计算和图形化展示。从简单到复杂,同学们不仅理解和掌握了这两种方法的原理和思想,同时体验到学科探索的过程。

图1 非参数统计知识点思维导图

第②个知识点的名称来源于学科起源故事中的人物名称,Wilcoxon和Mann-Whitney是对同一个问题从两个不同的角度构造检验统计量,前者是对数据排序,取秩代替原始数据,从而减少“异常值”的影响,构造秩统计量,后来被发展为非参数统计里重要的“秩方法”;后者是将两个样本的观测值两两做比较,取所有可能对子中满足“<”或“>”关系的对子个数为检验统计量,后来发展为“U统计量方法”。将这两种方法分别推广至多样本位置检验,就是后面所学的Kruskal-Wallis检验和Jonckheere-Terpstra检验,即第③、④个知识点。Kruskal-Wallis检验统计量是结合了秩方法和 Fisher的方差分析的思想而构造出来的秩统计量,可以看做是Wilcoxon秩和检验从两样本到多样本的推广;J-T检验延续了U统计量的思想,可以看作是Mann-Whitney检验从两样本到多样本的推广。再将细节讲清楚,同学们就可以感受到原创思想是科学创作的灵魂,如何一步步从简单到复杂创造出许多新的方法。这个故事是非参数统计历史上最有名的故事之一,讲好它用好它,能将专业课程教学讲活的同时实现育人于润物细无声中,可谓一举两得。

2 学科历史相关案例

到了20世纪90年代,非参数统计的研究和应用主要集中在非参数密度估计和非参数回归,代表人物有Silverman和美籍华人范剑青,提到这段历史,我通常会浓墨重彩地介绍华人统计学家范剑青,被誉为统计学界的传奇人物。他是非参数建模与高维复杂数据建模等方面的国际权威,有着巨大的贡献和国际影响。他首创了局部建模法、非渐近替代方法、非凹性惩罚似然法、独立筛选法等等为非参数统计的研究开创了广阔的研究领域,并广泛应用于经济、金融、医学、资讯、生物科技及社会科学领域,如金融资产定价、风险管理、机器学习、生物统计等。范教授发表了一百多篇论文,其中大多刊登在统计学、金融学及其他科学的顶尖刊物,出版两本权威性专著。他的文章引用次数从2001年第一次排名以来,一直位列世界数学家排名榜的前十名。2000年时年仅38岁的他凭借首创的“非参数建模”获得COPSS总统奖,是第一位获此殊荣的中国大陆学者,该奖为国际统计学领域最高奖项之一。

百度很容易查到范老师的生平,1982年毕业于复旦大学数学系,随后考入中国科学院应用数学所攻读硕士,1986年进入美国加州伯克利大学攻读博士学位,2003年起任普林斯顿大学金融工程终身教授。范老师一直活跃在学术界,并不断往返于国内外,热心推动中国统计学、金融学和大数据的教育和科研工作,长期与国内保持密切的科研工作。范老师能取得如此伟大的成就,一是兴趣使然,二是爱国情怀使然,从人民日报记者对他的采访中[6]可以窥见。“这么多年坚持下来,是因为我对统计事业有着特殊的情怀。”这种特殊的情怀就是要做对社会有用的科学,“我觉得数学跟社会的沟通是通过统计学来完成的。”在海外游学多年,他看到了中国在统计学研究方面与国际的差距,“希望统计学在中国能够得到承认和发展”,“为国家做事,这是我对祖国的感情。”

在课堂上我们可以截取范老师的讲座片段给同学们观看,一来目睹学者容颜,感受学者的谦逊气质,二来可以从范老师的讲座中了解统计学的前沿研究内容、研究方法和观点等,这对扩充同学们的知识面、提升专业学习兴趣帮助很大。讲述中国科学家故事,借助范老师的研究内容向同学们展望非参数统计学科发展的未来,同时传达爱国主义情怀,发扬科学家精神,如果每个同学都有如此情怀,伟大中国的复兴梦必定能实现。

3 学科引例相关案例

根据实践经验,若已知数据的总体服从某种分布,例如正态分布,只是其中的几个参数未知,如均值或方差未知,这种类型假设条件下使用参数方法非常有效,因为既利用了数据的信息,又利用了产生数据的总体的信息。但在实践中,若难以假设总体具有某种分布,这时仍采用参数数据分析方法,其统计结果是不可信的,甚至有可能是错的。此时,举个例子演示可以达到事半功倍的效果。

引例1:有两组学生的成绩,第一组为10名,成绩为:6个100分,4个99分,第二组为两名,成绩为50分和0分,试分别对这两组同学的平均分是否为100分进行假设检验。

如果分别对两组数据采用参数统计方法,即单样本t检验,则第一组数据会拒绝均值为100分的零假设,而第二组数据则会接受均值为100分的零假设,这看起来十分荒谬,出错的原因在哪里呢?在于数据并不满足参数检验方法所要求的假设。

引例2[7]:哪一个企业职工的工资高?这里有22名职工的工资,其中的12名来自企业1,另外10名来自企业2,数据如下:

企业1 11 12 13 14 15 16 17 18 19 20 40 60企业2 3 4 5 6 7 8 9 10 30 50

如果采用参数统计方法,即两独立样本t检验,则不能拒绝这两个企业职工工资没有显著差异的原假设,与直观判断相互矛盾,原因就在于假设两个企业的职工工资服从正态分布,而实际上工资数据一般是非对称的右拖尾数据,不能满足正态假设。那么正确的解决思路呢?学习非参数统计的方法,势在必行。

通过这些简单的引例,借助R软件,图文并茂地向同学们展示参数统计的结论以及参数方法遇到的困境,展示非参数统计的魅力,激发同学们的学习兴趣。

4 学科实践相关案例

“纸上得来终觉浅,绝知此事要躬行”,讲完各种方法的理论框架和原理之后,就是利用统计软件验证我们的结论了,也就涉及非参数统计的实践教学了。首先,笔者推荐大家使用开源免费的R软件,R是一套开源的数据分析解决方案,由一个庞大、活跃的全球性研究型社区维护。学者们将自己论文中使用的代码打包存放在社区网站并定期更新,我们遇到类似问题则可以免费下载使用,用完之后,作为回馈,我们也可以把自己写得好的程序打包放到共享社区,正是由于千千万万贡献者的免费共享,加上国际志愿者团队的工作,R语言社区实现了共建自治和蓬勃发展。此外,笔者一直在教学中秉承学以致用的理念,鼓励大家将非参数统计的丰富思想灵活应用到实践中。在今年的统计建模大赛中,就有两位同学将非参数统计中的方法──游程检验和 Kendall W 协同系数检验应用到自己的论文写作中,使论文增色不少。游程检验用于检验一个二元序列如000101001111的随机性,一位同学在验证问卷调查数据的随机性时,将收集的问卷中的二元变量如性别的取值列出来得到一列0、1序列值,使用游程检验说明这个序列是随机的,从而从侧面说明这个调查问卷的数据收集是随机的。另一位同学在研究中国沿海地区高质量发展水平测度时,使用了三种不同的方法对各沿海城市进行综合评价,得到了三组不同的排序结果,她创新性地采用了 Kendall W 协同系数及相关检验对这三种方法的一致性进行了检测,结果发现三种不同测度方法得出的评价结果一致性程度很高,从而验证了文中使用的评价测度的合理性。

5 结语

通过以上案例,希望可以帮助大家在将专业知识点讲得生动有趣的同时,将学科思维、探索奋进、开放共享的理念传递给学生,从而落实非参数统计的课程思政。

猜你喜欢

论文知识点思政
思政课只不过是一门“副课”?
一张图知识点
一张图知识点
第四页 知识点 歼轰-7A
关于国企党建与思政宣传有效结合的探讨
思政课“需求侧”
思政课“进化”——西安交大:思政课是门艺术
关于G20 的知识点
下期论文摘要预登
下期论文摘要预登