APP下载

运用GeoGebra软件,强化数据分析过程

2022-02-20李悦袁智强

关键词:数据分析

李悦 袁智强

摘要:《一元线性回归模型》一课,借鉴美国统计学会提出的“提出问题—收集数据—分析数据—解释结果”四环节教学模式,尝试运用动态数学软件GeoGebra,帮助学生充分经历数据分析过程。具体地,创设儿子身高和父亲身高相关关系的问题情境,收集学生及其父亲身高的真实数据,运用GeoGebra软件的动态作图和较大规模计算功能,让学生能够直观、便捷地探索如何寻找最佳拟合直线;引导学生解释实验发现的最佳拟合直线背后的数学思考过程,体会其中蕴含的数学思想。

关键词:数据分析;GeoGebra软件;《一元线性回归模型》

本文系教育部人文社会科学研究青年基金项目“创新型STEM教师培养的探索性研究”(批准号:18YJC880115)的阶段性研究成果。“统计的研究对象是数据,核心是数据分析。”③中华人民共和国教育部.普通高中数学课程标准(2017年版2020年修订)[S].北京:人民教育出版社,2020:31,7。“数据分析是指针对研究对象获取数据,运用数学方法对数据进行整理、分析和推断,形成关于研究对象知识的素养。”③对于人教A版高中数学选择性必修第三册第8章第2节《一元线性回归模型》一课,我们基于美国统计学会为中小学以及幼儿园制订的《统计教育评价与教学指导纲要》中提出的“提出问题—收集数据—分析数据—解释结果”四环节教学模式,尝试运用动态数学软件GeoGebra,帮助学生充分经历数据分析过程,提升数据分析素养。

一、教学过程

(一)提出问题,引发思考

教师带领学生回忆之前学过的“成对数据的统计相关性”,然后观看“姚明家族身高”短视频新闻,引出问题:儿子身高与父亲身高这两个变量究竟有什么关系?通过这一与现实生活密切相关的问题,激发学生的好奇心和求知欲。

(二)收集数据,观察探索

在课前布置作业,请所有男生回家了解自己父亲身高的基础上,教师采取现场收集数据的方式,随机抽取14位男生将父亲的身高与自己的身高通过平板电脑填入教师下发的在线文档中。由此,让学生直接产生数据,接触数据,提高对生活中常见数据的敏感度,培养学生的数据意识。

(三)分析数据,技术整合

这一环节是本课教学的重点之一,教师运用GeoGebra软件展示数据的散点图,引导学生分析数据,尝试利用函数模型近似描述数据的相关关系,并且通过软件作图与计算,充分探讨如何寻找最佳拟合直线(一次函数模型)。具体教学过程如下:

师(将通过在线文档收集到的数据粘贴到GeoGebra的表格区,并选中表格区的“父亲身高”与“儿子身高”,点击右键 ,选择“创建—点列”,画出散点图)观察散点图,看看点的分布有何特点,从而探讨儿子身高和父亲身高有何关系。

生直观上可发现,散点大致分布在一条从左下角至右上角的直线附近,这表明儿子身高和父亲身高呈线性关系。

(教师出示问题1:儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?)

生从散点图可以看出,这些点大致分布在一条直线附近,可以用一次函数模型来刻画两者之间的关系。

师非常好!我们可以看到,散点分布在一条直线附近,但不在同一条直线上。例如,两个父亲身高均为172 cm,但是他们儿子的身高不同,一个是166 cm,另一个是170 cm。可以发现,两者之间的关系不是简单的函数关系,因此不能用函数模型来刻画,但是可以用一次函数来刻画父亲身高对儿子身高的影响。

[教师出示问题2:我们选择直线模型(一次函数)来刻画父亲身高对儿子身高的影响,那么,如何找到最佳直线,使样本数据的散点在整体上与此直线最接近? ]

生畫出一条直线,测量出各点到直线的距离,使得距离之和最小。

生画出一条直线,使得直线两侧分布的点的个数相同。

生在散点图中多取几对点,确定几条直线,再分别求出各直线的斜率、纵截距的平均值,即为所求直线的斜率和纵截距。

师同学们的想法都非常好!我们不妨实践一下,看这些方法是否真的可行。事实上,利用传统的工具完成这些任务是非常麻烦的,并且不一定能达到我们的目的。我们尝试使用GeoGebra来操作。(同步在GeoGebra中操作,得到图1所示的结果)随便选两点O、P确定一条直线l,在指令栏输入“T_2=序列(线段(元素(T_2,i),交点(垂线(元素(T_1,i),f),f)),i,1,14)”,即将所有的点向直

线l引垂线,并求出每个垂线段长(即点到直线的距离)的序列T2;在指令栏输入“D1=总和(T_2)”,求出点到直线的距离之和。此时,我们要使得D1的值最小,不妨改变O、P的位置,移动直线。我请一位同学上来移动两点的位置,其他同学观察能否找到使D1的值最小的直线。

生(同步在GeoGebra中操作)先移动其中一个点,发现距离和也在发生变动,使可观察到的D1的值最小;再移动另一个点,使可观察到的D1的值最小。但我发现,这时再进行微小的移动,总会发现D1的值比之前还要小,所以,无法确定所找到的D1的值是不是最小值。这种方法不妥。

师同学们可以发现,移动直线可以将点到直线的距离之和变小,但是无法确定该值何时最小。接下来,我们探讨一下第二种方法,考虑直线两侧点的分布情况。还是请一位同学上来移动直线,其他同学观察直线两侧点分布情况的变化。

生(同步在GeoGebra中操作)当直线在一定的范围内移动时,均可使直线两侧分布的点数相同,都是7。也就是说,使直线两侧分布点数相同的直线有无数条,无法判断哪条是最佳直线。

师同样地,考虑第三种方法。(同步在GeoGebra中操作)首先,取不同对的点,可以确定不同的直线,从而得到不同的斜率、纵截距及其平均值。其次,用我们学过的计数原理,在14个点构成的散点图中最多可以取14×13÷2=91(对)点,在没有三点共线的情况下最多可以确定14条直线,但是,其中会有直线没有斜率与纵截距,这时便无法求出斜率与纵截距的平均值。(稍停)可见,以上方法虽然都有一定的道理,但是都比较难确定哪条直线为最佳拟合直线。请同学们再思考一下:能否找到其他标准?

(学生迟疑。)

师在许多实际问题中,x是没有误差的固定值,只有y才是有误差的观测值,所以只考虑y偏离直线的程度即可。而点到直线的距离同时考虑了x和y偏离直线的程度。

生那就让样本数据点离直线的竖直距离之和最小。

师非常好!用各点到直线的竖直距离来刻画各点与该直线的接近程度。也就是说,样本观测值与直线的预测(解释)值之间的偏差越小,说明直线的拟合效果越佳。但竖直距离是纵坐标之差的绝对值,绝对值求和不方便计算,怎么办?

(学生讨论。)

生可以平方后求和。

师很好!那就是用各点到直线竖直距离的平方和,即偏差平方和刻画“整体接近程度”。(同步在GeoGebra中操作,得到图2所示的结果)在指令栏输入“T_3=序列(多边形(元素(T_1,i),交点(垂线(元素(T_1,i),x轴),f),4),i,1,14)”,画出偏差平方和的图像。同学们可以看到,要求各点到直线竖直距离的平方和,就是要求以各点到直线的竖直距离为边长的正方形的面积和。(将课前设计好

的课件发给学生)同学们可以改变直线的位置,寻找小正方形面积和的最小值。

(学生自主探索,用时2分钟。)

师请同学们分享一下自己找到的最小值。

生139.54。

师还有同学找到比这个值更小的吗?

生128.8。

师还有比这个更小的吗?

生128.78。

师同学们可以看到,偏差平方和为128.78时,直线的方程为y=0.74x+43.93。接下来,给同学们2分钟时间进行验证。

(学生验证。)

师同学们验证好了吗?(同步在GeoGebra中操作)在指令栏输入“线性回归Y(T_1)”,会得到拟合直线的方程为y=074x+43.93。该直线即为使各散点到直线的偏差平方和最小的直线。

(四)解释结果,揭示思想

这一环节,教师引导学生解释实验发现的最佳拟合直线(线性回归模型)背后的数学思考过程,从而经历完整的统计问题解决过程,体会数学研究抽象出一般模型、通过推理与计算严格论证的根本追求和总体思路,并且帮助学生进一步理解其中蕴含的数学思想。具体教学过程如下:

师儿子身高和父亲身高之间关系的最佳拟合直线,我们是通过GeoGebra软件强大的计算功能,快速计算各种情况下的偏差平方和找到的。现在请同学们思考一下——

(教师出示问题3:现实生活中,当我们拿到样本数据后,该如何计算以找到最佳拟合直线的方程,即拟合函数呢?学生思考。)

师前面说了,不能用一次函数模型来表示儿子身高与父亲身高两个变量之间的关系,只能用一次函数模型来刻画父亲身高对儿子身高的影响,而影响儿子身高的其他因素应作为随机误差。我们用x表示父亲的身高,Y表示儿子的身高,e表示随机误差。假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,可以构建Y关于x的线性回归模型,即Y=bx+a+e,

E(e)=0,D(e)=σ2。其中,父亲身高为xi的所有男生的身高组成一个子总体,该子总体的均值为bxi+a,即该子总体的均值与父亲的身高是线性函数关系。但当一个男生父亲的身高为xi时,这个男生的身高yi却不一定为bxi+a,而是该子总体中的一个观测值,这个观测值与均值之间有一个误差项|ei|=|yi-(bxi+a)|。误差项越小,表示样本数据点与直线的竖直距离越小。对一组真实的数据(xi,yi)(i=1,2,…,n),设最佳拟合直线的方程为y=bx+a,根据我们前面讨论的寻找最佳拟合直线的方法,即使样本数据点与直线竖直距离的平方和最小,就是要确定什么的值,使什么最小?

生确定a、b的值,使∑ni=1(yi-bxi-a)2的值最小。

师你可以通过数学上求二次多项式最小值的方法,确定a、b的值吗?

(学生迟疑。)

师注意,这里有很多字母,首先要分清哪些是未知数或变量、哪些是已知数或常量。

生a、b是变量,xi、yi是常量。

师所以,这个式子本质上是一个二元二次多项式。求一元二次多项式,即一元二次函数的最值,最根本的方法是什么?

生配方法。

师同学们可以试着求一下a、b分别等于多少时,∑ni=1(yi-bxi-a)2取最小值。实在求不出来,可以看一看教材第109页的推导过程。

(学生活动。)

师得到了a、b,也就得到了最佳拟合直线的方程。我们将其称为Y关于x的经验回归方程,将相应的拟合直线称为经验回归直线,将这种求经验回归方程的方法叫作最小二乘法。由经验回归方程可以发现,经验回归直线过点(x,y),我们将其称为样本中心点。(稍停)再来看前面我们收集的儿子身高与父亲身高的14组数据,利用推导出来的公式可以计算出其经验回归方程中的a、b分别为多少?

(学生用电脑程序计算。)

生b=0.74,a=43.93。

师这和我们刚刚运用GeoGebra软件所求的经验回归方程一致。

(教师出示问题4:请同学们利用刚刚求出的经验回归方程,求出当x=176 时,Y为多少?如果一位父亲的身高数据是176,那么其儿子的身高数据一定为所求的值吗?)

生Y≈174。儿子的身高不一定为174cm,影响儿子身高的还有诸多其他因素,只是按经验来说一般平均为该值,用回归方程求出来的值为总体中儿子平均身高的估计值。

师没错。而且,经验回归方程y=0.74x+43.94的斜率可以解释为父亲的身高每增加1 cm,儿子的身高平均增加0.74 cm。通过对该模型的分析,还可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的平均身高要高于其儿子的平均身高;矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的平均身高要低于其儿子的平均身高。英国著名统计学家高尔顿把这种后代的身高向中间值靠近的趋势称为“回归现象”。后来,人们就把用一个变量的变化去推测另一个变量的变化的方法称为“回归分析”。(稍停)用最小二乘法求得的经验回归模型拟合效果如何?是否还能进行优化?请同学们带着问题回去思考一下。

二、教学思考

本节课基于统计教学的“四环节”教学模式,运用动态数学软件GeoGebra,让学生充分经历了统计问题解决的数据分析过程。课上,教师创设现实情境,引导学生提出问题,进而收集真实数据,多元分析数据,充分经历“从猜想到证实或证伪、从尝试到确定或否定”的数学探究过程,寻找解决问题的方案。

注重信息技术与数学教学的深度融合是高中数学新课标理念之一。统计教学往往需要收集和分析(包括制表、作图、计算以及随机模拟等)大量数据,因此,信息技术的运用显得尤为重要。本节课最大的亮点是,教师运用GeoGebra软件的动态作图和较大规模计算功能,让学生能够直观、便捷地探索“如何找到最佳直线,使样本数据的散点在整体上与此直线最接近”,从而充分经历从实验发现到理论推导的数学探究过程,对客观数据中蘊含的统计规律有从感性到理性的认识与思考,更深刻地理解数据分析的内涵。

此外,值得一提的是,单纯通过实验探索得到通过竖直距离(偏差)平方和最小寻找最佳拟合直线的方法,说服力还是有些不足的。所以,教学中,教师在充分放手的基础上适时介入,补充了一定的道理,引导学生得出上述方法。

猜你喜欢

数据分析
电子物证检验的数据分析与信息应用研究
基于matlab曲线拟合的数据预测分析
分众媒体趋势下场景营销的商业前景
佛山某给水管线控制测量探讨
SPSS在环境地球化学中的应用
大数据时代高校数据管理的思考
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议