MKT视角下开展高中数学“成对数据的统计相关性”教学的实践
2024-07-10林自强
摘 要:“成对数据的统计相关性”教学是中学数学教师课堂教学的难点与痛点,主要原因是教师对相关性系数公式一知半解,加之教学任务重、时间紧,教师不舍得花时间推导公式,导致学生对这一知识掌握不到位,运用时错误率较高。MKT视角下的数学教学主张教师对教学内容有独到的见解,并将其渗透于课堂中,这对优化成对数据的统计相关性教学有重要的指导价值。MKT视角下开展高中数学“成对数据的统计相关性”教学要求教师深刻理解知识的发生发展过程,明晰相关性系数公式的推导过程;通过将新知识学习与旧知识联系起来这一符合学生认知规律的教学方式,提高学生的学习兴趣;结合高考真题引导学生学以致用,发展学生的数据分析与数学运算等数学学科核心素养。
关键词:成对数据;相关性系数公式;数学运算;MKT视角
中图分类号:G63 文献标识码:A 文章编号:0450-9889(2024)14-0083-06
作者简介:林自强,1985年生,广西南宁人,研究生,高级教师,主要研究方向为中学数学课程与教学。
面向教学的数学知识(Mathematical Knowledge for Teaching,MKT)是课堂教学的知识基础,课堂教学的组织架构是一个常话常新的主题。从MKT的角度来看,假如教授者能够真正把所教授的内容知识想得明白了,是能够产生教育上的见解并能自如用于课堂教学的,这个看法得到了教育数学领域学者的支持[1]。由此可知,在数学教学中,由教师的教转变成为学生的学,事实上还需要教师的引导,教师如何引导,如何实现深度引导、有效引导乃至高效引导,都取决于教师对内容知识的理解是否足够透彻。但是,笔者对中学一线数学教师开展“成对数据的统计相关性”课堂教学情况调研发现,教师教学大多停留在“一个公式、几道例题、大量练习”,忽视了教师自身对知识的深度理解,难以讲清相关性系数的相关知识,具体表现为以下三个方面:一是教学时间紧张导致部分教师不愿去讲解,他们认为推导公式是浪费时间;二是部分教师本身对统计学的相关知识掌握不全面,不明白成对数据的统计相关性系数的来龙去脉;三是部分教师本身不理解相关知识却又想教授学生,越讲越糊涂,最后干脆叫学生死记硬背,草草结束本节内容的教学,导致学生囫囵吞枣,未能实现预期教学效果。
为更深入地理解成对数据统计相关性的知识,进而更好地开展教学,笔者对比人教A版、人教B版、北师大版、沪教版等七个不同版本教材中成对数据的统计相关性的内容安排情况,发现:人教B版、北师大版两个版本的教材先编排回归直线的内容再编排相关性的内容,人教A版、沪教版、苏教版、湘教版以及鄂教版等五个版本的教材先编排相关性学习内容再编排线性回归直线相关知识。可见,回归直线方程与相关性学习内容的安排顺序对相关性系数公式的学习理解不会有太大的影响,但是从中学数学课堂教学角度出发,理解回归直线方程后学习相关性可以更直观地理解相关性系数公式。
文章基于人教A版数学教科书选择性必修第三册第八章第一节的内容,从导学、导思两条路径设计样本相关系数r=[i=1nxi-xyi-yi=1nxi-x 2·i=1nyi-y 2]公式教学。
一、以温故引学,问题驱动引思考
问题1:成对数据的相关关系是怎样的?
我们知道,函数关系是一种确定性关系,然而在现实世界中,两个变量之间有关系,但是又未达到确定性的函数关系,比如人的体重与身高的关系,身高并不是决定体重的唯一因素,那么像这样“两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度”,我们将这种关系称为相关关系。
追问:如何直观描述相关关系的成对样本数据?
类似于用直方图描述单个变量样本数据的分布特征,我们可以用直角坐标系中的点表示数据,从而直观地展示成对样本数据的变化特征,由这些点组成的统计图叫作散点图。
【设计意图】从学生的已有认知切入,通过简洁且与学生息息相关的情境,引导学生形象直观地理解数据间的相关关系;接着通过追问,引导学生借助图形语言直观呈现数据,自然生成散点图的概念。
此时,教师可以引进教材的案例,引导学生以小组讨论的方式探究正相关、负相关的内涵。
正相关(Positive correlation),是指两个变量变动方向相同,一个变量由大到小或由小到大变化时,另一个变量亦由大到小或由小到大变化(如图1所示)。
负相关(Negative correlation),是指两个变量变动方向相反,一个变量由大到小或由小到大变化时,另一个变量反而由小到大或由大到小变化(如图2所示)。
[图1][图2]
探究发现:正相关时散点的横纵坐标变化情况一致,负相关时散点的横纵坐标变化情况相反。
问题2:样本相关系数是什么?
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等。散点图虽然直观,但无法准确地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小。能否像引入均值、方差等数字特征分析单个变量数据那样,引入一个适当的“数字特征”?样本相关系数就是一个适当的“数字特征”。
追问:如何对成对样本数据的相关程度进行定量分析?
【设计意图】散点图可以直观展示数据分布规律,让学生体会数形结合、转化思想对研究数学问题的重要价值。再由散点图难以准确描述数据之间的相关程度这一现实问题出发,用追问引导学生结合已学过的统计学知识进行定量分析,发展学生数据分析数学学科核心素养。
二、公式推导深化理解,提升分析运算能力
基于不少教师在教学成对数据的统计相关性公式推导存在困难的现状,笔者设计了由“数据中心化”“引进统计量”“数据标准化”“公式的生成”“取值的范围”等五环节构成的相关系数公式推导教学,具体教学活动如下。
活动1:数据中心化——将成对样本数据以(x,y)为零点进行平移
将原始的成对样本数据(x1,y1),(x2,y2),…,(xn,yn)绘制成散点图,发现这些散点分布规律不明显,将数据以(x,y)为零点进行平移,其中x=[x1+x2+…+xnn],y=[y1+y2+…+ynn],我们称这一过程为数据中心化。平移后的成对样本数据为(x1-x,y1-y),(x2-x,y2-y),…,(xn-x,yn-y),绘制散点图如图3所示,这时的散点大多数分布在第一、三象限,同时可以发现这些散点是正相关关系。
【设计意图】学生一开始接触的图1、图2中的散点较为集中,数据之间的关系比较清晰,此时教师呈现数据关系不明显的如图3所示的散点图,造成认知冲突,激发学生深入探究的兴趣,从而顺利引出数据中心化这一数据处理方法。
活动2:引进统计量——刻画平移后的散点横、纵坐标正负情况
我们知道两个数m、n:若m、n同号,则mn>0;若m、n异号,则mn<0。
以图3为例,由此我们得到启发:平移后的散点大多数分布在第一、三象限,散点的横、纵坐标同号。
利用散点的横、纵坐标是否同号,可以构造一个量Lxy=[1n][(x1-x)(y1-y)+(x2-x)(y2-y)+…+(xn-x)(yn-y)]。
一般情形下,Lxy>0表明成对样本数据正相关;Lxy<0表明成对样本数据负相关。
【设计意图】数据中心化之后得到图3,是从图的角度厘清数据之间的相关性。引进统计量构建Lxy是从数的角度呈现数据的关系。从学生已有的知识与经验出发,由图到数展开探究,符合学生的认知规律,学习过程自然且流畅。
活动3:数据“标准化”——对成对样本数据进行“标准化”处理
因Lxy的大小会受到单位的影响,如纵坐标单位不变,横坐标单位由米变成厘米,结果Lxy就扩大了100倍,为消除单位的影响,我们可以对成对样本数据进行“标准化”处理。于是,教师自然地提出问题——如何将成对数据“标准化”?
教师首先带领学生回顾向量的“单位化”:将[a]化为同向的单位向量,即在[a]基础上除以其模长得到与[a]同向的单位向量[aa]。其次,在统计学中,若一组数据的均值为0、方差为1,则说明这组数据相对稳定。下面我们以横坐标为例子进行解析。
将平移后的成对样本数据的散点横坐标[u]=(x1-x,x2-x,…,xn-x)化为单位向量:
[uu]=[1x1-x 2+x2-x 2+…+xn-x 2](x1-x,x2-x,…,xn-x),即[uu]=([x1-xi=1nxi-x 2],[x2-xi=1nxi-x 2],…,[xn-xi=1nxi-x 2])。我们由此可得到新的数据[x1-xi=1nxi-x 2],[x2-xi=1nxi-x 2],…,[xn-xi=1nxi-x 2]的平均数为0;要想实现方差为1,还需将每一个新数据分母构造成为[1ni=1nxi-x 2],则新数据成为[xi-x1ni=1nxi-x 2](其中i=1,2,…,n)。
同理,将平移后的成对样本数据的散点纵坐标记[v]=(y1-[y],y2-[y],…,yn-[y])化为单位向量:
[vv]=([y1-yi=1nyi-y 2],[y2-yi=1nyi-y 2],…,[yn-yi=1nyi-y 2]),同样可得新数据[y1-yi=1nyi-y 2],[y2-yi=1nyi-y 2],…,[yn-yi=1nyi-y 2]的平均数为0;要想实现方差为1,还需将每一个新数据的分母构造成为[1ni=1nyi-y 2],则新数据成为[yi-y1ni=1nyi-y 2](其中i=1,2,…,n)。
将[xi-x1ni=1nxi-x 2]与[yi-y1ni=1nyi-y 2]作积得到[xi-x1ni=1nxi-x 2]·[yi-y1ni=1nyi-y 2],由此[xi-xyi-y1ni=1nxi-x 21ni=1nyi-y 2](n=1,2,…,n)达到“标准化”。
我们记sx=[1ni=1nxi-x 2],sy=[1ni=1nyi-y 2],所以“标准化”后的坐标为([x1-xsx],[y1-ysy]),([x2-xsx],[y2-ysy]),…,([xn-xsx],[yn-ysy]),为了方便起见,我们将它们分别记为(x1[′],y1[′]),(x2[′],y2[′]),…,(xn[′],yn[′])。
【设计意图】学生很是欣喜地用上活动2中构造出的量Lxy,教师在教材例子的基础上进行变式训练,改变其中一个变量的单位,让学生在活动3中开展小组计算,不仅可以发展学生的数学运算与数据分析素养,还能培养学生的团队协作意识。学生最终形成共识:数据需要标准化。“什么是标准化”“如何标准化”问题串自然生成,教师引导学生利用旧知过渡到新知识的学习。
活动4:公式的生成——样本相关系数公式自然形成
仿照Lxy的构造,可以得到r=[1n](x1[′]y1[′]+x2[′]y2[′]
+…+[xn′][yn′])=[1n][i=1nxi-xyi-y1ni=1nx1-x 21ni=1ny1-y 2]=[i=1nxi-xyi-yi=1nx1-x 2i=1ny1-y 2]。
我们称r为变量x和变量y的样本相关系数。
这样便利用成对样本数据构造了样本相关系数r。样本相关系数r是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征。
当r>0时,称成对样本数据正相关。这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。
当r<0时,称成对样本数据负相关。这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小。
【设计意图】结合教材中的表述,引导学生明晰公式中的各个量表示的意义。
活动5:取值的范围——探究成对数据的样本相关系数取值范围
为了解样本相关系数r的大小与成对样本数据相关程度之间的内在联系,需探究r的取值范围。
由不等式ab≤[a2+b22]可得,[r]= [1n][i=1nxi-xsxyi-ysy]≤[1n][i=1nxi-xsx 2+yi-ysy 22]
=[1ni=1nxi-xsx 2+1ni=1nyi-ysy 22]
=[1n×i=1nxi-x 21ni=1nxi-x 2+1n×i=1nyi-y 21ni=1nyi-y 22=1]。
所以[r]≤1,-1≤ r ≤1。
另外,结合r=[1n](x1[′]y1[′]+x2[′]y2[′]+…+xn[′]yn[′]),可从向量数量积的知识[a]·[b]=[a][b]cos[θ]出发,若[a]=(x1,x2,…,xn),[b]=(y1,y2,…,yn),从而有
cos[θ]=[x1y1+x2y2+…+xnyni=1nxi2i=1nyi2]。
不难发现,前述对成对数据进行标准化处理后构造了两个n维向量,可用两个向量的数量积表示r。
记xi[′]=[x1-x1ni=1nxi-x 2],yi[′]=[y1-y1ni=1nyi-y 2](i=1,2,…,n),从“标准化”的成对数据(x1[′],y1[′]),(x2[′],y2[′]),…,(xn[′],yn[′])中可得第一分量构成n维向量[x′]=(x1[′],x2[′],…,xn[′]),第二分量构成n维向量[y′]=(y1[′],y2[′],…,yn[′]),不难计算[x′]=[n],[y′]=[n]。又因为r=[1n](x1[′]y1[′]+x2[′]y2[′]+…+xn[′]yn[′]),所以可得r=[1n][x′]·[y′]=[1n][x′]·[y′]cos[θ]=cos[θ],又-1≤cos[θ]≤1,即-1≤r≤1。
【设计意图】面对新知识时,如果学生原有的认知结构中缺乏能与新知识产生联系、有助于同化新知识的内容,教师就需要在教学新知识前为学生呈现具有引导性的材料,以达到温故知新的教学效果,比如,得到样本相关系数公式r=[i=1nxi-xyi-yi=1nx1-x 2i=1ny1-y 2]后,学生自主变形,得到便于计算的式子r=[i=1nxiyi-nx·yi=1nxi2-nx2i=1nyi2-ny2]。
三、举一反三悟思想,学以致用强基础
学完某一知识后,就要思考如何运用这些知识解决实际问题。在教学中,教师不妨通过高考真题让学生感受所学公式的作用。
回顾近几年高考数学真题,针对样本相关性系数的考查逐渐活跃在概率统计解答题中,例如,2022年全国乙卷理科卷、2020年新课标Ⅱ卷、2016年全国Ⅲ卷(理科)等试卷都直接考查了相关性系数公式的应用,教师可以将这些高考真题用作课堂练习题,让学生在解决问题中巩固所学。
练习题1(2022年全国乙卷理科,第19题) 某地经过多年的环境治理,已将荒山改造成了绿水青山。为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
并计算得[i=110xi2=0.038,][i=110yi2=1.615 8,][i=110xiyi][=0.247 4]。
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2。已知树木的材积量与其根部横截面积近似成正比。利用以上数据给出该林区这种树木的总材积量的估计值。
附:相关系数r=[i=1nxi-xyi-yi=1nxi-x 2i=1nyi-y 2],[1.896][≈]1.377。
本题虽然附上了样本相关系数公式,但是解题时不能直接套用已知数据进行解答。为了简化计算,首先需要对公式进行变形——将第(1)问中的结果代入计算即可。
r=[i=110xi-xyi-yi=110xi-x 2i=110yi-y 2]
=[i=110xiyi-10x·yi=110xi 2-10x 2i=110yi 2-10y 2]
=[0.2474-10×0.06×0.39(0.038-10×0.062)(1.615 8-10×0.392)]
=[0.013 40.000 189 6][≈][0.013 40.013 77][≈]0.97,则r[≈]0.97。
在日常的教学中,教师应注意公式中各个量所表示的意义以及公式的推导,进而才能使学生深刻理解所学知识,不断培养解决问题的能力,从而能在解决具体问题时正确运用所学知识。
练习题2(2020年新课标Ⅱ卷,第18题) 某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加。为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得[i=120xi=60],[i=120yi=1 200],[i=120(xi-x) 2=80],[i=120(yi-y) 2=9 000],[i=120(xi-x)][(yi-y)][=800]。
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大。为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由。
附:相关系数r=[i=1nxi-xyi-yi=1nxi-x 2i=1nyi-y 2],[2][≈]1.414。
由第(1)问可以求得相关平均数,结合题中已知条件直接代入题尾附的公式中进行计算即可得到相关系数r=[i=120xi-xyi-yi=120xi-x 2i=120yi-y 2]=[80080×9 000]=[223][≈]0.94。
该题难度不大,主要考查学生的数学运算能力。虽然题目难度不大,但是当年考生的得分率并不是很高,说明考生对公式的理解不到位,还不能熟练准确运用公式。为此,教师在教学中应指导学生将相关知识进行比较学习,力求能够恰到好处地运用公式进行计算求解。
练习题3(2016年全国Ⅲ卷理科,第18题) 下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图。
(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量。
参考数据:[i=17yi]=9.32,[i=17tiyi]=40.17,[i=17yi-y2]=0.55,[7][≈]2.646。
参考公式:相关系数r=[i=1nti-tyi-yi=1nti-t 2i=1nyi-y 2]。
回归方程[y]=[a]+[b]t中斜率和截距最小二乘估计公式分别为:[b]=[i=1nti-tyi-yi=1nti-t 2],[a]=[y]-[b][t]。
本题未出现直观的成对数据,考查考生的读折线图能力,要求考生从图中获取相关数据趋势,巧妙处理题中附的公式、数据,灵活运用相关公式。由折线图中数据和附注中参考数据进行求解[t]=4,[i=17ti-t 2]=28,[i=17yi-y 2]=0.55,[i=17ti-tyi-y]=[i=17tiyi-ti=17yi]=40.17-4×9.32=2.89,r[≈][2.890.55×2×2.646][≈]0.99。求出样本相关性系数后,考生还需解读样本相关性系数的作用,这要求考生熟练转化符号语言与文字语言,因为y与t的样本相关系数近似为0.99,说明y与t的线性相关程度非常高,从而可以用线性回归模型拟合y与t的关系。
从数学知识发生发展过程的合理性、学生思维过程的合理性上加强思考,是落实数学学科核心素养的关键点[2]。《普通高中数学课程标准(2017年版2020年修订)》明确指出,在统计教学中,应通过具体案例,引导学生理解两个随机变量的相关性可以通过成对样本数据进行分析,在教学过程中,应通过具体案例引导学生参与数据分析的全过程,并鼓励学生使用相应的统计软件[3]。成对数据统计的相关性实例教学对教师的要求较高,从MKT视角优化这一教学,教师必须先透彻地理解相关知识,特别是成对数据统计相关性的样本相关性系数公式推导及其统计含义,同时甄选贴切的实际问题,让学生在真实的情境中运用所学知识。教师只有真正理解知识的内涵才能讲得清楚,学生才听得明白、用得精准,实现从“知其然”到“知其所以然”再到“何由以知其所以然”的跨越,从而培养学生的高阶思维,发展学生的数学学科核心素养,彰显数学学科的育人价值。
参考文献
[1]徐章韬.“双减”背景下数学课堂教学研究[M].武汉:华中师范大学出版社,2023.
[2]章建跃.核心素养立意的高中数学课程教材教法研究[M].上海:华东师范大学出版社,2021.
[3]中华人民共和国教育部.普通高中数学课程标准(2017年版2020年修订)[M].北京:人民教育出版社,2020.
(责编 刘小瑗)