APP下载

初中统计新面孔“箱线图与百分位数”的认识与思考

2024-12-03邓乐琪孔德宏

中学数学杂志(初中版) 2024年6期
关键词:统计与概率

【摘要】《义务教育数学课程标准(2022年版)》新增了“箱线图与百分位数”内容,“箱线图”首次出现在课标中,这给教师和学生都带来了新的挑战.首先从时代发展需要、数学课程需要、学生发展需要三方面论述了箱线图与百分位数的教育价值;其次阐明了百分位数的定义和算法、箱线图的定义和画法;随后通过《义务教育数学课程标准(2022年版)》中的例86对箱线图与百分位数加以应用说明,发现按照定义绘制的箱线图与借助统计软件绘制的箱线图存在上边缘下边缘取值不一的问题,而相同统计软件中绘制的箱线图也存在不同表示形式.

【关键词】统计与概率;箱线图;百分位数

数据分析是高中数学六大核心素养之一,无论是义务教育阶段还是高中阶段均对学生数据分析能力有了新要求,《义务教育数学课程标准(2022年版)》(以下简称《课标(2022年版)》)在第四学段“统计与概率”领域中新增内容要求“会计算四分位数,了解四分位数与箱线图的关系,感悟百分位数的意义”,《普通高中数学课程标准(2017年版2020年修订)》(以下简称《高中课标》)在“概率与统计”主题中要求“结合实例,能用样本估计百分位数,理解百分位数的统计含义”.显然高中阶段对百分位数的要求由初中阶段的了解提升至理解、能够,学生在义务教育阶段对“箱线图与百分位数”的理解程度必然会直接影响高中阶段“百分位数”的学习.那什么是百分位数?箱线图又是什么?为什么要在义务教育阶段引入“箱线图与百分位数”的学习?如何计算百分位数、绘制箱线图?如何利用箱线图与百分位数分析数据?

1箱线图与百分位数的教育价值

1.1时代发展需要

进入21世纪以来,随着信息技术的飞速发展和广泛应用,世界各国越来越重视统计的学习.从商业决策到科学研究,都需要对大量数据进行分析和处理,大数据、云计算、人工智能等领域更是依赖数据分析的观念与技术,人们对统计学习的关注度也逐渐提升.箱线图和百分位数作为数据分析的基础工具,在金融分析、医学研究、质量检测等方面有着广泛应用,能够解决不同领域的实际问题.

1.2数学课程需要

2001年,“统计与概率”就作为独立领域设置在课标中,并且第一次在小学和初中阶段增加了概率的内容[1].《课标(2022年版)》和《高中课标》新增了“百分位数”的内容,《课标(2022年版)》更是在附录部分以一个实例(例86)让学生感悟箱线图的学习价值,这反映了教育部门对于统计学教育的重视,也显示了这些知识在数学课程中的必要性[2].箱线图和百分位数作为统计与概率领域下的重要知识,它的引入不仅能够丰富数学课程内容,使数学内容更完善,还能使数学内容更贴近学生生活实际,让学生体会数学来源于生活又应用于生活.

1.3学生发展需要

社会的飞速发展对我国的人才培养提出了新要求,数学教育的目标不仅仅局限于传授数学知识和技能,更在于通过数学学科培养学生的综合素质和能力.百分位数和箱线图作为统计分析的重要工具,不仅能够有效地帮助学生把握数据特征[3]、掌握数据分析的基本技能、提升数学素养和综合应用能力,还能为他们将来职业生涯和社会生活中遇到的各类数据问题提供处理工具和方法,从而做出更加合理的决策和分析,这对他们未来在数据驱动的世界中取得成功至关重要.

2箱线图与百分位数

2.1百分位数

在了解箱线图之前,我们要了解什么是百分位数.人教A版普通高中教科书数学必修第二册给出了百分位数的概念:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.

因此,初中所学中位数,相当于第50百分位数;除中位数外,常用的分位数还有第25百分位数,第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分为数,第75百分位数也称为第三四分位数或上四分位数[4].

百分位数在统计学中有着十分重要的计数地位,是表达统计量、刻画数据信息的重要形式[5].百分位数的主要意义在于其能提供有关数据分布状况的重要信息.通过了解一个值处于数据集的什么位置,能够对整个数据集的分布有一个直观的认识,能够快速识别数据的集中趋势与离散程度,而无需查看整个数据集.百分位数还具有识别异常值的作用.在数据分析中,异常值可能对分析结果产生重大影响,特别是在计算平均值、标准差等统计量时,而百分位数可以帮我们确定哪些值是极端值,应当被排除在进一步的分析之外,使得分析更加准确和稳定.

对于百分位数的计算,我们可以通过下面的步骤计算一组n个数据的第p百分位数:

第1步:按从小到大排列原始数据.

第2步:计算i=n×p%

第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.

2.2箱线图

箱线图又称盒须图、盒式图或箱形图,1977年由美国著名统计学家约翰·图基发明,是一种利用上边缘、上四分位数、中位数、下四分位数和下边缘来描述一组数据分散情况的统计图,因形状如箱子而得名,它主要用于反映原始数据特征的分布,并对数据的异常值进行标注,还能够快速地展现出多组数据的分布情况和它们的相对差异.

要绘制箱线图,除了计算前文描述的四分位数外,还需计算上边缘(最大值)、下边缘(最小值)和异常值,其中异常值是指大于上边缘(最大值)或小于下边缘(最小值)的值.此外,为了计算这三个特征值,需先计算四分位差(简称“IQR”),四分位差(IQR)=上四分位数(Q1)-下四分位数(Q3),上边缘(最大值)=Q1+1.5IQR,下边缘(最小值)=Q3-1.5IQR.

箱线图的绘制方法是:先计算出一组数据的上边缘、下边缘和四分位数;然后连接上四分位数和下分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间[6];最后标出异常值,异常值常用空心圆表示.箱线图图示,如图1所示.

3箱线图与百分位数的应用

下面以《课标(2022年版)》例86“箱线图与百分位数”为例,对箱线图与百分位数加以应用.

某银行有A和B两个理财经营团队.2018—2020年,这两个理财团队分别负责经营12项理财产品,收益率(单位:%)如下:

A:4.773.986.444.892.153.85

3.643.213.182.024.114.10

B:3.183.843.993.673.403.60

4.104.214.154.443.873.91

试评价A和B两个团队的经营水平.

学生可以通过计算平均数和方差来评价两个团队的经营水平,但仅仅用平均数和方差评价似乎不够全面.为挖掘更多数据信息,使评价更加全面合理,考虑采纳“四分位数”来进一步评价两个团队的经营水平.以下将以四分位数和箱线图来评价两团队经营水平.

解:A和B两个团队的收益率按从小到大排列为:

A:2.022.153.183.213.643.85

3.984.104.114.774.896.44

B:3.183.403.603.673.843.87

3.913.994.104.154.214.44

由12×25%=3,12×50%=6,12×75%=9,可知样本数据的第25,50,75百分位数分别为第3项数据和第4项数据的平均数、第6项数据和第7项数据的平均数、第9项数据和第10项数据的平均数.

计算出箱线图所需数据后,画一条能包含所有数据的数轴,在数轴上描出各组数据的上边缘、四分位数、下边缘,连接各组数据的Q1和Q3画出箱体,在Q2、上边缘、下边缘处分别画平行于箱体的短平行线,再将上边缘、下边缘与箱体用虚线连接,最后标出两组数据的异常值.两团队收益率箱线图如图2所示.

基于两团队的箱线图,我们可以获得两组数据更直观的数据分析.通过观察箱线图可以直接得出,两团队收益率的中位数几乎相等,但B团队的箱体高度比A团队箱体高度矮,说明B团队的经营水平波动性小,数据更集中;相比而言A团队的经营水平波动性更大,数据更分散.此外,从箱线图中还可以看出A团队的收益率有1个异常值,说明A团队的收益率两极分化更明显.因此,可以更有把握的说,两个团队经营效益基本一样,但B团队的经营水平比A团队的经营水平更平稳.

4绘制箱线图存在的问题

4.1上边缘与下边缘的不同取值

将按照箱线图定义绘制出来的箱线图(图2)与《课标(2022年版)》中的箱线图(图3)对比发现两者存在较大差异.差异主要体现在上边缘和下边缘的取值大小上,《课标(2022年版)》中的箱线图是在去掉数据异常值后,将剩下数据中的最大值作为了上边缘,最小值作为了下边缘.

通过查阅资料发现,无论是课标还是教科书,均未给出箱线图的具体定义,而国内不少学者也将上边缘、下边缘分别称为最大值、最小值,因此箱线图中的上边缘、下边缘的取值有两种情况,一种是按定义计算,另一种是在除去数据异常值后,分别取数据的最大值、最小值.显然后一种取值方法更简便快捷.

4.2统计软件中箱线图的不同表示形式

随着科技的发展,现代信息技术已经走进课堂,百分位数的计算、箱线图的绘制都可以借助统计软件完成,Excel是中学最常见的统计软件.Excel中箱线图的上边缘、下边缘的取值也是在除去数据异常值后,分别取数据的最大值、最小值,但进一步比较发现Excel中的箱线图也有不同表示形式.

在Excel中有一个函数专门用于计算一组数据的四分位数,即QUARTILE函数.该函数的表达式包含两个参数,第1参数为数据区域,第2参数为分位点类型,表达式为:=QUARTILE(数据区域,分位点类型).其中第2参数分位点类型是指通过特定的参数值,来表示计算不同分位点的结果值,它具体包含5个参数值,分别是“0表示最小值,1表示下四分位点,2表示中位数,3表示上四分位点,4表示最大值”.将数据输入Excel中,点击空白处,输入QUARTILE函数表达式,分位点类型分别输入1,2,3,即可求出该组数据的四分位数;随后选中数据,点击插入图表,可以直接插入箱线图.

按照以上步骤,将A,B两团队收益率分别输入Excel,得出的四分位数与上文一致;选中两团队的数据,点击插入箱线图,其结果如图4所示.此时箱线图中的四分位数与上文计算结果并不相同,并且A团队的异常值也并未排除.

这是因为Excel中QUARTILE函数的查询逻辑与箱线图内置规则略有不同,箱线图内置规则有两种计算方式,一个是包含中值(即中位数),另一个是排除中值.默认情况下是排除中值,因此图形中的四分位数与公式结果不同,一般情况下,我们以函数公式的结果为准.此外,Excel中箱线图默认不显示离群值点(即异常值),一般情况下,我们需选择显示离群值点.包含中值、显示离群值点后的箱线图如图5所示.

5结束语

百分位数为我们提供了一种衡量数据集中趋势和分布状态的方法,而箱线图以简单直观的图形方式表达出数据的分布情况,特别是集中趋势、离散程度和异常值的识别.如果说百分位数是从“数”的角度来分析数据,箱线图则是从“形”的角度来反映数据的分散情况.从教学的角度来看,百分位数和箱线图不仅是传授给学生的重要统计概念,更是培养他们数据分析思维和批判性思考能力的有效工具.在箱线图与百分位数的教学过程中,教师要确保学生能够有效地理解和应用这些统计概念,注重理论与实践的结合,用实际数据来演示百分位数和箱线图的计算和绘制过程,科学合理使用统计软件,确保学生不仅理解这些统计工具的原理,还能够熟练地应用于实际数据分析中.

参考文献

[1]武维民.如何理解和把握“统计与概率”领域内容的调整和变化:马云鹏教授、吴正宪老师访谈录(七)[J].小学教学:数学版,2022(11):9-13.

[2]刘华明.初中数学统计与概率的新成员:四分位数与箱线图[J].中小学数学:初中版,2023(Z1):116-117.

[3]高凯亮.新课标背景下“统计与概率”的变化:对“四分位数与箱线图”的思考[J].中学数学杂志,2023(10):15-18.

[4]人民教育出版社,课程教材研究所,中学数学课程教材研究开发中心.普通高中教科书·数学(必修):第二册[M].北京:人民教育出版社,2019.

[5]王胜楠,王罗那.渗透“读—思—达”教学发展数据分析素养:以“四分位数与箱线图”教学为例[J].西藏教育,2022(12):40-43,48.

[6]贾俊平,何晓群,金勇.统计学:第四版[M].北京:中国人民大学出版社,2009.

作者简介邓乐琪(2000—),女,湖南邵阳人,硕士研究生;主要从事数学教育教学研究.

孔德宏(1972—),男,云南曲靖人,副教授,硕士研究生导师;主要从事数学教育教学研究.

猜你喜欢

统计与概率
“统计与概率”,我们势在必得
体会“统计与概率”中的四大思路
来自“统计与概率”解题策略与方法的一封信
不留遗憾:“统计与概率”知识点再梳理
“统计与概率”复习专题
“统计与概率”综合复习
“统计与概率”测试卷
在四个领域中培养学生的数学推理能力
人教版与苏教版小学数学“统计与概率”领域内容比较
在小学“统计与概率”教学中培养学生数学素养刍议