统计学中几个容易混淆的问题
2019-07-26张明亮
张明亮
摘要:统计学是一门重要的学科,在日常生活中有着极其广泛的应用。本文对统计学教学中几个容易混淆的问题进行阐明,旨在帮助学生对统计学中的一些概念有个正确的理解。
关键词:统计学;直方图;总体;相关系数
中图分类号:C81 文献标志码:A 文章编号:1674-9324(2019)24-0188-02
统计学是一套处理和分析数据的方法和技术,是一门数据分析的学科。统计学作为一门基础课程,越来越受到人们的重视,呈現着新的发展趋势及活力。但是,学生往往对一些概念产生模糊认识,甚至一些教科书中,也出现对一些概念表述不清的情况,这里就学生在学习中容易产生混淆的几个问题进行阐述,旨在帮助学生对一些概念有一个正确的理解。
一、直方图与条形图
直方图是统计学中对数据描述的一个图形,在高中教材中也有介绍,但有一部分学生对这个概念理解不清。曾对学习统计学一年以后的大三学生做过一项统计学方面的调查,班级共有68名学生,有36名学生对直方图与条形图不能很好地区分开来,约占53%。有的学生把二者混为一谈,对于二者的应用范围分不清楚。条形图是用宽度相同的条形的高来表示数据多少的图形,每一矩形表示一个类别,其宽度没有实际意义,每个小矩形不相连。条形图有单式条形图和复式条形图之分,它一般适应于品质数据。
直方图是用于展示定量数据分布的一种常用图形,它是用矩形的宽度和高度来表示频数的分布,矩形的宽度表示分组数据的组距,由于分组数据具有连续性,所以每个矩形是相连的,通过直方图可以观察数据分布的大致情况。一般用每个小区间内的频率比上组距来表示小矩形的高度,这样做是为了使得直方图围成的面积为1,因为一维连续型随机变量的概率密度函数与x轴围成的面积为1,通过对直方图的折线近似拟合,观察这条折线与已知分布的哪个概率密度函数拟合得比较好,可得出这组数据的大致分布。
但是,在有的教材中,往往把直方图的高这一数据标错,给学生理解带来困难。右图为某公司电脑销售额分布的直方图,从图中可以看出,纵坐标标出的高度都不是频率与组距的比,直方图围成的面积自然也不能保证是1。
二、对总体的理解
总体是指研究的对象的全体或试验的全部可能的观察值。由此可见,总体是指研究对象,一般是一些具体的数值。如,要考察一个班级《统计学》期末的考试成绩,不能把这个班的学生看作总体,而应是每个学生的《统计学》成绩组成的集合为总体,因为这里考察的仅仅是《统计学》的成绩,而不是其他学科的成绩。有的学生对总体理解不到位,甚至一些教材上也犯有同样的错误。
三、方差与标准差的单位
随机变量X的方差用D(X)或Var(X)表示,若E[X-E(X)]存在,则D(X)=E[X-E(X)]称为随机变量X的方差。它刻画了随机变量X的取值与其数学期望E(X)的偏离程度,若方差较小,意味着随机变量X的取值比较集中在E(X)附近,反之,说明随机变量X取值比较分散。方差的开平方称为标准差或均方差。方差和标准差是否有单位,应该怎样定义单位呢?关于这个问题有很多人认识不清,方差和标准差是否有单位,取决于“样本数据”,若“样本数据”有单位,那么方差和标准差均有单位;若“样本数据”是没有单位的数值,那么方差和标准差均没有单位。由方差的定义知,一个随机变量X的方差,是这个随机变量与它的数学期望的差的平方的数学期望,若这个随机变量X有单位,它的数学期望就与这个随机变量具有相同的单位,二者差的平方的单位应该是原单位的平方,再求数学期望则单位不变,因此,方差的单位应该是“样本数据”单位的平方,而标准差是由方差开方得到,所以标准差的单位与“样本数据”的单位相同。如果数据的单位是千克,方差的单位就是千克的平方,标准差的单位就是千克;如果数据的单位是秒,方差的单位就是秒的平方,标准差的单位就是秒。只是现在教科书中对方差的单位比较淡化,一般考试中,所求的方差不要求写单位。但是,在有的教材中仍会出现单位标注错误。有本教材给出的例题是这样的:
例:根据例4.1的数据,计算9名员工月工资收入的方差和标准差。
四、无限与不可数
可数和无穷多是两个不同的概念。可数可以简单地认为是可以按一定顺序排列出来,所以也称为可列。如所有自然数{0,1,2,3,…}是可数个,只要能与自然数一一对应就是可数的,如所有奇数、所有偶数、所有有理数都是可数的。不可数就是没有办法一一排列出来,如区间[0,1]内的所有实数就是不可数的。
五、相关系数及其含义
当r=1时,称随机变量X与Y正相关;当r=-1时,称随机变量X与Y负相关;当r=0时,称随机变量X与Y不相关。说明相关系数定量地刻画了随机变量X、Y的线性相关程度,这里需注意的是:相关系数为零,只能说明随机变量X与Y不具有线性相关关系,未必没有关系;相关系数为1,也只能说明随机变量X与Y之间以概率1存在着线性关系,直观来说,就是几乎所有的点(X、Y)都在直线Y=aX+b上,允许个别点不在这条直线上,不在这条直线上的点的概率应为0,但不能说二者具有函数关系。在有些教材中,把r=1与二者具有函数关系等同起来,此教材这样描述相关系数:“可以证明,相关系数的取值范围在+1和-1之间,即-1 六、一元线性回归模型 总之,有些概念在一些教科书中介绍不清,老师在讲授时又不够重视,使得学生对这些概念不能很好地掌握,这是造成学生错误的根本原因,值得重视。 参考文献: [1]贾俊平.统计学基础[M].第3版.北京:中国人民大学出版社,2013. [2]盛骤,谢式千,潘承毅.概率论与数理统计[M].第4版.北京:高等教育出版社,2011.