基于R语言的描述性统计教学
2020-01-10侯县平成都信息工程大学物流学院
侯县平 成都信息工程大学物流学院
描述性统计是对数据的大小、离散程度、分布形状等概括性数据进行计算,用以描述和发现数据的特征,从而为后续的进一步数据分析做好准备,是统计学课程必须掌握的基础性内容。然而,描述性统计的计算较为繁琐,而R语言是一款免费的统计软件,能够方便快捷的进行统计分析,满足个性化、多样化的统计需求[1,2]。借助于R语言进行描述性统计教学,简单易学,容易理解,能够提高计算效率,提升学生的学习兴趣,提高教学效果。本文以具体数据为例,分析如何通过R语言来进行描述性统计的教学。
一、数据
本文以car包中[3]的Mroz数据集为例进行分析。Mroz数据集是对美国已婚妇女劳动力参与就业的收入调查,包含753个观测值,8个指标。Mroz数据集的前6行如表1所示,实现代码如下:
表1 Mroz数据集
表1中,1-6为序号,lfp指是否参与就业,k5指5岁及以下孩子的数量,k618指6至18岁孩子的数量,age指年龄,wc指妻子是否接受过大学教育,hc指丈夫是否接受过大学教育,lwg指期望的工资水平,inc指除妻子收入外的家庭收入。
二、描述水平的统计量
数据水平就是指数据的大小,描述水平的统计量主要有均值、中位数、四分位数等。在R语言中,可以轻松的计算这些统计量。下文的计算是针对lwg进行的,如果要计算inc,则将lwg替换为inc即可。
三、描述差异的统计量
描述数据的差异的统计量主要有极差、四分位差、方差和标准差,这些统计量用以反映数据的离散程度。
四、描述分布的统计量
数据的分布可以通过直方图来观察,并与正态分布做比较。通过偏度系数和峰度系数测度数据分布的不对称性和峰值高低。lwg的直方图及正态分布曲线如图1所示。
图1 lwg的直方图及正态分布曲线
五、数据的综合描述
有时候需要对数据进行综合描述,希望一次性得到多个统计量,则可以通过下面的方式实现。
或者,一次性想得到若干变量的统计结果,则可以运行如下代码,结果见表2.
表2 lwg和inc的描述统计
如果想对多个变量进行分组描述统计,则无需繁琐的逐步进行,用下面的方式非常方便,结果见表3。
表3 基于lfp和wc分组的lwg和inc的分组描述统计
甚至可以编写自己的函数来进行描述性统计,从而满足个性化的统计需求。
六、结论
从以上分析中可以看出,R语言是一款优秀的统计软件,可以轻松实现编程,能够方便快捷地实现个性化的统计需求。将R语言应用于教学,能够较好的激发学生的学习兴趣和动力,提高学生动手实践的积极性和能力。