APP下载

基于R语言的描述性统计教学

2020-01-10侯县平成都信息工程大学物流学院

消费导刊 2019年49期
关键词:描述性正态分布直方图

侯县平 成都信息工程大学物流学院

描述性统计是对数据的大小、离散程度、分布形状等概括性数据进行计算,用以描述和发现数据的特征,从而为后续的进一步数据分析做好准备,是统计学课程必须掌握的基础性内容。然而,描述性统计的计算较为繁琐,而R语言是一款免费的统计软件,能够方便快捷的进行统计分析,满足个性化、多样化的统计需求[1,2]。借助于R语言进行描述性统计教学,简单易学,容易理解,能够提高计算效率,提升学生的学习兴趣,提高教学效果。本文以具体数据为例,分析如何通过R语言来进行描述性统计的教学。

一、数据

本文以car包中[3]的Mroz数据集为例进行分析。Mroz数据集是对美国已婚妇女劳动力参与就业的收入调查,包含753个观测值,8个指标。Mroz数据集的前6行如表1所示,实现代码如下:

表1 Mroz数据集

表1中,1-6为序号,lfp指是否参与就业,k5指5岁及以下孩子的数量,k618指6至18岁孩子的数量,age指年龄,wc指妻子是否接受过大学教育,hc指丈夫是否接受过大学教育,lwg指期望的工资水平,inc指除妻子收入外的家庭收入。

二、描述水平的统计量

数据水平就是指数据的大小,描述水平的统计量主要有均值、中位数、四分位数等。在R语言中,可以轻松的计算这些统计量。下文的计算是针对lwg进行的,如果要计算inc,则将lwg替换为inc即可。

三、描述差异的统计量

描述数据的差异的统计量主要有极差、四分位差、方差和标准差,这些统计量用以反映数据的离散程度。

四、描述分布的统计量

数据的分布可以通过直方图来观察,并与正态分布做比较。通过偏度系数和峰度系数测度数据分布的不对称性和峰值高低。lwg的直方图及正态分布曲线如图1所示。

图1 lwg的直方图及正态分布曲线

五、数据的综合描述

有时候需要对数据进行综合描述,希望一次性得到多个统计量,则可以通过下面的方式实现。

或者,一次性想得到若干变量的统计结果,则可以运行如下代码,结果见表2.

表2 lwg和inc的描述统计

如果想对多个变量进行分组描述统计,则无需繁琐的逐步进行,用下面的方式非常方便,结果见表3。

表3 基于lfp和wc分组的lwg和inc的分组描述统计

甚至可以编写自己的函数来进行描述性统计,从而满足个性化的统计需求。

六、结论

从以上分析中可以看出,R语言是一款优秀的统计软件,可以轻松实现编程,能够方便快捷地实现个性化的统计需求。将R语言应用于教学,能够较好的激发学生的学习兴趣和动力,提高学生动手实践的积极性和能力。

猜你喜欢

描述性正态分布直方图
符合差分隐私的流数据统计直方图发布
虚构人名的内涵意义分析*——描述性理论面临的挑战和反驳
用直方图控制画面影调
基于对数正态分布的出行时长可靠性计算
正态分布及其应用
基于空间变换和直方图均衡的彩色图像增强方法
正态分布题型剖析
χ2分布、t 分布、F 分布与正态分布间的关系
一种基于英文网页描述性信息的摘要算法
基于直方图平移和互补嵌入的可逆水印方案