基于R软件的整群抽样案例教学方法

2018-09-03卢玉桂

大学教育 2018年7期

[摘要]传统的抽样调查课程教学过于注重理论推导，缺乏实际应用，以至于学生在学习过程中未能真正掌握其中方法，不懂得如何运用所学的方法解决实际问题。课题组对实际抽样时整群抽样的抽样与估计步骤进行了系统的讲解，并结合R软件完成了整群抽样的样本抽取与总体参数估计。通过案例教学，帮助学生掌握整群抽样的理论知识，并提高了学生运用R软件解决实际问题的能力。

[关键词]案例教学；抽样调查；整群抽样；R软件

[中图分类号] G642 [文献标识码] A [文章编号] 2095-3437（2018）07-0065-03

○、引言

抽样调查作为一门应用性、实用性很强的统计学科，是统计学类专业的专业必修课程。然而，传统的抽样调查课程教学过于注重理论推导，缺乏实际应用，以至于学生在学习过程中未能真正掌握其中方法，不懂得如何运用所学的方法解决实际问题。为此，候震梅（2016）[1]探讨了抽样调查课程实验教学改革的思路与途徑；张学新（2015）[2]提出一种抽样调查课程贯穿统计软件使用的教学改革方法；卢玉桂（2015）[3]提出应运用案例教学法进行抽样调查课程教学。

整群抽样具有实施调查便利、节省费用的优点，因而被广泛应用于调查中。但笔者在教授该知识点时，发现大部分学生无法真正理解与掌握整群抽样方法。因此，笔者拟在前人研究基础[4][5]上，结合多年教授抽样调查课程的经验，探讨如何利用R软件帮助学生更好的理解与掌握“整群抽样”抽样与估计过程。

一、整群抽样简介

整群抽样（cluster sampling）[5]是将总体划分为若干个群，然后以群为抽样单元，从总体N（总体群数）抽取n个样本群，并对样本群中的所有单元进行调查的一种抽样方法。整群抽样分为群规模相等和群规模不等两种情况。所谓群规模是指组成群的单元数量，群规模可大可小。群规模大，则估计精度差但费用省；群规模小，则可提高估计精度但费用也高。因此，一般而言，群规模不宜过大。本文主要介绍群规模相等的整群抽样（也称为等概率整群抽样），等概率整群抽样是指在总体N个群（初级抽样单元）中，每个群所包含的单元（二级单元）数皆等于M。

等概率整群抽样一般用简单随机抽样方法抽取群，此时抽样比为f=n / N，则总体均值[y]的无偏估计为：

二、群抽样的R软件实现

笔者在进行整群抽样教学时，发现多数学生学起来吃力，无法理解整群抽样与简单[?]随机抽样的关系，以至于产生厌学、不学等一些负面情绪。为了帮助学生更好的掌握整群抽样方法，笔者将通过文献[5]的例子，讲解整群抽样过程。

例某邮局该辖区共有5000户，并划分为500个群，则每个群有10户居民。为了解邮局管辖区内每个家庭的月平均定报份数及其95%的置信区间，运用整群抽样方法从500个群中抽取5个群进行抽样调查。

本例中，每个群的规模均为10，故为等概率整群抽样。因此，抽样方法为运用简单随机抽样从500个群中抽取5个群。因为是按照简单随机抽样抽取群的，所以每个群的入样概率均为5/500=1/100，又因为总体中的某个群一旦被抽中，则群内的所有单元全部入样。因此，每个总体单元的入样概率都为1/100，这也验证了群规模相等的整群抽样为何也可称为等概率整群抽样。

实施抽样调查时，抽样与估计是分开进行的，且先抽样后估计。整群抽样的抽样步骤可分为以下两步：

第一步：编制抽样总体数据框，即编制抽样框。

假设事先已获取管辖区内5000户住户的名录，并已划分为500个群。注意，本例中为简单起见，住户名录用数字编号代替，实际抽样时，应为真实名录，这样完成抽样后，才能根据抽中的名录清单，开展调查。

其R代码如下：

> a=rep（1：500，each=10）

> b=1：5000

> data=data.frame（“群号”=a，“住户ID”=b）

第二步：调用整群抽样函数cluster，完成抽样。

进行抽样前，首先需要下载并加载sampling包（抽样程序包），然后才可以调用整群抽样函数。整群抽样函数cluster（）的第一个参数为总体数据框，第二个参数为分群变量，参数size设定样本群数，参数method设定抽样方法，包括不放回简单随机抽样（srswor）、放回简单随机抽样（srswr）、泊松抽样（poisson）、系统抽样（systematic）4种抽样方法，description为逻辑型向量，取TRUE值，表示输出抽样信息。

其R代码如下：

> install.packages（‘sampling） #下载sampling包

> library（sampling）#加载sampling包

> n=5#样本群数

#调用整群抽样函数

>data.c=cluster（data，“群号”，size=n，method=“srswor”，description=TRUE）

Number of selected clusters：5

Number of units in the population and number of selected units：5000 50

#从总体数据框中提取样本数据

> data.c=getdata（data，data.c）

>data.c[1：20，]#显示前20个样本的信息

结果显示：整群抽样从总体群500中抽取了5个群，入样的群编号依次为72、140、146、430、460，且总体单元数为5000，样本单元数为50；整群抽样函数cluster（）返回被抽中单元的住户ID、群号、抽样单元编号（ID_unit）和入样概率（Prob）。

完成抽样后，将对入样的住户展开调查，获取相关样本数据，完成样本数据的收集。假设经过调查后，获取的样本数据为表2。

根据获取的样本数据，可开始进行总体参数的估计。整群抽样的估计步骤也可以分为两步：

第一步：估计的前期工作。

进行抽样估计前，需要下载并加载survey包（估计程序包），另外还需要加载一个grid基础包，才能开始进行抽样估计。另外，抽样估计前，需要调用svydesign函数定义抽样设计，但在使用该函数前，还需要设定每个样本的样本权重pw和fpc。其中，pw为入样概率的倒数N/n，即为500/5=100，fpc为总体群数N，即为500。其R代码如下：

> install.packages（‘survey）#下载survey包

> library（survey） #加载survey包

> library（grid）#加载grid包

> N=500#设定总体群数

> n=5#设定样本群数

> pw=rep（N/n，nrow（data1））#设定样本权重

> fpc=rep（N，nrow（data1））#设定fpc变量

> data1.c=as.data.frame（cbind（data1，pw，fpc））#合并样本数据框

> data1.c[1：5，]#显示前5行样本数据框

第二步：调用svydesign函数定义抽样设计，并完成估计。抽样设计函数svydesign（）参数id定义群变量，参数weights定义样本权重，参数data定义样本数据框，参数fpc定义fpc变量。

> d.c<-svydesign（id=～群号，weights=～pw，data=data1.c，fpc=～fpc）#抽样设计

> summary（d.c）#查看抽样设计

1 - level Cluster Sampling design

With （5） clusters.

svydesign（id = ～群号，weights = ～pw，data = data1.c，fpc = ～fpc）

Probabilities：

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.01 0.01 0.01 0.01 0.01 0.01

Population size （PSUs）：500

Data variables：

[1] “住戶ID”“群号”“ID_unit”“Prob”“订报数” “pw”“fpc”

> svymean（～订报数，d.c）#订报数的均值估计和标准误差

mean SE

订报数 2.02 0.1062

结果显示：订报数的均值估计值为2.02份，标准误差为0.1062，则订报数的均值估计值的95%置信区间为[1.8119，2.2282]。

三、结论

本文以一个简单的抽样案例，对整群抽样的抽样与估计过程进行了系统的讲解，并结合R软件完成了整群抽样的抽样与估计。通过运用案例教学方法进行整群抽样的课堂教学，不仅可以帮助学生理解与掌握整群抽样的理论知识，同时还可以提高学生灵活运用R软件的能力，以及运用R软件解决实际抽样调查的能力。为此，在进行抽样调查课程教学时，应注意运用实际案例和R软件演示相结合进行教学，这将有利于学生对抽样理论知识理解与掌握，同时提高学生运用R软件解决实际问题的能力。

[ 参考文献 ]

[1] 侯震梅. 《抽样调查》实验教学创新性研究[J]. 现代商贸工业，2016（10）：168-169.

[2] 张学新. 《抽样调查》课程的统计软件教学方法实践[J]. 宁夏师范学院学报，2015（6）：83-91.

[3] 卢玉桂. 案例教学法在《抽样调查》课程教学中的应用[J]. 亚太教育，2015（4）：104+93.

[4] 王伟，陈志军，徐辰武. 基于R语言的随机抽样方法及其应用[J]. 扬州大学学报（农业与生命科学版），2014（2）：77-81.

[5] 金勇进等.抽样技术：第四版[M].北京：中国人民大学出版社，2015.

[责任编辑：林志恒]