APP下载

创业活动态势电话调查的方法研究

2012-07-23徐秋艳

统计与决策 2012年2期
关键词:估计量网段电话号码

徐秋艳

(石河子大学 商学院,新疆 五家渠 831300)

0 引言

在我国建设小康社会的进程中,创业活动的态势理所当然地成为国家和地方各级政府关注的焦点之一。描述创业活动态势最基本的统计指标叫做“全员创业活动指数”。“全球创业观察项目”的有关文献[1]~[5]中给出它的定义是:18~64岁的成年人中创业者的人数所占的百分比。所谓“创业者”,指的是符合下列3种情况中某一种情况的人:(1)自己独自或者是与他人合作(不一定是发起人,可以只是参与者)创办了一个初生企业(初生企业指自成立后运作时间不超过3个月的企业);(2)自己独自或者是与他人合作拥有一家新企业(新企业指运作时间在3个月以上,42个月以下的企业),并且本人为这个新企业的管理者;(3)自己独自或者是与他人合作为雇主开展一项新生意或建立一个新企业(或初生企业)。

显然,创业活动首先表现为个人的行为,观察创业活动态势应当以所研究地区的全体18~64岁的成年人做为调查对象总体。只要对被调查者设置适当的问项,便可筛选出其中符合创业者条件的人,从而计算出全员创业活动指数。不过,此种调查不方便也无必要进行全面调查。合适的选择是抽取概率样本做抽样调查,用样本来估计总体的全员创业活动指数。

抽样调查的方式可以考虑以电话网络为基础,用随机拨号的方式抽取样本,在计算机辅助下进行电话调查;也可以考虑从住户名单中抽取样本,采取派员访问的方法做调查。文献[1]建议,在电话网络覆盖率达到85%以上的国家(地区),采用随机拨号的电话抽样调查方法,但是对具体做法未做进一步说明;另外,已完成的我国创业观察报告[2]~[5]也只是公布了观察者所算出的“全员创业活动指数”数值,没有说明数据的获取方式和指标的估计方式。

本文将就随机拨号电话抽样调查,讨论有关样本的抽取以及估计量的构造的一些问题。关于在计算机辅助下进行电话访问的技术,已有文献[6]专门做了介绍。

1 抽样框的构造

目前我国大多数地区同时由固定电话和移动电话两种电话网覆盖,在这种情况下,怎样构造抽样框(只使用一种电话网还是将二者结合)?

考虑到手机通常由个人使用(而不是多人共用),加之目前我国许多成年人都使用手机,因此,以移动电话网为基础构造抽样框是一个较好的选择。

但是,目前我国的成年人中有些人并没有配备手机,在他们的家中安装有固定电话,如果只从移动电话网中抽取样本,就会把这部分人遗漏。考虑到这种情况,在使用移动电话抽样框的同时,还应该同时建立固定电话抽样框做为补充。

那么,只使用固定电话抽样框而不使用移动电话抽样框是否可以呢?这样做有两个问题。一是,有的家庭由于家庭成员都配备了手机,因而撤销了固定电话;二是,在做电话访问的时候,固定电话面对的是一个整个的家庭,而创业情况调查要面对每一个成年人,接听固定电话的人未必能够把其他家庭成员有关创业的问题回答清楚。所以,还是将固定电话抽样框和移动电话抽样框二者相结合来抽取样本较好。

同时使用固定电话抽样框和移动电话抽样框,当一个家庭中既拥有固定电话又拥有移动电话的时候,就造成了两个抽样框的重叠。应当怎样处理这种情况呢?

笔者建议,可以把18~64岁的成年人调查对象总体划分为“手机拥有者”和“不拥有手机的固定电话拥有者”两个互斥的层(简称为“手机层”和“固话层”)。在这里,第一,我们把不拥有任何电话设备的18~64岁的成年人忽略不计(假定总体中没有这种成员);第二,我们所说的“移动电话”专指手机,而不考虑小灵通;第三,同时拥有手机和固定电话的人划入“手机拥有者”层。

为实现对“手机层”和“固话层”的分层抽样,实际操作时,一方面进行手机的随机拨号抽样;另一方面进行固定电话的随机拨号抽样。其中在进行固定电话的随机拨号抽样时,特别对于被抽到的家庭,将其中拥有手机的成员剔除,只对家庭中不拥有手机的18~64岁的成年人成员做调查。

2 随机拨号抽取样本

2.1 在“手机层”随机拨号抽取样本

手机号码由11位数字组成。第1~3位是网段号,表示手机所属的服务商,130~133表示中国联通通信公司,134~139表示中国移动通信公司;第4~7位是地区代码,一个地区在一个网段号下,可能只拥有1个地区代码,也可能拥有不止1个地区代码;第8~11位是用户号码。

在一个指定的地区中随机拨号抽取样本的方法是:将每一个网段号与该网段号下面的该地区的地区代码分别一一结合,组成“网段号+地区代码”复合标识组。根据总样本量的要求通盘考虑,预先确定在每一个“网段号+地区代码”复合标识组应当抽取的18~64岁的成年人人数。在“网段号+地区代码”复合标识组,生成一个4位的随机数,用其充当末尾4位(第8~11位)手机号,将这个随机数与前面的网段号和地区代码连在一起形成一个随机手机号码,然后用这个随机手机号码拨打电话。

这里进一步做三点说明。(1)产生4位随机数的方法。分别在每一个数位等可能地随机抽取0、1、2、3、4、5、6、7、8、9中的一个数字,把4个数位分别产生的4个随机数连在一起便形成了一个4位的随机数。(2)“废号”的定义及遭遇“废号”的处理办法。拨打手机号时所谓“废号”指的是,所拨打的随机电话号码为空号,拨打3次均为忙线,拨打3次均无人接听,不符合成年人定义,拒绝回答,等等。遭遇“废号”时,须产生一个新的随机手机号码另行拨号。(3)抽样的终止规则。在一个“网段号+地区代码”复合标识组停止拨打电话的规则是,直到有效电话号码(即,非废号)的个数达到预先确定的在本“网段号+地区代码”复合标识组应当抽取的18~64岁的成年人数目时为止。

2.2 在“固话层”随机拨号抽取样本

固定号码由长途电话地区号、局号、用户号3部分组成。长途电话地区号和局号的数字位数在不同的地区不完全相同,用户号在所有的地区都是4位数字。

在“固话层”随机拨号抽取样本的方法是:(1)由长途电话地区号和局号组成“长途电话地区号+局号”复合标识组。(2)根据总样本量的要求通盘考虑,预先确定在每一个“网段号+地区代码”复合标识组应当抽取的18~64岁的成年人人数。然后根据粗略估计的平均每一个家庭不拥有手机的18~64岁的成年人人数把上述应该抽取的人数折算成应该抽取的家庭数。由于对于含一定人数的样本,以家庭为单位抽取较之以人为单位抽取效果差,所以我们确定的应该抽取的家庭数须比前面折算的结果再多些。(3)在“长途电话地区号+局号”复合标识组,生成一个4位的随机数,用其充当用户号,将这个随机数与长途电话地区号+局号连在一起形成一个随机电话号码,然后用这个随机电话号码拨打电话。(4)“废号”的定义及遭遇“废号”的处理办法。拨打固定电话号码时所谓“废号”指的是,所拨打的随机电话号码为空号,拨打3次均为忙线,拨打3次均无人接听,系传真机号或企业事业机关单位号,家庭中没有18~64岁且无手机的成员,拒绝回答,等等。遭遇“废号”时,须产生一个新的随机手机号码另行拨号。(5)抽样的终止规则。在一个“长途电话地区号+局号”复合标识组停止拨打电话的规则是,直到有效电话号码(即,非废号)的个数达到预先确定的在本复合标识组应当抽取的家庭数目时为止。(6)对于有效号码,对其家庭中所有不拥有手机的18~64岁的成年人都做调查。考虑到不拥有手机的18~64岁的成年人一般不会是创业者,而对于非创业者的问项,他人代为回答通常没有困难,因此,对于不在家的非创业者成员,其调查问项可由他人代为回答。

3 有关的符号

我们约定,把观察范围规定为省(自治区、直辖市)。于是,调查对象总体就是某一个省(自治区、直辖市)中的全体18~64岁的成年人。与调查任务有关的符号定义如下:

Y——18~64岁成年人总体中的创业者人数;

X——18~64岁成年人总体总人数;

R——18~64岁成年人总体的全员创业活动指数,R=Y/X;

Yh——手机层(h=1)创业者人数,固话层(h=2)没有手机的创业者人数;

Xh——手机层(h=1)18~64岁成年人人数,固话层(h=2)没有手机的18~64岁成年人人数;

Yhk——h=1层中k“网段号+地区代码”复合标识层中的创业者人数,h=2层中k“长途电话地区号+局号”复合标识层中没有手机的创业者人数;

Xhk——h=1层中k“网段号+地区代码”复合标识层中18~64岁成年人人数,h=2层中k“长途电话地区号+局号”复合标识层中没有手机的18~64岁成年人人数;

y1ki——手机层中k“网段号+地区代码”复合标识层中第i人是否为创业者的指示性标志(y1ki=1表示该人为创业者,y1ki=0表示该人不是创业者);

y2ki——固话层中k“长途电话地区号+局号”复合标识层中第i家庭中没有手机的创业者人数(y2ki=0,1,2,3,…);

x1ki——对手机层中k“网段号+地区代码”复合标识层中第i人进行18~64岁成年人计数的指示性标志(x1ki=1);

x2ki——固话层中k“长途电话地区号+局号”复合标识层中第i家庭中没有手机的18~64岁成年人人数(x2ki=1,2,3,…);

Nhk——hk交叉层中有可能拨打的全部随机电话号码数目;

nhk——在hk交叉层中进行随机拨号抽样时,至抽样终止所拨打的随机电话号码个数;

——在hk交叉层中进行随机拨号抽样时,至抽样终止所获得的有效电话号码个数。

4 全员创业活动指数估计量的构造

由于全员创业活动指数R=Y/X,而Y=Y1+Y2,X=X1+X2,所以,要估计全员创业活动指数,先要分别估计手机层创业者人数、手机层18~64岁成年人人数、固话层没有手机的创业者人数、固话层没有手机的18~64岁成年人人数这4个指标。

4.1 手机层18~64岁成年人人数X1的估计

(1)手机层与k“网段号+地区代码”复合标识交叉层18~64岁成年人人数X1k的估计

如果把忙线、无人接听、拒绝回答的机主有可能是18~64岁成年人这种情况忽略不计,那么,可以粗略地说,该交叉层中的有效电话号码数目就是该交叉层中18~64岁成年人数目。这个数目等于该交叉层中有可能拨打的全部随机电话号码数目N1k与全部随机电话号码数目中有效电话号码数目所占的比例的乘积。这里,N1k是从0,1,2,3,4,5,6,7,8,9这10个数字中取4个的可重复排列数104,而有效电话号码在其中所占的比例用逆抽样得到的样本来估计,这可以引用文献[7]中给出的总体比例的逆抽样样本无偏估计量表达式。于是,我们得到X1k的下列估计量

(2)手机层18~64岁成年人人数X1的估计

手机层18~64岁成年人人数X1的估计量只要将手机层中所有“网段号+地区代码”复合标识层得到的估计量式(1)求和即可

4.2 手机层创业者人数Y1的估计

(1)手机层与k“网段号+地区代码”复合标识交叉层创业者人数Y1k的估计

通过逆抽样所获得的有效电话号码数目n∗1k可以看作用普通的正抽样方法从该交叉层总体X1k个有效电话号码中抽取出来的简单随机样本。于是,Y1k的估计量可表式为

式(3)是我们十分熟悉的用简单随机样本估计总体总值的计算公式,只不过,公式中所需要的总体单位数目(在我们的问题中是X1k)现在不得不使用它的估计量。

(2)手机层创业者人数Y1的估计

把式(3)在手机层中对所有的“网段号+地区代码”复合标识层求和,便得到所需要的估计量

4.3 固话层18~64岁成年人人数X2的估计

(1)固话层与k“长途电话地区号+局号”复合标识交叉层18~64岁成年人人数X2k的估计固话层的抽样所用的抽样单位是家庭,它是由没有手机的18~64岁成年人组成的群(手机层的抽样单位则是个人)。

为了在整群抽样下估计X2k,先要知道在所研究的交叉层总体中由没有手机的18~64岁成年人组成的家庭的数目,我们把它记作显然,实际上也就是所研究的交叉层中固定电话的有效电话号码数目。与之相对应的该交叉层中全部随机电话号码数目N2k是104。仿照式(1),写出的估计量

在式(5)的基础上,写出X2k的估计量为

(2)固话层18~64岁成年人人数X2的估计

固话层18~64岁成年人人数X2的估计量只要在该层将式(6)对所有的k求和即可

4.4 固话层创业者人数Y2的估计

(1)固话层与k“长途电话地区号+局号”复合标识交叉层创业者人数Y2k的估计

仿照式(6)写出Y2k的下列估计量

(2)固话层创业者人数Y2的估计

仿照式(7)写出Y2的下列估计量

4.5 省(自治区、直辖市)全员创业活动指数R的估计

(1)省(自治区、直辖市)18~64岁成年人人数X的估计

(2)省(自治区、直辖市)创业者人数Y的估计

(3)省(自治区、直辖市)全员创业活动指数R的估计

5 估计全员创业活动指数的估计量R̂的方差

文献[8]中给出了写出比率估计量的方差以及这个方差的估计量的一般法则。为应用这个法则,我们应该先写出式(12)的分子也就是式(11)的方差的估计量,然后对所写表达式中的观察值按照法则的规定进行必要的代换,这样就得到了的方差的估计量,将其除以,便得到的方差的估计量。可见,我们需要先讨论式(11)的方差的估计量,为此,又需要先讨论其中的几个组成部分的方差的估计量。

5.1 的方差的估计量

是式(11)的一个组成部分,它由式(1)定义,是用逆抽样样本构造的手机层中的第k“网段号+地区代码”复合标识层中有效电话号码数(也就是18~64岁成年人人数)的估计量。根据文献[7]中给出的结论,它的方差的估计量为

5.2 的方差的估计量

是式(11)第二个加项中的组成部分,它由式(5)定义,是用逆抽样样本构造的固话层中的第“k长途电话地区号+局号”复合标识层中有效电话号码数目N2∗k的估计量。仿照式(13),我们写出它的方差的估计量为

5.5 的方差的估计量

5.7 的方差的估计量

分别对式(16)和式(19)就所有的k层求和,然后再把这两个求和结果相加,便得到Ŷ的方差的估计量

5.8 X的方差的估计量

上面我们写出了式(12)的分子也就是写出式(11)的方差的估计量,它是式(20)。现在对所写表达式中的观察值按照法则的规定[8]进行某些代换,以便得到的方差的估计量。

在式(20)中,我们把y1ki代之以,把样本均值看作总体均值将其代之以之后再用样本均值估计这个结果中的;把y2ki代之以把样本均值看作总体均值将其代之以之后再用样本均值估计这个结果中的。经过所有这些替换以后,得到XR̂的方差的估计量。它是

5.9 的方差的估计量

将式(21)除以,得到的方差的估计量。

[1]Global Entrepreneurship Monitor[EB/OL].http://www.gemconsortium.org.

[2]姜彦福,高建,程源,邱琼.全球创业观察2002中国报告[M].北京:清华大学出版社,2003.

[3]姜彦福,高建,程源,邱琼.全球创业观察2003中国及全球报告[M].北京:清华大学出版社,2004.

[4]高建,程源,李习保.全球创业观察中国报告—基于2005年数据的分析[M].北京:清华大学出版社,2006.

[5]高建,程源,李习保,姜彦福.全球创业观察中国报告(2007)—创业转型与就业效应[M].北京:清华大学出版社,2008.

[6]谢邦昌.计算机辅助电话调查[M].北京:中国统计出版社,2001.

[7]冯士雍,倪加勋,邹国华.抽样调查理论与方法[M].北京:中国统计出版社,1998.

[8][美]W.G.科克伦.抽样技术[M].张尧庭,吴辉译.北京:中国统计出版社,1985.

[9][美]Leslie Kish.抽样调查[M].倪加勋主译.北京:中国统计出版社,1997.

猜你喜欢

估计量网段电话号码
含单调约束的广义回归估计量
欢欢家的电话号码
最小二乘估计量优于工具变量估计量的一个充分条件
单位遭遇蠕虫类病毒攻击
配置局域网访问方式
可变编组动车组制动系统TCN网络信号传输需求研究*
不能忘记的电话号码
浅谈估计量的优良性标准
使用变异系数和Kurtosis系数的双辅助变量的比估计
三层交换技术在大型医疗设备互联时的应用