APP下载

非概率抽样专题研究

2019-10-21宁勐

科学与财富 2019年7期
关键词:滚雪球贝叶斯概率

非概率抽样包括目标抽样、时间地点抽样、滚雪球抽样、马尔科夫过程抽样、同班驱动抽样等。在计算、存储能力的限制下,全数据的获取还难以实现,抽样调查仍然将在一段时间内成为我们获取数据的重要方式,因此如何改进已有的抽样调查方法来适应大数据特点,就成为了我们必须解决的问题,而非概率抽样方法作为重要的抽样方法,在这个背景下就被广泛的使用。其中滚雪球抽样的应用最为广泛。

滚雪球抽样被广泛地应用于定性的社会学研究中。而就目前来看,国内学者利用滚雪球抽样进行的研究少之又少,而国外学者已经对滚雪球抽样进行了十分细致的研究。因此本文从国内和国外两个方面对滚雪球抽样的研究进行阐述。滚雪球抽样是一种可以获得有效估计量的抽样设计方法,该方法不仅允许个体提供有关自己的信息,而且提供其他相关个体的信息。传统方法是基于渐进理论对模型进行推论的,但在小样本的情况下,置信度的准确性是令人质疑的。

我国关于滚雪球抽样的应用并不多见,文献主要集中在米子川老师及他的学生所做的成果。米子川[14](2015)首次提出在滚雪球抽样中使用捕获再捕获抽样估计的方法来推断某些特定群体规模的方法,基于此方法对太原市某社区心脑血管病人的规模和用药情况进行估计,结果表明,滚雪球抽样通过捕获再捕获方法的模拟和估计,得到了更精确的推断结论。此方法对非概率抽样的滚雪球抽样进行进一步发展和推广。米子川、金勇进和程开明等学者对大数据时代下的非概率抽样方法进行了深入探究。米子川和聂瑞华[15](2016)将包含滚雪球抽样的多种非概率抽样方法与互联网数据产生的特点相结合,提出在互联网大数据背景下继续使用非概率抽样的思想,例如可以基于微博等社交网络产生的大量数据,将滚雪球抽样拓展到针对社会网络群体的数据搜集工作上。在此基础上,米子川和聂瑞华[16](2016)详细介绍了利用非概率抽样方法对社会网络人群抽样的研究现状,并将滚雪球抽样与其他非概率抽样进行了比较,在此基础上给出了作者的认知和应用的思考。作者认为,当需要在线上发起一项调查时,同伴驱动抽样可能将是一种较好的调查方式,因为它加入了二次激励的机制,而如果想要对社交网络中某一群体的特征做研究,考虑到网友之间的推荐关系可由已存在的“好友”关系所替代,借助网络技术就能达到搜集数据的目的,滚雪球抽样和同伴驱动抽样的效果是基本相同的。金勇进[17](2016)认为利用大数据进行抽样,很多情况下由于抽样框的构造比较困难,使得抽取的样本属于非概率样本,传统的抽样推断理论难以应用到非概率样本中,他因此提出了解决非概率抽样统计推断问题的基本思路:一是抽样方法的改进,可以考虑基于样本匹配的样本选择、链接跟踪抽样方法等,使得到的非概率样本近似于概率样本,从而可采用概率样本的统计推断理论;二是权数的构造与调整,可以考虑基于伪设计、模型和倾向得分等方法得到類似于概率样本的基础权数;三是估计方法的选择,可以考虑基于伪设计、模型和贝叶斯的混合概率估计。程开明[18](2017)等学者对大数据背景下还需要抽样的定论进行了辩证分析,他认为大数据与抽样的关系是互补的而非排斥的,在大数据背景下合理利用抽样技术能够更有效地开展数据搜集和分析,更好地释放大数据的能量,挖掘大数据的价值。还有学者Frank和Snijders(1994)从频率的角度,使用基于设计和模型的方法来估计隐藏人口的大小。 在本文中,我们考虑他们的图形模型,并从贝叶斯观点来解释估计隐藏人口大小的方法。通常,有关要估计的参数的先前信息是可用。 通过贝叶斯方法有效地使用这些信息可能会改进的估计量。 初始样品是在本文考虑的设计下进行选择的。

滚雪球抽样虽然应用广泛,它也存在一些缺点。比如,初始样本的选择往往不是随机的,随着抽样过程的进行,无法得到无偏估计;抽样过程倾向于一些愿意合作的对象,较为排斥的对象自然参与度较低;一些敏感度较高的问题,也会导致抽样过程难以进行下去。滚雪球抽样方法还需要不断的探索与推广。

参考文献:

[1]米子川.并发多样本滚雪球抽样的捕获再捕获估计[J].统计决策,2015(6):32-39.

[2]米子川,聂瑞华.大数据下非概率抽样方法的应用思考[J].统计与管理,2016(04):11-12.

[3]米子川,聂瑞华,卫军. 大数据下社交网络人群抽样方法文献综述[J].经济师,2016(3).

[4]金勇进,刘展.大数据背景下非概率抽样的统计推断问题[J].统计研究,2016,33(03):11-17.

[5]程开明,宋艺旋.大数据还需要抽样吗[J].中国统计,2017(11):10-13.

[6]李金昌.大数据与统计新思维[J].统计研究,2014,31(01):10-17.

[7]赵国栋,黄永中.网络调查方法概论[M].北京:北京大学出版社,2008.

作者简介:

宁勐(1993—),女,山西临汾人,山西财经大学2016届(统计学院)统计学.

猜你喜欢

滚雪球贝叶斯概率
第6讲 “统计与概率”复习精讲
滚雪球
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
滚雪球
贝叶斯公式及其应用
基于贝叶斯估计的轨道占用识别方法
滚雪球
一种基于贝叶斯压缩感知的说话人识别方法