简述抽样调查在“大数据”时代下的意义
2016-01-25潘利明
潘利明
摘要:本文通过简述抽样调查的统计学意义,分析抽样调查在基层统计部门调查中的积极作用及工作地位,在大数据时代下,抽样调查如何适应新形势,如何巩固抽样调查在统计工作的价值地位,有效的展开抽样调查工作的一些建议及未来设想。
关键词: 抽样调查;大数据;意义
中图分类号:C811 文献识别码:A 文章编号:1001-828X(2016)001-000-01
我国早在1994年就已经明确要建立以抽样调查为主体的新统计调查方法体系,在全面展开抽样调查的20年中,抽样调查的统计方法在所有政府统计领域均有不同程序涉及,而且,在市场调查监测、社会多元化调查等方面同样得到了普遍的应用。从目前抽样调查在社会统计中的实际适用范围可以看出,我国的政府统计工作已经离不开抽样调查方法的应用,我国的统计调查方法体系已经以抽样调查作为重要支撑。
一、抽样调查的统计学含意
抽样调查是一种有严密理论依据的科学的调查方法,其理论与方法体系已经相当成熟,抽样调查作为一种非全面调查方法,能在世界各国得到广泛应用充分证明是有其特殊性的应用价值的。抽样调查方法产生100多年来,理论得到了全面发展,实践得到了充分肯定,它的经济性、准确性、灵活性和快速性等优点在实际统计工作中受广泛认可。
从统计学的角度来看,抽样调查是按照随机原则从总体中抽取部分单位进行观察,并根据观察结果推断总体的一种调查方法。在抽样调查的方法形成过程中,不难看出,抽样调查的理论原理是概率论,概率论中诸如中心极限原理等一系列理论,为抽样调查提供了科学的依据。
那么基于概率统计学的特点,抽样调查从总体中各单位都有一个指定的概率被抽取,坚持随机原则,从数量上推断总体,即以样本的估计值来推断总体有关参数,并可以控制抽样调查误差的大小。那么,通过抽样调查在社会实践的应用,抽样调查在统计工作及其它普查调查中优势明显,首先是其在经济性、时效性、准确性和灵活性上的优势;其次是抽样调查兼有典型调查和全面普查调查的作用;抽样调查不仅可以解决全面普查调查无法或很难解决的问题,也可以通过抽样调查数据补充和订正全面调查的结果,充分利用抽样调查的抽样数据对生产过程中产品的质量进行检查和控制,从而实现对总体的某种假设进行检验。
由于抽样调查方法灵活,在诸多调查中可以小数据时代下以最少的人力成本,最小的采样数据来获取更多有价值且有深度的统计信息。在基层统计工作中,夏秋粮产量、畜牧业产量、居民消费价格、居民收支调查等均采用抽样调查方法进行。我们也可以看出,以上抽样调查的数据得出的结果同样是关乎民生的最要数据,也可以看出抽样调查在统计工作中的实际地位不可小觑。当然,每一种调查方法都存在着一定的缺陷,抽样调查是在不可全面收集和分析全部数据的情况下做出的统计学选择,调查结果的有效率依赖于并取决于采样的绝对随机性。
二、大数据在统计工作的应用
从大数据(big data)的意义本身来看,它是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
在中国,由于数据技术的突飞猛进发展,可以说我们迎来了大规模生产、分享和应用数据的时代。从中央到地方,从理论建设部门到方法实践基层,大数据话题已经成为桌上的必研话题。2015年9月,经李克强总理签批,国务院印发了《促进大数据发展行动纲要》,全面系统部署我国大数据发展工作。
可以看出大数据不论对产业环节的实践者还是对公共服务部门都具有极具诱惑力的价值。经过多个部门收集汇总的庞大数据库就像一座待开发的宝库,当它的价值人们无法用常规的方法进行分析和破解其中源由时,大数据就会章现其本质的能量,实现源源不断的数据分析输出。统计学科本身在大数据时代,也面临着诸多机遇与挑战。而且不仅仅是统计学科,诸如经济学、政治学、社会学和许多科学门类都将发生质的变化,可以说引进大数据分析,将直接影响人类的价值体系、知识体系和生活方式。
大数据建立后,其基于相关关系分析法基础上的核心预测分析将进一步引申统计工作。在统计实践中,部门收集统计数据后,对调查统计的的挖掘与开放功能滞后,信息量庞大但无法取得相对数据推断结果。那么,在大数据处理时代到来后,其要解答全体不要抽样,要效率不要绝对精确,要相关不要因果解决“是什么”而不是“为什么”,可以让统计成果实现由量到质的转化。
三、抽样调查与大数据是否可以实现互相融合
从二者对实现未来目标的功能上讲,抽样调查是注意抽样调查,大数据则是全面记录。历经考量的抽样调查具有科学性、代表性、准确且权威的特性;而大数扰具有不确定性,较强的复杂性。具体的统计实践中,可以说大数据与统计数据是相互佐证的,但最终实现的远景预测却差异较大。
以城市私人汽车拥有量指标来举证,抽样调查显示我市城镇居民每百户低收入者中拥有汽车19.5辆,高收入中拥有25.1辆。但经过大数据汇总却得出,我市总人口45.2万人,全市每百户拥有汽车25.1辆。很明显,抽样调查数据更为精准,也更加容易表达其要表达的民生指标的初衷。
可以看出大数据数据量大的同时,有时并不能能观测到总体的具体现象。有的时候,总体是可测的。但多数时是无可预测的,这时统计学的调查方式就是必须要使用的,它帮我们从数据里还原出数据背后的真实,如同感官将显象背后的物自体呈现给人类理性。所以,离开统计学的大数据将失去可靠的基础保障。
随着数据挖掘技术的发展,数据的获取自然会越来越容易,但统计学作为从数据中读取信息的科学,应该永远和获取数据的学问相伴相生。
综上所述,统计学抽样调查等统计调查方法取得的各种各门类的数据间有一依带水的紧密关系,现实中大数据与统计数据是互为佐证的,特别是当前社会民众越来越关注民生指标,也有提出对传统抽样调查不能代表全面数据分析的不同观点,特别是国家加大转移支付力度,各种惠农补贴、社会保障、财政专项资金扶持等总量指标一目了然,抽样调查取得的数据也将进一步受到考验和冲击。那么,在大数据时代下,抽样调查与大数据应该实现相互验证,互为补充,统计各部门要积极采取有效措施,加强大数据的开发与研用,实现统计数据衔接,更大程序地提高统计调查数据质量,全面放开获取数据的新途径,认识并掌握大数据,研判和分析大数据,全面促进统计抽样调查与大数据融合与创新,让抽样调查进一步走向深入,在基层统计中发挥更积极的作用。