大数据背景下抽样调查在政府统计中的作用
2023-01-09颜晨芳易艳春谢爱群李贝涵
颜晨芳 易艳春 谢爱群 李贝涵 尹 纳
(衡阳师范学院南岳学院,湖南 衡阳 421002)
信息技术飞速进步中,大数据技术已成为推动社会发展的重要因素,通过其获取信息的方式越来越多,速度也越来越快,人们对大数据的依赖在不断地增加,思维方式也随之在不断地发生变化。在大数据时代背景下,抽样调查作为政府统计工作中一种重要的调查方式,虽逐渐显现出了不足之处,但其在统计工作中依旧起着非常重要的作用,有着无可替代的地位。
1 抽样调查和大数据的相关概念
1.1 抽样调查的概念及其特征优势
抽样调查是在19世纪从概率论中逐渐发展起来的一项统计调查技术,在我国经历了漫长的发展变化历程。20世纪,我国明确要求调查体系要以抽样调查为主体。政府统计离不开抽样调查,抽样调查方法在政府统计工作中已普遍得到运用。从目前状况来看,抽样调查方法在政府统计中的地位,已经是政府统计的重要支撑。抽样调查在政府统计工作中是一种非常重要的统计方法,是当前统计调查信息获取的最佳方式。
1.1.1 抽样调查的概念
抽样调查方法是一种非全面调查方法,指通过从要调查研究对象的总体中随机选取一部分作为样本,然后根据所选取的这些样本开展调查分析,并把调查所得到的信息进行统计分析,进而对总体情况进行估计和推断的一种调查方式,其基本原理为概率论。实施抽样调查的大致过程包括确定调查总体、抽样框的确定和个体编号、选择调查样本、调查实施、测算结果、分析统计数据以及结果公布。此外,抽样调查可以按样本抽取的随机性分类,分为概率抽样和非概率抽样两类。其中,概率抽样中样本的个体被抽取的概率是相等的,而非概率抽样中样本的个体被抽取的概率是不等的。
1.1.2 抽样调查的优势
抽样调查有着严密的理论依据,其在世界各国的广泛应用充分说明了其特殊的应用价值,经过100多年的发展,其科学性已得到证明。我国在1994年2月的全国统计工作会议中决定采用抽样调查方法和全面调查方法相结合的方式。可知在最初时,抽样调查方法是作为政府统计调查方法被提出来的,且与全面调查相比,抽样调查能以最小的成本、最小的数据来获取所需的信息,有着经济性、时效性、灵活性等特点,能更节省人力、物力、财力和时间,且若组织得好,其效果完全可以达到与全面调查效果一致。在运用过程中,抽样调查的优势得到了充分的肯定,因此其在各种数据调查中被广泛应用。
1.2 大数据的概念及特征
随着数字生活空间的普及,大数据相关信息正呈现爆发式增长,大数据已经成为重要的生产因素。其通过采集大量的相关行为数据,帮助人们找到并了解目标信息,并以此对该目标的内容、形式、特点等进行研究与分析,以达到所需目的。
1.2.1 大数据的概念
“大数据”一词最早于2008年8月由维克托·迈尔-舍恩伯格和肯尼斯·库克耶在《大数据时代》一书中共同提出。大数据指广泛的信息资源和数据资料。大数据分析指所涉及的数据资料程度广泛,研究时直接采用所有数据进行统一分析的方法,而不是分类别进行分析。大数据的一大核心就是预测,例如银行信用贷会根据客户以前的消费习惯、收入能力去评估其能获得多少金额的贷款。这些预测之所以可行,就是因为它们建立在大量数据的基础之上,数据越多,预测越准确[1]。
1.2.2 大数据的特征
在当今信息技术飞速发展的时代,大数据得到了普遍的应用。大数据具有数据规模大、数据类型多样、数据处理速度快、数据价值密度低的特点。
(1)数据规模大
随着信息技术的高速发展,数据呈爆炸式增长,数据存储单位从GB到TB,而大数据最小的单位是PB(1 PB=1 000 TB),甚至有大企业的数据已经达到了EB级别(1 EB=100万TB),而人们平时常见的单位为KB、MB。由此可见大数据的数据存储和计算规模之大。
(2)数据类型多样
数据多样化指的是大数据处理的数据格式多样。数据可分为结构化数据和非结构化数据。传统技术处理的都是结构化数据,即二维表格模型。一串数据粘贴到Excel表格当中,形成明确的行和列,这样的数据就属于二维表格模型。而人们日常生活中产生的各种图片、视频、音频、地理位置信息等,没有明确的行和列,相当于TXT文件,这些数据的载体就是非结构化数据。当今时代数据的来源十分广泛,并且类型繁多,这就要求对数据的处理能力要达到新的高度。
(3)数据处理速度快
处理速度快、时效性高的特点是大数据与传统数据库最显著的区别。现如今,数据的产生十分迅速,每时每刻都在产生着大量的数据信息,这使得大数据需要及时处理大量的信息,从中选取有用信息,实时分析。例如2018年天猫“双十一”在2分05秒内交易额超过100亿元,数据源源不断地产生,大数据能基于当前产生的实时销售纪录进行计算和分析。
(4)数据价值密度低
互联网的广泛应用,使得信息数据无处不在,虽然产生的信息基数大,但其中真正可供利用的信息并不多,即价值密度与数据规模成反比。无用信息占比大导致信息可用率低,即价值密度低。如何提高数据价值密度,让程序自动提取有价值的信息,是目前大数据时代值得研究的问题[2]。
1.3 大数据时代下的抽样调查
随着大数据时代的到来,传统抽样调查方法的地位隐隐受到了撼动,同时抽样调查方法也面临着新的挑战和机遇。为了得到更好的统计数据和更科学的结论,可以“取其精华,去其糟粕”,结合大数据和传统抽样调查方法的优点,使它们相互融合和创新,以巩固抽样调查在政府统计中的地位,从而推动我国政府统计工作的发展进步。
1.3.1 大数据为抽样调查提供了更多的数据收集途径
大数据时代数据的收集不再局限于传统的模式,而是增加了更多的数据收集途径,比如对于一些传统模式中无法提取的数据,运用大数据技术能更好地对数据进行提取。在大数据时代,数据采集可以依靠互联网、手机和数字化行政商业记录等多种途径更好地获取想要的数据信息,现场数据采集的调查模式也可能会逐渐被超市收银系统、银行转账支付记录、在线支付账户等多种途径所代替。大数据为抽样调查的数据收集提供了极大的便利,节省了大量的人力、物力和财力,同时也极大程度地节省了时间。
1.3.2 大数据为抽样框及时更新和维护提供了方便的条件
在传统条件的限制下,抽样调查方法面临的最大困扰就是抽样框架不够完善。传统的抽样框更新和维护需要的成本高、时效性差,且存在较多缺点,而在大数据时代下,可运用大数据技术对信息的实时变化进行有效收集和整理,从而对抽样调查中的抽样框进行更新和维护。这种将一些数据转化为有效数据信息的方法,不仅能降低抽样框更新和维护的成本,而且还提高了抽样调查的时效性。
1.3.3 抽样调查可作为弥补大数据无法进行因果推断的有效方法
大数据重视相关性而忽略了因果关系,并且其自身无法推断出哪一种相关性是有意义的,哪些是无意义的,大数据所拥有的大量数据会使聚类过程变得困难,而抽样调查方法可以极大地弥补大数据的不足。抽样调查可作为挖掘和探测数据因果关系的工具,从杂乱无章的大数据中探寻数据间的规律和关系,然后选择具有代表性的样本对大数据进行深层次的分析。
1.3.4 抽样调查可以作为大数据分析比较和验证的基础
大数据的结果是从大量且混乱的信息中获得的,抽样调查可以用作比较和验证大数据分析结果是否可靠的工具。抽样调查在研究数据质量、判断数据结果可靠性、探索数据关系等方面效果显著。抽样调查可以有效验证大数据推理结论的可靠性,从而及时发现问题、分析问题和解决问题,以避免大数据中出现错误推断结论造成的不利影响[3]。
2 抽样调查的主体地位及其必然性
2.1 抽样调查方法在政府统计工作中的主体地位
早在1994年,我国明确要求建立以抽样调查为主体的新型统计调查体系,提出抽样调查与综合调查相结合的调查方法。之后我国又有相关法律法规规定,统计调查应以定期普查为基础,以定期抽样调查为主体,结合相关统计报告、数据分析等次要方式来收集和整合常规统计数据。随着我国经济的快速发展和科技的改革开放,抽样调查在更多领域得到广泛应用,在我国法律形式和应用层面上,其地位得到了充分的肯定。抽样调查在政府统计工作中的地位体现在以下几个方面:(1)抽样调查方法将是未来一段时间内我国政府统计工作中的主要调查方法;(2)抽样调查方法将全面渗透到各个信息计算领域和生产环节;(3)抽样调查方法将得到政府、企业、个人等统计系统的广泛推广;(4)在每次统计工作中都将以抽样调查方法与其他不同调查方法相结合的方式进行[4-5]。
2.2 抽样调查主体地位的必然性
在统计工作中,有着多种调查方法,但现阶段,统计工作受到多种因素的影响和制约。面对这种情形,抽样调查就成为主体的调查方式。同时由于其应用范围广泛,在一定层面上,恰好说明了它的主体地位的必然性。
2.2.1 客观条件的限制因素
在当前市场经济背景和大数据时代下,想要开展各种统计工作的目的和条件受到的限制非常大,因此只能将抽样调查方法作为主要方法。抽样调查方法在一定程度上大大避免了人力、物力和财力的浪费,并且提高了调查信息的时效性,抽样调查方法适用范围广,可用于各个领域和各种情况的调查,因此抽样调查自然成为首选的调查方法。
2.2.2 抽样调查因果推断的无可替代性
大数据更重视相关关系而忽视了因果关系。《大数据时代》这本书的观点指出,数据关系是一种相关关系而不是因果关系,它知道是什么,不需要知道为什么,得出的结论往往存在一定的问题。此外,大数据所拥有的大量数据会使聚类过程变得困难,而抽样调查方法可以弥补大数据的不足,是进行数据间因果关系分析的有效方法,因此抽样调查方法的因果推断能力是其他方法无法替代的。
3 抽样调查在政府统计工作中的作用
抽样调查被广泛应用于政府在农业、工业、生物、金融、物理、教育等多个领域的统计工作,究其原因,主要在于抽样调查具有明显的实用性、科学性和经济性等,在政府统计工作中起着非常重要的作用。
3.1 提高调查效率
在大数据时代,政府统计部门可以快速、高效地获取数据,减少统计工作中抽样调查的数据获取和处理时间。政府统计工作中抽样调查所要调查的个体单位只占总体单位的一小部分,所有获得的资料和数据等都可以进行快速汇总和分析,同时也方便政府调查统计人员按时、快速地获取调查结果。特别是在某些紧急时刻,需要有关数据信息时,抽样调查可以快速获取,此时抽样调查显得尤为重要,这也正是抽样调查的高效性和重要性的体现。
3.2 节约调查成本
政府统计中的全面调查往往要对调查对象中的所有个体进行调查,耗费的物力、人力和财力非常大,抽样调查则往往省去了全面调查中对个体逐一进行分析和计算的烦琐环节。因此,抽样调查相对于全面调查更节省物力、人力和财力,更进一步提升了数据处理的效率,能够节省出更多的时间。
3.3 提高调查结果的准确度
政府统计部门进行抽样调查时,在抽样调查的样本数较少的情况下,参与调查总结的工作人员也就较少,而这一部分人员均受过高度严格的训练,因而出现登记操作失误的可能性也就较小。在大数据时代下,数据经过层层记录,并且能毫无保留地呈现,因此可有效提高调查的质量和效果。例如,在调查消费者的满意度时,需要对所有消费者逐一了解、登记,在这一过程中,不仅会消耗大量人力、物力、财力,还有可能会使本来满意的消费者产生烦躁心情反而转变为不满意的情况出现,这样的情况会对调查数据的真实性造成一定的影响。而若采用抽样调查方法,将调查问卷放置在醒目的位置,由部分感兴趣有意向填的顾客自愿进行问卷的填写,这不仅能节省时间,而且更能保证数据的准确性,以达到更好的改进目的,最终提高消费者的满意度[6]。
3.4 减少对样本的破坏
由于抽样调查具有实验无破坏性的特点,所以在政府的日常统计工作中,测量或试验某些事件时,对其调查对象本身具有巨大的破坏性的情况下,往往采用抽样调查的方法以减少对样本的破坏。例如,政府进行森林资源调查时,需要调查的因素非常多,且数据量庞大,然而在实际调查中,由于某些样本所处的地理位置复杂,政府调查人员不能或者难以进入,导致收集到的数据不够全面、完整。不仅如此,在收集某些森林资源时,还可能对生态平衡造成不可逆的伤害和影响。因此在这种情况下,一般采取抽样调查方法进行数据的收集和分析。
3.5 缩减人才和设备消耗
在政府统计工作的某些事件的调查中,由于调查对象或者调查因素的限制,必须通过受过高度严格训练的工作人员或者专用的设备来获取所需的数据,而这种受过高度严格训练的人才或者专用的设备在数量上是有限的,因而基于抽样调查具有难度小的特点,一般采用抽样调查方法,能够大大缩减人才和设备的消耗。
4 如何利用大数据技术提高政府统计工作的效率
4.1 提升统计大数据人员的职业素质,为统计大数据提供人才保障
大数据时代对各行各业的人员都提出了更高要求的职业素质,特别是统计人员。很多政府统计人员不是统计相关专业毕业的,甚至有些人不懂统计知识,也不懂计算机软件,因此必须加强对统计人员的培训,提高其统计软件应用能力,使其掌握对大数据进行搜集、筛选、整理和分析的方法,经常性进行统计大数据专项培训。同时,政府统计部门还要大力引进更多的大数据发掘、整理、加工和分析人才。当下,青年干部在这方面相对于年长的干部来讲,有着更强大的能力和技巧,对计算机的操作也更加熟练,可以利用其优势所在,由青年一代对这方面进行技术的指导与主导,形成由青年一代带领突破现代技术应用,上级领导来把控的一种阵型[7]。
4.2 拓展数据收集途径,为抽样调查提供数据方面的支持与便捷
在大数据时代,很多的数据可以利用现代计算机技术,通过支付记录、通信记录、行程记录、行政记录等多种渠道获取,并可以利用统计学的相关知识,对数据进行分析和处理。这样大大地增加了数据信息获取和收集的渠道,改变了政府统计部门的工作形式,从而降低数据调查过程中的成本,并提高调查工作的效率和质量,还可以避免人为的误差和影响,同时提高调查数据的可信度。相对于传统的政府统计调查数据获取方式,大数据的操作更简单和便捷,数据获取也更方便且准确。目前大数据技术被广泛应用,政府统计部门的工作人员应调整工作方式和方法,改变数据收集的方式,将大数据技术融入政府统计工作,为数据的收集提供更多的渠道,帮助统计工作人员进行数据的采集。
4.3 开发更多的统计软件,提高统计效率
现有的SPSS、SAS、STATA等统计软件,主要是用来提升数据处理效率的,但若要结合大数据技术进行应用,其在技术方面还有所不足,比如在存储和传输方面,还需要进一步提升,且又因为这些软件的操作都比较复杂,要想在基层进行推广和使用是比较困难的。就当前情况来说,如果能在这些统计软件的基础上,简化操作步骤,并增强对数据的存储和传输功能,开发出一种功能更全面的统计软件,这样,这个统计软件可以说是一个数据的存储和处理中心,也就是所谓的数据中心,能够达到大数据在统计工作的统计软件中运用的目的,从而提高数据统计、传输、分析和处理的效率[8]。
5 结语
抽样调查的科学性强,能减少对样本的破坏,并且其应用范围广,适用于各个领域和各种问题的调查,同时还可作为弥补大数据无法进行因果推断的有效手段,因此抽样调查成为我国政府统计调查工作中的首选调查方法,并在我国政府统计中依旧起着非常重要的作用,有着无可代替的地位。在当今的大数据时代下,要努力抓住调查工作发展的机遇,通过与现代技术的有效结合,使抽样调查方法的效率更高、数据更准确、成本更低,为我国政府统计工作的进步提供更多的可能和更有力的支持。