APP下载

大数据背景下抽样方法与应用研究

2022-11-27

山东开放大学学报 2022年1期
关键词:信息研究

李 云

(山东开放大学,山东 济南 250014)

抽样调查是一种调查方法,它的发展理论和方法体系主要来源于概率论,已经发展得相当成熟。作为一种非全面发展调查分析方法,抽样调查在信息时代,一度成为政策制定、宏观调控的首选方法,对于整个社会、经济甚至政治活动做出了特别的贡献,它以最少的人力资源成本、最小的采样数据,在社会的很多不同领域的普查、某些企业产品的质量检测、市场经济调查等方面发挥了重要作用。[1]

进入二十一世纪以来,我国互联网信息技术的逐步发展、成熟,人们愈来愈发现一个现象:不管是线上的网络调查还是线下的市场调查,大数据调查技术随着它的不断成熟和低成本的特点,某些程度上越发受到了某些企业的青睐与信任,比如服务行业和营销企业,也就是说,大数据对传统的抽样调查的发展与推广产生了强烈的冲击。

一、抽样调查存在的必要性

大数据背景下,传统的抽样调查具有成本高,模式单一等缺点,但仍然具有存在的必要性。

(一)由研究总体的特征决定

1.研究总体具有无限的特征,不能进行全面的调查。例如,水是可再生的流动资源,如果我们调查研究某一地区的水质污染程度,要得到总体是根本不可能的。

2.研究总体具有有限的特征,由于它的有限性,表面上看起来,可以通过全面调查来实现,但很多调查却有很大的障碍,例如大规模的民意检测等。

(二)由不同的调查情形决定

1.受客观条件的限制。现阶段,在我国市场经济的社会大背景下,开展统计分析调查研究工作会受到某些客观因素的影响,比如调查目的、环境、条件等,只能将抽样调查数据作为首选的调查方式。例如人口普查,每10年进行一次,第5年开展1%人口抽样调查。

2.因果推断无可替代。很多问题研究的目的是研究社会现象以及背后的规律、因果之间关系的推断,统计数据调查的精髓也在于此。如果想要得到这种关系,我们必须减少其他因素对结果的潜在影响,进行翔实的实验设计,进而取样。由于无关、多余数据的影响使大数据的分析过程变得更加困难,因而抽样调查的因果推断功能优势明显。

3.数据分析和处理不是唯一的产能瓶颈。比如在工作中要对客户进行分类处理,如果按照客户服务回访的方式来分类的话,做全量回访,根本不可能完成,如果抽样,加上相关指标去训练完善模型,就可以达到把待分类的客户的行为数据来做模型的目的,因此抽样还是很有必要的。

二、大数据的优势与问题分析

(一)大数据的优势

大数据背景下,随着信息技术的进步,大量的数据资源涌出,在各个领域普遍存在。它带来的不仅是全新的思路、理念,也给统计调查的过程分析提供了从未有过的机遇。

1.提高调查质量。大数据可以保存原始信息,避免抽样误差和主观因素的影响,如影响调查技术和调查受访者意愿的整体轮廓,调查结果将有助于提高可靠性。除此之外,利用大数据的同步并发性,还可以通过缩短我们调查研究周期,增强社会调查的时效性。

2.降低每个阶段的调查成本。在大数据时代,许多数据可以通过多种渠道,如移动通信和互联网,从而减少了获取调查数据的成本获得,且相较于采样,它是操作更简单的传统方式。

3.扩大调查的整个体系。在大数据时代,国家级调查机构可以利用各种社会资源提取信息的信用和财产状况,可以开展更多、更详细的民生专项调查,不断完善调查制度,发挥灵活的国家调查机构的特点,充分展示“轻骑兵”的角色。

(二)大数据存在的问题

大数据时代的到来,最直接的影响就是数据收集能力发生了质的飞跃,海量数据源源不断产生,对抽样调查方式提出了挑战。本课题组经过综合对比分析,认为大数据收集和数据时代的处理,也存在一些问题,现归纳如下。

1.大数据忽略因果关系的问题

抽样调查方法强调的是用部分反映整体,大数据技术则强调的是用整体来反映整体。大数据采用的是全面调查的方式,也就是相当于普查的方式,它不是依赖于人工劳动,而是由计算机自动完成,虽然简单而重复,但由于计算机技术的发展,它显示了很强的生命力,对于抽样方法有很大挑战与冲击。另外,大数据技术不注重因果关系,这一点与抽样调查截然不同。大数据技术主张知道结果是什么就够了,没必要知道结果是什么原因造成的。有个说法,在大数据信息时代,要让数据可以自己发声。但是,让数据自己发声的观念本身没有错,这也是研究数据的一个目标,但是,如果重视因此得出相关的关系,而忽略因果关系的结论,这就存在了一定的问题,并且往往违背了科学性。

2.大数据中存在很多干扰信息的问题

大数据,顾名思义就是海量的资料与数据,这些数据来源于时时刻刻产生的信息,通过分析大数据可能会产生预料之外的效果。正因为它的量多,来源途径广泛,导致它的数据中存在很多无效、干扰的信息,而这些信息也会影响研究的最终精度。大数据的客观特点决定了它的精度,允许接收鱼目混珠的所有信息。可是大数据不可以放松数据质量、降低数据精度要求。因为大数据技术和抽样调查方法的数据来源截然不同,抽样调查是通过设计抽样方案、问题进行有效调查得到的真实数据,是建立在对问题的真实了解的基础上的。而大数据收集主要依靠摄像头、麦克风等采集工具,通过搜索网络中的关键词来获取、提炼、集成和整理相关数据。搜索可以利用各种搜索途径找到所需要的信息,提炼指的是在众多的信息中筛选提炼相关信息,集成是把提炼的数据,定制成个人资料数据库,按照自己习惯的分类方法分类,整理是定期对集成的信息进行删除、去重、归纳以及加标签,等等,以此来提升效率,通过整个流程可以看出,大数据获取的信息很大一部分来自关键词,但是在实际的数据收集中,研究的复杂问题并不能仅用个别关键词就能够真实反映。通过互联网关键词进行搜索所获取的大数据信息,往往不能代表所研究问题的全貌,有的甚至是大相径庭。

3.大数据等于全数据

虽然在某些情况下,收集大数据是整个人口的信息,而不是依赖于随机抽样,作为一个抽样调查,却不是网民的全部人口。例如,2018年,在对中国的部分企业进行国人对世界文化价值观的调查中,结果显示,只有40%的受访者表示可以借由网络来获取相关数据信息,但是通过电视来获取同样重要信息的比例则高达88%;[2]事实上40%的人,属于高学历、低年龄和白领等特征,因此它并不能代表中国社会人口的全体。显然,如果用这个群体的网络行为来作为中国人口的摄入偏好和舆论信息的话,就会存在很大的偏差。

4.大数据技术并非人人可用

绝大多数大数据的支持者认为这是比较容易得到,因为大数据是开放的,透明的。但是,在我国的很多企业,大数据相关信息会涉及个人信息隐私、商业机密或国家经济安全,因此在具体执行过程中,有时候我们要处理很多问题,比如侵犯个人隐私等问题,更重要的是,普通人根本无法得到许多涉及商业或政府管理行为的数据。另外,如果研究人员只能依靠政府公布寻找研究课题大量数据,而不是根据自己的需要设计学习计划,这将极大地限制了社会科学研究的发展。

5.大数据不等同于数据多样化

大数据的支持者认为,大数据背景下,大数据意味着数量庞大、来源广泛和功能多。然而,虽然它具有以上特点,但也改变不了只能进行记录人的行为的事实,它没有确切描述人的思维。在社会科学的研究中,许多研究重点是人的主观态度和价值观,如人际信任,社会正义的概念,政治效能,民族主义等。这些概念都是中国社会主义科学关注的重要因素理论分析问题,也是一个社会经济现象和个人信息行为的重要解释变量,但是大数据对测量这些主观信息情况,显得有些无能为力。

三、大数据信息背景为抽样调查带来的影响

(一)为数据采集工作拓宽了来源渠道

大数据信息背景下,很多被研究的数据信息不仅仅只是来源于常见的管理模式,许多企业获取数据的渠道有了很大的延展,也就是说,大数据时代,以往无法获取数据的渠道有可能实现有效的数据提取。首先,大数据时代下,数据采集的重要且明显的渠道是不容忽视的互联网和手机移动端;其次,数据采集的有效渠道也包括越来越广泛应用的数字化的行政商业记录;最后,某些消费痕迹的相关渠道,比如超市购物的收银系统、银行的某些收支记录等渠道逐步取代数据采集的现场进行调查的模式。另外,大数据背景对于抽样调查的数据采集带来了很多便利的可能性,比如降低成本,缩短调查的时间等。

(二)大数据的出现增强了抽样调查的发展活力

抽样调查是一种非常非常系统的、科学的数据处理方法。即便在大数据背景下,抽样调查依据具有强大的生命力,很多工作依旧需要进行人工调查。比如今日头条平台,2019年的数据,负责信息的审查与编辑的团队已经超过四千人,但还在继续招聘中,这说明,人工调查的重要性。[3]网络世界中,每天都在产生各种各样不安全的低俗内容,需要建立专业评估队伍,反馈调查结果。

(三)抽样调查可以有效弥补大数据的某种因果关系

抽样调查方法注重因果关系的探究,而大数据注重用数据来说话,用数据分析结果来说明问题。若运用抽样调查方法作为研究基础,从鱼目混珠的大数据中探寻关系和规律,选取非常具有代表性的样本对其进行深入分析、研究,得出所研究的大数据之间的因果关系,最终做到了研究事物之间联系的本质原因,同时实现“知其然”也知其“所以然”,这是在大数据缺乏因果关系分析的条件下,抽样调查可以补充做到的部分。

(四)抽样调查可以起到大数据数据分析的不具备的基础作用

也就是说,在大数据背景下,很多时候抽样调查可以为其研究、结果进行验证。在很多方面,抽样调查的效果更加明显,比如判断数据来源的安全性、数据结果可靠性、数据的质量保证等等方面。通过对大数据研究的有效验证,能够有利于及时发现问题、分析问题、解决这个问题,避免某些不好的影响。

(五)大数据可以为抽样框的及时更新提供某些条件

在传统条件限制下,面向样品的调查采样的最大问题是数据不完善,成本高、时效性差等,这是传统的抽样框更新和维护方法。而在大数据背景下,抽样框的及时更新维护,显得更加重要,数据更新的速度非常快,每秒钟都会增加无数条信息,需要对他们进行采集、整合、分析,进而转化为可以有效开发利用的数据。

四、正确认识大数据背景下的抽样调查方法

(一)抽样调查方法依然是数据分析的基础

如果没有互联网技术的迅猛发展,也就没有大数据相关研究的出现,而且如果运用大数据进行相关的分析,推演的基础还是定性和定量分析。研究人员普遍认为,数据之所以有用,不在于它的大小,而在于数据本身体现的价值,而这个说法也与抽样调查中对总体的价值要求基本相同。除此之外,还有很多相同点,比如二者的追求目标,都是以寻求最佳的问题解决方案为目标。除此之外,大数据可以起到管理的显微镜和望远镜的作用,也就是说,它不仅可以提供某些经验也能进行基本的应用决策,这一点与抽样调查也有异曲同工之妙,所有的调查分析肯定是为决策提供一个依据。例如,大数据发展之前,如果要开一个蛋糕店,进行选址之前,肯定需要进行调研,比如通过测量附近的人流量等信息,分析是否可以适合投资做蛋糕店,而这些基本的数据必须通过现场来蹲点来实现,而且在复杂、重复的工作中,可能存在很多不准确、不确定的一些造假行为,严重影响抽样的调查结果。而在大数据时代,这些工作都可以通过某些简单的功能来实现,比如对于手机定位的分析,从电信公司得到实时的交通流量等信息。但是,确定观测点需要前期的抽样调查的准备分析。

(二)抽样调查方法可以更加安全地应用在某些活动中

人类生活在数字化时代,每个生活细节都留有痕迹,而这些生活痕迹就是各类数据,比如某些社交数据,银行的收支记录、浏览网页信息、医疗保健、教育的培训等等。此类数据的特点是:存储周期会变长、使用的范围会拓展,并且会很容易涉及数据的泄露,因此大众会对会对数据是否安全提出质疑,质疑其信息的安全性,相比较而言,在这一方面,抽样调查更容易使人接收与受到欢迎,因为相关信息是征得本人同意,在自身允许之后的数据。因此,我们要对大数据的适用范围持有理性的态度,要有策略的运用,选择各自的优点展开相关调查。

(三)传统的抽样方法可以与大数据技术完美匹配

传统的抽样调查方法的特点体现在经济性、时效性、适用范围以及准确性上。调查的样本通常是总体单位中很小的一部分,工作量比较小,可以节约很多的时间和人、物、财力,使用经费较少;同样由于样本少,调查的时间也会缩减,可以把各个环节做细,误差较少。大数据技术的迅猛发展,给抽样调查技术带来了机遇,面对大数据,面对新的数据分析手段,抽样调查依然具有它的生命力,在新时达下,能够继续发扬其优点,规避其不足。

五、结论

大数据时代背景之下,大而全的数据源,先进的数据处理手段都对传统抽样调查提出了严峻的挑战。总之大数据有大数据的优势,小数据的抽样调查也有其独特的魅力和特点,在大数据时代两者缺一不可,为了达到比较理想的效果,大数据分析应与抽样调查相珠联璧合,紧密结合。

猜你喜欢

信息研究
什么是《清明上河图》,现在就带你研究
FMS与YBT相关性的实证研究
辽代千人邑研究述论
公司研究
谁说小孩不能做研究?
订阅信息
对周期函数最小正周期判定法的研究与应用
展会信息
信息
健康信息