大数据背景下定量社会研究方法的创新
2021-11-26何汇江
何汇江
(中原工学院,河南 郑州 450007)
一、导论
随着信息技术的发展和互联网的普及,人类社会正进入一个新时代,即大数据时代。正如哈佛大学社会学教授加里·金所说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”[1]大数据是一场革命,而大数据之所以是一场社会革命,是因为它使用了新的工具来收集更加广泛的资料,而新工具在本质上是一种数据收集方法和分析方法。
社会研究方法是借助于收集到的资料对社会现象进行研究的一种方法,由于大数据对资料收集以及分析方法的影响,大数据也必然会对社会研究方法产生影响。社会研究方法虽然有定性研究与定量研究两种取向,但是一直以来基于实证主义方法论的定量研究始终占据主导地位,社会研究方法更加强调定量研究。在定量社会研究方法中,涉及定量资料的收集和分析,因而大数据在社会研究方法中的应用也主要体现在数据资料的收集和分析环节。
大数据时代已经来临,相关文献对于大数据背景下定量社会研究方法创新的研究可以从以下两个层面来概括。其一,认为大数据会从根本上改变传统社会研究方法的范式,导致社会研究范式从传统定量社会研究的“理论假设驱动”模式走向大数据的“数据驱动”模式,进入到以数据挖掘为核心方法的研究范式[2],大数据背景下社会科学研究数据驱动型学术研究将成为社会科学研究的主流[3],大数据计算取代社会模拟成为计算社会科学的核心议题[4]。大数据对传统社会研究方法的冲击是根本性的,定量社会研究方法的范式需要重构与再造。其二,认为大数据只是改变了数据资料收集和分析的方法,大数据是社会科学研究的新工具[5],大数据并不能从根本上改变传统社会研究方法的范式,大数据背景下定量社会研究方法的创新也是整个研究过程中的阶段性创新。具体表现在两个方面:一方面是大数据对抽样方法进而对获得样本的影响上。大数据背景下抽样调查面临严峻挑战[6],但大数据无法完全替代抽样调查[7]。另一个方面是分析大数据在社会研究方法数据收集和分析阶段应用中的优势和局限性。大数据特征与社会科学研究密切相关[8],大数据有可“计算”的边界,因而大数据计算所得出的结论并不一定是绝对客观的真理,可能还需要通过传统社会研究方法加以补充和验证[9],因此大数据需要与传统社会研究方法的小数据方法相结合[10]。
综合以上相关研究成果,可以认为,由于存在“大数据可获得性”障碍以及大数据统计分析“技术的易用性”缺乏,目前阶段大数据并不能从根本上改变传统定量社会研究方法的范式,而只是对数据资料的收集方法和分析方法进行创新。针对以往研究较为缺乏有针对性的大数据背景下定量社会研究方法创新的系统论述,本文立足传统社会研究方法的范式进行相应的补充与完善。
二、大数据及其特征
最早提出“大数据”概念的管理咨询公司麦肯锡认为:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”[11]大数据是指数据量非常大,大数据就是海量的数据。2012年以后,大数据越来越多地渗透到人们的工作和生活中,人们用它来描述和定义信息爆炸时代产生的海量数据,以及与之相关的技术发展与创新。
大数据不仅是相对于小数据而言的,而且是具有特定含义的新概念。大数据最重要的特征无疑体现在“大”上,大数据具有的显著特征是它的规模性。从数据的量上来看,可以说它是巨量的、海量的数据,是传统手段无法获得的巨大的数据。随着互联网和存储技术的发展,数据规模从BT扩大到ZB,数据的存量和增量越来越大,与此同时对数据的处理能力也不断提高。互联网时代,个人用户不仅通过网络获取信息,而且个人用户还是信息的制造者与传播者。众多的用户通过网络联结成为一个整体,不仅使得数据总量呈现爆炸式增长,而且使得数据种类变得异常多样。大数据除了包含简单的文本信息,还包含了传感器数据、音频、视频、日志文件、点击流量等其他类别的信息,这都体现了大数据“大”的特征。大数据是对全世界每一个人每时每刻所做的每一件事的即时记录。如果全世界每一个人的生命全过程和每天24小时的所作所为都被以图像、文字、视频或者音频的方式记录下来并且汇总到计算机上,那么现有的数量词就已经无法描述其量之大,就需要创造新的量词来表示了,这个新的量词就是所谓的“大数据”。
三、大数据背景下定量社会研究方法创新的必要性
社会研究方法是一门方法类学科,在定量社会研究过程中,包括数据资料的收集、整理、分析等不同环节,这与大数据都密切相关。另外,异常庞大的数据、非结构化的数据形式也给大数据的整理和分析带来了困难,给统计分析提出了新的要求。
其一,社会环境的大背景发生了变化。大数据的发展以及它们对人们生活的不断渗透,使得大数据的挖掘和统计分析成为可能。大数据对原有的以抽样、问卷以及统计分析为基础的定量社会研究方法产生了影响,并且在社会研究的领域中,特别是在公共政策以及公共管理领域中,一些社会研究者正越来越多地利用互联网产生的大数据来研究选举、民意等社会问题,这样的社会背景是促使社会研究方法创新的环境条件。
其二,传统的社会研究方法体系需要大数据方法加以补充和完善。传统的社会研究方法是基于大数据时代之前的社会研究方法的理论和实践建立起来的,进入大数据时代以后的很多新方法没有引入到社会研究方法中来,使得社会研究方法体系较为陈旧,因此需要对社会研究方法加以改进。大数据对定量社会研究方法提出了新的要求,社会研究方法要对新的要求加以回应。
四、大数据背景下定量社会研究方法创新的内容
(一)遵循社会研究“提出假设—数据检验”的逻辑选择“大数据”资料
传统社会研究方法以资料收集为基础,运用问卷调查以及个案访谈等形式收集资料,这是基于研究目的对研究对象资料的收集,是根据研究需要“制造”数据,其与数据的关系体现了研究者的主动性,获得的是小数据资料。
大数据本身就是一种数据资料,是一种不再需要研究者收集的现存资料,因此研究者需要做的工作不再是收集新的资料,而是要对已有的大数据资料进行选择、清理和分析。大数据是先有资料,但是这些资料并不是根据研究目的而收集的,因此有很多无用的资料,这就需要进一步选择,选取有用的资料。同时由于大数据资料并不是依据某个研究目的而收集的资料,因此大数据资料也面临效度问题,即大数据资料能否准确地描述研究的概念与变量的问题。依靠大数据进行研究只能被动地分析这些已经收集到的资料、客观发生了的行为信息,社会研究只能是对数据资料的适应,类似于二次分析的研究过程。可以认为,大数据进一步丰富了定量社会研究中资料收集的方法。
(二)超越“样本—总体”的认识途径直接认识“总体”
传统社会研究方法通过样本实现对总体的认识。抽样作为人们从部分认识总体的关键环节,其基本作用是提供一种实现“由部分认识总体”的途径。传统社会研究方法中,尤其调查研究的方法存在一些自身无法克服的困境,比如抽样过程中随机性无法得到充分保证、资料源于自我报告的方式等问题,不仅导致获得的样本不能完全充分地代表总体,而且由于调查对象“说的”和“做的”可能不一致导致资料的真实性存在疑问,都会使得社会研究的信度降低。
大数据正好可以弥补传统社会研究方法的这些不足。大数据一个方面的优势就是不必担心数据资料的代表性问题。大数据是有关研究总体的资料而不是样本的资料,不会因为样本的代表性问题而产生抽样误差。通过大数据得出的结论直接是关于研究总体的结论,不需要再进行统计推论,因此,大数据资料具有更高的可信度。而另一个方面,大数据记录的是研究对象已经发生了的实际行为,不存在由于调查对象“说的”和“做的”不一致导致的资料不真实问题,可以确保资料的真实可靠。大数据超越“样本—总体”的认识途径直接认识“总体”的优势在于消除了抽样误差,提高了研究的精确性。
(三)深化个人“观念—行为”的研究题材实现“全生命”研究
传统社会研究方法在研究题材上有主观的观念和客观的行为,主客观两个方面虽然包含的范围广,但是能够作为研究的内容有限,研究题材的收集不仅受到个人隐私的屏蔽,还会受到社会伦理道德的限制,有些资料难以获得。相比传统的社会研究方法,大数据可以比较完整地记录个人的网上行为。大数据是对个体生命的全记录,包括了个人工作、生活的方方面面,只要运用了互联网就会留下痕迹记录,个人每天的生命全过程都会被记录下来,形成个人“全生命”大数据资料。
大数据的优势不仅在于记录个人行为,而且还可以描述个人主观的观念。大数据通过全面记录个人的行为痕迹,比如生理活动及其变化等,来感知个人的心理,并可以进一步推测个人的主观观念。大数据对个人行为的记录不仅可以用来描述现状,而且还可以用来预测未来。传统社会研究方法对未来的预测是基于主观“观念”,而大数据对未来的预测则是基于以往的客观“行为”。与个人的主观观念相比,基于个人客观行为习惯的预测更加准确。
(四)整合“收集资料—分析资料”过程实现“大数据方法”的融合
传统社会研究方法在定量分析的过程中,先收集资料,然后再分析资料,资料的收集和分析可以分为先后不同的两个阶段。而大数据既可以作为一种资料收集的方法,又可以作为一种资料分析的方法,大数据可以将数据资料的收集和分析过程整合起来,形成一个综合性的环节,实现“大数据方法”的融合。大数据是已经记录并可以随时调用的资料,并且可以根据需要自动生成统计结果。大数据不再需要进行收集,只要进行数据的筛选、整理就可以进行分析了。大数据资料的分析不用再借助于专门的统计分析软件,而是直接通过大数据平台就可以得出大数据分析的结果。而借助于大数据平台提供直接的结果,这也同时整合了数据收集和数据分析两个阶段。
五、大数据在定量社会研究方法中应用的局限性
(一)大数据资料对研究总体的代表性存在偏差
大数据收集的是总体的资料,但是收集到资料的总体不一定是研究总体。因为大数据资料的收集借助于网络,因而资料总体往往是全体网民,这就与研究总体存在偏差。其一,网民并不能代表全部人口,因为并非所有的人都上网,大数据收集资料的总体就没有包括不在互联网上留下痕迹的部分人口,主要是老人和孩子,也包括一些不上网的部分成年人。其二,即使大数据收集资料的总体包括了全部的研究对象,但是由于这个总体与研究总体并不完全重合,它还包括了研究总体以外的一些人口,因此大数据资料收集的总体也不是研究总体,这一总体的代表性就存在偏差。
(二)大数据在获取途径上较为缺乏
虽然大数据已经渗透到了生活的方方面面,有关大数据研究的结果也并不少见,但是作为一个研究者要对原始的大数据资料进行研究并不容易,因为大数据资料并不是很容易获得的,当前“大数据可获得性”缺失阻碍了大数据在社会研究中的应用,研究者往往缺乏获得大数据的途径。
通常认为,大数据是公开的、透明的,有些情况下也确实如此,例如一些政府网站为了提高信息透明度而公布的数据,然而在很多其他方面,大数据资料并不是公开的,也不容易获得。因为大数据不仅涉及个人隐私问题,而且还涉及伦理道德问题,研究者甚至根本无法得到这些涉及商业或政府行为的数据,即便是某个研究者通过个人渠道获取了此类大数据,也只能用于个人研究,不能公开,更无法共享。而无法共享的大数据不能被验证,就不具有研究的可行性。而且,研究者如果只能依靠政府公布的大数据来寻找研究题目,则无法根据自己的研究兴趣和特长选择研究课题,这对于把大数据作为一种数据资料的社会研究来说,就限制了社会研究题目的范围。
(三)大数据在社会研究中应用较为困难
大数据的数量虽然巨大,但是有价值的、可以被研究者利用的数据可能并不多,与传统社会研究方法通过抽样获取的数据相比,大数据的价值就显得相对较低了。要把大数据应用到社会研究方法中,必须要对大数据进行选择、整理,这就增大了大数据利用的难度。因此从这个意义上说,大数据资料使得数据的选择和整理工作变得更加复杂。而且大数据的非结构化特征使其在社会研究中的应用较为困难。大数据中的绝大部分都属于非结构化数据,其中最重要的是文本数据,对其处理必须借助人工智能技术,而不能使用传统的统计分析软件。另外,商业领域的“水军”“刷单”等现象,会导致大数据中虚假数据的产生,影响大数据分析的结果。
六、运用大数据促进定量社会研究方法创新的建议
(一)在定量社会研究方法中引入大数据资料与方法
大数据不是一种新的社会研究方法,因此无法取代传统的社会研究方法。如果把大数据看作是一种新的数据资料收集和分析方法,则大数据背景下定量社会研究方法的创新就是数据资料收集方法和分析方法的创新。大数据可以起到对定量社会研究方法补充和完善的作用。
大数据与定量社会研究方法之间相互促进。大数据的发展不仅不能取代传统的定量社会研究方法,而且大数据需要借助于传统的社会研究方法才可能有进一步的发展。大数据可以描述个人行为及其发展变化,却无法解释行为发生的原因,这些内容的研究中必须借助调查研究和实验研究等手段,也就是传统社会研究方法,而调查研究和实验研究则可以借助于大数据所发现的关键词、不同变量之间的联系等更有针对性地设计问卷和实验条件,对大数据资料进行更加深入的研究。
(二)发展大数据统计分析方法
大数据数量之大超出一般统计软件所能处理的范围,而且解释变量的增加会导致高维数据中的“维数灾难”,这些问题不是一般统计软件能够处理的。[12]传统的统计分析软件无法对其进行统计分析,因此需要进一步发展大数据的统计分析方法。大数据统计分析方法包括统计分析的技术和运用这些技术的统计分析软件。虽然对于大数据的统计分析可以运用小数据的统计分析技术,但是不能运用小数据的统计分析软件对大数据进行统计分析。
大数据的意义不仅在于庞大的数据信息,还在于对于这些含有一定意义的数据进行专业化的分析处理。如果把大数据看作是一个产业的话,那么大数据利用的关键在于提高对数据进行“加工处理能力”,从而实现数据价值的“增值”,对大数据进行社会研究也是实现大数据增值的一个途径。大数据需要特殊的处理技术,大数据与云计算密不可分,大数据无法运用单台的计算机进行处理,必须依赖云计算的分布式数据挖掘。大数据统计分析要在数据挖掘、数据选择以及数据清理的基础上实现对数据的统计分析。尽管目前已经有了一些专门针对大数据的统计分析软件,比如,Node XL,Gephi,DMI Issue Crawler等,但是这些数据分析软件主要用在商业领域,基于学术研究的数据分析工具还仍处于发展的初期阶段。[13但是随着大数据在社会研究中的应用越来越广泛,开发大数据统计分析软件也成为当务之急,这有助于促进大数据统计分析方法的发展。
(三)建立大数据运用的协调机制
大数据背景下,一方面政府以及互联网企业有着巨量的数据资料,另一方面社会研究者又无法获得这些巨量的数据资料进行相关的研究。研究者缺乏研究的大数据资料,同时大数据资料没有成为研究资源而造成了大量的浪费。因此基于这种状况,有必要建立大数据运用、研究的协调机制,把大数据拥有者和使用者联系起来,同时为两者服务。
建立大数据运用的协调机制,就需要为社会研究大数据资料的获得提供一条可行的途径。通过设立相关的协调机构,在社会研究者需要相关大数据时,可以提供联系的途径,为大数据的获得提供帮助。一方面,社会研究也是大数据利用的一种方式,可以实现大数据的价值增值,这对于大数据的拥有者来说也是有利的;另一方面,在开放、利用大数据资料的同时,要规范大数据使用的程序和方法,避免大数据运用导致泄露个人隐私问题,以及违背社会研究的伦理道德问题。大数据不能得到有效运用是一种资源的浪费,但是过度使用、不加规则的任意使用又会带来负面影响,所以必须提前做好防范。在建立大数据运用、研究的协调机制的同时,要对大数据的运用进行约束,为更好地运用大数据提供保障。