大数据主义者如何看待理论、因果与规律
2016-11-14黄欣荣
〔摘要〕 大数据主义者强调数据及其相关性在科学发现中的重要地位,但并不否认理论的作用,也不否认因果性的存在,更不否认世界的规律性。大数据主义者试图克服理论先入为主的偏见,强调让数据自己说话,增加了数据密集型科学知识生产新方式。大数据主义者试图用相关性纠正传统科学对因果性的偏执,科学发现中首先应重点寻找数据间的相关关系,进而为因果关系的发现提供进一步探索的路标。大数据主义者不但承认世界的规律性,而且拓宽了规律的内涵和外延,用数据规律补充了以往那种单一的因果规律,规律的范围从而得到了重大的拓展。
〔关键词〕 大数据主义者,相关性,因果性,理论,因果,规律
〔中图分类号〕N02 〔文献标识码〕A 〔文章编号〕1004-4175(2016)06-0033-07
大数据的兴起,给传统的科学哲学带来许多新挑战,特别是对诸如科学理论的作用、因果关系、科学规律等科学哲学的核心问题提出了有别于传统的新观点。齐磊磊博士概括总结了大数据相关学者的论述,在《哲学动态》杂志发表了题为《大数据经验主义——如何看待理论、因果与规律》的重要文章 〔1 〕。她在文中提出了大数据经验主义的概念,并系统提炼了大数据经验主义的科学哲学观点,这是大数据哲学的重要提炼和概括。她认为,大数据经验主义是一种新经验主义(以下简称为大数据主义),并将其观点概括为三点:1.在科学理论问题上,大数据主义认为“理论已经终结”,否定科学理论对科学发现的作用;2.在关系到科学存亡的因果性问题上,大数据主义否定因果性的存在,提出由相关性取代因果性;3.在世界的本质问题上,大数据主义否定世界的规律性,认为世界的本质是混乱的。树立起大数据主义的靶子之后,齐磊磊进行了批判,并明确提出反对大数据主义对大数据的神化。问题是大数据主义果真要彻底否定理论、因果和规律吗?通过相关文献的研读,笔者发现,齐磊磊对大数据主义的概括过于以偏概全。为此,笔者深入大数据学者的原始文献,按照齐磊磊所分的理论、因果、规律三个维度与其商榷,试图还原大数据主义的真相,以便让人们有机会了解大数据主义者的真实观点究竟是什么。
一、大数据主义者如何看待理论
齐磊磊将大数据主义的第一个特征概括为对理论的全盘否定。她认为,在对待理论的态度上,大数据主义持彻底否定的态度,认为在大数据时代,只要数据就够了,理论成了多余,甚至彻底无用。齐磊磊得出这个结论的依据主要有三个,一是大数据前期的代表人物安德森的观点,二是畅销书《大数据时代》的作者舍恩伯格的观点,三是哈尔滨理工大学孙博文教授的观点。孙博文教授的观点是在一次会议上提出的,笔者没有参加这次会议,所以无从考证其观点的原意。下面我们主要来看安德森和舍恩伯格的观点。
安德森是美国《连线》杂志的主编和主要撰稿人,齐磊磊引用的观点出自安德森于2008年6月23日发表在《连线》杂志上的文章:《理论的终结:海量数据使科学方法变得过时》,不过齐磊磊没有找到并阅读原文,只是转引了舍恩伯格在《大数据时代》一书中所引用的部分观点。作为大数据时代的预言家,在大数据时代来临的前夜,安德森就预感到了大数据的浪潮已经惊涛拍岸,并提前预言大数据对我们传统科学方法将带来怎样的革命。安德森一开始就用统计学家乔治·博克斯在30多年前的抱怨:“所有的模型都是错的,虽然有些很有用”。〔2 〕安德森认为,传统科学发现的方法都是从理论假设出发,建立模型,然后用经验检验模型的正确性。但这种猜想性的模型往往出错,而海量数据的出现改变了这种科学知识的生产方式,Google等大数据公司不再首先从理论假设、模型出发,而是从数据出发,从海量数据中归纳、提炼、发现其中的规律。安德森提出这些观点是有前提的,首先是海量数据,即大数据的出现;二是他谈论的主旨是知识发现的问题;三是他所说的“理论的终结”只是针对知识发现的出发点而言。他认为,我们已经进入了PB(Petabytes)时代,即现在所称的大数据时代,数据资源像洪流一样爆发、增长。面对PB级别的大数据,小数据时代的“假设—模型—检验的科学方法变得过时了”。“现在有更好的方式。允许我们这么说:相关性就足够了。我们可以停止寻找模型。我们可以对数据进行分析,而不需要预先假设它会显示什么。我们可以把数字扔进世界上从未见过的最大的计算集群中,并让统计算法找到科学无法找到的模式。” 〔2 〕这就是说,在大数据时代,知识的发现可以从数据开始,不再需要预先做出理论的假设。所以,安德森所说的“理论的终结”不是说大数据时代就不需要理论,不再有理论,只是科学发现不再是从理论出发,而是从数据出发。他说:“大量的可用数据,以及处理这些数据的统计工具,提供了一个全新的方式认识世界。通过相关关系而不是因果关系,即使没有清晰的模型、统一的理论,甚至没有任何机理解释,科学依然能够取得进步。” 〔2 〕因此,安德森并不是全盘否定科学理论,只是说在大数据时代,科学发现可以从数据开始,而不是必须从理论假设出发。
齐磊磊认为,舍恩伯格的观点与安德森一致。其实,舍恩伯格虽然引用了安德森的观点,并且也同意安德森从数据及其相关性出发来进行科学发现,但在对待理论的态度上,舍恩伯格没有安德森极端,而是有所保留。舍恩伯格虽然也认为,在大数据时代,从海量数据中发现相关关系比寻找因果关系更重要,科学发现更多地依赖于数据,而不是预设的普遍规则,应尽量让数据自己说话。在大数据时代,“所有的普遍规则都不重要了……重要的是数据分析,它可以揭示一切问题。”但是,他并不完全否定理论在大数据中的作用,因为“大数据是在理论的基础上形成的”,例如大数据也要使用统计学理论和计算机理论。在数据的收集、处理、解释等环节中也要用到相关理论,他在书中明确告诫:“大数据时代不是理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面。” 〔3 〕93因此,齐磊磊将舍恩伯格也归入理论终结论者是不太客观的。
科学发现模式问题是科学哲学极其重要的问题,历史上就有“科学始于观察”还是“科学始于问题”的争论。大数据来临前夕,美国计算机专家、图灵奖得主吉姆·格雷(Jim Gray)就敏锐地认识到大数据对科学发现的意义。他在2007年的一个发言中,首次提出了随着大数据的兴起,科学研究中出现了第四种研究范式。〔4 〕XViii他对历史上的科学研究范式,即科学发现的模式做了系统的分类,认为历史上曾出现过三种范式:经验范式、理论范式和计算范式。经验范式是科学发现的第一种范式,也是历史最久的范式,它的逻辑起点是人类的观察或实验,然后用归纳法将观察或实验数据归纳、提炼出科学理论,这种范式认为科学始于经验。逻辑实证主义就是这种主张的代表。逻辑实证主义主张“科学始于观察”,并主张归纳法作为其基本方法。随着逻辑实证主义被波普尔等后来者多方批判,其主张的发现模式逐渐被波普尔所主张的“科学始于问题”的发现模式所取代,这就是第二种范式,即理论范式,它出现于第一次科学革命之后,此时的科学家主要从已有理论出发,发现问题,然后进行经验检验,这就是波普尔的“猜想—反驳”模式。波普尔最重要的依据是观察渗透理论,他认为没有纯粹的客观观察,科学发现都因我们先有疑问、问题、猜想(P),然后提出相应的尝试性的假设(TT)或模型,再进行观察或实验(EE)以检验假设或模型的正确性,这就是波普尔著名的 “猜想—反驳”科学发现模式(P1-TT-EE-P2)。第三种范式出现于20世纪50年代计算机发明之后。由于问题的复杂性,我们无法直接观察或实验,只能首先建立模型,然后使用计算机进行模拟、仿真或计算,通过仿真、计算来模拟真实场景以达到研究的目的。格雷认为,随着海量数据的出现,科学发现模式发生了重大变化,在前三种科学发现范式的基础上出现了第四种范式,即数据密集型科学范式。数据密集型科学范式的逻辑起点是大数据,它从大数据出发,通过数据之间的相关关系发现大数据所呈现出来的数据规律。由大数据所构成的数据世界成为数据密集型科学研究的直接对象,数据挖掘是大数据时代科学研究最重要的方法,数据规律是数据密集型科学最重要的成果。当然,格雷也特别申明,第四种范式与前三种范式并列存在,相互补充,共同构成了科学研究的范式体系,它绝不是要取代前三种范式,只是作为前三种范式的重要补充和完善。格雷对科学研究范式的分类及其对第四种范式的论述,比较充分地表明了大数据主义者对经验、理论和数据的态度。
大数据革命带来了科学发现的新途径与新模式,也改变了理论在科学发现中的作用。从大数据相关学者,特别是安德森、舍恩伯格、格雷的论述中,我们可以提炼出大数据主义的科学发现观以及理论在科学发现中的作用。(1)数据成为科学研究的直接对象。以往的科学研究都是直接面对自然界或人类社会,而大数据的兴起以及数据世界的形成,让我们摆脱了对直接对象的依赖,取而代之的是作为自然或社会现象映射而成的数据世界,这样科学研究可以直接以数据世界为研究对象。(2)大数据彻底改变了科学数据的采集方式。自从经验科学兴起之后,数据就成为科学研究的重要手段,然而,以往的数据都是研究者预先设计好目的,然后进行观察或实验,所得数据已经被观察者污染,也就是观察已经渗透理论。然而,在大数据时代,数据主要来自智能感知设备、网络浏览或者网络社交等留下的数据足迹,这些数据因为不是研究者预先设计而获得的,没有被研究者污染,因而更具有客观实在性。(3)大数据时代凸显出数据在科学发现中的重要作用。以往的科学数据只是验证科学假说的工具,科学发现主要依赖于理论的猜想,即使是逻辑实证主义的“科学始于观察”,其观察仍然渗透着理论。但是,在大数据时代,数据具有了客观性,而且从数据出发,就能发现数据中蕴含的规律性,因此带来了“科学始于数据”的科学发现新模式。(4)理论在科学发现中的作用方式发生了重大变化。在大数据时代,初始数据虽未被采集者污染,但在随后的数据挖掘过程中,理论开始渗入其中,比如数据仓库的选取、挖掘工具的选择以及挖掘结果的解释等,都渗透着数据挖掘者的意图。这就是说,在大数据时代,科学发现依然渗透着理论,只是渗透的环节被延后罢了,理论在数据挖掘、科学发现中依然起着重要的作用。
安德森、舍恩伯格和格雷,都是大数据主义的代表人物,他们都强调在海量数据面前,科学发现不能从理论假设出发,必须直接从数据出发,让数据说话,但是他们并不是彻底排斥理论,只强调大数据时代出现了科学发现的新模式。正如舍恩伯格所说:“大数据绝不会叫嚣‘理论已死,但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆,很多旧有的制度将面临挑战。” 〔3 〕94 《大数据主义》的作者史蒂夫·洛尔借用人工智能专家彼得·诺威格的话说,数据具有不可思议的威力,“但是,方法论中仍然包括模型,这是毫无疑问的。理论没有终结,而是正在发展,并拥有各种新的外在形式。” 〔5 〕165齐磊磊所说的大数据主义彻底抛弃理论,大数据时代不需要理论,这些并不是大数据主义者的真正主张,而是她对大数据主义者的误读,或者说是以偏概全。
二、大数据主义者如何看待因果
齐磊磊对大数据主义第二个批评是大数据的因果观。她认为,大数据主义者认为,因果性在大数据时代不再存在,已经完全由相关性取而代之。她主要是以舍恩伯格为靶子来进行批判的。她在文章中批评说,舍恩伯格将相关关系分析作为大数据时代的新视野和预测新工具,以此看到了从前未曾留意的联系,并掌握了以往难以理解的社会动态和复杂技术。最为关键的是,舍恩伯格认为知道“是什么”就够了,而不必知道“为什么”。舍恩伯格还特别强调要“让数据自己发声”,不必过多探究现象背后的本质。由此,齐磊磊得出结论说,大数据主义企图消除因果关系,否定因果律,试图用事物的相关关系取代因果关系。随后,她通过因果与相关的概念区别,并从哲学、数学、逻辑等维度来讨论两者之间的区别与联系,特别用量子纠缠作案例来说明,由此来批判舍恩伯格观点的错误。
齐磊磊所树立的批判靶子对吗?舍恩伯格的真实观点是什么?让我们回到舍恩伯格的文本。据亚马逊图书智能推荐系统介绍,舍恩伯格说:“亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。” 〔3 〕71舍恩伯格的确认为,在大数据时代,相关性分析可能比因果性分析更重要。“在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。” 〔3 〕71舍恩伯格很清楚,因果性是相关性的特殊关系,相关关系缺少因果关系那种必然性,只具有可能性,“相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。” 〔3 〕72舍恩伯格只是在方法论的意义上对相关性进行肯定,并没有在本体论上对事物的因果性进行否定。对事物进行因果分析,必须深入把握事物间的内部机制,然而,面对大数据时代的海量数据,这种内部机制很难及时被把握。因此,他认为,与其用臆想的因果假设,不如从表象出发,快速把握它们的相关关系,“大数据的相关关系分析法更准确、更快捷,而且不容易受偏见的影响。” 〔3 〕75特别是在日常生活、商业分析中,相关性分析更是一种快速、高效的分析、预测工具,“相关关系很有用,不仅仅是因为它能为我们提供新视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽。” 〔3 〕88舍恩伯格知道,相关性只是一种表象,因果性才是表象背后的本质,因此他并不否定因果性的存在,相反,他认为相关性是认识因果性的有效途径。“相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。” 〔3 〕88“在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么时,我们就会继续向更深层次研究因果关系,找出背后的‘为什么” 〔3 〕89他明确地表示:“因果关系还是有用的,但是它不再被看成是意义来源的基础。” 在此,我们可以说,舍恩伯格强调了相关性对大数据的重要性,但他并不否定因果性的存在,更没有说要用相关性完全取代因果性。
史蒂夫·洛尔在《大数据主义》一书中提出要“厘清大数据中的相关关系与因果关系”,认为相关关系可以为商业、医学等应用领域提供有效的预测工具,但不能因此否定因果性。他借用IBM人工智能专家费鲁奇的话说:“对于大量商业决策而言,有相关性就能得出令人满意的结果”。但是,“仅凭相关性是不够的”,“还要对因果关系产生有启发性的认识,包括理论、假设、现实世界的心理模型、事情的原委等,两者必须更密切地相互配合。” 〔5 〕163-164
英国韦斯特敏斯特大学的David Chandler在论文《没有因果的世界:大数据与后人类时代的来临》中认为,大数据并不是要取代因果关系,它只是带来了新的归纳方法和新的知识生产方式。〔6 〕牛津大学互联网研究中心的Josh Cowls和Ralph Schroeder在论文《因果性、相关性及社会科学研究的大数据》中,通过访谈26位学者,详细论述了大数据时代的因果性与相关性的关系。〔7 〕受访者认为,理论终结及取代因果的说法有点过分夸张,但大数据对他们的影响的确很大,它使得社会科学研究所需数据的采集、处理变得容易。至于相关性和因果性问题,这取决于何种类型的研究:如果是商业应用之类的研究,找到相关性就够了,但社会科学理论研究则仍然需要因果性。
归纳起来,大数据主义对相关性与因果性的态度是:在大数据时代,由于数据的暴增,寻找数据间的相关性比因果性更重要,大数据主义承认事物的因果性,但更应该把握事物的相关性。齐磊磊说大数据主义否认因果性的存在,它已被相关性完全取代,这是对大数据主义的误解或误读。大数据主义为什么强调相关性,弱化因果性呢?我们可以从四个方面来说明。(1)就相关性与因果性的关系来说,相关性更广泛,因果性更严格,因果性是相关性的一种特例。在哲学史上,对这两者关系的讨论很多,齐磊磊不但回顾了哲学史上两者之间的关系,而且从数学的集合论和函数关系论证了“相关性是一种比因果性更广泛的概念”,因果性是相关性的一种特殊状态。(2)大数据并不否定因果,只是不强调因果。自休谟对因果性进行全面怀疑和批判以来,虽然众多科学家、哲学家做出了种种努力,但仍然很难证明某两种现象或事物之间就一定存在着因果关系。休谟只是把因果性看成是人们的一种习惯,康德的《纯粹理性批判》也只是做出了一种工具主义的修补,仍然没法证明因果性的必然性。大数据没有站到彻底否定因果性的队伍中,而是承认因果性,但从相关性入手来把握。从方法论来说,相关性比较表象,只要两者之间有依随关系就认为具有相关性,因此容易被识别;而因果性则要反映事物之间内在的本质关系,这就不容易被认识和把握。大数据从相关性而不是因果性入手,是一种聪明的方法论策略。(3)大数据时代的来临,海量数据使得寻找因果关系如同大海捞针一样困难。大数据时代的数据量迅速发展到PB、ZB级别,要在这么多的数据中找到与某数据具有因果关系的另一个数据,这比大海捞针还困难。正如统计物理学面对海量的分子,研究者无法跟踪每个分子的运动轨迹以及它们之间的因果关系,只能用统计学的方法研究大量分子运动所表现出来的宏观行为和规律,而且这些规律只遵从统计规律,没有因果规律那种必然性。PB、ZB级别的数据,跟统计物理学所面对的海量分子一样,我们不可能跟踪每个数据的来龙去脉、前因后果,只能使用数据挖掘工具挖掘出数据之间所表现出来的宏观行为以及数据之间的相关关系。(4)日常生活、商业应用中,相关关系就已经足够。在许多场合,我们的确不需要知道事物之间内在的因果关系,只要知道它们之间具有依随性质的相关关系,在我们发现某现象或数据变化时,大致能够推断与之相关的另一个现象或数据也可能会发生变化。例如,我们发现,天气长期下雨会带来雨具销售的增加,而我国南方总是春雨绵绵,于是聪明的商家早已准备好了各种雨具来迎接南方雨季的到来。又如,每年大学新生开学季,都有大量的银行卡、手机卡等商业机会,于是聪明的商家早已与学校相关部门将各种卡随录取通知书投送到新生手中。对商业应用来说,最关键的是快速抓住机会,至于背后的因果关系则留给学者们去探讨。
总之,大数据主义不是要否定事物之间的因果性,并用相关性取代,只是不再过分执着于事物因果性的追求,采取从表象的、数据之间的相关性入手,发现数据规律,然后由此作为路径,再打开黑箱,寻找数据之间的因果关系。由此,相关关系就成了寻求因果关系的一把方便钥匙。当然,大数据也能够接受暂时找不到因果关系,只能找到相关关系的情况存在。
三、大数据主义者如何看待规律
在对待世界的本质及其规律性问题上,齐磊磊说,大数据主义否认世界的规律性,将世界的本质归结为混乱的数据。她把大数据主义的观点与卡特莱特为代表的新经验主义相比较,并由此来批判大数据主义者。齐磊磊对大数据的世界观和规律观的批判主要从统计学家的观点和网络科学家巴拉巴西的观点这两条路径来进行。她引用统计学家的观点说,统计样本的增加不一定能够增加统计的精确性,只有增加采样的随机性才能提高统计的精确性。她用舍恩伯格的“大数据的核心在于预测”来反证舍恩伯格主张世界混杂性的错误。此外,她引用巴拉巴西在其《爆发:大数据时代预见未来的新思维》的观点来证明世界的规律性和可预测性。
齐磊磊所批判的观点主要来自舍恩伯格,因此我们有必要先还原舍恩伯格究竟说了些什么。舍恩伯格认为,万物皆数,通过大数据技术,一切现象或行为皆可转化为数据,这就是他所说的“量化一切”。通过智能感知、万物互联等量化手段之后,现象世界就映射为一个“数据世界”,这个数据世界可以被智能设备所识别、储存、传输和计算,世界的存在变成了数据的泛在。这样,数据就成了世界的本质属性,所以舍恩伯格说“世界的本质是数据” 〔3 〕125。
舍恩伯格认为,在大数据时代,数据的获取变得十分容易,数据规模也暴增到海量,因此现在人们已经彻底告别了数据缺乏的时代,并进入到一个数据丰裕的时代。正因如此,舍恩伯格才强调,人们没必要再依靠抽样调查等手段来获取数据,可以采取一网打尽的“全数据模式”。由于数据来源多样化,数据规模海量化,因此,一方面这些数据难免鱼龙混杂,失去传统的精确性,另一方面数据的多样性也反映了世界的多样性。齐磊磊所批判的“混乱”,舍恩伯格所用的英文是messy,其本义的确有“混乱”的意思,但也有“混杂”、“复杂”之义。〔8 〕33中文版的《大数据时代》大部分时候都将其译成“混杂”,偶尔译成“混乱”。“混杂”的译法比较合适,而“混乱”则误解了舍恩伯格的原意。“只有5%的数据是结构化且能适用于传统数据库。如果不接受混杂,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。” 〔3 〕45因此,舍恩伯格提出应该允许和接受混杂性,不再过分执着于追求精确性。舍恩伯格并没有由此推断出世界就不再有规律性,相反,他正是想通过认识、接受混杂性来更好地把握世界的规律性,正如他自己所说:“接受数据的不精确和不完美,我们反而能更好地进行预测,也能更好地理解这个世界。” 〔3 〕56
从大数据学者的论述中,我们可以看出大数据主义者对世界观、规律性的态度。归结起来,主要表现为如下五个方面,即整体主义、复杂多样、关注细节、数据规律、透明世界。
(1)整体主义。自从古希腊以来,西方科学主要是通过打开黑箱,还原到部分甚至是“始基”去研究其中的奥秘。这种还原方法论反映到数据采集上就是受控实验或抽样调查方法。由于技术能力的限制,以往的数据采集只能在理想化处理之后,通过精心设计的受控实验,或精心设计调查问卷和调查对象之后所进行的抽样调查来获取所需的数据。小数据时代的随机采样就是试图以最少的数据获得最多的信息,这就是将复杂的现象还原为少量的抽样数据。大数据时代的来临,让我们不再需要选取样本,或者说样本量可以最大化,这就是大数据的“全数据模式”。由于与对象相关的所有可能性都包括其中,至大无外,所以这其实就是一个整体。以往我们经常说要用整体论的视野看问题,但由于没有将整体技术化,在解决实际问题时依然应用部分代替整体的还原方法。大数据的“全数据模式”将传统整体论数据化,用全部数据代表整体,并可以进行计算、分析,是一种数据化、可操作的整体观,因此大数据主义是一种数据化的整体主义。〔9 〕
(2)复杂多样。经过孤立、静止、抽样等理想化处理,所获数据变得简单、纯粹、单一,所反映出来的现象世界也变成了简单、单一的理想世界。大数据时代的数据来自各种途径,例如各类传感器数据、网络浏览数据、网络社交数据、电话短信数据、消费数据、刷卡数据等等,这些数据都属于原始数据。因此,数据粗糙、类型多样。但是,大数据时代的数据由于没有人工的预先参与,因而未被人工污染。因此,保留了原始性、粗糙性、复杂性、多样性等,由此所反映出来的现象世界也变成了一个复杂多样的真实世界。复杂性科学早就批判了传统科学的理想化和简单化,认为真实世界是复杂、粗糙、多样的世界,而大数据技术则用可计算的海量数据来刻画了复杂性科学的理念,让复杂性的科学理念变成了大数据的技术手段。
(3)关注细节。理想化之后的受控实验和抽样调查,都是选取预先被认为重要的少量数据来代表所有数据,或者说由少量数据来描述真实世界的复杂现象,例如全国大学生有几千万,但不少做大学生相关问题调查的研究者往往在几所大学发放几百份问卷,就得出全国大学生怎么样的结论。做抽样调查者辩护说,只要能够保证抽样的绝对随机性,少量样本就能代表全体。问题是,我们怎么知道具有绝对随机性?事物本身千差万别、丰富多彩,少量样本又怎么来代表这些细节?大数据让所有样本都保留,不要少数样本来代表自己,这样每个样本的独特之处、出彩之处都有可能保留下来。因此,大数据的“全数据模式”就保留了每个样本的丰富细节和个性,具有统计学所说的“遍历性”,而且数据越多,细节越丰富。抽样的数据无法被放大以便观察细节,而大数据的数据可以被随意组合、放大,可以追溯每个数据的细节,大数据成了数据显微镜。因此,大数据比以往的小数据更加关注细节,更加注重个性。
(4)数据规律。小数据时代根据因果推理所得到的规律叫做因果规律,简称为规律。因果规律被认为具有确定性和普遍必然性,具有放之四海而皆准的可重复性。利用因果规律,不但能够解释过去发生的事件,而且可以预测未来事件的发生。大数据不再执着追求因果必然性,而是侧重于通过数据之间的关联性来寻找事件之间的相关性,并根据数据挖掘、分析得出具有概率性的数据规律。这种数据规律只是数据之间的关联性,不一定具有普遍必然性,也不一定具有绝对的可重复性,因此在因果论者看来,这种数据规律根本就不算规律,并由此推断大数据主义否定规律,并说大数据主义者将世界看作是一个混乱无序的世界。数据规律是不是规律呢?数据规律也能够解释过去,预测未来,而且在无法得到因果规律的时候,数据规律可以大显身手,因此数据规律也是规律的一种类型。大数据主义不但承认世界规律的存在,而且拓展了规律的内涵和外延,将数据规律纳入规律的范畴,用数据规律补充了因果规律之不足。舍恩伯格和巴拉巴西都承认在混杂多样的世界都能找到规律,不能找到因果规律,起码能找到数据规律,而且利用数据规律,再复杂的现象都可以解释和预测,甚至小数据时代难以认识和预测的人类行为,都能做出高达93%以上的准确预测。〔10 〕13因此,大数据没有否定规律,只是拓展了规律的内涵和外延,以便更好地认识和把握复杂世界的规律。
(5)透明世界。大数据技术可以将一切现象、行为数据化,万物的背后都留下了一条可被存储、识别的数据链。这些数据在没有发现用途的时候往往被看作是数据垃圾,但事实上这些数据全程记录了事物的存在和演化的全息轨迹。这些数据被永远存储于网络、云端,几乎难于被彻底消除,因此即使某事物已经消失,但与其对应的数据足迹依然存在于数据世界中。通过对数据世界的挖掘,一切都无法伪装和隐藏,就像真有上帝之眼一样被永远地监视着。数据化的世界是一个可以永远被存储、识别、挖掘的世界,通过相关性不但能够知道过去的一切,而且未来的一切也可以被掌控。自然界及其规律都隐藏在黑暗中,但在大数据的阳光照耀下,世界的一切都变成了透明。因此,大数据时代的世界是一个彻底透明的世界。
综上,大数据主义者并不否定科学理论或终结科学理论,只是从海量数据中进行知识发现时不能预先带着理论的有色眼镜,必须先“让数据说话”,尊重数据本身显现出来的规律,数据采集环节不一定预先依赖理论,但在数据挖掘和知识生产中,大数据主义仍然承认理论的作用。大数据不否定事物因果性的存在,但数据挖掘时不会一开始就纠结于因果性,它更重视数据显现出来的相关性。如果需要,我们可以在认识相关性之后再进一步深挖因果性,相关性为寻求因果性提供了猜想的路径。大数据主义者认为,世界是复杂多样的,但皆可被数据化,通过数据之间的相关性能够挖掘出事物间的数据规律,并通过数据规律来解释、预测由因果规律难于解释和预测的复杂现象。因此,他们不但承认世界的规律性,而且在以往难于发现规律的地方找出规律,让科学的阳光照亮混杂世界的每一个角落,我们的世界变成了一个完全透明的世界。所以,齐磊磊认为大数据主义者否认理论、否认因果、否认规律的说法是不太符合实际的。
参考文献:
〔1〕齐磊磊.大数据经验主义——如何看待理论、因果与规律〔J〕.哲学动态,2015(7).
〔2〕Chris Anderson. The End of Theory:The Data Deluge Makes the Scientific Method Obsolete〔J〕.Wired 16,2008(7).
〔3〕维克托·迈尔-舍恩伯格,肯尼斯·库克耶.大数据时代:生活、工作与思维的大变革〔M〕.盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
〔4〕T.Hey, S.Tansley, K.Tolle. The Fourth Paradigm: Data-Intensive Scientific Discovery〔M〕.Redmond: Microsoft Research, 2009.
〔5〕史蒂夫·洛尔.大数据主义〔M〕.胡小锐,朱胜超,译.北京:中信出版集团,2015.
〔6〕David Chandler.A World without Causation: Big Data and the Coming of Age of Posthumanism〔J〕.Millennium: Journal of International Studies,2015(3).
〔7〕Josh Cowls, Ralph Schroeder.Causation, Correlation, and Big Data in Social Science Research〔J〕. Policy and Internet,2015(9999).
〔8〕V.M.Schonberger, K.Cukier.Big Data: A Revolution That Will Transform How We Live,Work and Think〔M〕.London: John Murray,2013.
〔9〕黄欣荣.大数据对科学认识论的发展〔J〕.自然辩证法研究,2014(9).
〔10〕艾伯特-拉斯洛·巴拉巴西.爆发:大数据时代预见未来的新思维〔M〕.马慧,译.北京:中国人民大学出版社,2012.
责任编辑 苏玉娟