APP下载

大数据主义者如何看待理论、因果与规律
——兼与齐磊磊博士商榷

2016-11-26黄欣荣

社会观察 2016年12期
关键词:因果关系范式数据挖掘

文/黄欣荣

大数据主义者如何看待理论、因果与规律
——兼与齐磊磊博士商榷

文/黄欣荣

大数据主义者如何看待理论

美国《连线》杂志主编安德森认为在大数据时代,知识的发现可以从数据开始,不再需要预先做出理论的假设,并预言理论即将终结。但安德森所说的“理论的终结”不是说大数据时代就不需要理论,不再有理论,只是科学发现不再仅从理论出发,也可从数据出发。他说:“大量的可用数据,以及处理这些数据的统计工具,提供了一个全新的方式认识世界。通过相关关系而不是因果关系,即使没有清晰的模型、统一的理论,甚至没有任何机理解释,科学依然能够取得进步。”因此,安德森并不是全盘否定科学理论,只是说在大数据时代,科学发现可以从数据开始,而不是必须从理论假设出发。

《大数据时代》作者舍恩伯格没有安德森极端,而是有所保留。虽然他也认为,在大数据时代,从海量数据中发现相关关系比寻找因果关系更重要,科学发现更多地依赖于数据,而不是预设的普遍规则,应尽量让数据自己说话。在大数据时代,“所有的普遍规则都不重要了……重要的是数据分析,它可以揭示一切问题”。但是,他并不完全否定理论在大数据中的作用,他在书中明确告诫:“大数据时代不是理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面。”

美国计算机专家、图灵奖得主吉姆·格雷(Jim Gray)认为历史上曾出现过三种科学研究范式,即经验范式、理论范式和计算范式。随着海量数据的出现,科学发现模式将发生重大变化,在前三种科学发现范式的基础上出现了第四种范式,即数据密集型科学范式。数据密集型科学范式的逻辑起点是大数据,它从大数据出发,通过数据之间的相关关系发现大数据所呈现出来的数据规律。由大数据所构成的数据世界成为数据密集型科学研究的直接对象,数据挖掘是大数据时代科学研究最重要的方法,数据规律是数据密集型科学最重要的成果。当然,格雷也特别申明,第四范式与前三种范式并列存在,相互补充,共同构成了科学研究的范式体系,它绝不是要取代前三种范式,只是作为前三种范式的重要补充和完善。

大数据革命带来了科学发现的新途径与新模式,也改变了理论在科学发现中的作用。从大数据相关学者,特别是安德森、舍恩伯格、格雷的论述中,我们可以提炼出大数据主义的科学发现观以及理论在科学发现中的作用。(1)数据成为科学研究的直接对象。以往的科学研究都是直接面对自然界或人类社会,而大数据的兴起以及数据世界的形成,让我们摆脱了对直接对象的依赖,取而代之的是作为自然或社会现象映射而成的数据世界,这样科学研究可以直接以数据世界为研究对象。(2)大数据彻底改变了科学数据的采集方式。自从经验科学兴起之后,数据就成为科学研究的重要手段,然而,以往的数据都是研究者预先设计好目的,然后进行观察或实验,所得数据已经被观察者污染,也就是观察已经渗透理论。然而,在大数据时代,数据主要来自智能感知设备、网络浏览或者网络社交等留下的数据足迹,这些数据因为不是研究者预先设计而获得的数据,没有被研究者污染,因而更具有客观实在性。(3)大数据时代凸显出数据在科学发现中的重要作用。以往的科学数据只是验证科学假说的工具,科学发现主要依赖于理论的猜想,即使是逻辑实证主义的“科学始于观察”,其观察仍然渗透着理论。但是,在大数据时代,数据具有了纯客观性,而且从数据出发,就能发现数据中蕴含的规律性,因此带来了“科学始于数据”的科学发现新模式。(4)理论在科学发现中的作用方式发生了重大变化。在大数据时代,初始数据虽未被采集者污染,但在随后的数据挖掘过程中,理论开始渗入其中,比如数据仓库的选取、挖掘工具的选择,以及挖掘结果的解释等,都渗透着数据挖掘者的意图。这就是说,在大数据时代,科学发现依然渗透着理论,只是渗透的环节被延后罢了,理论在数据挖掘、科学发现中依然起着重要的作用。

大数据主义者如何看待因果

舍恩伯格认为,在大数据时代,相关性分析可能比因果性分析更重要,因为与其用臆想的因果假设,不如从表象出发,快速把握他们的相关关系,“大数据的相关关系分析法更准确、更快捷,而且不容易受偏见的影响”。特别是在日常生活、商业分析中,相关性分析更是一种快速、高效的分析、预测工具,“相关关系很有用,不仅仅是因为它能为我们提供新视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽”。 舍恩伯格知道,相关性只是一种表象,因果性才是表象背后的本质,因此他并不否定因果性的存在,相反,他认为相关性是认识因果性的有效途径。“相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。”“在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么’时,我们就会继续向更深层次研究因果关系,找出背后的‘为什么’。”他明确地表示:“因果关系还是有用的,但是它不再被看成是意义来源的基础。”

史蒂夫·洛尔在《大数据主义》一书中提出要“厘清大数据中的相关关系与因果关系”,认为相关关系可以为商业、医学等应用领域提供有效的预测工具,但不能因此否定因果性。英国韦斯特敏斯特大学David Chand1er在论文《没有因果的世界:大数据与后人类时代的来临》中认为,大数据并不是要取代因果关系,它只是带来了新的归纳方法和新的知识生产方式。

归纳起来,大数据主义对相关性与因果性的态度是:在大数据时代,由于数据的暴增,寻找数据间的相关性比因果性更重要,大数据主义承认事物的因果性,但更应该把握事物的相关性。大数据主义为什么强调相关性,弱化因果性呢?我们可以从四个方面来说明。(1)就相关性与因果性的关系来说,相关性更广泛,因果性更严格,因果性是相关性的一种特例。(2)大数据并不否定因果,只是不强调因果。自休谟对因果性进行全面怀疑和批判以来,虽然众多科学家、哲学家做出了种种努力,但仍然很难证明某两种现象或事物之间就一定存在着因果关系。休谟只是把因果性看成是人们的一种习惯,康德的《纯粹理性批判》也只是做出了一种工具主义的修补,仍然没法证明因果性的必然性。大数据没有站到彻底否定因果性的队伍中,而是承认因果性,但从相关性入手来把握。从方法论来说,相关性比较表象,只要两者之间有依随关系就认为具有相关性,因此容易被识别;而因果性则要反映事物之间内在的本质关系,这就不容易被认识和把握。大数据从相关性而不是因果性入手,是一种聪明的方法论策略。(3)大数据时代的来临,海量数据使得寻找因果关系如同大海捞针一样困难。大数据时代的数据量迅速发展到PB、ZB级别,要在这么多的数据中找到与某个数据具有因果关系的另一个数据,这比大海捞针还困难。正如统计物理学面对海量的分子,研究者无法跟踪每个分子的运动轨迹以及它们之间的因果关系,只能用统计学的方法研究大量分子运动所表现出来的宏观行为和规律,而且这些规律只遵从统计规律,没有因果规律那种必然性。大数据的PB、ZB级别的数据,跟统计物理学所面对的海量分子一样,我们不可能跟踪每个数据的来龙去脉、前因后果,只能使用数据挖掘工具挖掘出数据之间的所表现出来的宏观行为以及数据之间的相关关系。(4)许多时候,特别是日常生活、商业应用中,相关关系就已经足够。在许多场合,我们的确不需要知道事物之间内在的因果关系,只要知道它们之间具有依随性质的相关关系,在我们发现某现象或数据变化时,大致能够推断与之相关的另一个现象或数据也可能会发生变化。例如,我们发现,天气长期下雨会带来雨具销售的增加,而我国南方总是春雨绵绵,于是聪明的商家早已准备好了各种雨具来迎接南方雨季的到来。又如,每年大学新生开学季,都有大量的银行卡、手机卡等商业机会,于是聪明的商家早已与学校相关部门将各种卡随录取通知书投送到新生手中。对商业应用来说,最关键的是快速抓住机会,至于背后的因果关系则留给学者们去探讨。

因此,大数据主义不是要否定事物之间的因果性,并用相关性取代,只是不再过分执着于事物因果性的追求,采取从表象的、数据之间的相关性入手,发现数据规律,然后由此作为路径,再打开黑箱,寻找数据之间的因果关系,由此,相关关系就成了寻求因果关系的一把方便钥匙。当然,大数据也能够接受暂时找不到因果关系,只能找到相关关系的情况存在。

大数据主义者怎样看待规律

大数据主义者对世界观、规律性的态度,归结起来主要表现为如下五个方面,即整体主义、复杂多样、关注细节、数据规律、透明世界。

(1)整体主义。自从古希腊以来,西方科学主要是通过打开黑箱,还原到部分甚至是“始基”去研究其中的奥秘。这种还原方法论反映到数据采集上就是受控实验或抽样调查方法。由于技术能力的限制,以往的数据采集只能在理想化处理之后,通过精心设计的受控实验,或精心设计调查问卷和调查对象之后所进行的抽样调查来获取所需的数据。小数据时代的随机采样就是试图以最少的数据获得最多的信息,这就是将复杂的现象还原为少量的抽样数据。大数据时代的来临,让我们不再需要选取样本,或者说样本量可以最大化,这就是大数据的“全数据模式”。由于与对象相关的所有可能性都包括其中,至大无外,所以这其实就是一个整体。以往我们经常说要用整体论的视野整体地看问题,但由于没有将整体技术化,在解决实际问题时依然运用部分代替整体的还原方法。大数据的“全数据模式”将传统整体论数据化,用全部数据代表整体,并可以进行计算、分析,是一种数据化、可操作的整体观,因此大数据主义是一种数据化的整体主义。

(2)复杂多样。经过孤立、静止、抽样等理想化处理,所获数据变得简单、纯粹、单一,所反映出来的现象世界也变成了简单、单一的理想世界。大数据时代的数据来自各种途径,例如各类传感器数据、网络浏览数据、网络社交数据、电话短信数据、消费数据、刷卡数据等等,这些数据都属于原始数据,因此数据粗糙、类型多样。但是,大数据时代的数据由于没有人工的预先参与,因而未被人工污染,因此保留了原始性、粗糙性、复杂性、多样性等,由此所反映出来的现象世界也变成了一个复杂多样的真实世界。复杂性科学早就批判了传统科学的理想化和简单化,认为真实世界是复杂、粗糙、多样的世界,而大数据技术则用可计算的海量数据来刻画了复杂性科学的理念,让复杂性的科学理念变成了大数据的技术手段。

(3)关注细节。理想化之后的受控实验和抽样调查,都是选取预先被认为重要的少量数据来代表所有数据,或者说由少量数据来描述真实世界的复杂现象,例如全国大学生有几千万,但不少做大学生相关问题调查的研究者往往在几所大学发放几百份问卷,就得出全国大学生怎么样的结论。做抽样调查者辩护说,只要能够保证抽样的绝对随机性,少量样本就能代表全体。问题是,我们怎么知道具有绝对随机性?还有,事物本身千差万别、丰富多彩,少量样本又怎么来代表这些细节?大数据让所有样本都保留,不要其他少数样本来代表自己,这样每个样本的独特之处、出彩之处都有可能保留下来。因此,大数据的“全数据模式”就保留了每个样本的丰富细节和个性,具有统计学所说的“遍历性”,而且数据越多,细节越丰富。抽样的数据无法被放大以便观察细节,而大数据的数据可以被随意组合、放大,可以追溯每个数据的细节,大数据成了数据显微镜。因此,大数据比以往的小数据更加关注细节,更加注重个性。

(4)数据规律。小数据时代根据因果推理所得到的规律叫做因果规律,简称为规律。因果规律被认为具有确定性和普遍必然性,具有放之四海而皆准的可重复性。利用因果规律,不但能够解释过去发生的事件,而且可以预测未来事件的发生。大数据不再执着追求因果必然性,而是侧重于通过数据之间的关联性而寻找事件之间的相关性,并根据数据挖掘、分析得出只具有概率性的数据规律。这种数据规律只是数据之间的关联性,不一定具有普遍必然性,也不一定具有绝对的可重复性,因此在因果论者看来,这种数据规律根本就不算规律,并由此推断大数据主义否定规律,并说大数据主义者将世界看作是一个混乱无序的世界。数据规律是不是规律呢?数据规律也能够解释过去,预测未来,而且在无法得到因果规律的时候,数据规律可以大显身手,因此数据规律也是规律的一种类型。大数据主义不但承认世界规律的存在,而且拓展了规律的内涵和外延,将数据规律纳入规律的范畴,用数据规律补充了因果规律之不足。舍恩伯格和巴拉巴西都承认在混杂多样的世界都能找到规律,不能找到因果规律,起码能找到数据规律,而且利用数据规律,再复杂的现象都可以解释和预测,甚至小数据时代难以认识和预测的人类行为,都能做出高达93%以上的准确预测。因此,大数据没有否定规律,只是拓展了规律的内涵和外延,以便更好认识和把握复杂世界的规律。

(5)透明世界。大数据技术可以将一切现象、行为数据化,万物的背后都留下了一条可被存储、识别的数据链。这些数据在没有发现用途的时候往往被看作是数据垃圾,但事实上这些数据全程记录了事物的存在和演化的全息轨迹。这些数据被永远存储于网络、云端,几乎难于被彻底消除,因此即使某事物已经消失,但与其对应的数据足迹依然存在于数据世界中。通过对数据世界的挖掘,一切都无法伪装和隐藏,就像真有上帝之眼一样被永远地监视着。数据化的世界是一个可以永远被存储、识别、挖掘的世界,通过相关性不但能够知道过去的一切,而且未来的一切也可以被掌控。自然界及其规律都隐藏在黑暗中,但在大数据的阳光照耀下,世界的一切都变成了透明!因此,大数据时代的世界是一个彻底透明的世界。

综上所述,大数据主义者并不否定科学理论或终结科学理论,只是从海量数据中进行知识发现时不能预先带着理论的有色眼镜,必须先“让数据说话”,尊重数据本身显现出来的规律,数据采集环节不一定预先依赖理论,但在数据挖掘和知识生产中,大数据主义仍然承认理论的作用。大数据不否定事物因果性的存在,但数据挖掘时不会一开始就纠结于因果性,它更重视数据显现出来的相关性。如果需要,我们可以在认识相关性之后再进一步深挖因果性,相关性为寻求因果性提供了猜想的路径。大数据主义者认为,世界是复杂多样的,但皆可被数据化,通过数据之间的相关性能够挖掘出事物间的数据规律,并通过数据规律来解释、预测由因果规律难于解释和预测的复杂现象,因此他们不但承认世界的规律性,而且在以往难于发现规律的地方找出规律,让科学的阳光照亮混杂世界的每一个角落,我们的世界变成了一个完全透明的世界。

(作者系江西财经大学马克思主义学院教授;摘自《理论探索》2016年第6期)

猜你喜欢

因果关系范式数据挖掘
法治范式的沟通主义进路
——简评《中国法治的范式研究:沟通主义法范式及其实现》(郭金平)
改进支持向量机在特征数据挖掘中的智能应用
以写促读:构建群文阅读教学范式
探讨人工智能与数据挖掘发展趋势
中国传统哲学研究中的认知范式转移
管窥西方“诗辩”发展史的四次范式转换
做完形填空题,需考虑的逻辑关系
探究刑法的因果关系
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究