APP下载

大数据方法论的新特征及其哲学反思

2020-01-19陈志伟

湖南师范大学社会科学学报 2020年1期
关键词:因果关系方法论事物

陈志伟

导言

大数据出现的时间并不是很长,大数据概念在1998年才首次出现在《科学》杂志上[1],但是它已经对当下社会生活的方方面面都产生了深远的影响,例如,我们在日常生活中的购物、社交乃至我们的运动轨迹实际上都通过口袋中小小的智能手机而成了大数据的一部分,我们社会中的每一个人都成了大数据的来源。另一方面,我们同时也都成了大数据的使用者,如我们在网购的过程中,大数据技术会计算出最佳的出货仓库和送货线路,等等。实际上,这几个例子已经涉及了大数据技术运作过程中的几个基本的环节,即数据的采集、处理与应用。在随时可以上网的智能手机时代,我们实际上每天都处在数据的采集、处理与应用之中。

但是,如果我们对大数据技术作深刻的哲学反思的话,就会发现大数据所带来的影响远不止上面所提到的日常生活中的各种便利,大数据还带来了更为深远的影响:大数据带来了一种全新的方法论,它将改变我们做事的方式,乃至改变我们思考问题的方式,而且这些改变正在当下世界中切切实实地发生着。从哲学的角度对之进行反思也就成了非常紧迫的事情:大数据方法论的新特征到底是什么?它在何种层面上对之前的方法论造成了冲击、改变乃至重塑?大数据方法论本身真的是合理的吗?我们可以从何种角度对之进行批判?我们可以从何种意义上来恰当地接受和应用大数据方法论?这些问题都是当下哲学工作者应当反思的。

上面提到,大数据技术的运作过程涉及大数据的采集、处理与应用三个环节。同样,大数据的方法论也可以分为三个基本的环节,即“事物——大数据——事物”,而这三个环节又涉及两个基本的层面:事物的数据化与数据的事物化。事物的数据化意味着从事物到数据,而数据的事物化则意味着从数据到事物。接下来,我们具体展开对这两个层面的分析。

一、大数据方法论的第一个层面:事物的数据化

事物的数据化听起来似乎是非常理论化的东西,但实际上,它就发生在我们的日常生活之中。我们可以用一个例子来说明。例如,我在跑步的时候,用智能手机的跑步软件记录了跑步的轨迹和步数,跑完后,我进入到便利店用微信扫码付款买了一瓶冰镇饮料,然后在微信上和朋友聊天。实际上,这个过程就是一个事物数据化的过程,包括跑步的轨迹、步数,消费的金额,以及聊天的内容等都已经被数据化,并成了大数据的一部分。通过这种日复一日的数据积累,就可以借助大数据技术对我的行为作出预测。下面,我们从一般事物的数据化和人的数据化这两个方面来展开分析。

1.一般事物的数据化——相关关系与因果关系

所谓的事物数据化指的是将事物量化,以数据的形式记录事物的信息,积累大量的数据,并在此基础上分析数据之间的相关关系,然后基于数据之间的相关关系对事物进行预测。总的来看,大数据技术对事物进行数据化的方法可以分为三步:关于事物的数据的获取——数据的分析处理,找出数据之间的相关关系——基于相关关系对事物进行预测。

相对于传统的方法,事物数据化的方法有着极为重要的突破性意义,这种突破性意义在于它实现了一种范式的转变,即从因果关系转变为相关关系。传统的因果关系建立在实体性的物之间的相互作用的基础上,或者,建立在时间上先后发生的事之间的关联性的基础上。实体性的物以及发生性的事是传统因果关系的核心。而大数据时代的方法论则以数据化为基本前提,倡导“量化一切”[2],追求“世间万物的数据化”[2]。在完成数据化之后,需要处理的对象不再是时空中的实体或者时间中的事件,而是数据,需要分析的是数据之间的关系而非现实事物之间的关系。因此,传统的因果关系就变得不再重要。在很多大数据理论家看来,因果关系甚至已经过时,应该用数据之间的相关关系来取代传统的事物之间的因果关系,“大数据时代的最惊人的挑战,就是社会需要从对因果关系的迷恋中解放出来,用更为简单的相关关系来取代它”[3]。在他们看来,因果关系是一种特殊的相关关系,因果关系可以还原到相关关系之中。而且,相对于因果关系,相关关系可以更加有效,可以更好地对事物进行预测,“大数据的相关关系分析法更准确、更快,而且不易受到偏见的影响”[2]。这种方法论背后的逻辑在于:将事物与事物之间的关系数据化,然后用数据之间的相关关系来解释事物之间的关系。有些大数据理论家如安德森(Chris Anderson)甚至走得更为极端,认为仅依靠大数据就可以很好地解释世界,大数据意味着理论的终结,大数据可以取代各种理论,“大量的可用数据,以及处理这些数据的统计工具,提供了一个全新的方式认识世界。通过相关关系而不是因果关系,即使没有清晰的模型、统一的理论,甚至没有任何机理解释,科学依然能够取得进步”[4]。

必须要承认的是,大数据的这种事物数据化的方法确实有诸多优势。首先,就广度而言,事物数据化方法可以处理空前多的内容,它处理的“不是随机样本,而是全体数据”[2],数据不再是局部性的而是全体性的。而且,大数据技术可以处理之前所不能处理的非结构化数据,它可以“为非结构化数据提供结构”[5]。通过对这些大数据的分析处理,就可以发现诸多新的、之前未曾发现的相关关系。其次,就精度而言,大数据的这种事物数据化方法可以更为精准地对事物进行预测,这一方面是因为它所拥有的数据更为全面,另一方面也是因为它对数据的处理能力空前提高。

需要注意的是,虽然这种方法具有种种优势,但它并不是没有问题。例如,有些大数据理论家认为在大数据时代因果关系已经过时,它应该被相关关系取代。在笔者看来,这种说法实际上是偏颇的。我们不仅需要知道事物“是什么”,而且总是在寻求事物的“为什么”。相关关系可以告诉我们“是什么”,但是却不能够告诉我们“为什么”。它可以“说明”,却不能“理解”。我们不但需要“事实”的说明,还需要“意义”的理解。传统因果关系依旧可以非常好地发挥自身的作用,它可以让我们知道“为什么”,帮助我们理解事物并知道事物的意义。大数据实际上只能知其然而不知其所以然,“‘大数据’用事实向人类宣告:‘知其然不知其所以然’,既是电脑不如人脑的劣势,也是电脑超越人脑的优势!”[6]总之,从理解与说明的角度讲,因果关系永远都不会过时,永远都不会被相关关系所取代。实际上,相关关系和因果关系是性质不同的两类关系,是两回事,“确立起有意义的相关关系是一码事,而从相关关系到因果属性的跨越则又是另外的一码事”[7]。

从另外的角度看,传统上的因果关系,很多时候是从时间发生的角度来理解的。原因在时间上要先于结果,然后,结果伴随原因而发生。休谟说道:“原因必须是先于结果的”[8],康德也说道:“原因的因果规定性(原因的一种状态)一定先于结果而存在……否则在原因和结果之间就不能设想出什么时间连续性来。”[9]从本质上讲,相关关系只能是一种数量关系,而数量关系显然不同于时间上的发生关系。按照胡塞尔的观点,数是一种本质构造物,其规定性与时间无关,它是超时空的存在。本质不同于事实,与时间无涉。胡塞尔说道:“对本质的设定首先是对它的直观的把握,丝毫不包含对任何个别的事实的存在设定,纯本质的真理丝毫不包含有关事实的断定,因此甚至不重要的事实性真理也不能从纯本质真理本身推出。”[10]从这个角度看,相关关系与因果关系性质完全不同,因此自然也就无法相互取代了。

总之,二者之间与其说是相互取代的关系,不如说是相互配合的关系,“在实践中,理论和数据相互支撑。那不是一个关于数据相关关系对阵理论的问题。数据相关关系的使用使人们可以检验和精炼理论”[7],“还要对因果关系产生有启发性的认识,包括理论、假设、现实世界的心理模型、事情的原委等,两者必须更密切地相互配合”[11]。其实,除了这种用相关关系取代因果关系的做法有问题之外,更大的问题在于将事物数据化的方法应用到人的身上。对人进行数据化的做法,会引发更大的后果,更加需要我们对之进行哲学上的反思。接下来,我们展开关于人的数据化的讨论。

2.人的行为与历史事件的数据化——决定论与自由

在很多大数据理论家看来,大数据的数据化方法,不单单适用于事物而且也可适用于人,可以对人的行为进行数据化。对人的行为进行数据化的方法同样也可以分为三个基本的环节:将人的行为以数据的形式记录下来,进而获取大量的数据——借助现代计算技术对数据进行分析处理,并找出其中所蕴含着的数据之间的相关关系——基于这些相关关系对人的行为进行预测。很多大数据理论家都认为这种方法是非常有效的。例如《爆发:大数据时代预见未来的新思维》的作者巴拉巴西就认为,基于大数据技术,人93%的行为都是可以预测的,而且这种预测是非常准确的。他说道:“他们有充分的证据证明,人类的大部分行为都受制于规律、模型以及原理法则,而且,它们的可重现性和可预测性与自然科学不相上下。”[12]由此,甚至可以引申出一个结论:所谓的自由意志其实是表面的。在大数据时代,只要获取了充足的数据,就可以准确地预测出人的行为,“每个人的意志都是自由的,这使得所有事情都变得复杂起来——包括电子邮件、打印资料以及浏览网页等,都变得复杂起来。不过,不管我们做了什么,我们都不知不觉地遵循着一个规律——幂律规律”[12]。也就是说,人的行为其实是被决定的,它符合固定的规律。按照这种方法论的逻辑,它实际上宣告了人的自由意志之不可能,并用决定论取代了人的自由意志。假如人的行为是被决定的,那么历史事件实际上也是被决定的,因为历史本身无非是人的行为的集合。众多人的历史行为构成了历史事件,而众多的历史事件构成了历史。按照一些大数据理论家的说法,在以前,历史之所以被认为是无法预测的,是因为之前的人们并没有掌握足够多的历史数据,一旦我们掌握了足够多的数据,那么,我们就可以对历史进行预测。大数据时代的到来,实际上宣告了这种历史预测的实现。历史不再不可捉摸,历史的运行实际上也遵循着大数据之间的相关关系,被大数据的相关关系所决定,“历史不会重演,却自有其韵律。虽然万事皆显出自发偶然之态,但实际上它远比你想象中容易预测”[12]。

首先,我们必须承认大数据时代的到来确实意味着一种重大的甚至根本性的变革。大数据确实可以在很大程度上提升预测的准确性。在前大数据的时代,人们虽然也可以获取很多数据,但相对于“大数据”而言,它们只能算作“小数据”。大数据则真正实现了对人的信息的充分收集,“很有可能,一种比以往更广泛的,关于我们行动的痕迹会被收集起来,并被保存在数字化记忆中”[13]。大数据时代所带来革命性进展体现在以下两个方面。第一个方面是就数据的获取而言的。在小数据时代,人们通常以抽样调查的方式来获取数据,而抽样的方法意味着其所获取的数据是不全面的,基于这种不全面的数据所做的归纳只能是不完全归纳,它所得出的结论只能是或然的、可错的。而大数据时代的到来,则意味着数据不再是局部的获取,而是全面的获取,不再是不完全的归纳,而是完全的归纳。数据是整全的数据,无一遗漏,这也就极大地提高了预测的准确性。第二个方面是就数据的分析而言的。首先,在大数据时代,人们借助于超算、云计算等革命性的计算工具,空前提升了数据的分析处理能力,而且这种能力是之前的时代所无法比拟的;其次,数据处理所寻求的是数据之间的相关关系,而不再是传统的因果关系,因果关系不再重要,重要的是相关关系,知道相关关系就已经足够了;最后,大数据时代的革命性技术可以处理非结构化的、模糊的数据,大数据时代所需要的不是精确性而是混杂性,“执迷于精确性是信息缺乏时代和模拟时代的产物”[2],原本无法处理的非结构化数据在大数据时代突然具有了重要的价值,大数据可以从这些混杂性的数据中,找出其中的相关关系,将之结构化,为非结构化的数据提供结构,“大数据——必须有吸收非结构化数据的能力”[5]。

正是因为有了上述的革命性进展,大数据才可以获取之前所不能获取的数据(从局部的数据转变为全体的数据),处理之前所不能处理的数据(从只能处理结构化的数据转变为可以处理非结构化的数据),发现数据间所蕴含的之前未曾发现的相关关系,从而可以借此对人的行为进行空前准确的预测,“建立在相关关系基础之上的预测是大数据的核心”[2]。

虽然大数据具有以上的种种优势,但我们依然需要考虑到人的特殊性。在笔者看来,人不同于物,认为人的行为可被预测甚至被决定的观点,有些夸大,它并没有充分考虑到人的特殊性。

接下来,我们从存在论的角度,指出人的存在方式的特殊性,以及由此而来的不可预测性。在此,我们可以借助于海德格尔的“基础存在论”。按照海德格尔对“此在”的理解,此在的基本存在方式在于“时间性”。此在总是朝向着“未来”筹划自身,为未来而“操心”。相对于过去和现在,未来是此在之存在的更为重要的环节。此在的这种朝向未来的敞开性,是此在之为此在的一个基本的规定性。大数据对人进行数据化的方法存在着一个明显的缺陷:对人进行数据化只能是对过去、现在的人进行数据化,而无法对未来的人进行数据化。这也就决定了对人的数据化是不可能全面的。按照海德格尔的理论,相对于过去和现在,未来是人的时间性之最为重要的一维,但这最为重要的一维却恰恰是大数据的数据化方法所欠缺的。另外,人朝向未来“敞开”自身,朝向未来“绽出”自身。这种敞开、绽出,从本质上讲,是一种可能性而非现实性,是一种可能存在而非现成存在。而按照大数据的方法论,人是可预测的甚至是被决定的,这也就意味着人的未来存在都已经被确定好了,人不再是一种朝向未来的可能存在,不再是“此在”,而是成了“现成的存在者”。按照海德格尔的理论,现成的存在者没有领会存在的能力,而对存在本身的领会是此在不同于一般之“物”的根本特征所在。大数据对人的数据化,实际上意味着将人抹平为一般意义上的物,此在如同桌子椅子一样,而不再是本来意义上的“此在”了。

因此,大数据对人的数据化实际上是把人当成了一般的“物”,是对人的“异化”“物化”,这不得不引起我们的警觉与反思。舍恩伯格对此也有着清醒的认识,他说道:“人类住进了数字圆形监狱”[13],“太多的数字化记忆可能会压垮人类的思维能力、决策能力、应变能力和怀旧能力”[13],“数字化仿佛一个诅咒,人们对它愈发强烈的依赖阻碍了我们从中学习、成长和发展的能力”[13]。大数据方法论方兴未艾,正在越来越广泛地被应用。这种方法的前提与后果尚不明朗,急需哲学上的反思,尤其是在这种方法论应用到人自身的时候。如果人们在对大数据方法论缺乏足够反思的情况下,就已经普遍地接受了它,那么就有可能加剧人的“异化”“物化”,导致人们的“本真状态”的丧失。大数据在给人带来自由的同时,也可能带来潜在的奴役,如同伯曼(Jules J.Berman )所说的:“当你有权访问大数据时,你会感到自由;而当大数据访问你的时候,你会感到被奴役。”[5]

当然,我们在此并不否认对人的行为进行数据化的可能性,也不否认对人的行为进行预测的可能性,而是试图指出大数据方法的限度与可能的后果。

二、大数据方法论的第二个层面:数据的事物化

所谓数据的事物化,指的是在数据的基础上对事物的构造,数据在现实的事物之中获得表达。它是大数据方法论的第二个重要层面。数据事物化的一个最为明显的例子就是3D打印技术。以3D打印技术为例,我们可以更为直观地体会到数据事物化的实实在在的发生。

数据的事物化是事物的数据化的逆向表达,它以事物的数据化为前提,但是又远远地超越了事物的数据化。如果说事物的数据化主要是把事物以数据形式存储下来并对数据关系进行分析处理,从而可以对事物进行预测的话,那么数据的事物化则不仅仅是对事物进行预测那么简单,它是对事物的直接构造。分析预测更多的是对事物的认识,虽然大数据的出现可以使得这种预测获得前所未有的广度与精度,但它仍旧主要停留在认识论意义的层面,是一种认识方法的拓展。相对而言,数据的事物化则具有更为根本性的革命意义。它是一种对事物的全新的构造模式,它不再仅仅局限在认识论的领域,不再仅仅是一种认识的方法,它深入到本体论的领域,内在地改变了人们构造事物的方式,是一种全新的事物构造方法,不亚于一场革命。数据的事物化也是最能够体现大数据方法论的突破性的地方。

1.事物构造范式的转变

数据事物化的方法,意味着一种对事物的全新构造方式,其革命性的意义在于对事物的构造范式进行了根本性的转变。

在前大数据时代,人们构造事物的一种典型的模式为:对事物的需要——形成事物的概念、图型——对事物的构造,即人们首先有了对某种事物的需求,然后人们在头脑中形成了这个事物的基本概念或图型,最后根据概念或图型来构造事物。用最为简单的话来说,即根据头脑中事物的蓝图来构造事物。实际上,这种思路从久远的古希腊就已经产生,柏拉图“模仿说”就是一个典型的代表。工匠对床的构造,是对头脑中床的图形的模仿,而头脑中床的图形则又是对于床的理念的模仿。理念(Idea)这个词,还有眼睛所看到的东西的意思(ide即“看”的意思),因此它也可以翻译为型相,型相是现实事物的构造蓝图。这里蕴含着双重含义:首先,理念是现实事物的模仿原型,现实事物依据它而被构造出来;其次,理念与现实事物在性质上、存在方式上是根本不一样的,二者分属于两个不同的世界。柏拉图的这种构造模式,一直支配着西方哲学的事物构造理论,“事物的概念、图型—事物的构造”的思路从本质上讲并没有超出柏拉图的构造范式。按照现代西方哲学的基本区分,概念、图型和现实事物是不同的存在物,但概念、图型却可以规范、导引现实事物。例如,胡塞尔就对“本质”与“事实”做出了严格的区分。事实是现实之物,在时空中存在,而本质则是超时空的,它是一种观念性的存在而非现实性的存在,它不受时空的制约,抽象概念并不会随着时间空间的转变而发生变化。但是,本质又可以规定事实,对事实进行“导引”,人们按照本质的范畴体系也即形式本体论和区域本体论来规定现实事物。总之,概念、图型同事物是性质不同的存在物,但人们却可以依据概念、图型来规定事物。以上是就构造的发生过程而言的,而就构造的结果即已经被构造完成的事物而言,则适用于亚里士多德的“形式—质料”模式。例如,工匠依照头脑中床的概念、图型来构造床,构造出来的床具有床的形式和木头的质料。实际上,我们不难发现,床的形式来源于概念、图型。被构造物的形式是由构造者预先具有的概念、图型所赋予的,是概念、图像在被构造物之中的凝固与体现。

那么,大数据时代的构造理论从何种意义上改变了这种传统构造范式呢?如果传统构造范式的内在逻辑是“事物的需求——事物的概念、图型——事物的构造——事物”的话,那么大数据时代的构造范式则是数据事物化的范式,这种范式的内在逻辑是“事物的需求——事物的数据化——数据——数据的事物化——事物”。一旦事物的数据被获取之后,就立马可以进行数据的事物化,从数据可以直接通达事物,事物直接作为数据的表达而被构造出来。

基于对这两种不同逻辑的反思,我们会发现以下的根本不同之处:大数据时代的事物构造模式不再需要概念、图型,而是直接从数据到事物,概念、图型变得不再必要,只需要有数据就足够了。因此,这也就意味着“概念、图型——事物的构造”的模式转变为“数据——事物的构造”的模式。大数据并不需要概念或者概念所组成的理论来构造事物,也无须一张蓝图,它需要的仅仅是数据。

大数据之数据事物化的构造理论相对于传统构造理论的另一个不同之处在于:数据与事物之间并不存在一个明显的鸿沟。输入数据之后,可以直接“打印”出事物。事物更像是数据的一种“翻译”“表达”,而且这种“翻译”与“表达”具有很高的直接性和精确性。表达可以高度地契合于数据,二者之间并不存在一个明显的间距。而按照传统的构造理论,在图型与事物之间,存在着一个永恒的鸿沟,被构造出来的事物仅仅是对图型的模仿,而永远无法真正契合于图型。图型(理念)与事物处在性质不同的两个世界中。而在大数据的构造范式中,数据与事物不再是一种模仿的关系,而是一种表达的关系。事物是数据的一种直接的、完全的表达,二者高度契合,并不存在一种无法消除的鸿沟。也就是说,到了大数据的时代,间接“模仿”的范式转变为直接“打印”的范式。

总而言之,大数据实现了构造范式的转变,其意义不仅仅体现在认识论层面,更体现在本体论的层面。对于认识论层面的意义,王天思、王天恩已经有了一些研究。王天思创造性地提出了“创构认识论”的新范畴,并指出:“与‘描述认识论’相对应,‘创构认识论’更符合虚拟技术条件下,大数据出现之后的信息时代的性质”[14],他敏锐地意识到大数据所带来的“创构”方式的变革,看到了大数据“创构”的未来指向性,“一方面,未来是我们创构的;另一方面,只有在创构中,才可能真正有效地预测未来”[14]。与之类似,王天恩也指出了“相关关系”“数据物化”与“创构活动”之间的紧密联系,“在大数据相关关系中,因素相互作用过程前的因素和潜在结果之间的相关关系,对于数据物化从而对创构活动特别重要”[15],“也正是通过相关,大数据使因素这一关键概念得以凸显,从而导向了与描述不同的创构——对新事物的创设。而创构正是在大数据基础上,以数据物化为典型形式的基本活动”[15]。本文则不仅仅把大数据构造看作同传统不同的认识论方法,同时也更加突出其在本体论上所实现的范式转变。

2.数据事物化之构造的三个层次

数据的事物化随着科技的发展有了非常多样化的呈现方式。在此,我们可以对数据事物化的不同层次进行大致的归类:音像、虚拟现实、现实。

就“音像”而言,它是最早出现的,它以对声音和图像的数据化为基础,然后,在此基础上进行数据的事物化——把以数据的形式存储下来的声音、图像再次展现出来。一个典型的例子就是数字电影。数字电影与胶片电影的根本不同就在于它有了“音像的数据化”和“数据的音像化”的过程。首先音像以数据的形式被记录下来(音像的数据化),然后通过对数据的读取再现出音像(数据的音像化)。“虚拟现实”(Virtual Reality)技术的出现,则在此基础上更进一步,使得二维的图像变成了模拟的三维现实。这种通过数据的事物化而产生的虚拟现实,使得人们仿佛置身于现实世界之中。3D打印技术的出现,则标志着通过数据事物化就可以直接创造出现实事物,而不仅仅是虚拟现实事物。只要输入事物的数据,就可以直接将事物打印出来。在3D打印时代,数据与现实之间不再存在鸿沟,数据的事物化意味着数据可以直接转化为现实。当然,我们也可以设想更为先进的技术的出现。哲学不仅应该探讨在现实世界中已经存在的事物,而且应该充分考虑到未来可能出现的事物。例如,我们甚至可以设想,未来的人可以完全生活在数据事物化的世界之中,即整个世界都是数据的表达、数据的事物化。如此一来,“世界”的含义就发生了根本性的转变,“有了大数据的帮助,我们不会将世界看作一连串我们认为或是自然现象或是社会现象的世界,我们会意识到本质上世界是由信息构成的”[2]。这时候,我们的世界观、我们的生活方式都将发生根本性的改变,“将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观”[2]。

如果对数据事物化的三个层面进行反思的话,就会发现其与传统构造模式的另一个重要的不同之处:三类数据事物化中的两类,即音像和虚拟现实,作为被构造物并没有传统意义上的形式与质料的区分。例如,就虚拟现实而言,我们看到的是由数据事物化而产生的三维立体的虚拟相,但是这个相本身并没有任何的传统意义上的质料,只有纯粹的“形相”。一旦投影结束,这个虚拟的“相”立马消失,并不会剩下什么质料。同样,二维的图像,如数字电影,也是如此。也就是说,对于大数据的数据事物化而言,在前两个层面上,其构造物无须任何意义上的质料,只有作为数据之表达的纯粹的形式。我们在前面提到,在传统的构造模式中,构造物同时具有质料和形式。而在数据事物化的构造模式中,被构造物可以没有质料(当然,投影出来的“光”本身似乎也可以被看作一种特殊意义上的质料,但是,这种意义上的质料同传统的质料相比还是有着很大不同的),而只有形式。当然,就数据事物化的第三个层面来说,被构造物是有质料的,与传统的被构造物一样,它是同时具备形式和质料的现实之物。但是,在3D打印这样的例子中,它实际上也是把质料作为一定的参数、数据来处理的。也就是说,质料实际上也首先被数据化,然后作为数据被处理。例如,质料的强度、硬度、体积等等都被数据化。至于到底哪种材料符合这种数据要求,是无关紧要的,它可以是某种钛合金,也可以是某种纳米材料。关键在于这些材料背后的参数是否符合数据要求。在数据事物化的构造模式中,质料也被数据化。重要的是数据,而不是质料本身。

三、对大数据方法论的反思——大数据方法论的界限

在上文中,我们从事物数据化和数据事物化的层面对大数据的方法论展开了探讨。在事物数据化的层面,我们从一般事物的数据化和人的数据化两个角度展开了探讨;在数据事物化的层面,我们则从事物构造的角度,突出了数据事物化之构造方法所带来的事物构造范式的转变,理清了它的三个层次和其中蕴含的突破性意义。

总体而言,大数据方法论的第二个层面(数据的事物化)是建立在第一个层面(事物的数据化)的基础之上的,因为数据的事物化首先需要有数据。因此,从这个角度而言,事物的数据化更为基础。下面,我们从事物的数据化入手,对大数据方法论进行哲学上的批判,指出大数据方法论的界限,从而为自由等数据化之外的东西留出地盘。大数据方法论以事物的数据化为基础,倡导“世间万物的数据化”。我们试图指出这里的“世间万物”恰恰是不准确的。数据化的方法无法应用到所有的事物之上,而是有其自身的限度。下面,我们从三个不同的角度展开论述。

1.事物侧显的无限性与数据化的有限性

首先,就空间的角度而言,事物数据化的方法其实只能数据化事物的某些方面,而无法把它们完全数据化。在此,我们可以诉诸胡塞尔现象学关于事物“侧显”的一些论述。在胡塞尔看来,事物的侧显是一个无穷无尽的过程,原则上我们不可能直观到事物的所有侧面,总是有尚未呈现出来的侧面存在。胡塞尔说道:“目前指出下面几点就已经足够了,即自然事物的空间形态基本上只能够呈现于单面的侧显中;而且,尽管在任何连续的直观过程中这个持续存在的不充分性不断获得改善,每一种自然属性仍把我们引入无限的经验世界;每一类经验复合体不管多么广泛,仍然能够使我们获得更精确的和新的事物规定性,以至于无穷。”[10]我们在观察事物的时候,总有某种视角和间距。随着“动觉”的改变,事物所呈现出来的侧面也总是随之改变。如我转动我的眼球、挪动我的脚步,等等,都会导致事物所呈现的侧面的不同。结合大数据来说,我们可以设想通过数码相机来获取事物侧面信息的过程。我们在使用数码相机进行拍摄的时候,也总是在某个特定的角度和距离上进行拍摄,角度和距离的细微的改变都会导致事物侧面显现得不同。另外,就同一个侧面而言,还存在着图像清晰度的问题。为了获取事物全面的信息,就需要像素尽可能的高。但从原则上讲,照片像素的提高是一个无限的进程,我们总是可以设想一个更高的像素,从而可以拍摄出某侧面的更为清晰的图像,这个过程是无穷无尽的。而大数据的数据化在实际的操作中,却总是有限的。侧显在理论上的无限性与数据化在实际操作中的有限性之间,产生了不可避免的张力,这就决定了数据化只能够获取事物的一部分信息而不可能获取全部信息。

2.事物的开放性与数据化的有限性

以上是从空间的角度讲的,就时间的角度而言,数据化也存在着一个极限,即数据化只能对人或事物的过去以及现在进行数据化而不可能对人与事物的未来进行数据化。对于未来,大数据只能够在过去和现在的数据的基础上,对之进行预测。由于未来总是开放性的,它不可被数据化,这也就决定了大数据对未来的预测总是存在出错的可能性。因此,严格意义上的决定论是不可能成立的,哪怕它借助的是大数据的最新技术。

此外,即便是对过去的数据化,也不可能是完全的数据化。很多事物的过去,要远远超出大数据出现的年代。而且,就算过去的信息可以以某种方式被存储下来,这种存储也总是有损耗、有限度的。更为关键的是,过去之为过去,从时间性上来讲,是不可以重演的。时间是单向度发生着的,一旦错过了某事物的过去,那么,这段时间的数据就永远地缺失了。例如,我们不可查阅一万年以前人们的交往数据,因为那时候大数据尚未产生,也没有对他们的交往行为进行数据化。

3.行为的内在性与数据化的有限性

根据我们在上面所做的分析,人不同于一般意义上的物。人之存在的特殊性,决定了人的存在本身抗拒被数据化。真正能够被数据化的只能是人的身体行为。就人的身体行为而言,上面两条数据化的局限性也同样适用。在这里,我们需要特别指出的是人的内在行为,以及这种内在性对数据化的抗拒。按照现象学的观点,每一个外在行为其实都伴随着一个内在的意识过程,包括意识对对象的指向即意向行为,以及意向行为的“自体验”,等等。例如,“我举起我手中的杯子”这个简单的行为,其实可以分为两个层面,即外在的手臂举起杯子的物理运动过程和内在的关于举杯子的意向过程。在此,我们可以将它们区分为外显行为和内在行为。外显行为或许是可以被数据化的,但是内在行为却不可被数据化。内在行为之内在性,决定了它不可能被外在地观测到。有的大数据理论家认为,借助于大数据技术,即便是人的内在的情感、态度等也可以被数据化,“数据化不仅能够将态度和情绪转变为一种可分析的形式,也可能转化人类的行为”[2]。但其对情感、态度进行数据化的方式依旧是统计人们的外显行为的数据,本质上是通过外显的行为来推测内在的行为,它仅仅是一种间接的观察,而非自体验。在此,或许有人会想到脑电波的测量技术。但是,脑电波的测量本身是以脑电波的外显为前提的。外显的脑电波不等同于内在的意识行为。意识行为本身很难被还原为电荷的运动。电荷的运动距离意向行为、意义的构造、情绪的体验等还非常遥远。因此,总的来说,人的行为可以区分为外显的行为和内在的行为,外显的行为或许可以被数据化,但是内在的行为则抗拒被数据化,从原则上讲它是不可被数据化的。

以上是从三个不同的角度对大数据方法所做的“划界”。其实,大数据的数据化还存在着数据存储的界限、数据处理能力的界限等,在此不再展开。通过这种“划界”,我们可以为人的自由等数据之外的事物留出地盘,从而可以防止大数据方法论的滥用。大数据方法论一旦被滥用,就可能会带来危害。实际上这种滥用的趋势已经存在了。伯曼说道:“大数据领域的当下发展趋势表明,在未来的几十年会出现滥用的行为。在很多情况下,会产生有害的社会效应。”[5]因此,对之进行哲学批判显得越发必要。

总之,用数据化的方法来看待世界、与世界打交道,固然有一定的优势,但它不是万能的,而是有其自身的限度,这种限度决定了大数据方法应用的范围。如同知性范畴只能够应用到经验的范围之内而不可作超验的应用一样,大数据的数据化方法也有其自身的应用范围,而不能作“超越”的应用。它只是我们与世界打交道的众多方法中的一种,而不是唯一的方法,其他的方法也有其自身的意义与价值。

猜你喜欢

因果关系方法论事物
因果关系句中的时间顺序与“时体”体系
玩忽职守型渎职罪中严重不负责任与重大损害后果的因果关系
美好的事物
汉学方法论值得关注
另一种事物(组诗)
做完形填空题,需考虑的逻辑关系
UAF的方法论意义
抓改革落实,习近平的十大方法论
简述黑格尔的哲学史观与方法论
TINY TIMES 3: A REAL HIT