大数据技术的关系实在论基础
2019-11-07刘伟伟桑彦娟
刘伟伟,桑彦娟
(1.山西大学 哲学社会学学院,山西 太原 030006;2.中南大学 公共管理学院,湖南 长沙 410083)
大数据技术的蓬勃发展给科学哲学和技术哲学带来了前所未有的挑战和机遇,其中一个重要的问题就是关于其实在论基础的考察,而这一问题在当前国内外研究中还比较薄弱。当代科学实在论在超越传统实在论立场的基础上,从本体论、认识论和方法论等各个层面上重建了实在论的思想大厦,进而能够为我们研究当代科学、技术问题提供重要的支撑。从实在论的角度上来看,大数据技术的实在性是在其“技术”的层面上突显出其意义的,然而作为其核心的则是“关系实在”,即大数据技术所主要把握的是事物之间实在的“相关关系”,为此我们有必要对大数据技术的关系实在论基础进行深入研究。
一、大数据技术实在蕴含关系实在
大数据技术的实在基础究竟是什么,这需要从“实在”概念本身说起。不同哲学家对于“实在”概念理解上的分歧造成了“实在”概念的不清,这使得“实在”的意义具有了多样化的解读模式,既然要对一种技术的实在基础进行探讨,我们就有必要先从“实在”概念的理解入手对此问题进行澄清。广义上的“实在”概念有两个方面的内涵:一是“界定性或规范性的,即用相应的其它概念来界定,突出‘实在’的独立性、在先性和第一性”;二是“描述性或构造性的,即用其它的实在基元或要素来描述,突出‘实在’的本质特征、结构或属性”[1]。第一种界定方法强调实在本身是可以独立于其它一切事物的、具有第一性的概念。这种对于实在的定义是通过与其它事物定义的比较中得出的,这使其具有了普遍意义上的本体论色彩,其意义类似于我们一般所说的“本体”,这种实在观本质上是一种概念实在观。但是,这里的“实在”存在“人工物悖论”,而大数据技术作为一种有人参与的“人工物”,是人类发挥主观能动性而创造出来的心与物的结合体,这一点并不符合概念实在观认为实在“独立于人类心灵”的基本原则,因而,我们显然不能用概念实在观来对于大数据技术的本质进行定义。
第二种界定方法,是从“殊相”的角度去定义实在,这种定义方法更加侧重以实在所表示事物的性质的描述作为界定实在的依据。这里的“实在”,并不具有一般哲学意义上的“本体”含义,这种定义实在的方法可以解决概念实在观所可能出现的“空名”、语义上的悖论和概念解释不清等问题,因此它也被叫做性质实在观。性质实在观是对概念实在观的发展,它意味着个体的实在性是关于其性质的实在性,即“性质”本身就是一种实在。性质实在观还使得“实在”所表示的范围有所扩大,这一点为科学实在和技术实在的丰富内涵奠定了基础,“科学实在是在人的活动中经由物理操作和心智操作而建构起来的。它是人的感性物质活动和理性思维活动的共同结果。”[2]113-116也就是说,“科学实在”的建立不仅基于人类物质性的活动,而且也依赖于人本身的主观能动性和思维活动。
对于大数据科学而言,其实在基础就是数据之间的隐含关系及其内在规律。那么数据是什么?数据本身就是事实,事实就是世界的本原,即数据是世界的本原。关于数据的本质,当今学界有两种观点:一是表征论,二是关系论。表征论认为数据表征事实,“表征”可以简单地理解为“表现、体现或者反映”,也就是说数据只是单纯反映事实本身。国内学者黄欣荣教授认为,“数据从本质上来说应该是主体对物质客体世界的一种主观建构,是我们人类利用自己的主观能动的意识对客观物质及其关系的一种数量描述”[3];关系论认为,数据的本质是关系,数据是反映事物之间关系的,而不是仅仅反映事实本身,数据是信息的载体,数据以反映信息为其核心宗旨,大数据技术无需单纯描摹简单事实,而是需要将海量数据承载的信息进行析取、整合,并根据结果分析出事实之间的关系,以便人们更好地了解和认识这个世界。尽管如此,科学不同于技术,大数据科学也不同于大数据技术。科学的发展需要进行大量的研究和实验,而进行各种各样的科学活动就免不了会运用一些仪器和设备,这些仪器和设备正是作为技术的表征而出现的。以大数据科学为例,它与计算机科学的发展是密不可分的,计算机系统将具体的事物现象转化为抽象的数据,其算法、集群体系、计算框架和数据管理方法等都是用来集中处理大量数据信息的,这正是信息科学对大数据技术的影响。在此过程中,信息化的进步促进了数据的增长,而数据的增长又促进了大数据技术的迅速发展。“大数据”本身具有规模性、多样性、高速性和价值性特征,这些特征决定了大数据科学理论最终是要应用于社会且服务于大众的。具体来说,“大数据”的存在具有工具性和价值性的两个维度,“从工具维度看,大数据是研究方法……从价值维度看,大数据是潜在资源”[4],这两个维度的真正实现都必须依托于大数据技术。
由此可见,大数据技术以大数据科学的发展为依托,而大数据技术的实在基础也不同于其大数据科学的实在基础。在这一点上,比利时哲学家霍托伊斯提出了与“纯科学”相对的“技科学”概念,其意为带有技术性质的应用基础科学研究。在“技科学”出现之前,科学只是纯粹的理论基础研究,而“技科学”则是指“科学和技术相互杂合的各种实践”[5],这一点充分凸显了技术和科学之间的紧密联系。科学实在论研究的“科学实在”是指纯科学,纯科学几乎不涉及理论性结论的价值,而技科学是科学和技术的结合,甚至更偏向技术层面,具有价值关涉的客观性。大数据技术就可以被归类为这样一种“技科学”,其实在基础自然不能等同于一般的科学实在,而是更倾向于以技术本身而存在,“技术本身作为一种实在以及通过技术而显现的实在”[6]77。那么,我们将大数据技术的实在基础,也就是大数据技术的本质看作技术实在是否可行?对于技术本身而言,它可以被分为两类:一是人工制品,狭义上是指人类制造出的工具、仪器等宏观可见设备,对大数据技术来说,其依托的就是互联网、计算机等电子设备,然而这些设备并不能等同于大数据技术本身;二是人工制品所营造出的一种虚拟环境,比如,电子屏幕上显示的可以传达信息的数字,制造商新开发的软件和应用等,这也叫“虚拟实在”。这两种对技术的分类也分别可被叫做“一级技术实在”和“二级技术实在”(1)“二级技术实在”的概念由我国上海社会科学院的成素梅教授最先提出。, “技术实在一方面是指经由人的技术活动而创造出来的具有实物形态的技术产品(主要指科学仪器)……另一方面,是指通过人的技术活动呈现出来的非实物形态的信息与环境”[2]113-116。一级技术实在具有实用性,二级技术实在具有再现性和对象性。大数据技术本身不是计算机这样的人工制品,它需要通过挖掘数据以实现其在社会中的应用,所以说大数据技术是二级技术实在,二级技术实在同时具有一级技术实在的具体可感性和“科学实在”的主客观统一性,因此大数据技术也承接了科学实在和一级技术实在,大数据技术在非实物形态的技术活动的层面上可以说是技术实在,即大数据技术以技术活动呈现出来的虚拟环境的方式而存在。
把大数据技术的实在基础当成技术实在,也就是默认大数据技术本身就是以二级技术实在形态存在,是否合理?这就又涉及技术本身是目的还是手段的问题。在这里,我们认为技术更主要的是一种手段。原因在于,技术本来就比科学多了价值的属性,“技术作为一种有用的、工具(无论是生产工具还是生活工具)性的实在,一定程度上含有工具论的色彩”[6]73。把自然物改造成人工物不是技术的最终目的,技术的工具性和功用性决定了效用是技术价值的核心。大数据技术是一种海量数据的采集、挖掘和处理的技术,但如果大数据技术仅存在于“数据”这一层面,那么其功能也就没有任何意义了,因为数据本来就具有一定的“客观实在性”,但数据背后的信息及其内在的关系则是单独的技术表征层面所不能揭示的。据此来看,大数据技术的实体实在具有一定的功能性,也就是某种实际的效用。这种效用决定了大数据技术是以什么样的形式存在,而不只是单纯的“技术”,“技术实在就应该是一种在现实中实现其功能的工具或手段……是一种关系实在。”[6]74本质上来看,这种关系就是工具手段和功能效用之间的关系,大数据技术作为工具手段具有一定的效用,它的效用取决于数据的功能。同时,数据既可以反映事实,也可以表征关系,表征关系就是数据的功能之一,而大数据技术的效用就在于服务于人们用数据来表征事物之间关系的意图,从价值论的角度来看,大数据技术实在的核心和基础就是关系实在。
二、大数据技术作为关系实在重构事物因果性
要想探究大数据技术如何表征事物之间具有实在性的“关系”,就要先从哲学史上的关系问题说起。关系本身有很多种,而因果关系和相关关系是人们最常见的两种关系形态。那么,大数据技术是如何重构事物之间的因果性关系的呢?回顾历史,作为经验论者,休谟认为观念和观念之间相互连接,心灵从一个观念过渡到另一个观念共有三种性质:接近关系、相似关系和因果关系,其中因果关系在人类认识世界的过程中所占的比例是最大的,“有关实际事情的一切推理似乎都是建立在因果关系上的”[7]。在实际生活中,人们往往把时间相近发生的事情看作是彼此之间具有某种关系,并且把发生在前面的事实或者行为自动当成后发生的事实或者行动的原因,这使得一切具有相近关系的事物都可以处在因果关系之中。可以说,因果关系的确立来自于人直接的感觉经验,而因果关系也是人类一切科学知识的基础。但是,休谟却对因果关系的必然性产生了怀疑。原因在于,只是因为两个事实的发生在时间上相近,就能说明时间靠前的事件是靠后一个的原因么?为什么经验会产生“事物必有因”的原则观念?根据经验主义的基本原则,人类一切知识都来自于人直接的感觉经验,那么关于事物因果关系的推论就来自于感觉经验的印象,即恒常汇合的经验。我们先对一种事物产生印象,然后再由这种印象推出另一事物的观念。由此可见,这种恒常会合的经验建立在我们的习惯和记忆之上,而并非通过理性推演获得。因此,对于两个在时间上接近的事物,我们只能假设它们之间具有一定的关系,但是不能由此判断出它们一定存在因果关系。休谟因果问题的核心就是,把因果关系当成切入点,然后通过对因果关系建立过程中一切不证自明问题的怀疑,实现对因果关系本身的冲击。严密的因果推理是理性的基础,怀疑因果关系相当于怀疑理性,而康德正是建立了一个严密的知识体系来说明人在先天认识范式的规范之下能够形成普遍必然的知识,从而达到为理性做辩护的目的。在逻辑上,可以说康德基本解决了休谟问题,而在实质上此问题仍然没有得到真正的解决。在康德的时代,因果关系问题并未得到切实的解决,那么在数据时代和信息时代,人们能否在关于因果关系的哲学层面上得到新的突破呢?
众所周知,因果关系是人类最常用的思维模式,“因果关系是解释客观世界中事物产生的现象和具有的本质之间存在的某种普遍联系中先后顺序和互相制约的关系”[8]。正是因为因果关系连接了现象与本质,所以因果关系才成为了一切科学和哲学问题的基础,这个基础一旦被动摇,那么一切知识的产生基础也就不存在了。在大数据技术的发展之下,普遍意义上的因果关系逐渐发生着变化,人们对事物的探索方式和思维也不仅仅限于传统的因果关系了。关于因果关系,学界存在着多种不同类型的定义。张志林先生在《因果观念与休谟问题》中提到三种最有研究价值的因果关系定义:马奇定义、萨普斯定义和邦格定义。其中,马奇定义可以被理解为一种决定论:“所谓原因是结果的一个非必要而充分的条件中的一个非充分而必要条件。”[9]41他把原因看作是结果发生的一个条件。如果原因是A,结果是B,那么其充分条件则是A能推出B,在此充分条件中B又能推出A,其中原因和结果是一种单一的推理关系。萨普斯定义则倾向于概率论:“因为作为原因事件的E1的出现会改变作为结果事件的E2出现的概率,亦即E1的出现会引起E2出现的概率发生改变,所以可以把E1和E2之间的因果关系界定为它们之间的某种特定的概率关系。”[9]43在萨普斯定义中,原因和结果的对应关系就不是那么完全确定了。如果原因是A,结果是B,它出现之后,只是增大了B出现的概率而已,并不是A发生之后B就一定会发生,这种概率论定义下的因和果不再一一完全对应。邦格对因果关系的精确定义是:“令在时间T1和T2分别有事件E1∈Se(x)和E2∈Se(y),而且这些时间和事件都是相对于同一参考系而言的。又设物质客体x对y施加了作用A(x,y)。我们说E1是E2的原因,当且仅当:(1)T1≤T2;(2)E2∈A(x,y)⊆Se(y)。”[9]47这个定义用函数表示事件,事件E1和E2分别是两个函数中的一个自变量,其中有A(x,y)的作用,当时间T1在时间T2之前,且后发生的E2在A的作用下包含于S函数这两个条件同时满足,那么我们就可以说事件E1和事件E2之间有因果关系。这种因果关系可以总结为一个函数作用于另外一个函数,这个作用是确定的。当两个条件都满足的话,这个作用必然发生,事件E1和E2之间一定具有因果关系。当然,邦格定义和马奇定义的核心思想比较类似,它们都表示因果关系是确定的,而萨普斯定义则认为原因只是在一定概率上促进结果的发生。
本质上来说,大数据技术对于因果关系的创新在原理上与萨普斯定义相类似。大数据技术的运用使得更多的数据得以被人们发现,而其中所承载着的众多信息也更为清晰地呈现在人们面前。例如,人类在当今时代一年所接触的事件和信息的总量大大超过以前几百年可以接触到的信息总量,而在这么庞大的信息数据群中,数据所表征的事实之间是否还有非常确定的因果关系呢?具体来看,大数据技术可以实现对海量数据的动态化管理,而数据和数据之间不再具有确定的因果关系,这意味着事实与事实之间也不具有完全确定和对应的因果关系了。例如,一个数据群的挖掘只是增加了另一个数据群所表征的事实发生的概率,二者并不一定连续发生。另一方面,数据之间的关联性变弱,事物的“因”与“果”之间也不一定一一对应了,可能出现一个原因对应多个结果,一个结果有着多种原因。这种因果关系的复杂性始终存在,只不过人们以往并没有对其加以充分的重视。总体来看,在大数据技术的数据分析过程中,由于数据层面上的“平等性”和“客观性”,人们不再简单地追求数据与数据之间的简单因果关联。事实上这种“追求”在大数据分析本身的技术平台中也是没有任何意义的,因为人们更多关注的是在大数据分析过程中数据之间的浅层表象“关联”,而所谓的“因果性”关联则需要借助于概率性的工具来加以判断,且这种判断在程度上、层次上和标准性等方面还需要依托于人为的主观 “认定”。由此可见,借助于智能化的、数据化的技术平台而展开的概率性分析在对于事物的因果性认知方面具有了显著的变革,这使得人们在关于事物的因果性本质认识方面具有了新的实在论辩护路径。
三、大数据技术作为关系实在强调事物相关性
以因果关系为主导的传统思维模式具有诸多弊端,这些弊端在大数据时代尤为明显。对于因果关系而言,其最大的特点是时间上的“前后相继”,人们要想探究真理,获得真的知识,就必须对研究对象之间内在的关系进行探究。以科学实验为例,通常人们需要先设计实验步骤,设置变量组控制变量,然后对实验现象进行观察,收集数据。得到实验结果后,人们再对实验结果进行分析,这是根据结果来推断原因的真理追求过程。问题在于,这种由果推因的方法一旦推及到别的领域当中的时候,就未必正确了。首先,想要推测一个事件发生的原因,就要先假设和推测,然后再想办法来证明假设的合理性。对于一个结果可能出现的原因,人们会提出多个假设,对每个假设都分别进行验证是一个浩大的工程,庞大的工作量会消费极多的人力、物力和财力,而且还不一定会得到正确的结果。一旦假设的出发点出现一点差错,后面的探究之路就完全偏离了正确的轨道,可谓“失之毫厘,谬以千里”。其次,环境的变化对于原因的探究也会产生影响。两个事物之间的因果关系和环境的关系是非常紧密的,一旦因果关系产生的环境发生变化,此关系就可能不复存在。最后,对单纯因果关系的探究并不能让人们认识到某些现象背后所隐藏着的深层次的内在关联,一些事物之间的关系不只是由A一定能推出B那么简单,而相关关系分析则可以较好地解决以上问题。
前面已经说到大数据技术重构了因果关系的确定性,将不同事物之间的确定关系由决定论引向了概率论,事物之间的联系没有那么紧密且对应了,即使两个事物之间仍具有因果关系,但是前一个事件也只是增加后一个事件发生的概率而已。那么,这两个事件还能不能在严格意义上被称作具有因果关系呢?我们认为可以,因为相关关系和因果关系并不是截然对立的。以往,相关关系被看作是一种和因果关系有着明显区别和分界的关系类型,但相关关系实际上是一种关联性较弱的因果关系,大数据技术的运用很好地体现了这一点,数据本身就是碎片化和去中心化的,碎片之间拥有平等的地位,不可互相取代,它们很难形成有序的体系,因此也很难具有强相关关系。或者说,相关关系其实是一种弱因果关系。在相关关系尚未引起人们重视的年代,事物之间的相关关系只是一个模糊的概念而已,因为不具有因果关系的确定性,相关关系很难被量化。相反,大数据技术的产生,将具有相关性的事物之间的相关度转化为具体的度量数值,这在一定程度上就可以把相关关系进行量化。那么,大数据技术是如何具体体现事物之间的相关关系呢?维克托·迈尔-舍恩伯格在《大数据时代》一书中说:“相关关系的核心是量化两个数据值之间的数理关系。”[10]也就是说,大数据技术是通过对数据的收集,并观察不同数据值的变化来确定数据背后所代表的事实之间的关系的。当两个事实背后的数据增长或减少成正比的时候,二者之间的相关关系较强;当两个事实背后的数据变化没什么关系,互不影响,就说明二者之间的相关关系较弱,我们用函数值表示就是:
其中,R是关系参数,N是变化趋势。N越大,说明数据x,y的变化是成正比的(x增大时y也增大,x减小时y也减小),R的值也越大,即二者相关关系很强。N越小则相反。P是概率,N越大,相关关系越强烈,x变化引起y变化的概率也越大。当然,一个数据值增大时,另一个数据值也增大,这并不代表它们之间必然会有相关关系,因而我们对于数据变化情况进行观察的时候,很难在其中发现稳定的、可靠的规律。
总体来说,大数据技术的“关系实在”在“本体性”上更倾向于表征事物之间的相关关系,同时它也使得人们的思维由因果思维向相关思维转化。但是,过分注重相关关系也会出现一定的问题。例如,数据的变化并不具备稳定可寻的规律。理论上,即使没有相关性,两个数值的变化也可能有关联。另外,相关关系不像因果关系那样有非常强烈的对应性和确定性,因此,相关关系更具有复杂性,需要我们用复杂性科学的思维进行深入的考察。当然,相关关系探究起来也很容易出现错误,再加上数据的庞大及其变化的多样性,人们往往会断章取义,做出错误的判断。由此可见,我们对于相关关系的把握需要立足于整体论的思想来进行展开,而假如我们只局限于某一部分数据,或者当数据样本不够大的时候,我们就很难从中得出真正有效的判断,事实上,当我们需要探究事物内在的客观规律时,“强相关性”的因果关系深层思考仍然是非常有价值的,只有平衡好因果性分析和相关性分析之间的关系,使二者尽量做到互相配合、协调统一,这样才能够在实践当中为关于事物的因果关系和相关关系探索建立起可靠的科学实在论基础,进而为其它科学与哲学难题的求解发挥更大的作用。