APP下载

大数据的规模整全性及其重要哲学意蕴

2022-04-06王天恩

江汉论坛 2022年4期
关键词:大数据

摘要:数据采集方式从抽样到自然生成,使從小数据到大数据的发展具有了数据的“自然化”性质。数据的自然化具有重要存在论意蕴。大数据的“大”关键不在数据量大,而在数据的完备性。正是数据的完备性,使大数据具有规模整全性。大数据的规模整全性,在直觉的整体性和概念的整体性之外,为人类认识提供了新的量化的整体性。直觉的整体性基于经验,概念的整体性基于逻辑,而大数据量化的整体性则基于数据。三种整体性意味着三种整体观照。作为整体观照的第三种形式,大数据的规模整全性具有重要的量化整体观照价值。哲学的最重要功能之一,就是为具体的认识和实践提供最高层次的整体观照,因此大数据所提供的量化整体观照具有重要哲学意蕴。三种整体观照的整合,将催生更高层级的整体观照,为人和世界关系的理解提供从过去到未来的认识和实践一体化整体把握。

关键词:大数据;规模整全性;量化整体观照;哲学意蕴

基金项目:国家社会科学基金重点项目“大数据相关关系和因果关系研究”(17AZX003)

中图分类号:B023.3;C39    文献标识码:A    文章编号:1003-854X(2022)04-0078-08

大数据不仅意味着量化把握,而且由于其发展为随时间流动而实时自然生长的全数据,更意味着包含未来维度的整体把握。大数据不同于小数据的根本之处,在于数据规模趋向整全。大数据的规模大远不只是量的描述,而是意味着大数据是具有规模整全性的全数据存在。从技术层面看,大数据是不能用传统数据库技术处理的数据集合;而从哲学层次看,大数据则是传统的关系型数据库所不能处理的整全数据。从数据整全度这样定性的规定层次理解大数据,不仅可以深化大数据的哲学理解,而且可以看到大数据规模整全性的重要哲学意蕴。

一、从小数据到大数据:数据的“自然化”

在大数据研究的深化过程中,越来越广泛的做法是以“v”打头的英文字母表征大数据的特征。无论在哪种表述中,大数据的第一个“v”特征都是“volume”。关于大数据的这一特征,一般理解为“大量”。大数据一定意味着数据达到一定规模,尽管这个规模的具体规定会随着信息科技的发展而变化。相对于信息科技的发展水平而言,大数据意味着数据量巨大。从技术上说,数据量之所以能那么巨大,就因为以前都是人工采集数据,而现在数据由机器、网络和人类相互作用相对自然地生成。这不仅涉及数据采集的效率,而且涉及日益多样化的数据采集的可能性,特别是数据采集的“自然化”。数据的“自然化”,正是从小数据到大数据发展的根本变化。

大数据相对于小数据而言,而小数据的实质则是样本数据(sampling data)。大数据和样本数据的原则区别,就在于样本数据是根据既定的具体目的抽样采集形成的,小数据通常设计用于回答特定问题或服务于特定目标。而与此完全不同,大数据是在没有像样本数据取样般的具体目的的情况下自然采集生成的。由于出自具体的目标,样本数据在取样时有具体的在先预设;而由于不是抽样的产物,大数据采集没有样本数据取样那样的具体预设,从具体大数据构成的数据集合看,其在先预设甚至只是存在论层次的。从抽样采集形成到自然采集生成,绝不仅仅是技术或方法上的发展,而是具有存在论意义的根本转换,其所涉哲学层次的根本不同,正在于自然采集生成的大数据具有最基本因而最少的在先预设。

作为在先规定,预设是人类思维活动的前提。大自然本身不存在预设,而人类观念都有在先预设,正是由此构成了二者间存在论层次的区别。就数据采集而言,预设层次上的区别决定数据性质的不同。预设越是具体,数据采集目的也相应越具体,所采集的数据越具有人为性质;预设越是处于基本层次,数据采集目的越不具体,所采集的数据就越具有自然的性质。大数据的特殊性,就在于只有基本的存在论层次的预设,而没有样本数据取样那样的具体目的。因此大数据具有了数据自然生成的性质,也即大数据意味着数据的“自然化”。

作为数据的“自然化”产物,大数据超越了样本的有限而趋向整全。大数据和样本数据的根本区别,可以从Lytro相机和普通相机的不同得到形象说明。

2015年,美国Lytro相机公司发明了一种名为“光场相机”(light field camera)的浸入式360度相机设备。Lytro相机能在多个深度捕捉到图像,在拍摄结束后可以重新聚焦图像,改变焦距进行再对焦,不仅获得更完美的照片效果,而且在拍摄之后可以观看在3D空间中移动的体积视频,用3D显示器展示照片,戴上眼镜可以清楚地看到3D效果。这项拍照技术革命性地超越了普通相机的性质,很像大数据改变了小数据的数据性质和使用方式。使用Lytro相机拍摄,就像大数据采集全部数据,可以真正捕捉拍摄那一瞬间的全部影像,或者说捕捉到可以代表拍摄那一刻的所有光线。普通相机的拍摄角度和焦距等都是预先设定好的,只能对摄影场景做单一把握,不仅取景角度、聚焦和景深等都是凝固的,而且只是场景的二维影像。而Lytro相机拍摄时把焦距范围内所有的光学信息都记录在内,因此无论抓拍的照片是不是模糊,只要在相机的焦距范围内,都可以在拍完结束后再随意选择焦点、移动视角。普通相机拍摄一次只能捕捉到一片光线,获得一张信息“凝固”的照片,而Lytro相机拍摄一次却可以捕捉到一副图片的整个光场,拍摄后可以通过调整获得不同效果甚至内容的照片,而且可以循环利用。

Lytro相机和普通相机的不同,形象地表明了大数据和样本数据在基本层次上的重要区别。数据的“自然化”,无论是从大数据采集或生成过程的性质上,还是从其驱动和使用关系上都有集中表现。数据采集的自然化,使人们甚至把大数据看作是被动采集数据的泛滥:大数据所采集的“很大一部分是数据废气,即从与数字产品或服务(包括手机、信用卡和社交媒体)的日常互动中被动收集的数据。这种数字数据的泛滥被称为大数据”①。从大数据的驱动特点,也可以窥见其“自然化”倾向。“通常,大数据的推动力完全是临时的。”② 而样本数据的抽样表明,小数据的推动力具有贯穿数据取样全过程的恒定性。大数据采集不是出于具体的目的,还可以从小数据和大数据的采集和使用关系进一步看到。小数据时代,“在许多情况下,数据用户为自己的目的准备自己的数据”。而在大数据时代,“数据来自许多不同来源,由许多人准备。使用数据的人很少是准备好数据的人”。③ 大数据创建和使用的分离,意味着目的越具体越不可行;数据采集越不是出自具体目的,大数据越具有自然的性质。所以,尽管是基本层次的不同,却已经决定了大数据和样本数据在人类认识和实践意义上的根本区别。“拥有整全(或近乎整全)的数据集可以提供更多探索自由度,以便从不同角度探究数据或更仔细地探究其特定方面。……因为大数据依靠所有信息,或者至少是依靠尽可能多的信息,让我们能够看到细节或探索新的分析,而不会冒模糊的风险。我们可以在许多不同层次测试新假设。正是大数据的这种特质,让我们的工作达到惊人的清晰水平。”④ 大数据和小数据在存在论意义上的区别,无疑具有颠覆性。这种颠覆性,随着大数据的自然化程度提升而越来越明显地表现出来。这与大数据的整合化发展密切相关,具体大数据的融汇将是大数据发展的更高层次,这又涉及具体大数据和总体大数据之间的关系。

大数据生成没有数据抽样那样的具体目的,但并不意味着设计和创建具体的大数据没有具体目标。所有人类活动都具有特定目的,设计具体的大数据也是如此。只是与样本数据抽样完全不同,大数据“通常在设计时考虑到了目标,但目标是灵活的,提出的问题也是千变万化的。……确实没有办法完全指定大数据资源将包含什么,资源中保存的各种类型的数据将如何组织、连接到其他数据资源或进行有用的分析。没有人可以有任何信心指定一个大数据项目的最终命运;它通常都出乎意料”。⑤这意味着,就数据生成而言,大数据类似大自然的生成,即并不是根据具体的目的选择具体数据形成的。而且,具体的大数据具有整合为更高层次大数据的无限空间,具体数据整合的规模越大,大数据的层次越高;大数据的整合层次越高,具体大数据设计时的具体目标就越是在整合中彻底消弭,也就是说,大数据与大自然的存在论对等性就越明显。

大数据的自然生成性质,意味着其更具客观真实性。正因为如此,“IBM等富有远见的企业后来扩展了这一定义,将真实性作为大数据的一个重要方面。”⑥ 彭迪亚拉(Vishnu Pendyala)还以《大数据的真实性》(Veracity of Big Data)为题出版了一本专著。不少文献将“veracity”列为描述大数据特性的重要特征,主要是强调大数据为样本数据所不能比拟的真实性特点。

“Veracity”表征数据的真实性,即准确反映对象量化关系的程度。因为数据可能不完整,不具有代表性,并且包含错误。⑦ 因此,“大数据的真实性可定义为所考虑数据的基本真实性或真实性缺失,特别是影响从中获得可操作见解和价值的能力”。⑧ 作为大数据形成方式的结果,数据的客观真实性也源于大数据的生成没有样本数据采集那样具体的目的和预设。大数据采集的目的性与大数据的真实性密切相关,目的性越具体,预设也越具体,结果是大数据越失真,反之则越真实。真实性越强,大数据越自然。正是数据的自然化程度,决定了大数据中人为因素的多少。

由于总是有具体预设,样本数据不可避免地渗透了程度不等的主观因素,预设越是具体,主观因素的渗透也相应越明显。样本数据的这种性质,与大数据构成了具有根本性的明显反差。大数据没有样本数据采集时的具体方法设置和认识论预设,而只有存在论意义上的预设,因而相对于具体认识而言,可以看作趋向无预设,就像相对于人类的认识而言,自然世界的生成是没有预设的一样。在这个意义上,大数据的客观真实性,完全可以归入规模整全。规模整全包含两层涵义:一是数据规模大到趋近整全;二是因为在先预设最少而数据采集面更广,角度更全,维度更多。由于数据采集广而全,大数据更具“完备性”。大数据的威力,在根本上就来自其完备性。这涉及数据“自然化”的更深层次。作为样本数据,小数据是干枯的标本,就像制作好的生物标本已经“失活”;而大数据则可以是实时数据,那是相对具有活性从而具有时态的数据。由此呈现的数据的自然性,同样与数据采集的前提性预设密切相关。数据采集的前提性预设越基本,由以生成的数据越“自然”。正是大数据几近无预设给我们带来更大可能性空间,其中最重要的就是数据的“自然化”使大数据规模趋向全数据,从而走向新的整体把握方式。

二、大数据的规模整全性

从数据的发展看,大数据的关键特征就是从有限的样本数据或部分数据发展到全部数据。样本数据构成的是部分数据;全部数据形成的是整全数据。作为抽样得到的部分数据,不管采样对象的规模、抽样范围和收集的数据有多大,都是样本数据。这一点正像概念,不管概念的涵盖面有多广,都是抽象的产物。作为抽取样本得到的数据,样本数据类似概括得到的概念,具有从所有具体事物抽取样本的具体条件抽离性质,相应具有抽离具体条件和过程的凝固性。而作为全部数据的大数据是实时采集的,因此是实时反映对象的具体数据,具有具体个别事物的生动性。大数据是就一定对象生成的全数据,不仅包括空间范围,而且包括时间过程。不管數据采集对象规模、采集范围、采集的数据量如何小,只要是关于一个对象的全体数据,都是全数据,就像收集一个对象构成的所有部分或具体个体,所得到的都是具体对象的全部存在一样。

关于大数据的全数据性质,《大数据时代》一书从大数据和样本数据的关系出发做了一个重要的概括性表述:“从一些到全部”(From some to all)⑨,并使用了一个耐人寻味的公式:“N=all”。⑩这一表述非常简洁地表明了一个重要问题:从小数据到大数据的发展在根本上意味着什么。作者反复强调,使用所有的数据让我们看到了细节,当我们被限制在少量数据时,这些细节永远无法看到。使用所有的数据,可以发现隐藏在浩瀚信息中的联系和细节。{11} 中译本将此理解为“全数据”{12} 是有道理的,正符合大数据发展的实际。“在许多领域,一种转变正在发生,即从采集部分数据到采集尽可能多的数据,而且如果可行,采集所有数据:‘样本数=全部’(N=all)。”{13} 这一等式的涵义是:大数据等于取样趋向无限的集合,而不是大量样本数据的加合。“大数据不是已经膨胀到无法再放入电子表格的小数据,也不是碰巧非常大的数据库。”{14} 在这个意义上,即便将大数据理解为样本数等于全部也不完全确切。

原则上说,再多的样本数据也不能构成大数据。确切的理解是:样本数趋向无限,因而使数据不再具有样本数据的性质。不是取样而是采集全部数据,意味着不是抽取样本,而是全数纳入;而“从一些到全部”,则意味着从部分到整体。当然,无论全部还是整体,都是相对的。对全球人口抽样调查得到的数据是小数据,而一个人的基因全数据则是大数据。人口抽样普查得到的数据规模可以非常大,但只要是抽样产生的,就不是全数据;而就所有特斯拉汽车或波音飞机发动机的运行收集的数据,即使在一定发展阶段数据规模不大,也是具有完备性的大数据。大数据之所以为大数据,不在于数据采集对象的规模,也不完全在于数据本身的规模,只要具有全数据的性质,就是大数据。对于人类认识目的和实践需要来说,只要具有相对于对象而言的完备性,大数据完全可以作为真正意义上的全部数据和整体数据使用。

在日本相扑的最高级别比赛中,很难由小数据辨识腐败行为,必须有大数据的整体把握。马克·达根(Mark Duggan)和史蒂文·莱维特(Steven D. Levitt)通过历年大数据,发现了比赛中的交易行为。{15} 正是基于这一案例分析,舍恩伯格等认为,就大数据而言,“数据量无需超越TB量级。在相扑的案例中,整个数据集包含的比特数比如今一张典型的数码照片都要少。但作为大数据分析,它考虑的不仅仅是一个典型随机样本。当我们谈论大数据时,我们指的‘大’不是绝对意义上的,而是相对意义上的:相对于综合数据集合”。{16}而且,数据规模和数据化对象的规模是完全不同的概念,无论数据化对象的规模如何,原则上都可以以其为数据生成对象,建立起具有整全性的大数据。正是在这个意义上,表示大数据基本特征的“Volume”不只是规模大,其根本内涵是“规模整全性”。

由此可见,大数据的“大”不是纯粹的量的概念,“大”的关键是“全”。“Big data”中的“big”这一单词,本身就有“large”所不具有的整体性涵义,它意味着“大数据”不能等同于“大量数据”。正是这种整体性,构成了大数据的“整全”;正是“整全”才类似大自然的存在。当我们说某领域数据是整全的,就意味着其构成的维度多,甚至趋向相对意义上的全维度。在经验意义上,作为实时数据,大数据的全数据性质则意味着空间和时间上的全维度,意味着一种更高维的整体性。关于大数据的全维度性质,也可以从Lytro相机与普通相机的区别得到简洁的理解。从数据发展看,大数据越来越趋向于全数据,因而具有越来越强的整体性。正因为如此,人们认为“也许我们不应该专注于‘大数据革命’,而应该专注于‘全数据革命’(all data revolution)”。{17}

事实上,只要数据具有完备性,数据采集对象规模越小,或者采集的数据量越小,越是以对比反差极大的方式凸显大数据的规模整全性特征。类似特斯拉汽车行驶的数据都是具体的大数据,而“万物数据化”(The datafication of everything){18} 则在更高层次涉及大数据的规模整全性或全数据性质。大数据的规模整全性,既是指具体的大数据,更是在大数据的融汇发展意义上说的。大数据的发展,必定会经历一个“数据割据”的发展阶段,但统一发展也必定是发展的总体方向。大数据越是统一发展,其规模整全性越典型。正是量化世界的发展趋势,在根本上体现了大数据的整全性特征。

总之,数据量大是大数据的基本特征,但这个特征所表达的是大数据的规模趋向整全。就是说,大数据的“大”是一个质的概念,大数据的“大量”是指质上的整全。因此,“将‘大数据’与‘大量数据’或‘海量数据’区分开来很重要”。{19}

实际上,关于大数据的这一特征,认识也经历了一个由量到质的过程,而且认识深化的过程还在继续。几年前人们就意识到,大数据并不一定在绝对意义上大,尽管它通常如此。这一理解,已经涉及大数据的规模整全性,只是还处于朦胧意识阶段,更谈不上完全到位。其中的重要原因,就在于主要还是在方法论甚至具体方法意义上理解大数据的“大”。在关于大数据的理解中,《大数据时代》一书已经达到很高层次。作者已经明确意识到,“数据点的绝对数量和数据集的大小本身并不是构成这些大数据示例的原因。之所以将其归类为大数据,是因为都尽可能多地使用了全体数据,而不是走随机取样的捷径,就像谷歌流感趋势和史蒂夫·乔布斯(Steve Jobs)的医生一样”。{20} 在这里,大数据的全数据理解已经十分明确,但也明显还没有从规模整全意义上理解大数据之“大”。而大数据的全数据理解和规模整全性理解,具有存在论意蕴上的区别。显然,大数据涉及一种不同于抽象普遍性概念体系意义上的整体性。大数据的整体性是量化意义上的整体性,或量化的整体性;与此相应,抽象普遍性概念体系所构成的,则是质性意义上的整体性。大数据规模整全性的存在论理解,意味着大数据哲学理解的更深层次,这也正是大数据规模整全性的关键哲学意蕴所在。

三、大数据规模整全性的量化整体观照意义

作为信息数字编码发展的产物,作为“量化世界”的片段结果,大数据构成的是一个量化的整体,一个具有存在论意义的整体。在存在论层次,规模整全意味着数据大不仅是整体大,而且更关键的是可能构成关于存在的更高整体层次理解和把握。规模趋向整全,从而在由抽象普遍性构成的质性整体之外,形成了新的量化整体。量化整体所构成的量化整体观照,在人类认识中具有特殊意义,尤其是在提供最高层次整体观照的哲学领域。

由于总是可以趋向更整全,大数据具有全域化性质。大数据的全域化意味着具有丰富的可扩展性,意味着一个数据集合在更大范围、更高层次的整体观照下,其功能和意义会得到相应扩展。大数据提高一个整体层次,意味着提供了一种完全不同的整体观照,其意义是量的累加所完全不能比拟的。由此可见,规模整全性的“全”不是一个量的概念,其所意味着的规模整全性具有存在论意义。

毫无疑问,大数据的规模整全性,可以从“全数据”得到具体而形象的理解,但由此得到的理解还不足以达到存在论层次。事实上,作为具有存在论意义的量化存在,大数据量化的整体性又是具体的整体性。就大数据而言,与其说“生活中真正有趣的东西通常是在样本无法完全捕捉到的地方发现的”{21},不如说样本数据不可能反映只有作为一个具体的整体才可能表现出来的局部信息。大数据所呈现的量化具体整体,特别是基于网络的发展及随之而来的信息本性的开显,使其在这方面的优势不断展开。由于不同于抽象普遍性意义上的整体性,大数据构成的量化整体性具有质性整体性所没有的重要特点。

大数据的规模整全性,具有量化整体观照的重要意义。作为量化的整体,“获取更全数据”至关重要,有些问题只能通过规模整全性解决。由于作为量化的存在,大数据本身是具体的,因此大数据规模整全性的哲學意蕴甚至可以在大数据的具体应用中感受到。利用所有的数据,可以发现隐藏在浩瀚信息中的联系和细节。例如,检测信用卡欺诈的工作原理是寻找异常,而找到异常的最佳方法是处理所有数据而不是样本。异常值是最有意义的信息,而要识别它们,只能通过与大量正常交易进行比较。这是一个典型的大数据问题。只有在整体观照中才能更到位地理解局部,这一原理运用于大数据,就可以得到更具体的表述:一些类似“异常情况”的重要局部现象,只有在大数据的整体观照中才能看到。典型的比如Xoom与跨境汇款异常交易报警。“Xoom是一家专门从事国际汇款业务的公司,由大数据领域的知名企业提供支持。它分析与其处理的事务相关联的所有数据。2011年,该系统注意到来自美国新泽西州的Discover卡交易数量略高于平均水平,因而拉响了警报。Xoom的首席执行官John Kunze作了这样的解释:“它发现了一个本不应该存在的模式。”{22} 作为一个量化的自然整体,大数据就像人体,二者都有其正常状态,一旦出现不正常情况,对人体来说可能是疾病信号,而对大数据和人的关系来说,则可能意味着潜在价值无限的信息空间,可以凸显样本数据不可能反映的重要信息。而且,规模整全性的“全”是相对而言的,正是相对而言的“全”,恰恰意味着空间的开放性。而全数据空间的开放性,则意味着反映更深层次问题的无限可能性。

由大数据的规模整全性,可以对大数据“全”的相对性有更深入的理解。相对于经验世界的存在,数据存在是无穷无尽的。在现实中,规模整全性是相对于认识需要和实践目的而言的。以象棋残局为例可以做出典型说明。在象棋残局中,当只剩下六个以下棋子时,人类棋手仍很难把握残局涉及的所有数据,而电脑下棋程序则可以把握“全数据”。因此,“当棋盘上剩下六枚或更少棋子时,对残局已经进行完全分析,所有可能的走法(样本数=全部)都已经列入一个很大的表格,在没有压缩时,这个表格可填满超过1TB的数据。这使得国际象棋计算机能够完胜残局,没有人能够战胜这个系统”。{23} 而大数据的发展,正使这一“全数据”把握范围不断扩大。这个“全数据”理解的简单案例,不仅与人工智能理解的语境机制密切相关,而且更具体地揭示了大数据规模整全性的整体观照机制。大数据的规模整全性带来了大数据的完备性,从而可以通过整体观照实现整体控制。

作为现实世界的量化反映,大数据为我们提供了量的整体把握方式。由于可以用量化的方式把握,大数据不需要用抽象的理想化方法对数据进行处理,这使得大数据可以作为量化整体把握手段,达到对具体事物的相对直接把握,而不是通过抽离具体条件进行定性归纳,概括地达到抽象的整体把握。最终人类认识得以通过量化整体把握和质性整体把握,以互补的方式更全面有效地把握世界、人自身以及二者之间的关系。而且,大数据通过日益发展的整全性,达到不仅规模越来越大,而且层次越来越高的量化整体性。由此我们可以感受到大数据量化整体性与“量化世界”的内在关系,从而认识到“量化世界”不能被视为仅仅是走向极端的空洞口号。

从大数据的爆发性增长趋势可以看到,大数据的发展所遵循的,应当是人类还没有经历过的方式。在大概十年前,最流行的术语就是大数据。根据IBM的估计,当时“每天生成2.5万亿字节的数据,其中超过90%是在过去两年中生成的”。{24} 自此以后,大数据呈现由倍增到指数增长的趋势,大数据的这种爆炸性发展,作为信息现象甚至让人不禁与作为物能现象的宇宙大爆炸产生联想。正是大数据规模整全性的高速发展,在实践中构成了一种具有存在论意义的“数据驱动”,催生了“计算社会科学”的发展。

作为量化的整体性存在,大数据蕴含着丰富的量化相关关系。在社会学中,“探求变量间的关系是社会研究的一个重要目标,也是社会研究的基础工作”。{25} 随着数字化的发展,这些都为计算社会科学的提出和发展奠定了基础。正是以大数据通过量化方式所反映的社会关系为研究对象,诞生了“计算社会科学”这一新的研究领域。2009年2月,美国哈佛大学的戴维·莱兹(David Laze)等15位学者在《科学》上联合发表题为《计算社会科学》(Computational Social Science)的论文,宣告了以数据驱动为基本特征的计算社会科学的诞生。“一门计算社会科学正在兴起,它以前所未有的广度、深度和规模利用收集和分析数据的能力。……揭示个人和群体行为的模式。”{26} 正是计算社会科学凸显的“数据驱动”,带来了大数据基础上理论和实践的全新方式。由于基于数据驱动,计算社会科学使得社会科学研究有了新的把握手段,它会随着大数据的整全化发展而不断强化。而从哲学层次看,具有更重要意蕴的不是大数据的爆炸式发展速度,而是其趋向规模整全的发展。这对于人类以量化方式把握和创构世界,意义非同寻常。

四、大数据量化整体观照的哲学意蕴

哲学总是以提供最高层次整体把握为己任,大数据所意味着的量化整体把握,关系到哲学最独特的性质和功能:为具体认识和实践提供最高层次的量化整体观照。

在大自然基础上,我们必须通过理性认识,才能建立起具体事物认识的抽象普遍性整体观照,也就是说,我们不能把大自然本身作为具体事物认识的整体观照;而在大数据基础上,具体事物认识的整体观照却可以由具有规模整全性的大数据本身提供。而且大数据所提供的,还是不同于抽象普遍性的量化整体观照。因此基于大数据,整体观照不仅运用于具体的认识,而且直接运用于具体的实践——这意味着大数据的量化整体观照,将促进认识和实践整体观照的一体化。正因为如此,在大数据的实际应用中,大数据的量化整体观照机制越来越普遍。关于大数据量化整体观照的理论研究,成了当代哲学研究的重要任务。

大数据所提供的量化整体观照意义重大,它不仅补充了质性整体观照,而且凸显了整体观照的本性。越是将研究落实到大数据本性的基础之上,甚至落实到作为大数据存在基础的信息之上,就越能不断深化理解关于大数据“点数成金”等比喻性说法的实质意义。这里的“点数成金”比拟的并不是“金手指”,而是大数据整体观照构成的量化整体把握。以抽象普遍性把握对象,自然而然会认为所把握的是对象的整体性。而大数据所提供的量化整体把握,所把握的则明显不是大数据本身的整体性,它所提供的不是一种对既存对象的整体揭示,而是对对象认识的整体观照。而且就整体观照而言,大数据反而具有更客观的性质。

随着大数据本身的发展及其研究的不断深化,我们可以看到越來越广阔的前景。在人类发展过程中,对于历史记忆,主要依靠人际经验传承,文字记载和小数据等方式保存,而这些都或者具有主观性,或者具有抽象性,或者具有样本性等局限。大数据提供了更客观详尽的数据采集和储存方式,从而在一定程度上有了相对客观的人类历史积淀,而且是经验累积和理性概括相结合的,从而使历史数据作为不断扩展的量化整体,为当下理解和未来预测提供整体层次越来越高的整体观照。由此可见,大数据所带来的绝不仅仅是越来越多的数据,更是直接建立在具体事物之上的整体性,可称之为“具体的整体性”。这种具体的整体性与抽象的整体性完全不同,其区别比思维抽象和思维具体的区别更重要,因为思维具体仍然建立在思维抽象之上,而直接建立在具体事物之上的大数据整体性,则实现了思维与具体事物的直接关联。其表现主要集中在两个方面,一方面是具体的量化,另一方面是具体的语境化。正是具体的量化带来了可计算;正是具体的语境化给新一代人工智能带来了人类语境。人工智能意味着新的哲学问题,甚至新的哲学研究领域。从人类思维把握对象,到越来越具有哲学内涵的人工智能通用化发展,大数据的量化整体把握都具有重要哲学和科学一体化意蕴。

与整体把握相联系,大数据的最大优势就是基于量化,可以通过计算得到量化的具体整体性。大数据的量化整体性,不仅在积淀中不断扩大规模,而且通过计算的整体性不断提升整体层次。由此带来的全新发展形势,特别是数据驱动,具有非常特殊的重要哲学意蕴。在大数据出现之前,人类主要是依靠经验直觉、概念推理和符号演算把握对象和制定决策,而大数据构成的数据驱动将改变人类把握对象和做出决策的方式,而且取得以往不可能取得的效果,以致人们认为,“大数据的最大影响将是数据驱动的决策将增强或推翻人类的判断”。{27} 数据驱动既不是单纯的研究方法,也不只是意味着新的认识论范式,而是意味着方法论、认识论和存在论的一体化。

大数据的规模整全化,使计算的整体性把握具有通过量的计算进行动态整体把握的特点,因而不仅可以把握既定存在的整体性,而且还适用于对未来进程的整体把握。由此可见理查德·哈明(Richard Hamming)观点的根据:“计算的目的是洞察,而不是数字。”{28} 其所意味着的计算的整体性,集中体现了计算的优势。Alpha Zero就是基于计算优势,达到对未来棋局走向的更长程动态把握,赢得人类棋手的。在特质上,计算的整体性把握完全不同于通过从概念到概念的思辨整体性和依靠经验累积的直觉整体性。由于计算整体性的出现,在人们的整体把握方式中,就有了直觉的整体性、概念的整体性和计算的整体性三种基本方式。直觉的整体性基于经验,概念的整体性基于逻辑,计算的整体性基于大数据。三种整体性具有不同的机制,也具有不同的功能。概念的整体性把握更适合于以既定存在为对象的认识活动;计算的整体性把握更适合于以未来创构为对象的活动;而作为最基本的整体把握方式,直觉的整体性把握则具有两方面的性质,一方面可用于从过去到未来全程对象的认识活动,另一方面又在以既定存在为对象的认识活动中远不如概念的整体性,在以未来创构为对象的活动中远不如计算的整体性。作为直觉整体性和概念整体性基础上新产生的整体性,计算的整体性就是量化的整体性。当前,三种整体把握特别是质性整体把握和量化整体把握之间的关系,已经成为一个新的研究课题。特别是在质性整体观照和量化整体观照之间,存在值得深入研究的空间。

在关于大数据的理解中,规模整全性的意义主要就在于整体观照提供的理解机制。由于其整全性,大数据对于理解具有特殊意义。没有整全性,整体观照的意义主要是凸显局部的整体地位,而一旦数据具有整全性,那就不仅可以进行一般意义上的整体观照,而且可以纠正局部的具体细节错误。“即使数据相当不可靠,在许多情况下也可以通过添加更多数据来消除任何错误,从而将可靠性提高到必要的水平。”{29} 大数据的全数据发展趋势,可以越来越深入地消除局部的数据错误。由此构成的整体观照功能,恰恰是建立在抽象普遍性基础上的质性整体观照所不具备的。

由于量化和概括的不同性质,大数据所提供的量化整體观照和抽象普遍性理论所提供的质性整体观照具有不同的性质和特点。质性整体观照基于抽象概括,量化整体观照基于数据整全。从形成的机制看,由抽象普遍性理论提供的整体观照只是认识论意义上的,而由大数据提供的量化整体观照则可以是存在论意义上的。建立在认识论基础上的抽象普遍性整体观照,不仅在认识环节会渗入更多的价值观等观念性的因素,而且必须有更具体的前提性预设。而建立在大数据基础上的量化具体整体观照,则不仅只有最基本的前提性预设,而且整个形成过程很少有人的有意识直接介入。正是在这个意义上,“与统计学家和数据分析师相比,学科领域的专家、实务专家将失去一些光彩,因为统计学家和数据分析师不受旧行为方式的束缚,而是让数据说话。他们依靠相关关系,没有成见和偏见”。{30} 大数据的量化整体观照不仅更少偏见,而且能构成更完备的整体把握。“大数据让我们能够测量我们以前无法测量的东西。”{31} 这意味着两个不同层次的整体观照具有不同程度的客观性,而这种客观性上的差别,对于整体观照效果的影响则可以是根本的。

作为两种不同的整体观照方式,它们的不同可以在更基本的层次看得更清楚。在日常生活中,甚至新闻的受欢迎程度,都受着质性和量化两种不同方式的影响。用数据的量化方式说话,越来越比用抽象概括的观念描述更受读者欢迎。典型的例子之一就是:“与经验丰富的记者的直觉相比,数据更能发现人们想要阅读的内容。”{32} 而亚马逊图书销售的大数据运用表明,根据大数据的图书推荐,比通过图书评论员更有效。这些日常性的例子,与其说说明了孰优孰劣,不如说表明了量化整体观照与质性整体观照相结合,对于人类认识和实践中的整体把握将会有一个什么样的推进。

由于提供了量化整体观照,大数据有助于我们在定性和定量相结合的更完备的整体观照中理解世界。“全数据革命”意味着,“我们认识到世界的关键变化是创新分析,使用来自所有传统和新来源的数据,并提供对我们世界更深入、更清晰的理解”。{33} 大数据的人类使用,为深化理解世界提供了无限空间。“收集和分析大量数据的新技术,将以我们刚刚开始欣赏的方式帮助我们理解我们的世界。……真正的革命不在于计算数据的机器,而在于数据本身以及我们如何使用它。”{34} 更为重要的是,“大数据让我们能够以前所未有的方式识别因果关系”。{35} 由此可见,基于已有质性整体把握的大数据量化整体把握,远不是与质性整体把握的“1+1=2”的加合,而是具有价值不可估量的互补整合效应,二者构成了一种更高层次的整体观照机制。哲学的根本意义就在于为具体的认识和实践提供最高层次的整体观照,而基于抽象的质性整体观照,大数据的量化整体观照所具有的重要哲学意蕴显而易见。

大数据之所以具有完全不同于小数据的作用和效果,正是由于其具有双向循环性质的两方面机制。一方面,大数据可以通过量化整体观照,带来其他方式不可能带来的整体信息,其典型的例子之一正是莫里的航海图{36};另一方面,大数据还可以通过局部信息的完整采集,投射到一个特定整体情境,得到关于更大整体的信息,其典型的例子之一则是特斯拉汽车或波音飞机发动机运行的大数据。这两类大数据堪称大数据发展的具有标志性意义的案例。由它们可以典型地看到,正是这两种不同类型的大数据相关关系的挖掘和开发利用,可以构成一种双向循环过程和机制。这已经不是通常意义上的过程和机制,它不仅具有存在论意蕴,而且具有现实的数据挖掘价值。正是由此,大数据的量化整体观照不仅涉及其在哲学层次的理论意义,而且意味着理论和实践的一体化。

注释:

① Angioletta Voghera & Luigi La Riccia, Spatial Planning in the Big Data Revolution, Hershey: IGI Global, 2019, p.xxi.

②③⑤{14} Jules J. Berman, Principles and Practice of Big Data, Preparing, Sharing, and Analyzing Complex Information, Second Edition, London: Elsevier, 2018, p.5, p.4, p.3, p.3.

④⑨⑩{11}{13}{16}{18}{20}{21}{22}{23}{27}{30}{32}{34} Viktor Mayer-Sch?觟nberger & Kenneth Cukier, Big Data: A Revolution that Will Transform How We Live, Work and Think, New York: Houghton Mifflin Harcourt, 2013, pp.29-30, p.26, p.26, p.27, p.26, pp.28-29, p.94, p.28, p.27, pp.27-28, p.36, p.141, p.141, p.141, p.7.

⑥⑧ Vishnu Pendyala, Veracity of Big Data, Machine Learning and Other Approaches to Verifying Truthfulness, San Jose: Apress, 2018, p.6, p.10.

⑦ Dirk Helbing, Thinking Ahead-Essays on Big Data, Digital Revolution, and Participatory Market Society, Springer International Publishing Switzerland, 2015, p.77.

{12} 維克托·迈尔—舍恩伯格、肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,盛杨燕、周涛译,浙江人民出版社2012年版,第37页。

{15} Mark Duggan & Steven D.Levitt, Winning Isn’t Everything: Corruption in Sumo Wrestling, The American Economic Review, 2002, 92(5), pp.1594-1605.

{17}{33} David Lazer, Ryan Kennedy, Gary King, Alessandro Vespignani, Big Data: The Parable of Google Flu: Traps in Big Data Analysis, Science, New York, N.Y., 2014, 343(6176), pp.1203-1205.

{19}{28} Jules J. Berman, Principles of Big Data: Preparing, Sharing, and Analyzing Complex Information, Elsevier Inc., 2013, p.xx, p.157.

{24} Nate Silver, The Signal and the Noise: Why Most Predictions Fail but Some Don’t, New York: The Penguin Press, 2012, p.15.

{25} 张小天:《因果关系与相关关系:它们的关系及它们的差异》,《社会学研究》1992年第3期。

{26} D. Lazer, A. Pentland, L. Adamic, S. Aral, A.-L. Barabási, D. Brewer, N. Christakis, N. Contractor, J. Fowler, M. Gutmann, T. Jebara, G. King, M. Macy, D. Roy and M. Van Alstyne, Computational Social Science, Science, 2009, 323(5915), pp.721-723.

{29} Sander Klous & Nart Wielaard, We Are Big Data: The Future of the Information Society, Amstelveen: Atlantis Press, 2016, p.6.

{31}{35} Eli Berman, Joseph H. Felter, Jacob N. Shapiro, Small Wars, Big Data: The Information Revolution in Modern Conflict, Princeton: Princeton University Press, 2018, p.13, p.15.

{36} 马修·方丹·莫里(Matthew Fontaine Maury)是美国海军军官,由于车祸受伤在海军图表和仪器厂工作,当时海洋航行使用船用旧图表,这些图表主要凭经验规制,不仅绕弯多,而且错误不少。他决心改变这种状况,利用已有地图、仪器和被视为垃圾的航海日志,利用其中特定日期和地点的风、水和天气纪录数据,再以标准表格让所有海军舰只补充数据,整合成了一张全新的航海图,为船只航行大幅减少了航程。

作者简介:王天恩,上海大学哲学系教授、博士生导师,上海,200444。

(责任编辑  胡  静)

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索