大数据时代下“数本源论”的再思考
2021-01-13江增辉
江增辉
(中共安徽省委党校(安徽行政学院) 哲学教研部,合肥 230022)
随着科技发展的不断进步,大数据作为一种技术变革的力量不仅改变我们感知世界的能力,也颠覆了我们改变世界的方式。在此背景下,深入分析大数据对我们的世界观和方法论带来的深刻变革,以及对这场变革及时做出哲学回应和伦理反思显得尤为重要。
关于大数据的研究纷繁复杂,追本溯源,数据就是一些有根据的数字编码,它来源于人类测量、记录和分析世界的渴望,与人类关系十分密切。早期文明最古老的抽象工具就是对长度重量等的计量,可以说早期的这种计量和记录的方式共同促进数据的产生。随着阿拉伯数字的产生以及计算能力的提升,数据被赋予新的意义,慢慢的人们开始通过数据来记录日常生活以及统计财物,后逐渐用于记录各种社会现象和物理规律。直到计算机的出现带来数字测量和存储设备,一切皆可量化,大数据应运而生。不过,在漫长的人类历史中,数据一般都认为是用于描绘和记录各种事物的工具,只有古希腊哲学家毕达哥拉斯提出“数是万物的本源”,将数上升为本体论的高度。
1 从毕达哥拉斯数本源论谈起
古希腊哲学家毕达哥拉斯最先提出“数是万物的本源”[1]。亚里士多德在《形而上学》中指出:
“毕达哥拉斯学派的人研究数学,首先把数学引入希腊。由于研究数学,他们认为研究数学原则是一切事物的原则。因此,数按其本性来说是第一性的。在他们看来,在数中,要比火、土、水中更能看到一切存在和变化之物共同的东西,更能看出,哪种数是‘正义的’,哪种数是精神、心灵,哪种是‘合时的’,等等。同时,他们在数的和谐中,看到逻辑规律(特性),因为他们认为,一切别的事物的本性都是由数造成的,因而数在一切本性中是第一位的,他们认为数的原素就是一切事物的原素,一切天体也是和谐的数。”[2]
毕达哥拉斯开始了对于世界本质宇宙本源问题的探讨。
数本源论本质上有以下两种含义。
(1)数是万物的本源。这其中包含三层意思:首先,万物从数产生。毕达哥拉斯认为,数是宇宙的要素,正是由于数学中的点,点组成线,线组成面,面组成体,才有宇宙中的一切几何形状,从而有了四元素:火、汽、水、土,进而构成宇宙万物。也就是说,每一个物体都是由各种规则或不规则的几何图形产生,而数又构成了几何形体,数又是从构成数的元素产生的,因此数是万物的原型。[3]数为宇宙万物提供了理论模型,数量和形态决定了宇宙中一切物体的形态。其次,事物的本身就是数。这里的“数”不是指现实的具体事物,而是抽象的原则,毕达哥拉斯学派认为事物的本质属性有很多,包括火汽水土等元素,因此他们肯定事物都是存在的数,“不是独立存在的数,而是指事物实际上由数构成”,即“数”是事物的量的规定性,我们将这种量的规定性剥离开来,从而在量的方面掌握事物的本质,事物的多样性可以总结为量的统一性,因而“数”是事物量的统一性的抽象原则。第三,事物由于摹仿数而存在。毕达哥拉斯学派认为,不仅事物的本身就是数,而且事物还因摹仿数而存在,也就是说“数”既被看作是事物的质料因,又被看作是事物的形式因。[4]
(2)宇宙和谐论。追求和谐一直是毕达哥拉斯学派的重要目的,他认为整个宇宙都是一个和谐有序的美的整体。首先,数学中的和谐比例关系。尤其在数学中,比如毕氏定理和毕氏三数,目前公认为毕达哥拉斯学派是最早为勾股定理提供了合乎逻辑的证明。其次,数和音节的关系。音乐是和谐的数字比例关系,毕达哥拉斯根据和谐比例关系,创造了一套音乐理论,按4∶3,3∶2,2∶1的比例构成几个主要的音调,长短高低不同的音调按照一定的比例构成了音乐,音乐中也孕育着数的规律。第三,和谐天体理论。毕达哥拉斯学派从“球形是最和谐最完美的几何体”这一理论出发,认为我们所居之地是球形的,并指出月亮、太阳、行星都呈圆形的运动轨迹。
“毕达哥拉斯学派把万物归结为数或数的元素,把整个宇宙系统说成是‘一个和谐和一种数’时,认为整个宇宙系统是按照音阶构成的,这就是他们所主张的‘整个宇宙系统是一种数的含义’。其理由是:第一,围绕宇宙中心旋转的各种天体的距离,在数学上是成比例的;第二,有些天体运动得快些,有些则运动得慢些;第三,运行较慢的天体造成的声音,在音高标准上是比较低的,运行较快的天体在音高标准上是比较高的;第四,和天体距离的比率相应的种种音调,造成了彼此协调的声音。”[5]
因此,在毕达哥拉斯学派中,天体运动规律也归结于数学之间的比例关系,他力图以数来揭示天体运行规则,对天文学的发展提供了数学方法论的指导,从而产生深远的影响。
尽管以现代视野来看,毕达哥拉斯的数本哲学,稍显幼稚和牵强附会,但是,在古希腊以神为世界的中心,数本源说对希腊人理智思维的觉醒,无疑是一个巨大的推动作用,包括后来的柏拉图、康德、黑格尔都受此影响,也间接促进近代唯理论的发展。伽利略认为自己是毕达哥拉斯主义者,他认为自然是用数来描写的,所以他对于数学公式是 “只描述,不解释”,也就是将量的描述作为物理规律的唯一本质特性。牛顿继承并发展了这一思想,他一生都致力于宇宙和谐的研究,并将其集中体现在伟大巨著《自然哲学的数学原理》中。[6]开普勒为天空立法,让行星运行轨迹都遵循几何定律。爱因斯坦在科学研究过程中始终遵循和谐与美胜于事实的原则;包括海森堡的量子力学、薛定谔方程都向大家展示了一种数学美。罗素曾说:
“我不知道还有什么别人对于思想界有过像他(毕达哥拉斯)那么大的影响。我之所以这么说,因为所谓的柏拉图主义的东西倘若加以分析,就可以发现在本质上不过是毕达哥拉斯主义罢了。有一个只能显示于理智而不能显示于感官的永恒世界,全部的这一观念都是从毕达哥拉斯那里来的。”[7]
2 从“数”到“大数据”
毕达哥拉斯的“数本源说”可以说是数本哲学的起源,这里的“数”更多的是指狭义上的数的概念,此后,从自然数的抽象原则开始慢慢扩展,逐渐建立起完备的数学体系,为近代科学的数理研究方法奠定了基础。20世纪中期,科学技术的不断进步,尤其计算机的发明,生物技术、航天航空技术等等的飞速发展,使得大量数据的的处理成为一个新的问题。1966年,国际科技数据委员会成立,旨在促进全球数据资源的利用与共享。大数据一词是由Cass最先提出,1998年他在《Science》上发表文章《A Handler for Big Data》,首次使用大数据一词,但当时大数据并未引起大家的注意,直到2008年,《Nature》杂志出版“big date”专刊,使得大数据一词开始在公众媒体流行,并逐渐成为热门的概念。
什么是大数据?美国麦肯锡研究所认为:“大数据是指数据的体量超过传统的数据库所能搜集、存储、控制、管理的能力”[8];亚马逊大数据科学家John Rauser认为:“大数据是任何超过一台计算机处理能力的数据量”[9];大数据专家赵国栋认为大数据是“在多样的或者大量的数据中,迅速获取信息的能力”[10]。大数据是一个宽泛开放的概念,见仁见智,突出的特点就是“大”,数据已经大到无法通过目前主流工具进行处理。
至于数据的价值,毋庸置疑,从开普勒通过对弟谷的天文记载资料发现行星三大定律,到天文学史家席泽宗对古代新星和超新星观测资料的研究,无一不体现了数据的价值。而互联网时代,大数据更是呈现指数级别的增长,这其中蕴含的价值无法估计。大数据相比较传统数据的区别就在于体量大、速度快、类型多、价值化,未来通过云计算、深度学习法、人工智能等方法对大量数据的分析预测,挖掘出新的规律与方法,运用到政治、经济、法律、科技、民生等众多领域,将会给人类社会带来颠覆性的变化。
大数据呈现4V特征[11]。
(1)体量大(volumes):现在所指的大数据,已经不仅仅是数字符号或简单的数据,它包括字符、音频、视频等,由于存储成本的大幅下降,保存数据比丢弃数据更加容易,使得大量信息可以被廉价的捕捉和存储。人类社会的数据量不断刷新一个个新的量级单位,已经从TP、PB跃升至EB、ZB级别。2020年底,全球的数据总量已经达到60ZB,其中,中国数据量增长迅速,预计到2025年中国数据量将增至48.6ZB,占全球数据量的27.8%。海量的大数据一方面给人们带来巨大的信息资源,另一方面也给数据泄密带来巨大挑战。
(2)速度快(Velocity):数据的产生与传播的速度越来越快。传统的数据应用和大数据应用之间最重要的区别就是速度,过去,传统数据载体,包括报纸、广播、档案等更新速度相对较慢。而大数据的传播和交换是通过互联网的方式实现的,互联网平台、社交媒体等每时每刻都在不断产生并更新海量数据,目前,中国互联网网民数量已经超过10亿人,全球互联网用户已经超过46亿人,不断增长的用户量也带来源源不断的数据,远远超过传统媒体信息交换的速度。
(3)类别多(variety):这里指的是数据的类型,广泛的数据来源,各类终端系统、传感器、视频音频等决定了大数据形式的多样性,尤其是技术手段的进步,数据的种类也发生相应的变化。人们日常生活中接触的音频、视频、照片、文件、资料等都包含大量的数据,这些数据的用途、形式、大小、内容、格式等可能都完全不一样,这类数据称为非结构化数据;而还有一些数据形式结构都类似,比如各类报表,包括财务系统数据、信息管理系统数据、医疗系统数据等,这些属于结构化数据。日常生活中我们接触的数据大部分都是非结构化的,从而导致处理难度的加大。
(4)价值化(Value):大数据时代,数据开始被视为一个新的生产要素,数据的基本用途为信息的收集和处理提供了依据,但数据的价值不会随着它的使用而减少,它的基本用途可以转变为未来潜在用途,如同冰山一角,潜在实用价值更为巨大。但由于数据来源形式多种多样,导致数据标准不统一不连贯,而大数据体量大速度快的特点导致当前数据价值密度较低,在现实世界中,如同大浪淘沙般的从规模巨大的数据中提取有用的信息难度很大。如果一旦大数据提取技术能够实现突破,其巨大的实用价值将会体现出来。
总之,大数据时代的特征在于,海量化的数据已经突破人类能够处理的极限,同时,大数据还蕴含着传统数据所没有的新内容,通过数据处理方法的不断进步,毫无疑问将给人类生活带来巨大变革。让数据不仅成为资产,也成为关键的生产要素,让人类的认知能力得到全面有效的提升。[12]
3 大数据的本体论意义
大数据时代,一切皆可“量化”,万千事物都可转化为数据形式,实现世界的数据化,改变了人类认识世界和理解世界的方式,带来全新的数本哲学。
3.1 大数据成为认识的来源
大数据时代,数据逐渐从测量事物和记录信息的辅助工具走向主体地位,成为和土地、资本、人力并驾齐驱的关键生产资料,并成为一个可被感知的独立客观世界。这里的数据不同与毕达哥拉斯抽象概念的“数”,它通过图片、语音、视频、文字等方式记录日常生活,不仅仅描述自然科学世界,还包括人文社会科学。比如GPS卫星定位系统,可以通过对人和物体空间位置的记录来精确量化,从而进行人类行为学的的研究,甚至可以预测未来行为;社交网络的大量数据,将沟通、情绪、态度转变为一种可分析的数据形式,从而使得数据可用于分析人类精神世界,这也是认识论的一次重大变革。过去哲学史上的物质与意识的关系变成物质、意识与数据的关系。大数据时代,人类的感知系统将逐渐失去在传统意义上的优势,人类的精神世界、意识领域、社会行为等主观世界皆可“数据化”,大数据描述工具的使用将实现人文社会科学的定量研究。[13]
大数据时代,世界的一切关系皆可用数据来表征,一切活动,包括自然科学和人文社会科学,都可以转变为一种可分析的数据形式,世界的本质就是数据,这一认知也为我们提供了一个重新审视现实的视角,我们对世界的解释变成对数据的解读,数据代替了我们对外部世界的感知,即数据被赋予了世界本体的意义,成为认识的来源。
3.2 大数据世界观的重新建构
纵观历史各个时期可以发现,我们对于外部世界的感知大部分都是建立在工具测量的基础上,比如我国古代发明的量角器、尺子、浑象仪,包括笔墨纸砚,都是用来记录外部世界的生产数据,包括西方国家发明的望远镜、显微镜、光谱仪等技术装备,通过这些装备记录数据来认识外部世界从而改变世界。
到了近代,伴随着计算机的发明和互联网的广泛使用,分布式计算和存储海量数据技术的不断提升,大数据取代原先的数据,相关关系取代因果关系,通过寻求“是什么”代替“为什么”,从而让我们更好的了解世界。传统哲学通常认为一件事情的发生必然是由另外一件事情所导致,寻求的是事物之间的因果性。而大数据时代,不再关注因果关系,而是“让数据发声”,寻求数据之间的相关关系,通过对海量数据的研究,从中提取出规律性的认识并对未来形成预测,用新的数据规律代替传统的因果规律,从而产生“科学始于数据”的知识生产新模式,为科学发展提供了认知的新途径。[14]
同时,数据在原先具有的符号价值基础上,又被赋予经济、政治、文化、科学等诸多潜在价值,中央文件中将数据与土地、劳动力、资本、技术等传统要素并列,上升为关键的生产要素。同时,数据跟传统生产要素的区别是,数据具有可重复性使用的特性,它不仅作为记录财富的方式,数据本身也成为一种价值,舍恩伯格认为“数据是新时代的石油”,这里所说的价值,不仅是作为商业投资用途上的价值,同时还具有科学认知价值。这其中,关于数据开放和共享一直是关键,大数据一直要求打破数据隔离和数据孤岛,从而使得信息认知更加对称,由此带来社会公平、正义和自由。大数据将逐渐改变人们认识世界和改变世界的方式,带来全新的大数据世界观。
3.3 大数据时代的思维方式变革
技术的发展带来经验世界的改变,正如望远镜的发明让人们看到一个更加浩瀚清晰的宇宙,大数据及其技术的发展让人们看到一个更为复杂的世界。大数据带来新的认知方式,也必然会带来新的思维方式,从而产生科学范式的转变。
首先是整体性思维。以牛顿为代表的近代科学家由于受到技术的限制,更偏向于部分和还原,还原论认为万事万物都可以分解为部分,通过从整体中选取部分样本作为研究对象,从而以部分样本的研究结果扩展到全部,但是,部分的抽样实际上未必能够代替全部。而大数据时代因为数据获取能力以及计算技术的提升,使得研究的对象由原先的部分扩展到整体,“要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本”[15]。这种大数据时代的整体性思维反映的是全部,较为全面的体现了事物的整体,数据大到接近真实。
其次是多样性思维。在传统数据时期,由于获取数据的方式以及处理数据的能力都相对困难,所获取的数据也相对单一,比如按照某种标准化格式进行登记和填写的结构化数据。然而,在大数据时代,没有统一的标准和格式,“我们乐于接受数据的纷繁复杂,而不再追求精确性”[16]。费耶尔阿本德认为应提倡无政府主义的科学方法,“怎么都行”,存在即合理,多样性优于单一性。
第三是相关性思维。由于整体性的多样性数据在概率上体现了事物发展的趋势,因而更多关注事物之间的关联性,而非因果关系,即更多关注于“是什么”而非“为什么”,因果性不再被摆在首位,维克托说:“我们的思想发生了转变,不再探求难于捉摸的因果关系,转而关注事物的相关关系”[17]。
总之,大数据思维具有的偏向于全样本、接纳混乱性以及关注相关性等特征,这种思维方式的转变也体现开放系统的理念,强调事物自身发展演化的可能性。现有的科学研究方法,基本都是归纳法和演绎法,而大数据方法则是通过超计算、高复杂性算法直接从海量的数据中挖掘出大数据模型,它的源头在大数据中,直接忽视概念与理论,从而带来了思维方式与科学方法论的革命。
4 小 结
综上所述,毕达哥拉斯“数本源”说,通过“数”来感知世界,把抽象概念的数夸大为宇宙的本源,整个宇宙是数及其关系的和谐的体现,从而构建起毕达哥拉斯学派的哲学思想体系,也成为数本哲学的基础。从“数”到“大数据”,不仅仅是科学技术的进步,也是哲学思维方式的变革,带来全新的数本哲学。大数据体量大、速度快、类别多、价值化等特点让海量化的数据已经突破人类能够处理的极限,也改变了人们认识世界和改造世界的方式;万物皆可量化,包括客观物质世界和主观精神世界,数据覆盖了人类对于世界的全部感知,即数据被赋予了世界本体的意义,数据成为认识的来源;新的认知方式,也必然会带来新的思维方式改变,从而产生科学范式的转变。
但其中需要警惕的是,尽管大数据给我们的日常生活带来巨大的变化,但我们仍然需要看到数据的局限性,不能陷入大数据崇拜或数据妖魔化的陷阱,比如数据的符号化特征使之不能代替真正的现实世界,避免陷入虚无主义,失去其所存在的真正意义[18];相关性方法论虽然使得一种新的科学方法以全新的视角出现,但也应看到背后的归纳逻辑局限性,探求世界的本质依然是人类的不懈追求。数据化生存时代,大数据的隐私问题一直是亟需解决的问题之一,在数据空间如何保护个人隐私?如何监督监督者?诸如此类问题还需要持续思考和应对,可以说大数据引发的革命使人类世界正面临前所未有的机遇与挑战,对这些基本问题的思考必将带来新一轮的数据革命,并导致新技术新哲学的诞生,从而改变人们的生产生活方式。