大数据技术对科学方法论的革命
2014-08-15黄欣荣
黄欣荣
(江西财经大学 管理哲学研究中心,江西南昌330013)
大数据,这个原本属于专业人员的词汇,近年来走进了大众的视野,对我们的工作、生活和思维产生了巨大的影响。[1]大数据技术不但掀起了一场新技术革命,让我们的时代迅速进入信息时代,而且对传统的科学方法论带来了巨大的挑战,给我们带来了许多新的科学方法和技术手段,因此我们有必要从科学方法论的角度反思这场新技术革命的意义和影响。
一、大数据技术的兴起
2013年被称为中国大数据时代的元年。从这一年开始,大数据(Big data)这个词铺天盖地出现在各种媒体;有关大数据的图书迅速出版且发行量巨大,而大数据的富豪们,如百度的李彦宏、腾讯的马化腾、阿里的马云等,更是成了家喻户晓的神话般的数字财富人物。
如今,大数据彻底地改变了我们的工作和生活方式。对一般老百姓来说,大数据的最大影响莫过于网购。曾几何时,我们购物就必须上百货大楼,但是现在许多人都喜欢网上淘宝购物,读书人不逛书店逛网店,因此造就了淘宝、亚马逊、当当等著名的购物网站,带来了实体店的迅速衰亡。印象最深刻的莫过于近两年的11月11日所谓“光棍节”,网民们个个疯狂购物,一天网购数百亿元,真正达到疯狂的程度。对有一点年纪的读书人来说印象深刻的是文献资料搜索查询的艰难。当时全靠手工查卡片等原始方式来寻找自己所需的文献资料,虽然历尽艰难仍然挂一漏万。但如今的Google、百度等网络搜索工具让我们在数秒钟之内将世界上所有相关文献一网打尽。对现在的读书人来说,我们不缺少文献资料,只怕缺少独到的思想。此外,只是一两年的功夫,智能手机就迅速取代以往只能打电话发短信的传统手机,手机迅速变成了无所不能的智能工具,成了我们不可或缺的随身伴侣。从这些事例中,我们不难感受到无孔不入的网络以及背后的大数据技术对我们的影响。我们可以毫不夸张地说,大数据时代正以迅雷不及掩耳之势来到了我们的面前。不管是否情愿,我们都已经迅速地跨入了大数据时代。
大数据时代似乎来得特别迅猛,以至于我们似乎毫无思想准备。其实,大数据时代的征兆早已经有了诸多的表现。1980年代初,美国未来学家阿尔文·托夫勒在《第三次浪潮》,丹尼尔·贝尔在《后工业社会的来临》中宣布人类即将从工业社会进入信息社会。[2]1990年代,微软总裁比尔·盖茨在《未来之路》详细描述了信息社会的蓝图,尼葛洛庞帝则在其《数字化生存》中描绘了信息时代的生活方式,当时的美国总统比尔·克林顿则提出了《信息高速公路》计划,将学者们的设想变成了国家政策。兴起于20世纪末的复杂性科学则从科学思维和方法上为目前大数据时代的来临奠定了坚实的科学基础。进入21世纪互联网的普及和智能设备的风行为大数据时代的来临准备了物质基础,而电子商务的兴起则为大数据时代的来临进行了前期的尝试。因此,人类如今进入大数据时代是一种必然。当全球知名的咨询公司麦肯锡于2012年初正式提出大数据的概念和框架时,立即得到了世界各国的响应,并由此掀起了一场大数据风暴。
究竟什么是大数据?目前国内外都还没有统一的定义或认识。从狭义的字面来理解的话,它应该与小数据相对应,意指数据量特别巨大,超出了我们常规的处理能力,必须引入新的科学工具和技术手段才能够进行处理的数据集合。[3]所谓的小数据指的是数据规模比较小,用我们的传统工具和方法足以进行处理的数据集合。比如牛顿时代的各门自然科学,其数据量都不大,第谷观测了20年的天文数据,开普勒很快用手工就处理完毕,并从中发现了开普勒定律。后来,随着科学的发展,数据量有了比较大的增加,为了处理这些当时看来的“大数据”,统计学家创造了抽样方法,由此解决了数据处理难题。现在的大数据却是所谓的海量数据,各种数据的差别又特别巨大,用抽样方法也难于处理,只能用现在的数据挖掘和云计算、云存储等新技术才能解决。从广义来说,大数据指的是一种新的数据世界观,它将世界上的一切事物都看作是由数据构成的,一切皆可“量化”,都可以用编码数据来表示。这就是舍恩伯格所说的:“大数据是人们获得新认知、创造新价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。”[4]9
大数据的特点被人总结为4个“V”:[5]第一,Volume(大量),即数据数量巨大。从TB级别,跃升到PB级别(1TB=1012bt,1PB=1015bt);第二,Variety(多样),即数据类型繁多。除了标准化的结构化编码数据之外,还包括网络日志、视频、图片、地理位置信息等等非结构化或无结构数据。第三,Value(价值),即商业价值高,但价值密度低。在数据的海洋中不断寻找,才能掏出一些有价值的东西,可谓“沙里淘金”。第四,Velocity(高速),即处理速度快,实时在线。各种数据基本上实时、在线,并能够进行快速的处理、传送和存储,以便全面反映对象的当下状况。
大数据技术与传统的小数据技术有着本质的差别,它是一场新的技术革命,是上世纪末所说的信息革命的真正来临,也是上世纪末复杂性科学革命的技术实现。科学革命更多地局限于思想界、学术界,而技术革命则更加深入和具体,影响范围几乎遍及社会的每个神经末梢。因此这次大数据技术革命比以前信息革命的鼓动宣传以及复杂性科学革命对我们的工作、生活和思维产生的影响会更广泛、更深入。大数据技术革命还将为科学研究提供新的思维方式和新的科学方法,因此大数据技术必然会对传统的科学方法论产生巨大的挑战,带来科学方法论的革命。大数据权威舍恩伯格论述了大数据带来的三大思维变革,即要全体不要抽样,要效率不要绝对精确,要相关不要因果。这三大思维变革如果更具体化地落实到科学方法论上,必然会对传统的科学方法论产生革命性的转变。
二、走向分析的整体性,实现了还原论与整体论的融贯
科学方法论从宏观来说主要由整体论和还原论两种方法论体系构成。整体论把研究对象当作一个完整的黑箱来看待,它不打开作为黑箱的研究对象,不破坏对象的完整性,主要从系统的输入输出中猜测黑箱内部的结构和内部机制。还原论也叫机械还原论,是一种与整体论相对立的一种科学方法论,它主张把研究对象尽可能打开,尽量还原到某个逻辑基点,找出系统的构成要素及其内部机制,以解释系统的行为和功能。
整体论由来已久,应该说它比还原论更久远得多,因为在人类的早期,由于科学技术手段的落后,先人们根本没法打开作为研究对象,只能把它作为一个整体来进行研究。无论是西方还是东方都是如此。例如中医把人体作为一个完整的研究对象,通过把脉、看舌等所谓的“望闻问切”等手段来诊断人体内部的运作状况,从而达到诊治疾病的目的。由于只从整体、宏观层面来考察对象,缺乏微观、深入的研究,只能依靠黑箱透露出来的少量信息猜测内部的结构和机制,难于对研究对象进行科学表述。因此随着西方科学的进步,特别是分析、还原科学的兴起,作为早期重要科学方法论的整体论慢慢走向衰落。
西方的分析、还原思想出现得比较早,当古希腊第一个哲学家、科学家泰勒斯提出水是万物的本源之时,还原论的思想就凸显出来。古希腊哲学家的所谓本原问题,其实就是试图将研究对象还原为其构成要素的基本成分,并试图为万事万物寻找到逻辑的出发点,也就是“始基”。亚里士多德的演绎方法就是还原论的哲学总结和逻辑表述。随着牛顿力学的巨大成功,还原论被当作一种万能的科学方法论运用于分析世间万物,而且一路高歌,纷纷取得辉煌成就。也就是说,万物都按照牛顿力学的隔离、分解的原则,打开黑箱,条分缕析,寻找着其基本的构成要素及其运作机制。在还原论的帮助下,近代科学的各门学科先后从哲学中独立出来,成为现代科学的基础。物理学是所有其他学科的楷模,机器是当时各门学科的共同模型。通过解剖刀的逐一分解,人体也像机器一样不断被拆卸,所以拉美特里才会将人比拟成机器,因此机械自然观和分析还原论成了近现代科学取得巨大成就的重要哲学基础。还原论曾经为科学的发展立下了汗马功劳,也正因如此才成为近现代科学方法论的主流,而早期的整体论在还原论面前几乎没有还手之力。
随着科学问题的越来越复杂,特别是面对有机世界的各种生命现象,还原论显得越来越力不从心,各种问题和矛盾越发突出。因此,1980年代末,美国的三位诺贝尔奖获得者才会带头“老帅倒戈”,起来造还原论的反,正式提出超越还原论的口号,并成立从事整体、综合研究的圣菲研究所。1990年代,基于超越还原论的复杂性科学逐渐兴起,并很快被称为“21世纪的科学”,而将以前的所有基于还原论的科学都被称为“简单性科学”。由此,沉寂千年的整体论随着复杂性科学而逐渐复兴,还原论被批得体无完肤,甚至大有用整体论来彻底取代还原论之势。[6]不过复杂性科学兴起近30年来,虽然取得了不少成绩,甚至曾形成复杂性科学运动,各门学科都试图用复杂性科学方法来突破原来的学科瓶颈。但因整体方法没有得到具体的落实,所以目前复杂性科学并没有因此取得真正革命性的成果。
在小数据时代,由于采集数据和处理数据的能力都极其有限,因此我们就尽量减少数据量,例如试图通过还原来找到撬动整体的杠杆,只要几个数据便可知晓研究对象的一切。后来随着数据量的增加,例如人口统计数据,社会经济调查等,需要处理的数据量急剧增加,但由于处理能力有限,我们必须进行简化,以便有能力处理。于是统计学发明了抽样统计方法,通过对抽样出来的少量数据能够反映出研究对象的全貌。这些数据并没有“全息”功能,不一定能够完全反映对象的真实情况,因此带来了现代科学的种种问题。从本质上来说,这两种方法虽然有所不同,但其本质是相通的,都是还原论思想的体现,都是我们企图以少御多的反映,也是简单性科学思想的体现。
随着计算技术和网络技术的发展,采集、存储、传输和处理数据都已经成了易如反掌的事情。面对复杂对象,我们再没有必要做过多的还原和精简,而是可以通过大量数据甚至是海量数据来全面、完整地刻画对象,通过处理海量数据来找到研究对象的规律或本质。正如舍恩伯格所说:“当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有数据,‘样本=总体’”。[4]27在大数据中,这个“总体”正好刻画了整体论中的所谓“整体”,但这个整体是由科学、具体的全部数据集合构成的,而每个具体的数据正是数据集合的部分,也就是对象系统的部分。在大数据中,整体和部分都有了科学、具体的所指,整体和部分的关系是一个具体、实在的关系。这样,在大数据技术中,由于处理了所涉问题的全部数据,这就让整体论中所说的全面、完整把握对象就有了科学的表述并落实到了具体的数据。而这全部数据是由一个个具体的数据构成的,因此还原论中的要素、部分也得到了科学的表述。因此,大数据方法论通过处理所涉问题的全部数据实现了科学、具体的整体论和还原论,实现了还原论与整体论的贯通和辩证统一。总之,大数据技术给科学方法论带来的第一个革命就是为实现复杂性科学的还原、整体辩证统一的融贯方法论提供了具体的技术实现途径。
三、承认复杂的多样性,地方性知识获得了科学地位
由于西方近代科学的飞速发展及其对社会的巨大影响,西方近现代科学成了科学的“标杆”和代名词,以至于我们在说到科学之时基本上指的都是西方近现代科学,而与西方近现代科学不一致的其他知识,例如中医药知识,都被排斥在科学的大门之外。
西方科学哲学从逻辑实证主义起就有一个重要议题,那就是科学与非科学的划界问题。所谓科学的划界问题就是试图用某种标准将科学和非科学区分开来,并且将非科学或伪科学赶出科学的阵营。此外,科学被当作一切学科的标杆和榜样,凡是要加入科学阵营的知识,必须具备西方近代科学所具有的特征,否则不但会被拒斥,而且有可能被贴上非科学或伪科学的标签。
那么,西方近现代科学最根本的特征究竟是什么?西方科学哲学一直没有统一的意见,逻辑实证主义认为是理论的逻辑表述与结果的经验证实,波普尔则认为是理论的逻辑表述与结果的经验证伪。库恩则认为一门学科是否是科学要看这个学科是不是有了成熟的学科范式,而费耶尔阿本德则认为根本不存在这样一条明确的分界线。不过不管各家观点怎么样,但基本上都认为科学必须建立在理性与逻辑的基础上,特别是各门学科必须找到自身的逻辑基点。
从科学方法论上来说,西方科学强调还原论,除了任何理论,不管有多复杂,都必须能够还原到逻辑原点之外,各门学科还存在还原关系。物理学是各门学科的基础,其他学科都最后可以还原到物理学。通过还原,整个西方科学的大厦都可以建立在统一的基础之上。例如爱因斯坦毕其一生追求着统一场理论,法国著名的布尔巴基学派试图将整座数学大厦建立在统一的基础上。有了统一性,科学就具有了可重复性和可检验性。这也就是说,任何科学理论,最终都可以而且必须具有统一的理论表述,而且可以在世界不同的场合用相关设备进行重复实验,以便检验科学理论的真与假。
但是,科学哲学家费耶尔阿本德以及后来的后现代主义者却不太认可上述观点,认为科学并没有一个统一的基础和标准,任何知识和经验都有其存在的理由。复杂性科学更是从科学视野强调了知识的多样性、语境性和多样性。不过,以往的科学和哲学批判都还停留在理论层面,缺少了技术层面的具体操作。直到大数据技术的兴起才为打破统一性,提倡多样性找到了具体的方法和实现途径,从而真正实现了科学方法论的革命。
追求统一性、标准化是小数据时代的标志。过去为什么要还原、统一?因为过去我们没有有效的科学手段来处理复杂、多样、多变的海量数据。为了能够用简单手段和设备能够处理,便首先在理论上进行简化,把复杂、多样的东西首先通过还原论还原到一个基点,而且按照统一标准来进行统一,这样数据便简单方便,容易处理。在计算机发展的早期,所有数据都要用统一的数据格式,即按照标准化的数据结构对所有要处理的数据首先进行标准化、格式化处理,这就是所谓的结构化数据,以便达到更加精确无误的目的。例如在人口统计中,每个人都必须按照标准格式进行填表登记,凡是不符合统一标准的都被当作无效或不精确的数据而被废弃。“对‘小数据’而言,最基本、最重要的要求是减少错误、保证质量。”[4]46
在大数据时代,时时处处都在实时地产生各种数据,这些数据没有按照某种标准或某种指令而产生,之后也没法进行标准化处理,各种数据类型都同时存在,例如除了标准化的结构化编码数据之外,微博、聊天记录、网络日志、视频、图片、地理位置信息等等非结构化或无结构数据都成了大数据这个大家庭的成员。随着网络技术的发展,个性化成了潮流,因此结构化、标准化数据所占比例越来越少,非结构化或无结构数据越来越多。大数据技术不要求数据的标准化和结构化,真正体现了兼容并包的原则,用费耶尔阿本德来说就是“怎么都行”。一切都有其存在的理由,存在的就是合理的,因此再也不像小数据时代按照统一标准对数据的精挑细选,而是容纳了多样性的存在,并能够从沙里淘金。
复杂性哲学和科学实践主义哲学都提出了知识的多样性和地方性的主张,认为知识的形式和内容都允许不同的存在,除了全世界都统一的标准化科学知识外,还存在地方性知识。例如中医药、藏医药、伊斯兰医药等不同地方的医药知识都有着悠久的历史,并为当地不同民族的人民健康做出过巨大的贡献,因此其形式和方法都与西医有很大的不同,但都有存在的必要。[7]另外,有些实践性知识有时候就是一次性的经验知识,不具备可重复性和可检验性,但不能因此就否认这种知识的存在及其价值。复杂性哲学与科学实践主义哲学的这些主张都是革命性的,但这些主张并不那么容易实现,因此在实践中往往仍然按照理性主义的主张来判断知识的科学性。
大数据技术的兴起,为复杂性哲学和科学实践主义哲学的主张得到了真正的落实。大数据方法论认为:“执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界之窗。”[4]45所以大数据技术把语境性知识、地方性知识、多样性知识统统纳入知识的范围,科学不再挑三拣四,不再排斥异己,而是体现了更多包容心。“要想获得大数据带来的好处,混乱应该是一种标准途径,而不应该竭力避免的。”[4]60因此,舍恩伯格得出结论说:“相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相”。[4]46总之,大数据技术给科学方法论带来的第二个革命是复杂性、多样性得到了承认,多样性、地方性知识获得了科学的地位。
四、突出事物的关联性,非线性问题有了解决捷径
我们说过,按照西方科学的还原方法论传统,理性、逻辑和因果性是科学的基本特征,也是科学的核心问题及基本追求。从古希腊开始,西方科学与哲学就一直苦苦追寻着事物间的因果关系,试图从事物间的因果关系中捕捉到事物间的基本规律。例如古希腊自然哲学家都热衷于寻找世界的本源,这就涉及因果性的问题,因为他们就是循着因果链条去寻找世界的“始基”,也就是找到因果链的起点。欧几里得几何学从五条公理出发,循着因果链推演出整个几何世界。科学之所以能够存在而且最令人信服,就是因为科学中的所有理论都有其因果推演。所谓的逻辑、理性其实最终都可以归结为因果性的问题,没有因果性就没有了科学存在的基础。
文艺复兴之后,西方哲学遵循两条发展路径,即唯理论与经验论,而且相互争论了数百年。唯理论认为知识的出发点是更普遍的正确理论作推演前提,从正确的前提中推出正确的结论。经验论则认为知识的出发点是人类的各种经验事实,我们可以从经验中归纳出具有普遍必然性的知识。就出发点来说,它们是有分歧的,但承认事物之间的因果性这一点上,这两派是完全一致的。后来英国经验论哲学家休谟由于将经验推到极致最后导致了因果性危机并引发人们对科学信念的动摇。德国哲学家康德的名著《纯粹理性批判》之所以出名就是因为他试图通过对因果性的辩护来挽救科学信仰的危机。后来逻辑实证主义以及波普尔的证伪主义都建立在因果性的基础上,从而强化了科学的标杆地位。
因果性问题其实就是我们平时所说的“为什么”的问题。人类天生有一种追根究底的好奇心,万事都要问个为什么。我们也已经习以为常,觉得只有追问为什么才能掌握事物的规律。但是,随着大数据技术的兴起,这条天经地义的方法论原则被动摇了。大数据学者认为,追求因果性是小数据时代的标志,而在大数据时代,知道“是什么”就够了,没必要知道“为什么”。我们不必非得知道现象背后的原因,而是要让数据自己“发声”。[4]67
什么叫事物的相关性呢?所谓相关性就是一种现象的变化有可能会引起另一种现象产生相应的变化。当然,这里只能说“有可能”,如果是“一定”、“必然”的话,那就变成了因果性了。从这里可以看出,相关性是一种比因果性更弱的事物间的关系,也许两现象间根本没有必然的联系,只是偶然巧合罢了。是必然还是巧合?大数据技术根本不想去追究,只要会引起变化就认为有相关关系。“相关关系的核心是量化两个数据之间的数理关系”。[4]71
小数据时代为什么更关心因果关系,而大数据时代更关注相关关系呢?在小数据时代,可获得的数据比较少,每个数据都比较珍贵,基本上不会有冗余的数据,而且数据结构和类型单一,数据之间一般都是呈线性因果关系,因此我们可以详细地研究每个数据之间的细节,并从中找出它们之间的因果关系和微观规律。但是,在大数据时代,数据量特别巨大,冗余数据也特别多,数据结构不同、类型不一,可谓纷繁复杂。要从微观上从大数据中找出它们数据之间的所有因果关系几乎是不可能的,因此我们退而求其次,把所有相关数据当作一个黑箱。通过黑箱的输入输出,我们从宏观上去寻找有关联的数据,即找出有显著变化的关联关系,以便找到海量数据间的宏观规律。这也是大数据学者强调在大数据中关联关系比因果关系更重要的原因。
在小数据时代,我们面对的线性因果关系是比较容易处理的问题,例如通过解线性方程可以找到问题的答案。但是,大数据的海量数据之间往往都是非线性关系。我们知道,非线性方程目前来说很难得到通用解,一般只能通过数值方法来得到一些特殊解。大数据技术通过寻找相关数据之间的关系,从而忽略中间过程,忽略其中的因果细节,只管最后的宏观关系。“相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽。”[4]88这样我们又找到了解决非线性问题的一种比较便捷的科学方法。
解释和预测是科学理论的两项基本功能。所谓解释就是对已经发生的现象找出因果或相关关系来说明现象之间的规律或关系。所谓预测就是已知一些现象,通过因果或相关关系来预见未来即将发生的现象。对于小数据及其线性因果来说,解释和预测都比较简单。但面对大数据,解释和预测都比较复杂。在大数据方法之前,我们往往无能为力,但大数据方法为我们找到了具体实现的技术途径。在大数据时代,新的技术分析工具和思路为我们提供了一系列新的视野和有用的预测,“我们看到了很多以前不曾注意到的联系,还掌握了以前无法理解的复杂技术和社会动态。”更重要的是,“通过探求‘是什么’而不是‘为什么’,相关关系帮助我们更好地了解这个世界。”[4]83
大数据时代更重视相关关系,而对因果关系有所忽视,那么有了相关关系是不是就不要因果关系了呢?或者说,相关关系是不是否定了因果关系呢?答案是否定的。大数据技术并不像哲学家休谟一样怀疑或否定事物之间的因果关系。相反,它充分肯定事物之间的因果关系。只是因为太多数据,我们无法一一找出它们之间的微观因果联系,只好忽略中间的因果关系过程,从宏观、从最后结果来把握它们的相关关系。或者说,相关性并没有否定因果性,只是忽略了其细节。舍恩伯格也承认这一点,他说:“因果关系还是很有用的,但是它将不再被看成是意义来源的基础。”[4]83总之,大数据技术带来的第三个方法论革命就是凸显事物间的相关关系和非线性特征,而不再特别关注其因果关系。
结语
大数据时代的来临给我们带来了许多观念的变革,更带来了许多科学新方法、新工具,从而改变了人类探索世界的方法。复杂性科学为我们提供了科学的新思维和新方法论,但缺少具体的实现途径。大数据技术的兴起弥补了复杂性科学的不足,使得复杂性科学方法论变成了可以具体操作的方法工具,从而带来了科学方法论的真正革命。“大数据时代将要释放出来的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。”[4]94
[1]涂子沛.大数据[M].桂林:广西师范大学出版社,2013.
[2]阿尔文·托夫勒.第三次浪潮[M].北京:中信出版社,2006:83-85.
[3]L.Floridi.Big data and their epistemological challenge[J].Philos.Technol.,2012(25):435-437.
[4]维克托·舍恩伯格,肯尼斯·库克耶.大数据时代[M].杭州:浙江人民出版社,2013.
[5]李德伟,等.大数据改变世界[M].北京:电子工业出版社,2013:7.
[6]黄欣荣.复杂性科学的方法论研究[M].重庆:重庆大学出版社,2011.
[7]黄欣荣.复杂性科学与中医[J].中医杂志,2013(19):1621-1626.