APP下载

大数据时代的思维变革

2014-02-08黄欣荣

关键词:复杂性科学时代

黄欣荣

(江西财经大学管理哲学研究中心,南昌 330013)

大数据如今成了一个炙手可热的词汇,成了各行各业的人们热烈谈论的话题。种种迹象表明,大数据正向我们扑面而来,世界正急速地被推入大数据时代。因此,许多有识之士都急速呼吁要热情拥抱“大数据时代”。随着大数据时代的来临,我们的生产、生活、工作和思维方式诸多方面都将进行大变革,我们将一改往日的小数据思维和眼光,迅速以大数据思维和视角来看待世界,看待社会和生活。

一、大数据时代的来临

20世纪80年代,以预测未来而著称的美国未来学家阿尔文·托夫勒在其《第三次浪潮》中就曾经预测,21世纪前后,人类将进入信息时代,信息将成为物质、能量之后的第三个世界构成要素,并用极其煽动性的语言描绘了信息时代的生产、生活、工作和学习等各方面的变革[1]。当时大多数人都认为这是一个十分遥远的乌托邦。然而,仅仅几年功夫,随着计算机的快速更新换代,世界就被托夫勒所说的“第三次浪潮”所席卷,被急速推入了信息时代。

20世纪80年代以来,计算机的硬件和软件都按摩尔定律迅速发展[2]39。硬件体积越来越小,但功能越来越强大;软件迅速升级,并被模块化、智能化,计算机被迅速普及到各行各业,渗透到生活的方方面面。由于计算机以处理离散数据见长,因此凡需计算机处理的东西都必须用离散数据来表示,所涉对象也必须被编码成结构化数据。由于计算机及其他智能设备的普及,由其采集的各类数据以铺天盖地之势爆发出来,在国际互联网的推波助澜下,这些爆炸性增长的数据又成了公共数据。这些海量、杂乱的数据以前被看作无用而又占据存储空间的“垃圾”,随着数据挖掘和处理技术的发展,这些“数据垃圾”迅速变废为宝,成了炙手可热的资源。那些先知先觉的吃螃蟹者靠这些资源一夜暴富,成了时代的新宠和标杆。在这些“数据富豪”的示范和引领下,“数据”变成了一种继物质、能源之后的宝贵资源,占有数据就等于占有了财富。于是,各种数据都被收集和存储,数据规模爆炸式增长,形成了数据的海洋。这些海量数据与小数据时代的寥寥数据相比简直不可同日而语,因此被称为“大数据”。

大数据一词来源于英文Big data,用来指称“那些大小已经超出了传统意义上的尺度,一般的软件工具难于捕捉、存储、管理和分析的数据”[2]57。据百度百科,“大数据”这个术语最早期的使用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着Google Map Reduce和Google File System(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。不过,大数据被广泛传播,主要归因于美国麦肯锡公司。2012年初,全球知名的咨询公司麦肯锡最早使用今天被大家理解的“大数据”概念,用来指称数据量特别巨大,超过PE级别(1015~1018字节)并包括结构性、半结构性和非结构性的数据[3]7。

从某种程度上说,大数据主要是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。这也是大数据的概念一提出来就一呼百应的原因,因为它属于技术,具有巨大的商业价值,具有促使该技术走向众多商业应用的潜力。

大数据是一个总称性的概念,它还可以细分为大数据科学、大数据技术、大数据工程和大数据应用等领域。目前我们所说的大数据更多局限于大数据技术和大数据应用,而对大数据科学和工程则还未重视。大数据科学关注大数据网络发展和运营过程中,发现和验证大数据的规律及其与自然和社会活动之间的关系,而大数据工程指大数据的规划建设、运营管理的系统工程。

有人把大数据的特点归纳为4个层面,并被简称为 4“V”[3]7:第一,Volume(大量),即数据数量巨大。从TB级别,跃升到PB级别(1TB=1012bt,1PB=1015bt)。第二,Variety(多样),即数据类型繁多。除了标准化的结构化编码数据之外,还包括网络日志、视频、图片、地理位置信息等等非结构化或无结构数据。第三,Velocity(高速),即处理速度快,实时在线。各种数据基本上可以做到实时、在线,并能够进行快速的处理、传送和存储,以便全面反映对象的当下状况。第四,Value(价值),即商业价值高,但价值密度低。以视频为例,在连续不间断的监控过程中,可能有用的数据仅仅有一两秒。

二、大数据引发的思维方式变革

“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明新服务的源泉,而更多的改变正蓄势待发。”[4]1大数据正在改变我们的一切,其中最重要的是从改变我们的思维方式开始,引发思维大变革,并带来所谓的“大数据思维”。

所谓思维方式,就是我们大脑活动的内在程序,是一种习惯性的思考问题和处理问题的模式,它涉及我们看待事物的角度、方式和方法,并由此对我们的行为方式产生直接的影响。任何人都生活在一定的时代和环境中,其思考问题和解决问题的习惯和模式都会受到时代和环境的影响,并由此决定他怎样观察和理解这个世界。例如,文艺复兴以来,由于牛顿力学的巨大成功,人们就用牛顿力学来看待一切,似乎世界就像一台巨大的机器,完全可以用牛顿力学的三大定律和万有引力定律来认识和解释一切现象,以至于活生生的人类自身也变成了“机器”,这就是著名的机械论思维方式。

随着Google、百度、腾讯、淘宝等网络公司的迅速崛起以及他们的迅速致富,数据致富成了新的致富神话。山西的煤老板、王石等房地产商、拥有数百万一线工人的富士康公司等,费了九牛二虎之力才取得亿万财富,而这些网络数据商则在短短的几年时间就迅速超越了这些实体公司的财富,并且所费人力、物力和财力甚少。人们现在才如梦方醒,知道了数据在我们这个时代成了最重要的资源之一。数据就是资源,数据就是财富成了迅速深入人心的理念。一切皆用数据来观察,一切都用数据来刻画,一切数据也被当作财富来采集、存储和交易,这就是所谓的“数字化生存”。“大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。”[4]9人们迅速地以数据的眼光来观察世界和理解、解释这个纷繁复杂的世界,这就是所谓的大数据思维。按照舍恩伯格的说法:“所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。”[4]167

曾几何时,数据只是刻画世界的一种方便符号,而如今却成了财富,甚至有人提出世界的本质就是数据。因此,随着大数据时代的来临,人类的思维方式必然会产生革命性的变革。这些变革主要表现在如下几个方面:

第一,整体性,即用整体的眼光看待一切,由原来时时处处强调部分到如今强调“一个都不能少”,不能只有精英,而其他只能“被代表”。西方科学从古希腊开始就有寻找“始基”的传统,以牛顿力学为代表的近代科学家们更是擅长分割整体,不断还原,通过研究作为基本构件的部分来把握整体行为,由此形成了西方科学的还原论传统。在还原论眼中,万事万物都可以分解为部分,部分比整体更加重要,只要把握了部分,整体就尽在掌握之中。这些部分也被称为要素,而整体则被称为系统。之所以重视部分,原因当然无非有两个:一是当时的科学还处于刚刚开始的阶段,通过简单的分解就可以取得丰硕的成果;二是当时的处理能力还不足以把握复杂的整体,于是采取迂回的办法,通过分解为更简单的部分来把握复杂的整体。当整体只由简单的几个部分组成时,当然其所有部分都会被详细研究。但当整体由众多的部分构成时,由于处理能力所限,不可能对所有部分进行研究,于是只能选取其中的一些部分,试图通过这些部分来代表全部,这就是统计学中十分著名的样本研究法。为了让这些部分能够代表整体,就有了如何科学抽样的研究。但是,无论如何科学抽样,都有可能走样,部分都未必能够代表整体。于是就有了以系统科学和复杂性研究为代表的整体论兴起以及中国古代整体论的复兴。但无论是西方现代整体论还是中国古代的整体论,其整体都是抽象的整体,无法进行技术操作,只停留在抽象的概念层面。随着大数据的兴起,整体和部分终于走向了统一。大数据理论承认整体是由部分组成的,但面对大数据,我们不能用抽样的方法只研究少量的部分,而让其他众多的部分“被代表”。在大数据研究中,我们不再进行随机抽样,而是对全体数据进行研究。正如维克托所说:“要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。”[4]29“当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,‘样本 = 总体’。”[4]27大数据技术将整体论的“整体”落到了实处,整体不再是抽象的整体,而是可以进行具体操作的整体,而且能够真正体现整体的行为。在大数据时代,不再有“被代表”,整体真正体现了全部,反映了所有的细节。

第二,多样性,即承认世界的多样性和差异性,由原来的典型性和标准化到如今的“怎样都行”,一切都有存在的理由,真正做到了“存在的就是合理的”。在小数据时代,人们获取数据和处理数据都不是那么容易,因此要求每个数据都必须精确和符合要求,或者说按照某个格式或标准来采集统一结构标准的数据。例如我们的手机号码、身份证号码都是统一格式的,在人口普查、经济普查等各种普查中,都严格要求按照标准化的格式登记和填写。一旦产生非标准的数据就会当做无用数据而被排除。在计算机的数据结构中,这些标准化的数据叫做结构化数据。然而,在大数据时代,随时随地都在产生各类数据,而且这些数据没有统一要求或标准,五花八门。按大数据的视野看来,这些数据虽然没有标准化,但依然是宝贵的资源,无论是标准的还是非标准的数据都有其存在的理由。“我们乐于接受数据的纷繁复杂,而不再追求精确性。”[4]29科学哲学家费耶尔阿本德认为,在科学方法上应该提倡无政府主义,没有标准,“怎么都行”。大数据真正体现了这种科学方法论,也体现了德国哲学家的思想:凡存在的都是合理的,这些数据既然产生并已经存在,就有其存在的理由,就有其合理性。大数据时代真正体现了百花齐放的多样性,而不再是小数据时代的单调乏味的统一性。

第三,平等性,即各种数据具有同等的重要性,由原来的金字塔式结构变成了平起平坐的平等结构,强调了民主和平等。任何系统都有其组成结构,组成系统的各种要素按照某种结构组织起来而形成系统。在还原论的影响下,小数据时代的科学技术特别强调系统的层次结构,钟情于金字塔式的、不平等的等级结构,由此来强调系统要素之间的不平等性。在等级结构中,我们可以像剥洋葱一样层层剥离,通过层层还原来不断揭示出要素之间的关系,并强调金字塔顶的基础作用以及上下级的领导关系。在大数据的海量数据中,所有的数据更多地是处于平等关系,因此不会特别突出某些数据的关键作用。在大数据时代,群众成了真正的英雄,而不再过分强调精英和英雄的突出地位。

第四,开放性,即一切数据都对外开放,没有数据特权,从原来的单位利益、个人利益变为全民共享。封闭导致混沌和腐败,开放则带来有序和生机。由于处理能力的限制,以往的科学在对研究对象进行研究时,都要把对象与环境隔离开来,就像牛顿力学在做力学分析时那样,这种分离、封闭的方法也深深地影响了我们的思维方式。在社会生活中,我们也是把社会划分为不同的部门或利益共同体,整个社会就由大大小小诸多的部门或利益共同体构成。为了自身的利益,各利益共同体都各自为政,不愿意把信息对外公布和分享。当然,在以往的社会,即使想跟大众分享,也没有实现分享的技术途径。在大数据时代,互联网、云技术等信息技术为我们提供了便捷的共享手段。遍地可见的电脑、智能手机、摄像头以及其他诸多的信息采集设备和存储设备将海量数据置于公共空间,为公众共享信息提供了基础。因此,大数据时代是一个开放的时代,一切都被置于“第三只眼”中,太阳底下无隐私,分享、共享成了共识,传统的小集团利益被打破,社会成了一个透明、公开的社会。这也符合大众的期望,因为大众就希望通过公开透明来消除因封闭、封锁而导致的腐败,开放、共享带来社会经济的勃勃生机。

第五,相关性,即关注数据间的关联关系,从原来凡事皆要追问“为什么”到现在只关注“是什么”,相关比因果更重要,因果性不再被摆在首位。西方科学传统中,因果性是各门学科关注的核心,古希腊哲学家所谓的本源问题其实就是因果关系问题,物理、化学、生物等学科所得到的所谓规律无非就是各种因果关系而已。在传统科学中,由于科学工具和处理能力所限,只能寻找和处理简单的几个量之间的线性关系。因为每个数据得来不易,所以几乎没有冗余数据,每个量总能找到其前因后果,因而形成一个长长的因果关系链。但是,在大数据时代,由于数据量特别巨大,几乎都是海量,要找出所有量与量之间的因果关系几乎是不可能的,因此只好把它们封装起来作为一个黑箱,我们只关注这个黑箱的宏观行为,不甚关注其内部机制。我们通过比对来发现数据之间的相关关系,找到宏观行为中具有显著相关的数据之间的变化关系。由于这些相关数据之间在黑箱内经过了十分复杂的相互作用,不再是小数据时代的简单、直接的线性因果关系,而是复杂、间接的非线性因果关系,因此大数据时代的相关关系比因果关系更重要。正如维克托所说:“我们的思想发生了转变,不再探求难于捉摸的因果关系,转而关注事物的相关关系。”[4]29因此,大数据时代打破了小数据时代的因果思维模式,带来了新的关联思维模式。

第六,生长性,即数据随时间不断动态变化,从原来的固化在某一时间点的静态数据到现在的随时随地采集的动态数据,在线地反映当下的动态和行为,随着时间的演进,系统也走向动态、适应。在小数据时代,采集的数据都是某个时间点的静态数据,比如传统的人口普查,必须规定在某时点开始普查,经历一段时间到某个时点结束,然后用几年的时间来处理得来的静态数据。这些静态的人口数据不能及时反映出每时每刻人口生生死死的动态变化,而是具有很长的时滞性,因此不能反映人口的实际状况。在大数据时代,由于基本上可以做到在线采集数据,并能够迅速处理和反映当下的状态,因此能够反映出实际的状态。大数据时代的最大特点就是采用各种智能数据采集设备,随时随地采集到各种即时数据,并通过网络及时传输,通过云存储或云计算进行即时处理,基本上不会滞后。此外,由于大数据时代采集、存储、传输、处理、使用数据的便捷性,因此我们可以做到不断更新数据。这些随时间流不断更新的数据正好反映了数据随时间的动态演化过程,这个过程构成了一幅动态演化全景图。这种动态演化图景正好反映了数据的生长性。此外,系统可以根据即时的动态信息来随时调整系统的行为,从而体现出系统的适应性。

三、大数据思维是一种复杂性思维

大数据思维从诸多方面都体现了思维方式的重大变革,代表着思维发展的新方向[5]。不过,顺着时间的脉络和思维的逻辑,我们很快就会发现大数据思维与世纪之交兴起的复杂性科学和复杂性思维具有极大的相似性,更极端一点来说,大数据思维从本质上来说就是复杂性思维。

复杂性思想古已有之,古希腊的亚里士多德以及整个古代哲学都具有复杂性思想。黑格尔和马克思、恩格斯更是以辩证法的哲学形式加以表达,但复杂性科学却一直等到20世纪90年代才兴起。美国三位诺贝尔奖获得者因为不满现代科学的学科分裂,在新墨西哥州发起成立圣菲研究所(SFI),以便弥合学科裂缝,整合科学资源,特别是试图从思维方式和科学方法论上超越长期以来占统治地位的机械思维和还原论方法。所谓复杂性科学,并不属于某一门新学科,而是一种科学新思维和新方法论[6]。复杂性科学认为,自然界和人类社会都纷繁复杂,并不像牛顿力学等近现代科学所认为的那样简单。大自然和人类的思维、行为并不完全严格按照线性因果关系来组织和行动,更多情况是随机、自由或非线性、多样性的。传统的机械自然观和还原方法论把一切对象都当作一架静止的机器,可以随意拆卸和组装,而且最终可以还原成某个基本原件。复杂性科学则持一种有机自然观,把一切对象都看作是有生命的、会生成演化的系统。即使是最简单的几个要素经过非线性相互作用,都有可能涌现出复杂的行为。正因如此,我们不能根据简单因果关系来推导系统的行为。这也就是说,因为非线性相互作用,简单要素经过分岔、突变,会涌现出复杂多样的斑斓世界。

牛顿力学、爱因斯坦相对论等传统的学科都基本上基于机械思维和还原方法论,因此全部被称为简单性科学。简单性科学与复杂性科学在世界观、本体论、认识论与方法论等诸多方面都有着革命性的差别。用美国科学哲学家托马斯·库恩的话来说,它们属于不同的科学范式,而且相互的通约性比较小。也就是说,从简单性科学到复杂性科学,是科学范式的不同转换,是典型的科学革命,其本体信念、认识趣向、共有价值、方法特性和符号通式诸多方面都发生了根本的变化(见表 1)[7]。

表1 简单性科学到复杂性科学的5个转变

表1所描述的从简单性科学到复杂性科学的5个维度的转变几乎也都适合用来描述从小数据时代到大数据时代的转变。我们已经知道,大数据思维具有整体性、多样性、平等性、开放性、相关性和生长性等特征,这些特性其实正好就是复杂性科学的典型特征。因此,可以得出结论说,简单性科学与复杂性科学、小数据时代与大数据时代具有某种平行性和对应性,小数据属于简单性科学,而大数据属于复杂性科学。由此不难看出,大数据的思维变革是科学范式从简单性科学走向复杂性科学的反映,而大数据思维从本质上来说就是一种复杂性思维[8]。

可以说,小数据时代属于简单性科学时代,而大数据时代属于复杂性科学时代,它们之间有时重叠交叉,有时各自发展。数据观的变革主要与信息科学、信息论、计算科学以及人工智能相关。随着计算机技术、网络技术的发展,数据处理的技术和能力有了翻天覆地的变化,从而引起了从小数据到大数据的革命性变革。可以说,数据观的革命主要是因为技术革命引起的,因而大数据最突出的表现是数据处理技术的革命性突破。正因为如此,大数据技术对百姓的生活、工作与思维产生了巨大的影响。从简单性科学到复杂性科学的科学观变革主要与系统科学、系统论以及其他科学相关,它更多属于科学思想观念和哲学思维等理念层次的变革,因而更多表现在各门学科的科学观念的革命转变上。因此,科学观从简单性到复杂性的变革虽然也是一场革命,但它对生产、经济,以及百姓的日常生活影响没有那么巨大,主要局限于科学和哲学等学术领域。

由此,我们可以说,从简单性科学到复杂性科学的革命,与从小数据时代到大数据时代在本质上是相通的,不过前者更多地表现在科学层面,而后者主要表现在技术层面;前者更多局限在思想领域,后者则直接对我们的生产、生活和思维产生了全方位的影响。因此,大数据技术革命与复杂性科学革命既有区别又有联系,但它们在思维变革方面是基本一致的。

四、结束语

当前正在轰轰烈烈兴起的大数据革命是一场影响巨大的科学技术革命,它必将改变世界,影响深远,必将使我们的学习、工作与生活彻底改观,使我们的思维方式产生彻底的变革。大数据思维体现了复杂性科学的思维方式,并且用最先进的数据采集、存储、传递和使用的技术让这种新思维得到全方位的落实,并带来大机遇、大挑战、大变革,最终“从大数据走向大社会”[2]308。在呼啸而来的大数据时代,一切坚固的东西正在烟消云散。大数据正在不断重塑我们的社会以及我们看待世界的方式。因此,不管愿意与否,我们都必将被大数据时代的滚滚洪流席卷,要么成为一个弄潮儿,要么彻底被时代淘汰。

[1]阿尔文·托夫勒.第三次浪潮[M].北京:中信出版社,2006:83-85.

[2]涂子沛.大数据[M].桂林:广西师范大学出版社,2013.

[3]李德伟.大数据改变世界[M].北京:电子工业出版社,2013.

[4]维克托·舍恩伯格,肯尼斯·库克耶.大数据时代[M].杭州:浙江人民出版社,2013.

[5]Luciano Floridi.Big data and their epistemological challenge[J].Philos Technol,2012(25):435 -437.

[6]黄欣荣.复杂性科学的方法论研究[M].重庆:重庆大学出版社,2011.

[7]黄欣荣.复杂性科学与中医[J].中医杂志,2013(19):1621-1626.

[8]艾伯特·巴拉巴西.爆发:大数据时代预见未来的新思维[M].北京:中国人民大学出版社,2012:245.

(责任编辑 张佑法)

猜你喜欢

复杂性科学时代
PFNA与DHS治疗股骨近端复杂性骨折的效果对比
简单性与复杂性的统一
点击科学
科学大爆炸
应充分考虑医院管理的复杂性
e时代
e时代
e时代
直肠腔内超声和MRI在复杂性肛瘘诊断中的对比分析
科学拔牙