APP下载

大数据技术的相关性与因果性分析*

2020-12-29李君亮

九江学院学报(社会科学版) 2020年4期
关键词:海量因果关系概率

陈 艳 李君亮

(1.广西民族师范学院数学与计算机科学学院 广西崇左 532200;2.海南大学马克思主义学院 海南海口 570228 )

大数据技术诠释使人获得的是海量数据给定的诸事实间的关系性理解,大数据技术知识发现显像出的仍然是海量数据给定的诸事实间的相关关系[1]。海量数据给定的诸事实间的相关关系背后实际上蕴涵了因果关系,这是一种什么样的因果关系?本文将对大数据技术的相关性及因果性以及二者之间的辩证关系做一探讨。

一、大数据技术的相关关系分析

大数据技术已经广泛应用于我们的生产生活之中,其广泛应用在给我们的生产生活带来天翻地覆的变化的同时,也对人的思维方式带来了巨大的冲击和改变,进而从根本上改变着我们的行为方式。大数据技术已经变得如此重要,并且与我们的生产生活须臾不离分,那么我们就必须对其进行深入的剖析与反思:即大数据技术的本质究竟是什么,它为什么会在今天的生产生活中产生如此重要的影响?

传统认知模式总是要求人们透过现象去认识事物的本质从而获得关于事物的知识,于是我们总会问:事物的本质是什么?就是因果性,即我们秉持着这样一种信念:凡事莫不有因,任何一种现象总是由别种现象引起的。获得对于事物的本质性认识,即认识隐藏在某种现象背后的现象,寻找这现象产生的原因,这就是传统认识的根本任务,在获得了关于现象产生和形成的原因后,我们就获得了知识,并且唯有这样的认识才形成科学知识。

大数据给我们的思维带来的最大变革与冲击之一就是如舍恩伯格所言,我们不再穷究因果性,我们转而关注相关性,知道数据表征的现象或事物(事件)的相关关系,这就足够了。事件的因果性深深隐藏在现象之后,而在大数据时代,由于人们每时每刻都生产出纷繁复杂和多源异构的数据,为了实现更快更好的生活,我们完全可以不必过分深究大数据后隐藏着的因果关系,而只需要充分揭示出海量数据间的相关关系就足够了。并且在日常生产生活中,我们在工业、商业、政务、行为、心理等领域的活动本身看上去就似乎毫不相干,各种活动彼此分离,杂乱无章,但实际上这些被看做分离的个体的客体具有内在的关系,“即这些关系并非伴随着这些分开的个体的非关系性质而产生。”[2]运用先进的数据处理设备,对这些看似由彼此孤立的个体活动造成的海量事实展开数据挖掘,就能揭示出它们之间的相关关系。因此,大数据技术通过海量数据表征着数据给定的诸事实之间的相关关系,而大数据技术作为技术则通过知识发现揭示出数据给定的诸事实之间的相关关系[3]。

首先,就大数据本身而言,每一条数据都对应着数据背后的一个事件行为或现象,海量数据对应着海量的事件行为或现象。那么,这些海量数据表征的诸事件或现象之间是否存在着某种关系?按哈贝马斯的交往行为理论,我们每个人实际上都处在某种行动网格联系起来的整体之中,在这整体的行动网格中,交往理性将人们的行为从个体到国家再到社会都连为一体。[4]这样看来,人们在生产生活中制造的不同的事件行为或现象就会产生某种相关性,首先至少是在这网格整体中的网格相关。当然,在实际生活中,海量数据表征的诸事实间的相关关系可能更为具体并更容易通过大数据挖掘而显现出来。例如,在舍恩伯格例举的大数据经典案例即“谷歌流感趋势(GFT)”分析中,海量用户在谷歌搜索引擎上检索“哪些是治疗咳嗽和发热的药物”之后就会产生关于此信息的海量数据,如果加上环境因素,比如特定的区域和特定的时间段,那么这些海量的数据就会和流感爆发发生相关关系。

用户利用谷歌搜索引擎检索后生成海量检索数据,对这些数据进行解析,分拣出检索内容为“哪些是治疗咳嗽和发热的药物”的所有数据。通常说来,因为有人患了流感才会去搜索“哪些是治疗咳嗽和发热的药物”,以便购买相应的药物。那么,在考虑特定区域和特定时期这样的环境因素下,再对搜索记录产生的海量数据进行挖掘,就可以作出某地区会在某个时期爆发流感的概率性趋势预测。

用Py表示流感爆发的概率,y表示流感爆发,xn表示某用户在谷歌搜索引擎检索“哪些是治疗咳嗽和发热的药物”,x表示流感,e表示环境(时间、地点等),N表示检索记录趋于无穷大(即有海量数据),于是我们就可以将海量数据表征的流行性感冒的事实之间的相关关系及其可能形成的发展趋势用概率函数表示为Py=P{f(xn,x,e,N)},这表明,海量数据背后隐藏着的诸事实间的相关关系是一种非线性概率相关关系[3]。

大数据表征的数据背后的诸事实间的相关关系正是通过大数据的技术化应用揭示出来的,这就表明,大数据技术本身就是作为一种关系实在存在。正如肖峰教授指出的那样,就大数据技术来说,它不仅仅是一种以服务器、处理器、网络、智能终端设备等实体性技术存在的实体实在;它还是一种对海量数据展开数据采集、存储、提取、分析、处理、应用的数据挖掘和数据分析活动与过程,因此,大数据技术复是一种活动与过程实在。此外,通过对大数据进行分析,析解出的实际上却是大数据表征的诸事实之间的相关关系。因此,大数据技术从根本上来说还是一种关系实在[5]。这样看来,一方面,大数据技术的本质实际上包含着三个层次:第一层次是作为实体性的技术人工物的实体实在,即以电脑、摄像头、网络、智能手机、存储器以及其它智能终端设备等技术人工物为要素而构成的大数据技术实体;第二层次是运用大数据算法对海量数据展开数据挖掘的数据分析活动与过程,这便是大数据技术的技艺;第三层次便是通过数据挖掘和数据分析揭示出的海量数据蕴含的诸事实间的相关关系,基于这种相关关系,然后对事件或现象或行为等做出概率性的预测与推断,这就是大数据技术的功能。因此,另一方面,大数据技术又在其实现过程中表现出实体—技艺—功能的逻辑链关系,并且正是在这种从实体到技艺再到功能的逻辑链条中,大数据技术的实际应用真正展开,在大数据技术应用中展开的实体—技艺—功能关系通过人与自然或世界的交往活动得到检验、证实和确认。

大数据绽放为技术,人们必然通过对大数据的技术化应用揭示出隐含在海量数据内的诸事实间的相关关系。进入数据化的新时代,人们在工业、商业、政务、休闲等生产生活领域不停歇地制造出各种各样的海量数据,这些海量数据正如舍恩伯格所言是一座“神奇的钻石矿”[6]大数据技术的发展与广泛运用就是要挖掘出隐藏在这座“神奇的钻石矿”中的诸事实间的相关关系,从而为我们的生产和生活服务。正基于此,舍恩伯格提出,在我们进入到大数据时代后,我们不再穷究事件或现象间的因果关系,在大数据时代,我们将聚焦于隐藏在海量数据背后的诸事实间的相关关系。

二、大数据技术的因果关系分析

海量数据给定的是诸事实间的相关关系,而相关关系背后实际上隐藏着的确实又是因果关系。要梳理大数据技术显像的相关关系背后隐藏的因果关系,我们先要对因果性问题有一个基本的了解。

(一)因果性问题分析

人们总是相信:我们观察到的某种现象(某类现象)Ⅰ总是规则地由某种现象(某类现象)Ⅱ引起的,现象Ⅱ被称之为原因,现象Ⅰ被称之为结果,我们把现象Ⅱ和现象Ⅰ之间的这种联系称作因果性联系或因果关系。

自古希腊以来,人们就秉持这样一种信念,即通过因果性我们才能形成对于世界确定的和普遍必然性认识,基于此,亚里士多德提出了著名的“第一动因”问题,由此可见人类对因果性的信仰与执着。通过对于事物(现象)间因果性联结的求索,人类的知识进化之树日益枝繁叶茂。就在人类科学知识迅速进化并开始大放异彩之时,休谟提出了令人尴尬的惊人一问:原因和结果之间存在着的联结或关系有证据吗?即因果性知识具有普遍必然性吗?休谟的这一问衍生出了近代人类科学认识史上著名的因果性问题。

休谟是这样提出他的疑问的,他写道,“如果有人问:我们对于事实所作的一切推论的本性是什么?适当的答复似乎是:这些推论是建立在因果关系上。如果再问:我们关于因果关系的一切理论和结论的基础是什么?就可以用一句话来回答:‘经验’。可是,如果我们再进一步追根到底地问:由经验得来的一切结论的基础是什么?这就包含了一个新问题,这个问题更难以解决和解释。”[7]需要指出的是,在这里,休谟并没有否定因果性,也没有否定因果关系在人类认识发展过程中的重要意义和作用。这样的论述只是表明,休谟对因果关系知识的根据发出疑问,在他看来,因果关系不属于证明知识,不能以概念分析为根据;因果关系也不属于关于事实的知识,不能以经验推理为根据。让我们看个例子:“海水潮涨潮落是因为月球引力的作用。”陈述的正是两个事物(现象)之间存在着的因果关系,我们现在也都知道,潮涨潮落和月球引力之间确实有因果性联结。但是,在这个例子中,从“潮涨潮落”这一概念无论如何分析不出“月球引力”这一概念;另一方面,我们无论如何也无法从“潮涨潮落”的经验中推理出“月球引力”。因果关系无法得到概念分析的证明,也不能得到经验综合的证明,这就是休谟提出的因果必然性问题。

由因果必然性问题延伸开来,休谟又说,“在我所遇到的每一个道德学体系中,我一向注意到,作者在一个时期是照平常的推理方式进行的,确定了上帝的存在,或是对人事作了一番议论;可是突然之间,我却大吃一惊地发现,我所遇到的不再是命题中通常的‘是’与‘不是’等联系词,而是没有一个命题不是由一个‘应该’或一个‘不应该’联系起来的。这个变化虽然是不知不觉的,却是有极其重大关系的。因为这个应该或不应该既然表示一种新的关系或肯定,所以就必须加以论述和说明;同时对于这种似乎完全不可思议的事情,即这个新关系如何能由完全不同的另外一些关系推出来,也应该举出理由加以说明。”[8]我们从“是”如何过渡到“应”?从“实然”如何过渡到“应然”?这种过渡必须给出说明与根据。从已然存在的事物(现象)如何能够追索其应该具有的相联结的事物(现象),这之间需要给出根据与说明。

我们把上面阐述的从“是”到“应”、从“实然”到“应然”、从结果到原因的过渡的根据与说明问题统称为因果性问题。

(二)大数据技术的弱因果性分析

有学者提出,大数据技术的相关关系根植于因果关系,[9]我们认为对大数据技术相关关系的这样一种评判是公允的。但是为了确保对大数据技术相关关系的真正公平起见,我们有必要对大数据技术的因果关系有清醒的认识和深入的分析。

既然我们相信万物莫不有因,由是,则对于事物(现象)形成产生和变化发展的原因的探求,是自古希腊以来人类对于自然宇宙不断执着探究的一个重要原因。古希腊先贤对于万物本原的沉思,亚里士多德对于事物组成的“四因说”和事物发展变化第一推动因的假设,处处体现着人们心中执着的万物皆有因的信念。因此,建立起事物之间的因果联系,获得事物之间的因果性知识,这是自古以来人类获得对于世界的确定性的一种努力,也是人类面对自然世界和宇宙万物的一种信心,即是说,事物(现象)之间的因果必然性联系,使得人类在面向复杂开放的世界时获得了一种确定性和信心。建立在这样一种信念和信心之上,我们确立起来的事物之间的因果联系是一种强因果关系。

什么是强因果关系呢?即事物(现象)之间的一种正向线性相关的因果联系。让我们以万有引力定律为例来对事物(现象)之间的强因果性进行说明和解释。

在大数据技术中,数据给定的诸事实间呈现出来的首先是一种相关关系。如在GFT案例中,用户通过Google搜索引擎检索“哪些是治疗咳嗽和发热的药物”后生成的浏览足迹形成的海量数据与流行性感冒爆发之间呈现出一种相关关系。然而在这种相关关系中却隐含着具有某种必然性的因果关系,即因为患上了感冒,所以想要知道“哪些是治疗咳嗽和发热的药物”以便去药店购买;由于在某一时间某一地区有海量用户通过Google搜索引擎检索“哪些是治疗咳嗽和发热的药物”,这就说明在这个时期这个地区有许多人患上了感冒;同一段时间内在同一地区有许多人同时患上感冒,这是流感爆发的征兆,所以说,这个地区在这段时期内有流感爆发的趋势。

通过对GFT案例进行这样的分析后我们可以发现,大数据技术相关关系是一种概率型关系,因此,隐含在相关关系中的因果关系也就具有一种或然性。也就是说,在大数据技术中的因果关系具有一种非充分的必然性。此外,由于大数据的多源异构和自治的特性,数据给定的诸事实和镜像世界显像出的事实间也不是一种简单的正向线性相关关系。这样,大数据技术中的因果关系就是一种非简单正向线性相关的、非充分必然的相关关系,我们把具有这样一种非简单正向线性相关、非充分必然的因果关系称之为弱因果关系。

所以说,海量数据给定的事实表征着事实间的因果关系,但是,大数据技术中的因果关系是一种弱因果关系。

三、大数据技术的相关性与因果性的辩证关系分析

大数据技术绽放出的海量数据给定的诸事实间的相关关系与大数据技术中的弱因果关系之间又存在着什么样的关系?在讨论大数据技术的相关性与因果性之间的辩证关系之前不妨让我们先来看一下如下这个例子:“我们经常会看到这样的天气现象,尤其是在夏天,先是天雷滚滚,然后就下起了瓢泼大雨。那么,打雷和下雨之间有什么关系?”我们都知道,打雷和下雨之间是一种相关关系,通常打雷都会下雨,下雨时也常伴随着雷声,但是打雷和下雨之间没有什么必然性关系,打雷既不是下雨的充分条件也不是下雨的必要条件,反之也是如此。也就是说,打雷和下雨之间不存在因果关系,打雷不是下雨的原因,下雨也不是打雷的原因。为什么会打雷和下雨?原因都在打雷和下雨之外。

在对上述打雷与下雨的例子有所了解后我们再回过头来看一下大数据技术的经典案例GFT。在GFT案例中,海量用户在Google搜索引擎上检索“哪些是治疗咳嗽和发热的药物”生成的大数据与流感爆发之间是一种概率性相关关系,但这两者之间却不是因果关系,即:不是因为流感爆发,所以用户在Google搜索引擎上检索“哪些是治疗咳嗽和发热的药物”;也不是因为有海量用户在Google搜索引擎上检索“哪些是治疗咳嗽和发热的药物”,所以流感爆发。用户在Google搜索引擎上检索“哪些是治疗咳嗽和发热的药物”的原因或者流感爆发的原因都外在于这二者。

再让我们来看看日本先进工业技术研究所的坐姿研究与汽车防盗系统(JAIOIT)这个案例。[10]人坐着的时候的身形、姿势和重量分布与个人身份、安全驾驶、汽车防盗、盗车案侦破之间是一种相关关系,但却不具有线性相关的因果必然性关系。人坐着的时候的身形、姿势和重量分布等之所以与个人身份、安全驾驶、汽车防盗、盗车案侦破之间具有一种相关关系,其原因在个人身份、安全驾驶、汽车防盗、盗车案侦破等之外。

前文已述,大数据技术的相关关系是一种非线性的概率相关关系,大数据技术的因果关系则是一种弱因果关系,通过上述例子我们可以发现,大数据技术的非线性概率相关关系与弱因果关系二者之间存在如下辩证关系:

大数据技术的因果性指示出的是海量数据给定诸事实与其指向的概率性事实之间的其他事实,我们可以把这一(些)事实称之为原因事实,记为Fr。如,GFT案例中大数据技术的因果性指示出的是海量用户在Google搜索引擎上检索“哪些是治疗咳嗽和发热的药物”诸事实与流感爆发这一概率性事实之间的事实;JAIOIT案例中大数据技术的因果性指示出的是人坐着的时候的身形、姿势和重量分布诸事实与个人身份、安全驾驶、汽车防盗、盗车案侦破诸事实之间的事实。

在Db,Fp,Fr这三者之间存在如下关系:

其中,符号→为逻辑蕴涵的意思。

在这里需要指出的是,概率性事实和原因事实既可能是同一事实,也可能是一事实集或一事实序列。海量数据越是多源异构和自治,则概率性事实越不确定,原因事实也会更加复杂多变。

第二,大数据技术的因果性源于外在于海量数据给定的诸事实,但也正由于这种外在于海量数据给定的诸事实的因果性的存在,海量数据给定的诸事实才能与概率性事实之间建立起相关关系,或许正是因此之故,才会有学者认为大数据技术中的相关关系根植于因果关系。

第三,大数据技术的复杂非线性概率相关关系源于大数据技术的弱因果关系,这也就是说,大数据技术相关关系的复杂性、非线性、概率性特征的根源在于大数据技术因果关系复杂性、非正向线性、非充分必然性的特征。

第四,大数据技术相关关系的复杂性、非线性、概率性特征与大数据技术因果关系的复杂性、非正向线性、非充分必然性的特征统一于大数据大多源性、异构性和自治性特征。大数据既可能来源于用户浏览网页留下的数据足迹,也可能来源于图像、视频、音频、微博等智能多媒体终端,海量数据的多源性使得大数据具有了异构性特征,即当大数据投入到实际应用之中,各个数据源在产生收集数据的时候相互独立,如同互联网中的自治系统,能够自主地决定本网络中使用何种路由协议一样,这样的数据特征显示出大数据的另一个本质特征:分布式和分散式控制的自治数据源,这些自治的数据源没有集中式控制,能够自主地决定产生和收集的数据存储和表示的形式[11]。大数据的这些特性势必导致大数据技术的非线性概率相关性和大数据技术因果关系的非充分必然性特征。

因此,大数据技术的相关关系与因果关系之间呈现出一种复杂的、非线性的,既有联系也有区别的辩证关系。

结论

大数据技术相关关系是一种复杂的非线性概率相关关系,其中,海量数据表征了大数据技术的复杂非线性概率相关关系,技术则揭示出了海量数据给定的诸事实间的复杂非线性概率相关关系。大数据技术因果关系是一种复杂非正向线性非充分必然的弱因果关系。

大数据技术的相关性与因果性都指向数据给定的诸事实之外的其他事实,大数据技术相关关系指向的是概率性事实,大数据技术因果关系则指向原因事实。概率性事实和原因事实既可能是同一事实,也可能是一事实集或一事实序列。大数据技术相关关系根源于其弱因果关系,大数据技术相关关系的复杂性、非线性、概率性特征也根源于大数据技术因果关系复杂性、非正向线性、非充分必然性的特征。

猜你喜欢

海量因果关系概率
一种傅里叶域海量数据高速谱聚类方法
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
玩忽职守型渎职罪中严重不负责任与重大损害后果的因果关系
海量快递垃圾正在“围城”——“绿色快递”势在必行
做完形填空题,需考虑的逻辑关系
一个图形所蕴含的“海量”巧题
帮助犯因果关系刍议