大数据推理的归纳逻辑基础
2017-01-09潘文全
潘文全
·科学技术的哲学理解·
大数据推理的归纳逻辑基础
潘文全
大数据是当今计算机发展的新方向,它的原理是基于已经收集到的大数据去推测未来或者总体,所以可以说在大数据的分析中使用了很多逻辑推理,但是对于这一问题的研究并不充分。大数据推理不同于经典的逻辑推理,它是一种统计推理,也是一种基于经典逻辑推理的复合推理模式,所以从推理的视角看待大数据既可以发展一种新型的推理方法,对大数据分析也很有帮助。
大数据;推理;归纳逻辑
一、导 言
“大数据”这一术语最早出现在20世纪90年代,由于云计算和物联网的发展,出现了非结构化数据的大量增长,而且数据单位也达到了ZB级别,但是这些数据超过了人力所能处理的范围,人们就开始研究如何处理这些数据,进而产生了一个新的研究领域——大数据,但是从全世界的范围来看,对大数据的研究和应用还处于初级阶段。
什么是大数据?目前学术界还没有确切的、统一的定义,各方对大数据给出了数十种不同的定义,通过比较发现这个概念具有明显的时代相对性,它是针对在此之前的网络数据而言的,所以可以从狭义和广义两个方面来看。狭义的大数据主要是指大数据的关键技术以及它在相关领域的应用,这个定义反映了数据规模的量级大到无法用常规的计算机软件对其进行分析处理,也就是海量数据的获取、储存、管理、分析、应用等层面;广义的大数据包括大数据工程、大数据技术、大数据应用、大数据科学等相关的所有领域,所以广义的定义包含狭义的定义。*中科院深圳先进技术研究院—国泰安金融大数据研究中心:《大数据导论》,北京:清华大学出版社2015年版,第3—26页。
大数据之谓大数据,在于它具有四个特点:数据规模大、数据种类多、数据价值密度低和数据更新频率快。大数据的基本特征是数据量大,数据规模是用计算机的储存容量的单位来测量的,所有的单位按照顺序依次为:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,目前互联网一天的所产生的数据量已经达到了ZB级别。大数据的种类不仅包括传统的关系类型数据,还包括未加工的数据、半结构化的数据和非结构化的数据,结构化的数据主要是传统的能够用二维表结构来表达的数据;半结构化的数据主要是指较为规范的纯文本的数据;非结构的数据指那些非纯文本的数据,它们没有固定的格式,例如网页、视频、音频等。这是由于数据的来源多样化了,相对于传统数据,大数据的产生方式发生了四个变化:第一,数据的产生由企业内部向企业外部扩展,传统数据主要是来源于企业内部,而大数据主要来源于企业外部,原因是企业需要利用互联网联系上下游供应商、合作机构以及客户等;第二,数据的生成由Web1.0向Web2.0发展,个人从数据的使用变成了数据的制造,使得数据规模不断膨胀;第三,从互联网向移动互联网扩展,也使得更多的人成为了数据的生产者;第四,数据的产生从互联网向物联网发展,产生了越来越多的传感器,所以能够收集种类上更多的数据,同时也能收集数量上更多的数据。*方巍、郑玉、徐江:《大数据:概念、技术及应用研究综述》,载《南京信息工程大学学报(自然科学版)》2014年第5期。数据的产生和更新速度快也是大数据的另一个特征,“一秒定律”是传统数据和大数据区别的最显著的特征。虽然大数据的数据量呈现几何级数的增长,但是这些数据中有价值的信息却没有实现对应比例的增长,也就是说价值密度反而降低了,这是因为大数据的结构复杂,难以用传统的方法进行分析,而且实时更新速度快,个体化特征明显,所以大数据的另一个特征是数据的价值密度很低,远远低于传统数据,这就使得获得有价值信息的难度不断增大。
发展大数据技术的目的都是为了应用,这也是驱动大数据发展的主要动力,目前大数据主要用于解决很多社会科学领域中的问题,早期的运用主要是大型互联网用于分析网站数据和用户行为,目前公共组织、传统企业也在使用大数据技术去完成各种功能需求。基本上大数据的应用呈现出互联网领先、其他行业效仿的状态。此外互联网企业在大数据的使用中处于领先的地位,这是源于它们拥有很多的数据和强大的技术手段,能够进行不同层次的研究,比如谷歌、亚马逊、阿里巴巴等已经使用大数据产生了很多成果。当然大数据在非互联网企业中也有巨大的作用,主要体现在通过数据挖掘而提供决策建议,企业的决策必须以事实为基础,使用大数据分析把具有潜力的价值挖掘出来以优化企业运行,从而节约成本,实现盈利。在公共组织的应用领域主要是指社会和政府,目前正面临着就业、人口、环境等一系列社会问题,运用大数据可以给政府提供决策建议。*陶雪娇、胡晓峰、刘洋:《大数据研究综述》,载《系统仿真学报》2013年第1期。
二、大数据推理
由上述分析可以看出,发展大数据的主要动机首先在于描述总体的情况,其次是在此基础之上的预测和控制,所以大数据的核心在于如何推断出总体的情况,得出关于总体真的结论。在传统的统计方法中,已知的只有样本的信息,然后通过样本的参数去归纳出总体的参数;而在大数据中,可以认为这个观点仍然是恰当的,即使相对于传统数据,大数据的数据规模很大,但是它仍然没有涵盖总体的全部信息,或者说在某一次具体的数据分析中,受限于技术条件仍然只是处理样本数据。但是从样本数据到总体数据的过渡是如何可能的问题,以及在何种程度上这种过渡是合理的也没有得到充分的回答。
因此可以提出下述几个问题:第一,为什么已经采集到的数据能够反映出事物的性质?第二,为什么能由目前已经收集到的数据区推测明天事物的发展(也就是休谟问题)?第三,由于大数据的推理属于归纳推理,那么如何评价大数据推理的推理强度?如何确定它犯错误的可能性?
第一个问题可以由随机抽样、大数定理和中心极限定理来回答。通过抽样可以得到一个样本,它虽然不是总体全部,但是随机抽样保证抽出的任意样本与总体在性质上类似,所以能够代表总体,但是仍然存在差异,这个差异就导致从样本推断总体可能出现逻辑错误,也就是说不具有保真性,但是通过重复随机抽样而形成一个样本分布,利用这个样本分布可以去度量出错的概率,也可以去度量大数据推理的强度,这个过程就是大数定理所表达的东西。
大数定理是由概率的统计定义“频率收敛于概率”发展起来的,而且匹配大数据的数据规模庞大这个性质,因为大数定理本身就要求数据量越大得出的结论越可靠。假设做了n次独立抽样,观察事件A是否发生,且发生的概率为p,那么可以引入随机变量假设X1, X2, …, Xn…,对于任意的Xi(i∈N),如果在第i次抽样时事件A发生了,则Xi=1,反之Xi=0,那么在n次抽样中事件A一共出现了X1+…+Xn次,而频率就是:
如果P(A)=p,则频率趋近于概率,也就是说当抽样次数n很大时pn接近于p。“大数”的意思就是指涉及大量数目的观察值Xi,所以此定理只有在大量次数的观察之下才能成立。恰好满足大数据数据规模大的特点。比如为了测量所有中国人的消费水平,抽取1000个人乃至10000个人,但是这1000个人或者10000个人的平均消费水平与所有中国人的消费水平都存在差异,但是当抽取的样本容量n逐渐增加时,样本的平均值的极限就是所有中国人的消费水平。这个定理把频率和概率联系起来了,而大数据的特点就是海量的数据,所以用大数据的数值特征能够反映事物总体的性质。
虽然大数定理能够提供一种手段去测量很多随机变量的数值,但是还有很多变量难以测量,或者难以计算,这个时候就需要中心极限定理。设X1, X2, …, Xn, …,为独立同分布的随机变量,E(Xi)=a, Var(Xi)=σ2, 0<σ2<∞,则对于任意实数x,有
该定理的意思是,对于很多随机变量,如不清楚它们的分布函数,那么就很难求出它们的概率,这个时候通过对这些随机变量进行标准正太化形成一个新的随机变量,这个新的随机变量的分布近似地服从于标准正态分布,通过处理标准正态分布就可以得到原随机变量的概率值。*陈希孺:《概率论与数理统计》,合肥:中国科学技术大学出版社2009年版,第140—145页。通过运用这两个定理以及随机变量的分布函数可以得到随机变量的事件的概率。
最后两个问题就是由统计推理来回答。统计推理就是通过分析已被观察到的样本数据去推测全体所具有的性质,统计推理具有不同的范式,Forster描述了三种范式:频率推理、贝叶斯统计推理、其他统计推理。
频率推理是指从样本数据的比例或者频率来得出结论的统计推理,它与概率的频率解释联系在一起,特别是任意的抽样都能够被看成是同一抽样的重复序列中的一个,每一个抽样都能够独立地产生统计结果。这种范式通过重复考察样本数据的特征而去量化统计总体的频率性质,其中频率推理中最常见的推理形式是假设检验和置信区间。
在统计推理中,通过样本统计量得出的差异而去推断总体参数之间是否存在差异,这种推理过程就叫做假设检验,它的原理是首先对总体参数或者总体分布做出某个假设,然后利用样本信息来判断假设是否合理,从而决定能否接受假设,很明显这是一种归纳推理。在大数据中对总体的假设一般指用统计性术语对总体所做出的假设性说明,通常记为H1。一个完整的假设检验的推理模式包括五个步骤:第一步,提出科学假设H1以及与科学假设相对立的虚无假设H0;第二步,选择合适的检验统计量;第三步,规定显著性水平α,显著性水平的大小应该因地制宜,如果要求推理的结果较精确,则α偏小,反之则α偏大;第四步,根据样本计算出检验统计量的具体值;第五步,做出推论,即依据α和统计量的分布,用计算出的统计量的值同临界值相比较,判定是否接受虚无假设,如果接受虚无假设,那么推断出对总体的假设为假,如果拒绝虚无假设,那么推断出对总体的假设为真。*张厚粲:《现代心理与教育统计学》,北京:北京师范大学出版社2003年版,第265—266页。
例如,某购物网站对其用户的网购消费水平进行大数据分析,为了计算方便,假设用户的数量n=160,结果显示平均消费额度μ1=10500元,已知全国网购消费的常模为μ0=10000, σ0=2000,那么该网站的用户的消费水平是否与常模水平有差异?研究这个问题的目的是通过大数据分析的结果去推断该网站用户的消费水平是否与一般水平不同。若以μ表示该网站用户消费水平的平均数,则检验的目的是要证实是否μ1≠μ0,所以研究假设为H1: μ1≠μ0。
由于在大数据推理中不能直接对H1进行检验,所以需要使用反证法。它的原理是首先确立H1的对立假设H0,由于H1与H0相互对立,如果证明了H0为假,那么得证H1为真;如果证明了H0为真,那么得证H1为假。这里确证H0为假不是逻辑学中的导致逻辑矛盾,而是指在一次试验中小概率事件发生了,它是基于“在一次试验中小概率事件几乎不可能发生”的原理,也就是说如果假设H0为真,并没有导致小概率事件的发生,那么就不能拒绝H0,然后就只有拒绝H1,所以H1为假;如果假设H0为真,导致了小概率事件的发生,那么就必须拒绝H0,因此接受H1,所以H1为真。
在上文的例子中所做的假设为:
H1: μ1≠μ0。
H0: μ1=μ0。
由于假设检验推理是归纳推理,又因为归纳推理不具有保真性,所以有可能犯推理错误,其中主要包括Ⅰ型错误和Ⅱ型错误。μ1是从总体中抽取的任意一个样本的平均数,它可能不等于μ0,但是只要没有超出左右两个临界值,那么就认为μ0和μ1的差异是由误差造成的,也就是它们的差异不显著,这时不能推翻虚无假设H0,如果两端的面积很小,而μ1又落入其中,也就是说小概率事件出现了,那么就有充分的理由否定虚无假设,也就是说μ0和μ1的差异显著。然而即使两端的面积再小,如α=0.01,也有1%的概率落入其中,这时H0仍有1%的概率是真的,所以按照上面的分析仍可能做出μ0和μ1的差异显著的结论,这时犯错误的概率就是1%,所以把这类拒绝H0时所犯的推理错误叫做Ⅰ型错误,也叫α型错误。如果μ1没有落入两端,按照反证法必须接受H0,这时也可能犯推理错误,把这种接受H0所犯的推理错误叫做Ⅱ型错误,也叫β型错误,也就是说接受H0并不等于说μ0和μ1完全没有差异,同样有犯错误的可能性,不能由此得出没有差异的结论。*张厚粲:《现代心理与教育统计学》,北京:北京师范大学出版社2003年版,第245—261页。所以,总体的实际情况通常是未知的,利用样本去推断总体时有出现推理错误的可能:第一,虚无假设本来是正确的,但是拒绝了它,这就是Ⅰ型错误,也被称为弃真错误;第二虚无假设本来是假的但是接受了它,这就是Ⅱ型错误,也被称为取伪错误。
频率推理另一种形式是参数估计推理,即从样本获得了数据之后,如何对总体的相应特征做出推断,也就是如何从局部结果推断出总体的情况,这就是总体参数估计,这个问题又可以分为点估计和区间估计,很明显这也是一种归纳推理。
点估计推理是指用某个具体数值来表示样本统计量,进而去推断总体的特征也可以用此数值来表示,比如利用样本的相关系数去推断总体的相关系数。在点估计推理中可以用多种样本统计量去推断总体,比如用样本的中位数、众数、平均数都可以去推断总体的平均数,但是它们之间的推理强度是不一样的,也就是说误差不一样,所以就产生了评价这些推理有效性的问题。通常一个好的点估计推理具备无偏性、有效性、一致性和充分性。但是无论如何,点估计推理总是存在误差的,而且又不能提供偏差的程度,所以这些推理总有不足之处,而区间估计推理在一定程度上弥补了这个缺点。
综上所述,只要样本的数据是真的,利用上面的假设检验推理和参数估计推理,就可以保证得到的关于总体的结论是归纳为真的,而且是强归纳为真的;与此同时还可以给出结论为假的概率。
贝叶斯推理是另一种统计推理的方法,这种方法不同于上述假设检验推理和参数估计推理,因为上述方法根植于概率的频率解释,而这种方法源于概率的主观解释。它的原理是当发现新证据时,通过先验分布的概率密度函数,运用下述贝叶斯定理更新概率,所以贝叶斯推理是统计中一个重要技术。
表1 两组后验分布的平均值和标准差比较*程献礼:《贝叶斯推理的逻辑哲学研究》,南开大学博士论文,2013年,第110—111页。
除了上述的常规统计推理之外,还有基于ACI的推理、置信推理、结构推理等,它们与上述推理的原理不尽相同,但是都服务于从已知的样本去推断未知的总体这一目的。
三、结 论
通过以上的阐述,我们可以得出:大数据的推理是一种复合的推理模式,虽然不同统计推理的具体过程不尽相同,但是它们的操作过程是一致,即从样本去推断总体,也就是从已知推出未知,那么这种推理属于归纳推理,这就使得它不具有保真性,所以在这种推理中概率和统计具有核心的作用,它们被用于去度量推理的强度以及出错的概率。因此出现推理错误就在所难免,比如假设检验中的Ⅰ型错误和Ⅱ型错误,但是这种推理的归纳强度很高,是一种有效的归纳推理,它能够在恰当的范围内保证从样本到总体的推理的可靠性。
(责任编辑:韦海波)
潘文全,南开大学哲学院博士研究生。
本文受国家社科基金重大项目“现代归纳逻辑的新发展、理论前沿与应用研究”(项目编号:15ZDB018)、国家社科基金重点项目“基于逻辑视域的认知研究”(项目编号:11AZD056)的资助。
B80
A
2095-0047(2016)6-0104-09