APP下载

证伪主义方法在统计推理中的扩展和运用

2013-04-08任晓明黄闪闪南开大学哲学院天津300071

关键词:费希尔波普尔主义

任晓明,黄闪闪,南开大学哲学院,天津300071

在科学推理中,波普尔的证伪主义是一种处理确定性理论的极具影响力的方法。同逻辑经验主义一样,证伪主义认为观察陈述是评价科学理论的基础,评价科学理论就是找到该理论与观察陈述之间的逻辑关系。这种方法也主张发现与检验的严格区分,它把科学发现的范围划给心理学、社会学去研究,而把科学推理的任务限制在检验范围内,只是逻辑经验主义要求证实或确证,而它则提倡证伪。从这个意义上看,证伪主义类似一种反归纳方法,即演绎证伪法。

除了波普尔本人,费希尔、奈曼和皮尔逊等人都试图将证伪主义方法扩展到统计推理中,他们希望采用这种方法来处理不确定性理论和统计假说。尤其是费希尔提出的显著性检验,以及奈曼和皮尔逊的N-P检验,构成了统计推理的经典方法,成为许多科学家的校正标准。但是这种以证伪主义为方法论依据的检验模型,遭遇了缺乏归纳显著性的诘难。

对于证伪主义,国内学界大多专注于该方法在确定性理论范围内的讨论,而对证伪主义方法在统计推理中的运用鲜为关注,缺乏系统而深入的探讨。基于此,本文重点介绍证伪主义方法在统计推理中的扩展和运用,对这种方法在科学推理中出现的问题作全面分析。

一、证伪主义方法与归纳问题

证伪主义的提出与休谟的归纳问题相关,它是波普尔解决归纳问题的一种尝试。传统归纳问题是对简单枚举归纳法的合理性质疑,即如果假说的所有信息都由经验观察导出,那么我们能如何保证任一特定解释理论一定正确呢?休谟本人的回应是,将归纳问题分为逻辑问题和心理问题,并基于自然齐一性回答了归纳的心理问题,即未来将会类似于过去,归纳是人的习惯性联想;而回避了归纳的逻辑问题,否定了归纳的逻辑基础,即要证明超出经验得到的事实知识的合理性是不可能的。所以休谟将因果关系或基于因果关系的归纳推理置于一种非理性的基础之上。康德[1]9则宣称他的“独断论迷梦”被归纳问题中断,受休谟关于归纳问题的论述影响,他试图提出一个同时具备先验确定性和充分必然性的原理,即先天综合判断来确保物理理论中的真理。但是豪森等人[2]1认为,这种努力无疾而终,康德所提倡的原理不过是坚持一个事件都有一个原因。不管这条原理有效与否,它都与归纳问题无关。归纳问题并不关注每个事件是否有一个原因,而是追问一个截然不同的问题:在任何特定情况下,一个人如何确保自己从无限、众多的可能原因中找到某个事件的正确原因?可见,休谟和康德都未能最终解决归纳的逻辑问题。

波普尔认为,证伪主义方法已经解决了归纳问题,并能够将科学置于理性之上。为此他用多种方式重新表述了归纳的逻辑问题。如凭借“经验推理”可以判定表示解释性普遍理论的陈述语句吗?由于检验陈述(基础陈述)可以证伪一个全称假说,所以波普尔坚定的回答了归纳问题:“我们有时候可以使用准确的检验陈述来判定某个解释性全称理论是错误的。”[3]324波普尔为演绎证伪的可能性提供了两个论据:其一,证明与证伪具有不对称性,经验观察虽然不能逻辑地证明理论,但它有时候可以推翻理论;其二,理论的演绎性结论有时候可在经验上被证明。

虽然波普尔的这种“原创”极力展示科学推理的理性,但是证伪主义本身存在的一些问题,使得它遭受了一些诘难,主要问题有:第一,波普尔的原理并不能解释科学推理中的许多经典模型;第二,这个原理侧重于理论的逻辑推论上。而许多证据表明,科学家对理论的支持或者反对,并不属于这个范畴。这些证据表现在三个方面:(1)科学中的确定性理论没有可以直接检验的推断结论,只能借助辅助理论才能得以检验和证实,如牛顿定律;(2)许多科学理论(及其逻辑推论)可以拥有确定的概率,它们没有绝对的可证实性,如孟德尔遗传理论(其中的3/4和1/4);(3)经常用来确证确定性假说的证据,并不具有完全可靠性和绝对必然性,如预测一个行星方位的理论,该理论的预测利用了适当的望远镜进行检验。由于影响望远镜光路的多种不可预测性大气条件,以及其他不可控制的因素,其中有些是与实验者个人因素有关,另一些则与自然的变化无常有关,这些因素导致在试验中肯定的实际读数并非完全可信。

尽管证伪主义存在上述问题,但是它直接反映了科学推理的两个特征。第一,在科学研究中,有可能出现理论被经验证据驳倒的情况;第二,当研究一个恰当确定性理论,科学家会利用该理论导出一些结论,并通过一个适当的实验来检验这些结论,如果这些结论被证明是可靠的,那么通常可以断定该理论得到确证,或者我们对该理论的信任得到强化。

二、统计推理的波普尔—古诺观点:统计中的证伪主义

除了确定性理论,波普尔还试图将证伪主义方法扩展到统计推理中,来处理不确定性理论或统计假说。由于统计假说可真可假,并且没有断定可能事件一定会出现或者不出现,所以凭借观察证据试图在逻辑上直接推翻假说的简单化的做法,对统计假说根本不起作用。波普尔为此修正了中心法则,希望修正后的证伪主义能够解决科学推理中的不确定理论问题。

这个修正观点预设了一条小概率事件实际不可能的原理,作为这种证伪主义方法的基础,即认为小概率事件在一次试验中是实际不可能发生的,科学家应该把包含可能性极小事件的假说排除在外。与卡尔纳普相反,波普尔认为,用概率正面表征一个科学理论的归纳支持程度的研究是无效的。在我看来,波普尔的证伪主义实际上暗含着一种归纳法的定性模式;这与统计假说的特性不一致,即这类假说把概率归于可能事件,它们是定量的。为此,波普尔试图用小概率原理来协调证伪主义的定性特征与统计假说的定量特性之间的不协调性。他主张,科学家应该做出“一个方法论决策来把可能性非常小的事件看作是排除在外的——看作是禁止的”,那么科学家谈及的假说就是“事实上假的”[4]191。数学家和经济学家古诺(Cournot)[5]155在阐述完全不可能事件“都被恰当的看作是物理意义上不可能的”时,也表达了同样的观点。所以这种修正的证伪主义可以称为统计推理中的波普尔—古诺观点。

但是小概率原理本身与统计假说的特性之间存在着尖锐矛盾,这使得波普尔—古诺观点遭到了质疑。小概率原理主张否定概率小的事件,但是统计假说不能排除那些被视为不可能发生的事件。可见这条预设的基础原理不能满足统计假说的要求。例如,分子运动论对浴缸中热水自发结成冰的事件指派了很小的概率,但是不能排除这个事件。又如硬币抛掷试验中,论证某个给定硬币在不断抛掷过程中,有一个正面朝上为1/2,反面朝上也为1/2的物理概率(那么该硬币被认为是“公平的”)。假定硬币在1 000次抛掷过程中,出现正面朝上和反面朝上的任意特定序列的概率是,这个极小值是每个试验可能结果的概率,并且其中一个可能结果肯定会出现。但是波普尔—古诺观点根据小概率原理含蓄地指出,应该将这个确定出现的事件看作是物理意义上不可能的,显然这一结论是站不住脚的。

三、费希尔的显著性检验:统计证伪方法的发展

著名统计学家费希尔(R.A.Fisher)受证伪主义方法的启发,认为证据对一个统计假说具有决定性的否定作用,进而提出了显著性检验模型来检验统计假说或不确定性理论。费希尔没有假定一个最小概率来表征物理不可能,进而回避了波普尔—古诺观点遇到的难题。他的方案大致上认为,一个统计假说应该被某特定相对不可能结果包含的实验证据所摒弃,此处的“相对不可能”是相对于实验的其它可能结果而言。

费希尔将一种接受检验的特定假说称为零假说(null hypothesis),他认为“零假说永远不会被证明或证实,但它有可能在实验过程中被否证。每个实验存在的目的,仅仅是给予事实为零假说提供否证机会”[6]16。费希尔理论的推理模型一般可以表现为:用一种反证的方法检验零假说H0,在设定的显著性水平上比较H0的检验结果,意在根据对比结果证伪H0,进而接受与其矛盾的备择假说H1。所谓显著性水平就是检验时采纳的临界概率,费希尔将这个临界概率设定为0.05。例如,倘若H0的检验结果类似P0≤0.05,那么可认为它在显著性水平0.05上是显著的,且认为零假说H0在水平0.05上是被拒绝的,继而接受备择假说H1。虽然这种模型的推理程序看似演绎过程,但其实质上是归纳过程,因为其结果具有或然性。

我们用公平硬币假说来举例说明费希尔的显著性检验,其中假定硬币的抛掷次数是20次。具体来说,费希尔的显著性检验可以分为四个步骤:(1)列举结果空间,即实验本该产生的所有结果。在本例中,它通常包含20次正面或反面朝上的个可能序列。用r表示这个结果正面朝上的数量,即检验统计量。样本的检验统计量对应总体的参数,在形式上是某个随机变量,即随机现象中各种结果的变量。(2)针对零假说,计算检验统计量的每个可能值的概率——它的抽样分布。如果硬币抛掷实验中获得正面朝上的概率是p,且获得反面朝上的概率是q,那么在n次硬币抛掷中出现r次正面朝上的概率是。在本例中,且,继而能够直接计算所求的概率,如r=0时,p=9×10-7;r=1时,p=1.9 ×105;……;r=20 时,p=9 ×10-7。(3)检验试验的可能结果,指出零假说的相关结果会更加“异常”。这里的“异常”可以用概率形式来表征,即对于零假说,指出可能结果的概率小于或等于实际结果的概率。接着计算这组结果中会出现的实验结果的概率()。例如假设硬币实验产生4次正面朝上和16次反面朝上,此时零假说为真的概率是0.0046。这个结果小于或等于r=4,3,2,1,0,以及r=16,17,18,19,20时的结果,其中任一结果出现的概率是它们独立概率的和,即=2×(0.0046﹢0.0011﹢2 ×104﹢ 1.9 ×10-5﹢ 9 ×10-7)=0.012。(4)按照费希尔的观点,只要当时,才能形成拒绝零假说的约定。但是一些统计学家建议0.01甚至0.001作为显著性水平,并常常将其记作。如果一个实验结果类似于,可认为它在显著性水平上是显著的,且可认为零假说在水平上是被拒绝的。在本例中,抛掷20次硬币产生4次正面朝上对应的 =0.012;既然它低于0.05,那么零假说应该在水平0.05或5%上被拒绝。但是一个6次正面朝上和14次反面朝上的结果,其概率=0.115,它不会是显著的,所以零假说在那个水平上不应该被拒绝。

费希尔的方法在统计推理中被广泛运用,它是显著性检验的基本模型,通常用来检验两个总体是否具有相同平均数这类统计任务。例如,是否两组孩子具有相同的IQ平均数。在这种情况下,测量每个孩子的IQ并不可行,建议程序是从每组中随机抽取孩子建立样本,并比较样本中孩子的IQ,根据抽样结果确定一个已知分布的检验统计量,凭此完成显著性检验来判定这项统计任务。

但是费希尔理论在逻辑上存在不一致,具体表现在选择检验统计量的环节上。在检验零假说的过程中,选择不同的检验统计量,可能会导出不同的结论,导致应该选择哪个检验统计量的难题。一个统计量可以是人为的,但在定义层面上却是完全恰当的。而且,一个检验统计量可以指导你拒绝某个假说,相反另一个检验统计量则告诉你不可以拒绝该假说。例如上文列举的实验中,r分别等于4与6时,导出了截然相反的结论:r=4时,零假说在显著性水平0.05上被拒绝;r=6时,零假说在这个显著性水平上不应该被拒绝。这些问题表明,必须对检验统计量附加一些约束条件,且这些约束与一致性相关,来确保最终选择的统计量导出相似的结论。但大多数约束条件在实际推理中是很难获得的,这影响了费希尔检验方法的合理性基础。在目前这种情况下,戈赛特(W.S.Gossett,其著作使用的是笔名Student)找到了一个解决方法,他要求,提供的实验抽样足够大到确保是近似正态的。

四、奈曼—皮尔逊显著性检验:对费希尔证伪方法的修正

奈曼(Neyman)和皮尔逊(Pearson)详述的显著性检验类似于Fisher的检验模型,奈曼-皮尔逊检验(N-P检验)保留了费希尔的大部分理论成果,如零假说的概念和二价统计实验的观点;但对费希尔的方法论进行了扬弃,即修正了检验的证伪方法。

N-P检验在费希尔理论的基础上引入了竞争假说,定义了推理中的两种错误,并规定统计推理的目的是最小化两种错误发生的可能性。费希尔理论认为统计推理类似于确定性事例的证伪;所以他强调检验应该在单个假说上进行。但是统计假说不能被驳倒,费希尔这样一个准反证的个人分析和辩护是非常不令人满意的。基于这个原因,N-P检验在费希尔理论的基础上引入了竞争假说,将推理中的两种类型的错误规定为:假说为真却被视为假的,或者假说为假却被视为真的。并借助“严重性”,将相对严重的错误称为第一类型错误,次严重的错误称为第二类型错误。可以通过一个假设产生的实际结果来判定两种错误类型,这个假设就是【应当】拒绝为假的假说,且【却实际】接受为真的假说。例如,两个关于某种事物许可添加剂的备择假说,一个假说认为这种添加剂是安全的,另一个则认为它是非常有毒的。在各种情况下,假定一种有毒添加剂安全比假定一种安全添加剂有毒更加严重。N-P检验将零假说定义为,做出更为严重的错误拒绝的假说。由于统计假说具有似然性且不能被驳倒,所以N-P方法不是为了证伪某个假说,而是竭力使两种错误发生的可能性最小化。

我们可以借用小凯伯格(Kyburg)[7]26-35的例子来表述N-P检验。一颗代售的郁金香球茎的标签遗失了,并且买方不记得它是:包含40%红色和和60%黄色的花种,还是:包含40%黄色和60%红色的花种。分别规定和的概率,并且将视做零假说。检验这些假说的实验应该包括栽培球茎的预设数量,在此假设为10颗,它们从代售中随机选择,还应该观察其中哪些分别长成红色和黄色。这个检验程序与费希尔的程序相似,且包含以下步骤。(1)规定结果空间,本例中包含个序列,每个序列表明郁金香球茎的花色选择从一、二,直至第十次。(2)确定检验统计量r,在此r表示样本中红色出现的数量。(3)针对每个两两竞争的假说,计算每个检验统计量可能值的概率。我们假定,如果代售的郁金香球茎是大量的,那么在随机样本n中选择红花球茎r的概率,近似于常见的二项式函数。我们在此假设选择一个红花球茎的概率p是恒定的,这个假设越近似为真,球茎的总量就越大。在本例中,对应p=0.40,对应p=0.60。凭此规定这个猜想实验关于两个假说的抽样分布,如红色r=0,黄色10-r=10 时,p1=0.0060,p2=0.0001;r=1,10 -r=9时,p1=0.0403,p2=0.0016;……;r=10,10 -r=0 时,p1=0.0001,p2=0.0060。(4)最后规定一个何时拒绝零假说的法则,在此考察样本中出现的红花幼苗等于或大于6的情形时拒绝假说的概率,即拒绝为真的的概率。这个概率同样称为检验的显著性水平,或者显著性检验的范围,它是与拒绝法则相关的第一类型错误。第二类型错误的概率是接受为假的的概率;我们假定这两个假说中的一个为真,其概率等于拒绝为真的的概率,根据(3)中规定的假说抽样分布可以计算出这个概率是0.3664。

尽管N-P检验较之费希尔的理论,更贴合统计假说的特性,但是这种方法存在主观因素:零假说的选择和确定结果空间的方法。首先,N-P检验方法在进行检验时,需要选择一个竞争假说来作为零假说,并通过这个选择的结果来影响假说最终的接受或拒绝。但是零假说有可能是被任意指派的,使得N-P检验理论带上了主观色彩。例如100个随机抽样中,存在50个郁金香的红花幼苗,那么(40%红)会在0.05水平上被拒绝,假如它是零假说的话,而(60%红)就会被接受。但是把作为零假说,就会产生相反的判定!其次,显著性检验的完成,需要比较获得的结果概率与其它可能结果概率。N-P检验认为,凭借停止法则可以创建可能结果空间。这条法则预先满足了实验应该停止的情况。由于停止法则暗含了主观意图,使得结果空间的确定具有主观性,进而影响了科学判断。例如检验公平硬币假说的试验,要求出现6次正面朝上就停止试验,与要求试验者抛掷20次硬币后停止相比,会排除许多预先可能出现的结果,并引入大量新结果。这两条任意的停止法则,会产生不同的可能结果空间。

五、显著性与显著性水平:归纳与归纳支持

显著性检验方法在20世纪占主导地位,而且至今仍然深具影响力,许多高等教育院校的推荐教科书都对其介绍和提倡。虽然这种方法自身存在一些问题,但并没有影响它在不确定性理论和统计假说中的运用。在科学推理中,它推崇的实验设计程序和数据分析已经成为许多科学家的校正标准。

然而,从科学方法论的层面上看,显著性检验面临是否具有归纳意义的质疑。这种质疑源于其方法论根源。显著性检验适用于统计推理,其结论具有或然性,它本质上是一种归纳方法。但是这种检验的方法论基础是波普尔的证伪主义,其推理程序追求的是零假说被否证或拒绝。而“零假说在某显著性水平上被拒绝”是一种专门表述,仅仅记录了一个经验结果落在一个结果的特定“拒绝空间”上。然而,作为一个该假说的归纳推论,又是什么意思呢?换言之,接受和拒绝一个假说到底意味着什么呢?关于显著性归纳的辩护没有一种是令人满意的。

费希尔把逻辑反驳的过程作为其显著性检验的模型。他认为这类检验能够“反证”一个理论[8]16。费希尔在此似乎表明了统计理论事实上或许可被证伪,虽然他清楚这是不可能的,但是他最终仍诉诸一个弱解释,即在显著性检验中,零假说对应的显著结果或临界结果是不大可能的。因此,一个显著性结果的影响力相当于逻辑上简单析取的影响力:或者具有“很小的可能性”(一个不可能事件),或者零假说是错的,或者二者兼备。哈金认为,费希尔的辩护只是相当于空洞的老生常谈[9]81。

奈曼和皮尔逊把归纳视作一种行为,显著性检验的结果是一种决策。即在显著性检验后,一个人接受某个假说时,他应该假定相信该假说为真;且如果一个人拒绝某个假说,他的行为应该受到假说为假的假定的指导。奈曼和皮尔逊规定拒绝法则的根据在于[10]142,虽然一个显著性检验没有确定假说h在特定情形下是否为真,但是如果我们根据拒绝法则行动,那么我们会在这个长序列中拒绝h。这类实用且任意的决策不具有认识论意义,且不能构成归纳支持的基础:(1)一个人的行为与信念相关,而与假说的实际真假可能无关,即如果某个人无论如何都不相信h,那么不管h确定为真或为假,他都会受到信念的鼓舞,而坚持拒绝假说h;(2)一个人的行为与信念不对称,因为实际上只有两个行为是可能的,即行或不行,但这并不意味着只能抱有两个关于这些行为的信念。如商家可以指派概率给不同假说,然后通过权衡这些行为可能结果效用的概率,决定是否出售这批商品。

古典统计学家承认,通常不能用绝对化的术语来评估理论的接受和拒绝,所以他们尝试着在分析中附加关于证据强度或归纳支持的观念,但这种把显著性水平与证据强度联系起来的努力并没有付诸成功的可能性。为了证明这种联系,你需要以一个恰当的证据或归纳支持概念作为出发点;事实上,在显著性检验术语中没有系统阐述过这种概念,没有一个术语可能做到。这里有两个理由。第一,显著性检验导出的结论通常与一个公正科学家或普通观察者刻画的结论截然相反,相互矛盾。第二,显著性检验的影响因素,被合理视作与证据支持的判定无关。

六、结语

波普尔提出的证伪主义颠覆了逻辑经验主义的证实或确证进路,采取了一种否证的态度,为科学推理提供了新的推理模式。但是这种方法的反归纳性,有时候并不符合科学探索活动的实际过程。而且将证伪方法扩展到不确定性理论的推理中,也出现了同样的问题,即基于证伪主义方法论的统计推理模型——显著性检验,面临归纳意义的质疑。证伪主义方法的可能修正进路有:一是,从定性进路上看,引入“真”的概念,明确证伪方法的归纳性。这种进路的依据在于,波普尔后期对真理语义学的赞同和尝试。波普尔早在1934年的《探究的逻辑》(德文版)中曾经回避过“真”和“假”的概念(当时认为“真”的概念缺乏语义确定性),但当知悉塔尔斯基的真理语义学理论后,他十分认同该理论的恰当性,随后也尝试着将该理论运用于自己的科学哲学中,而真理语义学理论回答了一个陈述为真的语义学问题。二是,从定量进路上看,引入概率分析,显示证伪方法的定量归纳支持。这种进路的可行性表现在统计推理中,用贝叶斯主义概率方法检验假说时取得的成功。贝叶斯统计推理不同于显著性检验的证伪方法,它是一种依托贝叶斯定理,通过相应先验分布而来的后验概率或密度分布,来获取新信息的计算。一方面,贝叶斯方法避免了费希尔理论中检验统计量的选择任意性难题,以及N-P检验中零假说和可能结果空间的选择主观性问题,它通过计算后验概率来直接检验假说。另一方面,贝叶斯定理成为定量进路的归纳逻辑的模式,可见这种概率方法在统计推理中具有优越性和归纳性。

[1]Kant,I.1783,Prolegomena to any Future Metaphysics,Edited by L.W.Beck,1950.Indianapolis:The Bobbs- Merrill Company,Inc.

[2]Howson,C.and Urbach,P.2006,Scientific Reasoning:The Bayesian Approach,La Salle,IL:Open Court.

[3]Keuth,H.2005,The Philosophy of Karl Popper,Cambridge,UK:Cambridge University Press.

[4]Popper,K.R.1959a.The Logic of Scientific Discovery,London:Hutchinson.

[5]Cournot,A.A.1843,Exposition de la Théories des Chances et des Probabilités,Paris.

[6]Fisher,R.A .1947,The Design of Experiments,4th edition.Edinburgh:Oliver and Boyd.

[7]Kyburg,H.E.,Jr.1974,The Logical Foundations of Statistical Inference,Dordrecht and Boston:Reidel Publishing Company.

[8]Fisher,R.A.1947,The Design of Experiments,4th edition.Edinburgh:Oliver and Boyd.

[9]Hacking,I.1965,Logic of Statistical Inference,Cambridge:Cambridge University Press.

[10]Neyman,J.and Pearson,E.S.1933.“One the Problem of the Most Efficient Tests of Statistical Hypotheses”,Philosophical Transactions of the Royal Society,vol.231A.

猜你喜欢

费希尔波普尔主义
波普尔的洞见和盲目
新写意主义
失落的大师:卡尔·波普尔
波普尔政治哲学与西方理性主义的危机
近光灯主义
这是一部极简主义诠释片
冬日 新碰撞主义
马克思主义视域下波普尔的真理观评判