可检验性与重复性危机：科学知识是绝对真理吗？

2022-10-19刘永谋

民主与科学 2022年3期

刘永谋

在技术时代，能跻身于科学事业之中，意味着你的研究工作能得到国家资助、社会支持和公众信赖。这就是为什么各种伪科学不是科学，却非要谎称自己是科学的根本原因。也就是说，科学与非科学的划分标准，牵扯到背后巨大的利益分配和权力博弈。

究竟什么是科学，什么又是非科学，因为当代科学呈现出的多个维度而变得非常复杂。最基本的维度至少有三个：第一，知识维度，即科学表现为某种系统化的知识；第二，活动维度，即科学表现为某种改变世界面貌的活动；第三，建制维度，即科学表现为某种社会职业、组织机构和社会圈子。

如果将问题限定到知识维度，即仅仅追问“什么样的知识是科学知识”，问题是不是解决了呢？很遗憾，自20世纪20年代维也纳学派提出所谓的正统科学哲学以来，一百年过去了，这个问题仍然是争论不休，没有一个大家一致认可的结论。但是，思想家的工作，加深了人们对科学的理解。

一、流行的谬误

先来看几种在公众中流行的科学观念。

有人认为，研究自然的知识便是自然科学知识。的确，自然科学研究自然现象，不研究超自然的现象，如鬼魂、上帝。即使科学研究人，也是把人作为自然存在的身体来研究的。但是，反过来，是不是研究自然的知识都是科学呢？显然，这也是有问题的，比如占星术、风水都要研究自然，他们会把自然现象与人和社会的命运比附起来，这些都是被排斥在科学之外的。

举个风水学的例子。民间传说在曾国藩出生同一天同一个时辰，他出生的荷叶塘还有另一个男孩出生了。两个男孩的父母亲都抱着孩子去算命。大师看了看曾国藩说，此乃出将入相之命，再看了看第二个孩子说，这孩子日后是个杀猪的。两家父母大惑不解，出生在同一个地方、同一时辰，又都是男孩，怎么差别这么大呢？大师说，风水不同啊，为何？生于河东杀人万万，生于河西杀生万万。杀人万万是将军，杀生万万是屠夫。你看，风水学又是时间、地点，又是环境条件的，非常讲究研究自然因素，但是不属于科学。对不对？

很多人问：是不是通过做实验、运用数学而得出结论的学问就是科学知识吗？现代社会科学，比如经济学、社会学都有实验，搞统计、有模型，有的还需要计算机运算，但不属于自然科学。最近，哲学也出现了实验哲学的分支，要发问卷，搞计量。大家都想形式上弄得像自然科学一样，看起来很严密精确的样子。传播学家波兹曼就说，这是人文社会科学中的“科学羡慕”（science envy），羡慕自然科学有项目有经费，受到大家尊重，因而想模仿自然科学。

人文社会科学即使有实验和数学，但研究的不是自然界，因而不是自然科学。可西方古代中世纪的炼金术研究的是自然界的问题，而且也有实验也有数学（现代化学实验很多基本仪器如试管、烧杯和酒精灯等，都是炼金术士发明的；各种炼金配方都有严格的比例和材料用量，用数字标识得清清楚楚），但是，炼金术不是科学。为什么呢？是因为它没有炼出金子吗？

还有一些人坚信，正确有用的知识就是科学知识。炼金术没有炼出金子，说明它不正确。正确的才是科学。什么是正确的呢？正确就是能在实践中起作用吗？中国传统医学，或称中国古代医学，和炼金术的情况有些类似，研究动植物的药用，研究疾病和临床诊断，也有实验，比如神农尝百草。配不同的药材让人吃吃看，根据情况调整用药，这属不属于实验？至于数学，中医是有的，还讲究君臣佐使，不同的药有一定的数量讲究的。并且，中医对于人的身体健康，对于疾病康复，多少还是有用的。但是，为什么相当部分的人不认为中医是科学呢？再者，传统中医基本上已经消失了，今天的中医和中医院都是中西医结合，他们都要学习解剖学、细菌学，都要使用西医的检验仪器的。

有用的就是科学吗？宗教有没有用？起码能慰藉人的心灵，这是不是实践中有用呢？宗教是科学吗？总之，一些流行的科学观念是有问题的。

二、可检验性

对于科学标准，正统科学哲学给出了影响深远的经典观点，它的核心是可检验性，即科学知识是可以检验的。注意：可检验性不等于已经得到检验。比如，你提出“火星上有水”，现在人类还不能到火星上去检验，但只要人类上了火星就能检验这个观点，因此你的观点是可检验的。而有的观点比如“上帝是男的”，根本没有办法检验。

准确地说，科学结论是个别的、具体的命题，可以在可控条件下重复接受检验。可检验性至少包含三层含义：第一，科学要做实验——这里讲的广义实验包括各种形式的观察——实验方法是科学的根本方法；第二，科学假说都要接受实验的检验；第三，实验结果必须可以重复再现，不能重复再现谈不上被科学界和社会所认可。例如，某种新冠药物有没有疗效，要经过多次试验。一个人用过觉得有效并不能说明问题，其他人用过均有预期疗效才能说明问题，这就是可检验性。

围绕可检验性标准，科学知识需要达到具体性、经验性和精确性的要求。

所谓具体性，指的是科学知识是对世界进行分门别类的研究成果，其对象是具体的、特殊的物质运动，一般只提出和解决现实对象的有限问题。科学，汉语字面意思是“分科之学”。与之相对，哲学是对世界的宏观把握，没有具体而专门的研究对象。

所谓经验性，指的是科学知识以经验为出发点和归宿，来源于经验，终结于经验。科学不依靠玄想，而是从感官经验中提出问题，用经验来检验结论。科学经验讲的是可以交流、可以沟通的客观经验，而不是独特的个人体验。科学不能以内省法来研究，不能以不可交流的个人感受为判据。所谓内省法，就是自我省察，对自己内心活动的反观。然后，在伦理学、哲学中有感同身受、推己及人，这些方法在科学中都是不被承认的。你不能因为自己喜欢吃糖，就认定别人也喜欢吃糖，这是不科学的。

所谓精确性，指的是科学知识要系统而清晰，彼此联系，不矛盾，通常都能用公式、数据、图表来表示，其误差限制在一定的范围内。这实际上是科学知识的形式要求，要运用数学，逻辑严密。比如，日常生活中，我们会说“今天好热”，科学语言则是要说“今天最高气温达到了41摄氏度”。

迄今为止，可检验性的科学观已经形成百年，早已成为主流的价值观念，被大多数人所接受。大家想一想，我们身边大多数人是不是这么认为的？

三、可重复性危机

进入21世纪，在实际科学活动中，可检验性标准遇到制度性的难题，即我所谓的“论文可重复性危机”，即大多数科学论文并没有被论文作者之外的其他科学家重复检验过。

众所周知，如今全球科学期刊数十万种，每年发文数百万，而中国2019年以来论文发表全球第一。如此之多的论文，绝大多数没有进行重复检验，也不可能一一检验。为什么？重复检验需要资金、场地和人员投入，而这种检验不属于创新研究，不能算作科研成果。所以，谁来出这个钱，谁又愿意重复检验呢？

必须承认，在大科学时代，一篇论文只是整个庞大“科研机器”上小小的螺丝钉。大多数论文创新性很小，甚至可以忽略不计，完全不值得浪费资源去检验。换个说法，大多数论文的结果不可重复，似乎对科研事业来说“无伤大雅”。

于是，重复检验长期付之阙如，结果是很多论文不可重复，这就是当前大科学模式下所谓的“论文可重复性危机”。这在各个学科领域都存在，尤其医学、生化等“论文大户”表现得比较突出。2021年，历时8年的“可重复性项目：癌症生物学”的研究表明：顶级的癌症研究论文结果，有一半以上不可重复。

“可重复性危机”究竟意味着什么呢？大多人的目光聚焦于三个问题上：浪费、信任和学术不端。第一，不可重复的实验也花了钱，不可重复的论文也申请了经费，论文发表、办期刊也耗费了资金，发表论文不可重复不是严重浪费吗？第二，科研人员花了钱，搞了一堆不能重复的“垃圾”，社会还怎么信任这些人呢？这不是欺骗人民群众吗？第三，既然论文结果没有重复检验，“科研混混”可能动 “歪心思”，只要“假”造得好，看起来像是真的数据、真的结果，就能发表，反正之后又没有人看、没人管的，发表就是胜利，发表就完成 “研究”了。结果不是滋生学术不端吗？

类似议论很重要，但没有抓住问题的根本。在我看来，可重复性危机正在动摇科学事业的根基。如果不制度性地解决可重复性危机，科研将不成其为科研，整个“行当”的存在都会失去合法性。为什么呢？按照经典观点，可检验性是科学知识的根本特征，可检验性意味着实验结果是可以再现的，必须具有可重复性。

如果你的某篇论文结果不可重复，就不能算作真正的科学知识。如果你的论文产出很多，但完全不能重复，虽然在某种形式上像是在搞科研——和大家一样申请经费、去实验室、发论文、晋升职称——但是大家就会质疑你是不是真的在搞科研。如果一群人聚在一起，像模像样地搞出不少“东西”，但是这些成果大规模、长期性地不可重复，大家当然有理由质疑这个所谓“研究领域”是不是不存在，或者你根本不是在搞科研。

因此，“论文不可重复危机”威胁到科学事业的“生命线”。大规模的论文不可重复的问题，逐渐演变为事关全局的科技体制问题，必须用制度性的方法加以应对，才能保证科学追求真理的本质不变色。换一种说法，挤掉“科研泡沫”，科学事业将更健康。

四、不可证实

“论文不可重复危机”讨论的可检验性在当代面临的社会性困境，理论上说可以制度性地解决。而一些思想家对可检验性标准本身进行了反思，质疑一个命题可不可能被证实。大家知道，证实指的是某个观点通过了实验检验。

举例说，石蕊试纸放入酸性溶液中会变红，放一次变红，放两次变红，放三次变红……放一万次变红，但放第一万零一次呢？你能保证它绝对变红？放在醋酸中变红，放在盐酸中变红，放在硝酸中变红，可你能保证它放在所有酸中变红吗？就算现有的所有酸能让石蕊试纸变红，能保证今后新发现一种酸肯定能让它变红吗？

从逻辑上说，必须检验所有的情况。但是，这是不可能的，你不可能一辈子都做这个实验，即使你这样做，也不能保证别人实验和你一样的结果，更不能保证你死之后，实验结果不会改变。

实验检验以不完全归纳为基础，也就是说，是以有限的实验来得出普遍结论的。不完全归纳是可错的，不能完全证实某个命题。

要证实“地球重力加速度约为9.8米/秒”，从理论上说要对地球上所有地点的重力加速度进行测量；并且，即使对地球上任何一点的重力加速度都进行了测量，也不能保证今后重力加速度会不会变化。在实践上，这一命题是不可能被证实的。在有些地方比如沈阳的“怪坡”，重力异常，汽车溜车不是下坡，而是上坡。

从实际的科学史看，很多开始被所谓“证实”的理论，比如，热素说、以太说等，后来又被证伪。

早在柏拉图、亚里士多德的时代，希腊人就认为以太是水汽火土之外、组成宇宙的“第五种元素”，还形成了专门的以太学，到了20世纪初迈克尔逊-莫雷实验才否定了以太的存在。

热素说是早期的一种热力学理论，认为热是某种可以流动的元素。一个物体热素多，它的温度就高，反之就温度低。在一段时期中，热素说得到物理学家的认可，热力学第二定律“热从高温物体流向低温物体”以及潜热、比热等诸多热力学概念，都是在热素说指导下提出来的。后来，有人用车床镗炮筒的时候，发现炮筒发热很厉害，甚至能把里面的水烧开，证明了热是一种运动。大家知道，现在我们认为热是原子、分子的运动，运动的平均速度越高，温度就越高。

而且，如果严格执行证实原则，很多公认的科学知识将被排斥在科学之外。比如，相对论提出之后，只有很少的几个实验证据。

并且，从长时间轴看，所有的理论都将被证伪，被新的理论取代，包括爱因斯坦的理论。也就是说，从绝对意义上说，所有的理论都是假说，最后都可能被证明有这样那样的问题，也就是说，绝对证实的理论是不存在的。

因此，后来逻辑实证主义修改了证实原则，改为确证原则，也就是说，一劳永逸的证实是不可能的，证实是一个随着被验证事例增加而逐渐增强的确证过程。被验证的次数越多，确证度就越高。后来，还有人提出确证实际是为真的概率问题，确证度越高，理论为真的概率越高。有人质疑说，一个观点要么对，要么错，“更可能为真”的说法不明所以。

五、不可证伪

波普反证实而行之，提出证伪主义。从逻辑上看，要否定命题“重力加速度约为9.8米/秒”似乎很容易，只要测量到一个点的重力加速度不是9.8米/秒就可以。于是，波普提出了著名的经验证伪原则，即只有可能被证伪的命题才是科学命题。比如，命题“上帝是男的”，不是因为无法证实，而是因为无法被否定，所以是无意义的非科学命题。

乍一看，波普的想法挺好：我证实不了“天鹅都是白的”，不可能把所有天鹅抓住来看，但我可以证明它是错的，我只需要抓到一只黑天鹅就可以驳倒“天鹅都是白的”这一命题了。

然而，结论错误并不能肯定某个前提性观点肯定错误，在逻辑学上叫作否定后件谬误。比如，来看如下推理过程：

人都是要死的，

苏格拉底是人，

所以，苏格拉底会死。

假设苏格拉底被发现是常生不死的，是否证明了“人都是要死的”是错误的呢？没有。错误的可能不是“人都是要死的”，而是“苏格拉底是人”——如果苏格拉底没有死，可能不是“人都是要死的”错了，而是因为苏格拉底不是人，是不死的神。也就是说，一个推理是有辅助命题的，上面推理的辅助命题是“苏格拉底是人”，当结论被否证的时候，错误的可能不是待检验命题，而是辅助命题。

伊雷姆·拉卡托斯发现，许多科学史案例说明证伪没有那么简单。比如，著名的水星进动的例子。

在发现天王星、海王星的过程中，牛顿力学发挥了巨大的威力。运用万有引力定理和行星运动三大定律，人们可以预测出行星的轨道。当行星轨道与计算轨道不符合时，就假设有一颗没有发现的行星在干扰正常轨道。并且，按照牛顿力学理论，可以推算出未知行星的轨道。接着，天文观测又发现新的行星，天王星和海王星就是这样被发现的。

科学家很早就发现，水星的运行轨道不符合牛顿力学测算出来的轨道。但是，科学家并没有因为这个反例否定牛顿力学，而是认为水星轨道异常是因为水星附近还有其他没有被观测到的天体干扰了它，甚至有人将之命名为“火神星”——这就是典型的认为错误在于辅助条件，而不是待检验命题。于是，科学家们开始努力寻找假设的干扰天体。起初，大家认为是望远镜倍数不够，就不断改进望远镜。后来，望远镜改进以后，没有找到干扰天体，又假设干扰的不是一颗大的行星，而是很多小行星。再后来，还是没有找到小行星，又假设干扰的是星云而不是小行星。直到今天，科学家们都没有找到假设的干扰天体。总之，牛顿力学并没有因为水星进动反例被驳倒。

最后，直到爱因斯坦提出相对论以后，水星轨道异常才得到新的解释。也就是说，实际上是相对论而不是某个实验否定了牛顿力学关于水星进动问题的解释。

六、历史标准

那么，科学命题既不能证实，也不能证伪，那还有标准吗？历史主义者提出，科学标准是历史的，不同时期、不同的范围、不同的学科有不同标准。比如，牛顿时代的标准不同于爱因斯坦时代的范式。如果理论合乎某个时代的主流标准，就被认为是科学。

进一步追问，主流的标准是什么？显然，要由科学家组成的科学共同体尤其是其中的科学权威来判别。诺奖获得者、院士们对此有更大的发言权。如此一来，这就走向所谓的约定论，即科学是某一群科学家约定好的共识。很多民间科学家认为，为什么我的研究一定要发表在你们说的SCI杂志上，才能算科学成果呢？而那些杂志被你们把持了，不允许不同的意见刊登，据此将我打压为民间科学家。

类似观点再继续发展下去，就会走向极端，就会认为科学没有标准。费耶阿本德就认为，科学与非科学没有什么界限，科学在本质上与巫术、小说等其他文化形式没有什么不同。显然，他的观点太极端，不符合科学发展的真实状况。科学与非科学存在着差别，不过科学标准厘清很难，科学可检验性远比之前大家以为的要复杂。

七、事实基础

可检验性用什么检验科学理论？用科学事实。有思想家质疑说，科学事实不能作为法官，来决定理论的命运。

首先，科学事实可以分为事实1、事实2。所谓事实1，指的是客体和仪器相互作用结果的表征，如观测仪器上所记录和显示的数字、图像等。它与客体的本性有关，也与认识条件有关。所谓事实2，指的是对观察实验所得结果的陈述和判断。

科学中所讲的科学事实，实际指的是事实2，它既与客体的本性、仪器的性能有关，也与人用以描述事实的概念系统有关。比如，从天文望远镜中看到一个白点快速地移动，观测报告描述的是“一颗彗星”。前者就是现象本身，后者是对现象的文字描述。显然，对于同一个事实描述可能会很不同，文字可能会出现偏差。当然，因此科学发明了精确的科学语言，但是这种偏差多少还是存在的。

更重要的是，“一颗彗星”的说法，实际上意味着记录着相信某种彗星理论。如果他迷信的话，可能写下“一颗扫把星”。也就是说，实验报告背后其实隐藏着记录者信奉的理论，信奉不同理论的人写的实验报告不同。这里出现了一个重要问题，有没有纯粹客观的科学事实？就是说不受人为因素干扰的、人人观察都能看到相同现象的“中性观察”。

格式塔心理学的研究表明：人的认知活动是有框架的，即在某种格式塔指导下进行的。面对同样的东西，不同格式塔的人会看到不同的东西。因此，“观察渗透理论”的理论认为，不存在纯粹客观的、中性的观察，人人在观察之前都有一定的框架，都是在一定的理论指导之下来观察的。比如说，对于相信日心说和相信地心说的人来说，看到太阳升落，一个得出的结论是地球在转，另一个得出的结论是太阳在转。

“观察渗透理论”更合乎实际。为什么呢？第一，观察不仅是有选择地接受信息的过程，同时也是有意识、有目的地加工信息的过程。第二，观察陈述总是用科学语言表述出来的，而科学语言总与特定的科学理论联系着。第三，理论在观察中起着定向或导向作用，引导观察者有选择地接受客体信息，又起着加工改造作用，帮助观察者理解观察到的是什么。

那么，如果科学事实都是有先入之见的，是理论决定的，它如何能判决理论是否正确呢？这种判决岂不是理论判决理论？如果是这样，被判决的只能是第二个理论与第一个理论是否一致，而不能验证它对不对。