生物模型的因果解释效力分析
2018-02-26王翠平
王翠平
(郑州大学 马克思主义学院,河南 郑州 450001)
生物学领域,无论是个体生物的基因调控,还是生物群体的动态变化都极具复杂性。随着数学方法在生物学研究中的不断应用,各种生命现象所蕴含的复杂信息不断被解码,许多生理的、生化的或生态的变化都可以通过数学语言来表达和模拟。虽然定性描述仍然是生物学的重要方法,但数学也已经成为生物学研究,尤其是生物学理论研究的重要工具。借助于数学语言的精确性,并结合计算机的信息处理能力构建生物模型可以揭示要素间的关系图谱及作用机制。可以说,生物学的研究方法正经历一个从定性到定量的发展过程。
模型研究成为生物学理论研究的重要部分。需要注意的是有些理论研究者过于关注模型构建和衍生,而忽略了复杂模型和自然世界的关联。同时,部分生物模型的结论并不能很好地与经验结果相契合。如对捕食关系进行定量描述的lotka-volaterla模型经常与实验结果不一致,但该模型仍然不断被运用于解释各种捕食现象。那么,作为理论的重要组成部分,生物模型对现象的解释充分吗?什么原因导致生物模型的结论与实际研究不符呢?进一步地说,生物模型能够提供什么样的说明呢?对此,需要结合生物学的实际研究进行逐一分析。
一、从假说到模型
生物模型大致可以分为三种类型:物理模型、概念模型、数学模型[1]43。物理模型通过实物的形式来模拟生命现象的内在关系,这类模型具有形象化、直观的特点;概念模型通过揭示不同概念关系图式的方式来说明各种生命变化;数学模型通过数学语言来表征各生物要素间的数量关系。
大部分的生物学现象非常复杂,很难发现要素间明确的数量关系,研究者仅能观测到个别因素的变化,这就需要提出假说来建立关系模型。早在1789年,怀特(Gilbert White)在《塞尔彭自然史》中便描述了这样一种现象:“最令我感到惊奇的是,它们(雨燕)的数量一直不变……我总能观察到8对雨燕,其中一半将巢筑在教堂中,另一半则选择低矮破烂的房屋……。”200多年后塞尔彭地区的生态环境已经发生了很大变化,但1983年劳丹(Lawton)和梅(May)的研究表明该地区的雨燕数量并未发生大的变化[2]12-13。怀特等人关注的问题是:为什么200年来塞尔彭地区雨燕的数量基本保持不变?或者说,什么因素决定了该地区雨燕的数量分布?如果将“雨燕的种群数量”视为已知变量的话,那么研究者还需要寻找与之相关的因变量,从而对其因果关系的内在机制进行研究。
对于如此复杂的生物学现象,如何确定哪些因素与之相关且具有因果关系呢?为了解决这些问题,生物学研究者通常提出假说:变量的变化受某因素的影响,这个因素可能是该区域物种数量、水资源量或者区域面积等。通过数学模型来解释现象需要简化关系,即尽可能少地引入参数来解释现象,因此构建假说的核心在于核心变量的选择。选择应基于要素间的相关性。生物要素间的相关性问题可以分为两个层次:
1. 两个(或多个)要素是否相关?
2. 如果这些要素相关,那么其如何相关?
首先,研究者通过提出相关性假说,并通过检验确证或否证要素间的相关关系。实际的情况可能有两种:要素A与B相关,或者要素A与B不相关。如果假说“要素A和B相关”被确证,则其相关性被确证,反之其相关性被否证。对生物模型的检验有两种方法:第一种是根据模型进行预测,并将之与实验结果进行比对;另一种方法是统计学意义上的检验,即如果该模型的置信度高,那么模型相对有效,假说被支持,如果该模型置信度低,那么该模型相对无效,假说被放弃。
进一步地讲,对生物学现象背后作用机制的理解不仅需要进行要素相关性的考察,而且需要对其关系性质做出更深刻的说明。这一问题涉及“相关度”和“相关性”两方面的考察,其中,“相关性”指涉相关关系的性质,这需要进一步分析生物要素间的关系实质。对这种关系性质的界定需要考察现象背后复杂的相互作用机制。“相关度”则与要素间相互作用的频率和稳定性有关。
以上是生物模型的基本研究过程,即选择变量→提出假说→建立模型→筛选模型。假说仅仅是假设部分要素之间相关,而模型的建立使得这一假说更加明确和公式化。因为生物学假说表征的仅仅是一种粗略的概念关系图式,建立模型则需要将概念参数化,从而精确地对要素间关系进行定量描述。即便有些模型,如溶菌-溶源性模型和生长因子信号传递模型等,被过度参数化,但是大部分生物模型可以使生物要素关系更加清晰。
这些模型可能是简单的一维模型,也可能是多尺度的综合模型。另外,同一假说可能构建出多个不同的模型,因此应该对假说进行精确的说明,以保证假说与模型之间的一一对应关系。如果对自变量与因变量的复杂关系在统计学上进行更具体的分析,那么其内部机制可随之得到不断深入的研究,从而从最初的简单模型派生出一系列模型。
同一模型,因研究角度不同,引入的参数将会不同,可能会派生出不同的二级模型。在生物学研究中,为了捕捉不同生物要素间的复杂关联细节,研究者设计了各种复杂的生物学模型。即便如此,这些综合的、多维度的模型也无法实现对因果网络的完全描述,这不仅是因为缺乏必要的实验信息等做支撑,而且也是因为生物学要素间存在着复杂的因果关系。因此,对生物模型进行有效性的分析需要考察现象背后复杂的因果作用机制。
二、生物要素间因果网络的统计推断
从时间维度看,各生物学要素间的关系状态是不断发展变化的动态过程。许多生物事件的发生,不仅产生初级因果效应,而且将进一步导致许多的次级因果效应和多级因果效应。从根本原因到各级效应之间存在一条时间维度的“因果之链”。这种因果效应可能随着要素性质的不同,以及受到其他要素的影响而出现“因果递减效应”。
同时,因果链上每个节点要素的变化往往同时受到多个其他要素的影响,因而呈现出一种横向的因果关系。不同维度的相互作用交织在一起,从而构成一个“因果相关性网络”[3]3-23。其中大部分节点都是多个因果链条的交叉点,从而呈现出一因多果、一果多因、多因多果的复杂因果状态。任何一个要素的变化可能是其他要素复杂作用的结果,如单个基因的表达往往是细胞外可控实验条件的高度复杂的函数。另外,有些变量间存在反馈作用机制。这种反馈机制可以使复杂的生物系统对内部和外部扰动都表现得非常稳定。对于同一因果网络,各个节点的变化与其他要素的变化存在某种关联。这种关联既可能是因果关联,也可能是非因果相关性。同时,这种关联性既可能是直接相关性,也可能是间接相关性。这种因果关系模型具有典型的非线性特征。因此,对生物要素间相关性和内在机制的说明成为生物模型的主要研究目的。
例如,在条件C下,变量A呈现某种变化趋势,同时变量B也总呈现某种变化趋势。那么,此现象背后的因果关联可能分别有如下几种情况:
1. 变量A的变化为原因,变量B的变化为其结果;
2. 变量B的变化为原因,变量A的变化为其结果;
3. 条件C为原因,变量A、变量B的变化均为结果;
4. 变量X(未知条件)的变化为原因,变量A、变量B的变化为结果。
其中,前两种情况下变量A与变量B之间存在因果相关性,但是后两种情况下两个变量之间仅存在非因果相关性。
如果根据现象“在条件C下,变量A呈现某种变化趋势,同时变量B也呈现某种变化趋势”从而提出假说,并进行统计相关性分析的话,可能得出:变量A与变量B之间统计相关。因此,通过统计检验仅仅能够确定要素之间是否相关,却无法甄别出这种相关性的不同含义。两种情况相比较,对已了解的生物机制的细节研究,具有更高的价值。
对这种因果关系细节的研究是当前模型研究的主要困难,而这不仅仅是技术方法的问题,也与生物学的对象特质密不可分。一方面生物学的研究对象复杂,不仅数量较多,而且极具异质性;另一方面这些研究对象彼此之间具有复杂的相互作用。以蛋白质为例,除了少数的例外,蛋白质仅由20种氨基酸构成,但是,这20种氨基酸的不同结合产生了数量惊人的编码蛋白质及其变体。同样的情况也存在于核酸、糖及脂肪等大分子领域。蛋白质的分子内相互作用形成各种不同功能的折叠结构,并与大量的酶、信号分子、抑制剂等分子发生相互作用。这些复杂的相互作用不仅发生于各个尺度组织内部,而且在跨尺度层面也存在复杂的相互作用。这种要素间的相互作用成为因果相关性的内在原因,其决定了要素间相互作用的发生、水平与机制。除此之外,生物要素的时空异质性成为外在驱动力。如蛋白质结构-功能分析的研究表明,蛋白质大分子上“亲密”的序列通常发生在结构和空间上临近的点上[4]47。因此,对各生物要素属性及时空要素的研究将有助于对其相关性做出更深入的理解。
值得注意的是,并非所有要素间的相互作用都可能产生某种可量化的因果效应。如两束光线的交汇并未改变物体的任何属性,而两颗彗星的相撞则会导致各自轨道及自身性状的改变,前者相互作用所产生的因果效应不明显,后者产生的因果效应具有可量化特征。要素间不同程度的相互作用是因果相关性的内在原因,但有时相互作用可能较弱,呈现不出某种统计相关性。生物学中大部分要素的相互作用会对环境要素的状态产生影响。由于生物学要素的变化通常是多个要素综合作用的结果,该要素的变化又会引起其他多个要素的变化,这些要素之间都可能呈现出一种相关性,也就是说单个要素与多个要素相关,且这些相关性是并存的。通过生物模型对复杂问题的研究,可以初步揭示现象背后的作用机制。
显然,有机体与环境要素间的相互作用是产生这种因果相关性的原因。这一相互作用存在内在原因和外在原因两个方面。内在原因主要指有机体及环境要素的性质或性状,其决定了彼此间相互作用的发生、水平与机制。外在原因主要指有机体与环境要素所处的时间及空间,这种时间与空间直接造成了这种相互作用的发生。因此,对各要素属性的研究将有利于确定相互作用的内在机制。
三、生物模型的解释机制
生物学研究的最终目的是解释各种复杂现象。对此,生物模型的理论价值何在呢?其能否有效说明生物现象内在的复杂关系呢?根据亨普尔的观点,科学说明(解释)是指通过揭示科学规律对现象进行解释。他对科学说明的具体形式也做了总结,其中演绎论证说明和归纳统计说明是较为典型的两种说明形式。前者借助某普遍规律或全称规律说明现象,被说明项是说明项的演绎结果。后者借助于统计规律对现象做出说明,即从相对普遍的大前提推导出关于个体事件的陈述。因此,无论作为前提的科学规律的普遍性如何,其说明形式都是演绎的。“科学说明”成为以某种规律为前提的逻辑推演。在生物学领域中,对模型的研究并不以普遍规律或统计规律为逻辑起点。生物模型只是在原始的数据海洋中捕捉相关的因果细节。如果把“科学规律对现象的说明”作为唯一的科学说明形式,显然生物模型的研究不能对现象进行任何的说明,那么,生物模型,尤其是生物数学模型研究的理论意义何在呢?
卡特赖特(Cartwright)等人认为可以通过模型来理解世界,模型可以在一定程度上反映真实的世界[5]137-149。这种模型论的研究途径为:根据假说建立模型,如果该模型产生的效应与原始系统一致,则该模型有效,否则模型无效。有效的模型可以部分真实地反映原始系统的因果关系。另外,萨尔蒙(Salmon)提出的统计相关性说明[6]62-68与传统解释形式不同,统计相关性说明关注各要素间的统计相关性。在当前科学哲学领域,模式论和统计相关性模型被认为是两种新的说明形式。生物模型分析方法综合体现了以上两种说明形式。
模型分析方法和亨普尔所提出的说明形式有本质的不同。后者借助于科学规律对现象进行说明,前者并非以科学规律为解释的起点,但有效的生物模型最终却给出了生物学规律,即生物数学模型实质上是生物学规律的数学表达。生物学规律可以分为经验规律和理论规律。前者主要借用日常语言进行经验描述,后者主要运用数学语言、理论术语进行定量描摹。有些生物学规律是通过简单观测就可以捕捉的,例如葛洛格规律(Gloger’s rule)指出在寒冷干燥的地区,动物的体色较浅,在潮湿温暖的地区动物的体色较深,这是基于经验观察得出的结论[7]57。但是,有些生物学规律具有“部分A是B”的特征,同时又并非以“部分A是B”或“A%=B”的简单形式出现。如表面积规律指出体型较大的动物比体型较小的动物具有较小的表面积与体积比率,揭示出这一规律并非观察和简单统计的结果,需提出假说和进行简单的建模。
有些生物学规律对有机体和环境的关系表达更为精确。如对自疏现象的观察能够发现其中种群密度与个体大小的关系,这是一种简单的可以通过日常语言进行描述的经验规律。随着对种群内竞争作用的研究,生物学家发现“自疏法则”:植株平均重量(W)与密度(d)存在这样的对数关系:lgW=lgC-algd,其中a=2/3,C为常数,不同物种常数不同[7]98。这一规律的发现不仅应用到观察、测量等方法,而且应用到统计分析方法。总之,除经验规律外,许多生物学规律则是理论构建的结果——一种符合统计检验的相关性模型。这种统计相关性模型表征了一种“被确证的相关性”。因此,经验规律所描述的“直观的相关性”仍然是理论研究的起点,成为许多生物学假说的经验来源。无论经验规律,还是理论规律,都反映了研究者对现象的一种认识,也是对复杂现象的基本解释和说明。
四、生物模型说明的趋真性
通过运用生物模型方法,研究者可以初步把握复杂要素间的关系,下面从形式和非形式两个方面对生物模型的说明效力进行分析。
从形式方面看,生物模型所给出的说明并非排他性的,即其仅提供了必要而非充分的说明。原因有以下三点。
第一,对同一现象的说明可能存在不同的生物假说,构建不同的生物学模型,不同模型之间也可能并不互斥。也就是说,在某一假说成立的前提之下,仍然存在其他相关性假说的可能,这表明通过模型方法所提供的说明缺乏排他性理由。对同一现象,研究者根据研究经验可能选择不同的变量关系进行考察,从而提出多重假说并建立模型。尽管检验能够保证有效假说的成立,但显然这并不能否证其他假说。
第二,生物模型简化了各种关系细节,因此其说明具有趋真性。这种模型所揭示的因果关系本质上是非线性的,较之传统科学哲学中的线性因果关系更为复杂。但实际上,没有哪一种说明形式能够对自然世界做出最完全彻底的说明。这也正符合因果关系的复杂样态——研究者只能捕捉到不同的关系片段,却无法对整体做出完全的说明。
第三,生物模型通过数学的语言描摹了要素间的相关性,这种相关性可能存在非因果相关的可能。可以说,生物模型捕捉到的是“可能的”原因和结果间的关系。尽管模型的检验能够保证这种相关性是否为真,但却无法保证这种因果关系是否为真。
从非形式方面看,许多生物学家认为模型的普遍性、稳定性等可以成为衡量生物模型优劣的标准。
生物模型的筛选,通常有经验检验和统计检验两种方式。前者通过与预测结果的实际比对,可以否证或确证部分生物模型。由于有机体和环境均在不断变化,且时间及空间尺度也比较大,生物学研究的重复性一般较低。有些模型无法借助经验方法检验,需要通过统计学方法进行检验。如生态学研究采取“零假说”筛选模型,如果零假说被排除,那么相应的假说才成立。这种检验方法往往涉及统计学上的置信度与置信区间等指标。但是,也可能多个假说均能通过零假说的验证筛选。目前对竞争性假说的筛选方法主要有likelihood ratio tests或F-tests等。通过这些方法所筛选出的有效模型,也仅仅具有统计学上的有效性。也就是说,用这些模型来解释其他生物学现象,可能出现部分现象无法得以解释的情况。同样地,借助相关性模型对生物学现象进行说明,其最终能够说明的也仅仅是一种相关性。
尽管生物模型的解释效力存在一些问题,但其仍在一定程度上促进了对现象的解释和说明。如对于单一物种而言,其增长率可能涉及两个要素:出生率与死亡率。基于这一简单假说,对物种的出生率与死亡率进行数据采集,并通过统计学方法进行数据拟合,最终可以得到方程:dN/dt=(l-m)N,其中N为个体数量,l表达单位出生率,m用来表达平均死亡率。这一模型涉及出生率、死亡率及个体数量3个要素[8]123。虽然这3个要素与物种增长率之间是否存在确定的因果关系尚未可知,但是通过模型分析揭示了这些要素之间的相关性,也因此可以判断其是否处于同一因果网络之中,这为进一步的研究提供了理论指向。对因果相关性网络的分析可以发现:原因与结果之间、同一原因的不同结果之间通常可以呈现出统计相关性,而同一结果的不同原因之间存在统计相关性的可能性较低,因此通过统计相关性的筛选我们至少可以排除部分非因果相关关系。
统计相关模型无法对现象的内在机制做出充分说明,但这种说明至少仍然可以用来进行预测。如当物种数量发生变化时,可以假设该现象与区域面积相关,并可以进行统计相关性分析。这种统计相关性仍可能仅仅是一种非因果的统计相关性。即便如此,根据非因果的统计相关性也可以进行预测:如果区域面积减少,那么物种数量可能发生变化。有效的模型往往能够揭示自然界的内在结构,通过对这一模型的输入,可以部分预测其输出。可以说,这种统计相关性说明形式虽然并不能给予我们现象背后因果关系的说明图景,但这种说明形式仍存在认识论的意义。通过生物学模型分析方法,我们对现象的认识至少是趋真的。
五、余论
生物的发展正经历着从经验论到理性论的发展过程。生物学模型方法不同于以往以经验描述为主的生物学研究方法,其侧重用定量的方法描摹自然。但是该模型并不能对内在规律进行更深层次解释,其更多的是对事物各要素内在关系的描摹,这在本质上仍具有一定的经验论色彩。在生物学研究中,模型分析方法被研究者广泛运用,随着研究问题的深入,这一方法的局限性也不断凸显。在生物数学模型的研究过程中,部分研究者发现模型所出现的问题,实际上属于数学问题,从而将研究兴趣转移到数学领域。实际上,对数学模型的研究的确刺激了相关数学问题研究的深入,但是也有研究者因此迷失在复杂而玄秘的数学问题中,从一个模型推演出另一个模型,却忽略了这些模型自身的生物学意义。从发展生物学方法论的角度来看,生物模型研究不仅自身应建立完善的体系,构建从建模到检验的逻辑链条,而且应融合其他经验研究方法,从而提升其解释效力,实现对生物学现象的充分和有效的说明。
[1] 美国能源部计算生物学项目数学科学研究委员会.数学与21世纪生物学[M].邵伟文,等译.北京:清华大学出版社,2015.
[2] 梅,麦克莱恩.理论生态学[M].陶 毅,等译.北京:高等教育出版社,2010.
[3] SALMON W C. Scientific explanation: causation and unification[J]. Critica: Revista Hispanoamericana de Filosofia, 1990,22(66): 3-23.
[4] 沈世镒. 蛋白质分析与数学[M]. 北京:科学出版社,2014.
[5] CARTWRIGHT N. The tool box of science: Tools for the building of models with a superconductivity example[J]. Poznan Studies in the Philosophy of the Sciences and the Humanities, 1995(44): 137-149.
[6] SALMON W C. Four Decadas of Scientific Explanation[M]. Minneapolis:Univerisity of Minnesota Press,1990.
[7] 吴相钰.陈阅增. 普通生物学[M]. 北京:高等教育出版社,2009.
[8] 王翠平.生态学还原论应用策略研究[D].北京:中国科学院大学,2015.