植物分子进化中系统发生树的重建方法
2013-04-29武凌云
武凌云
摘 要: 在现代分子进化研究中,根据现有生物基因或物种多样性重建生物的进化史是一个非常重要的问题,一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制,本文就植物分子进化中系统发生树的重建方法进行了阐述。
关键词: 植物分子进化 系统发生树 重建方法
运用DNA序列测定已经普遍运用于系统与进化植物学的研究中,从DNA水平研究生物多样性与生物进化的分子生物学技术作为一种研究手段,通过揭示DNA分子中核苷酸的变异研究植物的系统发生、种内分化及遗传多样性等,正在改变植物系统这门古老而经典的学科,为解决过去依靠植物形态和稀缺的化石证据在分类学、系统发育、物种形成与进化等方面的难题提供极为有效的途径。本文就植物分子进化中系统发生树的常用重建方法做介绍。
1.分子系统发生树的重建
目前,利用分子生物学数据重建系统发生树的方法很多。在重建时,对不同类型的数据应采取不同的重建方法。
1.1非加权组平均法(UPGMA)
UPGMA法在算法上较简单。聚类时,首先将距离最小的两个OTU聚在一起,形成一个新的OTU,其分支点位于两个OTU间距离的1/2处,然后计算新的OTU与其他OTU间的平均距离,再找出其中最小的两个OTU进行聚类。如此反复,直到所有的OTU都聚到一起,最终得到一个完整的系统发生树。
1.2邻结法(NJ)
与UPGMA法相比,NJ法在算法上相对较复杂,它跟踪的是树上的节点而不是OTUs。在聚类过程中,根据原始距离矩阵,基于其他所有节点间的平均趋异程度而对每对节点间的距离做调整,即将每个OTU的趋异程度标准化,从而形成一个新的距离矩阵。重建时将距离最小的两个终节点连接起来,在树中增加一个共祖节点,同时去除原初的两个终节点及其分支,即对整个树进行修剪。随后,新增加的共祖节点被视成终节点,重复上一次循环。在每一次循环过程中,都有两个终节点被一个新的共祖节点取代。整个循环直到只有两个终节点时为止。从所得到的系统发生树来看,两个聚在一起的OUT其所在的终节点到共祖节点的距离并不一定相同。
1.3最大简约法(MP)
MP方法利用的只是对简约分析能提供信息的特征。如在DNA序列数据中,利用的只是存在核苷酸序列差异(至少有2种不同类型的核苷酸序列)的位点,这些位点称为简约信息位点。利用MP方法重建系统发生树,实际上是一个对给定OTUs,其所有可能的树进行比较的过程。对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度。通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树。
1.4最大似然法(ML)
利用最大似然法推断一组序列的系统发生树,需首先确定序列进化的模型,目前使用较多的是一些相对较简单的模型,如Jukes Cantor模型、Kimura二参数模型及一般二参数模型。这些模型都建立在一定假设基础上,然后基于一定的模型考虑两个OTU序列间的关系,找到支的长度。这个过程需要寻找在某一进化距离上由第一种序列真正转换成第二种序列的可能性,并确定在最大可能下的进化距离。接着将多个OTU构成的所有可能树作为最佳树,对重建每个树的统计量进行似然估计,最后通过对树长度的优化,从而获得最佳树各参数的最大似然估计。
1.5贝叶斯推断法
最常用的是MCMC法,其基本思想是构造出一条马尔柯夫链,该链的状态空间为统计模型参数和不变后验分布参数。链的构造由多步完成,每步状态空间的状态都被推荐为链的下一个连接点。首先在状态空间中随机挑选一个状态作为链的当前态,随机扰动当前态各参数,从状态空间中推荐一个新态,计算推荐态的相对后验概率密度,若推荐态的后验概率密度高于当前态,则链的移动被接受,推荐态则作为下一循环的当前态。若推荐态的后验概率密度低于当前态,则计算由Metropolis等和Hasting提出的推荐态与当前态后验概率的比率,该值接近1时接受推荐态,接近0时则拒绝推荐态,此时,当前态作为自身的下一个连接点。对上述过程重复若干次,最终马尔柯夫链将停留在后验概率高的状态,某态的后验概率就是马尔柯夫链停留该态的时间分值。
1.6不同构树方法的分析
在上述方法中,Farris和Penny认为距离法得到的结果要比离散特征法的差,Felsenstein和Nei则认为Farris和Penny的论据是对距离法的错误理解。事实上,在有些情况下距离法能得到比离散特征法更正确的系统发生树。在距离法中,UPGMA比较简单且实用,当使用的距离数据是来源于对含核苷酸数量较多的多个基因的分析结果时,利用UPGMA法能得到可靠的系统发生树。在离散特征法中,在不同世系间进化速率相差较大,且进化速率恒定而树的内支很短的情况下,MP法并不能对一个真正的系统发生树做出始终一致的判断。即使有时MP法能得到一个始终一致的判断,但它获得一个正确树的效率通常要比NJ法和ML法低。但在(1)序列趋异程度较小(d<0.1);(2)核苷酸替换的速率或多或少的恒定;(3)没有很高的转换与颠换比及很强的G+C含量偏差;(4)所分析的核苷酸数量较多(大于几千)的情况下,MP法仍是一种较好的系统发生树重建法。另外,与距离法和ML法不同,MP法能利用序列中碱基的插入与缺失信息。
2.结语
从系统发育生物学的角度看,基因组学的丰富数据既包括大量序列信息,又蕴藏有关重复基因、DNA片段缺失/插入、转座子丢失/插入等信息,为系统发育研究提供丰富的资料,使得利用大规模基因组水平的数据进行系统发育分析成为可能。
应该注意的是,用DNA序列研究系统进化时也存在许多问题。首先,虽然同一DNA序列在不同分类群间的进化速率有所差异,但序列本身在植物系统学的研究中总有相对稳定的适用范围,这使得其涵盖的研究内容和层次有限。其次,分子片段仅仅是分类群诸多性状的一个来源,它虽能为分类群的系统重建提供不可忽视的信息,但并不能完全反映其真实的演化历史。比如核基因组庞大而复杂,拥有许多具有丰富变异的DNA片段(如某些基因的内含子区),在低阶元类群的分子系统学研究中应用广泛。
参考文献:
[1]Kay,K.,J.Whittall,et al.A survey of nuclear ribosomal internal transcribed spacer substitution rates across angiosperms:an approximate molecular clock with life history effects.BMC Evolutionary Biology,2006,6(1):36.