分子系统发育分析的生物信息学方法
2016-12-23郭一冉
□郭一冉
(襄阳市第五中学湖北襄阳441057)
分子系统发育分析的生物信息学方法
□郭一冉
(襄阳市第五中学湖北襄阳441057)
处于信息时代,计算机技术渗入到生物学研究中,研究人员开始从分子水平对生物进化进行研究,并运用计算的方法针对为生命起源的研究探索出新的思路。多年来,从分子的层面对物种的系统发育进行研究取得了一定的成果。本论文针对分子系统发育分析的生物信息学方法进行研究。
物种进化;分子系统发育;计算机技术;生物信息学
生命的进化是漫长的。史学界针对物种的进化史进行研究,都试图从生物化石中寻找物种进化的证据,但毕竟化石数量有限,而且通过这种方式所获得的进化信息是零散的。所以,要对生物的进化史以及生物之间的进化关系充分掌握,目前的学术界会普遍采用解剖学、发育学的相关理论进行研究。但是,这些研究方法都不同程度地存在着依赖性,这就必然会导致研究中存在着局限性。生物的结构相似,但是,进化的途径并不完全相同。比如,鱼类和脊椎动物的眼睛所发挥的功能是相同的,但是,进化的途径却是完全不同的。随着分子生物学的发展,对物种进化的研究就可以从生物分子的层面展开,以获得更为准确的物种进化信息。
1 物种进化研究中分子系统发育分析所发挥的作用
系统发育学又被称为“系统发生学”,主要的研究内容是物种形成的历史和进化的历史,而且还针对物种在进化过程中相互之间所存在的关系进行研究。在生物信息学研究领域中,系统发育学是重要的分支。在对物种进化进行研究的过程中,从系统发育学的角度进行研究,可以对物种的进化史更好地掌握,基于此而对生命的起源进行探索,包括物种的变异、物种的差异、物种的基因功能以及从生态学的角度对微生物的研究等等。
随着生物学的研究进入到分子层面,基因技术开始融入到生物进化史研究中。特别是基因测序技术的发展,诸如RNA、DNA以及蛋白质等等的生物序列逐渐积累起来,这就使得生物进化史研究进入到分析层面。在很多生物学专家看来,在生物分子中就可以获得物种进化的信息,而且相比较于从生物化石获取信息要容易得多[1]。所以,生物研究领域对于物种的进化进行研究,多会从分析层面展开。
随着学界对物种发育的研究采用生物信息学的方法,能够涉及到的研究学科越来越多,除了计算机技术和生物学之外,包括数学、统计学等等都被用于研究中,从分子的层面对生物进化史研究水平逐渐提高,而且在研究方法上不断实现创新。
2 分子层面的物种进化信息
2.1 单条生物序列中所含有的进化信息
如果生物的基因或者蛋白质均为同源的,当从一条序列向另一条序列进化的时候,对于进化的概率进行计算,就需要通过变异的次数对物种进化的距离进行衡量。刻画单条序列的分子进化的过程中所产生的信息,就是计算局部位点上所存在的碱基变异情况或者是氨基酸残基上所存在的变异情况,所有的进化事件,包括进化信息的插入、进化信息的删除以及进化信息的转化等等,都会详细记录下来。
在提取进化信息的时候,从单基因水平进行提取,就是将能够对物种进化情况有所反映的基因提取出来,通过比较不同物种之间的基因而获得两条基因序列所存在的不同之处。不同物种的基因序列差异越小,就意味着物种之间所存在的进化距离就越近。
2.2 多条生物序列中所含有的进化信息
对于多条生物序列中所含有的进化信息进行研究,主要采用两种方法。其一,在系统发育树的构建上采用单序列信息,用于表示物种系统;其二,采用比对的算法从多条生物序列的角度对同源基因进行比对,之后串联所获得的结果。根据所获得的比对结果将系统发育树进行重新构建[2]。同源基因被找出来之后,就将这些基因信息充分利用起来,并对这些信息进行分类。
比如,对神经嵴细胞采用生物信息学的方法对基因差异进行分析,可以利用DAVID数据库对与基因有关的数据进行富集,并根据需要予以分类。DAVID数据库可以对500个基因所发生的改变情况进行生物信息学分析,具体操作:打开DAVID网页进入到指定的数据库中,将发生改变的神经嵴细胞基因提取出来,从原有的表格中复制到具有统计功能的基因输入框中。数据提交完毕后,选择“Start Analysis”并点击,就可以对这500个基因进行生物信息学分析了。(下图:神经嵴细胞分化)
3 采用系统发育树针对物种进化关系进行研究
3.1 建立在字符序列基础上而采用的系统发育树算法
建立在字符序列基础上而采用的系统发育树算法是将可以发挥各种功能的树搜索出来,选择对给定序列能够给予很好的解释的树,用以对物种的系统发育进行研究。
3.1.1 最大简约法。最大简约法以通过最小的改变对物种群体之间所存在的差异进行观察。在对发育树的选择上,要选择进化次数最小的那棵树而对物种进化关系进行研究。多年来,采用这种方式对生物的进化情况进行研究,随着物种数量的增多,这种方法由于没有对树中的分支进行掌握,导致物种进化的距离无法明确地反映出来。
神经嵴细胞分化
3.1.2 最大似然法。最大似然法所采用的是进化模型,通过将模式数据与真实的数据信息之间对比,统计相似程度。最大似然法的数据统计效果良好,其不仅对物种进化的距离充分考虑,还对距离的相关内容进行了刻画。但是,采用这种方法需要对发育树分支的拓扑结构进行研究,计算过程非常复杂。如果物种的数量大,采用这种方法很显然是不适宜的。
3.1.3 贝叶斯推断法。贝叶斯推断法是基于最大后验概率原理,通过所掌握的先验知识对后验的分布情况进行求解。要求所选择的发育树为最大后验概率,对发育树为真的概率进行分析,并采用贝叶斯法进行推断。这种方法被广泛地应用。但是,在推断的过程中,需要对先验概率进行估计,还要对各种参数进行集成,所以,在计算的时候需要消耗大量的时间,所以,贝叶斯推断法存在着局限性。
3.2 基于物种进化距离的系统发育树算法
基于物种进化距离的系统发育树算法中,较为经典的是两种算法,即,UPJMA法和邻接法。其中的邻接法属于是合并算法,虽然这种算法并不能将计算结果精确到最小进化树,但是可以获得近似的数值,不仅计算的速度快,而且具有较高的准确率。基于物种进化距离而采用邻接法,可以使得计算的过程和所获得的结果更容易被理解,与常规的字符序列方法相比,不仅计算的速度上存在着优势,而且还可以将物种距离的矩阵计算出来,之后就能够采用聚类算法将物种的发育树构建起来。
结束语
随着信息技术的发展,计算机技术逐渐渗入到生物进化史研究中。计算机具有很强的数据处理能力,在对生物进化相关的数据进行处理的时候,不仅数据处理能力提高了,而且数据处理成本有所降低。所以,采用生物信息学方法对分析系统发育系统进行分析非常必要。
[1]詹永勤,余敏,杨长平.关于中美生物信息学研究现状的研究[J].西南农业学报,2013(02):789—794.
[2]卢境婷,王旭东,代杰文,等.颅神经嵴细胞的迁移及特性[J].中华口腔医学研究杂志,2011,5(06):58—61.
1004-7026(2016)12-0103-02
Q75
A
10.16675/j.cnki.cn14-1065/f.2016.12.078