APP下载

生物信息学数据库及运用分析

2014-10-29陈鹏

电子技术与软件工程 2014年16期
关键词:生物信息学数据库应用

陈鹏

摘 要

随着现代计算机信息技术的快速发展,生物信息学与计算机技术的结合度也越来越高,在生物信息学的数据库中就很好地应用了计算机信息技术,而数据库的建立与完善对生物信息学的发展也具有重要的作用,本文中主要对数据库的应用进行分析。

【关键词】生物信息学 数据库 应用

现代社会是一个信息化的社会,人们每天进行各种信息的交流愈加频繁,在这个信息化的时代,计算机以及信息技术为人们信息的交流提供了重要的工具。生物信息学数据库的建设与应用就是利用了现代的计算机信息技术对生物信息进行存储、检索与分析。

1 生物信息学数据库

生物信息学是建立在应用数学、计算机科学以及生命科学等多学科基础之上的交叉学科,这门学科的主要任务就是探究如何高效地获取生物学信息,对信息进行处理与分析,存储信息以及应用生物学信息。数据库技术主要解决了将世界海量的生物学数据、已有的研究成果以及技术信息等收纳并存储在数据库中,这样可以大大方便人们的生物研究与信息的查询与借鉴。

2 数据库的分类与特点

生物信息学数据库中的数据种类极为多样,其数据库中的信息覆盖面也极为广泛,数据信息很全面;数据库的信息更新速度快,信息的内容更新的也很丰富;数据库的规模在不断地扩大,数据库的复杂性也在不断增加;在使用上更加地网络化、便捷化。

2.1 一级数据库(一次数据库)

在生物信息学数据库中的一级数据库主要包括了核酸和蛋白质一级结构序列数据库,基因组数据库以及生物大分子(主要为蛋白质)的三维空间结构数据库,通常称为基本数据库。一级数据库的明显优势就是在这个数据库中数据的信息量很大,海量信息存储在数据库中并且数据每天都在增加,数据的信息也会及时更新并且更新速度很快,一级数据库的用户量也很多并且用户面也很广泛。因此以及数据库的建立是需要性能高的、磁盘的容量很大的并且拥有专门的数据库信息管理系统的计算机作为载体来支撑这些功能的完成。另外,数据信息还需要一些大型的商业软件作为数据管理的支撑。例如,在我国的生物信息学研究所中使用的是Oracle数据库系统,这种软件管理系统可以较好地将数据进行管理与分类。研究所中针对基因组的数据库进行管理以及运行则主要是基于Sybase数据库系统来完成的。

2.2 二级数据库

所谓的二级数据库主要是以一级数据库以及文献资料为基础建立起来的数据库,也称专业数据库。二级数据库相较于一级数据库,其数据信息的容量也小得多,数据信息的更新速度也相对要慢一些。二级数据库不需要大型的商业软件来支撑数据库的管理,可以直接使用一些基本的浏览器,如web浏览器。二级数据库有很多种类,例如,基于核酸数据库建立的二级数据库中有真核基因顺式调控元件和反式作用因子数据库的TransFac数据库,以及真核基因启动子数据库EPD,密码子使用表数据库CUTG等。基于三维空间结构为基础构建的数据库有蛋白质二级结构构象参数数据库DSSP,已知空间结构的蛋白质家族数据库FSSP等。

3 生物信息学数据库的应用

3.1 序列的比较

所谓的序列的比较主要是指将两个序列中的各个元素放在一起然后按照对应等同的关系对元素进行有关的排列。对于两个序列中共有的那些排列顺序表示的是这两个序列的相似程度是较高的,是对序列的一种较为定性的描述。对于最优的排列主要是反应在这两个序列中的最大相似程度以及最少相异处,现在较为普遍寻找最优排列的方法是通过动态的规划算法来寻找最优序列。一般来说,对于一个新的序列以及数据库中的某个序列的比较是可以在非常短的时间内就可以比较出来的,但是由于基因数据库中的数据极为繁多,因此在这个序列中的比较会相对花费较长的时间才可以比较出来,尤其是逐个对比的时候,所需要的时间更长。所以,现在对于基因数据库中的序列的比较主要是使用搜索计较算法来进行序列的比较。另外,关于序列的搜索主要是有两种使用较为普遍的使用程序,一个是BLASR程序,另外一个是FASTA程序,这两个程序在实践应用中是比较成功的,其可以根据给定的序列,然后在基因数据库中快速地找出一些同源的序列,进而提高搜素与比较的速度。例如,在BLASR这个程序中主要使用的是一种对于序列的数据进行局部的对比与分析,这可以较快找出一些同源的序列,然后进行比较找出较优的序列,因为这种程序可以较快提高比较速度,软件的使用性能也不错,因而在实践中应用度较广。

3.2 数据挖掘技术

随着生物信息学的数据库的数据在飞速增长,怎样在海量的信息中提取出用户需要的信息成为一个问题的关键,也是在生物技术信息数据库的应用中需要解决的一个问题。另外,如何在已有的数据信息中以及从基因数据库中识别出编码的蛋白质的基因,如何对识别的基因进行多种信息的表达与控制,如何解读出生物的遗传密码,分析出蛋白质的相关结构以及功能等都是需要面对以及解决的问题,也在当下生物信息学数据库中面临着的比较棘手的困难。针对上述问题,在实践应用中比较常用的是一种数据的挖掘技术。这种信息挖掘技术可以高效地从数据库的海量信息中挖掘出有效的信息或者生物知识。这种数据挖掘的技术主要就是从数据库中这些海量的信息、随机的信息数据中提取出一些人们以前不知道的但确实是有用的信息来提供给用户使用。用户通过这种技术可以高效地找出自己需要的信息与知识,因此这种技术具有很强的应用性,值得推广与应用。

4 结束语

关于生物信息学数据库以及应用方面还有很多需要探究的方面,本文主要是对其进行了一些简单的介绍,并没有很详细的延展开来,需要在今后继续分析与研究。但可以肯定的是很多的生物技术的研究都是需要数据库的支撑来促进世界生物技术的发展与进步。

参考文献

[1]赵屹,谷瑞升,杜生明.生物信息学研究现状及发展趋势[J].医学信息学杂志.2012,33(5):2-6.

[2]孙清鹏,贾栋,万善霞.生物信息学应用教程[M].北京:中国林业出版社.2012:23-56.

作者单位

重庆医科大学 重庆市 400016endprint

猜你喜欢

生物信息学数据库应用
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用