浅谈异构生物信息数据库的整合
2016-04-11李晶
李晶
(江苏农牧科技职业学院 江苏泰州 225300)
浅谈异构生物信息数据库的整合
李晶
(江苏农牧科技职业学院 江苏泰州 225300)
近年来世界范围内展开了HGP即人类基因组计划,由此出现了大量生物学数据,如蛋白质数据、RNA、DNA等,为了便于研究的展开,便于科学家进行数据查询,这些数据需经过有效的处理与整合,然后纳入到生物信息数据库中。数据异构是生物数据分析与处理中需要解决的主要问题之一,文中将对生物信息资源利用面临的问题进行探究,并对以XML为基础的异构生物信息数据库整合模式进行分析。
异构生物 信息数据库 整合
生物信息学属于生命科学,这一科学以计算机技术为基础对有关生物学的数据信息进行存储、分析与整合,通过对其中有效信息的提取,人们可以找出数据对应的生物学意义,这对人类的生存与发展是有着极为重要的意义的。异构数据是整合生物数据库中面临的主要难题之一,整合的主要目的是为了避免语法异构与语义异构出现冲突与差异,保证数据的统一,对这一问题的研究有着重要的现实意义。
1 生物信息资源利用面临的问题
生物信息学在近年来取得了极大的发展,大量数据信息涌现,如何对数据进行筛选与管理是相关人员必须考虑的问题,生物学数据可分为多个种类,数据信息结构复杂,因此其检索与存储方式也各异,为了提高工作效率,促进生命科学研究的展开,应当对数据分析、数据处理、数据管理等技术予以创新。
具体来说,当前生物信息资源在利用中面临的问题主要包括以下几个方面,首先,数据库类型较多,生物数据信息的多样性决定了数据库类型的复杂性,但是在数据整合储存工作中缺少统一的标准与规范,因此如果要存储或查询不同类型的信息需要以不同的方式从不同的数据库入手,程序较为繁琐;其次,信息存储格式也呈现出了多样化的特征,如面向对象数据库、关系数据库、文本信息等,这对信息的管理与查询也会造成一定的阻碍;再次,生物信息数据量相对较大,数据信息量会以几何倍数递增,如DNA序列数据库中的DNA碱基数每隔十四个月数量增长一倍,因而数据信息处理整合难度大;最后,生物概念、生物性质等都存在着一定的复杂性,不同的数据蕴藏着不要的生物信息,每一生物信息都有自己的特征,为了保证信息数据可以被及时查询出来,应当构建具有集成化特征的平台,对信息资源予以整合。
2 以XML为基础的异构生物信息数据库整合模式
对数据库进行整合是一项系统的工作,工作人员需要对不同数据库进行分析,找到各数据库间的内在联系,在数据库的基础上构建立体化的数据整合平台。近年来的应用与实践的数据库整合技术包括以Web service为基础的集成系统、将GO作为核心的集成系统(BioDW)、以多Agent为基础的整合系统(BioAgent)等,随着研究的深入展开,XML技术也逐渐被应用到生物数据库的整个工作中。
2.1 数据库管理
生物数据库在组织数据时常以某个对象或主题为核心,对核心的基本资料、文献信息、注释信息等进行全面的描述,数据处理呈现出了结构化的特征,在处理过程中数据会由关系模式转换为XML模式,即对数据予以层次划分处理,将其存储到不同的字段,然后将数据对应的基本元素与根元素等信息予以记录。
为了适应数据表格的多样性,以XML为基础的整合平台还相应的改进了基本模型增加了其内部子节点的数量,并在表节点中嵌套了至少一个表节点,在XML文档中根据逻辑关系将表安置在合适的层次中。如在血糖情况整理时,如果需要层加测量者,那么需在<Root>这一根目录中增加<patient>节点。序列文件主要用于存储序列数据,它以序列条目为基本单位,核苷酸碱基的注释与排列顺序就包含在其中,其序列开端为Locus(关键字),其余依次为Authortype(作者)、Keywords(关键词)、Definition(说明)、Taxonomy(种属来源)、Features(特性表)、Accession(接收号)以及碱基序列。整合系统中的数据库为SQL Server 2008,其灵活性较强,索引、内部数据以及日志文件均可以操作系统文件的形式保存下来,其中用户使用率较高的表与索引会被放置到设定好的磁盘上,这种方式能够保证数据中荷载的平衡性。
2.2 格式转换技术
XML格式转换的方式较为简便,格式转换完成后数据资料的存储与读取工作都会变得相对简便且其数据结构有较高的精确性。格式转换主要包括两个内容,一方面是与关系数据库之间的格式转换,其算法包括三个步骤,第一是将关系模式内存在的各表生成对应的复杂类型,第二将各个表中的字段在复杂类型中形成属性与子元素的映射,主键映射的对象设为Key属性,外键元素映射的对象设为keyref属性,第三以主键与外键之间的关系为依据建立子元素;另一方面是与面向对象数据库之间的格式转换,针对各数据库XML有独特的访问技术,在访问中生成对应的XML格式的文件,然后将其予以存储或分析面向对象数据库中的信息向XML格式转化以DTD为依据。
2.3 网络资源连接
整合模式中的用户界面为交互式的,用户可在系统中查找网络资源,预留程序接口可与系统外的服务程序进行对接。当链接完成后,用户就可以对网络中的数据库进行访问了,在链接时可以选用Cn3D4.3软件,该软件具有性能优良、价格低等优势,能够以蛋白质三维结构将信息展示出来;而系统中的分析工具则可以选择FASTA、CULSTAL以及BLAST等。当前所使用的很多生物信息系统如Entrez等都具备信息查询功能,用户可以在序列库里找到所需的资料,部分系统还允许用户自己添加数据库,如SRS等。
3 结语:
生物信息具有多样性与复杂性,其数据库的类型与结构繁多,为了提高数据利用的有效性,应当对数据库进行整合,建立异构平台,当前应用最多的技术为XML,在技术使用中需要注意对数据库的管理、对格式的转换以及对网络中资源的应用。总的来说,XML技术具有较高的灵活性,其操作较为简便,优势较多,值得被广泛应用于异构生物数据库的整合工作中。
[1]李美满,许中华,刘柯.基于XML的异构生物信息数据库整合技术研究[J].现代计算机(专业版),2013(02).
[2]李美满,许中华,刘柯.生物信息学中数据库的应用及整合[J].智能计算机与应用,2012(05).
[3]马静.生物信息异构数据库集成研究[D].南京农业大学,2010.
G203
A
1674-2060(2016)03-0256-01
李晶(1980—),女,江苏泰州人,本科学历,江苏农牧科技职业学院讲师,研究方向计算机网络。
本文是泰州市社会发展项目“生物信息技术对阿兹海默症数据分析辅助研究”, 项目编号:TS035。