数据仓库技术在生物信息学中的应用研究

2010-06-29潘伟

成都信息工程大学学报 2010年2期

潘伟

(西华师范大学计算机学院,四川南充637002)

1 引言

生物信息学是在生命科学的研究中,生物学与计算机科学及应用数学等多学科相互交叉而形成的一门新兴的综合性学科[1]。它以海量生物学实验数据为基本研究对象,进行数据的获取、加工、存储、检索与分析,从而实现揭示相关生物学意义的目的。在人类基因组计划的推动下,各种类型的生物数据,如核酸序列、蛋白质序列和蛋白质结构的生物信息数据,呈现指数增长的迅猛趋势。为了对这些规模庞大、结构复杂的生物数据进行有效的管理和使用,早在七、八十年代,世界各地的科研人员就建立了大量的生物信息数据库,现在它们已经成为生物信息学工作的基础和重要内容。

目前,广泛使用的生物信息数据库主要有美国国家生物信息中心(NCBI)管理维护的GeneBank、欧洲生物信息研究所(EBI)管理的EMBL数据库、以及日本的国家级核酸数据库DDBJ,以及共同组成的GeneBank/EMBI/DDBJ国际核酸序列数据库,定时保持同步更新。然而,在实际使用中,传统的数据库技术已经不能很好的胜任,将数据仓库思想引进生物信息数据的管理则应运而生。

基于生物信息数据的特点,针对目前各大基因数据库之间互联、互通和相互利用中存在的一些问题,设计了基于数据挖掘技术的异地异构生物信息共享的数据仓库解决方案,并给出了该方案的实现框架——基于Web的生物信息数据仓库(Data Warehouse of Bioinformation based on Web,DWBW)。

2 生物信息数据库的现状及存在的问题

生物信息学是一门生命科学与数学、计算机科学和信息科学等交汇融合所形成的交叉学科[1]。在生物信息学的发展过程中,逐步建立起了大量基于网络的生物数据库,如PDB生物大分子结构数据库、SWISS-PROT蛋白质序列数据库和GenBank核酸序列数据库等;开发了众多检索工具,如SRS、CLUSTALW、PROSITESEARCH等强有力的搜索工具;从而实现了生物信息数据的智能处理和综合分析。目前,生物信息数据库中主要包括核酸数据、蛋白质数据以及功能数据等内容,来自于世界各地不同的实验室。有些是从实验获得的未经任何处理的原始数据,有些经过简单的归类整理和注释,有些则是针对特定目标通过理论分析和复杂处理得到的。因此,生物信息数据在具有增长迅猛、更新及时、种类繁多等特点的同时,更表现出高度的复杂性、多样性和不一致性。

随着生物信息数据量的激增以及数据处理能力的复杂程度不断提高,现有的生物信息数据库已经逐渐暴露出许多问题。三大核酸数据库依靠传统方式交换数据,无法及时反应出其他专用生物信息数据库(特别是三大核酸数据库以外的其它生物信息数据库)的变化情况以及非核酸类数据信息。网上所提供的大部分数据分析工具采用面向问题的搜索方法,搜索效率随着问题规模的扩大而降低,并且无法智能地对数据中存在的未知知识进行发掘。为此,在后基因组时代,需要将数据仓库思想及智能数据挖掘技术运用到生物信息学领域中。

3 基于生物信息数据仓库的数据挖掘技术

3.1 生物信息数据库中的算法工具

生物信息学是一门内涵非常丰富的学科,是生物、数学、计算机等多领域专家的共同协作的成果。在生物信息学中通常需要进行基因比对、基因预测和功能基因组信息分析等工作,主要涉及了大规模基因表达谱分析的相关算法、基因表达调控网络的研究、软件研究、核酸、蛋白质空间结构的预测和模拟、以及蛋白质功能预测等方面。目前,在生物信息学中,基因比对(Alignment)是最常用和最经典的研究手段。在核酸序列或蛋白质序列之间进行两两比对,比较两个序列之间的相似区域和保守性位点,寻找二者的相似形、同源性,进而探寻可能的分子进化关系,揭示序列中蕴涵的结构、功能等信息。

数据挖掘主要存在以下几种经典分析模式[2]：关联模式分析、序列模式分析、分类分析、聚类分析,其中关联模式分析应用最为广泛。关联模式分析通过对一组给定的Item和一个记录集合进行分析,推导出Item间的相关性,进而挖掘隐藏的关系。可见,通过数据挖掘技术,开发面向功能解释和功能预测的工具,能够发现不同基因、蛋白质序列中的相关性,从而进一步比较分析其功能。

3.2 OLAP和数据挖掘技术

传统的针对数据库的开发工具多为联机事物处理(Online Transaction Process,OLTP)模式,它主要是面向具体的查询和统计,有着较为具体的应用目的。然而,随着越来越多数据库的出现,数据量的迅猛增长,OLTP在数据资源的充分利用、为用户提供有效支持和帮助等方面,则显得力不从心[2]。因此,基于数据仓库的联机分析处理(Online Analysis Process,OLAP)以及数据挖掘(Data Mining,DM)引起了日益广泛的关注和应用。

OLAP是一种自上而下、不断深入的分析工具。用户提出问题或假设,OLAP则负责从上而下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。DM是一种决策支持过程和挖掘性工具,它主要基于人工智能、机器学习、统计学等技术,高度自动化地对原始数据进行分析,发现隐藏在数据中的模式,做出归纳性和预测性的推理。

3.3 基于生物信息数据仓库的数据挖掘技术

目前生物信息数据库的特点以其所存在的问题,都为数据仓库的使用提供广阔的活动空间,但同时也对数据挖掘提出了新的问题和难点。生物信息学的进一步发展需要数据仓库的支撑。

实现数据挖掘的一个前提条件是必须具有海量数据[2],而这恰恰是数据仓库的基本特点之一,二者的紧密结合可以有效地解决大量实际应用中出现的问题。在生物信息学领域,使用数据挖掘技术可以大幅提高研究人员的工作效率,改变原有的利用传统工具人为的或机械的逐项比较功能的预测法;数据挖掘算法还可以结合生物信息专业领域的公式算法,根据研究人员的设想,对数据进行全面的、高效率的分析。

基于数据挖掘等技术发展起来的智能决策技术[3]具备了在生物信息学领域中大展身手的“天赋”,特别是基于海量数据的数据挖掘和开采技术更具有广泛的需求和应用背景。另一方面,目前生物信息学的研究方法和发展情况,已经形成了一整套较为完善的智能决策系统,成为数据仓库和数据开采的一个较为成功的应用案例。另外,现有的各种生物信息应用分析软件,虽然其基本出发点仍然是传统的数据库技术,但是从一定程度上讲,已经反映并且实现了数据仓库及数据挖掘的思想和技术。

4 实现生物信息异地多源数据库的综合利用

4.1 建立基于Web的生物信息数据仓库

已有的生物信息数据库都已经提供基于互联网的数据提交、序列查询、基因比对等功能,且几大数据库之间也实现了准实时的互联互通。但是,基于这些生物信息数据的分析比较工具,都不能从面向主题的角度对全部数据进行分析以找出具有价值的规律,更不具有决策支持的能力。基于现有的生物信息数据库,运用数据仓库思想,利用OLAP和数据挖掘技术,建立生物信息数据仓库,是一种不需要大幅增加硬件设备以及物理装置的前提下,实现基于Web平台的生物信息集成与处理平台的可行方案。

设计一个基于Web的生物信息数据仓库(Data Warehouse of Bioinformation based on Web DWBW),其主要结构由5个主要部分组成：外部数据源,包括各大综合生物信息数据库以及各类专用生物信息数据库系统;基于Web的数据调度,传输;数据的“变形”(抽取、变换、装载、刷新等)整合;元数据规则,以及元数据的管理;基于Web的综合管理平台(包括请求分类服务器、各种分析工具服务器)。

DWBW以DDBJ/EMBI/GeneBank作为主要数据源,同时以其他主要的生物信息数据库作为整个数据仓库的基本数据源。通过分析数据库结构和数据结构类型,建立DWBW的元数据规则,即为来源不同的数据建立统一的数据结构、字段内容、存储结构等基本项目。这样,基于上述各种数据库就可以建立起一个基于Web的虚拟数据仓库。由于不存在一个物理上位于某地的存储中心来保存这些数据,用户面对的只是一个基于网络的分布式虚拟的数据仓库。其模型、算法的运行由专用的分析工具服务器来完成,而对于数据的调用和整理都是在源数据库上进行的,根据不同用户提交问题的不同,具体的分析过程则由分配服务器交给相关的服务器去完成分析工作,只是最终将结果返回请求分类服务器,显示给用户。DWBW的原理框图见图1所示。

DWBW将通过一个统一的基于Web的页面与用户进行交互,在后台则主要由请求分类服务器、Web服务器以及专用分析工具服务器共同完成对用户问题的提交和分析,实现对数据仓库元数据规则的理解,然后根据问题分类的结果,与相关的分析工具进行匹配,将问题提交到相应的专用分析工具服务器进行处理。处理完成后返回给请求分类服务器,进而返回给提交问题的用户。

4.2 DWBW关键技术

4.2.1 生物信息学元数据的抽取

数据的整理和抽取,是开发所有数据仓库时所遇到的最难解决也是最具挑战性的问题之一。将不同时期生成的大量历史数据中的数据结构、字段的定义以及对象之间的关系等一系列的描述信息整理出来,并制定出一套通用可行的规范,本身就是一个工作量巨大、难度极高的问题;特别针对来自于世界各地、不同门类、不同背景、不同应用目的的专业生物信息数据库,就更加复杂了。因此,数据仓库元数据的抽取整理,成为建立DWBW的关键问题。数据抽取、清洗、转换和装载过程与一般数据仓库建立过程中的数据整理不完全相同,其数据具有规范性强,存储结构相对简单,转换、装载容易等特点。

图1 基于Web的生物信息数据仓库系统(DWBW)

4.2.2 虚拟生物信息数据仓库的建立

虚拟生物信息数据仓库实现对生物信息平台相关数据的组织和集成,并且将不同主题的数据对象分别存储到各个数据集市中,同时还将建立起部分有价值数据的在线OLAP数据库。与传统的数据仓库不同,虚拟数据仓库采用中间件充当数据中心,提供信息的访问接口,对存贮在不同数据源的生物信息数据进行存取操作。虚拟数据仓库的中间件对各个数据源(各生物信息数据库)的请求采用的是标准的XML,最终都将转换为各数据源的标准查询语言,提交给相应的数据库服务器进行处理。数据库处理完成后,中间件又将返回结果重新封装成为XML格式的数据,并进行发送。由于虚拟生物信息数据仓库一般不是针对实时数据进行分析统计,所以对于时间效率的要求不如一般查询统计那么高,这就确保了开发处于不同物理位置数据源的虚拟DWBW具有可行性。同时,对于一般性的查询比对等基本操作,不会影响其工作效率和准确性。

4.2.3 基于Web面向用户的综合平台的开发设计

基于Web的面向用户的综合平台主要提供一个用户操作的平台,除了集成基因比对、功能预测、序列分析、基因提交等传统的操作以外,还允许用户对虚拟数据仓库中的数据运用数据挖掘技术,提供更多的分析支持工具。

5 DWBW适用性分析

DWBW与传统的数据仓库概念特征相比,两者都是对海量的、复杂数据进行处理;能在解决“不明确问题”过程中显示很强的能力;面向数据分析,把辅助决策作为一个重要的最终目标。DWBW还具有几个特性：实时性要求较强;与一般的数据仓库相比对单个记录的准确性要求更高;数据仓库不是物理存在的,而是通过互联网络将多个数据库连接在一起,共同发挥作用的虚拟数据仓库。

DWBW在解决目前互联网中许多具有相似特性领域中的问题时具有很多的借鉴意义[4]。例如在基于网络的B2B、B2C的商业网站的客户资料分析、商品(货品)销售分析等方面都可以采用相同的思想。扩展开来,这一设计方法在大型的全球连锁超市、各地的家电分销中心以及股票市场的评估分析等等方面均有指导意义。在这方面成功的应用主要集中在大型连锁超市的销售记录分析,股票、金融市场分析方面,它提供的辅助决策内容有货物配售方案的选择,超市选址,股票分类投资,防止金融诈骗等。

感谢西华师范大学科研启动基金(05B061)

[1]钟扬,张亮.简明生物信息[M].北京：高等教育出版社,2001.

[2]王珊.数据仓库技术与联机分析处理[M].北京：科学出版社,1998.

[3]陈文伟.智能决策技术[M].北京：电子工业出版社,1998.

[4]刘智琚.数据挖掘在生物信息学中的应用[J].软件导刊,2009,(7).

[6]杨文,韩涛,孙志茹.生物信息学序列库与文献库的整合模式浅[J].实践研究,2008,(1).