Web的微生物信息资源平台的构建
2011-06-21阎光甫张利莉
阎光甫 张利莉
微生物物种丰富、分布广泛,是一类具有巨大开发潜力的生物资源和基因资源。因其长期以来有着重要的研究价值,世界各国对微生物资源的研究和开发竞争日益激烈。随着对微生物资源研究不断深入和规模的相继扩大,出现了一系列与微生物相关的数据分析工具及网站[1],而安装和维护这些生物信息软件不但耗时,而且不宜普及和维护。微生物信息资源平台的建立,旨在给微生物研究人员提供一个“一站式”的在线生物科研平台,提高科研工作效率,加快微生物资源的相关研究。
1 材料与方法
1.1 平台运行环境
本平台属于小型的科研网络系统,初步建立在PC上,通过分配静态IP接入校园网。采用Ubuntu Server 10.04的Linux作为服务器操作系统,Web服务由Apache 2.2.14提供,通过集成功能模块实现具体分析功能。选择B/S(Brower/Server,浏览器/服务器)结构作为其工作运行模式的结构,实现过程如图1所示。
图1 B/S结构的实现过程
本平台所需的所有软件均为免费开源软件,可以从互联网免费下载,在开源协议下可免费、自由使用。相关软件的功能及下载地址见表1。
表1 软件的功能描述及下载地址
1.2 系统的安装和服务的配置[2,3]
采用光盘引导安装。系统安装完毕后,在 /etc/apt/sources.list中更改速度最快的更新源进行系统升级。网络数据库的服务包括执行Web服务的A-pache Web Server并配置CGI脚本支持。除此之外,要给执行CGI的文件夹赋予相应读写和运行权限。为了方便管理,还需安装 Webmin[4],并配置 ufw实现防火墙功能,使用sudo ufw allow对内网部分ip段开启web服务端口。
安装apache服务:sudo apt-get install apache2安装ufw防火墙:sudo apt-get install ufw
对CGI脚本的支持需要在httpd.conf配置文件中相应目录处添加下列代码:
Options ExecCGI
AddHandler cgi-script cgi pl
1.3 WWW BLAST 的构建[5,6,7,8]
1.3.1 Web 界面 Blast的配置
WWWBLAST是NCBI开发的一套使用广泛的独立 BLAST(Basic Local Alignment Search Tool,基本局部相似性比对搜索工具)程序,核酸和蛋白质序列的相似性分析。包含在各种平台下使用的版本。从表1给出的地址用wget下载并解压至 /var/www/blast。
1.3.2 数据库的格式化
从 NCBI的 ftp 站点 ftp://ftp.ncbi.nlm.nih.gov/blast/db/中下载所需要的数据库。对于本地自建数据库,先将fasta格式的序列写入一个文件里面。使用formatdb命令对数据库进行格式化,并在目录下的配置文件blast.rc中添加格式化好的核酸序列数据库名称,同时在网页文件的源代码中添加数据库的链接和相应的数据库名称,为BLAST程序添加数据库。核酸序列的格式化命令如下:
formatdb-p F -i nucleotide_db_name-o T/F
-p表示所要格式化的数据库的类型,F表示nucleotide。
1.4 Primer3 的构建[9]
在表1的Primer3地址中下载Primer3-core、primer3-web - htdpcs-0.3.0.tar.gz和 primer3 -web- cgi- bin -0.3.0.tar.gz,并别解压在/var/www/primer3/htdocs、/var/www/primer3/cgi - bin和/var/www/primer3/cgi-bin/primer3-web-cgi-bin-0.3.0目录中。运行前需要从 http://cpan.org下载并安装 perl的 cgi.pm模块。配置 httpd.conf和增加文件夹权限使primer3中cgi-bin目录能够执行CGI脚本。
2 结果与分析
2.1 微生物信息资源平台的结构
网站总体设计方案需要充分考虑到本地微生物科研的需求及可实现性。按照本地微生物科研需求,本平台主要提供基于BLAST的在线序列比对和基于Primer3的在线引物设计,并配合Webmin实现图形化的操作、配置和维护。整个平台功能组成的层次结构如图2所示。
图2 平台的功能组成
微生物信息资源平台的各种功能模块通过Web服务集成在一个站点中,由发布的网站页面链接集成,在浏览器地址栏中输入站点ip访问。平台各模块功能的实现均靠Web服务器的脚本程序,配合相互独立的数据库运行。
2.2 Blast在线序列比对
比较和确定某一特定的序列在某一给定的数据库中部分或全部序列的相似性是生物信息学中最基本和最有价值的工作[10]。BLAST是一套应用广泛的序列相似性比较的工具,基于启发式的算法可以获得序列匹配的近似最优解,因而BLAST的最大优势在于运行速度快。由于本地Blast针对核酸序列,因此去掉蛋白质比对功能,模块分为 BLASTN、TBLASTN、TBLASTX、MEGABLAST,其各部分的数据库、检索序列及功能注释如表2所示。
表2 BLAST各种程序数据库、检测序列及其功能注释
2.3 Primer3在线引物设计
Primer3由Whitehead Institute和Howard Hughes Medical Institute的Steve Rozen与Helen Skaletsky开发,是一款优秀的批量设计PCR引物、杂交探针、测序引物的工具,可通过设定各种标签来指定引物设计参数,从而筛选 PCR目的引物,返回引物的相关信息。
进入Primer3引物设计的界面,在“Paste source sequence below(5'→3')”下面的文本框里面把模板序列5'→3'方向粘帖进去,不用考虑数字或者空格。通过重要参数设定,如“Product Size Ranges”、“Primer Size”和“Primer Tm”,点击 Pick primers获得设计的引物。
2.4 平台的维护和安全性
Webmin能更好的实现以图形化界面的形式对操作系统及各种服务进行配置和维护,从而简化了通过命令符对服务器进行维护的过程。通过webmin对服务进行配置和定时备份,可提高系统的稳定性,同时简化维护过程。
ufw是Ubuntu系统的一个简易防火墙配置工具,底层调用 iptables处理,功能简单实用。通过Ubuntu的ufw服务,可限制平台对外开放的端口以及访问该平台的IP段,增加了系统的安全性。
3 结论与讨论
使用Ubuntu Server的Linux系统建立网络科研平台有诸多优势。首先,Linux系统本身具有的稳定性是诸如Windows等操作系统所无法超越的。另外,开源的软件成本低,更新周期短。在开源环境下有丰富的开源软件,其apt-get方式的软件安装和更新简化了系统的维护和软件的安装过程,因而使用Ubuntu作为本科研平台的操作系统无疑是一个很好的选择。
在局域网构建Blast序列检索对序列有较高的保密性,同时避免了网络堵塞和延时,极大的缩短了序列比对操作所花费的时间。而微生物信息资源平台中所用的Blast数据库从NCBI中镜像得到,这种数据库的镜像操作与数据库的实时更新存在一定的延时。另外,通过构建具体的核酸序列数据库或二次数据库[11],消除公共数据库中的冗余,可以进行有目的、更精准的比对,这样会大大提高比对的目的性和结果的精确性。基于Web的Primer3在线引物设计免去了安装应用程序的过程,直接可在线设计引物,并可结合本地的 BLAST功能对引物进行验证。
总之,在拥有一定规模的科研单位中构建微生物信息资源平台,对科研有着一定的支撑作用,简化科研过程中对于数据的处理和分析。通过将该系统与本实验室建立的微生物数据库相关联,可以更好的对微生物数据进行挖掘和探索。
[1] 陈润生.生物信息学及其研究进展[J].医学研究通讯,2002,31(12):1-5.
[2] 希尔.Ubuntu官方指南[M].北京:人民邮电出版社,2007:5-12.
[3] 李蔚泽.Ubuntu Linux入门到精通[M].北京:机械工业出版社,2007:19-52.
[4] 张旭华.用Webmin远程管理Linux系统服务器[J].计算机与现代化,2006,(9):47-49.
[5] Altschul SF,Gish W,Miller W etc.Basic local alignment search tool[J].JMol Biol,1990,215(3):403 -410.
[6] Madden T L,Tatusov R L,Zhang J.Applications of network BLAST server[J].Methods Enzymol,1996,266:131-141.
[7] Gish W,States D J.Identification of protein coding regions by database similarity search[J].Nature Genet,1993,3(3):266-272.
[8] 张成岗,张利达,欧阳曙光等.序列同源性分析软件Blast的WEB界面构建及其应用[J].生物化学与生物物理进展,2001,28(6):916-918.
[9] Rozen S,Skaletsky H.Primer3 on the WWW for general users and for biologist programmers[J].Methods in Molecular Biology,2000,132:365-386.
[10] 欧阳平.生物信息数据库与序列分析[J].微生物学通报,2007,42(3):24-25.
[11] 潘雪峰.基于代理程序开发核酸序列二次数据库[J].计算机与数字工程,2009,8(37):80-82.