APP下载

美国能源部联合基因研究所信息化应用现状

2015-12-23中国科学院成都文献情报中心

中国教育网络 2015年11期
关键词:基因组测序基因

美国能源部联合基因研究所信息化应用现状

编者按

为深入客观反映国内外信息化发展态势,跟踪世界各发达国家信息化的重大部署及应用,中科院条财局和中科院成都文献情报中心开展了信息化专题情报调研,旨在反映信息化重要专题的现状、发展趋势及关键挑战。

“国际顶尖科研团队信息化应用现状调研”专题报告重点调研了国际上具有重大产出的十个顶级科研团队,从团队研究方向、重大成果、组织结构及其所利用的信息化工具/资源/大型科研设施等多方面展开调查与总结。这些科研团队的研究领域涉及生物学、医学、网络安全、物理学等。

调研发现,十个科研团队均十分重视使用信息化手段开展科研创新活动,在部门设置、岗位分布、信息化装备设施等方面均对科研创新活动提供了有力保障,虽然调研的十个科研团队学科方向不同,但他们均十分重视利用信息化手段提升信息的获取、存储和处理分析能力、增强团队的协作配合能力等。本刊将分期连载分别阐述对各科研团队的调研情况,本文介绍了美国能源部联合基因研究所的相关情况。

国际顶尖科研团队信息化应用现状调研之一

现代网络信息技术使当今社会发生了革命性的改变,对科学研究活动也产生了巨大的影响。海量科研数据的产生,科研和管理手段的变革,全球科技合作的诉求,地理国界樊篱的突破,这些都意味着科学研究急需信息化手段的支撑。《国际顶尖科研团队信息化应用现状调研》专题报告重点调研了国际上具有重大产出的十个顶级科研团队,从团队研究方向、重大成果、组织结构及其利用的信息化工具/资源/大型科研设施等多方面展开调查与总结。

这些科研团队的研究领域涉及生物学、医学、网络安全、物理学等,团队具体包括:完成人类基因组部分染色体解码分析工作的美国能源部联合基因研究所、引领医学研究/临床实验及教学的美国斯坦福大学医学院、揭示人类语言障碍等疾病原因的德国马普人类认知与脑科学研究所、验证地月数据传输的美国林肯实验室、位居2014年全球高校学术排名物理系第1位的美国加州大学伯克利分校物理系、探测到希格斯粒子的欧洲核子研究中心、创造出锗锡半导体激光器的瑞士保罗谢尔研究所以及产生29位诺贝尔获奖者的英国剑桥卡文迪许实验室等。

团队组织结构方面的调研结果显示:这十大科研团队均设置有专门负责信息技术/信息化规划与部署的人员岗位,或是针对计算资源、设备服务、基础设施、数据库、数据科学等不同的侧重点设立了专门的服务部门。例如,美国能源部联合基因研究所和美国西北大学临床与转化医学研究所均设置“首席信息官”岗位,英国剑桥卡文迪许实验室设置了“网络管理员”岗位;而霍华德·休斯医学研究所的珍妮亚研究中心则设立了计算资源部,德国马普人类认知与脑科学研究所设立了数据库与IT小组。

信息化应用现状方面的调研结果显示:科研信息化软件及工具包、信息化资源与数据库、重大科技设施等有效地延伸了人的脑力、视力和体力,促进着大规模科学计算、海量实验和数据分析以及系统过程模拟与仿真,把人类开展科学研究的能力提高到了前所未有的高度。

例如,专业领域软件、数据分析软件、高性能计算机、网格并行计算系统、专业知识库与数据库等使海量的基因数据、医学数据、物理学/天文学数据得以安全保存、快速检索和分析,美国能源部联合基因研究所顺利完成人类基因组第5号、第19号和第16号染色体的解码分析工作、林肯实验室研究人员首次验证了为太空居民提供人类所用网络连接的可能性、美国加州大学伯克利分校物理系发现宇宙加速膨胀的现象;而大型强子对撞机、高强度加速器、电子显微镜、可视化环境和成像系统设施等重大科技设施实现了对理论预测粒子的验证、微观和纳米层级的生物研究,欧洲核子研究中心发现了希格斯粒子、瑞士保罗谢尔研究所成功构建仅由IV族元素而成的半导体激光器、美国霍华德·休斯医学研究所珍妮亚研究中心发明超分辨率萤光显微镜等等。

表1列出了此份调研报告涉及的十个机构/团队,及其IT部门/人员和科研信息化现状等概况。

美国能源部联合基因研究所团队简介

美国能源部联合基因研究所(JGI)成立于1997年,旨在整合劳伦斯伯克利国家实验室、劳伦斯利弗莫尔国家实验室和洛斯阿拉莫斯国家实验室在基因组绘制、DNA排序、技术开发和信息科学中的专门技术和资源。

1.研究方向和重大产出

(1)研究方向

JGI旨在完成高通量DNA测序和分析,并支持能源部完成在可替代能源、全球碳回收、生物质化学等领域的目标。具体的优先事项包括开发充足的清洁能源、控制大气中温室气体排放量,以及清洁受污染的场所等。

(2)重大产出

表 1 国际顶尖团队及其 IT 组织结构和科研信息化应用现状

图1 JGI 主要工作人员架构

2004年,JGI陆续完成了人类基因组第5号、第19号和第16号染色体的解码分析工作。继这一成就之后,JGI继续开展针对微生物物种和典型生物体的测序工作并将相关信息无偿贡献给公共数据库,以此推进基础科学的发展。

JGI不仅在DNA测序方面具有高产出(仅2014财年分析超过1百万亿条核苷酸),还发表了许多高质量的出版物,其中数十篇重要论文刊发于《科学》和《自然》。

2013年,利用新兴的单细胞DNA测序技术,科学家们窥探了过去难以开展研究的一些微生物,揭示了生命树的不同分支之间意想不到的一些联系。JGI微生物学家TanjaWoyke领导研究人员利用单细胞测序读取了来自深海热泉和地下金矿等9个不同环境,201种细菌及古细菌细胞的基因组。这些生物体过去从未在实验室中进行过培养或是测序。研究结果发表在7月14日的《自然》杂志上。

更多新近研究成果可参见JGI网站“每周科学亮点”。

2.组织规模与结构

(1)组织规模

2004年,JGI成 为国家用户设施。如今拥有2000多名来自世界各地的用户。JGI聘请国际公认的遗传学家埃迪·鲁宾(Eddy Rubin)担任所长,员工约250名。

(2)组织结构

JGI主要的战略管理人员如图1所示。其组织结构主要包括战略管理、运营管理、基因技术组和项目管理办公室等。

JGI的合作伙伴除劳伦斯伯克利国家实验室、劳伦斯利弗莫尔国家实验室和HudsonAlpha生物技术研究所外,还包括西北太平洋国家实验室、橡树岭国家实验室,以及新兴技术机遇项目的合作伙伴(如斯坦福大学、华盛顿大学、麻省理工、维也纳大学、亚利桑那基因组学研究所、加州大学伯克利分校等)。

团队科研信息化应用情况

1.主要信息化工具

JGI是植物、真菌、微生物等基因测序领域的全球引领者。通过基因测序数据处理和科学项目集成活动,JGI开发了许多基于计算生物方法的工具,应用于特定项目数据集。JGI成熟的对比分析系统被视为开展基因和元基因研究的重要资源,使全球科学家能进行原本特别昂贵甚至原本无法开展的研究。JGI已有工具如下所示。

(1)基因组门户

基因组门户(Genome Portal)提供对所有JGI基因组数据库和分析工具的统一获取。用户能够搜索、下载和利用所有JGI测序计划的多个数据集,包括计划的状态、测序基因组的组装和注释。

(2)综合微生物基因组综合微生物基因组(IMG)系统以一种独特的综合的方式,对所有公开可获取的基因组进行比较分析与注释。按照用途,它可以分为以下组成部分。

①微生物基因组分析

IMG:为用户提供分析工具(IMGUI Map),以检验可公开获取的IMG基因组;

IMG专家评估(IMG/ER):为用户提供分析工具(IMG UI Map),以检验和修改他们对可公开获取IMG基因组中其私有基因组(有密码保护)的注释;

IMG教育(IMG/EDU):提供与微生物基因组分析相关的培训与教学课程。

②宏基因组分析

微生物组样品(IMG/M):为用户提供分析工具(IMG UI Map),以检验IMG中可公开获取的宏基因组样品和基因组;

微生物组样品专家评估(IMG/ M-ER):为用户提供分析工具(IMG UI Map),以检验和修改他们对可公开获取IMG基因组和宏基因组样品中其私有基因组和宏基因组(有密码保护)的注释;

人类微生物组计划(IMG-HMP):为用户提供分析工具,以检验对IMG所有可公开获取基因组和宏基因组样品中的HMP特殊基因组和宏基因组样品的注释。

IMG向全球科学家开放,用于注释、分析和传播他们自身的基因组和宏基因组数据库集,只要他们同意IMG的数据发布政策,并遵守将数据整合进IMG的元数据要求。

(3)VISTA

VISTA是一个包含对基因组序列进行比较分析的程序与数据库的工具包。VISTA的利用有两种方式:一种是向VISTA服务器提交用户自身的序列和比对用于分析,一种是检验预先计算过的不同物种的全基因组比对。

海量科研数据的产生,科研和管理手段的变革,全球科技合作的诉求,地理国界樊篱的突破,这些都意味着科学研究急需信息化手段的支撑。

(4)比较植物基因组门户

比较植物基因组门户(Phytozome)将绿色植物的蛋白质组组织成绿色植物进化树中相应节点对应的基因家族。用户可以研究某基因的进化史或将不同植物的基因放置在最恰当的基因家族中。

Phytozome使在以生物体为中心和以基因家族为中心的视图间的切换变得更加容易。

(5)MycoCosm网络门户

MycoCosm提供有关真菌比较基因组数据的获取、可视化、分析工具,使用户能够浏览测序真菌基因组,对其进行比较和以真菌基因组为中心的分析与注释。

(6)基因预测改进流程

基因预测改进流程(GenePRIMP)是由JGI的基因组生物小组开发的质量控制工具,包括一系列计算单元,用于确定错误基因,并校正识别到的缺陷特征。

(7)宏基因组样品分析的保真度宏基因组样品分析的保真度(FAMeS)提供对模拟数据集的访问,旨在推动宏基因组分析工具的标准化标杆。为了评估当前用于处理宏基因组序列的方法,通过整合从113个孤立基因组中随机抽选出的测序标签,构建不同复杂度的模拟数据集。这些数据集被用来模拟真实宏基因组的复杂度和系统构成。

(8)缺陷解决软件

缺陷解决(Gap Resolution)软件(用于科研用途)由JGI开发,通过自动关闭由DNA重复区域所造成的序列缺陷来改进Bembler基因组。

(9)Polisher Polisher

Polisher Polisher(用于科研用途)是一个软件包,用于对组装基因组的错误校正。

(10)Rnnotator软件

Rnnotator软件由JGI的一个团队开发,通过提供自动化的软件流程,无需参考基因组即可重新组装RNA-序列数据产生副本模型,以解决与全面注释和转录物组量化相关的挑战。科研用户可申请免费使用。

(11)基因组在线数据库

基因组在线数据库(GOLD)是一个网络资源,用于访问全球与基因组和宏基因组测序计划相关的信息以及相关的元数据。

(12)RegPrecise

RegPrecise是一个对由比较基因组重建而成的转录调节子进行搜集、可视化和分析的网络资源。

(13)Meraculous

Meraculous是与大基因组相关的下一代测序数据全基因组装配器。通过利用轻量级数据结构和多线程并行,它实现了对大数据集处理的高性能,在商业集群上进行人类基因组大小规模的组装仅需一天。同时处理过程的作业控制和监测实现了高度透明化和移植性,不同的组装阶段能够分别或同时在多种结构上进行。

2.信息化资源/数据库

JGI通过基因组学网站(http://genome. jgi.doe.gov)向公众开放原始和经处理的研究数据。JGI还与能源部国家能源研究科学计算中心(NERSC)以及能源科学网(ESNet)建立稳定的联盟关系,以使用户能高效可靠地利用基因组学的海量资源。

JGI将各种基因数据和功能注释存放于能源部新的系统生物学知识库(KBase,http://kbase.science.energy.gov/)。KBase是一款新兴软件和数据环境,使研究人员能协作生产、测试和共享有关基因及蛋白质功能的新假说观点;在大规模计算基础设施上执行大规模分析;模拟微生物、植物及其组织间的交互。

3.重大科技基础大设施

JGI计算基础设施JGI计算基础设施如下。

(1)自2012年起,JGI投入大量的时间和精力打造升级基因池(Genepool)、JGI8000多个核计算集群以及包括“集成微生物基因组”、基因组学网站等网络服务,并增强了计算机基础设施和用户接口,以使用户团队能更快更简便地获取数据。

(2)2013年8月,JGI“档案与元数据组织器”(JAMO)正式上线。该分层数据管理系统能帮助JGI员工定位和重置数据,或耗费几分钟(而不再需数小时)来完成分析。JAMO成为序列数据管理、质量保证和质量控制、基因组装团队之间的协作工具。

(3)在2013年,JGI利用了NERSCHopper超级计算机数百万CPU小时,这些计算无法在基因池集群上完成。此外,JGI员工还利用NERSC最新的超级计算机Edison测试生物信息学算法。

(本文由中国科学院成都文献情报中心供稿)

猜你喜欢

基因组测序基因
Frog whisperer
牛参考基因组中发现被忽视基因
外显子组测序助力产前诊断胎儿骨骼发育不良
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
修改基因吉凶未卜
中草药DNA条形码高通量基因测序一体机验收会在京召开
基因测序技术研究进展
外显子组测序助力产前诊断胎儿骨骼发育不良
紫花白及基因组DNA提取方法的比较