新技术背景下对生物信息学教育的重新审视
2017-04-17蔡富娟汪煜琦
蔡富娟++汪煜琦
【摘要】生物信息学在生命科学研究的数据处理方面等方面发挥重要作用,伴随着云计算和大数据技术的出现和在生物信息学学科中的成熟运用,此门学科将在生命科学研究领域发挥更大的作用。因此,在生物专业的培养过程中加强生物信息学的学习和熟练掌握程度尤为重要。
【关键词】生物信息学 云计算 大数据
【中图分类号】G642 【文献标识码】A 【文章编号】2095-3089(2017)09-0094-02
一、引言
日前,生物技术的发展使得海量生物数据不断产生,随着大量数据的出现,生物计算对运算速度、数据处理、数据存储、计算成本等各方面的不同需求也越来越强烈。
生物信息学(Bioinformatics)是在生命科学研究中,主要通过研发并应用计算机技术、统计与数学方法,对海量生物数据进行存储、管理、检索、分析、建模,从而解决生物学问题,发现新的生物学规律,以获得传统生物学研究手段无法获得的创新发现。它是当今生命科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。而随着云计算、大数据两个强大技术背景的出现,生物信息学必将在生命科学领域研究中能给予更大的支持和引领作用。因此,如何将以上重要的技术运用到生物领域的各项研究中,除了对技术本身的掌握外,重要前提之一就是重视生物信息学的学习和掌握程度。本文将从以下几个方面阐述。
二、生命科学研究过程中产生的数据现状
生命科学各领域研究过程中产生的数据正在急速增长,尤其是2010年以来,随着新一代测序技术的发展,更大数量级的基因组数据产出日渐增加(从GB,TB级到PB,EB级)。生命科学大数据不仅仅来源于高通量的基因组和转录组测序。大数据的产生已从基础研究、药物开发、临床诊疗到健康管理的所有环节,这表明生命科学研究已进入了大数据时代。因此通过对数据的挖掘可能会比基础实验研究更早的发现生物学规律,从而促进生命科学领域健康快速的发展。给传统生物学带来了前所未有的机遇和挑战。
三、云计算(Cloud Computing)相关技术在生物信息学的应用现状[1]
生命科学研究领域的大量研究都是建立在数据的基础上,但这些数据散布在上万个不同的数据库中,而且存在不同的拷贝。数据库格式种类多,大多数能够以扁平结构的文件形式获得,而且这些数据库与检索系统相容性很差。数据的存储与分析、处理无法在同一平台上完成。以上这些问题随着云技术的发展很可能迎刃而解。
1.云存储在生物信息学中的应用
云计算系统拥有强大的存储能力,云计算采用分布式、冗余存储存储数据,具有很高的可用性、可靠性和经济性。云计算的数据存储技术未来的发展将集中在超大规模的数据存储、数据加密和安全性保证以及提高I/O速率等方面。这也正是生物信息学技术对于未来生物学数据存储的要求。
2.云计算的超强计算能力在生物信息学中的应用
生物信息学中的数据在使用前必须要进行大量地分析与整合,因此对于硬件的运算能力提出很高的要求。云计算通过一定的协调调度策略,通过数万乃至百万的普通计算机之间的联合来提供超强的、可与超级计算机相抗衡的计算能力,使用户完成单台计算机根本无法完成的任务。
3.云搜索在生物信息学中的应用
目前,生物信息学研究中使用的数据库技术都不能很好的与现有的搜索技术兼容,因此数据的搜索,尤其是在海量数据中进行数据的搜索成为一个主要的问题。云搜索是基于云计算技术的一种搜索引擎,与传统的搜索软件不同,云搜索是在‘云”中,通过用户在互联网上提交的查询请求,云计算模式将调用云中的成千上万台计算机同时搜索众多数据库及网络资源,并运用各种不同的方法尽可能地提供完备的搜索结果。
4.基于云计算技术的编程模型在生物信息学中的应用
云计算技术可以将软件加载在“云”上,用户可以不必使用自己的终端来安装软件,只需直接利用互联网上现有的软件来完成生物数据的分析与研究。这样可以大大减弱运行软件对于用户终端硬件的配置要求,同时对于一些付费软件业可以在低成本的情况下使用。另外,云计算技术能够让用户更轻松的享受服务,允许用户利用云技术提供的编程模型编写简单的程序来实现特定的目的。
四、大数据(Big Data)相关技术在生物信息学的应用现状
大数据技术主要指从各种类型的数据中快速获得有价值信息的技术,其处理技术包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用等。
1.超大容量的生物数据库
现有生物大型通用数据库包括美国NCBI的GenBank、欧洲的EBI、日本的DDBJ等。针对于某些特定数据或研究对象的数据库如Uni-Prot(蛋白数据库)、MG-RAST(微生物数据库)也正在快速发展。这些都是从事生物信息数据的管理、汇聚、分析、发布等工作的大型数据库[2]。
2.高性能计算(High Performance Calculation,HPC)
生物大数据的规模和计算强度已经远超过了我们个人电脑所能处理的范围[3]。目前比较流行的快速高效计算方法有并行计算和GPU计算。并行计算(Parallel Computing),即一个任务分配给多条流水线路或多个处理器来完成。并行计算可以充分调用可用于计算的资源。在生物信息学中典型的应用就是分子对接计算[4]。GPU具有很高的数据计算效率[5],单个GPU芯片中可以集成上千个处理器,具有极其强大的浮点数运算能力。同时,使用CUDA编程技术可以很好的解决复杂计算问题。生物研究领域的计算具有数据量大、计算度复杂、要求精度高的特点,生物研究领域的大数据处理将是GPU計算的最佳用武之地[6]。
3.数据挖掘
数据挖掘又称为数据库中的知识发现(knowledge discovery in database,KDD),是对大量观察到的数据进行收集、分析和提取,从中发现事先未知的联系和规律,进而形成知识[7]。时至今日,面对海量的数据已无法采用人工的方式来完成。数据挖掘和知识发现是生物信息学在生物领域研究的主要任务[8]。目前数据挖掘技术已被应用于基因芯片分析、DNA序列比对、真核基因表达、RNA转录、生物文献的挖掘以及生物数据的可视化研究领域等。
4.催生新的科研模式
生物信息與网络有类似的体系结构,例如研究对象由碱基A、T、G、C序列组成,与计算机的元数据0、1序列数据相类似,基因组学的网络环境与计算机网络的层次结构十分类似。从理论上讲这两者有一定的同构基础。海量数据的出现催生出新的科研模式,即面对海量数据,科研人员只需从数据中直接查找或挖掘所需要的信息,无需直接接触需研究的对象,这给生物信息的研究带来了新的思路,如对人类认识疾病的发病过程、疾病的抵抗性研究将带来新思路、个人基因组以及个性化医疗等等。
五、结语
鉴于生物信息学学科的特殊性,它是多学科之间的交叉领域,如想真正掌握并运用好此门学科,需要充分认识到生物大数据带来的机遇和挑战;必须有扎实的计算机、数学、统计学等学科基础;思考适应该学科的最佳教学方式等。这就需要对生物专业培养方案中生物信息学学科教育的重新审视。
生物信息学被誉为解读“生命天书的慧眼”[9]。早期DNA、RNA和蛋白质一级序列的相关研究促成了生物信息学的诞生和快速发展,如今基于以上两个强大技术的支持,生物信息学必将迎来第二次腾飞。
参考文献:
[1]魏霖静陈蕾.云计算技术在生物信息学中的应用[J].信息与电脑122-123,2014.09.
[2]宁康,陈挺.生物医学大数据的现状与展望[J].科学通报2015,60(5-6)534-546.
[3]Boyle J.Biology must develop its own big-datansystems[J].Nature,2013,499:7.
[4] Dudley JT,Butte AJ.A quick guide for developing effective bioinformatics programming skills[J].PLos Comput Biol,2009,5:e1000589.
[5] Li JY,Zhao DS,Wang YM.GPU computing and its application in biomedical reserch[J].Mil Med Sci,2011,35:634-636.
[6]胡瑞峰.大数据时代下生物信息技术在生物医药领域的应用前景[J].药学学报2014,49(11):1512-1519.
[7] Gong ZL,Chen Y,Su Y,et al.Application of data mining in biomedical data analysis[J].J Shanghai Jiaotong Univ(Med Sci),2010,30:1420-1423.
[8] Howe D,Costanzo M,Fey P,et al.Big data:the future of biocuration[J].Nature,2008,455:47-50.
[9] Hu YG,Xu WB.Application of data mining in bioinformatics[J].China J Bioinform,2004,3:40-42.