生物信息学与计算机科学

2006-04-19许东

计算机教育 2006年4期

许　东

生物信息学（Bioinformatics）是在20世纪90年代才出现的一个新名词，虽然作为一门新兴学科，但是对许多计算机工作者来说并不陌生。事实上，生物信息学已经成为计算机科学的一个重要分支，或者说计算机科学是生物信息学的主要支柱之一。另外两个重要支柱则是生物学和统计学,数学、物理学、化学、医学，以及工程都与之有密切的关系。这里笔者主要就生物信息学与计算机科学的关系作一点介绍，本文主要是针对计算机科学的研究者及学生，特别是对生物信息学研究有兴趣的人士。

生物信息学的定义及兴起

对于生物信息学的定义，一直以来都有不同的看法。目前援引最多的定义是美国卫生部给出的(http://www.bisti.nih.gov/)：生物信息学是一门针对生物、医学、行为和健康方面数据的发掘，而为相关的计算工具及方法进行研究、开发及应用的学科，其研究范畴包括对这些数据的采集、表达、描述、储存、分析和图形显示（“research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, represent, describe, store, analyze, or visualize such data”）。这一定义很具有概括性，并能长期使用。目前生物信息学主要研究的对象还是在生物和医学的数据方面，特别是在分子水平上，包括蛋白质和核酸的分析。

生物信息学的兴起是与人类基因组的测序计划分不开的，人类基因组又被称为是我们生命的蓝图，因为它作为遗传的载体，标志着人类与其他物种的不同，另外，我们每个人的基因组的差异在很大程度上决定了个体的容貌和健康状况（例如容易得什么病）。从计算机科学的角度，我们可以把人类基因组想象成由三十亿个字符串（序列）组成，代表了人体所有约三万个基因。可以想见，分析这样复杂的序列没有计算机是不可能的，再加上世界上万千变化的无数动物、植物、微生物，其中数以百计的物种人们已经完成了它们的测序工作，数万物种的测序任务将在今后十年内完成。不过序列只是一个开端，基因组给出的只不过是一个类似“元素周期表”的基本单元,正如少数几十种化学元素可以组成丰富多彩的化学世界, 基因的表达、修饰及其相互作用, 成为生命现象多彩多姿,奇妙深奥的一个基础。由于有了基因组这样一个“周期表”，人们可以用系统的方法, 例如基因芯片(Microarray)、蛋白组学(Proteomics)、代谢组学（Metabolomics）等手段来跟踪一个物种内所有基因与其产物的活动及作用，这些数据比序列来说又不知要大多少。正是这一“数据爆炸”使得生物学成为一门高度量化的科学，并带来了生物信息学的繁荣。

计算机科学与生命科学的相互作用

生物学的“数据爆炸”为计算机科学带来了巨大的挑战和机遇，传统的计算机科学一般处理的数据要远远小于这一规模，如何处理、储存、检索、查询这些庞大的数据并非易事。另外，许多生物数据中的误差较大，信噪比甚低，为分析数据带来了很大的困难。更为主要的是，生物系统比一般的物理，工程系统要复杂得多，如何从各类数据中发现复杂的生物规律和机制，建立有效的计算模型，并以这些模型来进行快速的模拟和预测，指导生物学的实验，辅助药物设计，改良物种用于造福人类可以说是计算生物学中最赋有挑战性并最具有影响力的任务。正是这些挑战给计算机科学带来了新的机遇，带动了计算机科学大部分领域在生物信息学中的研究，包括数据库、数据发掘、人工智能、算法、图形计算、软件工程、平行计算、网络技术等都被用于生物计算的研究。特别是对一些发展趋于瓶颈的领域，例如模式识别和机器学习，带来了全新的生命和生长点，使得这些领域更有用武之地。因此，美国大多数研究型的计算机系都招聘了以生物信息学为主的师资，并且开设这方面的课程及专业。

计算机科学通过生物信息学对生命科学的影响日益受到重视，特别值得一提的是生物信息学在人类基因组测序中所起的作用。Gene Myers等计算机科学家运用巧妙的算法，使得对人类基因组进行全基因鸟枪测序（Whole genome shotgun sequencing）成为可能，并使之成为各种基因组测序的通用方法，大大降低了基因组测序的成本。Gene Myers本人也因此成为美国科学院院士，他的贡献得到科学界的公认。今天，大量生物信息学的软件，数据库已在生物学中得到广泛应用，例如BLAST, 一个序列比较的软件，已经成为在生物学中常识性的名词。生物信息学已经是生物学中不可或缺的一个重要组成，在许多情况下，生物数据的产生变得相对容易，而对这些数据的分析变得日趋重要和复杂。当然，数据的分析在很多的情况下并不是仅靠计算工作就可以完成的，往往需要进行多学科的合作，比如有时需要由计算工作者来发现数据中一些特征和规律，由统计工作者来分析这些特征规律的可靠性，并由生物学工作者来判断并作实验来验证这些发现。

生物信息学前沿中与计算机科学紧密相关的研究方向很广，笔者在此仅举两个例子。第一个例子是计算系统生物学（Computational systems biology），计算系统生物学综合分析各种数据，把生物体当成一个系统来进行研究，这其中一个重要的课题是如何从已有的广泛数据里面，特别是基因表达、蛋白相互作用、基因组序列等数据中，建立信息传导路径及基因调控网络的模型。另外，如何模拟生物化学分子的代谢过程，预测在一个物种中基因改变对其代谢过程的影响也是计算系统生物学的研究课题。计算系统生物学界和实验科学结合可以直接帮助预测一个人得某种病的可能性，根据病人分子水平的数据进行对症下药，设计基因工程以改造植物提高其产量，增强其抗旱抗病的能力，改造微生物来生产有益人类的药物和能源物质（如氢气或乙醇）。第二个例子是信息的开发，现在科研人员越来越难以掌握层出不穷的文献资料，经常无法了解到一些对自己研究课题有价值的信息，而生物信息学可以在分子水平上对数百万的论文进行快速的检索和查询，比如两个基因的名称经常出现在同一个论文中，就可以推测这两个基因可能有某种相关性或相互作用。信息开发的另一途径是语义网(Semantic Web)，它使计算机可解释在网络上的文件及数据中的内容，并提供一种网站之间信息传递的共同机制，这一任务在生物信息学中可以通过基因本体论（Gene ontology）（一套可控的基因功能词汇）等手段来实现。语义网可以使广大的生物信息学数据库和服务器为单一用户共同提供资源。

事实上，计算机科学对生物学的影响并不是单向的，计算机领域中广泛使用的很多方法，如人工智能、神经网络、遗传算法等都是起源于生命科学的概念。随着对生命科学的不断深入发展，这类方法还将不断涌现。比如蚁群算法（Ant colony algorithm）利用蚂蚁群觅食的规律来解优化问题就是一个新的发展。更为有趣的是人们正在研究蚂蚁通过身体接触及气味来传递信息的机制，并试图运用这些机制来有效地管理互联网的运作（见《自然》杂志，2003年5月1日刊）。还值得一提的是DNA计算（DNA computing），运用DNA及酶的生物化学反应来解决计算问题，能极大地提高计算的速度和信息储存量。

生物信息学的入门及深造

生物信息学，由于其巨大的潜力，无论是作为基础研究还是技术应用，对于有志攻关的青年学子，特别是在校的学生，都不失为一个好的事业选择。生物信息学中等待攻克的难题要比已解决的问题多得多，例如虽然人类基因组的序列已经得到，但这三十亿个字符串在很大程度上对科学家来说还是一部“天书”，其中绝大部分的奥秘还有待包括生物信息学工作者在内的多学科科研人员的共同努力来发现。另外，生物信息学的研究当前还主要集中在蛋白质和核酸的分析，在亚细胞、细胞、生物组织、生物体和生态，以及分子水平的数据与生物表型、行为的关系等方面的研究还刚刚起步，未来生物信息学将发展出的新技术，其应用潜力也是巨大的。同时，由于生物信息学课题的多样性和复杂性，常常使研究和开发工作者乐得其中。但另一方面也应看到，并不是所有计算机专业的学生都适合选择生物信息学作为自己今后发展的方向。曾几何时，略懂些生物信息学皮毛的人就可以受到重金聘请，但生物信息学通过这十几年的发展，门槛也随之越来越高，像其他成熟的学科一样，要是没有扎实的功底，在生物信息学领域发展今后也会越来越难。如果没有对生命科学有很大的兴趣，或者对多学科广泛学习的动力，生物信息学未必是一个合适的事业取向。

至于如何培养生物信息学的专业人才，目前尚存在着诸多争议。在美国，设置生物信息学专业的方式有若干种, 有些学校，例如匹兹堡大学（University of Pittsburg），成立专门生物信息学方向的系，而多数学校，包括笔者所在的密苏里大学哥伦比亚分校（University of Missouri-Columbia），则成立跨系的中心或学院，其中的师资由各系的教授来兼任。另外也有不少学校则由单一系科派生出生物信息学专业，这些系包括计算机系、生物系、医学院、物理系、生物工程系、统计系、数学系等。这些设置生物信息学专业的模式在实际运作中各有长短，选择哪一种往往由一个学校的具体情况来定，这些模式会在今后很长一段时期共存。另一方面我们看到，生物信息学自身也在日趋成熟，已逐渐形成一整套的理论基础及方法论，在保持着交叉学科特色的同时，生物信息学也被广泛认识到是一门独立的学科，在这一点上，其发展的轨迹很类似生物物理学。

作为在生物信息学上发展的学生，无论是出于什么样的专业设置，除了生物信息学的专业课程，也应打下广泛的相关基础。多数学者认为，一个能够独立工作的生物信息学研究开发人员，应该具备计算机、生物和统计三方面的良好基础。也许有些读者觉得这样要学的内容太多，当然一个对生物信息学很支持的专业设置在一定程度上可以减轻一些课业，比如计算机系里并非所有传统课程都与生物信息学有很大关系，编译器、操作系统等课程或许生物信息学方向的学生可以免修。即使这样，生物信息学方向的学生还是要比其他一般专业的学生要多学不少知识，这些知识一部分可以通过系统的选课来获取，但更多的则需要由自学，读文献，听报告，实际做项目来实现。就拿笔者为例，我是物理科班出身，计算机、生物和统计的知识主要都是在长期从事生物信息学研究中积累的。经过这十几年，我不但从事生物信息学方法的研究，还可以做生物上的具体应用问题，也在一个计算机系里承担算法、编程、软件工程等计算机基础课程的教学任务。这并不是说课程学习不重要，课程学习的确可以让人少走弯路，但由于生物信息学及其相关领域日新月异的突飞猛进，再全面的课程设置也不能涵盖生物信息学科研所需的所有知识，保持一个“活到老，学到老”的精神是非常重要的。

展望

计算机科学和生命科学可以说是本世纪对人类影响最大的领域，生物信息学发展于两者之间能起的作用是潜力巨大的。生命科学的发展目前是如火如荼，新的技术层出不穷，生物信息学也随之迅猛发展，不过这仅是一个开始，更为广泛的应用还在后面。对应计算机领域的发展，直到20世纪80年代第一台个人电脑的出现，才使许多成熟的理论和技术得以广泛的使用。在生命科学中，这样的“第一台个人电脑”还没有来临，不过这也许不会太远了。目前科学界正在积极研究所谓的“一千美金基因组”的测序机，也就是说，只需花一千美金就可以将任何一个人，任何一个物种的基因组全部测出，这样的测序机预计在今后十年就可能开发出来。到那时，基因组序列这样的高科技就可以像个人电脑一样走入寻常百姓家，普通人就可以在自己家中的个人电脑上看基因组的序列，并用生物信息学的工具去分析基因组的序列来了解自己和家人, 这样的发展对社会各方面的影响之大是无法想象的。

国内这几年在生物信息学方面有了长足的发展，许多大学纷纷建立生物信息学专业，很多大学和科研机构积极开展了广泛的生物信息学的研究。更为可喜的是，近几年在国际生物信息学主流杂志上不断有来自国内的论文发表，生物信息学的研究正在对国内医学及农业的发展产生重大的影响，也为信息产业带来了机遇。目前印度的一些公司已开始为欧美提供生物信息学的软件及服务，我国在这方面起步较晚，但应当能够后起直追来扩大这方面的市场份额。据估计，生物信息学科占到生物技术市场的8%～10%，而目前全球生物技术的市场已达到300～400亿美元，并以每年约25%的增长速度在发展，可见生物信息学作为高科技其商业价值也是不可低估的。

许东，博士，密苏里大学哥伦比亚分校计算机系“James Dowell”副教授，“Christopher S. Bond”生命科学中心研究员。研究方向：生物信息学。