生物类专业生物信息学教学初探
2014-04-29黄茉莉
黄茉莉
[摘 要]随着大数据时代的到来,面向生物类专业的生物信息学教学也随之发生变化。授课范围由传统“面面俱到”的灌输式教学向紧跟科研发展的数据挖掘和大数据处理倾斜;授课方式由单一的理论学习转为与上机操作相结合,并采用案例分析将教学内容系统、完整地衔接和串联。本文根据笔者的教学实践,以两个案例教学为中心,从教学手段、考核方式等方面展开阐述和讨论。
[关键词]生物信息学;案例教学;生物类专业
[中图分类号]G64 [文献标识码]A [文章编号]1005-6432(2014)48-0179-03
生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、发布、分析和解释等在内的所有方面,综合运用生物学、数学、计算机科学等方法,阐述和理解数据所包含的生物学意义。作为21世纪生命科学领域发展最为迅速的学科之一,生物信息学已成为介于生物学和计算机科学前沿的重要学科。实验室的每一项技术,从简单的克隆、PCR到基因数据分析都需要在计算机上进行处理。因此对生物学专业的学生而言,具有一定程度的理解和应用生物信息学技术的能力是十分必要的。而课程是为培养目标服务的。这就要求教师在有限的授课时间内,使学生不仅掌握基本的理论知识,紧跟科研的最新进展,而且在今后的科研工作中能学以致用。
1 理论与实践相结合的教学手段
根据当今生物信息学的发展方向,教师结合理论教学内容增加综合性、开放性实验,使学生循序渐进地理解和掌握生物信息学的原理和方法,进而运用合适的生物信息学工具解决问题。本文以两个案例解析这一教学过程。一是信息的简单检索。在获取生物信息的同时,理解数据库概念、动态规划和bootstrap等算法;二是高通量测序的数据分析。在实现大规模数据处理和分析的同时,掌握统计分析基础知识。
1.1 生物信息的简单检索
近一二十年,生物学数据,尤其是序列数据,以指数级的方式增长。以GenBank的核酸数据库为例,每12~20个月数据就翻一番,略高于Moore定律提供的参考数值。如何从这些海量数据中获取想要的信息,已成为生物学专业学生必须掌握的技能之一。而如何正确获取和应用信息,则需要了解数据是如何被存储、解析,以及背后隐藏的算法。因此围绕正确挖掘数据信息这一主题,设计以下案例,通过4步展开教和学。
1.1.1 讲解
基于大数据教师引申出数据库存储信息的概念。而后分类介绍常用的基因组数据库、核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库以及各种常用复合数据库。
1.1.2 演示
了解上述常用的数据库之后,教师实例演示数据库检索。通过逐层提出问题,诱导学生思考如何利用上述不同的数据库资源,一步一步挖掘所需的信息。例如,被测序的片段是哪个基因?该基因编码的蛋白质序列是什么?是否有保守的功能结构域?在亚细胞的什么位置发挥什么功能?可能的三级结构?和哪些蛋白或RNA存在可能的相互作用?它在进化中又是如何演变的?
1.1.3 实践
让学生上机操作上述实例,体验各个数据库的侧重点,并理解不同软件不同参数的意义或差别。比如GenBank和Swissprot的侧重点,PAM-n和BLOSUM-n的选取。
1.1.4 成文
引导学生形成可重复计算的科学文档。对每一个案例,教师展示常规性的文件组织形式:/data,/analysis,/scripts,/reference等。写说明文档的时候,要求学生记录每一个分析步骤的所有细节:数据库的网址、软件的名称、版本、输入的文件、精确的运行参数、结果的提取等。
通过这样的案例教学模式,一是较好地将知识点融合串联到教师讲授和学生上机操作中。二是使学生不仅熟悉各种常见的数据库,而且理解数据库中各个软件及其参数的意义,遇到实际问题也不再束手无策。而教师也可以充分参与到学生的学习中,对学生上机操作过程中出现的一些主要理论与技能问题了如指掌。通过教—学—练—教—练,达到学以致用的教学目的。三是培养学生创建较好的文档及其组织形式,形成科学研究的可重复性(replication)和可复现性(reproducibility)。不仅有利于追溯前因,而且对代码的复用,以及对结果应用于新项目都非常必要。
1.2 高通量测序数据的分析
随着高通量测序技术的兴起,大量物种的全基因组数据、转录组数据和其他类型数据被测定完成或正在进行中,每天都有成千上万的数据被源源不断地输入相应的生物信息库中。这些大规模数据的不断产出,使得生物学专业学生掌握高通量数据分析技术已成为一种趋势。因此,教师有必要将这部分内容由理论讲授过渡到上机操作。
1.2.1 介绍
教师以DNA测序技术发展为主线,理论介绍De Novo测序、ChIP-seq测序、RNA-seq测序、Methyl-seq测序等。并通过拍摄的录像,向学生直观地展示不同的测序仪及其特点。
1.2.2 演示
教师对整个分析过程进行详细的阐述并实时上机演示(下图)。以转录组RNA-seq为例,包括测序质量的评估(碱基组成和碱基质量分析)、clean reads的筛选、利用TopHat/Bowtie将筛选出来的reads比对到参考转录本、统计reads在参考基因上的分布情况及覆盖度,判断比对结果是否通过第二次质控、通过cuffmerge将重复测序得到的reads形成一致性转录本、基因结构优化、基因覆盖度统计、使用cuffdiff筛选差异表达基因和鉴别可变剪切体、对结果基因进行聚类分析、GO和pathway富集性分析。
1.2.3 实践
让学生分组讨论并上机实现上述数据分析流程。掌握基本的Linux命令、统计计算和可视化分析。
1.2.4 成文
引导学生形成规范化文档和脚本,以便回溯和可重复性使用。
高通量数据分析不仅涉及的知识点多,而且需要在Linux下进行简单的操作和软件的使用。对生物学专业的学生来说,容易造成心理上的抗拒。教师可以采用“分而食之”的策略:将教学内容分成相对独立完整又有一定联系的几个部分(下图)。对于每部分内容,教师利用已讲解的相关知识给学生实时演示,并给出教师自己的理解和结果。然后把学生分组,让他们根据自己的理解,带着兴趣和疑问上机实践。并在上机操作过程中,鼓励学生之间、学生与教师之间及时讨论交流。最后让学生将所有内容串联起来,介绍本组的实验内容及解决办法。通过这种方式能较明显地消除心理顾虑,有助于学生独立思考,独立解决问题。
“RNA-seq数据分析”案例教学流程图
2 以能力测试为中心的考核方式
对于生物学专业的学生而言,生物信息学是一门实践性很强的学科。因此,教师采用以“能力测试”为中心,知识与技能考核并重的考核方式。以上述两个案例为例,在期末考试中,教师将NCBI GEO中“(RNA-seq[Title])AND “Mus musculus”[porgn:__txid10090]”722个实验数据,随机分配给每个学生。要求每个学生对分配到的RNA-seq数据进行差异表达分析,聚类分析和富集性分析。并选择合适的基因,分析其保守的功能结构域、亚细胞定位以及可能的蛋白质结构和功能、可能结合的转录因子、相互作用的蛋白质网络和信号通路、构建相应的系统进化树。
学生对上述每一个小题从“知识点”、“参考资料”、“使用软件或工具”、“参数”、“脚本”、“结果”分别答题,不仅非常有效地明确所学的内容,而且很好地杜绝了作弊行为。
3 教学效果
为了解案例教学的效果,本课程案例教改活动向2011级生物科学和免疫学专业学生QQ群发放电子问卷,共收回82份答卷,统计结果如下表所示。从表中可以看出,案例教学模式使学生有较强的参与感,能较好地提高学生的学习兴趣,学生对理论问题的认识更为深刻。
4 结 论
案例教学基于具体的事例,将一系列的知识点有机地串联起来,并通过实例操作达到学以致用的目的。从学生反馈意见可以看出,这种理论与实践结合的教学模式,很好地提高了学生的学习兴趣。考虑到有限的授课时间和不同学生的学习背景,作为教师需要设计合适的案例,从而达到较好的教学效果。一般可以遵循以下原则。
4.1 具有代表性
所选的案例既要经典又要紧跟科学前沿。比如第一个案例所蕴含的数据库检索、序列比对和系统进化树的构建,在生物信息学中,属于较经典且核心的知识点。而第二个案例选择的对象则与当前的科研热点紧密联系。
4.2 具有偏向性
生物信息学本身是个交叉学科,涉及的知识点相对较多。面对生物类专业背景的学生,我们侧重生物信息学方法或者工具(软件)的应用,而不是强调算法。比如第一个案例中系统进化树的构建,我们只是以5条8bp长的序列为例讲解最小进化法和邻接法、最大简约法、最大似然法以及贝叶斯推断,重点在于强调不同的数据适合采用上述哪些方法以及如何用Mega等软件实现系统进化树的构建。
4.3 先后案例有层次性
比如第一个案例中,学生掌握了Windows下的序列比对。对于第二个案例中Linux下的Bowtie就容易理解并操作。
4.4 具有拓展性
比如第一个案例中,在Windows的DOS下进行批量序列比对时,不同的参数设置,输出不同的数据格式。第二个案例中,Bowtie最多允许3个错配,如果允许更多的错配数,则可以采用SOAPaligner/ SOAP2实现。学生可以根据自己的兴趣和能力,选择拓展性内容进行继续学习。
4.5 良好的成文习惯
引导学生养成良好的文档组织和书写习惯。每一个案例,都要求学生形成可重复性和可复现性的文档,对于整理分析思路、核实结果、重复使用代码都起到事半功倍的效果。
生物信息学是现代生物科学研究的重要工具和载体。如何有效正确地应用生物信息学,是每一个生物实验者需要具备的能力。教师应紧跟学科发展的速度,围绕学以致用的原则,将案例教学科学地、和谐地应用到教学实践中,不仅使学生掌握一定的理论知识,从而正确地应用软件工具,而且逐渐培养学生自我分析和解决问题的能力。
参考文献:
[1]LuscombeNM,Greenbaum D,Gerstein M.Whatis bioinformatics? A proposed definition and overview of the field[J].Methods Inf Med,2001,40(4).
[2]ENCODE Project Consortium.An integrated encyclopedia of DNA elements in the human genome[J].Nature,2012,489(7414).
[3]1000 Genomes Project Consortium,Abecasis GR,Auton A,Brooks LD,DePristo MA,Durbin RM,Handsaker RE,Kang HM,Marth GT,McVean GA.An integrated map of genetic variation from 1,092 human genomes[J].Nature,2012,491(7422).
[4]Sandve GK,Nekrutenko A,Taylor J,Hovig E.Ten simple rules for reproducible computational research[J].PLoS Comput Biol,2013,9(10).
[5]McCormick M,Liu X,Jomier J,Marion C,Ibanez L.ITK:enabling reproducible research and open science[J].Front Neuroinform,2014(8).
[6]李伟兰.论大学生学习心理障碍的成因及基本对策[J].湖北函授大学学报,2012,5(25).
[7]李运庆.浅析案例教学存在的问题及对策研究[J].长春理工大学学报(社会科学版),2011,9(24).
[8]白新艳.案例教学法的探索[J].成功(教育),2012,6.