全国中学生生物学联赛“生物信息学”试题分析
2023-08-30曾雨洁陆俊杏李勃
曾雨洁 陆俊杏 李勃
[摘要] 全国中学生生物学联赛是生物学竞赛的初赛环节,2015年开始新增了生物信息学的相关内容。目前,对生物学联赛的“生物信息学”试题研究较少,通过对近八年(2015-2022)中学生物学联赛“生物信息学”试题的归纳梳理,明晰了此类试题的命题特点,且分别针对概念理解类、技术方法类、图标解析类与综合应用类样题进行了解读。据此,研究提出了注重现有课堂教学内容的广度拓展与深度进阶、强化统计学知识应用、以组学和系统生物学视角引领生命现象理解的教学建议。
[关键词] 生物学联赛;生物信息学;试题分析;中学生物学
全国中学生生物学竞赛(CBO)作为五大学科竞赛之一,其为未来生命科学发展选拔和培养创新型拔尖人才,不断推动我国生物学教育的发展。全国中学生生物学联赛是生物学竞赛的初赛环节,其当前的理论试卷考查范围包括微观生物学、动植物生理和解剖生物学、动物行为和生态学、遗传进化与系统学等四大板块,共涉及细胞生物学、分子生物学、微生物学、植物生理学、动物学、遗传学等14门学科。“生物信息学”自2015年起被纳入生物学联赛的命题范围。由于生物信息学是由生物學、统计学和计算机科学等交叉形成的边缘学科,其囊括的知识点相对分散,备考起来比较困难,目前对其相关的生物学联赛命题研究较少。本研究以2015-2022年的部分生物信息学的试题为对象,运用统计分析方法,从试题的题量与分值、知识考查范围及其分布情况、试题的常考知识点三个方面对其进行了详细剖析与研究,并在此基础上为参赛学生的备考和竞赛教练的指导提出教学建议。
一、“生物信息学”试题的整体评价
从2010年开始,全国生物学联赛理论试卷的考查内容分为四个板块。最初的第一板块主要包括细胞生物学、生物化学、分子生物学和微生物学四个学科,2015年开始第一板块增加了生物信息技术学科,翌年又将生物信息技术分设为生物信息学和生物技术两部分。值得注意的是,在2022年最新的生物学联赛理论试卷中,第一部分生物技术相关的考查内容已被删除,而生物信息学转至第四板块。笔者完整收集了2015至今的全国生物学联赛理论试题,并对其中涉及生物信息学部分的题量、分值情况及考查内容等进行了详细剖析,结果如下表所示。
从上表可以看出,2015-2022年全国中学生生物学联赛试卷中,生物信息学部分题量分布不均。其中,2015年试题最多(5道),2018年和2019年试题最少(分别为1道)。整体来看,生物信息学试题的题量多数为2-3道,在其所处的板块不具有优势。从题型上看,主要有单选题和多选题,单选题数量明显大于多选题。2015年和2020年B卷的题数分布相似,单选、多选各2道;2016年和2020年A卷的题数分布相似,单选和多选各1道;而2017年、2021年和2022年题数分布较为相似,各有2道单选和1道多选。从分值来看,生物信息学的占分主要为3-6分,4分频率最高,约占33.3%。
从考查内容来看,生物信息学部分重点考查的知识点比较分散,但也存在可挖掘的常考知识点。无论是题干或选项,基本每年均考查了各类组学相关的知识,包括基因组学、转录组学和蛋白质组学等,考查的重点是组学的基本概念和整体特点。例如,2015年考查了蛋白质组学和宏基因组学,2016年考查了基因组学和转录组学,2017年再次考查了基因组学,而2019年同时考查了多个组学的基本特点,2022年考查了基因组学的研究方法全基因组关联分析(GWAS)等。此外,测序技术或基因表达谱检测技术也是常考点,不排除未来可能还会再次被作为考查的相关内容。
从命题趋势上看,从2020年开始考查内容出现了新变化,增加了关于常见生物信息学数据库、软件工具和统计学方法及应用等方面的内容。比如,2020年考查了DNA序列数据库和BLAST在线工具,2020年和2021年分别考查了统计假设检验和P值等相关内容。生物信息学是由数学(及统计学)与生物学、计算机科学之间形成的交叉学科,统计学是生物信息学中数据分析与挖掘的理论基础和重要技术支撑。可以预见的是,统计学相关知识与技能未来依然会被作为生物学联赛中生物信息学部分的重要考查内容。此外,2022年的生物信息学部分题干中开始出现人类疾病基因组等背景材料,这反映出疾病组学相关材料也可能是未来的命题趋势。需要注意的是,除基因组学、表观基因组学、宏基因组、转录组学和蛋白质组学外,其他如代谢组学、表型组学、糖组学和脂质组学等暂未成为命题点。
将2015-2022年生物信息学的相关试题制作出高频词云图,分析其中排名前10的高频专业名词,发现这些关键词大致分为四个层面:一是基因层面,包括基因组、(DNA)序列、同源(性);二是基因表达层面,包括蛋白质、(基因)表达、(基因)转录、(基因)结构;三是研究方法层面,包括(DNA)测序、技术、高通量(测序);四是数据层面,包括数据(库)等。这四个层面是生物信息学常考的四个知识范畴,其中基因层面出现频率最高的是基因组和序列,基因表达层面出现频率最高的是蛋白质和表达,研究方法层面出现频率较高的是测序方面的技术,尤其是高通量测序技术;数据层面出现频率较高的是GenBank。
二、“生物信息学”试题的样题分析
2015-2022年的生物信息学共有24道,大致可分为概念(及应用)题、技术方法题和图表题三大类。这些试题主要覆盖了生物信息学的基本研究方法,重点考查学生对基础知识的掌握与运用能力。本文以2015年第11题、2018年第31题、2020年B卷第30题和2021年第22题为例,剖析不同类型试题的考查要求,并提出相应的建议。
(一)概念理解类样题分析
例1 (2015年第11题)蛋白质组学是( )。
A.研究一个基因组所表达的全套蛋白质
B.研究蛋白质序列以发现新的蛋白质
C.研究DNA与蛋白质的复合物
D.研究蛋白质合成过程中的能量消耗
解析:这是一道典型的概念性试题,主要考查蛋白质组学基本概念。蛋白质组学是以蛋白质组为研究对象,研究细胞、组织或生物体蛋白质组成及其变化规律的科学。这里提到的蛋白质组是指一个细胞或组织中所有的蛋白质,即该物种基因组所表达的全套蛋白质。
本题考查了代表性的“组学”的概念,类似的还有基因组学、RNA组学等。基因组学是对生物体所有基因进行集体表征、定量研究及不同基因组比较研究的一门交叉生物学学科。RNA组学是指以RNA组为研究对象,研究细胞内所有RNA分子的结构和功能及其在不同生理条件下的动态变化规律的科学。总体上看,“组学”概念可以归结为研究某全套生物(或化学)分子的一门学科。教师在讲解概念性知识时,可以对相关概念进行归纳总结,促进学生触类旁通,构建知识框架。
(二)技术方法类样题分析
例2 (2018年第31题)以下哪种高通量实验技术主要被用来研究生物的基因表达情况?( )
A.全基因组重测序B.转录组测序
C.外显子组测序 D.基因芯片
解析:这是一道典型的技术方法类试题。本题的题干部分涉及基因表达的概念,但主要考查研究生物基因表达水平常用的高通量技术与方法。基因表达,一般是把将储存在DNA序列中遗传信息转变成有活性的蛋白质分子的过程,主要包括转录和翻译两个大的阶段。所谓的高通量技术,一般是指一次可以对成千上万个生物或化学分子进行检测,并利用计算机和物理(或化学)元件将检测得到的信号进行分析的技术。
本题的题眼在“基因表达”四个字。A选项的全基因组重测序和C选项的外显子组测序尽管都用到了高通量实验技术,但主要关注于DNA(或基因组)层面的分子检测(如检测DNA突变、重排等信息),并不涉及基因表达的问题;分别涉及的是全基因组再测序全基因组和外显子组都是基因层面。B选项的转录组测序一般是指RNA测序(RNA-seq)技术,即利用高通量测序技术对细胞或组织的全部转录本进行测序,可反映mRNA、非编码RNA等的分子种类和数量,反映转录过程的动态水平。而D选项的基因芯片又称DNA芯片,也叫DNA微矩陣等,是指采用特定方法将DNA片段有序地固化于支持物(如玻片)的表面,然后根据碱基互补原则与已标记的待测核酸样品中靶分子杂交,通过特定的仪器将杂交信号的强度进行快速、并行、高效地检测分析,从而判断样品中靶分子(DNA或RNA)的种类和数量的一种技术。显然,基因芯片也是一种快速测定RNA种类和数量(即基因表达水平)的高通量技术。因此,本题的正确答案为BD。教师在讲解技术方法时,可以将相互关联的方法技术及其应用领域串联起来,形成思维导图或者表格,帮助学生理解记忆。另外,教师应强调题目关键词的重要性,本题的关键词是“基因表达”,AC选项与基因表达无关,又因为是多选题,即使不明白基因芯片的含义,也能通过排除法选出正确答案。
(三)图表解析类样题分析
例3 (2020年B卷第30题)下图中的qRT-PCR结果显示,与正常膀胱组织相比,miR-130b和miR-494在膀胱癌组织中表达上调(每组的样本量都是30)。
据此,下列陈述中正确的是( )。
A.图(a)中肿瘤组的数据样本方差较大,因此可以利用方差分析的检验方法对图(a)中的数据进行分析
B.在图(a)和图(b)的正常组织数据中,存在随机误差
C.与图(b)比较,图(a)中的P值更大,表明图(a)的统计结果更可信
D.可以利用χ2检验方法对四组数据一起进行分析,以便得到具有统计学意义的结论
解析:这是一道典型的图表题,主要考查生物信息学中常用的统计假设检验原理与方法。
在本题中A选项只有两组数据的比较,一般是t检验,故A错误。在统计测量中,实验观测值一般由实际值和测量误差两部分构成,而测量误差包括了系统误差、随机误差和粗大误差三类。因此,B选项正确。P值通常是指概率,不同的P值所代表的含义不同。一般来说,P值小于一定阈值(如P<0.05),则代表存在统计学显著性;而P值越小,则差异显著性越大。由于图(b)的P值更小,差异更显著,因此C选项是错误的。χ2值反映了实际频数和理论频数之间的吻合程度,图中并无理论值和实际值的比较,故D选项错误。教师在讲解统计学方法时,应将各种方法进行分类对比,分析方法之间的相同点、不同点、细节差异等,形成分类模块,使学生对统计学方法有全局性的把握。
(四)综合应用类样题分析
例4 (2021年第22题)微卫星分子标记又称为短串联重复序列或简单重复序列,是广泛分布于真核生物基因组中的简单重复序列,由多个核苷酸组成的串联重复片段构成,其重复单位的重复次数在个体间呈高度变异性且数量丰富,因此是普遍使用的DNA分子标记。下列哪些项包含了微卫星分子标记序列?( )
A. CTGATATATATATATATATATATATAGTCGA
B. TTCATATATATATCACACACACACACACAGC
C. TTTAGCAGCAGCAGCAGCAGCAGCAGCAGCA
D. ATTGACTGACTGACTGACTGACTGACTGACC
E. CCATAGATACACAGATTCTCATATTAGGGAC
解析:本题考查学生的观察、分析和应用等方面的能力。若正确解答本题,需要知道微卫星分子标记的含义,找出各选项序列的呈现规律并合理地与之匹配。根据重复序列的重复次数,重复序列分为简单重复序列、中度重复序列、高度重复序列。简单重复序列又被称为短串联重复序列或微卫星标记,由2-6个核苷酸的串联重复片段构成;中度重复序列,重复次数为几十到几千次;高度重复序列,一般是少于10个核苷酸片段重复几百万次。卫星分子标记序列与微卫星分子标记序列不同,可以根据其重复单位进行快速区别,小卫星序列的重复单位在11bp-60bp,微卫星序列的重复单位中的核心序列只有1-6个bp。
本题中,A选项为(AT)n型单一重复单元构成的重复序列,B选项为(AT)n(CA)m复合型重复单元构成的复合微卫星DNA,C选项为(AGC)n型单一重复单元构成的单纯微卫星DNA,D选项是(TGAC)n型单一重复单元构成的单纯微卫星DNA,而E选项中无明显的重复单位存在,故答案为ABCD。教师在讲解各类序列时,可以将其作对比分析,并结合试题加以应用,从而帮助学生巩固知识。
三、基于试题分析的教学建议
(一)注重现有教学内容的广度拓展与深度进阶
由试题分析可知,无论从广度还是深度来看,生物学联赛试卷中生物信息学相关试题都属于高中生物学基础之上、本科生物信息学教材之下的范畴。这就要求教师要很好地把握好高中教材、联赛大纲、本科教材三者之间的衔接与交叉关系:在充分了解生物信息学联赛的考查范围的前提下,整合本科生物信息学教材的知识点,在高中学生已有知识库中进行扩展引导,使其从旧的知识点生长出新的知识点。尤其是在当前大数据与人工智能时代,越来越多的中学和竞赛机构开始在原有的课程基础上,拓展生物信息学的相关学习内容,试图衔接中学生物学教学与生物信息教学。
文献阅读是学生获取生命科学最新发展动态的重要方式。教师需要查阅、甄选、整理相关的学科文献,鼓励学生自主阅读并进行文献讨论,引导学生积极思考,了解并掌握前沿知识。生命科学是不断发展前进的科学,在学好基础知识的同时,还要关注生命科学的最新进展,与时俱进。要帮助学生构建复合型的知识体系,锻炼学生的逻辑思维,增强学生独立提取信息和处理信息的能力等,从而促进学生的全面发展。
另外,GOBLET通过网络为世界范围内的教师和学生提供持续、可靠的生物信息学教育支持。一名优秀的中学生物学竞赛辅导教师或教练,要贯彻终身学习的理念,要经常总结和梳理自己的知识结构,不断更新前沿知识,做到教学相长,与学生共同进步和发展。
(二)强化统计学知识应用,凸显生物学学习的理科属性
生命科学已经进入大数据时代,而以大数据技术为核心的生物信息学为生命科学研究的发展提供了必不可少的技术支持。统计学作为一门研究不确定性问题的学科,在开放生物系统的研究中举足轻重,尤其是在现代生物信息学的数据分析和挖掘中扮演了极其重要的角色。它可以提取数据之间的因果关系、交互关系等,通过合理分析与处理揭示大量而复杂的生物数据内涵,从而获得对人类发展有意义的信息。
中学生物学教学应立足学科基础知识,在教学中有意识地引导学生学习和运用统计学思想,以帮助学生更深刻地理解生物學问题。以孟德尔豌豆杂交试验为例,作为生命科学发展中极其重要的转折点,孟德尔第一次尝试将统计与数学的思想运用到生物学研究中,他的研究对生物学及其分支学科的发展产生了深远的影响。目前,生物学的发展已经进入定量生物学时代,对学习者和教育者的统计与数据处理智慧提出了更高的要求。教师在准备教学内容时,不能只局限于教材或竞赛大纲中的知识,还要将经典的统计学方法融入教学实践中,以训练学生的数据处理和分析能力,帮助学生应对日益增长的生物学海量数据的挑战。这些措施,对于有效拓展学生的知识面、教会学生用数理思维去分析生活实际中出现的生物学现象及问题大有裨益。
(三)以组学和系统生物学视角引领生命现象理解
以人类基因组任务的顺利完成为标志,生物学研究实现了从单个基因检测、单个蛋白分析到组学系统检测分析的转变。21世纪是生命组学的世纪,随着DNA测序、质谱测序等高通量组学技术的快速发展,基因组(全基因组)、转录组、蛋白质组、代谢组等组学数据及生物信息呈爆发式增长。系统生物学时代,生命科学研究以大局观为导向,实现整体观察生物现象、全局把握基因序列关系的研究模式。未来生物大数据的研究、多种组学数据的整合分析将不断挑战传统的科学思维模式,带来新的变革,教师需要紧跟研究发展趋势,引导学生关注组学和系统生物学,培养学生的超前视角,为今后继续深入学习生命科学做好铺垫。
在中学生物学教学中,我们一直强调对学生生物学科学素养的培育。这里提到的科学素养主要包括三个方面的内容,即了解科学知识、掌握科学方法和崇尚科学精神。站在中学生物学教学的角度,了解科学知识,要求施教者既要注重现有生物课堂教学内容的教学,又要适当引导学生延伸与拓展高阶学习内容;掌握科学方法,要求学生在学习中切实领会研究性思维方法与策略的掌握,学好方法论;而崇尚科学精神,对施教者和学习者均提出了新的要求,教师应该通过生物学史中的科学发现过程培养学生崇尚科学的精神,学生应该通过生物实验养成求真务实、严谨的科学精神。
与此同时,诺贝尔生理学或医学奖的研究成果在一定程度上代表了当今生命科学发展的最新方向。中学师生关注诺贝尔生理学或医学奖,是对新课改“关注对科学、技术和社会发展有重大影响的、与生命科学相关的突出成就和热点问题”的积极响应。综观历年的生物学联赛试题,不难发现,诺贝尔生理学或医学奖的科学成果相关内容常被作为生物学联赛试题的背景材料。2022年度的诺贝尔生理学或医学奖获得者在“人类演化以及已灭绝的人类基因组研究”方面的贡献,催生了一门全新的科学学科——古基因组学。该研究内容正与2022年生物学联赛试题的第100题考点不谋而合。由此可见,未来诺贝尔生理学或医学奖的相关知识点应用到联赛试题中的概率很大,是比较重要的发展趋势。
[本文系重庆市中小学创新人才培养工程计划“基于人工智能方法的基因树和蛋白树系统比较研究”(项目编号:CY220506)和重庆师范大学中学生物类先修课程培育项目“遗传与生物信息学系列课程建设”(项目编号:2023-SK01)阶段性研究成果]
[参考文献]
[1]Stark R,Grzelak M, Hadfield J. RNA sequencing:the teenage years[J]. Nature Reviews Genetics,2019,20(11).
[2]彭银祥,李勃,陈红星.基因工程[M].武汉:华中科技大学出版社,2007.
[3]Atwood TK,Bongcam-Rudloff E,Brazas ME,et al. GOBLET:
the global organisation for bioinformatics learning,education and training [J]. PLoS computational biology,2015,11(04).
[4]赵方庆,方向东,李亦学.转化生物信息学研究前沿及挑战[J].遗传,2015,37(07).
[5]姜永均.2010年全国中学生生物学联赛试题评析[J].中学生物学,2011(04).
[6]丁奕然,李雁冰.《义务教育生物学课程标准(2022年版)》解读与教学建议[J].天津师范大学学报(基础教育版),2022,23(03).
[7]黄爱琼,王任翔,陈国娟,等.2017年诺贝尔生理学或医学奖中的科学精神及其在生物学教学中的价值[J].中学生物教学,2019
(14).