APP下载

TIMSS中科学评价的趋势研究

2010-12-31王学男叶宝生

基础教育参考 2010年12期


  [摘 要] TIMSS是当今最具国际影响的评价项目之一,1995年至2007年进行了4次。本研究以历年科学学科的试卷为样本,从测试评价的具体内容、框架结果进行量性和质性的比较分析,归纳其评价的趋势,以期为我国科学教育的教学和评价提供一些启示。
  [关键词] TIMSS;科学;评价;趋势
  [中图分类号] G71[文献标识码] A[文章编号] 1672-1128(2010)12-0028-07
  
  一、研究背景及其意义
  
  TIMSS(Trends in International Mathematics and Science Study,国际数学及科学趋势研究)是由国际教育成就评价协会(International Association for the Evaluation of Educational Achievement,IEA)主办的国际比较研究,其规模大、影响深远、设计严密,是当今最具国际影响的评估项目之一,旨在通过测试及问卷调查,评价在数学和科学学科中学生(4年级、8年级)学业和教师教学的情况,从而了解影响学习和教学质量的因素,进而调整并改善教学的环境和质量。TIMSS自1995年始至2007年已进行了4次,每4年测试一次,在其发展过程中不断调整改进,还曾进行过更名。1995年实施之初的TIMSS研究(The Third International Mathematics and Science Study)集中于三个年级段:小学中段(3、4年级)、初中中段 (7、8年级)和中学最后一年级(美国为12年级);1999年进行了TIMSS―R(The Third International Mathematics and Science Study―Repeat),研究对象为 8年级学生;在2003年,TIMSS更名为“国际数学和科学趋势研究”( Trends of International Mathematics and Science Study),测试4年级和8年级学生数学和科学学科成就的发展趋势,参与国家和地区已多达46个。
  基于我国科学教育及其评价在不断发展中的迫切需求,针对学生科学学业评价,本研究以测试卷为切入点,以具体题目为载体,深入剖析,纵观12年来开展的4次国际评估,以时间为纵轴,以8年级公开的测试卷内容、结构为横轴,连续、系统、有机地对国际科学教育评价的趋势进行比较研究,以期为推进我国科学教育学生学业评价改革,提高教育质量,促进教师专业发展提供有益的借鉴和启示;为丰富、完善我国科学教育评价体系提供大量、充分的国际比较研究数据;为我国科学教育评价提供参考和借鉴;同时有助于我国科学教育评价理论研究工作的深入,也为一线教师和教研人员的教学、科研和管理工作给予切实可靠的支持和帮助。
  
  二、整体研究
  
  1.内容结构的变化
  TIMSS中科学学科的测评试卷的评估框架由两个维度组成——认知维度和内容维度,每个维度涉及不同的领域和层级。科学内容维度主要有生命科学、化学、物理、地球科学、环境科学和科学本质等。科学认知维度为:事实知识、概念理解、推理分析。选取8年级的试卷为研究对象,在公开的4套测试题中,内容维度和认知维度的具体内容和所占的比重也随着时间的推移和科学教育的发展有细微变化(见表1)。
  从表1可见,内容维度中的具体学科领域一直处于调整中,变化的部分主要集中在环境和科学性质、科学探究。不同年度,对于内容领域的命名也有差异,并且在测试卷中所涉及到相关内容的题目也有所不同。这是因为设计者对科学本质及其测评的理解和掌握在发展,同时也是具体实施过程中不断发现问题、解决问题的客观需要。1995年,将“环境话题”和“科学的性质” 作为一个内容领域,在测试题目中将对科学性质的斟测与环境话题结合,并以环境话题作为内容载体。1999年对这部分进行了修改,将“科学探究和科学的性质”作为一个独立的内容领域,但同时在“环境话题”部分中增加“资源”内容,形成了新的内容领域。2003年对内容领域又进行了新的调整,删去“科学探究和科学性质”这一领域,将环境和资源的话题统称为环境科学。2007年则只保留物理、化学、生物和地球科学4个基本内容领域,并且将“生命科学”改为“生物”。这一变化是有根据的,体现了一定的发展趋势。“科学探究”领域的测试属于过程与方法维度,“科学的性质”的测试属于情感态度价值观维度,而地球科学、物理、化学和生命科学这些已经普遍达成共识的学科内容领域,测试的为科学知识维度。1995年是测试初期,设计者将情感态度价值观的测试与环境话题相结合,由于环境与学生的日常生活紧密相关,难度不会太大。1999年,设计者重点突出了对过程与方法、情感态度价值观的测试,把科学探究和科学的性质单独作为一个内容领域,与其他内容分离开来,可见对其重视。同时,随着社会的发展和科技的进步,资源问题日益突出,TIMSS的时代性和时效性也得到了充分的体现,将资源问题与环境问题合并成为一个内容领域。2003年开始,内容领域的划分改变了原来设计的方向,化繁为简,将环境和资源问题统称为环境科学,并且删除了“科学探究和科学的性质” 领域。2007年,将“环境科学”内容分别纳入“地球科学”和“生物”领域中。在领域的划分及名称的确定上力求简明和综合,将联系紧密的内容加以整合,而“科学探究和科学的性质”领域,贯穿于科学知识之中。虽然在内容维度的划分上没有明确提出,但是在测试卷中却将此部分内容渗透于其他知识内容领域中进行考查。这种设计和做法可以使过程与技能、情感态度价值观维度的监测更加合理,更加科学,改变了简单机械地将这两个领域的内容以等同于知识测试题目的形式进行测试,而是将其渗透到内容领域之中,同时使题目覆盖的范围更广,内容更全面。随着科学教育改革的推进和科技发展的需要,学科综合化的趋势日益明显,TIMSS中的科学评价也受其影响,在内容维度的框架结构上有所体现。
  1999年的测试题目总数明显减少,设计者将其视为一种基于现实和理想的改革和试验。因为每个学生所做的测试题是以一本题集的形式呈现,每个参与的学生都要做完一本题集,做完一本题集需要长达90分钟。由于测试的题目多、时间长,增加了学生测试的负担和测试的成本,同时也从一个侧面对测试的效度有一定的影响。2003年题目又增加至95道,这种变化并不是盲目追求数量,而是采用“主题式”的模式设置题目,将同一主题的大题分解为若干个小题,题目总数实为小题的数量;此外,2003年首次允许在测试过程中使用计算器以减轻计算带来的麻烦和对检测科学学习结果的干扰,并减少由于东西方学生计算能力的差异对测试结果的影响,尽量使这项国际比较研究平等,导致题目增加,而2007年,题量又适当减少,仔细查阅、分析测试卷,发现部分试题为创设问题解决那种真实复杂的情境,包含大量的信息,这可能是题量适度减少的一个原因。纵观题目数量的变化,进一步证明了题目的数量、密度,题目之间的关联性影响着测试的信度和效度。在保证测试质量的同时,尽可能减少测试的题目,减轻测试带来的负担,降低TIMSS项目从设计到实施,直至数据处理的工作量,从而提高效率。
  图1显示不同内容领域的题目数量占题目总数的比重的变化。由于“环境、科学性质和科学探究”在3次测试中划分的方式和名称不同,故没有在上图进行统计和比较。1995年与1999年的内容结构没有明显的变化,而从2003至2007年,折线却出现了一定的变动,地球科学与化学的占比分别增大了约5%,物理和生命科学相应的各减小了5%。这样的变化基于以下因素:首先,由于在前两次测评中,物理和生命科学领域的题目测试频率相对较高,为避免学生对已经出现过的题目有一定了解和熟悉,影响测试的结果和效度,所以对题目分布的结构进行适当的调整;其次,8年级学生的测试内容领域不同于4年级,化学领域作为初中阶段的新增内容,需要在测试中通过题量的增加得以体现。同时,通过对新学内容的考查,也可以从另一个角度测试学生掌握知识的方法、技能和水平,对于新知识的接受能力、接受速度和质量;最后,内容领域分布比例的变化与其划分方式和命名也有一定关系,由于将科学探究和科学性质领域的斟测嵌入其他学科内容之中,所以势必造成内容占比的变化。在对地球科学的测试题目中,可以将科学探究和科学性质与环境、资源等有机结合起来,在对化学领域的测试,可以与实验、科学探究活动等结合在一起;此外,基于这两个领域的测试,还可更好地将生活常识与测试题目相联系,使学生更易理解科学。最后,21世纪科技发展的趋势也对TIMSS中科学评价产生了前瞻性的影响。生物技术的突飞猛进,促使该学科有了很大的进步,而地球科学和化学却没有得到相应的重视和发展,所以在测试中加大这两个内容领域的占比,可以更好地促进其发展,对科学教育的内容结构起平衡的作用,这也是TIMSS中科学评价的调整和预测功能的体现。
  
  2.认知结构的变化
  科学评价的认知维度分为3个层次,分别为事实知识、概念理解和推理分析。
  据表2中的数据,事实知识所占比重逐渐增大并一直维持在1/3左右;推理分析试题的占比逐年减小;概念理解试题的数量随前两者的变化而变化,但总体趋势是减少的。这是基于实际测评中的结果而进行调整的。设计者最初的本意是侧重对学生高层次能力的斟测,但经首次测试及其结果获得的数据比较、分析发现,学生认知水平的结构并没有预期的那样好,实际情况与理想状况相差较大,所以盲目追求高标准不利于测试的进行和分析,也削弱了TIMSS评价的积极作用。此后,设计者在每年的测试中,对认知维度中3个层次的题目数量进行不断地调整。这种趋势逐步显现以中国为代表的亚洲测试评价的结构,虽然东西方教育对科学知识关注和评价的角度不同,但早已达成共识——知识是解决问题、提高能力的根本,记忆是高级思维的基础,进而更加重视通过对科学知识的评价来促进其教学。这再次体现了东西方教育的相互学习和相互促进的趋势,并改善了以往极端和单一的局面。与此同时,这样的评价趋势也提醒了我们,我国的评价体系有自己的特色,需要客观辩证地对待,有不足也有精华,不可妄自菲薄,而要在保持自己的优势和特色的基础上加以完善。
  3.题型分布比例的变化
  在TIMSS科学测试中,有两种题型,一种是多选题,另一种是简答题。根据测试内容和认知维度,两种题型的占比在3次测评中也有变化。
  分析图2时要结合前面已讨论的几个问题,不能简单地认为多选题先增加再减少,而简答题相反。1999年题目总量较少,2003年开始使用计算器,其间经历了一些试验和变化。基于测试的效率和效度,简答题的数目不宜过多,最多不能超过1/2,否则学生无法按时间完成,或答案无法体现应有的水平,也可能会导致学生厌倦的情绪,这也是1999年减少简答题的原因。而在2003年,计算器的使用为很多西方国家的学生节省了时间,解决了他们由于计算能力弱而对测试产生负面影响的问题,同时也提高了做题的准确性和正确率,在某种程度上使TIMSS更加公平。2007年,简答题的数量基本接近一半,但其中包括多种题型,例如画图题、判断题、信息处理题等,而不仅限于文字表达。因为简答题可以更直接表现学生的思维过程和思维水平,可以为此项国际比较研究带来更多、更全面的有用信息,也给国家、学校、教师及家庭等各个层面的教育改革提供更有效、更真实的信息。
  综上所述,简答题的数目需要保持在1/3至1/2之间,题目类型的设置也应丰富活泼。设计试卷时根据实际情况而进行微调,过少或过多,都会大大削弱测试、评价的效果;反之,要进行相应的增补或删减。
  
  三、具体题目分析
  
  在TIMSS的测评中,会出现知识点相同且是以往测试过的题目。即使是相同知识点的测试,出题的语言和方式也是不同的,通过对一些重复题目的比较和分析,也可窥探出其中存在的规律,体现出一些变化趋势。
  1.题目包含的信息更加全面与复杂
  1995-I13图中有5支不同的摄氏温度计。病人的体温在36℃至42℃之间。图中哪一支温度计最适合用来准确地量体温?
  2003-S022225在不同的高度,水的沸点从 80℃到100℃不等。下面哪一支摄氏温度计最适合用来精确测量水在不同高度的沸点?
  这两道题考查的知识点是温度计的使用,并分别以测量体温和水的沸点为情境。在题目整体设计和提问时,不仅保持语言一贯的精准,同时也体现了题目信息更加复杂、全面的发展趋势。2003-S022225中的题目中,考查温度计的使用时,还包含了对在不同高度,水的沸点受大气压强的影响。如此设计,不仅要求学生掌握温度计的基本使用要考虑量程及其精确度,还要结合实际情况思考,要求学生在解答的过程中将理论与实际联系起来才能更好地解决问题,所以题目包含的信息更加复杂、全面,从而在检查知识点的同时,更好地测试学生的综合能力和解决问题的能力。
  2.题目内容更加生活化
  1995-J05
  J5.哪一种辐射导致太阳灼伤皮肤?
  A. 可见辐射
  B. 紫外线
  C. 红内线
  D. X射线
  E. 无线电波
  1999-J08
  J8.防晒油可用于保护皮肤。它能保护皮肤免于受到下列何种太阳辐射的伤害?
  A. 可见光
  B. X光
  C. 红外线
  D. 紫外线
  E. 微波
  这两道题考查的知识点是放射线及其防护。在题目的叙述方面,1999-J08的题目引入了人们日常生活中常用的防晒油,使题目内容与学生生活紧密相联。学生在思考时可以从生活常识出发,也可以从课堂中所学的科学知识出发,更有效地将科学知识与生活联系起来,也为学生未来学以致用做好准备工作。另外,通过此题正确率的数据,也可逆向证明随着题目呈现方式的变化,学生的正确率也随之提高。同时,也为课堂教学带来了启示和思考,教师在进行教学时需考虑选择何种内容题材更易于学生的主动建构。
  3.题目主题的明确化和直接化
  1995-I10
  I10.健康的饮食包括水果及叶类蔬菜,为什么?
  A. 它们含水量多
  B. 它们是蛋白质的最佳来源
  C. 它们含有丰富的矿物质和维生素
  D. 它们是碳水化合化物的最好来源
  2003-S032637
  39.食用叶类蔬菜对身体的健康是很重要的,因为它是下列哪一项的主要来源?
  A.蛋白质
  B.碳水化合物
  C.矿物质
  D.脂肪
  这两道题考查的知识点是饮食中的蔬菜和水果,但表达方式及测试范围有变化。1995-I10的题目中侧重“为什么”,而2003-S032637的侧重“是什么”,并直接点明“食用叶类蔬菜对身体健康是很重要的”,对“主要来源”进行明确提问,将问题的内容和范围缩小,使题目指向更加明确、更加直接,使测试的重点更加清晰,做到有的放矢。另外,在题目的表述中,设计者还渗透了对学生成长发展有益的信息“食用叶类蔬菜对身体健康是很重要的”,学生在测试时还会受到隐性信息的积极影响。
  4.题目语言的生活化,问题设置的开放化
  1995-R03将新的生物品种引入一个区域内,可能会有什么不良的后果?试举一例说明。
  1999-R3有一种新品种的鱼放入某湖泊内。请列出因新品种引入后可能会产生的两种后果。
  这两道题考查的知识点是新物种的引入。考查点涉及的词汇和问题,设计者均进行了调整。1995-R03中直接采用“新的生物品种”,而1999-R3中却将其换成“新品种的鱼”。不难看出,题目的语言越生活化,越易于学生理解,减少了在测评中由于文本阅读理解上带来的障碍。此外,1995-R03的题目中的阐述“可能会有什么不良的后果”干扰并限制了学生的思维,而1999-R3的题目叙述中没有任何暗示,不会对学生的思维和作答产生任何影响,并且提问方式更加开放,给学生提供了更大、更自由的思考空间。
  
  四、总结和思考
  
  通过对8年级学生的科学试卷进行比较、分析,笔者发现TIMSS科学评价中体现的一些趋势及其对我国科学教育的启示。
  在科学评价中,越来越重视对科学本质的测试,其中包括科学的态度、科学精神及科学探究。同时,对科学本质的测评不需要以单独的题目进行,而是采用结合学科知识,渗透到其他学科领域的题目中的方法,对于隐性内容的测评就需采用与之相适的方法,否则会使测评的结果产生一定的误差。
  
  测试作为评价的主要方式,充分发挥调控的作用。在测试的题目中既需要及时的反应现代科技发展的先进成果,也要对发展相对薄弱的学科重点测试,加重题目比例,以期对该学科的发展和教学起到促进的作用。
  为了更好地确保测评的质量和效度,题目的数量要根据测试的范围和内容,结合测试对象的认知、生理特点进行设计。如果数量过多,会使学生产生不良情绪,影响测试数据的质量;如果数量过少,不能完全体现测试的内容、重点和学生的水平。
  题型的构成应更加丰富、合理。开放性的简答题可以更好地反映学生的思维过程,以便发现学生学和教师教的问题,但是数量不宜过多。在试卷形式的测试中,应采用多种题型结合的方式,而不是局限在选择题和简答题。画图题、判断题、排序题等都可以体现各自的特色。另外,不同的测试目的和不同认知维度的测试可以选择与之相适应的不同题型,例如对于概念性知识的测试可以选用选择题、判断题,对于推理分析性题目的测试可以选用简答题或者画图题,对于过程方法性题目的测试可以选用排序题等。
  不可一味追求对高级认知水平的测试和评价。随着测试的发展,推理分析性题目的占比逐渐减少,反而对科学知识性题目的考查比例大大增加。这一变化体现了对科学知识重视的一种回归,科学知识是科学技能、科学情感态度价值观的基础。同时,我国科学教育的评价也要进行反思,不需要妄自菲薄、盲目地效仿西方,随着社会对人才要求的提高、学科知识及教育理论的不断发展,科学知识的重要性也愈加凸显,客观、理性地对待国外先进的理论,结合自身的特点,寻找到真正适合我国国情的结合点。
  测评题目的语言、设置方式和具体内容,直接影响学生测试的成绩和结果,同时也间接反映教学的情况和问题,为教师教学的改进提供了有用的信息。在不同年限、测试相同知识点的题目中,也体现出这样的趋势:题目包含的信息全面、复杂,更符合实际情境,而不是理想化的答疑状态,对学生终身发展及解决实际问题的能力有切实的帮助;题目的内容更加贴近生活,语言也更加生活化,以学生为主体,以学生的经验为基础,使学生更好地理解题意;问题的设计也更加开放,不会在题目中对学生有任何暗示,避免过分限制学生的思路,反映不出学生真实的科学学业水平。此外,还需对教学进行反思,在科学课堂教学中,更好地运用科学语言和生活语言,将科学知识与生活常识衔接,体现科学的特性和本质,促进学生的科学学习,是该评价的重要作用之一,也是有待进一步研究的课题。
  
  参考文献
  [1]田慧生,王连照.国际学生学业成就评价项目比较研究——以TIMSS-A2008和PISA2006为例[J].教育发展研究,2008(20).
  [2]张劲松.第三次国际数学和科学研究(TIMSS)简介及其启示[J].课程教材教法,1998(10).
  [3]魏冰.TIMSS中的科学素养[J].外国中小学教育,2001(1).
  [4]赖小琴.国际学生评价TIMSS与PISA的比较与反思[J],广西教育学院学报,2008(2).
  [5]冯大鸣,周翠萍.第三次国际科学与数学研究-美国的回应及启示[J],南京晓庄学院学报,2003(6).
  [6]张橘,冯虹.TIMSS及其对我国标准化考试的启示[J],吉林教育,2007(12).
  [7]胡军.国际数学和科学研究的趋势(TIMSS2007)评估框架评介[J],亚太科学教育论坛,2008(6).
  [8]黄丹凤,赵中建.基于“问题”的美国TIMSS研究[J],全球教育展望,2007(7).
  [9]赵中建,黄丹凤.教育改革浪潮中的“指南针”——美国TIMSS 研究的特点和影响分析[J].比较教育研究,2008(2).
  [10]William H. Schmidt,Curtis C. McKnight,What can we really learn from TIMSS[J].Scie