APP下载

英国小学科学学业测评框架与试题情境探析

2020-09-23王俊民

考试研究 2020年5期
关键词:纸笔测验学业

王俊民

自1988年的《教育改革法案》始,英国在每个关键阶段(key stage)末都进行全国统一的学业评价①英国义务教育划分为四个关键阶段:KS1(5-7岁)、KS2(7-11岁)、KS3(11-14岁)、KS4(14-16岁),其中 KS1和 KS2相当于我国的小学阶段,KS4阶段相当于高中阶段。,称为 “国家课程评估”(National Curriculum Assessment,NCA)。2009年以前,课程评估主要通过标准化成就测验(SATs)进行,但由于考试结果的高利害性对学生造成了过度压力,受到各方的质疑和抵制[1]。因此,政府从2009开始取消了KS3国家课程测验,并取消KS2科学的书面全国测评,改为抽样纸笔测评和教师主导评估(teacher assessment)相结合的方式。

2016年英国开展了国家新课程实施后的首次科学学业测评,测评工作由标准与测评部(Standards and Testing Agency)负责。测评对象包括公立学校、学院和特殊学校的KS2末学生,基本相当于我国的小学毕业生。该测评从全国1900所学校中随机选取约9500名学生参加统一测验,每个学校随机抽取5名学生[2]。

本研究以2016年英国“国家课程评估”科学学业测评项目(以下简称NCA-S)为研究对象,对其纸笔测验和教师主导评估的框架进行分析,基于情境类型学理论对纸笔测评试题情境进行分析,以期为我国科学教育质量监测的框架与试题设计提供借鉴。

一、NCA-S纸笔测验框架

(一)测评内容

2016年科学学业测评内容有两大领域:内容领域和认知领域 (cognitive domain)[3]。内容领域含物理、化学、生物三大知识分支和“科学地工作”(Working scientifically),三大知识分支详细列出了测评的知识内容,例如仅关于“光”的条目就包括3-6年级在内的9条内容,如“P3a认识到有光的情况下才能看到物体,黑暗就是因为没有光”“P6d应用光的直线传播原理,解释为什么影子的形状与投射物体的形状相同”。“科学地工作”包含计划、实施、测量、记录、结论、报告六部分,具体含15个条目,每个条目的描述形式与知识分支类似。

认知领域是对认知水平的描述,主要测评学生是否达到课程标准所要求的认知程度,例如是否达到课程要求的“理解”水平、“应用”水平等。认知领域既是测评内容,也是构建测试题目的工具,为将内容领域和认知水平结合提供了一个框架,且能够保证每年测试题目的难度一致。表1是认知领域的模型。

表1 认知复杂度模型

可以看出,认知领域结合了任务情境的认知过程,与布卢姆教育目标分类学中认知过程的分类类似,体现了“记忆”“理解”“应用”“分析”“综合”和“评估”六个水平。认知领域根据操作或概念组成部分的复杂度及其之间的关联来确定层次,知识与理解是低层次的,需要记忆、描述、观察、读取,面对的是简单的事实性知识和数据源;综合与评估是最高要求,需要提出建议、做出论证、建立联系、进行解释,面对的是新颖的情境、不同的证据源或信息。

根据测评方案,内容领域的物理、化学和生物三大知识分支考查比例基本相当,“科学地工作”不单独评估,而是以三大知识分支作为背景进行整合评估。在纸笔测验中,并不是每一条内容都能测评,因此,NAC-S测评方案专门将这些无法通过纸笔测验进行测评的内容罗列出来,并解释不能或不能完全测评的原因。这些内容将需要教师通过“教师主导评估”进行测评。例如“连接一个简单的电路,确定电路每个部分的名称”,这一内容目标要求学生能够连接电路,这在纸笔测验中无法实现,不过可以通过纸笔测验考查学生对构成电路的各部分元件名称的掌握情况,还可以考查学生设计电路的能力。部分不能测评的内容及其解释说明见表2。

表2 部分不能通过纸笔测验进行测评的内容

(二)测评试题的编制

NCA-S试题构建的基本依据是表现期望,即期待学生达成的学业表现。表现期望由内容维度和认知维度组合形成。根据具体主题或内容可以将表现期望进一步细化,作为试题编制的直接依据。例如内容维度是“观察磁体之间如何相互吸引和排斥,磁体可以吸引哪些物体,不能吸引哪些物体。”,认知维度确定为“应用与分析”,期待的学生表现是在一定情境下“应用”“磁体如何吸引和排斥”或者“可以吸引或不能吸引哪些物体”,进一步可以细化为“用箭头表示磁体对回形针施加的力的方向”等考查内容。以下是2016年的一道测评试题及其试题属性(见表3)。

试题单元①NCA-S测评试题以试题单元的形式呈现。所谓试题单元就是围绕某一主题或背景设计多个小题。K:磁力

K1.阿里有四个不同的磁铁和一些回形针,回形针可以被磁

铁吸引。在照片上画一个箭头,以显示回形针上的磁力的方向。

K2.指出作用在回形针上、与回形针受到的磁体吸引力方向相反的力。

K3.阿里想找到磁性最强的磁铁。他向磁铁添加回形针,每次一个,这些回形针可以连成一个链条。当没有更多的回形针粘住时,他停下来。他用另外三个磁铁重复了这实验。阿里怎么知道哪个磁铁是最强的?

K4.下图显示了阿里的结果。图上的一个轴已经被标记出来,为“磁体”,请你写另一个轴的标签。

K5.阿里把磁铁A移向磁铁B,发现即使不接触磁铁B,磁铁B也会远离磁铁A。为什么磁铁B远离磁铁A?

K6.阿里尝试不同的方式把磁铁放在一起。请在表格的每一行勾选一个方框,以显示磁铁是否一起移动、分开或不移动。第一个已经为你完成了。

可以看出,该试题单元既包括对具体科学知识的测评,也包括对“科学地工作”的测评。K1、K2、K5和K6测评内容对应了评估框架中罗列的知识条目,同时对应一定的认知维度;K3和K4针对“科学地工作”要素,K3评估进行测量的能力,K4评估记录数据的能力,对应的认知过程分别为“应用与分析”和“知识与理解”层次。

(三)组卷与测评时间

NCA-S科学纸笔测验以三张独立的试卷呈现,每张试卷对应生物、化学或物理中的一门,每门有五个版本的试卷,每个学生将拿到其中的一个版本,依次进行;纸笔测验总时间是75分钟(详见表4)。

表3 NCA试题单元K题目属性

表4 2016年科学测试基本构成[4]

二、教师主导评估

教师主导评估是教师对学生学业成就进行的内部评价,镶嵌于教学过程中。在每个阶段末,教师要根据学生在整个关键阶段的进步和表现,对学生的综合表现做出评判。评判依据有两方面:学生的写作、实践或口语类相关表现和家庭作业。标准与测评部会在评估的前一年发布下一年的评估框架,2014年实施新课程以来,教师主导评估框架处于不断修订当中,2016和2017年都使用临时评估框架,该框架包括学科评估的原则和期望标准[5]。

(一)评估原则

科学学科评估原则主要有:

●临时框架仅用于关键阶段末教师主导评估,不作为整个关键阶段教师跟踪学生进步的依据。临时框架并不包含所有国家课程的内容,而是重点强调评估的主要方面。

●学生达到框架中所列出的成就标准要能够表现出更为广泛的技能,而不局限于被评估的技能。

●临时框架不作为指导个人学习、课堂教学实践或方法的依据。

●教师必须依据每个学生在课程学习中的一系列表现证据做出评估。

(二)期望标准

科学学科期望标准包含“科学地工作”和科学内容两部分,使用“学生能……”的形式列出了期望学生达到的标准。例如,以下是“科学地工作”的部分条目。

旅游者使用航空交通工具从出发点被带到旅游目的地,这样一来相关地区的旅游地区就会形成大量的客流源,在一定程度上带动当前地区旅游业的发展。城市当中具有的机场的数量以及相关的规模也会对进入旅游地区的人数产生重要的影响,所以说航空业能够有效地带动旅游业的发展。航空也在无形之中带动旅游业的发展,旅游业也在无形之中推进航空业的发展,两者合作共赢,相互提高。

“科学地工作”:必须基于国家科学课程中的科学内容进行教学。学生要能:

●描述和评估自己和别人的科学概念,这些概念与国家课程中的主题相关;通过多种途径使用证据。

●基于正在学习的科学现象提出问题,选择合适的方法,制定计划来尝试回答这些问题或来自别人的问题,能辨认并控制变量,包括观察不同时期的变化,注意模式、分类、分组,进行对比、设计合理的测验,使用大量的二手信息资源尝试找到答案。

在评价过程中,教师必须有证据来说明学生达到了所要求的期望标准。对于有生理缺陷或其他学习障碍的学生,可以使用其他类似的交流与学习方法进行评估,所以在评估之前,要将学生分为两类,一类是要达到期望标准的学生,一类是不需要达到期望标准的学生。如对于由于生理缺陷导致无法完成所要求内容的学生,可以在评估时给予特殊考虑,对于无法写作的学生不需要进行动手写作方面的评估[6]。

(三)评估样例

表5是教师主导评估的一个指导样例,题目为“我们是怎样看见东西的”。

表5 教师主导评估样例

根据这一指导,教师可以在日常的学习过程中让学生画出“人眼看到花”的光传播路径,并解释为什么。这一过程可以用作业的形式完成,也可以用实验报告的形式完成,还可以通过课堂口头回答的形式进行。教师必须要有相应的记录或材料作为证明,来说明该生是否达到了这一内容目标。

三、基于情境类型学的NCA-S试题情境分析

通过复杂情境或情境化试题来评估学生的学业或素养成为国内外研究的共识。然而,设计怎样的试题情境才能实现学业整合,这依然是学业测评面临的一个挑战。本研究对试题情境的界定借用了易克萨维耶·罗日叶提出的“问题情境”。罗日叶认为,问题情境是针对某个既定任务,要求一个或一群学生联结起来的一组背景化的信息,由情境和问题两部分构成,情境所带来的是一个主体和一个背景,而问题则主要指对应的一个障碍、一个有待完成的任务[7]。基于这一界定,本研究对NCA-S测评试题情境进行分析。

(一)研究对象

根据表4,2016年的测评共有15套试卷,本研究只选取物理、化学和生物试卷各一套。而NCA-S试题以“试题单元”的形式设置,因此三套试卷共有14个试题单元59道小题。

(二)分析框架

表6 试题分析框架

该框架包括辨别参数、内容参数和装扮参数三个维度。所谓辨别参数指可以从外部特征认同这个情境属于某类情境的因素,不需要考虑情境内部的描述参数,如试题情境范围、所属学科领域等;所谓内容参数指从情境设计的目标划分,希望学生通过该情境调动哪些领域的知识、发展哪些能力、是否涉及公式计算等;所谓装扮参数指经过装扮的、给予学习引导或提供帮助或设置障碍的相关参数,只包括“情境的图形式呈现”,即以怎样的形式呈现试题[8]。

为了保证分析过程的客观性,本研究首先对试题进行翻译和编号,然后对参与分析的2名研究生进行培训,并使用3道题目进行练习,最后与笔者一起进行正式分析。

(三)分析结果

1.辨别参数分析

辨别参数包括六个条目,分别是情境范围、情境主题、所致力于发展的学生型面、涉及的学科领域、期待的作业和情境的开放等级。从情境范围来看,试题情境基本在学科和个人生活范围,不涉及区域或全球问题。从情境主题来看,个别试题涉及科学史,但以学校学习内容和日常生活主题为主 (如图1)。在学校内容和日常生活相关的主题中,有部分试题具有明显的探究过程,致力于培养一个学科内部或日常生活中的科学探索者。例如以两个同学探究鞋底的“抓地力”直接进入问题或者给出已有的材料进行探究等,所体现的是对具体知识的理解和运用具体知识解决问题的能力。虽然物理、化学和生物卷分别独立呈现试题,但从试题解答所需的知识来看,仍然有一定数量的试题需要学生调动两个学科的知识才能解答,如图2,涉及多学科领域的试题占29%。

图1 NCA情境主题

从期待的作业类型来看,包括选择答案、提供解释、归纳总结描述、解决一个问题、绘制图表、设计一个方案或方案的一部分、选择并做出解释等。从图3可以看出,“答案选择”和“描述归纳”所占比例基本相当,都超过30%,提供解释占25%,其余作业类型所占比例较少,其中绘制图表包括完善条形图和画出受力示意图。总体来看,需要语言描述的试题较多,“描述归纳”与“提供解释”就已经占到55%,但语言描述的篇幅一般都比较短。少量试题要求做出选择并进行解释。

图2 NCA情境涉及的学科领域

图3 NCA期待的作业类型

从试题的开放程度来看,开放性试题占有一定比例,如在“B种子传播”中,在用扇子模拟了风让种子传播之后,要求学生提出自然界中在风的作用下传播种子的案例;在“F流动的油”中,要求学生提出一个能保证实验合理操作的方法,实际上主要针对控制变量,但由于需要控制的变量比较多,所以答案并不唯一。

2.内容参数分析

从内容参数来看,对知识内容的考查主要以评估方案中列出的内容标准为依据,每道试题评估对应的条目都有明确的说明。在能力的评估方面,个别试题的考查目标直接针对科学探究条目,很多试题都只评估科学探究的某一要素。由于没有总背景,只是围绕一个主题或事物设计问题,所以各小题可能在背景方面有较大差异,部分小题内部可能有一个背景,或者几个小题共同围绕一个背景,这就使得部分问题的解决需要依赖前面的作答,从分析结果来看,有四个试题单元中的部分小题需要依次作答,问题之间并不明显独立。从问题与背景的相关性来看(如图4),75%的问题与背景高度相关;从问题与具体知识的相关性来看(如图5),63%的问题与具体知识高度相关。说明多数试题情境提供了相应的已知条件,少数背景只是提供一个环境,与试题作答无关,约有37%的试题考查科学探究能力,不需要学生直接回忆所学的具体内容进行解答,如从表格中获取信息归纳结论、描述因果关系等。试题几乎不涉及具体的科学公式计算或数学计算。

图4 NCA问题与背景的相关性

图5 NCA问题与具体知识的相关性

3.装扮参数分析

如图6,从“情境的图形式呈现”来看,既有只以文字或图片呈现的试题,也有文字、图片、表格混合呈现的试题。从所占比例来看,单独以文字形式呈现的试题和“文字+图片”形式呈现的试题最多,都占到35%以上,“文字+图表”和“文字+图片+图表”的形式也占有一定比例。

图6 NCA情境图形式呈现

四、总结与讨论

根据分析可以看出,英国NCA-S测评框架与试题情境设计具有明显的特点,能够为我国构建科学学业测评框架和命制试题提供一定的借鉴,但也有一些问题需要我们讨论与反思。

(一)英国NCA-S测评框架与试题情境设计的特点

1.将内容领域与认知领域结合构建纸笔测评框架,内容领域表述具体要测评的知识内容,包括科学探究要素;认知领域根据操作或概念的组成部分的复杂度及其之间的关联分为“知识与理解”、“应用与分析”和“综合与评估”三个层次。

2.测评内容详细列出了要测评的知识内容和能力,并列出了无法通过纸笔测验进行测评的知识与能力,且说明了无法或不能完全测评的原因。

3.评价方式将纸笔测验和教师主导评估结合。纸笔测验的试题按生物、化学、物理在三种试卷上呈现,试题以“试题单元”的形式设置;教师主导评估作为一种过程性评价和表现性评价,很好地弥补了纸笔测验的不足,可以将科学实践等纸笔测验无法测评的内容纳入范围。

4.试题情境设计范围基本局限在学科和个人生活范围,不涉及区域或全球问题;情境主题以学校和学生日常生活中的事件或事物为主,关注日常生活;文字描述类试题较多;试题多以文字、图片和表格结合的方式呈现。

5.科学探究能力包含计划、实施、测量、记录、结论、报告六部分,每部分作为单独技能与知识领域整合考查;对科学探究能力的综合考查主要通过教师主导评估进行。

6.将特殊学生纳入科学学业测评的范围,但又不需要全部都达到期望标准;测评管理和试题设置尽力满足特殊学生的需求。

(二)讨论

1.如何理解NCA-S测评框架的取向?

NCA-S依据国家科学课程标准,将内容领域与认知领域结合构建测评框架,这与国内通常采用的“双向细目表”基本类似,一个维度规定考试涉及的学科知识或技能,即内容领域;另一个维度描述知识或技能的掌握水平,即认知领域。这种测评框架主要依据布卢姆的教育目标分类学构建,在国内应用广泛。有研究指出,这种测评框架指向的是一种以学科知识点为纲、以知识点掌握水平为质量水平的学业质量观。这一质量观过于关注学生在知识点上的认知,缺乏对事物或现象的整体认识和思考,缺少知识整合和综合运用[9]。然而,作为实施素养取向教育的国家之一,英国早在1999年就提出了6大关键技能①1999年,英国资格与课程局提出了六大关键技能(key skill),国内也译为“核心素养”,分别是:交流、数字应用(Application of number)、信息技术(ICT)和与人合作(Working with others)、问题解决和提升自己的学习和表现(Improving own learning and performance)。,为何在2016年的科学学业评估中却采用知识取向的测评框架?有研究指出,由于英国2007版国家课程标准的缺陷和学生学业成就下滑、教育不公平现象加剧等一系列现实问题,英国2013年版的新课程出现了较为明显的“知识转向”,在课程内容的选择上,从强调技能导向转向强调知识导向;在课程知识的组织上,从强调跨学科知识转向强调学科知识;在课程学习评价的设计上,从强调知识分层转向强调知识标准[10]。由此来看,英国新课程的“知识转向”正是这种测评框架出现的原因。

实际上,分析2007年英国科学课程目标可以发现,除知识主题外,还包括科学思维、科学的应用及其意义、文化理解、合作四个关键概念和实践与探究技能、批判地理解证据、交流三个关键技能,而2013年的科学课程目标以一个统一的主题“科学地工作”包含了关键概念和关键过程,将科学知识也整合为物理、化学和生物三大学科板块,确实出现了所谓的“知识转向”。当前,在我国大力提倡基于核心素养的课程构建与学业测评背景下,英国国家课程的这一转向及其学业测评框架的知识取向值得我们进一步研究和反思。

2.如何理解NCA-S试题设计的特点?

首先,从NCA-S试题呈现的形式来看,以“试题单元”的形式呈现题目,可以根据情境对相关内容进行深入考查,也可以考查多个领域,更有利于评估学生对知识的深度理解情况或整合使用能力,这比只含独立问题的选择或填空题更适宜于评估学生的科学学业;但NCA-S将物理、化学和生物内容分别在三张独立的试卷上呈现,这似乎又不利于科学知识的进一步整合。其次,从情境范围来看,基本局限在学科和个人生活范围,不涉及区域或全球问题,这可能与小学生的生活范围有关,但从发展学生STSE意识的角度来看,这样的情境范围有很大的局限性。最后,从问题与背景和知识的关系来看,多数问题需要学生在回顾已学具体知识的基础上进行作答,少量试题的背景描述与试题作答无关,只是提供一种“引子”或创设一种“情境”。根据当前对核心素养目标下试题设计的研究,试题要关注情境设计、学科内容的整合与关联。英国NCA-S测评试题是在其知识取向测评框架下设计的,需要我们在借鉴时有所取舍。

五、结语

总体来看,英国NCA-S测评框架和试题设计能为我国科学教育质量监测提供一些借鉴,如针对纸笔测验的局限性,在测评指导方案中罗列出无法通过纸笔测验实现的目标并鼓励教师在教学过程中进行评价,将终结性评价与过程性评价结合;以“试题单元”的形式呈现试题,试题背景关注学生的日常生活;将特殊学生纳入评价范围,并给予特殊照顾等。但其测评框架和试题设计需要我们采用批判的眼光客观审视与理解,同时不断反思我国科学学业测评的方向。

猜你喜欢

纸笔测验学业
“无纸笔”闯关,乐翻天
艰苦的学业
谈学业不良学生的教育策略
音乐提升学生学业表现
单宝塔诗
两个处理t测验与F测验的数学关系
数字测验
衍纸手工
你知道吗?
35