APP下载

国际大规模教育评价的经验与趋势

2016-07-28袁建林刘红云

中小学信息技术教育 2016年7期
关键词:测验试题测试

袁建林++刘红云

近年来,大规模教育评价成为国际教育研究与实践领域广泛关注的问题。大规模教育评价是指通过抽取目标测试群体中的代表性样本,对样本学生进行学业成就和相关影响因素的分析,为监测不同国家(地区)的教育结果提供统一的量尺,并为教育政策的制定提供参考。当前国际上有影响力的大规模教育评价项目主要有:国际学生评价项目(Programme for International Student Assessment,PISA),国际数学与科学趋势研究(Trend of International Mathematics and Science Study,TIMSS),国际成人能力评估项目(Programme for the International Assessment of Adult Competencies,PIAAC)等。PISA因具有评价理念先进、参与国家较多、评价流程设计完善等特点,是国际大规模教育评价的代表性项目。本文具体介绍PISA的主要经验、做法以及发展的最新趋势,以期为我国大规模教育评价提供借鉴。

PISA项目简介

PISA由世界经济合作组织(OECD)于1997年创立,主要基于一个共同的、国际性的框架测评学生的学业成就,以此监测各个国家(地区)教育系统的产出(Outcomes)[1]。基于国际统一的测量尺度,能在横向维度反映一个国家该阶段教育所处的相对位置,为教育政策的制定提供更加多元的参考途径。PISA测评的对象是15岁左右的学生,主要测试内容领域是数学素养、阅读素养、科学素养,测试每三年举行一次,每次测试侧重一个学科领域,三个主要内容领域9年完成一次循环测试。除了三个主要内容领域,PISA测试还会关注其他领域,比如问题解决、金融素养、合作问题解决、全球意识等。

PISA并不是第一个国际性的大规模学生成就测验。在PISA开展之初,国际教育成就评价协会(IEA)、ETS等组织主持的大规模评价项目取得了丰富的成效。但是这些项目局限于部分学科的学业成就测评,由于早期参与国家的数量有限,在一定程度上限制了测验的可比较性。更重要的是,这些项目都是以课程内容为基础,不同国家的课程与教学的差异决定了评价框架只能建立在参与国课程的共同部分和基础部分之上,忽略了课程与教学的多元化、个性化。PISA成功地吸取了这些项目的经验,在其建立之初呈现以下几个方面的特色[2]。(1)PISA根源于各国政府对自身教育监测的需要,基于实际数据与证据,为政府教育政策的制定提供参考。(2)PISA测评的周期性使得各国政府能定期监测核心领域的发展变化情况。(3)PISA测评对象是15岁左右的学生,该阶段的学生临近义务教育末期,监测该阶段的学生学习结果反映了一个国家义务教育阶段总的状况,也反映了为适应未来学习与生活的学生对知识与技能的掌握情况。(4)PISA强调素养的测验,而不是基于参与国课程与教学的共同部分和基础部分设计测评框架,PISA认为这是其区别其他国际大规模教育评价的显著特征。

PISA的主要经验

1. 侧重于考查适应未来所需的能力与素养

参与PISA测试的国家和地区课程目标、教学形态各异,PISA难以依据各国的课程标准定义测试的内容与框架,因此开创性地提出测试学生素养(Literacy)的评价理念。PISA从国家与社会人类资本发展的视角,认为未来公民应该掌握与个人、社会、经济财富相关的知识、技能、能力以及其他属性,其所测量的素养跨越学科、跨越国界,强调运用所学知识和技能,有效进行分析、推理、交流,在各种情境中解决和解释问题[3]。PISA关于素养的测量较直观地体现于内容领域的评价框架设计,比如PISA2015关于科学的素养框架应包括科学背景、科学知识、科学能力、科学态度四个方面,数学素养框架包括数学过程、数学内容、数学情境三个方面。PISA基于素养的测试理念不仅与选拔性的考试有本质区别,也与基于课程与教学标准达成的诊断性评价、形成性评价不同。PISA认为:现代经济形态偏好于个体“能做什么”,而不是“知道什么”,评价学生的素养与此变革是相一致的[4]。

2. 关注影响学业成就的背景因素

学生的学业成就会受到家庭环境、学校环境的影响,也与学生自身的动机、态度、情感等因素紧密关联,大规模教育评价一般会关注影响学业成就的背景因素。PISA开发了学生问卷、父母亲问卷、校长问卷、教师问卷,调查影响学业成就的家庭背景、学习方法、学习环境、教学策略等因素。背景问卷中所包含的各种量表需要精心的设计和严格的测量学指标检验,基于量表的测量结果能提供各种指标反映学生身心发展情况,能提供反映家庭环境与学校环境现状的各种指数。丰富的背景因素数据能用于研究各种因素与学业成就之间的关系,诊断、分析影响学业成就的原因,揭示学业成就差异与变化背后的潜在规律,为诊断教育现状、改进教学绩效、完善教育政策提供客观的证据支撑。

3. 采用复杂的抽样设计

出于测验成本的考虑,大规模评价项目都会从测试目标总体中抽取代表性的样本,通过样本的测验推论目标总体的情况。参与PISA测试的大部分国家都采用两阶段抽样设计方案,第一阶段采用PPS(Probability Proportional to Size)抽样技术[5],按照规模大小成比例抽取学校,每个国家至少抽取150所学校;第二阶段在样本学校内随机抽取学生,每所学校抽取42名学生。PISA的分层抽样设计提高了抽样的效率,确保了样表的代表性,能满足特定国家不同的抽样设计需要。此外,PISA的抽样还体现在测试内容抽样方面。大规模测验需要足够多的试题,以确保对测试内容的代表性,但每次测验的时间有限,因此产生有限的测验时间和宽泛的测试内容之间的矛盾。PISA主要采用不完全平衡矩阵抽样组织题册,将覆盖学科领域的所有试题分成几个小的题册,每个小题册经过等值处理后,让每位学生接受其中一套小题册的测试,以此减少每位学生需要测试的试题,同时确保对学生能力的准确估计。

4. 确保横向与纵向的可比较性

PISA被世界各国广泛认可的重要原因之一是它为各国教育之间的比较提供了统一的量尺,建立这种统一的量尺并不是让所有参与测试的学生完成同一套试卷,它涉及较复杂的测验设计和教育测量技术,即等值技术。为确保测验内容的代表性,PISA采用矩阵抽样技术组织测试题册,这将导致不同的学生可能接受不同的试题测试。因此,在估计学生的能力之前,需要利用等值技术将不同题册的试题标定到统一量尺上,即需要将项目的难度参数标定到同一尺度上,然后对学生的能力进行估计,当项目难度参数统一尺度之后,所估计的学生能力值也就具有可比性,确保了横向层面各个国家(地区)测验结果的可比性。在纵向层面,PISA主要采用在不同次测验中锚定共同题的方法建立统一量尺,确保了不同次测验分数之间的可比性,为各个国家(地区)分析不同年度学生成就的发展与变化情况提供了可能。这里仅简要描述了PISA利用等值技术确保横向层面各个国家之间和纵向层面同一国家不同次测验之间可比性的基本原理,在PISA实际测试工作中,所采用的方法、过程与此相比更加复杂。

5. 确保测验的公平性

参与PISA测试的国家语言、文化迥异,如果试题设计不当,学生很容易因为语言文化的差异造成对试题情境的理解偏差,从而导致测验偏差。为确保测验的公平性,PISA在试题情境设计时会考虑情境的通适性,设计的情境不能只适应于部分国家或部分文化语境;在试题翻译时会多次来回翻译,确保翻译的准确性和跨文化环境的适应性。此外,PISA初步完成试题开发之后,会选取参与国(地区)的学生进行试测,根据试测结果分析试题特征以及试题特征在不同群体之间的表现差异[6],检验项目的功能差异,确保学生分数变异仅体现自身能力水平的差异,不受其他无关因素的影响。根据统计分析的结果,PISA会进一步删除、修订表现较差的试题,确保试题对所有学生都公平。

6. 提供多元化的评价报告

由于系统性的评价设计和丰富的数据基础,PISA能提供丰富、多元化的评价报告,主要有学科领域报告、国家报告和特定专题报告三大类。学科领域报告是PISA每次测验的主要报告,该主报告会提供多种语言版本,描述每个学科领域学生平均表现、发展趋势、不同水平表现、性别差异等,呈现各个学科领域在本次测验的总体测验结果[7]。国家报告描述参与测试的国家(地区)各测试领域的整体情况,总结学生在本次测验中的相对位置,展示本国学生表现较好的方面和较差的方面。特定专题报告不固定形式、灵活多样,有些是对某个特殊领域(比如问题解决、金融素养等)的整体测验情况描述,有些是关于某个特定研究主题(比如ICT与学习表现的关系研究)的结果呈现[8]。此外,PISA的测试数据会完全公开,研究者可以依据自己研究需要,免费从PISA官方网站获取所需的数据。

PISA基于技术的测评发展

从PISA已经开展的五次测验来看,PISA的评价框架、测评内容、测评形式总体上保持相对稳定。但是近年来,随着信息技术在教育测评领域中的应用,深刻变革了教育测评的理念、技术、方法,以核心素养研究为代表的教育目标反思思潮促进了教育测评领域对核心素养这类高阶能力的测量研究。在此变革潮流中,PISA的发展与变化主要呈现以下两方面特征。

1. PISA从纸笔测验向基于技术的测验转变

PISA2009在阅读素养的测评中首次尝试利用计算机技术,被称为数字化阅读测评(Electronic Reading Assessment),主要基于计算机技术将阅读内容数字化,提供交互式的、动态性的阅读内容[9]。2012年,PISA基于计算机技术测量问题解决、数学素养、科学素养以及数字化中的阅读,拓展了基于计算机的测量内容[10]。2015年,PISA首次将所有的测试转变为基于计算机的测验形式[11],对于传统的阅读素养、数学素养、科学素养等,提供纸笔测验和基于计算机的测验两种形式供参与国自行选择,特别是,因为全面采用基于计算机的测验形式,PISA2015在试测阶段研究了基于计算机的测验和纸笔测验的等价性[12],为测验项目整体开展打下了基础。

总体来看,PISA将传统的纸笔测验转变为基于技术的测验是PISA测验形式发展变化的必然趋势,这种转变有其特定的原因:首先,与纸笔测验相比,利用信息技术能构建交互性的、动态性的测试环境,丰富了测试内容的呈现方式,能提供PISA关于素养测验所需的真实情境。其次,基于技术的测验环境能完整捕获学生解决问题的行为与操作过程,基于完整的过程数据能分析学生的问题解决过程,对深入分析学生思维过程、思维方式提供了更加直观的证据,能满足PISA关于测试学生运用所学知识、技能解决真实情境问题的需求。再次,参与PISA测试的学生数量众多,语言文化差异显著,传统纸笔测验的阅卷、评分工作成本较高、管理复杂,基于技术的测验可以较容易地解决该问题。

2. 基于技术的高阶能力测评

PISA基于技术测评高阶能力是其发展变化的另一重要特征。这种发展趋势与当前世界范围内关于核心素养研究的热潮紧密关联。核心素养是指未来社会公民所需要的关键技能和必备品格,是一类包含知识、技能、态度、价值的高阶能力。在这场教育目标反思思潮中,教育测量与评价领域不可回避的问题是——如何测量这类结构复杂、高度抽象的高阶能力。PISA2015采用“人机交互”的方式测量了学生的合作问题解决能力,为核心素养这类高阶技能的测量提供了新的测评策略。PISA的具体做法包括:定义能力框架、设计包含嵌入式试题的测验任务、获取学生完成任务过程中在项目上的反应、依据测量模型推断学生的能力。以下结合PISA2015释放的样题解释其测评的原理。

(1)合作问题解决能力测评框架。PISA2015合作问题解决能力包含“合作”和“问题解决”两个维度,其中合作维度是合作问题解决能力的主线,提出了三种核心的合作问题解决能力,包括“建立与维持共享的理解”“采取合适的行动解决问题”和“建立与维持团队组织”。问题解决维度主要包括:探究与理解、表征与形成、计划与执行、监控与反馈。三种核心的合作问题解决能力和四个个体问题解决过程交叉形成了包含12类技能的矩阵(见表1),矩阵中的每个单元格代表一类技能[13]。

(2)测验过程。PISA2015“人机交互”测验模式是指人与代理(测试任务中设计的虚拟搭档)进行对话合作解决问题的过程,图1为PISA2015释放样题的某个界面。界面左边是学生与代理之间的对话区域,在该区域上边是合作的成员之间的对话历史记录,下边是根据当前对话进程提供的一些选项,被测学生可以选择其中某个选项作出对合作搭档的反应,合作成员会根据学生的选项自动作出反应;界面的右边是任务区域,在该区域学生为完成任务可以进行各项操作,任务的进程与会话的进程同步。

(3)测量原理。“人机交互”测验模式主要采用会话代理技术,合作成员之间的对话流程与路径事先需要精心设计,对话流程是一个有固定分支路径和多个节点的交互过程,如图2所示。每个对话节点相当于一个试题(Item),对应于操作性定义框架中的某种技能。对参与测试学生的合作问题解决能力的测量体现于学生在每个节点上所作出的不同反应,也就是选择的不同选项,类似于传统测验对某个试题的作答,作为推论合作问题解决能力的直接证据。在获取学生对测验项目的反应模式之后,采用IRT(Item Response Theory,项目反应理论)模型估计学生合作问题解决能力的得分。

猜你喜欢

测验试题测试
2021年高考数学模拟试题(四)
幽默大测试
2019年高考数学模拟试题(五)
《陈涉世家》初三复习试题
2019届高考数学模拟试题(二)
“摄问”测试
“摄问”测试
“摄问”测试
《新年大测验》大揭榜
两个处理t测验与F测验的数学关系