基于教育评价理念的高考历史学科命题研究*
2018-01-10马秀谊
马秀谊
(南京大学历史学院,江苏南京210024)
基于教育评价理念的高考历史学科命题研究*
马秀谊
(南京大学历史学院,江苏南京210024)
教育评价,高考,历史学科,命题
作为国家基本教育制度的考试招生制度,历来都是社会关注的焦点,目前新一轮高校招生制度改革正在稳步推进,上海、浙江已经完成了本轮改革的首届高考工作。高考不但关系到国家选才和社会公平,而且又是衔接基础教育和高等教育的重要环节,其中考试形式和内容的改革与基础教育课程改革息息相关。2014年,国务院在《关于深化考试招生制度改革的实施意见》中就提出“改革考试形式和内容”,但是“考什么、怎么考”并未引起教育界足够的重视和研讨。本文尝试引入国际主流的教育评价理念,对传统教育考试进行改进和提升,重点关注命题设计的理论基础和实施路径,在厘清教育评价内涵的基础上,以历史学科为研究对象,探讨学习目标、修订后的布卢姆教育目标分类法和题型改革等命题设计的基础性问题,着力于打造具有评价功能的教育考试,更好地发挥导向教学的作用。
一、打造具有评价功能的教育考试
1.教育评价理念的内涵和新要求
教育评价(evaluation)主要是在20世纪20年代对“测量运动”进行批判的背景下开始出现的。19世纪末20世纪初,在美国迅速发展起来的“测量运动”给整个教育界带来了很大影响,例如,从20世纪20年代起,一些教育家曾推广各种教育测验,如阅读测验、算术测验等。但是,过分强调标准化考试,以及采用了较为方便的客观测试的形式,造成学校教育理念发生较大偏差。例如,许多学校为考而教、为考而学,考试与教育发展的目标偏离越来越远,从而引起社会越来越多人对标准化测验以及测量运动的担忧,也引起人们对教育及其考试发展的深入思考。
受美国进步主义教育运动的影响,泰勒在“八年研究”的基础上,提出了教育评价的理念,主要是从学生的全面发展和多层次的教育目标的需要出发,进行课程、教学、评价一体的教育改革。“所谓教育评价(evaluation),与测量(measurement)和考试(examination)不同,不是为了给学生排序和分组,而是为了验证和改善教育课程,为学生的学习提供有效的信息,还需要开发和研制从多角度、多层次把握学生的学习行为的评价技术。”①〔日〕田中耕治:《教育评价》,高峡、田辉、项纯译,北京:北京师范大学出版社,2011年,第29页。我们这里强调区分“教育评价”与“测量”“考试”的不同概念,就是要进一步明确“教育评价”的使用意义。教育评价强调的并不是仅仅从选拔排序的角度设计考试,而是要让教育评价理念变成保障学生高水平学业的有效措施,教育评价的行为不是要暴露学生的个体差异,而是要成为服务于教育教学的诊断性工具,根据通过这种评价活动所得到的信息,来检验和改善教育活动。
实质上,近年来教育评价理论和技术的发展也取得了长足的发展,更加丰富了教育评价理念的内涵和内容,必然会对教育教学实践和招生考试制度产生重要的影响。因此,从教育评价的视角设计考试就显得更为迫切,唯此才能充分发挥导向教学的作用。
2.高效教学离不开教育评价
毋庸置疑,教学与学习是不可分割的,但是课堂中的教与学只包含课程和教学指导是远远不够的。除了要知道教什么和如何教之外,教师必须还要全面了解学生在教学过程中的学习特征以及程度,而评价正是教师观察学生学习和教学效果的重要手段,但是这一点经常被一线教师所忽略,“高效教学最为重要的基础之一在于认识课程、教学指导、评估三者之间的三位一体性。然而,评估这一环节却时常在课堂教学中被无意低估”。①〔美〕克里斯托弗·R.加赖斯、莱斯利·W.格兰特:《学习评估教师手册:课程、教学、学习整合策略研究》,荣榕译,南京:江苏凤凰教育出版社,2017年,第4页。怎样才能实现高效的教学,前提就是要了解学生的学习状况,而具有评价功能的考试正是推动教学最有效的工具,这是因为这样的考试能够提供有意义和内涵的反馈信息,帮助师生在教与学程中得到改进和提升。在新一轮普通高中历史课程标准的修订中,增加了考试命题的相关内容和要求,这就是最好的例证。
正是因为教学、学习、评价具有一致性,才需要从教育评价的视角来设计考试。教育考试不能仅仅只是为了鉴别和区分,真正科学的考试,一方面在设计和实施中要有好的效度和信度,另一方面要能够采集足够的信息来反馈教学。基于教育评价的理念来设计试卷,就是要将“为什么考、考什么、怎么考”置于整个教育发展这一链条中,通过“以评促学”来提升教育质量,这才是考试的真正意义所在。
二、学习目标与布卢姆教育目标分类法
准确认识学习目标是教学、学习和考试的基础性工作,无论是教师还是教育考试机构,当对学生的学习情况和学习水平进行评估时,都必须确保测试的效度和信度。要保证测试的效度和信度,必须首先全面了解学习目标。要做到这一点,比较有效的方法就是对学习目标进行分解。“分解”指的是,为了明确考试对知识内容和认知层次的要求,对现有的课程内容和目标进一步细化、明确的过程。
那么我们究竟要分解什么?具体讲,每项目标都应包括两个基本要素:知识内容和认知行为。第一,作为知识内容来讲。在教学和测试过程中,往往对知识内容较为重视,例如,每当问起“这份试卷考了什么?”教师常常会讲,这道题考查了“工业革命”“英国君主立宪制”,等等。可见,很多教师最为关注的是知识内容。这并没有什么不妥,但是如果仅仅把知识内容等同于教学内容或者考试的主要目标,那么就会出现很大的偏差。第二,认知过程维度更需得到关注。实际上,设计有效、可信的测试,除了对知识内容要有清晰的理解,更应充分了解认知行为。在基础教育阶段,认知行为能力也是较为重要的,例如根据布卢姆教育目标分类法,我们能通过观察学生的外在表现和行为来推导他们的认知水平,很多教师应该对这一分类法较为熟悉。近年来,布卢姆的学生安德森对原模型进行了调整,并于2001年出版了布卢姆教育目标分类法的修订版。安德森一方面对认知层次作了更为详细的解释,另一方面也对原分类法进行了重新整理和排序,应用起来更为有效。“认知过程维度取消了‘综合’,主要分为记忆、理解、应用、分析、评价、创造”。②〔美〕洛林·W.安德森等:《学习、教学和评估的分类学:布卢姆教育目标分类学修订版》,皮连生译,上海:华东师范大学出版社,2007年,第 59~60页。例如,美国的一位高中历史教师在讲解二战后美国历史时,对所在教学区的课程标准中的学习目标进行了分解,主要是运用布卢姆教育目标分类法对不同的认知行为进行了明确,如图1①〔美〕克里斯托弗·R.加赖斯、莱斯利·W.格兰特:《学习评估教师手册:课程、教学、学习整合策略研究》,荣榕译,第57页。所示:
图1
如图1所示,布卢姆教育目标分类法能够对不同的认知行为进行合理划分,如果将它与教学过程有效结合,当教学触及了知识内容和认知过程维度两个方面后,肯定会对教学和学习带来更为显著的变化。根据上述分解和解构的方法,笔者现对新一轮即将实施的课程标准中的一个学习目标——“改变世界面貌的工业革命”进行分解,下面具体加以说明。
18世纪下半叶,英国开始工业革命,它造成了人类历史的重大变化,不仅意味着经济的巨大增长,而且意味着社会的整体变动。例如,“铁路改变了英国社会,这不仅体现在成百倍增加的运输量、数十倍提高的运行速度上,也不仅体现在把全国交织成一张铁路网、从而把各地区不分远近连成一体上;它还改变了人的思维模式,改变了人对生活的看法”。②钱乘旦、许洁明:《英国通史》,上海:上海社会科学院出版社,2012年,第220页。可见,工业革命是个影响到人类命运的总体过程,最终改变了历史前进的方向,我们在历史学习和教学中,更需要立体化的观察和多角度的思考。因此,为了更全面的学习工业革命这一课程内容,我们可以这样解读:第一,“了解”在认知过程维度中应属于“记忆”层次,因此工业革命带来的社会生产力的极大发展和所引起的生产关系的深刻变化,这一知识内容在教学和考试过程中应达到识记的目标;第二,在课程标准中还运用了“理解”这一行为动词,我们应该如何认识?我们以往遇到的很大一个困扰就是无法准确说明,在教学和考试评价过程中也经常模糊使用,甚至会导致误用的后果。“修订后的布卢姆教育目标分类学帮助我们拓展了教育目标的范围,尤其是对学习迁移的目标进行了重点解读。下面具体以‘理解’这一认知目标为例加以说明。‘理解’在日常教学和考试评价过程中的应用是最为广泛的,但是常常被笼统的使用,甚至误用,经过安德森等人的修订完善后,‘理解’具体分为:解释、举例、分类、总结、推断、比较和说明,层次更加细化,在实践中更具操作性。”③马秀谊:《基于普通高中历史学科核心素养的考试研究》,《历史教学》(上半月刊)2017年第3期。实质上,“理解”这一认知行为包含多个思维角度和指向,如果能够更为全面地认识认知行为,还可以帮助我们拓宽试题命制的技术和方法,这一点尤其需要引起我们重视。为了更为明确地阐述这一问题,下面具体以其中的“解释”为例,探讨“解释”这一类别的含义和思维指向,以及对应的试题形式。“解释是指学生能够将信息从一种表示形式转变为另一种表示形式,它可能涉及将文字转变为文字,将图画转变为文字,将数字转变为文字,将文字转变为数字,等等。解释的同义词是转化、释义、描述和澄清。”④〔美〕洛林·W.安德森等:《布卢姆教育目标分类学:分类学视野下的学与教及其测评》,蒋小平等译,北京:外语教学与研究出版社,2016年,第54页。在高中历史学习和测试中,“解释”类别中的“释义”“转化”运用较多,具体说明见下页表1。
需要注意的是,为了确保测试的是“解释”,而不是“记忆”,情境材料的设计至关重要。我们常常会在一些模拟试题中发现,本来是测试“理解”能级的试题,往往只能达到测试“记忆”的目标,很大原因是因为情境材料中没有包含新信息。无论是“释义”还是“转化”,关键都在于需要考生有能力将“新知识”与已学知识建立起关联,实现知识链和思维链的整合。
表1
三、题型测试功能与认知需求层次
在明确了考试目标之后,最为重要的就是选择测试项目需要的题型。在目前国内的教育考试实践中,考试题型按照评分方式的不同主要分为客观题和主观题,以高考历史(全国文科综合卷)为例,目前主要按照选择题和非选择题来分类。实际上,目前的命名方法只是从表面上进行概括,如果从教育测量学的角度来分类,应分为选择反应式题型和建构反应式题型。选择反应式题型主要是指能够将答题过程以选项的形式来展现的题型,要求学生从多个选项中选择,这类题型包括判断题、配对题、选择题等;建构反应式题型则是指需要答题者根据问题或者提示给予解答过程的题型,常用的题型有填空题、简答题、论文等。
只有选择了合适的测试题型才能达到教育评价的最佳功能,同时还需要考虑,测试的内容、认知需求的层次、评估的时长,等因素,这都要求我们必须充分认识不同题型的测试功能,具体如表2所示:
表2主要介绍了不同类型的题型与认知过程维度的对应关系,只有在准确认识题型测试功能的基础上,才能将之有效地应用到命题过程中。试题在命制过程中,应针对所学的知识内容和认知层次进行设计,重点关注试题涉及的知识内容是否对应了正确的认知层次?也就是说设计的试题是否满足了测试需求?下面具体以2016年全国Ⅱ卷第33题加以说明。
例题1:英国18世纪人口死亡率明显下降,但1816年以后死亡率上升。1831~1841年,工厂集中的伯明翰每千人死亡率由14.6上升到27.2,利物浦由21上升到34.8。导致上述情况发生的重要原因是
A.城市环境极其恶化
B.化学工业污染严重
C.人口膨胀食物短缺
D.医疗技术水平下降
答案:A
如何理解工业革命以及城市化进程中的正负效应,这既是学习的重点也是难点。工业革命造就了城市社会,既带来城市的诸多优越性,也引发了严重的城市病,从环境恶化到犯罪猖狂,从拥挤到疾病丛生,等等。例如,“卫生问题是‘城市病’的又一顽症。工业革命中大城市迅速扩张,但公共设施缺乏,经常出现人、畜、垃圾共处的现象,臭水塘举目皆是”。①刘成、胡传胜、陆伟芳、傅新球:《英国通史》第五卷《光辉岁月——19世纪英国》,南京:江苏人民出版社,2016年,第228页。该题的设计思路正是依据这一历史背景。从知识内容上讲。该题以18~19世纪英国人口死亡率的变化设置情境材料,主要考查工业革命对人类社会生活的深远影响,工业革命既给人类社会带来生产发展和科技繁荣,同时工业化进程中的环境问题也不容忽视。“与18世纪死亡率明显下降相比,显然19世纪死亡率上升的主要是城市,工业集中地区死亡率上升也佐证了这一结论。结合所学知识,可知早期工人阶级生活条件和工作条件十分恶劣”。①教育部考试中心:《高考文科试题分析(文科综合分册)2017年版》,北京:高等教育出版社,2016年,第103页。从认知层次上讲。考查某一历史现象或历史事件发生的原因在高考试题中经常出现,从布卢姆认知目标分类学上讲,这属于“理解”层次中的“说明(Explaining)”,常常用于历史学科中某一社会现象或历史事件的变化将如何影响到其他部分的变化。例如,“在社会课中,目标可能是说明18世纪重要历史事件的原因,与之对应的测评题要求学生阅读与讨论关于美国独立战争的课文,然后建构独立战争中事件的一条因果链,从而对独立战争爆发的原因作出最佳的说明”。②〔美〕洛林·W.安德森等:《布卢姆教育目标分类学:分类学视野下的学与教及其测评》,第58页。这里试题设计的关键在于:情境材料必须含有新信息,并且是历史事件的现象或者特征,需要考生运用已学的历史知识和思维构建起认知链条。观察上述这道试题的设计:一是试题情境与教材表述不具有重复性,教材知识没有从人口死亡率的角度来讲述工业革命的影响;二是选项设置也没有使用教材语言表述。所以说,这道试题能够实现知识内容和认知层次的结合,达到了“说明”这一能级目标的测试目的。因此,可以说该题较好地达成了学习目标和考试目标的一致。
表2
四、发掘和提升题型的评价功能:以选择题为例
根据前面的论述,我们已经初步厘清不同题型所对应的不同认知过程维度。以选择题为例,该题型不但能够考查“记忆”等低层次认知行为,而且还能较好地实现对“理解”“应用”“分析”等高层次的考查;但是无法实现对“评价”和“创造”的考查,因为评价和创造需要学生从无到有地去建构答案。“选择题提供了多项答案供学生判断,答案的内容和形式已经限定,无须重新填写。鉴于此,我们所讨论的选择题主要针对理解、应用和分析这三种高级认知层。”③〔美〕克里斯托弗·R.加赖斯、莱斯利·W.格兰特:《学习评估教师手册:课程、教学、学习整合策略研究》,荣榕译,第104页。
虽然选择题具有使用广泛、评分客观高效等优势,但是如果从教育评价的视角来审视,则会发现目前该题型仍有一定的不足,主要集中在作答结果只有正确和错误之分,无法完全展现考生的答题过程,同时也无法否区分出不同能力层次的考生。实际上,考生对于具有一定难度的试题,表现水平肯定有较大差别,不同选项的设计也代表了不同的答题水平,但是目前只有零分和满分的赋分原则无法满足这一要求,尤其是中等难度试题和难题,不可避免地会忽视部分中间群体的考生的答题情况。鉴于以上情况,我们可以从选项设计和调整试题赋分来进行改进设计,例如,在赋分上采用分层评价的方法,将选择题的作答情况分为三层,完全做对是满分,选择次佳答案得部分分数,完全错误为零分。实际上,这一理念和设计思路在2017年上海学业水平等级性考试(思想政治)试卷中得以验证,具体就是:在20道选择题中,有4道选择题采用此类设计方法,试题作答要求是:每题各3分,每小题只能选一个答案,选出最佳答案得3分,次佳答案得2分,错选得0分。
下面具体以2016年高考历史(江苏卷)第16题为例,探索分层赋分的思路和设计办法,具体加以说明。
例题2:下表是美国制宪会议中出现的三个国会建设方案。
方案一(弗吉尼亚方案)设立一个按人口比例分配表决权的国会方案二(新泽西方案)设立一个各州无论大小有同等表决权的国会方案三(康涅狄格方案)设立各州享受同等表决权的参议院和按人口数确定代表名额的众议院
最终方案的形成过程体现了
A.选举是民主原则的基本体现
B.国会是代议政体的权利中枢
C.妥协是现代政治的重要机制
D.分权是共和制度的关键措施
该题正确答案为C,中等难度题。该题考查的主要内容是对美国代议制的理解。在如何创建新的政治体制上,1787年费城制宪会议存在较大的分歧。“弗吉尼亚方案”倾向于按照各州人口分配国会席位,如果实行此设计方案,人口居于少数的州就处于不利地位。例如,当时作为最大州的弗吉尼亚的代表席位会是最小州的特拉华的10倍左右。“新泽西方案”提出在国会中每州不分大小都有同等的表决权,但是该方案忽视了不同州规模大小的实际情况,也遭到了较大的抵制。最终,在连续争论多日的基础上形成了“康涅狄格方案”,该方案实际上是在考虑多方利益基础上的妥协的方案,创造性地解决了代表席位的难题。可见,妥协是西方民主政治的重要机制,所以本题正确答案为C。
根据目前的题型功能和评分标准,选择C选项才能得分,其他选项都不得分。但是,我们可以探索从教育评价的视角对该题的设计方法加以改进。具体讲,将C选项设置为3分,D选项设置为1分,A、B选项设置为0分。理由如下:从干扰选项的设计中,不同的干扰选项有其自身功能,在认知层次和内容要求上,选择D选项的考生在学习能力和知识掌握上要优于选择A、B的考生。主要考虑因素有:部分考生之所以选择D选项,主要是因为目前在实际教学中很少会涉及美国国会建设方案的论争,教材中的主要内容是关于分权和制衡;相比来讲,部分考生选择A、B,则能看出这些考生基本没有读懂材料,学习能力较低。这在考试结束后的大数据统计中也得到了验证,“从考生选择情况来看,有近30%的考生选择了D项。……另外各有大约14%的考生选择了A、B选项”。①江苏省教育考试院:《2016年高考(江苏卷)试题分析》,南京:东南大学出版社,2016年,第234页。
但是,这并不意味着所有的选择题都可以根据此类方法进行改进,前提条件必须满足两个:一是教育考试机构在试卷设计的源头上,对试题的测试指向和内容要求有着清晰的认识;二是试题为中等难度题或难题,选项的设计能够具有明确的指向。这样,才能从选项设计和题目赋分上对部分选择题加以改造,进而大幅提高其测试功能。
五、小结
考试是教育的重要组成部分,考试要服务于整体教育目标的实现,所以应该采取的态度就是实现教育考试向教育评价的跃升。目前我国教育改革发展已进入一个新的阶段,招生考试制度的综合改革已经成为迫在眉睫的重要任务。无论是教育考试机构还是教育教研部门,评价意识应成为共同的理念,都应树立“以评促学”的教育理念,考试评价不仅是评估学生学习质量的手段,更是促进学生学习的方法。对于教育考试机构专业人员来讲,更需要及时了解教育评价最新的发展动向,思考怎样的考试能够符合这一发展趋势?如何让考试也能成为促进学生学习的工具?因此,为了让教育评价的理念从理论层面落到实地,需要我们统筹思考,尤其是在作为考试源头的命题阶段做好整体规划和设计,致力于打造具有评价功能的教育考试,服务于整个教育质量的提升。
G63
B
0457-6241(2017)23-0026-06
2017-10-20
* 本文系作者主持的江苏省教育科学“十二五”规划2015年度考试招生改革专项重点资助课题“关于高考加强能力考查的创新研究”(课题编号:K-a/2015/10)的研究成果。
马秀谊,任职于江苏省教育考试院考试命题中心,南京大学历史学院博士研究生,主要从事教育考试命题与评价研究等工作。
王雅贞】