如何做好终结性评价达成课程教学标准
2014-07-04赵秦岭
引言
自从斯克里文在其1967年所著的《评价方法论》中首先提出“形成性评价”(formative evaluation)与“终结性评价”(summative evaluation)的概念(Scriven, 1967), 不断有学者对这两个评价方式的定义、形式与功能展开探讨。 近年更多的学者与教师开始关注如何利用“形成性评价”提升课堂教学质量。大量研究和数据也表明,形成性评价不仅是课堂教学的重要组成部分,更是提升课堂成效的重要工具(Black & Wiliam, 1998)。形成性评价重视对学生学习过程的评估,它鼓励通过多元评价工具,获取学生日常学习的信息,了解学生的知识、能力、兴趣和需求并加以总结和分析,从而改善教学和学习效果。它不仅注重对学生认识能力的评价,也重视对学生情感及行为能力的评价。形成性评价瞄准教与学的提升,所以又被称做 Assessment for Learning(“促学评价”)。
然而我们在关注“促学评价”的同时,也不能忽视对整体教学大纲的设定、教学目标的达成、以及学生整体的学习效果的判断和审视。如果说形成性评价从微观的角度关注某个学生或某个教师个体是否成长,终结性评价就是要从宏观的角度对整个的教师群体的教学质量、教学计划的实施情况、某个学生在经历了一个学段的整体学习状况给出鉴定性评价,从而为学校、教师和学生群体在未来教学中更新教学内容,改进教学方法,提高学习质量等下一步教学决策提供重要依据。
但就具有鲜明校本特色的期末考试来说,尤其是学年考试,它既是终结性评价,又具备形成性评价的特点,也就是说在建构成绩和评价结论的过程中,它有一定的形成性。因为学生在一段、一段的语言学习进程中,一次期末考试不过是整个长尺度学习阶段中的某学段的效果检测。说它具有终结性,是因为教师是按照学期、学年来设计整体教学大纲的,即在一个特定的学习阶段内要达成的教学目标。因此,期末考试在评价上的形成性和终结性并不矛盾,“形成”是学生学习角度的“形成”,“终结”则是教师教学角度的“终结”。那么,本文就从后者的视角来展开讨论。
终结性评价的定义、方法与特征
定义
终结性评价(summative assessment)是对一个学段、一门课程的教学质量的综合评价,其目的是对教师和学生阶段性教学效果、学习质量做出结论性评价。评价的目的就是给学生给出分等鉴定、做出关于受教育者(学生)和教育者个体(教师)的决策、然后再与教育资源分配的决策相联系。简单说就是要下结论、分等级、做决定。我们熟悉的期末考试、学年考试、会考、毕业考试、教师的考核、学校的鉴定等等都是终结性评价。
方法
以期末考试为代表的终结性评价大多是成绩测试(achievement test),主要是要测量学生整个学期掌握所学内容的状况(Heaton, 2000)。也就是说,所有考试内容都应以教学大纲中预先设定的教学目标为基准,以学生达成目标的程度即学习成绩或教学效果为内容而做出评价。虽然这种评价大多只在期中或学期末进行,次数较少,但所提供的信息和基于这些信息而做出的教学决策的影响却不小。期末考注重考察学生掌握课程目标的整体程度,不仅需要高度概括所学内容,具备代表性,还不能缩减教学计划、随意调整教学内容,更不能超出大纲要求,不能不教什么而考什么。
终结性评价的特征和反馈方式
终结性评价的首要目的是对学生在某门课程或就其某个重要部分所取得的学习成果进行全面的确定,以便对学生成绩给予结论性评定或是为学生的下一阶段学习提供依据。终结性评价关注学生对某门课程整个或一个学段的内容的掌握,注重于检测学生达到该课程教学目标的程度。因此,终结性评价一般一学期或一学年只操作两、三次。期中、期末考查或考试以及毕业会考等均属此类。终结性评价的考试或测验内容包括的范围较广,每个题目都包括了许多构成该课题的基本知识、技能和核心能力。
终结性评价的结果主要是为教育管理者(教务部门),教师以及学生提供教学效果、学习成绩信息,并给评价结果的使用者提供调整对未来的教育管理、教学以及学习提供依据。我们不能只关注教学过程个体性,还应该关注课程目标达成的整体情况和普遍性。因为课程的基本目标实现不可能在课程实施的每一个局部过程完整的体现,必须要通过终结性评价来高度综合、概括,分析和总结。
终结性评价的效度、信度与考试后效/反拨
要想使终结性评价真实、客观的反映教学、学习状况,老师们要把握以下几个关键点:
评价测试好坏的第一标准——效度(Validity/Validation)
任何一种测试或评价的好坏,最重要的就是看效度实现与否Heaton(2000)。效度就是指测试或评价在多大程度上考核了教学大纲所需考核的内容,评价的内容、方式有多大程度体现所测量的目标。尽管考试不同,标准各异,但标准的制定都依据一定的科学规律。作為教师,最有保障的做法就是参照教学大纲和课程标准,将考试内容与教学大纲所列内容进行比照,从中筛选出有代表性的语言知识点、核心能力等成为考试内容。例如阅读能力,先参照大纲,列出本课程所需学习的阅读技巧(微观、宏观)或能力清单, 然后抽样选取有代表性的知识、技能或交际能力列入考试内容,只要保证做到与教学大纲所列内容高度一致,有一定的覆盖面,内容效度(content validity)就达成了。
Heaton(2000)认为期末考试所采用的评价工具应该是与教学大纲紧密相扣的成绩测试(achievement tests), 应该是标准参照测试(criterion-referenced tests),而不是与学生相比较的常模参照测试(norm-referenced tests)。也就是说学生的成绩表现取决于与一个或多个预先设定的标准相对照而得出的。这种做法的一个好处就是能真实的反映学生的语言能力,而不用与其他学生相比较表现如何。只要学生达到了所制定的标准,不用与其他同学的表现做比较,我们就可以对学生水平做出推断并给予等级评价与反馈。也就是说,一个班级可以所有同学都达标,或所有同学都达到最高级别(如等级甄别)。学生所获得的教师评价只针对他自身学习表现与课程标准的差距,而不是该学生与其他学生的差距,这种反馈能增加学生的学习动力,减少源自同辈的人为压力,从而营造和谐的课堂氛围,互利的师生关系和同辈关系。
如何达成评价的一致性——信度 (Reliability)
信度是测试或评价的第二个重要指标。信度是指测评工具和结果的可靠性、稳定性和客观性。测试的信度有两层意思,不同的阅卷人批阅同一份卷子,结果应该大致相同;同一个评卷人在不同的时间批阅同一份试卷,分数也应大致相同。这就是Bachman所说的测试的一致性(1990)。但是当信度与效度有冲突时,必先保障考试的效度,然后尽量达成信度,如采用合理规范、易于操作的评分标准或评价量表、统一的评分程序等等。
这里有一个需要“教考分离”还是“教考合一”问题。为保障终结性评价的信度,大多学校和教育机构采用“教考分离”的评价模式或考试制度。“教考分离”针对传统“教考合一”而提出,即在教学过程中任课教师只负责教学,不直接参与所教课程的命题或试卷批改,而是由教务部门组织非任课教师根据教学大纲的要求命题,大多通过建立命题组、试题库,统一组织考试、统一评卷。这种做法的好处是,评价过程相对客观,考试中可以有效去除教师主观判断的失误或随意性,依照教学大纲的要求和课程标准对学生进行考核,进而做出结论性评价。同时,教务部门也可以及时、充分的了解教师的业务水平和学生的学习情况,为下一步教学计划或教学政策的制定提供依据。但是,这种做法在实际应用中却暴露出诸多不合理之处。所谓“教考分离”大多从教学管理角度出发,统一管理、制约,甚至监控的优越性只是表象,并未从根本上突破传统评价只重视知识检测的局限性。“教考分离”保障的只是测试操作层面的一致性,而并未真正地从考试内容、方法和教学目标的达成上,提升测评的成效。 “教考分离”往往以目标为指向,注重检测和鉴定学生是否达成预定目标,忽略了测试和评价的其他功能如导向、激励、及发展功能。不断更新的试题库,不断隔离的师生关系虽然保障了评价的客观性和规范性,却颠倒了测试标准的顺序,忽略了达成效度才是判断测试好坏的第一顺位标准。
如何达成测试对教学的正面影响——正向反拨(Positive Backwash)
“反拨效应”(backwash effect)通常是指语言测试对语言教学和学习产生的正面或负面的影响,它是语言评价(language assessment)研究中的一个重要研究课题(Bachman, 1990)。这种反拨效应也被广泛认为对课堂教学如何进行起着决定性的作用。更多研究者关注课外的高风险考试 (high-stakes tests)的反拨效应。教育机构常常利用高风险考试对学生、教师、学校乃至学区做出重要的教育决策,使得高风险考试的反拨效应显得尤为显著(Cohen,1994)。在包括中国在内的许多国家,这些高风险考试通常是学生能否继续接受教育的必经门槛。中国的研究者也相继就高风险考试对教学和学习产生的反拨作用作了深入研究(韩宝成等,2004; Luxia, 2005)。
虽然测试对教学会产生正面或负面的影响,但反拨效应对外语教学所产生的决定性影响是毋庸质疑的(Cheng et al., 2004)。有些研究者(Morrow,1986)甚至建议,试题的效度应该用其对教学的积极影响程度来衡量,研究者对反拨效应的认可程度可见一般。国内学者的诸多研究表明(亓鲁霞,2004), 考试的后效在教学内容方面得到体现,如高考英语能为学生提供英语学习动力,更显著的是促进教学内容、方法的改革。高考英语促使中学改革, 英语课程增加了听说读写技能训练, 改变了原本只重视知识传授的局面。
高质量的语言测试和评价可以通过诊断、激发和修正的方式对教学和学习产生积极影响(Heaton,2000;Hughes,1989)。成功的语言测试能帮助教师和学生诊断出教和学的效果,定期的评价会使学生产生一种成就感,从而激发学习兴趣。另外,定期的测试还可以使学生逐渐了解课程目标和重点,从而提高学习效果。语言测试鼓励好的教学,修正差的教学,反拨作用可以帮助教师发现教学问题并在将来采取有针对性的补救措施。
而负面反拨往往源自对课程目标没有深刻的认识而盲目进行测试。Hughes (1989)认为,当测试内容和方法违背了课程目标时,负面反拨就有可能产生了。负面效应有以下几种表现形式:缩减教学计划、曲解教学目标、浪费教学时间、忽视培养学生综合分析和解决问题的能力等。如果教师较少致力于独立命题,可能导致他们不能合理地使用各种语言测试手段促进教学,对教学的负面反拨效应也随之而生 (赵秦岭,2007)。换句话说,教师对测试知识的认识误区可能是编制出低质量试题的一个重要原因,也是产生负面反拨效应的原因之一。找出教师存在的认识误区就可以有针对性地对教师进行培训,并进行相关的行为研究以实现正面反拨。
结语
不同的測试与评价对教与学的影响不仅能从学习成果中观察得到,更多是从学习的过程中获得。形成性评价关注个体差异,教师需要让学生了解自己实际掌握语言的情况和他所期待达成的目标之间的差距,从而激发他主动学习的潜能,达成学习目标的期望,是“内推力”;而终结性评价更应该关注对整体能力的描述,是分级、鉴定和甄别,是工具性反馈,是一种“外推力”。形成性评价和终结性评价的这些个性和共性的实质和特点,决定了我们在日常教学中必须二者兼顾。 形成性评价关注学习过程,并及时给予学生最直接的有效帮助;终结性评价关注结果的呈现,教学目标的达成;也就是说,我们只有对教学全过程和结果从微观和宏观上共同把握,才能不断促使学习过程和学习结果的评价达到和谐统一,让教师和学生从评价中真正有收获,有成长。
参考文献
Bachman, L. F., & Palmer, A. S. (1990). Fundamental Considerations in Language Testing: Oxford University Press.
Black, P.J. and Wiliam, D. (1998). Inside the Black Box. King's College London School of Education
Cheng, Watanabe and Curtis (2004). Washback in Language Testing: Research Contexts and Methods. Lawrence Erlbaum Associates Inc.
Cohen, A. D. (1994). Assessing Language Ability in the Classroom. Second Edition. Boston: Heinle & Heinlein Publishers.
Heaton, J. B. (2000). Writing English Language Tests [M]. Beijing: Foreign Language Teaching and Research Press.
Hughes, A. (2000). Testing for Language Teachers [M]. Beijing: Foreign Language Teaching and Research Press.
Luxia, Q. (2005). Stakeholders' conflicting aims undermine the washback function of a high-stakes test. Language Testing, Volume 22, pp. 142-173(132)
Morrow, K. (1986). The evaluation of tests of communicative performance. In M. Portal (Ed.), Innovations in language testing (pp. 1-13). Windsor: NFER Nelson.
Scriven, M. (1967). The methodology of evaluation. Washington, DC: American Educational Research Association.
韩宝成、戴曼纯、杨莉芳,(2004),《从一项调查看大学英语考试存在的问题》,外语与外语教学.
亓鲁霞,(2004),《意愿与现实:中国高等院校统一招生英语考试的反驳作用研究》北 京:外语教学与研究出版社.
赵秦岭, 大学英语教师对语言评价的认知及其反拨作用(英文)[J]. Teaching English in China, 2007, (3)
趙秦岭,副教授,首都师范大学外国语学院副院长,硕士生导师,北京市英语类专业群建设专家委员会秘书长,北京市多语种试验示范中心副主任。