外语课堂评估研究(2007—2018):回顾与展望
2020-09-15金艳,孙杭,2
金 艳,孙 杭,2
(1.上海交通大学 外国语学院,上海 200240;2.上海理工大学 外语学院,上海 200093)
一、引 言
在教育领域,教师无时无刻不在课堂上评估学生的表现。课堂评估可以包括正式和非正式的测试以及各种帮助教师评估学生课堂学习成果的教学活动[1]。近年来,随着对评估与课堂学习的互动关系的关注[2]7,课堂评估的研究和实践掀起了一股改革的热潮。澳大利亚、加拿大、英国、美国和中国香港在内的很多国家和地区在近年来的教学改革中大力推进课堂评估的实践并强调提高教师在评价学生学习活动中的参与性[3]393-394。一些关于课堂评估的专著也应运而生[4-5]。
研究者指出,课堂评估可以获取一些在标准化考试中无法测量的学生语言能力的信息;其评估方式可以更加真实和有意义;师生能够获取一手的评估结果来提升教与学[6]489-490[7]。因此,课堂评估被认为是连接教、学、考最好的方式之一。尽管课堂评估具有诸多益处,在外语教育领域其研究仍处于起步阶段。目前,尚未有学者对外语课堂评估研究的进展和问题进行较为全面的回顾。鉴于此,本文试图对2007—2018年国内外外语类主要期刊发表的外语课堂评估文献进行梳理,探讨国内外研究的共性和个性,分析现有研究的发展状况并对存在的问题提出对策,以期促进课堂评估未来的研究和实践。
二、国内外外语课堂评估研究回顾
本研究的文献来源于2007—2018年国内外14种外语类期刊,包括5种SSCI期刊(1)5种SSCI期刊包括The Modern Language Journal,TESOL Quarterly,Assessing Writing,Language Testing,Language Assessment Quarterly,2017年影响因子分别为2.789、2.256、1.906、1.431和0.868。和9种CSSCI期刊(2)9种CSSCI期刊包括《外语教学与研究》《外语教学》《现代外语》《外语界》《中国外语》《外语与外语教学》《外语教学理论与实践》《外语研究》和《解放军外国语学院学报》。《外国语》《外语学刊》等期刊未刊登外语课堂评估文章,故未列入。。这些期刊具有一定的代表性和权威性,能较好地反映外语课堂评估研究的现状与动态。针对国外期刊,笔者进行了“classroom/classroom-based assessment”的篇名和关键词搜索。在对国内期刊文献进行搜索时,由于所使用的术语尚未统一,以“课堂评估/价”为关键词的文章只有3篇,因此笔者将篇名和关键词的搜索范围扩大到“形成性评估/价”和“教师评估/价”。为了筛选满足本文研究重点的文献,篇名或关键词不包含“课堂评估/价”的文献应包括发生在日常课堂环境的评估行为,未提及课堂评估方式的广义上的形成性评估不在本研究范畴内。笔者通过对所获文献的逐篇阅读来确定相关文献,并借鉴Black & Wiliam“滚雪球”[2]8的方式利用已获文献的参考文献来查缺补漏。本研究最终确定有效样本论文79篇。下文将从研究的总体趋势、研究对象、研究内容和研究方法四个维度对外语课堂评估研究的现状进行梳理和分析。
(一)外语课堂评估研究的总体趋势
经统计,国内外外语类主要期刊2007—2018年共发表外语课堂评估论文79篇。其中,国内论文34篇(43%),国外45篇(57%),国外论文数量多于国内。总体而言,国内外外语课堂评估研究均呈现出波动式的发展趋势(见图1),并在2009年、2017年和2018年达到了3个峰值。国内外期刊12年间年度总发文量最高12篇,最低2篇。国内期刊年均发文量2.8篇,国外期刊3.8篇,数量较少。一方面原因是与其他普通教育(general education)的学科如数学、科学相比,外语课堂评估研究起步较晚,研究尚未大量展开;另一方面原因可能在于现有外语课堂评估研究的质量有待提高,因此CSSCI和SSCI期刊中收录较少。
图1 2007—2018年外语课堂评估研究数量统计
(二)外语课堂评估研究的对象
2007—2018年国内外外语课堂评估的研究涵盖了不同教育阶段和类别的研究对象,包括研究生、本科生、中小学学生、其他学生群体(如高职学生、语言预科班学生)和外语教师等。由于课堂评估的研究对象往往同时包括学生和教师,因此表1将研究对象按教育阶段和类别进行分类统计。由表1可见,我国外语课堂评估的研究对象较为单一,主要由本科阶段的师生组成(占88%),其他研究对象所占比例很低,而小学阶段更是完全空缺。相比之下,国外文献的研究对象则较为均匀地分布在本科、中学和小学阶段,所占比例分别为35.3%、38.3%和20.6%。对于研究生阶段和其他类别的群体,国内外研究的关注均较少。
表1 2007—2018年外语课堂评估研究对象分布
(三)外语课堂评估研究的内容
参照Black & Wiliam[2]9-10和罗少茜等[8]243-250对国内外课堂形成性评估研究的回顾以及通过对所获文献的研读,笔者对近12年外语课堂评估的研究内容进行了归类。由表2可见,国内外外语课堂评估研究内容的范畴相同,具体侧重点则有所差异。国内研究集中在课堂评估的促学效果方面,国外研究在不同研究领域分布较为均衡。下文将重点回顾课堂评估的促学效果、教师角色、效度验证、评估过程和其他(反馈、教育政策等)五个方面的研究内容。
表2 2007—2018年外语课堂评估研究内容分布
1.促学效果
与传统考试用作记录和报道学生成就的目的不同,课堂评估的主要目的是促进教与学。因此,课堂评估作为一种促学评估的可行性和有效性是推进其实践的前提和基础。国内外学者对此均进行了一系列的探索。唐雄英、章少泉以准实验的方式将新型评价用于大学英语教学情境中,发现新型评价有利于学生自主学习能力和自我效能感的提高,而对学生总体英语水平没有明显的促进效果[9]。刘芹等针对理工科大学英语口语课程构建了形成性评估体系[10]。通过对比实验班与控制班学生学期初和学期末的口试成绩,作者发现形成性评估可以有效地运用于英语口语教学。上述研究着重探讨了课堂形成性评估在促进学生学习方面的有效性。张荔对学术英语交际课程中形成性评估的实施效果进行了调查,研究发现形成性评估不仅促进了学生论文质量的提高,也帮助教师改进了课程设计和调整教学[11]。
与国内研究关注整个课堂形成性评估体系的有效性不同,国外研究更具体地对不同的课堂评估工具或评估原则的实施效果进行了调查。Wigglesworth & Storch比较了课堂评估中小组合作写作与个人写作任务,发现小组合作对写作的准确性有积极影响,而对文本的流畅度和复杂度的影响不明显[12]。Huang对在听力和口语课堂上两种不同的评估事件——离散评估(divergent assessment,即以开放性问题探索学生理解和能做什么)和聚合评估(convergent assessment,即以封闭式问题考察学生是否能做到某一任务)对学生在完成任务过程中的学习动机和策略的影响进行了调查[13]。Muoz &lvarez报道了如何通过推进一些具体的评估原则,如选择和使用真实和有意义的评估任务、对教师进行持续的指导和支持等,使大学口语课堂评估系统产生积极的反拨效应[14]。该研究成果对如何提高课堂评估的质量有一定的应用价值。
2.教师角色
教师角色研究不仅包括教师的评估实践,也包括教师的知识、信念和影响教师评估行为的因素等。国外学者对课堂评估中的教师角色给予了较为充分的关注。在教师的评估实践方面,Cheng & Wang通过对74名加拿大、中国大陆和香港的大学外语教师进行访谈,梳理了教师在评分、反馈和分数报道方面的评估实践[15]。作者发现尽管教师评估呈现出地区差异,整体上教师的评估行为符合专业文献中优秀实践的标准。Saito & Inoi调查了日本初高中英语教师在课堂形成性评估使用上的差异,包括评估标准、方法、目的和反馈[16]。针对教师的决策信念和其影响因素,Yin对香港两所大学学术英语课上教师评估的认知过程进行了研究,发现教师评估涉及不同方面的认知因素,包括策略认知和互动认知等[17]。Cheng & Sun对影响中国中学英语教师课堂评估评分决策的因素进行了调查,发现内外部因素共同影响教师的评分决策,并且教师更看重非成就因素(non-achievement factors),如学生的努力程度、作业和学习习惯等[18]。
国内从教师角度研究课堂评估的文献相对较少。许悦婷、刘永灿采用叙事研究的方法解读了一名大学英语教师的三个形成性评估实践的故事,并指出教师的形成性评估知识是在其个人经历、所处的社会关系和工作生活场所三者的共同作用下产生和发展的[19]。刘秀梅等对大学英语教师在课堂评估的典型情景中对道德问题的认知水平进行了调查[20]。研究发现教师对道德问题的整体认知水平不理想,并在测试保密性、成绩评定和测试实施三个维度上有较大提升空间。该研究探究了课堂评估中教师的道德维度和课堂评估的公平正义性,具有一定的开创意义。
3.效度验证
效度是语言测试的核心概念,而课堂评估的效度一直是争议的焦点和急需攻克的理论高地。李清华、曾用强[21]对课堂评估的效度理论进行了较为全面的回顾,比较了Brookhart的“课堂计量学理论”[22]等四种效度理论。然而,目前国内尚未有实证研究将这些效度理论应用到课堂评估体系的效度验证中。在实证研究方面,许悦婷、张仁霞调查了小组活动中评价个人贡献的必要性和可行性[23]。通过对个人分数和小组统一分数差异的分析和对师生看法的解读,研究者发现个人分数有利于提高课堂评估的信效度和公平性。
国外文献中,Llosa用多质多法模型证明了美国加州城市学校中使用的课堂评估系统与外部标准化大规模考试——加州英语能力标准测试测量了相同的构念[6]489-515。因此,作者提出将标准化课堂评估用作判断学生能否进入新的学习阶段的高风险决策具有一定的效度。Llosa进一步调查发现该课堂评估体系对不同年级的学生也测量了相同的构念[24]。尽管多数关注课堂评估微观层面的定性研究发现教师评分决策存在很大差异,上述研究则表明宏观层面上教师对学生整体语言能力的评价是可靠和稳定的。针对效度验证的框架,Zainal[25]和Becker[26]分别利用社会认知效度验证框架(a socio-cognitive framework)和基于论证(an argument-based approach)的效度验证模式对课堂写作评估进行了效度检验。这些研究为指导教师利用现有的效度验证框架搜集课堂评估的效度信息,从而提高评估质量提供了可行方案。
4.评估过程
课堂评估既包括课堂测试等设计好的评估任务,也包括偶然的评估事件,如教师自发的、本能的课堂观察和师生的互动对话[27]。与上文从教师角度回顾其评估行为不同,课堂评估过程研究旨在捕捉自然课堂上更丰富和生动的实时评估行为并关注师生间的互动。杨华、文秋芳对课堂即时形成性评估,即发生在教学过程中、以师生间对话形式出现的评估方式的相关研究进行了述评[28]。在此之前,鲜有国内学者关注这种短期的课堂形成性评估模式。杨华、文秋芳基于我国高校6名英语教师28课时自然状态下的课堂数据,采用扎根理论和课堂话语分析的方法,对评估目标的不同类型和变化方式进行了概念化描述,并提出了课堂即时形成性评估“相倚性”的概念[29-30],深化了课堂评估的理论。
在国外文献中,Hill & McNamara基于对澳大利亚学校里印度尼西亚语课堂上评估过程的实证研究,提出了一个完整的课堂评估过程研究的框架[31]395-420。该框架包括三个维度(证据、理解和使用)和四个领域(教师如何评价学生、运用哪些评分标准、基于何种理论或价值观以及学生对评价行为的理解和看法)。该框架为系统、科学地研究课堂评估的过程提供了有力工具。Wang报道了一名大学英语教师的口语课堂评估过程[32]。研究发现教师在课堂上的评估方式不仅包括教师预先准备的演讲任务、期末考试等,还包括教师自己没有察觉的评估行为,如问答环节等。
5.其他研究
其他方面的研究包括反馈和教育政策等。反馈的概念与课堂评估密不可分。姚香泓等针对形成性反馈在课堂展示准备阶段所起的效果进行了研究[33]。Chong总结了课堂评估的三种范式——学习评估(assessment of learning)、促学评估(assessment for learning)和以学为评(assessment as learning),并以此为框架对写作反馈的研究进行了综述[34]。在教育政策和改革方面,Leung & Rea-Dickins报道了英国将课堂评估作为教育政策实施工具的使用现状和影响,并指出教育政策对评估实践中遇到的问题关注甚少而且对教师的支持非常有限[35]。同样,McKay & Brindley回顾了课堂评估在近年来澳大利亚教学改革中逐渐变化的角色,并指出来自外部的、基于目标的管理主义(managerialism)与主观的、基于经验的教师决策之间的矛盾[36]。
(四)外语课堂评估研究的方法
根据文秋芳、任庆梅的分类[37],本文将所获文献的研究方法分为实证研究与非实证研究,即文章提供了研究对象和工具、数据收集和分析等相关信息为实证研究,否则为非实证研究。表3显示,国内外外语课堂评估研究均主要采用实证研究的方法,实证研究共56篇(国内25篇,国外31篇),占文献总数的70.9%。在实证研究中,国内研究以定量和定性相结合的混合法为主(13篇,占国内实证研究的52%)。国外研究则偏重定性法(17篇,占国外实证研究的54.8%)。具体而言,定量研究主要包括准实验法、探索性和验证性因子分析、相关和方差分析等。定性研究主要采用民族志研究、行动研究、个案研究、课堂观察和访谈等方式。定量和定性混合法则主要采用定量研究为主(如准实验法),定性研究为辅(如访谈)的方法。总体而言,国内外外语课堂评估研究的方法呈现出多元化的趋势。
表3 2007—2018年外语课堂评估研究方法分布
三、对国内外外语课堂评估研究的反思及展望
上述文献回顾表明,近年来国内外学者对外语课堂评估进行了不少的研究和探索,既取得了一定的成果,也存在一些局限和不足。下文将分别从术语界定、研究对象、研究内容、研究方法和理论构建五个方面说明现有研究存在的问题和对策。
(一)术语界定
对外语课堂评估文献的回顾显示国内外相关研究都存在着术语界定不清、使用混乱的情况,这在国内研究中尤其明显。在本文回顾的中文文献中,出现过的相关术语有课堂评估、形成性评估、新型评价等。形成性评估是国内期刊中最常用的概念。然而,随着对形成性评估的关注,对其概念的误解也随之增长[38],例如认为形成性评估就是平时成绩或是终结性评估的累积。Harlen指出形成性和终结性概念的区别在于考试的使用和目的[39]171-183。评估任务本身是中性的,只有在使用其数据时才决定它的形成性或终结性潜能[40]505-520。终结性评估是对学习成果进行鉴定以完成报道、认证等目的,而形成性评估是为调整教和学提供持续的反馈信息。从这种意义上讲,课堂评估可以实现形成性和终结性两种目的。课堂评估强调评估情境是自然状态下的课堂,而形成性评估则强调评估的目的和用途。
因此,外语课堂评估研究首先要明确相关术语的定义,并对现有不同术语的侧重点有所区分。对术语概念理解上的差异和不足,会导致理论研究难以形成合力,实践推广举步维艰[8]1,也会使国内课堂评估的研究难以与国际接轨。只有对课堂评估的概念进行界定,抓住其典型特征,才能提高学界对课堂评估的重视。
(二)研究对象
国外课堂评估的研究涵盖了处于不同教育阶段的研究对象。这与近年来美国、英国等国家在基础教育政策和改革中强调课堂评估的研究和实践密切相关。相比之下,国内的研究对象范围狭窄,对中小学阶段鲜有涉及。然而,由于小学生特殊的心理特征和认知水平,其语言能力的发展更多地受到教师的影响[41],师生的课堂互动也更加频繁。鉴于基础教育的重要性,以促学为目的、重视学习过程的课堂评估可以从小培养和塑造学生的自主学习能力并影响学生的学习动机,从而在一定程度上扭转应试教育的负面作用。
因此,未来国内研究应扩大研究对象的范围,特别应关注中小学阶段。一方面,加强大学教师和研究人员与中小学师生间的合作;另一方面,在政策上支持和鼓励中小学教师开展课堂评估的行动研究,从而促进中小学课堂评估的研究与实践。
(三)研究内容
国内外学者对课堂评估的过程——自然课堂中师生共建的评估行为的关注明显不足。现有研究多报道教师精心设计的、明确的评估事件,而对非计划型的评估行为关注较少。这些评估机会由于与教学行为交织,较难辨认和区分。但是,对这些评估行为的界定和分析可以加深对课堂评估的构念和本质的理解。Leung[42]869-888和Rea-Dickins[43]分别从教师和学生角度探讨了评估过程研究中值得进一步调查的问题,而Hill & McNamara在此基础上提出了更为全面的研究框架[31]395-420。这些框架可以指导未来课堂评估过程研究的展开。由于课堂评估的情境特定性(context-specific),了解不同国家和地区、不同教学环境下的评估行为极其重要。
此外,近年来教师发展,特别是教师测评素养越来越受到国外学者的重视。然而,国内文献中将课堂评估与教师角色有机结合的研究堪称凤毛麟角。教师是课堂评估的实施者,厘清教师评估实践和其影响因素是提高课堂评估质量的必经之路。在今后的研究中,国内学者需关注教师在实践中的主体性发展[44],重视在国内特定教学环境下外语教师的评估实践和评估素养。
(四)研究方法
文献回顾表明在我国外语课堂评估研究中,定量和定性相结合的研究方法已经成为了主流。这类研究大多以定量研究为主(通过实验班、控制班成绩对比来考察学生学习成果的差异),定性研究为辅(通过访谈调查师生的态度)。这一研究方法在设计上存在一定缺陷:课堂评估存在于教、学、评相互作用的复杂的课堂环境中,学生的学习同时受到多种因素的影响——教师的教学经验和风格、学生的学习特点以及教学环境等。因此,学生学习成绩等的提高能否完全归结于课堂评估的实施有待商榷。同时,国内研究在报道评估体系的可行性和有效性时,对评估工具和实施过程却少有着墨。不同的课堂评估事件、实施方式和反馈都会对学生产生不同的作用,而这些差异在很大程度上决定了课堂评估的促学效果。此外,无论是学习成绩、学习策略,还是成就感等方面的提高都是一个循序渐进的过程。现有研究往往在一学期后就对学生的成绩等进行对比,其证据的充足性值得思考。
针对以上问题,未来我国相关研究应重视定性法,充分发挥质性研究对情境性因果关系的解释功能[45]。同时,课堂评估的有效性可以进行历时研究,并借鉴国外研究的角度,关注不同的评估任务和原则的影响。课堂评估体系本身不能保证对教与学的积极反拨效应,需要探索评估体系中哪些具体的原则和做法可以提高课堂评估的促学作用。
(五)理论构建
与大规模、标准化考试相比,课堂评估的研究仍缺乏完整、系统的理论根基。目前国内外学者对课堂评估的促学效果、教师角色、评估过程和效度验证等均有所讨论,但尚未形成广为接受的理论模式和研究体系。以课堂评估的效度为例,一些测试专家指出课堂评估等替代性评估方式(alternative assessment)的信效度存在种种问题,如评估任务能否使学生产出特定的语言信息往往没有经过验证,评分标准的科学合理性和评分员评分的一致性有待考察等[46]。另一些测试专家则主张传统心理测量学的信度和效度概念不适用于课堂评估[40]505-520[42]869-888。例如,环境(context)在传统考试中是必须被控制的构念无关因素,评分员也应在考试过程中保持中立[47]。而在课堂评估中,其信效度则部分源自于评估行为存在于日常教学环境中,评分员则是熟悉学生并在学生学习过程中扮演重要角色的教师[3]409。在这种情况下,如何重新定义课堂评估的构念和信效度?现有的效度验证方法是否完全适用于课堂评估?这些问题仍亟待解决。
因此,外语课堂评估研究一方面需要对现有研究进行回顾和总结,从实践中提炼理论,以形成系统的研究体系;另一方面,课堂评估研究更需要进行理论的创新。只有发展一套符合课堂评估内在规律和特色的评估理论,才能引导研究方向,最终提高课堂评估的促学作用。
四、结 论
本文对2007—2018年CSSCI和SSCI代表期刊上的外语课堂评估论文进行了定量统计和内容分析。研究结果显示:研究数量呈波动式发展趋势,国外文献数量高于国内;国内研究对象集中在本科阶段,国外则涵盖大、中、小学阶段;国内外研究内容主要包括课堂评估的促学效果、教师角色、效度验证和评估过程等;国内外研究方法均以实证研究为主,混合法是国内研究的主流方法,而国外则偏重定性法。
上述结果表明,国内外外语课堂评估研究既有共性又有差异。未来我国外语课堂评估研究应扩大研究对象的范围,关注中小学课堂;拓宽研究内容,探索课堂评估的过程和教师角色;重视质性研究,推动多元化的研究方法。在今后的研究中,一方面应立足于我国国情,寻求符合我国外语教学环境的课堂评估实践和研究;另一方面,借鉴国外先进的研究方法和视角,力求本土化与全球化的有益结合。