国外语言测评素养研究综述

2019-06-26康静

英语教师 2019年8期

康静

引言

语言测评素养（language assessment literacy）由测评素养（assessment literacy）发展而来，具有“语言”成分这一区别于测评素养的独特内涵。语言测评素养是教师教育教学能力的重要组成部分，是优秀外语教师的必备能力（Popham 2009）。然而，我国外语教师的语言测评素养现状不容乐观（Jin 2010；Xu 2017；杨惠中 2015；黄永亮 2018；杨帆、吴莎 2018）。特别是在外语教育从“考试文化”向“评价文化”转变的进程中（Shepard 2000），提高外语教师的语言测评素养显得更为重要。我国近年颁布的《国务院关于深化考试招生制度改革的实施意见》（国务院 2014）《普通高中英语课程标准（2017年版）》（教育部 2018）《普通高等学校本科专业类教学质量国家标准》（教育部高等学校教学指导委员会 2018）等文件，对外语教师的语言测评素养提出了新的要求。在这一背景下，本文在分析语言测评素养渊源的基础上，聚焦语言测评素养的界定与内涵，及其等级划分框架的研究，旨在让外语教师对语言测评素养有更加清晰的认识，加深其对语言测评素养的理解。

一、语言测评素养的渊源

一般认为，测评素养这一概念最早由斯蒂金斯（Stiggins，1991）提出。他认为教师具备测评素养表现在能够对不同质量的测评有基本的认识，并能将测评相关知识应用于学生的各种成就测试中。他强调，既要关注大规模水平测试，又要关注课堂测评。但是，他并未详细阐述如何进行课堂测评，也未给予测评结果的使用以足够的重视（王少非 2009）。

后来，针对教师课堂测评素养，斯蒂金斯（1999）又提出了七条要求，即“七要素说”。“七要素说”强调测评要与教学相结合，体现测评的促学作用。在此基础上，英巴—卢里（Inbar-Lourie，2008）将社会语境引入测评素养，将其视为测评和测评素养的核心，认为具备测评素养表现在能够批判性地提问并回答测评目的、测量工具的合适性、测试环境、测试结果使用的后果等相关问题。为指导教师和其他利益相关群体的测评培训和专业发展，麦克米伦（McMillan，2000）提出了十一条基本原则，提供了关键、基础的测评知识结构，强调测评基础原则的重要性。然而，上述原则并未涉及测评素养相关技能，即未明确指出教师应具备的能力（Brookhart 2011）。

事实上，最早开展测评素养相关研究的是美国教师联合会（American Federation of Teachers，AFT）、国家教育测量理事会（National Council on Measurement in Education，NCME）和全国教育协会（National Education Association，NEA）。上述机构在1990年联合颁布的《学生教育测评中教师能力标准》（Standards for Teacher Competence in Educational Assessment of Students）提出了教师测评素养的七条标准，即“七标准说”。在“七标准说”提出二十余年后，布鲁克哈特（Brookhart，2011）肯定了该标准对测试领域所作贡献的同时，指出该标准在当前教育背景下稍显不足，进而提出了升级版的“十一条原则”，每一条原则都详细描述了与“七标准说”的异同，并解释了修正原因，明确指出了教师进行测评时所需的相关知识和技能。

虽然上述测评素养研究成果均为测评素养利益相关群体所应具备素质的描述，但其适用范围、对象和关注点不尽相同。如“七标准说”的适用范围小至课堂、学校，大至整个国家、民族，认为标准所涵盖相关技能的培训应成为培养职前教师测评素养的重要组成部分；斯蒂金斯（1991；1999）除了关注大规模水平测试外，还关注课堂测评；英巴—卢里（2008）关注测评的社会语境，并区分了考试文化和评价文化。

二、语言测评素养的界定、内涵与等级划分框架

语言测评素养源自测评素养，同时又与测评素养有所区别。语言测评素养作为一个知识库，具有和测评语言相关表现所固有的独特性，指在测评活动中利益相关群体所需掌握的知识、技能和原则（Inbar-Lourie 2017），是一个独特的复杂实体（Inbar-Lourie 2008）。国外语言测评素养研究可分为两类：一是语言测评素养的界定和内涵，包括直接界定语言测评素养及对具备语言测评素养的群体特征进行描述；二是语言测评素养的等级划分框架，有针对性地满足不同利益相关群体对语言测评素养的要求。

（一）语言测评素养的界定与内涵

1.语言测评素养的界定

博伊尔（Boyles，2005）将语言测评素养定义为外语教师对测试和测评的原则及实践的理解。通过发展测评素养，外语教育工作者能根据特定目的选择合适的测评方式，分析测试结果，从而促进教学。该界定适用范围广泛，可用于不同地域的各级各类的教育工作者。虽然该界定关注外语教育工作者，但是并未明确指出有关“语言”的成分。

通过分析自拉多（Lado，1961）研究以来针对语言测评素养培训的教材及其培训焦点，戴维斯（Davies，2008）发现语言测评素养经历了从技能到技能、知识，再到技能、知识、原则的发展，即语言测评素养包含三个基本成分：技能、知识和原则。泰勒（Taylor，2009）认为，全面理解这三个成分能有效提升语言测评素养，但其研究的焦点在于语言测试领域专业人员所需的培训，很少关注其他测试利益相关者群体的测评素养，同时，也未强调对测试成绩的解释及合理使用。

不同于戴维斯（2008）对测评教材内容的关注，英巴—卢里（2017）直接从外语教师的语言测评素养入手，将语言测评素养定义为在测评活动中利益相关群体所具备的知识、技能和原则。随着教师测评素养需求的出现及利益相关群体的增多，构建语言测评素养框架的呼声也更为强烈。由此，英巴-卢里指出，未来的语言测评素养构念界定将不再“一刀切”，即培养外语教师的测评素养要关照测评素养构念的多维性，聚焦测评利益相关者的实际需求（转引自黄永亮，2018）。

富尔彻（Fulcher，2012：125）针对语言教师所需的测评训练，通过分析网上问卷调查的结果，将语言测评素养定义为：“设计、开发、评价大规模标准测试和课堂测试所需的知识、技能和能力，对测试过程的熟悉程度，对指导和支撑实践的原则和概念的意识；将知识、技能、过程、原则及概念运用于更广泛的历史、社会、政治和哲学框架的能力，以及评价测试对社会、机构和个人产生影响的能力”。该界定更为详细，阐释了基于测评素养原则和概念的更广泛的测评框架，明确了语言测评素养的核心成分——知识、技能、能力（abilities）（见下页图1），强调要关注测评实践。但是，该界定未提及语言测评特征、不同的利益相关群体对这些成分的依赖程度（Taylor 2013）。

图1：语言测评素养扩充界定

与富尔彻（2012）的研究范围不同，马隆（Malone，2013）针对范围较窄的课堂测评，认为语言测评素养指语言教育工作者应熟知课堂实践中测试的定义及其应用，尤其针对语言评测。他通过比较语言教师和其他语言测试者，发现科学实施的测评能就学生的表现为教师提供关键信息，促进教与学，但前提是语言教师必须有足够的测评背景知识和训练来开发、选择、使用测试并合理解释测评结果，同时结合具体语境进行适当调整。

2.语言测评素养的内涵

为明确语言教师测评专业发展中的问题，布林德利（Brindley，2001）基于自己的实践经验，尝试构建语言测评素养框架，认为语言教师应接受测评的社会语境（核心）、界定并描述语言水平（核心）、构建和评价语言测试、语言课程中的测评、将测评运用于实践等五个方面的培训。布林德利是首位尝试构建语言测评素养框架的学者（Inbar-Lourie 2017），他关注实施语言测评素养的知识成分，承认不同的测评需求，并将语言知识本质和所需的测评素养结合起来，亦将教师测评实践和专业发展结合起来。哈丁和克雷梅尔（Harding&Kremmel，2016）认为布林德利提出的五个领域的培训应成为语言教师专业发展的必备条件。

英巴—卢里（2008）将语言测评素养视为包含各层级测评素养技能和具体语言能力的知识库（knowledge base）。他认为具备语言测评素养就必须了解测评理据（why）、构念特征描述（what）和测评过程（how）。其中，测评理据、构念特征描述对应布林德利构建的语言测评素养框架中的前两项核心成分，测评过程对应第三、四项成分，而第五项成分已超出了测评和测试技术范畴，仅涉及探究测评规划和测评研究的专业人员。斯特布勒-哈夫纳（Stabler-Havener，2018）认为，测评理据、构念特征描述和测评过程分别大致对应戴维斯（2008）提出的技能、知识和原则。相较已有研究，该框架更加强调全面、整体、动态理解测评，认为承认语言测评素养就意味着在考虑测评目的的特征和方法时，必须理解其所涉及的相关语言理论（Taylor 2009）。

“知识库”概念一经提出就受到语言测评界的广泛关注（如林敦来、武尊民 2014），但是“知识库”如何界定一直存在争议。斯卡里诺（Scarino，2013）认为，界定知识库相当重要，但并不足以提升教师的语言测评素养，还需将这些概念基础运用于具体语境下的专业实践中。他认为“知识库”应包含语言测评知识，不仅是多样的测评范式、理论、目的，在各种语境下的诱导、判断、验证实践，还有学习理论和实践及不断演变的语言和文化理论，即教师自身的解释框架（interpretive framework）（Giraldo 2018）。同时，这些维度又相互交叉、互相影响。因此，研究者应重新审视语言教师的知识库及其演变的复杂过程。该研究关注测评的社会维度及测评实施的语境和文化的相关性（Inbar-Lourie 2013），扩展了知识库的内涵，强调语言测评素养的动态观，聚焦教师的测评观念及这些观念如何影响他们对课堂测评实践的理解和实施。

而奥洛克林（O’Loughlin，2013）针对高风险测试，以解释、使用语言测试成绩的大学教职工为研究对象，对其语言测评素养需求进行研究。他指出语言测评素养包含测试开发（production）、测试成绩的接受和使用、批判性理解教育和社会测评的角色和功能等一系列技能。该研究针对高利害测评，以测试使用者为研究对象，丰富了语言测评素养研究的理论框架。虽然界定中考量了测试的社会文化等背景，但未明确“语言”成分。

语言测评素养涉及测评实施的各个环节，亚斯提巴斯和塔克拉克（Yastibas&Takkac，2018）以土耳其高校英语教师为研究对象，针对测评开发阶段教师的语言测评素养水平进行了质性研究。他们认为，当以检查是否完成教学目标为目的开发语言测评时，教师要以学生为中心，以教材内容为纲，运用多种批判性思维方法来保证测试的效度及其积极反拨作用。该研究关注测评的开发阶段，为提升教师语言测评素养提出了建议，同时也对教师的批判性思维能力提出了更高的要求。

（二）语言测评素养的等级划分框架

语言测评素养是一个复杂的概念，其内涵十分丰富。要提高不同利益相关群体的语言测评素养，必须明确各相关群体的具体需求。因此，需要对语言测评素养进行细致划分。皮尔和哈丁（Pill &Harding，2013）以拜比（Bybee，1997）对科学素养的划分为基础，借鉴凯泽和维兰德（Kaiser &Willander，2005）对此划分的扩展及应用，将语言测评素养分为素养缺失、稍具素养、功能素养、程序素养和概念素养、全方位素养等五个等级（0—4 级），并对各等级进行了相应的描述（转引自黄永亮，2018）。不同利益相关群体可根据实际需求“对号入座”，避免资源浪费。虽然将语言测评素养进行了分级，但利益相关群体必须对语言测评素养知识有所了解，才能精准定位。这使我们认识到测评素养是一个连续体，而非简单的具备测评素养和无测评素养（Taylor 2013）。

不同利益相关群体因各自角色和责任差异，其测评素养需求也各不相同，而且还会随着利益相关者及测评情境的不同而变化（Inbar-Lourie 2017）。在皮尔和哈丁（2013）语言测评素养五级划分的基础上，泰勒（2013）尝试从八个维度解释命题人、课堂教师、大学管理者、专业语言测试人员等四类利益相关群体的语言测评素养标准。他认为研究员、命题者为核心利益相关群体，普通大众和政策制定者为边缘利益相关群体，语言教师和课程教员则介于二者之间。其中，课堂教师所需标准如图2所示。该研究旨在为不同利益相关群体的知识、需求和目标开发合适的语言测评素养框架，更具针对性。

图2：课堂教师的语言测评素养

相较而言，郑（Jeong，2013）则更为细致地对比了具有不同语言测试背景的教师对授课内容的影响。他通过线上问卷调查和深度电话访谈发现，专业语言测试者（language testers，LTs）和非专业语言测试者（non-language testers，non-LTs，指第一专业领域不是语言测试但参与过语言测评相关活动的学者、教师等）两类群体在测试理论、课堂测评等六个领域存在显著差异。他建议，专业语言测试者在保持其专业性的同时，也要与语言测评文化的其他部分相融合，避免因为过于专业化而与其他应用语言学科分离。该研究以不同背景的语言测试教师为研究对象，丰富了语言测评素养研究的理论框架。

有别于上述研究的视角，吉拉尔多（Giraldo，2018）通过文献研究法研究发现，尽管语言测评素养利益相关群体类型众多，但教师是核心成员，其语言测评素养低下是全球现象；虽然将利益相关群体进行了等级划分，但教师的语言测评素养内涵依然不够明确。为此，他提出了语言测评素养的核心成分（见图3），认为教师语言测评素养应包括知识、技能和原则，且三者呈等级排序，重要性依次递减。各成分都有其子维度，各维度共有六十六条描述语。各维度相互依存，在教师实施测评的过程中共同发挥作用。正如吉拉尔多所说，该框架主要基于前人研究及自身经验，可能存在个人偏见，因此，其有效性及权威性还有待验证。

图3：语言测评素养维度核心成分：知识、技能和原则

综上所述，语言测评素养研究的关注点不尽相同，如布林德利（2001）认为社会语境是语言测评素养的核心；英巴-卢里（2008）强调全面、整体、动态理解测评（Taylor 2009）；奥洛克林（2013）的框架中未明确“语言”成分，而英巴—卢里（2017）强调如何界定含有“语言”成分的语言测评素养标准；亚斯提巴斯和塔克拉克（2018）则对批判性思维能力提出了要求；戴维斯（2008）的研究对象为语言测试领域的专业人员，富尔彻（2012）的研究对象为语言教师，马隆（2013）的研究对象为课堂语言教师；皮尔和哈丁（2013）对语言测评素养进行了整体等级划分；郑（2013）关注两类不同教育背景教师的语言测评素养，吉拉尔多（2018）则聚焦语言教师的语言测评素养。由此可见，上述研究的多元视角为语言测评素养的深入理解提供了不同的路径。

结束语

语言测评素养是一个多维概念，有其区别于测评素养的独特性，其界定越来越关注测评所在社会的多元背景和文化的多样性。不同的利益相关群体、不同的测试背景对语言测评素养的需求也不尽相同，这对语言测评素养的界定提出了更为复杂的要求。因此，国内研究也需根据不同利益相关群体的具体需求，制订有针对性的培训方案，从而提高外语教师语言测评素养。通过开发有效评测外语教师语言测评素养水平的量具，对职前外语教师的培养和外语教师的在职培训起到积极的反拨作用。此外，还可将语言测评素养纳入外语教师职业发展规划，让语言测评素养成为外语教师职业发展不可或缺的组成部分。