《Routledge语言测试手册》评介

2015-03-29徐鹰

当代外语研究 2015年10期

关键词：效度评估测试

徐鹰

（华南理工大学，广州，510641）

《Routledge语言测试手册》评介

徐鹰

（华南理工大学，广州，510641）

Fulcher，G．＆F．Davidson．2012．The Routledge Handbook of Language Testing．London ＆New York：Routledge．ISBN：978－0－415－57063－3（hbk）．pp．■＋536．

1．引言

自2010年以来，Routledge出版公司陆续推出了一系列应用语言学手册丛书，其中《语言测试手册》于2012年出版。该手册的两位编者都是国际语言测试界的权威学者。Fulcher现为英国莱斯特大学教授，担任国际语言测试界权威期刊《语言测试》（Language Testing）的主编；Davidson现为美国伊利诺伊大学教授。他们曾经一起合作撰写过一本教材《语言测试与评估：高级读本》（Fulcher ＆Davidson 2007）。该教材由Routledge出版公司于2007年出版，属于该公司应用语言学系列教材之一。它的出版产生了巨大反响，被誉为语言测试专业师生必读教材（Brown 2011）。《语言测试手册》是《语言测试与评估：高级读本》的延续，面向语言测试的开发者、使用者、研究者以及相关政策制定者，是一本语言测试研究的必备参考书。

2．内容简介

全书共分为九大部分，每部分包括三到五章，共三十四章。

第一部分主题是效度以及效度验证，这是所有语言测试研究的核心。第1章首先对效度概念的变迁进行了回顾和批判，然后从哲学本体论和认识论的角度对效度、构念、语言能力发展等核心问题进行了阐述。第2章对基于论证的效度验证模式进行了系统阐述，并以做事测试为例演示了如何构建解释性论证，以及如何在效度论证中检验其推理和假设的“连贯性”（coherence）和“或然性”（plausibility）等关键问题。第3章对测试和评估中对弱势考生的“调节帮助”（accommodation）的效度问题进行了探讨。

第二部分讨论课堂评估和反拨效应。第4章认为，课堂评估与传统测试研究在方法论和哲学背景上有显著差异，课堂评估的目的在于促学，其理论框架是社会文化理论和建构主义理论。第5章对反拨效应的研究现状进行了分析，发现考试影响是多因素共同作用的结果，其中教师态度和信念作用明显。但目前相关实证研究之间欠缺连贯性和系统性，亟待理论化。第6章对学习二／外语的小学生的评估进行了分析，并提出了“帮助任课教师成为评估者”的观点。第7章对建立在社会文化理论框架下的动态评估理论进行了详细介绍，认为该理论旨在实现评、教结合，未来研究重点在于如何实现评估过程的标准化。第8章对基于课堂的诊断评估进行了阐述，介绍了诊断评估的目的、诊断推理的来源以及评估后效等特征，并对评估标准的详细度、诊断信息内容类别、认知诊断建模以及诊断评估中的师生主体性等内容进行了探讨。

第三部分讨论语言测试的社会使用。第9章以美国航空英语考试为例，说明如何设计具有特定目的和高风险的语言测试。第10章介绍语言测试研究中的一个冷门领域：对交际障碍考生的语言测试。第11章从人类迁徙、公民身份政策的历史变迁出发，探讨了语言测试如何服务移民、入籍以及避难等政治目的。第12章讨论了语言测试的社会维度，重点分析了语言知识构念如何影响测试开发和分数解释，以及测试使用对个人、机构和组织产生的后果。

第四部分涉及测试设计细则。第13章以准则参照测试为例，强调了测试设计细则的重要性，认为它是测试开发和效度论证的核心组件，是生产试题的“模具”（mould）。第14章以TOEFL iBT考试和TOEIC口语和写作考试为例，详细说明了以证据为中心的测试设计（ECD）的关键原则、主要成分以及操作流程。第15章以口语能力面试（OPI）任务为例，对做事测试中的主张、证据和推理进行了讨论，重点论述了测试目标域分析和抽样、任务难度分析、评分标准构建以及评分人差异处理等问题。

第五部分介绍试题命制和任务设计。第16章从心理测量学、真实性、系统性、批判性等视角出发，回顾了试题编写的不同方法，描述了命题者的情况，认为有必要加强对他们的研究。第17章对综合性写作任务从任务对比、任务特征、综合性写作任务和语言能力之间关系以及该任务所测构念进行了评述，重点是写作构念界定、综合性写作任务类型、阅读文本选取、任务指令编写和评分标准开发等问题。第18章阐释了考试策略和测试任务设计的关系，核心问题是确定考试策略是否属于所测构念。

第六部分主题是原型题实验和现场实验。第19章认为原型题实验是大规模前测或试测前的必要阶段，能有效解决新题型开发中的许多问题。第20章以某个学术写作测试为例，在“测试使用论证”（Bachman ＆Palmer 2010）的框架下讨论了“实际使用前测试”（Pre－operational testing），具体包括考题试测和现场实验两个阶段。第21章以词汇测试为例，详细说明了试测的过程。

第七部分讨论测量理论和实践。第22章对经典测试理论进行了回顾，重点是项目分析、信度计算、测量的标准误以及效度分析等内容，并对测试研究者提出了七点忠告。第23章通过一份样本数据介绍了项目反应理论的基本观点以及各种参数模型，并重点介绍了多层面Rasch模型。第24章从哲学高度对信度概念进行了重新审视，重点是信度同一致性、误差、概推性（generalizability）、可靠性（dependability）之间的关系，并从“特质说”（traitbased reasoning）出发阐述了信、效度之间的关系。第25章对概化理论及其常用工具进行了详细介绍，并对分数差异的本质进行了深入探讨。第26章从历史和哲学的视角对评分标准的类型、构建方法和特点进行了全面、细致地分析，重点探讨了基于不同方法的评分标准的优、缺点，同时论述了评分标准和语言习得的关系、评分标准描述语的模糊性、测试重点以及推理在评分标准解释中的核心地位。

第八部分的主题是施测和培训。第27章从质量管理视角（包括质量控制和质量保证两种活动）讨论了如何对测试循环的各个阶段控制误差，从而强化测试的效度论证。第28章在效度理论的框架下讨论了口语测试中的对话人培训以及做事测试（包括口语测试和写作测试）中的评分人培训。第29章对计算机辅助语言测试（CALT）进行了探讨，并以TOEFL iBT和CBT考试为例重点讨论了计算机的强大功能和提高分数意义的关系。第30章对计算机作文自动评分的效度进行了充分而深入的回顾，并从分数的准确性、概推性、意义性和有用性等角度提出了关于自动评分效度验证的一系列关键问题。

第九部分的主题是道德和语言政策。第31章深入讨论了道德规范的概念和作用。第32章阐述了测试中的“公正”（fairness）的含义。第33章在回顾欧洲语言能力等级共同量表（CEFR）和美国外语教学委员会（ACTFL）语言能力量表／美国外交学院（FSI）口语能力等级量表的基础上，对现有语言能力量表的优、缺点进行了深入的阐述。第34章对测试的误用现象进行了剖析。

3．评论

本手册对语言测试与评估领域的主要研究内容做了全面审视。两位编者通过精心选择各章主题界定了语言测试的研究范围，进而确立了语言测试作为一门独立学科的地位。纵观全书，本手册具有以下几个鲜明特点：

（1）内容丰富，结构严谨

本手册既包括当前语言测试领域讨论的常规话题，也包括一些相对非主流，但却意义重大的研究分支，如第3章关于测试中对弱势考生的调节帮助的效度问题；第10章关于交际障碍症考生的语言测试以及第27章关于试题命制和施测过程中的质量管理等。这些主题的选取结合了国际语言测试界的研究现状，体现了学科发展的前沿和动态，有效地界定了语言测试作为一门独立学科的研究范围和研究范式，为广大语言测试研究者提供了重要参考和有益启示。需要特别指出的是，就国内语言测试研究现状而言，本手册中的不少主题（例如第三、六、八和九部分）的研究还相对单薄，国内权威学术期刊难以见到相关的文章。因此，本手册有助于拓展国内语言测试研究者的学术视野。

本手册一共由38位国际语言测试界的顶尖学者共同完成，他们中既有权威学者（如Michael Kane、Alan Davies、Dianne Wall等），也有在某个领域作出重大突破的后起之秀（如Eunice Jang、Xiaoming Xi等）。每一章体例大致相同，包括导入、前期研究视角、重点研究问题、当前研究及贡献、未来研究方向、深度阅读文献以及核心参考文献等七部分。从结构上看，每一章的作者在回顾前期研究的基础上，首先提出了该领域的关键问题，并对当前研究中的热点、难点、不足和主要研究方法进行了讨论，然后对未来该领域的发展进行了展望，最后提供了该领域深度阅读文献和核心参考文献，为读者清楚地描绘了学科发展方向。此外，各章节的安排也体现了编者们的独具匠心，基本沿袭了《语言测试与评估：高级读本》的体例，以效度和效度验证为中心，由内而外，一步步向语言测试学科的各相关领域推进。各部分和各章节环环相扣、逻辑严密。这种编排也反映了该手册的编写理念同《语言测试与评估：高级读本》一脉相承，反映了语言测试研究的实用主义（pragmatism）和效果驱动（effect－driven testing）理念（Brown 2011：146）。两位编者明确指出，本手册第一部分对效度和效度验证的讨论是所有语言测试设计和研究活动的核心，以目标驱动（purpose－driven）的测试研究就是要确定和研究能构建某一测试的证据，从而保证该测试的分数解释同目标决策相关。因此，在具体安排上，首先由第1章作者Carol Chapelle深入细致地回顾了当代效度理论的四种主要观点：Lado（1961）对效度的原初定义、Messick（1989）的整体效度观、Bachman和Palmer（1996）的测试有用性以及Kane（2006）的效度论证。然后，第2章作者Michael Kane对解释性论证在效度论证中的重要作用进行了阐述。毋庸置疑，这两章为整个手册奠定了扎实的理论基础，从而将看似千差万别的不同研究主题有机编排成脉络分明的章节。

（2）观点鲜明，互为补充

本手册每一部分至少包括三章。作者们从各个独特视角对同一个主题进行阐述，为深化读者对该领域的认识提供了宝贵材料，满足了语言测试作为一门新兴学科亟需建立统一学科集体意识的迫切需求，充分体现了两位编者的理念：“通往知识与进步的唯一途径是通过讨论并测试不同的观点”（16）。以第二部分课堂评估和反拨效应为例，作者们选取了不同的理论视角，围绕课堂评估“促学”的作用和定位进行阐述。相关各章节联系紧密，如第5、7、8章在不同的理论框架下都对反拨效应展开了讨论。这种安排既为读者全面深刻地理解课堂评估和反拨效应奠定了坚实的基础，同时也为其汲取百家之长，培养自身创造性、批判性思维提供了条件。

（3）立论深刻，例证翔实

本手册各章作者站在哲学和历史的高度，对语言测试各个领域的发展进行回顾和展望，因此得出的结论富有洞见和启发，如第28章作者Annie Brown在对评分人培训研究进行展望时提出，未来研究应包含不同培训方法效果对比以及评分人如何处理反馈信息等内容。这种敏锐的视野体现了学者们扎实的理论基础、清晰的学科发展思路以及丰富的科研实践经验。此外，为了更好地诠释核心观点，各章节都提供了具体实例，增强了全书的可读性和实用性。总而言之，本手册的作者们对某一话题专业论述以及提供的丰富信息对广大语言测试研究者提供了绝好的学习典范。

本手册也有少许遗憾。（1）本手册包括九部分，基本对应《语言测试与评估：高级读本》的导入部分的十个单元，唯独缺少第三单元（构念和理论模型）。由于语言使用具有复杂性和多变量特征，目前学界对于语言能力的本质属性仍存在争议。尽管Kane的解释性论证能在某种程度上规避构念定义这个棘手的问题，但是鉴于语言能力在语言测试中的核心地位以及手册和教材的紧密联系，这部分应该在手册中占有一席之地。（2）部分章节安排的位置不太恰当，如第12章作者Richard Young对于语言测试社会维度的探讨关涉的内容繁多，既对语言测试所测的构念从社会语境视角进行了细致分析，又对语言测试如何在社会活动中对个人以及社会整体产生的作用进行了描述。这一章可以视为第一部分效度和效度论证的内容。（3）某些研究热点如二语语用能力测试没有提及，有兴趣的读者可参考Roever（2011）。此外，对于英语作为通用语（English as a Lingua Franca）、英语的各类变体以及非英语的其他语言（如汉语）的测试也只字未提。对于一个学科的手册而言，有必要对这些重要新兴领域的研究现状和进展加以描述。

总而言之，本手册学术价值极高，值得向广大读者推荐。

Bachman，L．F．＆A．S．Palmer．1996．Language Testing in Practice［M］．Oxford：Oxford University Press．

Bachman，L．F．＆A．S．Palmer．2010．Language Assessment in Practice：Developing Language Assessments and Justifying Their Use in the Real World［M］．Oxford：Oxford University Press．

Brown，A．2011．Book review of Language Testing and Assessment：An Advanced Resource Book．［J］．Language Testing（1）：145－48．

Fulcher，G．＆F．Davidson．2007．Language Testing and Assessment：An Advanced Resource Book［M］．London＆New York：Routledge．

Kane，M．T．2006．Validation［A］．In R．L．Brennan（ed．）．Educational Measurement［C］．Westport：Praeger．17－64．

Lado，R．1961．Language Testing［M］．New York：McGraw－Hill．

Messick，S．1989．Validity［A］．In R．L．Linn（ed．）．Educational Measurement［C］．New York：Macmillan．13－103．

Roever，C．2011．Testing of second language pragmatics：Past and future［J］．Language Testing（4）：463－81．

（责任编辑甄凤超）

徐鹰，华南理工大学外国语学院副教授、博士。主要研究方向为语言测试。电子邮箱：xuying＠scut．edu．cn

＊本文系广东省教育科研项目（编号2013JK013）、广东省哲学社科规划学科共建项目（编号GD14 XWW21）、广东教育教学成果奖（高等教育）培育项目以及华南理工大学校级教改项目（编号X2 WY－Y1141940）的部分研究成果。

猜你喜欢

效度评估测试

幽默大测试

慈善募捐规制中的国家与社会：兼论《慈善法》的效度和限度

复杂图形测验对区分阿尔茨海默病与非痴呆的诊断效度

当代外语研究

2015年10期