论语言测试中的后效

2009-05-29刘婧

西南交通大学学报(社会科学版) 2009年2期

关键词：后效

刘　婧

关键词：后效；构想效度；真实性与直接性原则

摘要：后效(washback)是应用语言学的一个特殊概念，一般指一个测验的使用在多大程度上影响了语言教师和学习者的行为，这种行为是在测验的情况下才会发生的，并促进或制约着语言的学习。后效的作用机制比较复杂，它的运行模式由参与者、行为过程和结果三个基本要素组成，同时具有整体性、差异性、非即时性等特点，因此要提高后效的积极性必须建立起构想效度的理论和操作方法，并遵循测验内容的真实性和直接性原则。

中图分类号：HO文献标志码：A文章编号：1009－4474(2009)02－0089－05

一、后效的内涵

后效，也叫反馈，是应用语言学研究中的一项重要内容。语言学家对它的含义有着比较相似的界定，特别是英国语言学家。后效通常指一个测验的使用在多大程度上影响了语言教师和学习者的行为，而他们的行为是在有测验的情况下才会产生的，这些行为会促进或制约语言的学习。

“后效”来源于美国的教育改革(一大部分还只是教育思考)。在美国教育改革中，人们尤其是教育者们开始重视行为评估(performanceassessments)而愈加怀疑那些由多项选择题占主体的测验，甚至有人认为那些具备真实性和直接性的行为评估才像是在系统地建立效度。因为行为评估测验引起的教学理念和方法的变化才能真正培养学生的认知技能，而这种技能正是测验要测量的。后效效度(wash back validity)在这一背景下逐渐受到重视，人们开始认可测验的部分效度应由其对教学产生的积极或消极效应来评估和检验。应如何真正地认识和研究后效，让我们首先回顾一下研究者们对后效内涵的认识和挖掘成果。

Buck曾这样认识后效，为了适应于测试的要求，教师和学生去“裁剪”他们的课堂活动，这是一种很自然的趋势。尤其是当某个测验对于学生的前途以及升学率对衡量教师成功与否至关重要的时候，测验在课堂上的影响(对被试来说即是后效)当然是非常重要的。因此测验的后效可能是有益的或者是有害的。Buck对日本高中生准备英语升学考试的情况进行研究后，认为此种英语考试的后效是消极的。他的研究表明，可能有多种原因致使日本的高中毕业生甚至在最基本的交际中都不会使用英语表达，尽管他们接受了几百个小时的课堂教学辅导，但可以肯定地说，升学考试的后效是罪魁祸首之一。对于熟悉中国现代教育制度的人来说，这种后效几乎是负面的。在中国的中小学课堂上，后效被称为“指挥棒”效应也许更恰当。这种效应导致了多年要改但又未改而愈改愈乱的“应试教育”模式，并且造就了太多高分低能的学生，从语言学科来说，就是出现了太多揣着资格证书的“聋子”和“哑巴”的语言学习者。Alan Davis认为，如果一个以语言结构为基础的重大测验阻碍了教师运用更交际化的手段来提高学生的语言能力，那么这个测验就被认为起到了消极作用。Smith在1991年对全美2200多名中学教师的大规模调查后发现，有60％的数学教师和63％的理科教师认为学生学习的消极后效来自于强制性测验。还有诸如“教学直线说”，也把矛头指向了测验内容使教程与教师教学变狭窄的因果关系上。Shohamy则把考试干脆看作是决策者手中的利器，它可以操纵整个教育系统，控制教程，指挥教师，左右教材。

研究者们认识到了后效的存在，事实上，大家更多的是强调了它消极的一面。但是也有人理智地分析了它的积极性，并提出了强化后效积极性的措施。Hughes就概括了促进后效积极性的七种方式，例如使用那些能检验出被试真正能力的测验，而不去使用那些满是选择题的测验。另外，还要使用丰富、广泛且不易预测的测验材料，以防老师们为了备考去拼命押题。同时，也要保证测验的形式、内容和目的能够被教师和学生了解和理解，并由测验的开发者向教师们提供一些所需的帮助。Frederiekson等研究者认为测验应该引导好教材、教学过程、教师和学生，使测验驱动教学，从这个意义上讲是发挥了后效积极意义的。Alan Davis也认为，测验积极的后效是测验催生好的教学实践的结果。Alderson和Wall则更加全面地分析了后效，他们认为，后效作为一个概念应是中性的…，有积极的或消极的可能性。

笔者认为，后效既然是一种影响，必然会产生正面和负面的效应，强调任何一面都是有失偏颇的，我们必须全面地认识它的内涵。从全球教育界包括国内教育界来看，研究者及社会的主流观点都倾向于强调测试后效消极的一面，并以此去质疑目前的考试是否可以检验出个人的真实能力。但笔者认为，客观理性地分析后效，并找出相关的实证性研究证明，把后效积极的效应最大地发挥出来，使教师和学生能够真正地从学习和测试中受益，才是我们研究的根本目标。

从对后效内涵的界定和认识来看，我们可以做出以下几点归纳：(1)后效从一般意义上讲是被定义为测验教与学两方面的影响；(2)人们已广泛地认同它的存在与重要价值，但更多地强调了它的消极效应；(3)很少有相关的实证性研究来证明后效的作用机制。

二、后效的作用机制

1运行模式

Hughes曾谈到过测验后效的基本运行模式。这一基本运行模式由三个基本因素组成，即参与者、行为过程及结果。它们在整个教学过程中是动态的，并互相影响。Hughes认为应该分清上述三个因素的具体性质并认识到它们都可能受到测验的影响。他所界定的参与者主要包括学生、课堂教师、教学管理者、学习资源的开发者及出版商和测验的研发者。行为过程则包括了参与者影响学习过程的一切行为：教材的开发、大纲的制定、教学方法的转变、学习者学习及应考策略的调整等。结果指的就是学习者学到了什么(如语言技能知识)、语言技能的质量(如语言的流利程度)等。从整个运行模式来看，测验首先影响了参与者的观念和态度，而这些认识继而影响了参与者完成他们任务的整个过程，例如教师们开始进行新的更顺应考试发展模式的教学设计，出版商们会加快开发一些接近真实测验形式与内容的学习材料，课堂教师则引导学生做一些与实考题目类型近似的题目等，而这些过程最终会影响学习者学习的结果。当然，从宏观上来看，Hughes的这一运行模式是循环互动的，运作的过程也很复杂。

笔者认为，Hughes的运行模式说明了后效的基本运作机制。后效从一般意义上讲是发生在教学课堂环境内，参与者也多是与教学活动高度相关的人员，如教师、学习者、教材出版商和测验的研发者等。Hughes只把他们称为“参与者”。笔者则倾向于称他们为“直接参与者”。因为，我们深入思考下去，会发现还有一些参与者看似远离“第一线”的教学活动，而他们的观念、决策却在不同程度上影响着后效。在这里，我们更愿意称他们为“隐性参与者”。他们是学习者家庭、测验的使用者(决策

者)、教学单位决策者、媒介宣传者等。对于学习者(应试者)的亚群体——年龄较轻、无经济收入、依靠父母支持的人群来说，父母或者家庭监护人对于测验的认识和态度会在某种程度上影响学习者对测验的态度以至影响他们在学习过程中采取的行为。例如在一些家庭中，家长可能会采取一些高压方式来强制学生进行学习以取得考试中的高分数。而学生有可能会采取一些应试策略来单纯追求高分而忽略了自己语言能力的提高训练。从教学单位的利益来说，为了争取更多的生源，决策者会重视家长以及学习者对测验的态度，而这些态度将会影响到决策者的决策，包括对教师评判标准的政策。于是，教学活动的另一主角——教师会受到影响。还有，测验的使用者作为“隐性参与者”的重要一员，其对测验的态度、决策又会极大影响着上述的直接或隐性参与者们。一家著名公司在招聘员工或者一所名牌大学在录取学生时，由于对某种测验(如GRE或TOEFL成绩)非常重视，甚至作为唯一选拔标准时(如中国的高考)，实际上这样的参与者才是真正“重量级”的，他们拥有更大的选择权，他们的选择倾向将会大大影响后效的作用机制。如果从社会学角度看，参与者的观念也会受社会期望价值的影响，这种影响力也可以随媒介宣传者的传播进而对后效产生影响。总之，对于Hughes提出的运行模式的参与者，笔者倾向于只让他们扮演“台前”角色，同样重要甚至更加具有影响力的“幕后”角色是需要考虑也是必须研究的。

2特点

(1)整体性

笔者认为，后效的产生不仅仅来自于测验本身，实际上，后效的产生和作用还受到社会经济、政治、思想观念等诸多方面的影响。仅依赖测验设计的质量来解决后效是不可能的，所以认识后效作用机制的整体性特点是认识它的一个前提。直接和隐性参与者的工作都会作用于后效的运行过程，在社会期望价值观念、家庭的影响、决策者的选择、管理者的心理、经济压力下，学习者和教师都会倾向于追求成功。Bailey认为，学习者在后效影响下采取的行为包括学习语法及单词、参加语言补习班、广泛阅读目的语材料、练习与测验类似的模拟题、参与目的语口语交流等。而这些行动也需要其他因素的配合。在这一过程中，语言考试委员会就有责任让学生更多地了解关于测验内容、程序的有关信息，各种学习资源材料的开发者要负责提供具有适应性的教材，教学单位要负责教师的进修，教师也应做好设计引导学生进行语言学习与测验的准备。这些工作会以整体性的方式影响最终的结果。

(2)差异性

另外，还有一些非教学与测量的复杂因素也在或多或少影响着后效。这些因素造成了后效运行的差异性。比如一些具有“高风险”性质的测验(直接或在极大程度上影响考生职业或学业命运的考试)，它的后效就可能造成极大的影响力，而“低风险”测验(如阶段性小测验)的影响力就要小得多。另外，语言的地位也可能影响后效。阿拉伯语在以色列的应用价值很低，使用这种语言的国家与以色列处在战争对立的背景中，掌握这种语言在求职、学术研究及社会地位上显然没有什么益处。

(3)非即时性

后效发生作用是需要时间的，不是一次测验之后就立即发挥效力。上述运行特点的整体性与差异性决定了后效作用机制的复杂性，这种复杂性就可以说明其机制运行的非即时性特点。Elana等人历时三年发现，ASL(以阿拉伯语为第二外语语言考试)与EFL(以英语为第二外语的语言考试)的后效在三年中发生了不同的变化，前者的后效在几年内骤然降低，而后者却在不断地提高。

三、提高后效积极性的方法

1建立构想效度理论及方法

笔者认为，从本质上来说，提高后效的积极性不应仅仅讨论后效的问题，它应该而且必须要和测试的核心问题——效度联系起来。只有解决了效度的问题，才可以谈到如何强化后效的积极性作用。因为后效的积极作用是要真正提高被试者的语言能力，而效度的研究恰恰是要探求这种语言能力的本质。

效度指测验的有效性，即测验在何种程度上测出了它宣称要测的东西。这些东西在语言测试中就是被试的语言能力。如何证明测验的有效性，这又涉及到了效度的另一个最本质也是最困难的概念——构想效度。建立构想效度，意图在于建立一种语言能力假说，并按照科学实证的方式证明这一假说。

在建立构想效度的过程中，如果有充分的证据表明某个测验测量了根据理论假定要测量的能力或特质，那就不仅证明这个测验有效，而且也证明我们对测验的解释、使用有效，以及我们的理论所假设的结构或能力有效。如果你要想测量某种性质的东西(物质的或精神的)，你不能仅仅只给出一个测量结果，而应解释出这种东西的属性、构成。对于语言测验来说，它的学科性质是隶属于心理测量的领域，最基本的任务是测量人的心理能力。所以构想效度的核心问题就是对这种心理能力或者语言能力作出定义。关于语言能力的性质和组成，语言学界从未有过可以通过科学实证证明了的构想。例如最大也最风行一时的理论流派结构主义一度影响了人们对语言能力的认识，其代表人物之一的lado把能力既看作诸多更小的能力组成的能力成分，又把能力理解为技能，进而把它们条块化，于是有了听说读写四位一体的理论。Bachman对此进行了反驳，他认为能力组成成分和技能应区分开来。知识和技能在lado的理论里没有形成体系，整体不应是各部分之和。听说读写也不是语言整体能力可“拆卸”的部件。社会语言学家则希望通过语言来考察社会，他们认为语言具有社会性质，那么凡是社会的，就应与语言拉上某种关系。显然，作为科学基本原则的理论概括性在社会语言学领域已不能立足，而社会语言学的研究方法离我们要达到的目的也愈来愈远。对于语言测试来讲，社会语言学对语言能力的解释无法区分一个分数所反映的究竟是被试的世界知识还是他的语言能力。笔者认为，Bachman关于语言能力的模型之说算是集大成者，它虽然仍然无法通过实证研究进行证明，但更具整合性，更细致划分了语言知识和交际技能的成分，还提出了认知能力的问题。Bachman既思考了语言知识的基础作用，又大大扩大了交际技能的范围。我们有理由相信，他既受社会语言学、行为科学的影响，又受到生物心理学、认知心理学的启发。笔者认为这一模型虽不够完善，但也是迄今为止最成熟的语言能力构成模型了。在建立构想效度的问题上，笔者倾向于Bachman和其他专家的观点，即在收集各种证据来建立效度的过程中，单一的维度和基于同一标准的信息实在无法支撑其有效性。我们需要尽可能多的和广泛的信息来作为证据。我们应把各种效度概念看成一个整体，把不同类型的效度看成是包含在这个一体化效度概念结构上的不同构成。这种建立效度一元化的观点和做法应该是建立构想效度的立足点。

构想效度和效度理论的建立与证明，不是一个简单的问题。它需要语言学研究像乔姆斯基所规

划的那样，打破人文科学与自然科学的界限。另外，构建语言能力理论的研究模型要具有高度抽象性和概括性，我们需要对语言能力的本源进行探究，并且把研究视角转向发生学、生物学、心理学等更广泛的领域，还要对存在于人心智中的状态进行语法化的描述。我们所做的这些研究不是纯粹理论性的，我们要结合自然科学和人文科学的理论和方法论，最终解决人类的语言能力的本质、发生和作用机制等本质问题。只有上述问题成功地解决，才能让我们找到语言测试中构想效度理论和方法的终极路径。

2遵循真实性与直接性原则

Wesche指出，语言测验的题目如果可以再现真实生活中的语言情境内容，并且这些题目能测出第二语言学习者所需的技能，我们将能够对于学习者们如何能在真实生活中使用目的语作出更准确的预测。她进一步指出，这样的测验对第二语言整个教学过程的形式及内容有极重大的影响，通过测验与教学极高的相关性，可以激发学生的学习动力。在这里，她实际上涉及到了后效运行机制的两大环节：参与者与过程。学习者是参与者中的主体，而教学过程也是过程中的主体。这样，建立测验内容的真实性与直接性，可以在一定程度上提高后效。Doye则在测验应用的条件上定义了真实性：一个真实的测验是要再现真实的生活情境，并以此来检验学生应对真实生活的语言能力。Carrol反对测验中呈现的类型化常规化的刺激反应模式，以及为了简洁的目的而经过删减或假造的题目设计，希望呈现一种连续的甚至含有并不合规则形式的语言项目。

Bachman认为用真实生活的方式来定义真实就是测验行为在多大程度上复制了特定的非测验语言行为。他尝试性地提出了两种解决方法：一种方法主要考虑语言测验题目在多大程度上从外部和功能上更像我们真实生活下的语言内容；另一种方法是要考虑确定成功的语言交际所需的能力的特性，以及那些决定语言使用者和背景、对话互动关系的情境特性。这些基本特性是描述交际性语言能力和语言测试方法的理论框架的基础，反过来又引导语言测试的研发。在这里，需要指出的是，威胁测验真实性以及效度的是构想缺乏代表性和构想无关变异。所以，如果要增加后效的积极性，就要研究如何减少测量中构想缺乏代表性和构想无关变异的问题。

后效的积极和消极与否基于测验的效度，在众多效度方法和概念的一体化建立过程中，我们需要遵守真实性与直接性的原则，尽量减少缺乏代表性和无关变异威胁效度的因素，并要拥有更多量上的和更广泛的证据。我们也应该探求结构效度的理论，并寻求更恰当的操作方法，这样才能使支持分数背后的含义的推论和解释更加准确、恰当。

必须承认，一些非教学与测量的复杂因素，包括教材的开发、大纲的制定、教学方法的转变、学习者学习及应考策略的调整等也在或多或少影响着后效。社会价值观念、决策层的最终选择倾向、教学的真实实践等这些非测量因素是“只管测了一下”的测验无法左右的。我们应区分缺乏效度所引起的消极后效和非测验因素带来的后效消极，二者是不同的。

(责任编辑杨珊)