商务英语考试的理论问题探索

2010-03-21陈雪翎

外语学刊 2010年6期

陈雪翎

(上海立信会计学院，上海201103)

近年来，商务英语证书(如Business English Certificate，BEC)考试在中国的考生人数每年成千上万地增加，已成为在我国举行的规模最大的海外英语考试之一。O’Sullivan对比目前国际上几个主要商务英语考试项目之后，认为可以从以下9个方面来看待其理论与实践问题:考试介绍、考试描述、考试的基本框架、测试方法、考试包含的技能、测试质量、特殊性/真实性的程度、非语言因素的作用和考试成绩的报道(O’Sullivan 2006:175)。本文从商务英语考试产生的历史背景出发，探索其中的理论问题。

1 历史背景

商务英语属于特殊用途英语(English for Specific Purposes，ESP)。对ESP领域的集中研究大约开始于上世纪80年代(Swales 1984)，主要涉及特殊环境下语言运用的独特性(Johns 1980)、教学材料的真实性(Carver 1983)和特殊用途语言学习者的需求分析等。有些关于ESP的问题，直到今天还在讨论。

语言教学理论的变化促使特殊用途英语教学方法的发展，使人们意识到有必要建立一套清楚合理的测试程序(Hawkey 2004)。在商务英语领域首先出现的标准化国际考试是美国教育考试服务中1979年推出的TOEIC考试，采用的是心理测量－结构主义模式(Spolsky 1995)。在TOEIC考试理论不断完善时，英国开发的商务英语类考试开始更加注重语言交际。这对语言学习与教学产生了深远影响，促使心理测量－结构主义模式向心理语言学－社会语言学时代转变，也就是在语言教学测试上由分散个体向集合整体转变。语言教学重点由语言知识向语言应用转变，并为测试方法的改变铺平了道路。随之而来的ESP类考试，如皇家文学社团考试委员会开发的CEFLS(Certificate in English as a Foreign Language for Secretaries)及其后来的CEIBT(Certificate in English for International Business and Trade)、伦敦工商会考试局的商务英语考试、伦敦城市行业协会开发的Pitman英语考试等。

随着商务活动的国际化需要，操不同语言的公司人员相互之间有更多的互动，因此对ESP领域中商务外语考试的重视程度越来越高。上世纪90年代，剑桥大学考试委员会推出BEC和BULATS考试。其他语种的商务语言考试也开始问世，如日语的JETRO，法语的TFI，意大利语的CIC以及法语、德语、西班牙语版的BULATS.这些考试基本上都以语言应用为导向，重点放在任务场景化和商务环境下预计的语言反应，而且都反映出商务语言的考试体裁。

2 LSP考试的理论框架

Douglas试图为特殊用途语言(Language for Specific Purposes，LSP)的考试建立一个理论框架(Douglas 2000)。这个理论框架建立在两个理论基础之上。其一，语言运用是随着运用环境改变而变化的。这种假想受到社会语言学、第二语言习得和语言测试研究的支持，同时也与人们对语言测试开发的社会认知方法的重视一致，因为语言运用环境与任务完成的认知过程有互相依赖关系。其二，特殊用途语言测试“准确”，因为其词汇、语义、句法、音系特征有别于普通用途环境。在具体定义特殊用途语言测试时，Douglas将这两个基础合为一个概念:真实性(authenticity)。他认为特殊用途英语测试的目的是:“测试内容和方法来自于对特殊用途目标语言使用情景的分析，以至于测试任务和内容真实代表目标情景中的任务，允许考生的语言能力及特殊用途知识与测试任务之间存在互动。这种测试使我们能够推断出考生在特殊用途领域内运用语言的能力”(Douglas 2000:19)。真实性是特殊用途语言测试的核心，它并不是在考试上下文中复制一些特殊用途英语的任务，而是从以下两个方面考察的结果:(1)情景真实性，之所以说其真实，是因为考试任务来自于与之关联的语言应用领域的分析;(2)互动真实性，与任务行为中的实际处理过程有关。从真实性的两个方面来看，他的理论站得住脚:考试基于语言运用因特殊环境，这些特殊环境的语言精确，与其他领域语言使用环境有区别。

当然，这些观点并非没有受到质疑。对此，Elder提出:(1)“特殊用途”环境明显存在可区别性，因此须要考察如何与通用语言能力区别;(2)真实性，什么因素可以组成考试方案，在一个人工考试环境中唤起考生;(3)非语言因素的影响和相互作用，是否能够或者是否应该与考试中的语言材料分开，单独评价(Elder 2001:149)。

将特殊用途语言与通用语言区别开来是否可能?是否可行?在商务英语方面，伦敦工商局(LCCI)在世界范围内提供商务相关课程考试多年后，1972年对600家企业的11，500名雇员的外语使用情况进行了一次调查;1982年至1985年间，在法国、希腊、西班牙和当时的联邦德国也进行了类似调查。分析调查结果对英国语言教学和考试产生了影响(O’Sullivan 2006:5)。Clapham深入研究IELTS考试成绩之后发现，考生的专业学习背景和工作背景在考试中十分重要，会影响考试成绩(Clapham 1996)。在语言水平基本相同的情况下，某些考生考试时碰到其工作领域之外的内容时，表现一般略差(Alderson＆Urquhart 1988)。然而，特殊用途英语环境界限的划定是一大难题。人们虽然能够看出某些语言材料(如词汇、句法、修辞等)运用到某个特殊环境中，但不能说出它们使用的确切限度，因为这里没有所谓的“确切限度”。商务英语存在并相互作用于通用英语领域。

商务英语考试是否能做到同时具有情景和互动的真实性?情景真实性是语言应用领域中的实际情景在考试方案中的精确反映，体现为考试中的文章和任务要求。测试情景与商务领域可以非常相像。在目前实施的考试中，任务(特别是体现接受性技能的任务)一般只具有情景真实性。建立考试任务的情景真实性相对来说比较直接，而互动真实性的建立只能通过探索考试经验来证实，因为其确定性程度要差一点，概念化程度和可操作性都较低。尽管人们都认为考试应该带来任务和相关语言能力的相互作用，但对其可操作性(基于环境的效度要素和基于理论的加工处理)还没有很好结合。考试开发和研究工作者往往依赖于某些含逸事趣闻的例证或专家意见来决定某个考试任务的互动真实性(O’Sullivan 2006:7)。这样，任务完成情况就会受任务参与者(考生)影响，往往在任务设计者(命题者)可控范围之外。可以使任务在特定操作条件下体现互动真实性，但如果期待考试在所有条件下展示则不现实。假定一个优秀考生完成了任务，展示了交际能力和特殊领域语言运用特点的互动，那么这个任务具有互动真实性，但这个过程对其他考生不一定精确。

3 关于考试的特殊性

综观 BEC，BULATS，TOEIC，LCCIEB，CEIBT 等考试，可以发现，这些考试都冠以商务英语称谓，属于特殊用途英语范畴，但内容很多，不宜仅仅视为“特殊”领域的考试。事实上，所有的考试都有其特殊性。因此，最好把所有英语考试都置于特殊性连续体(specificity continuum)中的某一位置。专业性强的考试在大众化方面较弱，反之也如此。如果一项考试不靠近这个连续体的两端，那么总会具备通用英语的特征。可以想象，如果说一个英语考试任务“特殊”，是因为它被置于职业/工作(或者我们称为商务)环境中，而语言使用还是属于通用型的。其测试重点可能还是非特殊用途语言，并不像一个很专业化的任务，须要激发一个认知过程。

如果一项考试靠近连续体的特殊用途一端，情景真实性的焦点就会改变。也就是说，考试用途的特殊性强，就会最大程度地反映真实世界的情景，焦点会落到事件而非事件语言上;通用性强、特殊性弱的考试，情况则相反。特殊用途英语考试的目的是考察一个考生在某一特殊领域的英语应用能力。因此，考试任务涉及考生潜在的语言资源和处理语言能力的程度同该特殊环境要求的程度相同，能够说明该考试的互动真实性。

非语言因素对考生考试成绩影响的程度反映考试的特殊性程度。因此，在特殊性较强的考试中不大可能将语言与事件分开。有这种要求的考试(专业性特强的考试)，其设计方案中必须认可这一点，评判考生的语言应用能力就得看其在事件中的表现(Jacoby＆McNamara 1999)。

综上所述，在定性任何一项特殊用途语言考试时，特殊性程度总是重要的，它取决于考试处于特殊性连续体中的位置。如果我们把特殊性连续体延伸到其自然的结论，那两个方向都是无限的。显然，理论上有可能存在某个末端概念，而末端的实际运用不可能。语言中有时虽然有独特性或精确性一面，但非精确性语言总是存在的。特殊性的程度和整个构架有联系，一方的变化会影响到另一方。

可以认为，考试任务的完成情况和这个任务的特殊性程度相关。本文中的考试特殊性程度实际上指考试的内容环境，它们由任务和文章的要求组成的框架表示。在通用英语考试中，把某些特定任务放在其中，是为了要引出语言样本，可以让考官评分，只是这个任务的完成可能与某种用途有关。例如，写作考试时，让考生完成一份求职申请，已经超出通用英语运用的边缘。在商务英语考试中，完成任务的意念占据中心位置。考官显然带着事先制定好的相关语言标准来评判考生是否充分完成某项任务。这体现了Elder的“不可分离性”观点(Elder 2001:159)。语言反应的相关性和充分性是每一个考试项目都具备的要点。通用英语考试任务的基本目的是取得语言样本，评价其语言程度，而相关性和充分性是社会语言和语用能力的特征。因此，商务英语考试要考察在语言使用环境中，除了语言程度外，相关性和充分性在完成任务过程中的程度。

如果所有考试都处于特殊性连续体中的某一位置，那么从现有商务英语考试来看，可能过于简单了一点。实际上，几个要素结合在一起会影响考试的特殊性程度。除真实性外，还有通用化程度和区别程度。在任何一个情景中，都会有特殊用途核心语言(core language)，可能是语言的某种特殊用法或某个特殊词汇，例如，Ball用语料库方式建立的BEC系列词汇表(Ball 2002)。这种核心语言与通用语言的使用域并不一定有明确界限，而是有一个共享的缓冲地带。可以看到，特殊性程度意念会带来通用化程度和情景真实性意念。当一项考试位于连续体中特殊性末端时，通用化程度在超出特殊情景之外的考试中就会降低。很难想象这种位于连续体特殊性末端的考试会只集中使用极其有限的核心语言。同样，假如这项考试接近于特殊性末端，其情景真实性更强。但如果特殊用途英语的考试集中使用特殊用途领域的专用语言，测试内容局限在该领域内，考试表现也只跟该领域有关。现实中，一旦我们的语言活动超出可区别的核心范围，我们就进入通用语言运用领域，这一部分领域的代表性内容在考试中只占一部分。当一项考试特殊性强的时候，核心的重要性就更强;当一项考试通用性强的时候，核心部分的作用就会降低。

商务英语考试最重要的特点是商务特殊性比较强时所带来的明显影响，这时很难把被试的能力要素清楚区别开来。考生的表现可能更易受非语言因素影响，而且影响来源不止一个，不仅仅是商务活动能力或商务知识，还与任务本身和评判任务的方式有关。考试的特殊性越强，其非语言因素的影响就越大(O’Sullivan 2006)。特殊性程度意念并不适用于整个考试，只是听、说、读、写4项中的某(些)项，甚至是某一项中的某(些)部分被特意加工成特殊性的集中点，造成非语言因素在一门考试中的影响程度也不同。

考试特殊性程度可以表示为这些要求的操作与某个特殊用途语言运用领域的相关程度，实际上也是就这些要求的每个方面判断连续体上的特殊性程度。这似乎太主观而不可行，但一个练习的真正价值在于练习的广度。特殊性程度在一项考试中是多维的，评价至少也是系统性的。考试特殊性程度与情景真实性密切关联。但像BEC或专业性更强的其他考试，其真实性都是模拟的。

现有的商务英语考试不一定具有高度特殊性，因为它们注重特定环境中的语言运用，而不一定是商务活动任务的执行情况。特殊性连续体的存在使得不同的考试在特殊性程度上各不相同，并且情景真实性、互动真实性和非语言因素对所测能力的影响也不同。

4 关于理论效度和评分效度

如果特殊性对考试开发者有实用意义，就得谈到考试效度，比如Weir研究的听、说、读、写4项技能的系列框架(Weir 2004)。在该框架中，效度从社会认知角度去认识;有几个要素应该由考试开发者注意;对考生可以进行特征描述(物理/生理的、心理和经验型的)，对考试可以从其环境效度和成功的潜力描述，以求适当处理考试任务。同时，理论效度形成考试和考生之间的联系。

理论效度在考试任务完成中是一个认知过程，涉及考试情景的处理反映语言运用领域的程度(Weir 2004)。考试内容和理论效度之间的关系体现于环境效度要素对考生认知过程的影响。如果考试任务完成过程能实现原设计意图，反映商务英语语言运用领域的认知过程，那么就可以认为考试任务体现了互动真实性。这样的考试与通用英语考试在内部处理过程中有许多不同之处，可以验证语言运用领域的可区别性，就像Bachman＆Palmer所说，真实性是“某项语言考试与目标语言运用任务(target language use)特点的对应程度”(Bachman＆Palmer 1999:23)。这意味着除了内容效度和情景真实性之外，需要在互动真实性中包含职场工作方面。有时，我们觉得确定语言水平和应用时有难度，实际上难在一个环境效度的界限问题，即不可分离性(Elder 2001:159):是否应该或者是否做得到在考试样本中单单测试其内容环境特性，将其与语言特性分开。

信度问题对所有考试开发者都有着重要意义。人们可能觉得考试的内部一致性的估量方法在考生群体变异时会有问题，而对写作、口语这些主观性考试题目来说，信度的估量方法也会有问题。对此，Luoma指出，应该把标准误差测量(standard error of measurement)作为一项管用的质量检测手段(Luoma 2004)。在答案具有唯一性的客观性试题(0，1)记分法中，标准误差测量不失为一项实用手段。但标准误差测量的前提是要能够准确估量内部一致性，这要用到口语、写作考试上就有相当难度，因为常用的相关性统计只能看出评分员评分模式之间的联系，看不出他们一致性的程度。

Weir的效度框架构成中的“评分效度”替代“信度”。Bachman认为，考试分数受几个因素影响:考生的语言交际能力、考试方法、考生个人或群体的特性以及不可预见和无系统性的随机因素(Bachman 1999:165)。考试信度概念若是包括这几个方面，则肯定可以提高。Weir认为，在阅读理解考试中，评分效度应该包含题目分析、内部一致性、信度、稳定性、误差测量、评分员信度等(Weir 2004)。但在口语考试中，内容就复杂得多了:评分标准、评分过程、评分员选拔、评分员培训、定标/鉴定、评分决定、适度、一致性、给分等。实际操作过程中，培训效果、标准化价值、评分员在打分时的想法都有讲究。这里值得研究的是对考生特性的描绘、各种变量与考试本身之间的相互作用。考生特性会影响考试任务的完成。同样，考官特性也会影响他们对考生任务完成情况的打分，甚至有时会出现考生同样的表现却得到很不一样的分数。可以看出，商务英语考试的实际操作性在某些方面不平衡。

5 结束语

相对通用英语考试来说，商务英语考试是比较新的领域。如果市场趋势倾向于通用性而不是特殊性强的考试，倾向于专业方向型而不是专业集中型的考试，那么其实用性就会强于理论性，就会体现行业英语考试的趋势，因为大规模的国际化考试往往受到市场驱动，须要满足市场需要。

Alderson，J.C.＆ Urquhart，A.H.This Test is Unfair:I’m not an Economist［A］.In Carrell，P.，Devine，J.＆ Eskey，D.(eds.).Interactive Approaches to Second Language Reading［C］.Cambridge:Cambridge University Press，1988.

Bachman，L.F.Fundamental Considerations in Language Testing［M］.上海:上海外语教育出版社，1999.

Bachman，L.F.＆ Palmer，A.S.Language Testing in Practice［M］.上海:上海外语教育出版社，1999.

Ball，F.Developing Wordlists for BEC ［J］.Research Notes，2002(8).

Carver，D.Some Propositions about ESP［J］.ESP Journal，1983(2).

Clapham，C.M.The Development of IELTS:A Study of the Effects of Background Knowledge on Reading Comprehension［M］.Cambridge:Cambridge University Press，1996.

Douglas，D.Assessing Languages for Specific Purposes［M］.Cambridge:Cambridge University Press，2000.

Elder，C.Assessing the Language Proficiency of Teachers:Are There any Border Controls?［J］.Language Testing，2001(2).

Hawkey，R.The Development of CELS:A Modular Approach to Testing English Language Skills［M］.Cambridge:University of Cambridge Local Examinations Syndicate and Cambridge University Press，2004.

Jacoby，S.＆ McNamara，T.F.Locating Competence［J］.English for Specific Purposes，1999(3).

Johns，A.Cohesion in Written Business Discourse:Some Contrasts［J］.ESP Journal，1980(1).

Luoma，S.Assessing Speaking［M］.Cambridge:Cambridge University Press，2004.

O’Sullivan，B.Issues in Testing Business English［M］.Cambridge:Cambridge University Press，2006.

Spolsky，B.Measured Words［M］.Oxford:Oxford University Press，1995.

Swales，J.ESP Comes of Age?— 21 Years after“Some Measurable Characteristics of Modern Scientific Prose”［J］.UNESCO Alsed — LSP Newsletter，1984(2).

Weir，C.J.Language Testing and Validity Evidence［M］.Oxford:Palgrave，2004.