机助口试理论模型、任务特征和评分标准研究——新托福网络口试和PhonePassTMSET口试对比分析<br/>

机助口试理论模型、任务特征和评分标准研究——新托福网络口试和PhonePassTMSET口试对比分析

2013-11-08李梦莉

中国考试 2013年8期

李梦莉范琳

随着网络时代的到来，信息技术已经越来越多地为口语测试服务。在过去几年中，计算机在两个领域的进展使其能够对语言进行评估。一是语音识别软件。计算机可以以毫秒为单位分析声谱，较为精确地重现录制的言语，分析口语表达的数量并提供数据信息。该软件能够将人工评分时的“印象分”科学地加以量化。二是技术的发展使神经网络的应用成为可能，从而可以训练计算机在参考数据库的基础上形成独立的判断能力（Cleary，2003：5）。本文将对当今颇具影响力的两种机助口试—iBT TOEFL口试和PhonepassTMSET口试进行对比，从而对机助口试理论模型、任务特征、评分标准及过程进行分析。

1 口语本质

任何类型的口语测试，都需要考虑口语的本质特征。Bygate（1987）把口语特征归纳为两点：加工性和互动性。加工性是指说和听常常交织在一起，随着时间不断变化，具有短暂性。解决这一问题的方法是互动性。互动性指说话人和听话人彼此应答，进行话轮转换，共同完成言语交际任务。互动性帮助说话者解决口语的加工性问题，也是口头交际的社会性，所使用话语和话轮转换模式创造并反映说者与听者的社会关系。此外，Bygate还把口语看成是说话者内部的过程，他把口语分为三个加工过程：计划、选择、产出，同时把每个过程需要的口语能力从口语知识和口语技能分开论述。在计划阶段，学习者应该掌握的知识有信息知识、互动知识、话语类型知识，应该具有的口语技能有信息计划、口语管理技能；在选择阶段，学习者需要词汇、短语和语法资源方面的知识，需要的技能是意义协商技能；在产出阶段，学习者需要的知识是语法规则和发音规则，需要的技能为辅助和补偿技能、准确技能。这一模型用来评估口语学习情况非常有效。把口语技能划分为计划、选择和产出技能，为组织口语学习活动和选择培养这些技能的任务提供了明晰的依据。

理想的口语测试应该能够反映口语的本质特征：加工型和互动性。口语测试任务应该体现口语活动的特点，具有交互性、目的性、准语言性、非语言性以及听说不可分割性。传统的口语测试采取考官与考生直接对话的模式，优势在于交互性高，具有很高的表面效度。但大量研究表明，考官提问的方式、考官与考生的熟悉程度、组队口试和分组口试中其他考生的个人特征都可能影响受试者口语水平的发挥，进而影响评分员的评分。因此，诸多因素威胁着口语测试的信度。此外，传统口语测试需要耗费大量的人力、物力，如考官培训、考场设置等，这使得在同一时间进行大规模口语测试变得不可行。那么，机助口试是否能弥补传统口试的不足，同时又体现以上口语特征和口语活动特点呢？

2 机助口试理论模型

iBT TOEFL和PhonePassTMSET均属于水平测试。水平考试有两大特点：第一，它是选拔性考试。第二，它的设计基础是语言理论，即theory-based。水平考试根据语言理论所设计的标准来测试考生现有的语言能力。在设计口语测试时，我们希望分数与测试之外的某些东西相关。如果我们想测试受试者的口语交际能力，就需要一个参照框架来解释什么是口语能力以及它与测试的关系。通常的做法是把测试与一种或几种语言能力模型相联系。理论模型有两个用途：一是作为口语测试的理论支撑，二是为评分标准的结构和措辞提供启示。

iBT TOEFL口试的设计基于交际语言能力模型。Bachman&Palmer（1996：62-63）认为，语言使用是语言使用者和他们的语境之间的交互。该模型假设语言使用涉及五个部分：语言知识、话题知识、个人特征、策略能力和情感因素。他们的语言能力概念包括两个部分：语言知识和策略能力。语言知识涵盖结构知识、语法知识、语篇知识、语用知识、功能知识和社会语言知识；策略能力涉及目标设定、评估和计划。Bachman&Palmer的“语言知识”概念明确了与所有语言使用相关的知识构成，这并不意味着他们的语言能力概念不适用于分析口语评估，相反，该语言能力模型中分析的知识和策略与各种口语情景相关。

新托福网络考试具有以下特点：（1）采用了交际语言能力测试的模式，能对考生的语言交际能力进行直接评估；（2）采用了较多的问答题和适度的写作与会话试题；（3）能直接测试综合语言能力（即读写能力和听说能力）；（4）还能提供更多的有关考生在学术氛围中使用英语能力的信息（刘美华等，2007：56）。文秋芳（1999：43-44）将交际口试的特点归纳为真实性、功能性、交互性、情景性和综合性。真实性指口试试题体现出交际的真实需要。功能性指口试试题突出使用语言的任务性，使用语言是为了完成某项功能。交互性指考生与考官、考生与考生之间不停交换听说角色、进行好几个回合的交流。情景性指将口语试题置于一个真实的情景中。综合性指评分按照考生完成任务的综合效果来评定成绩。根据以上描述，iBTTOEFL口试除了在交互性方面是人机交互，没有话轮外，完全满足交际口试的其他特征，能够测试交际语言能力。

PhonePassTMSET的理论模型是根据Levelt（1989）的言语产出模型改编。PhonePassTMSET测试口语能力——理解日常英语口语的能力和用可理解的英语进行恰当回应的能力。该口语能力构念也可以表述为：及时容易地理解和产出得体英语口语。这种定义与口语交谈的过程有关。要跟上会话进度，会话者必须识别说话内容，提取言语意义，然后构思和产出相关的可理解的回应。这个听与说的过程可由图1表示：

图1 听说过程中的会话加工成分（Pearson，2008：8）

PhonePassTMSET使用综合型的听说任务，这些任务要求对口语语言形式进行实时的接受性与产出性加工，同时不会涉及社会差异和高层次的认知功能。一个人参与日常本族语英语口语会话的能力能够使其很好的理解和回答测试中的听说任务。PhonePassTMSET测量对口头语言实时的编码和解码，探究口头语言表现的心理语言学元素而非交际过程中的社会、修辞和认知元素。编码和解码的意义线索包括陈述性信息、社会信息和话语标记；此外，世界知识、社会关系和行为知识也需要参与理解口语话轮以及构想话轮内容。然而，这些口头交际的社会认知元素没有被包括在PhonePassTMSET的理论模型中（Pearson，2008）。

3 机助口试任务特征

考生的口语能力最终落实在口试任务的完成上。因此，设计合适的口试任务的是口语评估的核心之一。口语任务可以被看作说话人在特定语境中使用语言以达到特定目标或者目的的活动（Luoma，2004：31）。在实际交际活动中，语境指除了特定时刻语言产出之外的言谈情景中的一切因素，包括交谈发生地点、语言使用经验、交际意图等（Luoma，2004：30）。在口语测试过程中，语境的设计直接影响语言使用的数量和质量。此外，口语任务从不同的视角可以分为不同的类型。

事实性交谈与评价性交谈。Bygate（1987）将口语任务分为以下两种类型：事实性交谈，包括描述、叙述、讲授、比较；评价性交谈，包括解释、说理、预测、决策。他指出说话者在这些类别中的语言使用能力不同，如果某人擅长描述，并不意味着他自然也擅长比较、讲故事或论证某个观点。事实性交谈和评价性交谈可以分开测量，从而获得学习者的不同技能。

测试宏观能力还是微观能力。从交际功能来看，欧盟委员会（Council of Europe）（2001：125）制定的《欧洲语言通用参照框架》将语言能力根据功能分为两类：一是宏观能力；二是微观能力。宏观能力是使用语块描述、叙述、评论、解释和示范的能力；微观能力指个体言语行为，通常指在互动中完成一个话轮，如实施请求、道歉、邀请等语言能力。口语测试设计应该考查这两方面的能力。语言功能也是设计口语测试的一个重要元素。

基于构念的评估与基于任务的评估。如果评估考生的口语能力是根据口语能力的构念进行，这种评估就是基于构念的评估。在这种口语评估中，确保分数真正反映口语或口头交际技能，而不是阅读和听力技能非常重要。另一种评估是把测试任务和语言使用的语境整合起来，这就是基于任务的评估（Luoma，2004：42）。基于任务的评估强调考生完成具体任务的程度。

单一型口语测试与综合型口语测试。许多口语测试注重口头交际或者口头产出，避免在完成口语任务时涉及阅读、写作或者听力活动，这就是单一型口语测试。在基于任务的评估活动中，既有语言使用情境，又有把阅读、听力、写作结合起来的口头活动，这就是综合型评估，目的是使测试中的语言使用更加真实（Luoma，2004：42）。Brown etal.（2001）研究了单一型测试任务与综合型测试任务的录音口试，发现综合型任务使评分员关注考生对输入材料的理解以及它对流利性、质量和内容结构的影响。可能由于有更多的认知负担，考生在综合型任务的表现不如单一型任务的表现。更加根本的评估问题在于，评分员间的最后打分一致性更低。Brown etal.（2001）将此视为信度问题，建议用更详细的、基于特定任务的评分量表和评分员培训，以便明确输入的内容如何体现在口试输出中。

开放型任务与控制性任务。根据测试任务提供给测试话语的不同结构，口试任务可分为开放型任务和控制型任务（Luoma，2004:48）。开放型任务引导讨论但允许考生有用不同方式完成任务要求的自由。控制性任务清楚地规定考生应该说什么，经常可以列出所有可接受的答案。两种机助口试任务特征的异同如表1所示。

表1 两种机助口试任务特征对比

两种口试都体现了机助口试的任务特点：人机对话。iBT TOEFL的听力为北美口音，正常语速。PhonePassTMSET自动播放录音也是自然语速和语调的清晰的北美口音。测试目标、受试群体、评分方式不同导致测试任务不同。新托福想要测试的，是学生们在真实的校园和学术环境中进行交流的能力。新托福口试模拟了北美大学课堂的学术气氛和学生在校生活的方方面面，要求考生能够做课堂笔记、发表自己的意见和看法，有能够处理校园生活中遇到的各种情况的能力。把听说结合、读说结合，考查学生综合语言能力。除了考查日常会话能力，还考查学生学习专业知识的能力，如记笔记、复述等。

PhonePassTMSET测试非英语学习者理解英语口语和对所听到的话语做出回应的能力。它同时也测试听力水平，把听力与口语结合起来考试。PhonePassTMSET测量考生对句子的掌握、词汇的掌握、口语流利性和语音。系统同时测试通过“听”认知语言的能力，重要的是测试实际听说能力，试题模仿现实生活中听与说的语言环境，进行实时考核。系统不仅测试听力水平、口语能力以及回答的合理性，还要在接近人际交往的时间限制内听懂、说清楚并且表达准确。

iBTTOEFL的受试对象为申请去美国或加拿大等国家上大学或进入研究生院学习的非英语国家的学生。PhonePassTMSET主要的需求者是公司、大学、政府和非政府等各种机构。由于是机器自动评分，PhonePassTMSET只能采用相对简单机械的任务。iBT TOEFL口试有两个以上的专业评分员评分，所以任务更具有综合性、复杂性。

4 机助口试评分标准及过程

在考虑口语评分方法时应综合考虑考试题目的类型、言语样本的水平和评分误差等因素。开放式题型产生的言语样本不能预测，适合采用主观等级评分。限制性题型能够预测考生将要产生的言语样本，可以采用客观评分。从二语学习者口语水平的发展过程来看，学习者的口语表达经历了三个阶段，即从词语或言语表达到句子表达再到语段表达。对于高水平学生的言语样本，主要的评分途径是主观等级评分，而对于词语或句子，则可以采用客观化评分。在评分误差方面，评分员之间评分的不一致及评分员自身评分的不稳定导致传统主观评分的主要误差。减少这类误差的方法一是加强对评分员的培训，二是即时监控评分过程。客观化评分通过减少评分的主观成分来控制评分误差，因此必须加强评分标准的确定性（王佶，2007：29）。

尽管同为机助口试，iBT TOEFL和PhonePassTMSET在评分标准及过程方面有很大不同。iBT TOEFL口试采用主观评分，具体来说采用总体等级评分。根据ETS（2009）官方公布的评分细则，iBT TOEFL口试有0～4分5个档次，考生对话题的展开程度、口语的流利程度和发音的清晰程度以及回答内容与话题的切合程度是评分的重点。评分员根据下列要素对回答进行评分：（1）表达能力。（2）语言运用。（3）话题的展开。口语考试中的Response经过数字录音被发送到ETS在线评估网络。每个考生的考试录音都至少有两个以上的专业评分人员进行评估。考生在获取分数的同时将获得分析性反馈。该反馈将用语言加以描述，会说明考生的语法怎么样，程度怎么样，口语有什么薄弱环节，有什么强项等，这些都是对评分信度极大的保障。因此，新托福口试具有较高的信度。

PhonePassTMSET主要使用机器客观评分。计算机通过声谱对一段话的发音、措辞、语速及停顿进行十分精确的量化评分。但系统不仅测试讲话的方式，也测试应试者对言谈内容的表达（Cleary，2003）。它可以将考试者的语音数字化，传输到总部考试管理员服务器上进行记分。计分是根据考生在测试期间的电话交谈中实际使用的词汇以及从所运用的短语和句子中体现出的语速、流利程度及发音情况来评估的。第一部分到第四部分的反馈由计算机录音并评分，最后部分开放性问题的反馈被录音但由专职评分员评分。PhonePassTMSET分数报告单包括总体分数和子项分数。总体分代表的是考生理解英语口语和就日常生活的话题以母语者的谈话速度说英语的能力。分数从20分到80分，由四个诊断性子分数经过相加权衡组合而成。子项分数包括：句子的掌握、词汇、流利性和语音。

5 结语

尽管同为机助口试，iBTTOEFL口试和PhonepassTMSET在理论模型、任务特征、评分标准及过程方面具有很大不同。把两种机助口试进行对比研究，有利于我们对机助口试做出客观的评价。Chapelle&Douglas（2006）对机助语言测试的优势和劣势做了总结，这些优势和劣势的描述同样适用于机助口试。归纳起来，机助口试的优势在于：（1）不受时空环境制约。机助口试可以随时随地为考生提供服务，大幅度提高测试的便捷性。如PhonePassTMSET方便自由，可在短时间内完成。对于需要大规模对员工进行测试的公司很方便。对于受试者和管理者更大的优势在于，测试可以在任何时间，任何地点进行，测试分数可在测试完成后一小时内获得。因此，受试者可以在满足他们的时间安排和需要的情况下进行测试，并在合理的时间内得到结果。这种优势降低了受试者的焦虑，降低成本和纸张的使用，减少雇主、大学在行政管理上的失误。测试实施起来效率较高；在不同地域实施的测试也具有可比性。（2）统一的测试指令。机助口试可以克服考官和其他考生因素的影响，大大增加测试公正性。采用人机对话模式，排除了考官对考生的影响和考生之间的相互影响，这大大提高了口试的公平性，在很大程度上提高了口试信度。（3）自动性评分。自然语言加工技术使计算机可以对复杂的答案自动评分，大幅度提高测试评分的灵活性和准确性。如PhonePassTMSET评分做到了自动化。

我们在强调机助口试优势的同时，机助口试的劣势也不容忽略，比如说，人机对话不同于真实的面对面交流，有可能给考生造成心理压力；一些技术要求的特殊细节会影响测试设计者对测试题的构思，另外，机助口试不能测试听说中的非语言因素；当考生的回答比较复杂的时候，计算机评分系统也许不能评估这种回答的相关性及重要性，因而会给出过高或过低的分数。完美的测试不可能存在，机助口试亦是如此。机助口试如何在信度、效度、可行性之间取得平衡，是一个永恒的话题。机助口试是否可以实现对受试者的口语交际或表达能力的客观评价，机助口试与面对面的口试是否具有等效性，有待进一步研究。

[1]Bachman，L.F.&Palmer A.S.Language Testing Practice[M].Oxford:OUP，1996.

[2]Brown etal.Investigating Raters’Orientations in Specific-purpose Task-based Oral Assessment[R].TOEFL 2000 Research and Development project report.Submitted June2001.

[3]Bygate，M.Speaking[M].Oxford:OUP，1987.

[4]Chapelle，C，A.&D.Douglas.Assessing Language through Computer Technology[M].北京：外语教学与研究出版社.2006.

[5]Cleary，C.Complete Guide to the Phonepass Test[M].Beijing：Foreign Language Teachingand Research Press，2004.

[6]Council of Europe.Common European Framework of Reference for Languages:Learning，teaching，assessment[M].Cambridge:CUP，2001.

[7]ETS.The Official Guide to the TOEFL Test[M].北京：北京语言大学出版社.2009.

[8]Levelt，W，J，M.Speaking:From Intention to Articulation[M].Cambridge，MA:MITPress，1989.

[9]Luoma，S.Assessing Speaking[M].北京：外语教学与研究出版社.2010.

[10]PEARSON，VersantTMEnglish Test—Test Design and Validation Research[R].Pearson Education，Inc.or itsaffiliate（s），2008:1-26.

[11]刘美华，等.新托福网络考试及其反馈作用[J].国外外语教学，2007（1）.

[12]文秋芳.英语口语测试与教学[M].上海：上海外语教育出版社.1999.

[13]王佶.第二语言口语考试评分方法述评[J].暨南大学华文学院学报，2007（1）.