语用能力测试研究综述*1
2015-03-20李清平
李清平
郑娜新
中南大学
语用能力测试研究综述*1
李清平
郑娜新
中南大学
现代外语教学越来越注重培养学生的语用能力,如何开发有效的语用能力测量工具也日益受到人们的关注。然而,目前关于语用能力的测试研究还未能形成相对一致的意见。本文主要论述了国内外学者关于语用能力测量的研究,并总结了语用测试研究所存在的挑战与发展趋势。
1.引言
近一二十年,外语教学越来越注重培养学生的语用能力。语用能力包括语用语言能力和社交语用能力两部分(Leech,1983)。Bachman认为语用能力是交际能力不可或缺的组成部分(Bachman,1990 ; Bachman & Palmer,1996),但在外语环境中,这种能力有可能只有通过教学才能发展,因此语用能力是否可教以及如何教一直是个热门话题(Rose & Kasper,2001)。然而,外语课堂上教师有可能不愿教语用,原因之一就是没有合适的工具测量语用能力(刘建达,2006)。教师的这种不情愿促使人们越来越关注如何开发有效的语用能力测量工具。遗憾的是,目前关于语用能力测试的研究相对较少,国内相关文献更是不多见,有限的几个研究也未能得出相对一致的结果。鉴于此,本文主要对国内外学者关于语用能力测量的研究进行了综述,并总结了语用测试研究所存在的挑战与发展趋势,希望对今后的研究能起到一定的参考和指导作用。
2.基于言语行为的语用测试
2.1 Hudson,Detmer,Brown的研究
20世纪80-90年代,人们对跨文化语用学产生了兴趣,这种兴趣催生了著名的“跨文化言语行为实现项目”(Cross-Cultural Speech Act Realization Project,CCSARP)(Blum-Kulka,House,& Kasper,1989),该项目基于请求和道歉两个言语行为进行分析,并在7门语言中进行对比研究,主要采用话语填充测试(Discourse Completion Test,DCT)来收集数据,这种做法奠定了语用测试研究的基础。Hudson(1995)等人的语用测试研究便是在CCSARP的理论框架下进行的。
Hudson等人以DCT为原型,提出了六种语用测试工具来考察学习者的请求、道歉和拒绝三种言语行为知识。这六种测试工具分别为1)书面话语填充(Written Discourse Completion Tasks,WDCT),要求受试者读一段情景描述并写下在该情境下要说的话;2)多项选择话语填充(Multiple-choice Discourse Completion Tasks,MDCT),受试者从三段备选话语中选出在指定情境下最合适的话语;3)听说话语填充(Listening Oral Discourse Completion Tasks,ODCT),受试者说出在某一情境下自己将会说的话;4)话语角色扮演(Discourse Role-play Tasks,DRPT),受试者与母语者在指定情境下进行角色扮演,并在其引导下做出请求、道歉、拒绝等言语行为;5)话语自我评价(Discourse Self-assessment Tasks,DSAT),受试者自我评价在话语填充测试中的表现;以及6)角色扮演自我评价(Role-play Self-assessment,RPSA),受试者自我评价在角色扮演中的表现。
Hudson等人详细介绍了以上六种语用测试工具的开发过程。为了减少变量,Hudson等人对测试中每个情景及项目的选择也制定了严格的限制,比如,规定交谈双方的性别;明确交谈双方必须面对面,不能通过电话或信件交流;保证每个场景都与交谈双方的角色有关等。Hudson等人设计的各个情景主要涉及了三种社交语用变量:地位、熟悉程度和严重性(Leech,1983)。25名母语为日语的英语学习者参加了测试。评卷采用 1(非常不合适) 至 5 (完全恰当)五个级别对每道题目进行评分。评判受试者话语的恰当性的标准包括语言表达的正确性、信息量的大小、话语的正式程度、言语策略的直接性和礼貌度五个维度。
Hudson等人并没有进一步对六种语用测试工具进行信度和效度的检验,而且他们的研究只包括了三种言语行为,对学习者的其他言语行为、会话含义、习惯用语等语用知识并没有做过多的考察。然而,Hudson等人进行的研究仍是目前为止语用测试领域影响最大的,这是由于他们详细地介绍了六种测试工具的开发过程(Roever,2011)。后来的研究基本上都是在Hudson等人的方法框架下进行。
2.2 在Hudson 等人的框架下进行的其它研究
Yamashita(1996)将Hudson等人设计的测试卷翻译成日语,对其效度与信度进行了检验,在日本3所高校的47名母语为英语的日语学习者中进行了测试。研究结果表明除了MDCT,其它五种测试工具都有较高的信度和效度。学习者与目标语文化接触的时间越长,在DRPT和ODCT中的表现越好,并且他们的语言水平与他们在WDCT、ODCT、DRPT的测试成绩显著相关。Yoshitake-Strain(1997)和Enochs and Yoshitake-Strain(1996,1999)用Hudson 等人的原始测试卷在日本对25名英语学习者进行了测试,他们的TOEFL成绩从423分到577分不等。结果表明MDCT与WDCT信度并不高,并且受试者的TOEFL成绩与他们的语用能力没有显著相关。但这两个研究中的受试者数量过少,且水平层次单一,这一局限可能影响研究结果。
21世纪以来,在 Hudson 等人的框架下进行的语用测试研究进一步深入。Hudson(2001)考察了书面话语填充测试(WDCT)、在实验室中进行的听说话语填充测试(ODCT)和话语角色扮演(DRPT)三种语用测试工具的信度,25名来自日本的较低水平英语学习者参与了测试。结果表明WDCT、ODCT、DRPT的信度都不错,分别为.86、.78、.75,并且受试者在WDCT与DRPT中的表现要好于在实验室中录制的ODCT的表现。Brown(2001)基于Yoshitake-Strain与Yamashita收集的数据对六种测试手段在英语作为外语(EFL)与日语作为第二语言(JSL)两种环境下的实际应用进行了比较,发现试卷采用日语译文比英语原文的语用测试效果好,考生的母语文化对考生的表现有一定影响。并且在EFL和JSL两种环境下,MDCT的信度是六种测试工具中最低的。Ahn(2005)将Hudson等人的语用测试卷翻译成韩语,用了除MDCT之外的五种测试工具,对53名韩语作为外语(KFL)的大学生的请求、拒绝和道歉三种言语行为进行了测试,结果表明这五种测试工具的信度很高,基本都在.90以上。Yamashita(JSL)和Ahn(KFL)的研究中,除MDCT外五种测试工具的信度明显高于Hudson 等人(ESL) 和Yoshitake(EFL)的研究,这说明至少在这些研究中,采用日语和韩语译文试卷比英语原版试卷测试效果好。Tada(2005)利用视频提示开发了ODCT和MDCT的试题,他发现两种测试工具的信度都在.75左右,并发现高水平组和低水平组在产出测试中(ODCT)的表现有明显差异。Brown(2008)基于Ahn的数据考察了WDCT、ODCT、DRPT和RPSA四种测试方法,旨在探讨不同语用功能数量、评估者数量及题型对不同语用能力测试工具的信度的影响,结果表明语用功能的数量及类别对测试信度影响不大,而评估者数量和题型是误差的主要来源。
刘建达(2006,2007)开发了一套新的MDCT、WDCT和DSAT语用测试卷,测试了99名中国英语学习者的请求和道歉两种言语行为。试卷中考察了地位、熟悉程度和严重性三个变量。试卷的开发包括五个步骤:情景采样、情景可能性筛选、元语用调查、试测和 MDCT 选项设计。值得注意的是,刘建达的MDCT试卷的信度高达.83,这与Yoshitake-Strain和Yamashita的研究结果不同。这可能是由于刘建达严格、系统的试卷开发过程。试卷中所有的情景与干扰选项都是在受试者的语言文化背景下经过五个步骤收集的,有可能这一做法有效地提高了测试的信度和效度。然而,刘建达的研究也有一定的局限性。他开发的试卷并没有包含地位、熟悉程度和严重性这三种变量所有的分布情况,因此我们没法判断受试者的语用表现到底如何受社交语用变量的影响。其次,在中国语境(EFL)下,刘建达开发的MDCT与WDCT信度和效度很高,但这些情景是否适用于其他语言文化背景并不能确定,这需要进一步的研究,并且这些测试卷是否适用于其他言语行为也需要更多的研究。
3.语用测试的新发展
3.1 基于会话含义的语用测试
如前文所述,Hudson等人的研究虽然奠定了语用测试的基础,但只涉及有限的几个言语行为,显然需要更多的研究考察语用能力在其它层面的表现。Bouton的一系列研究(1988,1994a,1994b,1999)测试了外语学习者对会话含义的理解能力。Bouton根据Grice(1975)的会话含义理论,区分了“特殊隐含义”(idiosyncratic implicature)和“程式化隐含义”(formulaic implicature),并针对母语不是英语的留学生(NNS)的会话含义理解能力的发展做了纵向研究。Bouton首先对304名刚入学的NNS做了前测,接着分别在第17个月和第33个月后对他们进行了测试。同时,Bouton测试了分别入学4年、7年的来自中国的留学生。77名母语是英语的学生(NS)作为参照组,也参与了所有测试。结果表明,NNS在特殊隐含义测试中的得分少于程式化隐含义测试。经过一段时间的学习,NNS对会话含义的理解能力有所提高。在对特殊隐含义的理解上,NNS甚至可以接近NS的水平。
Taguchi(2005,2007,2008)继续了Bouton对会话含义测试的研究,开发了一套英语作为外语(EFL)的测试卷和一套日语作为外语(JFL)的测试卷,分别测试了160名EFL学习者和63名JFL学习者的会话含义理解能力,并考察学习者外语语言水平和会话含义理解能力的关系。Taguchi同样对学习者会话含义理解能力的发展做了纵向研究,并以理解的准确性和理解速度作为评判标准。结果表明受试者的外语语言水平与其会话含义理解能力显著相关(r=0.39)。理解的准确性和理解速度并没有明显的联系,而且题目类型会影响受试者理解的准确性,但不会影响其理解速度。然而,Taguchi的研究也有一定局限性,首先他的研究并没有包括高水平学习者的参与者。其次,对学习者会话含义理解能力的考查仅局限于完整的话语,排除了省略、不完整句、不流利现象等。最后,测试中包含的题目大多来自于以往文献,而不是受试者的生活,这有可能影响学习者的语用表现。
3.2 Roever基于言语行为、会话含义和习惯用语理解的语用测试
Roever(2005、2006)基于网络采用DCT测量ESL/EFL学习者的言语行为、用MDCT测量学习者的会话含义和习惯用语的理解,一方面拓宽了语用能力的测试范围,另一方面革新了语用测试的方式。Roever在其研究中介绍基于网络的36个测试题目的开发过程。共267名ESL/EFL学习者在网上进行了测试,受试者的语言水平从初学者到高级水平不等。结果表明言语行为DCT测试的评分员间信度高达.96,这可能是由于Roever精心设计了DCT试卷,受试填充的话语被对应的回应语限制。受试者会话含义理解能力与语言水平呈正相关,而与学习者在二语环境中接触目标语的时间长短无关,这与Bouton的研究结果有所不同。至于构念效度,Roever发现言语行为、会话含义和习惯用语理解三部分都考察了受试者的同一种能力,即语用语言能力,而每一部分考察了学习者语用语言能力的不同方面。并且,Roever的语用测试卷的可行性很高,评分比较容易而且费用较低。然而,Roever的研究只是针对学习者的语用语言能力,并没有考察学习者的社交语用能力。
3.3 基于话语分析的语用测试
20世纪70年代以来,基于话语分析(conversational analysis,CA)的语言研究受到国内外许多语言学家的重视。近年来,有不少语用测试研究者开始将CA应用于二语口语语用测试研究中,他们认为传统的基于言语行为的语用测试缺乏真实的话语数据,例如Golato(2003)经对比发现人们在WDCT中做出赞美言语行为使用“thank you”的频率达12.4%,而在实际交际中赞美对方使用“thank you”的频率为零,这充分说明DCT语用测试缺少真实性,从而缺乏有效性。另外,“效度”这一概念的发展也推动了CA在语用测试中的应用,效度不再是“可测量的”,它需要更多的定性研究从不同角度来判断整体,而CA研究方法正是通过定性分析来考察测试的效度问题。
Walters (2004、2007、2009)通过CA的方法测量了学习者的语用能力,这是首次脱离言语行为理论,在CA框架下进行的系统的语用测试研究。Walters认为基于CA的语用测试研究,首先其语料往往从人们自然交际的录音或录像中转写而来,研究的是真实的语料,能充分考虑话语的语境;其次,CA研究方法避免了基于NS直觉对语言使用的类型化(categorization),它通过分析说话人的认知策略来剖析其话语的展开过程。Walters(2007)主要考察了两位受过CA训练的评分员在评分中的表现,对CA方法的运用。Walters的研究中,NS考官和ESL受试者进行直接角色扮演,通过口语产出测试对三个话题进行讨论,在讨论中NS引导受试者做出评价、赞扬和预示语列(pre-sequence)三种语用行为。两位评分员,NNS、NS各一位,将说话者表示赞同、反对、转折等的标记语、停顿语及重复现象记录下来,依据受试者话语中有无对评价反应进行操控的迹象(以“评价”语用行为为例)和对相邻语对的解析(parse targeted adjacency pairs)进行评分。评分员的笔记显示他们在评判过程中都用了CA方法,且无论是测试过程还是评分过程用的时间都不长,在可行范围内。但测试结果信度并不高,评分员间的一致性比较低,Walters认为这可能是由于CA方法的评分标准有些模糊。总之,虽然基于CA研究方法比基于言语行为的语用测试有更多优势,但这个年轻的领域还存在不少问题与挑战,需要更多的学者去尝试。
4.结语
二语学习者的语用能力是交际能力的重要组成部分,因此语用能力测试是二语学习者语言能力测试中不可或缺的一部分。本文对语用测试的研究现状进行了综述,介绍了学者基于言语行为进行的语用测试、语用测试工具的开发和语用能力测试在测量工具和分析模式上新的研究进展。这些研究一方面为语用能力的测试作出了贡献,但也存在一些挑战和未解决的问题。这些问题主要表现在:第一,现在的研究大多以NS的话语作为标准,在英语正在成为国际通用语的今天,NS是否可以作为语用测试中受试者话语恰当性的标准受到质疑。这是因为NS这个群体中本身存在种族、地位、年龄、性别等差异,话语恰当性的标准也存在差异。在真实的语境中,NS并没有用基于自己文化背景的标准来评判NNS说出的话是否恰当(McNamara & Roever,2006)。第二,Hudson等人提出的六种语用测试方法并没有在真实的语用环境中考察学习者的语用能力,不由得让人质疑这些工具是否能真正测出受试者的语用能力,但在真实的语篇中考察学习者的语用能力是难以实现的,即使数据收集不困难,分析框架也存在问题(参见Walters,2004,2007,2009)。角色扮演在一定程度上反应了受试者真实的反应(Kasper & Rose,2002),但角色扮演不仅评分麻烦而且花费很高,可行性不大。
网络科技的发展也许可以解决花费高的问题(Roever,2011),目前基于计算机和网络的交流技术(computer mediated communication,CMC )已渗透到二语习得研究的许多领域。最近,Yanguas(2010)的研究表明通过Skype软件进行的口语CMC聊天和面对面交流中话轮转换的形式相似性很高,但与书面CMC聊天中话轮的转换不尽相同,也许未来通过网络进行的口语测试可以代替面对面的角色扮演。但语用测试受到教学与测试过程中各种因素的影响,如考官的个人因素、受试者对计算机的熟悉程度等,口语CMC语用测试是否能真正等效于面对面的交流还有待考察。不可否认的是,基于网络的语用测试,相较于传统的角色扮演,在保证语料真实性的同时节省了大量的人力物力,为今后语用测试的研究提供了新的出路,是未来语用测试发展的方向。
总之,语用能力测试的研究虽然取得了很多进展,但仍存在一些未解决的问题。在未来的研究中,也许依靠计算机网络可以收集能反映学习者语用能力的真实语料,而且费用较低,但这种语料如何分析需要进一步研究。就目前看来,任何途径带给我们的问题似乎比解决方案要多,也正因为此,语用测试呈现给我们的是一个无比广阔的研究领域。
Ahn,R.C.2005.Five measures of interlanguage pragmatics in KFL(Korean as a foreign language) learners.Unpublished phD thesis,University of Hawaii at Manoa.
Bachman,L.F.1990.FundamentalConsiderationsinLanguageTesting[M].Oxford:Oxford University Press.
Bachman,L.F.& Palmer,A.1996.LanguageTestinginPractice[M].Oxford:Oxford University Press.
Blum-Kulka,S.,House,J.& Kasper,G.(Eds.).1989.Cross-culturalPragmatics:RequestandApologies[M].Norwood,NJ:Ablex.
Bouton,L.F.1988.A cross-cultural study of ability to interpret implicatures in English[J].WorldEnglishes(7):183-196.
Bouton,L.F.1994a.Conversational implicature in a second language:Learned slowly when not deliberately taught[J].JournalofPragmatics(22):157-167.
Bouton,L.F.1994b.Can NNS skill in interpreting implicature in American English be improved through explicit instruction—A pilot study.L.F.Bouton(Ed.)PragmaticsandLanguageLearning[C].Urbana,IL:University of Illinois at Urbona Champaign,88-109.
Bouton,L.F.1999.Developing nonnative speaker skills in interpreting conversational implicatures in English:Explicit teaching can ease the process[A].In E.Hinkel(Eds.).CultureinSecondLanguageTeachingandLearning[C].Cambridge:Cambridge University Press,47-70.
Brown,P.2001.Pragmatics tests:Different purpose,different tests[A].In Rose,K.& Kasper,G.(Eds.).PragmaticsinLanguageTeaching[C].Cambridge:Cambridge University Press,301-305.
Brown,P.2008.Raters,functions,item types and the dependability of L2 pragmatics tests[A].In Soler.E.A.,and Martinez-Flor.A.(Eds.).InvestigatingPragmaticsinForeignLanguageLearning,TeachingandTesting[C].Bristol:Multilingual Matters,224-248.
Enochs,K.& Yoshitake-Strain,S.1996.Self-assessment and role plays for evaluating appropriateness in speech act realizations[J].ICULanguageReasearchBulletin(11):57-76.
Enochs,K.& Yoshitake-Strain,S.1999.Evaluating six measures of EFL learners’ pragmatic competence[J].JALTJournal(21):29-50.
Grice,H.P.1975.Logic and conversation[A].Cole.P.& Morgan,J.(Eds.).SyntaxandSemantics:SpeechActs[C].New York:Academic Press.
Golato,A.2003.Studying compliment responses:A comparison of DCTs and recordings of naturally occurring talk[J].AppliedLinguistics(1):1-54.
Hudson,T.,Detmer,E.& Brown.J.D.1995.Developing prototypic measures of cross-cultural pragmatics(Technical Report 7).Honolulu:University of Hawaii,Second Language Teaching and Curriculum Center.
Hudson,T.2001.Indicators for cross-cultural pragmatic instruction:some quantitative tools[A].In Rose,K.& Kasper,G.(Eds.).PragmaticsinLanguageTeaching[C].Cambridge:Cambridge University Press,283-300.
Kasper,G.& Rose,K.R.2002.PragmaticDevelopmentinaSecondLanguage[M].Oxford:Basil Blackwell.
Leech,G.1983.PrinciplesofPragmatics[M].London:Longman.
McNamara,T.F.& Roever,C.2006.LanguageTesting:TheSocialDimension[M].Oxford:Basil Blackwell.
Roever,C.2005.TestingESLPragmatics[M].Frankfurt:Peter Lang.
Roever,C.2006.Validation of a web-based test of ESL pragmalinguistics[J].LanguageTesting(2):229-256.
Roever,C.2011.Testing of second language pragmatics:Past and future[J].LanguageTesting(4):463-481.
Rose,K.& Kasper.G.2001.PragmaticsinLanguageTeaching[M].New York:Cambridge University Press.
Tada,M.2005.Assessment of ESL pragmatic production and perception using video prompts[D].Unpublished doctoral dissertation,Temple University,Japan.
Taguchi,N.2005.Comprehending implied meaning in English as a foreign language[J].TheModernlanguagejournal(89)(4):543-562.
Taguchi,N.2007.Development of speed and accuracy in pragmatic comprehension in English as a foreign language[J].TESOLQuarterly(2):313-338.
Taguchi,N.2008.Pragmatic comprehension in Japanese as a foreign language[J].TheModernLanguageJournal(4):558-576.
Walters,F.S.2004.An application of conversation analysis to the development of a test of second language pragmatic competence[D].Unpublished doctoral dissertation,University of Illinois at Urbana-Champaign.
Walters,F.S.2007.A conversation-analytic hermeneutic rating protocol to assess L2 oral pragmatic competence[J].LanguageTesting(2):155-183.
Walters,F.S.2009.A conversation analysis-informed test of L2 aural pragmatic comprehension[J].TESOLQuarterly(1):29-54.
Yamashita,S.O.1996.Six measures of JSL pragmatics(Technical Peport 14).Honolulu:University of Hawaii,Second Language Teaching and Curriculum Center.
Yoshitake-Strain,S.1997.Measuring inteerlanguage pragmatic competence of Japanese students of English as a foreign language:A mutli-test framework evaluation[D].Unpublished doctoral dissertation,Columbia Pacific University,Novata,CA.
刘建达,2006,中国学生英语语用能力的测试[J],《外语教学与研究》(4):259-265。
刘建达,2007,语用能力测试的评卷对比研究[J],《现代外语》(4):395-404。
(李清平:中南大学外国语学院教授; 郑娜新:中南大学外国语学院硕士研究生)
通讯地址:410083湖南省长沙市岳麓区中南大学新校区外国语学院
*本文系2012-2014湖南省哲学社会科学基金(项目号12YBA336)和2013年中南大学研究生自主创新研究项目(项目号2014zzts118)的部分成果。
H319
A
2095-9648(2015)01-0067-05
2014-12-16