视觉输入对二语听力测试构念效度的影响<br/>——国外二十年研究述评

视觉输入对二语听力测试构念效度的影响
——国外二十年研究述评

2015-02-20王敏

西安建筑科技大学学报（社会科学版） 2015年6期

王敏

一、引言

基于网络（或计算机辅助）语言测试与传统测试的主要区别之一在于听力（在未加说明的情况下，本文中的听力专指第二语言听力）测试手段的多样化。在多媒体技术辅助下，一些大规模的测试，如TOFEL的iBT和我国的四、六级网考，开始使用图片或视频等视觉输入材料。早在上世纪90年代，大量的多媒体材料被用于二/外语课堂和教材中，研究者开始探讨视觉教学材料对学习效果和学习者心理认知因素的影响。自此，有关听力测试中视觉输入的使用也引起关注。迄今为止，与此相关的研究已经过了 20多年的发展。然而，研究的数量仍总体较少[1-2]，研究结果之间还存在分歧。因此，视觉输入方式的介入是否以及如何改变听力测试的构念效度尚无定论。效度问题被认为是在语言测试中使用技术手段的瓶颈之一[3-5]。Bachman[6]曾指出，新的任务形式以及多媒体的试题呈现模式牵涉到所有既有的效度问题，甚至可能需要我们重新定义我们自认为在测量的特定构念。而且，由于相关研究匮乏，视觉输入在听力测试中的应用缺乏理论指导，具有一定的随意性，继而影响到测试的信效度。因此，研究视觉输入方式对听力测试构念的影响具有很强的理论和实际意义。本文拟从理论基础、研究问题及主要发现等几个方面对国外近二十年的相关研究做一梳理，分析现有研究的缺陷和不足，并指出未来研究的方向，以期为我国语言测试界在这方面的研究提供借鉴。

二、国外研究综述

1. 理论研究概述

有关视觉输入的主要争议在于其是否会改变测试的构念效度，即听力测试是否真正测量了它本身所要测量的能力。解决争议的关键在于对听力理解的界定，即听力理解的定义是什么？听力理解是一个怎样的心理认知过程？相关的理论研究也主要围绕这两个问题展开。

听力是一个复杂的构念，至今仍没有统一定义。人们对于听力理解所要测试的能力到底是什么缺乏共识。因此，视觉信息在第二语言听力构念定义中的地位也无定论。争论的焦点是，纳入视觉信息的听力测试测量的是它原本应该测量的能力——对语言的听力理解，还是测量了许多其他影响考生成绩的因素，如对视图中所包含的非语言信息的理解力等。早期的定义认为声音是口头语篇传达信息的主要方式[7]，单纯强调听力中‘听’的方面。一些学者明确指出，视觉输入会使测试成绩出现与构念无关的差异。例如，Buck认为，如果听力测试的目的是测量学习者理解声音输入的能力而非参与交际的能力，试题设计者应提供描述场景的静止图片而非视频录像[1]。然而，大多数研究者[2][8-9]却主张，视觉输入应该被包含在二语听力能力的构念定义中。理由是，现实生活的交际场景中，语言信息通常伴以视觉信息，听力理解自然也应该包括说话者的嘴唇动作、身体动作、手势和面部表情等，把视觉输入排除在听力测试之外反而会影响效度。Suvorov提出折中的立场，认为有关视觉输入的争论可以通过允许多个听力理解定义并存的方法解决[10]，听力理解定义中是否需要包含视觉输入取决于测试的目的以及测试中呈现的交际场景。但这一观点所面临的问题是，许多听力考试测量的构念往往涉及好几种语境，无法进行明确区分。

研究者也试图从听力理解的认知过程入手，探究视觉信息在其中的可能作用，从而为既包括听觉输入又包括视觉输入的听力定义寻找一个更坚实的理论基础。基于联通论的听力认知模型认为，听力理解并非各种信息逐步累加的过程，而是一个动态交互的过程，其中包括许多相互作用的策略和信息源。所以，听力理解依赖于听话人大脑中一切可能对理解有影响的东西[1][11]。以这个模型为基础，有研究进一步提出[12]，听力理解过程可分为两个阶段：听的阶段和反应阶段。听的阶段包括信息接收和认知机制对声音信号的加工、对三种知识的激活(情境知识、语言知识、背景知识)以及将声音信号转化为命题。以命题为基础，学习者产出一个反应，反应的适切性受到学习者的知识和认知因素的影响。这个两阶段模型说明，视觉输入是听力理解过程的必然组成部分，因为它能够帮助激活情境知识和背景知识。此外，这个模型提醒我们，视觉输入所提供的帮助可能受到注意力、信息属性以及个体差异等因素的影响。

2. 实证研究概述

以上述理论研究成果为基础，自上世纪 90年代起，国外研究者开展了一些实证研究，考察视觉输入对听力测试构念效度的影响，主要的研究问题为视觉输入因素对考生听力理解成绩及信息处理行为的影响。其中，受到关注比较多的有三个因素：信息输入类型、文本类型、个体差异。下文笔者将对这三个因素的研究做一综述。

（1）信息输入类型

现有的听力测试可采用5种不同的信息输入方式——纯音频输入以及四种视觉输入，即仅提供情境的静止图像(context-only still images)、仅提供情境的录像(context-only video)、与内容相关的静止图像(content still images)、与内容相关的录像(content video)。Ockey提出，随着听力考试中信息输入方式的不同，考生处理信息的方式也会发生改变，从而导致测试表现的差异，并由此影响听力测试的构念效度[2]。所以，现有研究大都集中于比较不同信息输入方式对考生测试成绩和表现的影响。

早期的研究主要对比纯音频输入与录像的效果。Gruba将同一个学术讲座分别采用音频和录像的方式呈现给 91名高水平二语学习者，考试题目为 14道多项选择和判断对错题[13]。结果发现，学生在以音频为媒介和以录像为媒介考试中的成绩并无显著差异。他还发现，有些学生显然受到视觉输入的干扰，选择不看屏幕。Coniam以 104名香港英语学习者为受试对比了纯音频输入和录像输入的差异，试题形式为开放式问答题[14]。测试完成后，受试被要求填写调查问卷。结果表明，音频组的成绩好于录像组，但是差异并没有统计学上的显著意义。而且，录像组的受试并不认为在听力中采用录像为媒介对听力理解有帮助，音频组同样也不认为使用音频更有好处。反之，36%的考生报告在测试中根本没有看屏幕，另有少数考生认为录像会分散注意力。然而，Wagner却发现，录像组在后测中的成绩比音频组高出 6.5%，而且差异是显著的[15]。他认为，原因在于录像中的非语言信息有助于被试提高成绩。Cubilo&Winke采用听后写作和记笔记（note-taking）任务测量听力理解[16]，发现视觉输入和听觉输入条件下听后写作质量相同，但被试记笔记的行为有差异——视觉输入中笔记的数量明显减少。

也有研究在不同视觉输入方式之间进行比较。Ockey对比了当听力测试采用一系列仅提供情境的静止图像和仅提供情境录像时，被试的不同表现[2]。他对六名母语非英语的大学生进行了观察，并采用回溯报告、访谈及录像等手段采集数据，发现在这两种不同输入呈现方式中，被试对视觉信息的涉入深度（涉入深度被操作化为受试目光与显示屏接触的时间）不同。在静止图片条件下，受试对视觉输入的涉入程度很低，且反应一致。大多数的被试认为静止图像只是在听力理解初始建立情境时有用，其后并无多大帮助，但也没有干扰作用。但在录像条件下，受试涉入视觉信息的方式和深度体现出很强的个体差异。一些受试认为录像对听力理解非常有帮助，而另一些认为录像对听力理解的干扰很大。

（2）文本类型

上述研究结果间的分歧令研究者逐渐意识到，视觉输入的作用受到其他因素的调节。因此，在研究视觉输入的作用时，应充分考虑这些因素的影响以及它们之间的交互效应。Ginther对比了不同类型视觉输入对托福考试听力理解的影响，发现文本类型与视觉输入类型之间存在交互[17]。在研究中，Ginther将视觉输入方式与文本类型进行了组合。在两人对话、短会话及学术讨论部分使用仅提供情境的视觉输入(一张带有说话人和场景的静止照片)，在小对话(mini-talk)部分使用一系列静止照片及内容视觉输入，包括照片、图表以及/或者与听力输入有关的图表。他发现，伴随小对话出现的内容视觉输入以及伴随学术讨论的情境视觉输入有助于听力理解，而小对话中的情境视觉输入却对理解有轻度妨碍。Wagner则主要考察文本类型对被试处理视觉输入方式的影响[9]，对比了当听力测试中播放学术讲座和对话视频时，36名受试观看显示器屏幕的时间。总体而言，播放视频时，受试在 69%的时间内都会观看显示器屏幕，但播放对话时的观看时间（72%）长于学术讲座（67%）。Wagner认为原因在于，对话是两个说话人之间的交互，情境依赖程度高，因此其中的情境线索及非语言信息数量多且十分显著，对学习者的理解很有帮助。相反，讲座的情境依赖程度低，交互性不强，非语言信息贫乏且不明晰。Suvorov的结果与此基本一致。他发现，在对话中使用录像对学生的听力理解基本没有影响，但在讲座部分使用录像反而会妨碍理解[10]。

（3）个体差异

目前，专门研究视觉输入处理中个体差异的研究非常稀少。但许多研究的结果附带发现，被试的个体因素，如学习风格、文化背景、语言水平等都可能影响到他们在有视觉输入听力测试中的表现[2][13]。受此启发，有研究探讨学习者对视觉输入的喜好及其与测试表现之间的关系。Progosh采用问卷调查的方式考察了日本英语学习者对以录像为媒介的听力考试的态度[8]，发现与纯音频的考试相比，91.9%的学生更喜欢有录像的听力考试。但是，该研究并没有回答，偏好录像考试的学生是否能从视觉帮助中受益，取得更好的测试成绩。Suvorov的研究围绕这个问题展开，却没有发现统一的规律[10]。整体看来，考生对不同输入方式的喜好程度不同，但是他们对某种特定输入方式的偏好并不能显著提高测试分数。譬如，相比纯音频输入，有些考生更接受录像输入方式，可他们在以录像为输入媒介的听力测试部分的表现并不见得好于以音频为输入媒介的部分。然而，有趣的是，偏好音频输入的学生，在音频听力测试部分的成绩却显著高于录像部分。

综上所述，现有研究已经证明视觉输入对二语学习者在听力测试中的表现有影响，但影响是正面的还是负面的，影响的程度有多大等问题尚无定论。研究也开始关注视觉输入方式与其他因素，如文本类型及个体差异等之间的交互，但此类研究尚处于起步阶段。

三、现有研究的局限及未来研究方向

作为语言测试中的一个新兴领域，有关视觉输入的研究中存在诸多问题和挑战。在下文中，我们将从理论和方法两个层面对现有研究的局限和不足进行分析，并指出未来研究的发展方向。

1.存在的主要问题

概括起来，现有视觉输入研究中主要存在以下三个问题。

（1）理论基础。研究主要以语言学或测试学中有关听力或语言能力的构念定义为理论基础，探讨非语言信息是否应被纳入听力测试中。然而，这些定义大多只是从语言使用的一般现象出发，对听力中是否应该涉及非语言信息或视觉线索做出基于经验的判断，未对视觉输入在听力理解这个复杂认知过程中的具体作用做出有深度的解释。虽有研究尝试从信息加工理论，如联通论认知模型入手探讨视觉输入与听力的关系，但此类研究的数量本身较少，而且并未专门在这一理论模型下考察听力理解的认知心理过程,对其中所涉及的复杂因素尚无具体的描写和解释。因此，研究结论有待进一步检验，且无法为实证研究提供统一的操作化框架。受理论基础的局限，经过近 20年的发展，现有研究依然停留于对比不同输入方式对听力测试成绩的影响，虽考量的因素有所增加，但依然显得零散、缺乏深度。

（2）测试工具。测试工具的有效性是研究信效度的根本保证。由于对听力构念的解释不一，现有研究对听力理解的操作化方法也不尽相同，对测试工具的有效性没有统一的衡量标准。研究者采用多项选择、开放式问答、听后写作、记笔记等多种工具来测量被试的听力理解水平。如果这些测试工具并不能代表和反映二语听力构念所要求测量的能力，研究的结论自然无法令人信服。而且，测试工具的不统一也严重影响研究之间的可比性，研究结论存在分歧在所难免。此外，研究者自开发的测量工具的信效度也严重影响研究结论。譬如，Gruba的研究中听力理解试题的效度仅为0.45。另一个重要的问题是，研究中所用听力材料的类型比较单一，以学术讲座为主[13]。视觉输入是否影响其他体裁的理解，如交互性更高的多人对话或非学术类语篇？这个问题还有待研究。

（3）研究方法。现有研究一般采用高控制的实验研究的方法，试图采用线性的统计方法在输入方式与听力理解成绩之间建立起因果关系。如上文所述，由于语言使用以及听力过程的复杂性，输入方式的作用可能受到多个因素的调节，如学习者的文化背景、语言水平、文本类型、学生的语言水平等，而且其作用也不仅表现在测试的分数上，对学习者情感因素、策略使用、信息处理方式等也可能造成影响，但纯量化的、单一寻找线性关系的方法很难观察并解释此类影响。

2. 未来研究发展方向

基于以上讨论，笔者认为，未来听力测试中视觉输入的研究应当在以下几个方面有所加强。

（1）拓宽理论基础。信息技术的发展使现代社会越来越网络化、图像化。近年来兴起的多元识读（multiliteracy）理论明确指出，“意义”已不再仅由文字表达，而总是由视觉、听觉、空间、姿态等多重符号模态来构建的[18]。为此，多元识读理论不仅致力于解释语言、图像、音响、动作等模态的意义构建，而且试图描述多媒体交流中的多模态关系[19]。根据这一理论，在网络信息化世界中，听力理解已不仅仅局限于从语言符号中获取信息，也包含着对其他模态符号的识读。因此，传统的听力构念已无法涵盖新时代背景下的信息交流方式和语言使用特征。作为听力测试的基础，构念是核心问题。我们有必要超越经典测试学理论的藩篱，借鉴语言学其他分支中的新理论，如多元识读、多模态话语分析、交际能力构念等来指导二语听力测试，完善听力的构念定义。另一方面，认知心理学和教育技术领域的相关研究也应成为二语听力测试的理论基础。近年来，这两个领域对媒体呈现方式与人的心理和行为反应之间关系的研究不断深入。譬如，有研究发现，不同类型的信息与不同的媒体呈现方式结合给被试造成的认知负担不同[20]，学习者对不同技术的态度会影响到学习的效果等[21]。未来研究应将现有理论和新理论综合起来，搭建一个多元的二语听力认知模型，厘清模型中各因素之间的交互关系，为实证研究提供理论指导。

（2）开发完善测试工具。测试工具的有效性严重影响研究结论的效度和可推广性。首先，未来研究应涉及更多元化的、能反映真实语言交际的测试材料，而非仅局限于学术讲座或两人对话。而且，相关研究应该对材料选择有统一的理据和标准。其次，研究应对测量工具进行效度验证，以确定多项选择、判断对错这类试题是否真正能够反映和代表二语听力构念所涵盖的能力。如果采用非客观题，则应该有完善的评分标准的设计原则。更重要的是，除了多项选择、判断对错等客观试题以外，应开发出更多样的测试手段，以真正测量学习者的心理和行为反应。例如，Cubilo & Winke所采用的听写结合和记笔记任务等都是非常有益的尝试[16]。

（3）纳入新的研究方法。现有研究以高控制的量化和行为研究方法为主。由于二语听力和视觉输入处理都涉及复杂的认知过程，这样的方法多有局限。未来研究应纳入新的方法，采用量化和质化研究方法相结合的混合设计方案，在实验研究中加入有声思维、个案分析、访谈等质化分析，并采用结构方程、混合效应模型等新统计方法来揭示学习者的心理认知过程以及变量之间的复杂交互关系。此外，在观察被试行为的基础上，采用眼动仪、ERP等脑科学的研究方法，更直接地观察学习者的大脑认知活动。

四、结语

从 Gruba对比音频和视频输入效果的研究算起，有关听力中视觉输入的研究已经历了 20多年的发展历程[13]。虽然，在理论和方法上都取得了一定的进展，但研究仍处于起步阶段。研究数量还比较稀少，且研究结果间还存在较大的分歧，一些重要的问题依然悬而未决。因此，未来还需采用新的研究方法开展更多的实证研究，并吸收借鉴其他学科的新理论，拓宽理论基础并完善听力的构念，提升研究的深度和广度。这样，我们才能真正弄清视觉输入方式对听力测试的构念效度的影响，为外语教学中听力材料的使用及计算机网络化听力考试的试题设计提供科学的理论指导。与国际相比，国内有关视觉输入的语言测试研究比较滞后。迄今为止，在外语类核心期刊上还未见有相关论文发表。今后，我国语言测试研究者应加快这方面的研究，以推动我国语言测试理论与实践的发展。

[1] BUCK G. Assessing listening[M]. Cambridge:Cambridge University Press,2001:23-25.

[2] OCKEY G J. Construct implications of including still image or video in computer-based listening tests[J]. Language Testing, 2007(24):517-537.

[3] CHAPELLE A. English Language Learning and Technology: Lectures on Applied Linguistics in the Age of Information and Communication Technology[M]. Amsterdam:John Benjamins,2003:7-9.

[4] CHAPELLE A. Utilizing technology in language assessment[A]. In E. Shohamy, N. H. Hornberger (Eds),The Encyclopedia of language Education[M]. Language testing and assessment. Kluwer Press,2008(7):123-134.

[5] ROEVER C. Web-based language testing[J]. Language Learning &Technology,2001(5):84-94.

[6] BACHMAN L. Some reflections on task-based language performance assessment[J]. Language Testing,2002(19):453-476.

[7] LADO R. Language testing:The construction and use of foreign language tests[M]. London: Longman,1961:12.

[8] PROGOSH D. Using video for listening assessment: Opinions of test-takers[J]. TESL Canada Journal,1996(14):34-44.

[9] WAGNER E. Are they watching? Test-taker viewing behavior during an L2 video listening test[J]. Language Learning and Technology,2007(1):67-86.

[10] SUVOROV R. Context visuals in L2 listening tests:The effects of photographs and video vs. audio-only format. In C. A. Chapelle,H. G. Jun,&I. Katz (Eds.),Developing and evaluating language learning materials[M]. Ames,IA:Iowa State University,2009:53-68.

[11] GRUBA P. The role of digital video media in second language listening comprehension[D]. Unpublished PhD dissertation,Department of Linguistics and Applied Linguistics,University of Melbourne,1999.

[12] BEJAR I, DOUGLAS D,JAMIESON J,etal. TOEFL 2000 listening framework:a working paper[M]. Princeton, NJ:Educational Testing Service,2000.

[13] GRUBA P. A comparison study of audio and video in language testing[J]. JALT Journal,1993(15):85-88.

[14] CONIAM D. The use of audio or video comprehension as an assessment instrument in the certification of English language teachers:a case study[J]. System,2001(29):1-14.[15] WAGNER E. The effect of the use of video texts on ESL listening test-taker performance[J]. Language Testing,2010(27):493-513.

[16] CUBILO J,WINKE P. Redefining the L2 listening construct within an integrated writing task:Considering the impacts of visualcue interpretation and note-taking[J].Language Assessment Quarterly,2013(10):371-397.

[17] GINTHER A. Context and content visuals and performance on listening comprehension stimuli[J]. Language Testing,2002(19):133-167.

[18] COPEB K,ALANTAZIS M. Multiliteracies: Literacy learning and the design of social futures[M]. London:Routledge,2000:182-183.

[19] 韦琴红. 多元识读理论解读[J]. 杭州电子科技大学学报,2013(9):59-62.

[20] CHAMBLISS M,CALFEE R. Textbooks for Learning:Nurturing Children’s Minds[M]. Oxford:Wiley-Blackwell,1998:76.

[21] ANTONIETTI A,COlOMBO B,LOZOTSEV Y. Undergraduates’ metacognitive knowledge about the psychological effects of different kinds of computer-supported instructional tools[J]. Computers in Human Behavior,2008(24):2178-2192.