记笔记与写概要作为听力测试题型的实证研究

2012-11-26丁丽宏

浙江工业大学学报(社会科学版) 2012年4期

丁丽宏

(浙江工业大学外国语学院，浙江杭州310023)

听力测试涉及多种综合技能的练习，包括听力理解、听力记忆幅度、拼写等等。测试既应反映教学的需要，又要反过来对教学产生良好的反拨作用。就我国的测试形式而言，目前采用最多的是多项选择题(MC)这种识辨性的分离式测试题型。它是选择－反应题型，只对接受性技能提出要求，是封闭式的，信息处理主要为自上至下的过程;它淡化了语境，牺牲了交际的真实性和效度，且由于选项是书面的，在听的过程中，学生有额外的阅读任务。投机性是其颇具争议的一大弊端，因为它事实上时常诱发缺乏理据的猜测和作弊，测试的公平性也将大受损害，很难对考生的真实语言能力做出可信的评估。因为在真实的交际活动中并不存在这种现成的选项，而交际内容也是不可预见的，因此通常没有唯一正确的答案。另则，其命题难度相对较大，设计高质量的题目费时费力;测试题的错误设计往往误导学习者的语言输入，使他们形成错误的假设，妨碍后续的学习［1］。再者，从测试与教学的相互作用来看，MC测试后效差，容易导致题海战术，助长应试教学。而且这种题型仅仅呈现结果，而评卷人并不了解学生答题的过程以及他们的薄弱点在何处，不能提出一些诊断性的信息和建议，从而不可能对教学产生良好的反拨作用。因此，设计出一种过程导向(process-oriented)的听力建构反应题型(constructed-response test)早已提上日程。

杨惠中教授谈到全国大学英语四、六级考试时认为，“改革趋势是很清晰的，一是增加听说比例，二是在题型设计上要增加直接测量英语应用能力的构成性作答题型，而减少选择性作答题型的数量和权重，使四、六级考试能更直接地反映考生实际运用英语的能力水平”［2］。CET考试正在不断地研究开发新题型，在保证信度稳定的前提下增加了一些考生必须独立写出答案的题目，比如复合式听写、简答题等。本文对记笔记和写概要(NS)这种题型的多维研究，试图在听力考试题型方面寻求效度、信度、可行性之间最合适的平衡点，强调语言学习要结合真实交际情景，按语言交际的现实需要来训练学习者的语言应用能力。

一、理论框架

(一)交际语言测试的真实性和语言测试的有用性标准

1972年Hymes提出了交际能力的概念，为交际语言测试的产生及发展提供了理论支持。Bachman的交际测试理论框架指出了真实性(authenticity)的重要意义。“真实性是语言测试一个很重要的特征。测试任务越真实，与被试平时使用的语言或内容越接近，其测试行为就会发挥得越好，那么，根据测试结果(分数)对被试语言能力所做的推断就越准确，因而测试的构念效度就越高”［3］。Bachman又提出从测试的情景真实性和互动真实性来定义测试的真实性。情景真实性指测试方法的特点和目标语的使用环境中的特点之间的吻合程度;互动真实性指考生和测试题目之间的互动关系，即题目是否能激发考生的语言能力，使其完成测试任务［4］。

“听”在交际中是一种重要的技能，是言语交际中获得语言信息的最主要途径。Krashen的语言习得理论就说明了这一点。听力是一种由速度、记忆、判断、理解、概括等结合在一起的综合能力。听力虽然相对于“说”和“写”来说是一种接受性技能，但在听的过程中同样要求听者积极参与，是一种解码过程与意义再构建过程的结合。因此，“听”在本质上是一种有目的的积极活动。这一过程中听者的积极参与、社会文化背景知识和语用学知识与听者的纯语言知识同样重要。但是这种面对面的直接交流在大规模测试中不可能再现，因而也是不可行的。NS题型设计目的就是检验学生理解和表达双向的技能。同时使用多种技能更接近交际的真实性。它综合性地测试了学生的听力、记笔记能力、组织以及驾驭书面语言的表达能力，以较自然、有意义的方式把多项技能整合到一起。

Bachman＆Palmer提出了测试有用性的重要标准，认为语言测试的最主要的用途便是教学用途，即检验语言教学的效果并优化教学决策。测试有用性包括六大要素:信度(reliability)、构念效度(construct validity)、真实性(authenticity)、互动性(interactiveness)、后效(impact)和可操作性(practicality)［5］。本文正是从这些维度来探索NS这种听力测试题型。

(二)听力理解中的信息论

1.信息处理负荷。从信息论的角度来看，人们对信息的吸收和储存量是有限的，信息的流失不可避免，这是由交际双方有目的的选择和有意识的关注所造成的。在现实生活中，人们往往只注意主要信息，而不是逐字的精确理解。如果学生能听懂大意，那么即使他们错过了一些不重要的细节也不会对信息的整体理解有太大的妨碍，他们在考试时也不会因此而惊慌以至影响后续的答题。因为听力测试的主要目的是理解，而不是记忆或对某一语篇的重述。学生不是录音机或鹦鹉，能机械地记忆信息也不意味着他们理解了信息内容。学生只需掌握主旨，有目的地筛选、加工、巩固、储存信息。否则记忆负荷过重，即便已经存储的信息也会随即消失。一个好的语言学习者要能够容忍知识的模糊性和不完整性，而一个好的听者尤其如此。NS题型就是设想让学生就听力的材料写一个概要来测验对主要信息的理解、减轻记忆负荷。

2.信息转换的练习。Morrow指出:“交际情境中语言使用的一些特点在传统语言测试中未得到衡量:交际是基于互动的，是不可预测的，具有语境，有目的，且语言是基于行为的”［6］。交际的不可预测性就注定交际性语言测试应基于弥合信息差的基础之上。因此在测试中可积极创造信息差，为真实交际提供动力和意义，促成真实交际。Nunan提出的“任务依属原则”(task dependency principle)是交际性测试的特点之一，即在完成一项任务的过程中产生的信息可用于完成后续的其他任务［7］。因此，在听力测试中可设计一些信息转换(information transfer)的任务(如完成表格、图片、地图、提纲等)来提高受试者调控信息差的能力。Bachman就曾举过一个颇具启发性的例子:听力理解和阅读理解问题的答案可作为写作任务的素材［4］。

在NS题型中，如果学生自行做笔记写概要往往会带有一定的盲目性，会觉得无所适从，笔记也会凌乱无重点，缺乏条理无层次，不能抓住主要信息。解决的方法是在听的过程中先让他们完成一些信息转换练习，使其转化成一种既有控制又有引导的记笔记练习。一方面教师可以通过控制输出的信息和要求学生接受的信息比例和焦点来控制练习的难度和测试重点，使听力任务在笔记的基础上自然过渡到概要写作。而学生在记笔记时也需要引导性练习。这种记笔记练习可以在听者身上产生获取信息的自发动机，给他们做选择记忆的机会，帮助他们激起已有的记忆，使音、形、义形成快速联系，在头脑中形成思维导图，为写概要提供信息重构。一般来说，学生如果在听的过程中完成一些不需耗费很大注意力的任务，则会更集中精力，听得更有效。这种有引导的记笔记练习可以帮助学生带着目的、有期待地选择要点;选择恰当的时间把要点记下;把要点记得既快又简洁;把重点安排得一目了然。

因此，NS这种信息转换练习具有简洁直接的特征，可确保测试的是理解，而非“产出”。它没有对记忆增加太多负荷，同时可作为写概要的辅助回忆或提示，也正是通过这种可视材料把听和写结合了起来。但为使听力测试更客观、更准确，在题型设计中不应有过多依赖学生记忆能力和写作能力的试题形式。如果将听力理解同其他能力混淆起来，就很难单独对听力理解能力作客观和正确的评估。因此，在概要的开头给出一个引导性的问题或一个启发性句子，引导学生对有效交际的关注。在这样一个限定的框架内，主要考查的是听力理解能力，其次是组织和表达能力。

二、研究过程与结果分析

(一)研究目的

本研究拟解答以下问题:第一，从理论的视角，对NS题型和MC题型的效度、信度、有效性和反拨作用做比较分析。第二，通过实证研究，检验理论研究的结论以及NS作为CET4等大规模测试中听力测试题型的可行性，包括(1)两种听力理解测试题型的信度如何;(2)NS是否能比MC更真实地反映被测试者的听力理解水平;(3)NS是否能比MC更真实地反映被测试者的语言综合水平;(4)NS测试的主要目的是否是听力技能;(5)不同的篇章材料是否会影响考生在NS中的表现;(6)考生对两种测试方法(尤其是NS这种新题型)持怎样的意见和态度。

(二)研究设计

依据Bachman的语言测试模式，考生的测试行为不仅受其语言能力的影响，同时也受到测试方法的影响(即五个层面:测试环境，测试说明，考试材料的输入方式，答题方式，考试材料的输入与答题之间的关系)。语言使用涉及这些元认知策略和语言知识的各个方面，它们相互作用、相互影响，不可分割，都应该在测试的开发和解释过程中得到考虑［4］。笔者设计了两份CET4的模拟平行卷，精选发音标准的英语为母语的外国人录音的听力材料，同时特别注意篇章的主题、内容、生词密度、篇章结构和题材的真实性，以及选用正常的语速和标准语音音调。所选用的四篇短文的长度和难度适宜、结构清晰、便于听者记录，其主题包括:Daydreaming(Passage 1)，African and American elephants(Passage 2)，Choosing A Career(Passage 3)，News Media(Passage 4)。表1显示了试卷结构:

表1 试卷结构

受试对象为语言背景、教育程度和年龄都相仿的非英语专业6个班的二年级学生。建立两个对照组，即使用A卷的组1和使用B卷的组2，在他们参加全国性CET4考试前一周同时进行听力测试及问卷调查。CET4是一项具有较高信度和效度的权威考试，可以作为衡量考生语言综合水平的一个指标;且本次听力测试距CET4考试仅一周，能保证考生的英语语言综合水平没有发生变化。每个班有一半学生参加A卷测试，另一半参加B卷测试。两种测试方法都采用同样的音频材料，每个音频材料对应两种不同的测试题型(NS和MC)。测试前教师强调了测试和问卷的重要性，解释了试卷构成和NS答题要求，并作了问卷回答的一些说明。学生在完成测试后即刻回答调查问卷，目的是了解试题的难易度、学生对听力材料的内容是否喜欢、听力材料是否适合写概要以及他们对NS题型的接受程度。

(三)数据的收集与分析

对于NS题型，笔记部分不占分，全部分值赋予概要部分。如此比重原因有两个:其一，测试的关键不是笔记的外在形式，而是恰当地重组听力内容的能力，因此概要部分评分权重较大;其二，避免受试者因笔记与概要的内容重叠部分过多而扣分或得分。在给信息转换练习评分时，采用抓要点的方法，即在评价概要时更注意内容，而非语言的准确性。写概要时要求完整地传达所有主要信息，在列出作者的主要观点时不能加入自己的评价，同时书面语要求简洁、有条理、避免重复，用尽量少的词汇表达主要内涵。以一个围绕意义和观点的组织的评价量表(rating scale)为标准，兼顾语法、拼写等各方面，由两位阅卷员独立进行评价，取其平均值，以确保阅卷员内在信度和阅卷员之间的评分信度。对158份模拟卷评阅后，去除5份未填写完整的试卷。待CET4经过加权、等值处理后的成绩公布后，把153份模拟试卷的NS分数和MC分数与学生相应的四级听力、写作和总分对比，通过SPSS做t检验、信度分析、相关系数分析、因子分析、难度和区分度分析，从而提出建立NS题型有效性的实验根据。

1.t检验。对两个实验对照组的CET4总分进行 Levene方差齐性检验，F值 =0.009，Sig.=0.924＞0.05，说明两个对照组是齐方差的。根据齐方差的t检验得到的双尾显著值为0.536＞0.05，两个对照组的平均值差异是没有显著性的，由此确认两个对照组的CET4考试成绩可视为相等样本(见表2)。

表2 t检验

2.信度分析。信度是任何测试结果有效的必要条件，是效度的必要前提。NS的概要部分的阅卷员间评分信度分别为 0.951，0.964，0.958 和0.948，说明阅卷员之间具有好的评分一致性。

3.相关分析。用双侧(Two-tailed)检验计算皮尔逊相关系数，从表3a和表3b看出:第一，NS与CET4听力的相关高于MC与CET4听力的相关，由此推断NS能更好地反映被测试者的听力理解水平。第二，NS与CET4总分的相关高于MC与CET4总分的相关，由此推断NS比MC更真实地反映被测试者的语言综合水平。第三，NS与CET4听力和CET4写作都产生正相关，但与前者的相关系数高于后者，由此证明NS是一种综合测试题型，且主要测试的是听力技能。

表3a A卷分数与CET4分数的相关矩阵(N=79)

表3b B卷分数与CET4分数的相关矩阵(N=74)

4.因子分析。采用最大方差旋转法，使每个因子上具有最高载荷的变量数最小来简化对因子的解释。如表4至表6，共提取主要因子2个，它们的方差贡献率合计达73.237%。CET4总分、CET4听力和NS成绩3个变量在第1个因子上的载荷较高，第1个因子主要解释这3个变量。这3个变量的共性可以表达为听力语言能力，说明因子1是一个类似于听力语言能力的因子，由此可以证明NS的题型对测试受试者的听力能力上的结构效度是非常高的。

表4 特征值与贡献率

表5 初始因子矩阵

表6 旋转后的因子矩阵

5.区分度和难度分析。将模拟卷按分数由高至低排序，用公式DI=(27﹪高分组的平均分－27﹪低分组的平均分)÷满分值来计算模拟卷每道选择题的区分度，A卷和B卷的分别各有一题区分度在0.2-0.3之间而不理想，平均区分度为A卷0.369和B卷0.387，尚可;平均答对率为A卷0.706和B卷0.713，是令人满意的。

表7难度统计表明，同一听力材料的NS题型难度明显高于相应的MC题型，验证了出题人和考生的初始印象。各题难度值与问卷反馈的难度判断基本吻合。多数学生反映，A卷Passage 3的NS题型最难，B卷Passage 1的NS题型最难。比较显著的例子是70%的学生认为A卷Passage 3的NS题最难是因为NS题型、音频长、内容笼统抽象、前面的笔记部分是提纲的形式，给出的支持性信息少。而仅10%的学生认为A卷Passage 4的NS题难，因为篇章结构紧凑、要点清晰;题材有趣、熟悉;笔记部分提供的图表使篇章结构一目了然;在做了前面一题Passage 3的NS后，学生对解答NS题获得了一些窍门。由此可知，篇章特征(如长度、主题、信息结构等)影响NS试题结构和难度。因此选择结构紧凑、要点清晰的篇章来设计成难度适合的NS题是至关重要的。对篇章选择的高要求会在一定程度上影响NS题型的可行性。而且对题型的熟悉程度影响考生成绩。

6.其他反馈信息。对模拟测试后的158份问卷数据进行整理并去除了不符合统计要求的问卷，实际有效问卷共136份。问卷及面谈的反馈信息主要有:第一，学生喜欢NS题型，认为它能真实反映听力理解能力，测试以语篇的宏观理解为重心，能综合考查多种学习技能和策略。第二，NS对学习产生良好后效。如:“做了NS后能更好地理解篇章，帮助我养成分析、归纳的习惯;而做MC时往往只需了解若干细节信息就能答对;MC干扰项有时会误导我，考完后我只记得选的错误答案了”。第三，对NS题型的评价与建议:题型灵活，多形式的记笔记练习对学生有更大的吸引力;笔记与概要部分内容有所重叠;希望笔记部分给出更多引导信息以降低难度。

表7 MC和NS的难度

三、结论和启示

本文通过理论研究、实证对比研究和问卷调查证明，与MC相比较，NS更能反映交际中听力理解的本质和交际的真实性，具有更高的效度、理想的信度、可行性和更积极的反拨作用，同时就如何设计与运用NS题型提出了建议。通常客观性测试效度比较低，设计题型又费时费力，但评分信度高;主观性测试更能反映交际能力，效度大，但评分信度低。而NS可以结合客观性考试的高信度和主观性考试的高效度来加以平衡。这种题型不仅结合听和写及其他学习技能和策略，而且可从不同角度测试综合的语言应用能力，其命题更容易，能避免考生的侥幸心理，减少考试的偶然性。概要练习中含主观性评价因素，它使学生答题有一定的灵活性和自由度。但由于概要主要是基于先前的客观性笔记，不掺入作者的评价，整体上NS题型还是以客观性评价为主，因而可以确保测试目标主要是听力理解，而不是写作。其考查的内容反映出从接受性技能到产出性技能的过渡，与学生的学习有密切的关系。这样一种听力题型既帮助学生熟悉听取信息的过程，使教学和测试在方式上统一起来，又能让教师细致地诊断学生在听取信息的过程中每一环节的完成情况。通过比较学生的笔记和概要两部分试题，阅卷人可以发现考生听力理解过程中的一些薄弱环节，因而可以提出一些诊断性的信息和建议，对教学产生良好的反拨作用。

NS题型是听力理解测试的一种动态的、综合的方案。习惯于被动地做选择题的考生们在面临高要求的NS题型时有些茫然失措，这就需要教师们对考生的NS策略使用(听力理解策略和应试策略)加以训练、指导，使他们提早适应听力测试改革的趋势。

［1］戴曼纯.外语测试中的几个问题［J］.外语教学与研究，1993，(1):59-62.

［2］沈祖芸.叩问四、六级:17年品牌之路的理性思考——访全国大学英语四、六级考试委员会主任委员杨惠中教授［J］.上海教育，2004，(6):19-20.

［3］韩宝成.语言测试:理论、实践与发展［J］.外语教学与研究，2000，(1):47-52.

［4］Bachman L F.What Does Language Testing Have to Offer［J］.TESOL Quarterly，1991，(4):671-704.

［5］Bachman L F，Palmer S.Language Testing in Practice［M］.Oxford:Oxford University Press，1996.18.

［6］Morrow K.Communicative language testing:Revolution or evolution［A］.The Communicative Approach to Teaching［C］.Oxford:Oxford University Press，1979:143-158.

［7］Nunan D.Second Language Teaching and Learning［M］.Boston:Heinle ＆ Heinle Publishers，1999.29-34.