交际能力培养目标推动下汉语口语测试的标准取向<br/>——基于英国高中生IBDP测试语料的分析*

交际能力培养目标推动下汉语口语测试的标准取向
——基于英国高中生IBDP测试语料的分析*

2022-02-11许津彰马思宇

云南师范大学学报（对外汉语教学与研究版） 2022年1期

许津彰, 马思宇

(1.北京师范大学汉语文化学院，北京 100875；2.首都师范大学国际文化学院，100089)

一、研究背景

中文教育要走向国际化，前提是与其他语言在同一个平台上发展。汉语口语测试，作为一种外语测试，要跻身国际语言测试之林，就不能不关注国际上外语测试发展的动态与趋势。随着交际能力培养目标逐渐成为世界各国语言教育的主要目标，口语测试也逐渐由仅仅测量语言知识和技能，转向测量交际时运用语言知识和技能的能力，将涉及交际的各种因素综合成一个整体来加以测量(1)Widdowson,H.G.Teaching Language As Communication:Oxford:Oxford University Press,1978.，进而更加关注交际表达的可理解性。近十年，汉语作为外语教育走进越来越多国家的国民教育体系，学习者低龄化日益明显，汉语逐渐从大学走进高中、初中、小学，甚至幼儿园(2)李宇明.海外汉语学习者低龄化的思考[J].世界汉语教学,2018,(3).。那么，在中小学的外语教育中，汉语作为外语的测试，特别是口语测试的取向是什么？这是本文所关注的。

IBDP(International Baccalaureate Diploma Programme)是国际文凭组织(International Baccalaureate Organization，简称IBO)针对高中学生所设置的一种大学预科教育课程，涉及不同学科，也包括汉语作为外语的课程与测试。IB课程(International Baccalaureate)近年来已经成为欧洲、大洋洲等不少国家在中小学致力开发的课程，一定程度上已经对亚洲一些国家产生影响，因此，IBDP测试评价体系也在对各国国民教育中的外语测试取向产生着不同程度的影响。这也是值得国际中文教育关注的。

英国自21世纪以来，逐渐将汉语纳入基础教育中的现代外语课程(Modern Foreign Language)。2005年，全英开设中文课程的中学只占7～8%，到2016年的10年间这一比例上升到了13%(3)http://bacsuk.org.uk/chinese-in-uk-schools，增长近1倍。(许津彰、王琛等，2021(4)许津彰,王琛,宋继华,等.英语母语者汉语口语语料的采集分析与语料库构建[J].云南师范大学学报(对外汉语教学与研究版),2021,(1).)不少在高中阶段修学汉语课程的学生，实际上早在初中甚至高小就已经开始学习汉语，本文所研究的学习人群即属于这种情况。那么，经过5～6年中学汉语课程的学习，这些学生的汉语口语水平如何？也是本文所关注的。

本文收集了英国Dartford Grammar School高中生在IBDP初级中文口语测试(5)IBDP初级中文口语测试属于IBDP初级语言测试的一种。中的语料及其对应的考官评价和测试成绩，通过语料抽样分析、语料与成绩对应分析，对照IBDP初级中文口语衡量标准，以期通过对口语测试真实语料的分析，探究交际能力培养目标推动下汉语口语测试的取向问题。

二、口语测试语料的抽样与分析

本文研究语料全部来自英国Dartford Grammar School高中13年级的46名学生。由英国本土考官对这46名学生IBDP口试录音备份，共计46段录音，每段录音时长10分钟左右，总时长409.05分钟。经过本文作者对录音文件的转写与标注，获得口语语料文本共计65568字。

为了向读者展示IBDP口语测试实际过程，细致分析语料内容与被试口语测试成绩的对应关系，探究口语评估的衡量权重，本文采用抽样的方法对46段口语测试语料进行分析。

(一)测试语料的抽样

本文采用随机与分层相结合的方式，将46名考生的姓名替换成1～46的数字编号，并制作号签，匹配分数，使之均匀分布。

在分析标注全部语料的基础上，结合考官评分，本文从高频分数、最高分数和最低分数中各抽取1名考生的语料进行对照分析，再对高频分数样本的语料进行语言要素的个案分析。口语测试满分为30分，46名考生成绩最高的为满分30分，有3人获得满分；最低的为15分，仅1人。从得分频次看，24、25、26、27分是高分段，46人中有29人处在这4个分数段，其中获得26分的有9人。成绩分布如图(图1)所示：

图1 Dartford Grammar School 高中生IBDP口语测试成绩分布图

通过分层与随机抽样的方式，本文从高频分数(26分)中抽取7号，从最高分(30分)中抽取33号，从最低分(15分)中抽取27号，对这3份语料进行重点分析。

(二)语料样本的测量指标

此处采用通用的评价指标，以便对照IBDP口语测试的评价取向，并由此观察IBDP口语测试体系与学术界、语言教学界通用的测评体系之间的差异。在关注口语流利方面，测量指标较为普遍接受的有3类，分别为“时间性指标”“准确性指标”和“表述性指标”。Lennon列出了12项可量化指标，最能说明流利性的有语速、停顿次数等(6)Paul Lennon.Investigating Fluency in EFL:A Quantitative Approach*[J].Language Learning,1990,(3).。Towell 等采用了语速、发音时间比等4项指标(7)R.TOWELL and R.HAWKINS and N.BAZERGUI.The Development of Fluency in Advanced Learners of French[J].Applied Linguistics,1996，(1).。郭修敏在口语流利性的量化研究中确定了时间性、准确性和表述性三大类共11项指标(8)郭修敏.汉语作为第二语言的口语流利性量化测评[J].湘潭师范学院学报(社会科学版),2007，(4).。结合本研究目的，我们在3类指标下选定了6项，以测评样本在表达连贯性和准确性方面的程度。如下所示：

指标1 语速：音节总数/总时间*60s

指标2 发音时间比：发音时间/总时间

指标3 发音模糊：词语无法通过发音听辨，需结合语境推测意思(单位：处)

指标4 非正常停顿：在交流中可从听觉上分辨的非正常停顿(单位：处)

指标5 词汇量：发音全程中，不计重复的词汇量/词汇总量

指标6 语法偏误：不符合汉语表达规范的词句(单位：处)

(三)测量工具与测量过程

本文使用WavePad音频编辑软件处理录音样本，以人工转写文本为依据计算音节总数，统计考试录音时长、发音时间，计算语速和发音时间比。根据波纹曲线变化和声音强度(单位：dB)测算考生在考试过程中的沉默时间，从而反向计算出发音时间比(如图2)。

图2 WavePad统计测算界面

本研究同时借助教育部语言文字应用研究所搭建的“语料库在线”(9)教育部语言文字应用研究所计算语言学研究室.语料库在线:[DB/OL]http://corpus.zhonghuayuwen.org，2019-09-29.平台对语料进行了词汇量和词频的计算与分析。对于发音模糊、非正常停顿和语法偏误则主要通过人工标注统计。

(四)测量结果与对照分析

根据选定的6项指标，我们对3份典型样本(7号、33号、27号)分别进行了测算统计。结果见表1：

表1 典型样本各项指标数据统计

从表1可见，33号样本(最高分)在相近时段内产出音节总数更多，语速更快，发音时间比更高，词汇量更大；7号样本(高频分数代表)次之；27号样本(最低分)沉默时间更长，发音时间比低，词汇量相对少。语速、发音时间比、词汇量与分数呈正相关。不过，高分样本发音模糊不清的总次数是多于另外两个样本的，出现的语法偏误也相对更多，但得分却是满分。这表明考官并没有因为这两个问题而扣减任何分数，该考生的口试成绩并未因本文测量到的不满足指标3和指标6而受到显著影响。这个现象不能不引起我们的关注。

对比以上3个样本，满分样本总体上是突出的，不但优于低分样本，也优于高频样本。这说明前人既定的评价指标的有效性。但是也出现了意外，即满分样本在指标3和指标6表现并不完美，更重要的是最终成绩却并没有受到影响。因此我们就得出两个假设。假设1：假设满分样本是个例外，其发音模糊与语法偏误的问题被考官忽略了；假设2：假设满分样本是新的测评理念的产物，即考官基于口语表达的交际性和可理解性有意忽略了这两处本该扣分的地方。为验证假设，我们需要对高频分数样本做一个个案分析，以及高频分数段与低频分数段的群案对照分析。

(五)高频分数个案的文本分析

基于语音撰写的文本，此处在前文6个指标的基础上讨论分析两个指标不完美的问题。

关于高频分数个案的文本分析，我们主要基于7号考生的转录文本，重点分析该考生指标3与指标6的问题。

首先，在指标3发音模糊方面，7号考生在口语测试中有5处发音模糊的情况，已无法仅从语音听辨其所使用的词语。我们运用语篇理论一一分析，看是否能够通过上下文语境实现理解，举例分析如下：

①照片的中面有henzi(孩子)。

结合考生所描述图片中学习汉语的场景，可以判断考生所说的henzi有可能在指称图中的几名学生。

②我认为学中文非常难。虽然很难，但是我觉得学中文有意思又siji(刺激)，因为中国有很长的历史。

“有意思又刺激”是考生课程学习内容中出现过的一项固定搭配，结合上文，可以推断为学习汉语既有趣味，又有挑战。再结合整个文段的前半部“我认为学中文非常难。虽然很难，但是……”所以此处的“siji”可以推测为“刺激”的不准确发音。

类似情况共4处，可通过上下文判断意思。但第5处难以确认，只能用拼音字母将考生的发音模拟出来。如下：

③我将来xueshang喜欢看中国，因为中国有很多很好的文化。

从语法结构和整句意思来看，难以推断考生7所说的“xueshang”所指为何。不过，整句意义并未因为这个词语的不清晰受到很大的影响。可以说，考生7的几处发音模糊的地方，基本上都可以结合上下文语境来推测意思，对理解的影响不大，这可能是考官给分的基础。

其次，在指标6语法偏误对理解的影响方面，我们集中分析两个问题：一是词汇的话题分布，主要考查词汇使用的丰富度与复杂度；二是句法结构使用情况。

在词汇方面，7号考生在10分钟的口语测试中使用词语共计573个，共使用165个不同词语。在词义覆盖话题的广度上，涉及日常生活交际诸多方面，如家人、兴趣爱好、学习、旅行等，图3为7号考生词汇的话题分布情况：

图3 7号考生词汇的话题分布情况

根据《欧洲语言共同参考框架》口语能力量表对中级B1(Threshold)水平在广度上的界定：“掌握足够的语言手段和词汇量，能谈论家庭、休闲、兴趣爱好、工作、旅游和时事等话题，但表达时有迟疑或用迂回法”(10)欧洲理事会文化合作教育委员会.欧洲语言共同参考框架：学习、教学、评估[M].刘骏,傅荣,等,译.北京:外语教学与研究出版社,2008:28～29.，可以看到，7号考生话题分布广度是符合要求的，表达中词汇发音偶有不准确的地方，但能够结合语境判断出所表达的意思，可以将其汉语词汇的丰富度判定为接近中级B1水平。

在句法结构上，7号考生在测试全程中使用了约37个自然句，其中单句22例，复句15例，涉及9类主要句型，还使用了其他一些汉语中的固定搭配，句型使用的类型比较集中。语法掌握尚好，使用中的偏误主要受母语影响，但基本意思清楚，能够比较正确地表达。

从7号考生的语料文本分析可见，语言越丰富，相应偏误也会增多。如果偏误不导致理解上的问题，在交际中可以被忽略。相对于语言偏误等指标，测试时的交际方(考官)更加重视交际中的信息沟通的可理解性，在口语交际可理解的情况下，偏误的重要性被大大降低了。这应当就是IBDP口语测试体现的新理念。

(六)高频分数段文本与低频分数段文本的群案对比

7号考生的个案分析表明，语音和语法偏误在不影响交际理解的前提下，并未对考生的成绩产生显著影响。为了验证这一现象是否仅为个别现象，我们有必要对多个高频分数样本的转录文本进行群案分析。我们在高频分数样本中，选取了“高分段”(27分)和“低分段”(24分)两个部分共12名考生，选定指标3和指标6，针对考生的发音模糊和语法偏误的情况进行了统计，结果如表2所示：

表2 高频分数考生指标3、指标6统计(11) 高分段和低分段考生在指标1、2、4、5没有显著差异。

分析表中统计数据，我们可以发现这样几个问题：一是高分段和低分段考生总体都存在发音模糊和语法偏误较多的现象；二是高分段考生的语法偏误数量(112处)总体上多于低分段考生(73处)；三是高分段考生的音节总数普遍多于低分段考生，这表明高分段考生的表达内容更加丰富；四是音节总数越多的考生，出现发音模糊和语法偏误的地方也更多。

结合高频分数样本关于指标3和指标6的统计数据，并对照前面7号考生的个案分析，可见发音模糊和语法偏误较多的现象不仅存在于高分考生(7号)的口语中，也表现在更多高频分数考生口语中，并非个别现象。尽管音节总数越多，语音和语法偏误也会增多，但考官并未因此而降低考生分数。

既然语音和语法偏误对考生的口语成绩评定并未造成显著的影响，那么IBDP口语测试评分的取向究竟是什么，我们还要结合IBDP口语评估的原则与方法进一步讨论。

三、IBDP汉语口语测试评分的取向

(一)IBDP汉语口语评估原则与方法

作为一门语言课程，《IBDP初级语言课程指南》将该指南的制定目标定在“专门为以前从未接触过，或仅稍微接触过所学语言的学生设计的”(12)International Baccalaureate.Diploma Programme Language ab initio guide (First Assessment 2020).International Baccalaureate Organization,2018.。参照《欧洲语言共同参考框架》对语言能力的分级和描述(13)欧洲理事会文化合作教育委员会.欧洲语言共同参考框架：学习、教学、评估[M].刘骏,傅荣,等,译.北京:外语教学与研究出版社,2008:23～24.(如图4)，IBDP初级中文课程培养目标相当于A2(Waystage)水平。

图4 《欧框》语言能力分级树形图

在评估参照方面，IBDP初级语言评估同样采用的方法是标准参照评估法，也就是依据已经确认的成绩水平标准对考生的考试作答表现进行评判，不采用对比参照评估法，故一名考生的成绩与其他考生的考试表现没有关系。测评的目的是考查学生运用所学语言进行理解和交流，并展开互动的能力，主要评估学生以下几方面的能力水平：

(1)在一系列情景中，出于各种各样的目的清晰而有效地沟通交流。

(2)面对各种不同的人际和/或跨文化情境和受众，理解和应用适当的语言。

(3)理解并运用语言流利、准确地表达和回应各种不同的思想观点。

(4)针对一系列主题，识别、组织和表达各种思想观点。

(5)在表达和对话情境中进行理解、分析和反思。

为了有效检测以上几个方面能力水平，IBDP口语测试设置了3项评估指标，分别是A语言、B讯息和C互动交流，其中B讯息根据图片描述任务和对话分成了B1和B2两个子项指标。如图5和表3所示：

图5 IBDP初级语言口语评估指标

表3 IBDP初级语言口语评分分档描述

从图5可见，在3项4档的评估标准中，语言只占其一，只是基准，另外3档均与语言的交流与表达关联，高于语言标准。

分析表3，我们会进一步发现几个关键词，标准A的关键词是“掌握所学语言”，标准B1的关键词是“与图片内容关联”，标准B2的关键词可以提炼为“回答与问题相关并涉及细节”，标准C的关键词是“理解并互动交流”。这些关键词组成了IBDP评估标准的阶梯：第一阶，掌握目的语；第二阶，根据图片提示谈论相关话题；第三阶，答为所问，而不是答非所问；第四阶，能在理解的前提下主动交流。

根据对IBDP评估标准的解读，我们回溯一下考官的给分点。

(二)由测试原则看测试成绩

为了探求考官在评价考生口语表现时的给分点，本研究对同组考生的各项评价指标得分、考官评语以及考生的口语输出内容进行了对应分析。按照IBDP口语测评的指标，抽取了考官对考生的评语，分析其给分点及给分差异。

(1)标准A的给分点(满分12分)

表4抽取了考官对考生1和考生4在标准A方面的考评：

表4 标准A考官评语示例

评语表明，考官关注的是考生的整体语言表现，即从语言知识层面看考生多大程度上掌握了汉语口语，特别关注考生口语表达时词汇、语法的丰富性和准确度，同时也会考虑发音、语法等失误对整体沟通交流的影响程度。

(2)标准B1的给分点(满分6分)

表5抽取了考官对考生2和考生6在标准B1方面的考评：

表5 标准B1考官评语

可以看出，考官从讯息角度对考生的图片介绍进行评估，在评价考生口语表述与图片内容关联程度时，主要关注3个方面的表现，这也展示了考官的给分点：一是考生对图片的认知理解，二是描述的细节和准确程度，三是是否与中国文化进行了连接。

(3)标准B2的给分点分析(满分6分)

表6抽取了考官对考生6和考生4在标准B2方面的考评：

表6 标准B2考官评语示例

考官在标准B2关注评估考生表达内容在讯息上的关联程度。不同于标准B1关注考生图片介绍与图片内容的关联度，考官在标准B2关注的是考生的回答与问题的相关程度。主要集中在两个方面：一是考生回答内容与问题的相关性，二是考生在回答时是否有所展开并给出细节。

(4)标准C的给分点分析(满分6分)

表7抽取了考官对考生12、考生1和考生10在标准C方面的考评：

表7 标准C考官评语示例

从表7可知，考官在标准C的评分上，注重的是通过考生的表达看考生对考官提出的问题是否理解了，理解后进行应答的情况，以及在交流中是否只是被动接受提问，是否能够主动地回问问题，与考官进行互动对话。从中我们可以提取出两个给分点：一个是考生对问题的理解程度，这反映在考生的表述内容当中；一个是考生互动交流的主动性，这表现在考生是否主动地回问考官问题，以及就考官提出的问题探讨的深度。

综上，IBDP口语测试的考官在各标准下所给出分数其评分点分析如表8：

表8 IBDP口语测试主要评分点

可以看到，标准A是一个成绩基准，这个基准涵盖了过往口语测评的主要标准。从标准B1开始，测评标准迈上了第二个台阶，这就是基于词汇、语法的丰富与准确，要求学习者知识面的广博，考查语言表达中对细节的表述能力与对文化的关注程度。标准B2明显是在考查使用目的语交谈的能力，而标准C则是要考查主导交谈的能力。四项标准形成不同的台阶，后3项明显地在向语言交流中沟通能力的方面发展。

(三)IBDP口语测试所体现的理念

根据IBDP的评估原则与方法，结合前述分析可以发现：标准A属于对考生语言整体掌握情况的考查；标准B1、B2和C则考查语言交流过程中的讯息传递、文化关联、互动技能等交际层面。IBDP口语评分标准总体偏向交际层面。

从分数权重分析来看，IBDP口语测评总分30分，关于语言层面(标准A)的考查共计12分，交际层面(标准B1、B2、C)的考查共计18分，分数权重如图6所示。从分数权重上看，IBDP口语测评更看重语言综合运用和交际能力的评估，属于交际语言测试。

图6 IBDP口语测评分数权重

从表面上看，对语言层面的考查权重的压缩，使得测试标准呈现出简易化的趋势，而从标准A到标准C阶梯式的对沟通能力的要求提升可以看到，测试的标准不是下降而是上升了，这是一个值得我们关注的测试取向。

这种口语测试取向与此前国际汉语教学领域主流的基于心理测量-结构主义语言测试模式的分项测试有着显著不同。后者以结构主义的语言观和行为主义的语言学习观为理论基础(14)毛忠明，黄自然.口语测试理论与实践[M].北京:中国书籍出版社,2013:3～6.，一般是对特定语言要素的掌握情况进行评估的测试，分别检测学习者的某一类技能或某一项知识，例如词语发音的准确性、语法结构使用的正确性、语言表达的流利性等。但对语言知识水平的测试仅仅面向考查学习者的正确性是不够的，“交际能力不应只强调语言的正确性，还应强调在特定场景和语境下有效发挥语言功能的能力”。(15)Porter,D.Assessing communicative proficiency:the search for validity.In K.Johson& D.Porter (eds.).Perspectives in Communicative Language Teaching[C].London:Academic Press Inc.Led,1983:64～74.这就需要对学习者的交际能力进行综合性的评估，即采用交际性测试的方式。

分项测试与综合测试的二分、心理测量-结构主义语言测试模式与交际语言测试模式的差异，实质上反映了两种不同的语言观、语言能力观。前者是结构主义的，把语言当成规则，认为语言能力取决于语言要素的掌握程度；后者是功能主义的，把语言视作资源，更重视语言知识的运用(use)，而不是语言的用法(usage)，进而在海姆斯语言能力的基础上发展出了交际语言能力(communicative language ability ,CLA)模型(16)Bachman,L.F.Fundamental Consideration in Language Testing[M].Oxford:Oxford University Press,1998:84～87.。

分项测试在结构主义的影响下，曾一度占据了国内外口语测试的主流，如口语测试中常见的朗读、复述、完成对话等就是分项测试的典型题型。在大规模的水平测试中，分项测试可以充分体现目的语水平评估的公平性和公正性。

然而，随着中文教育在越来越多国家的国民教育体系中展开，分项测试会面临着以下困难：首先，交际能力培养是目前多数国家中小学外语教学共同提倡的，因此，学生的目的语口语表达是否能实现交际目的，达成有效沟通成为目的语水平测评的首要条件；其次，中小学生往往是在发展母语的同时发展外语的，过于严格的语言知识测评或者技能测评往往会使学习者望而却步；第三，在非汉语环境下，由于缺乏足够的目的语输入，学习者目的语口语的表达往往是碎片化的，难以用严整的知识分项去多维地衡量。

因而，以海外IBDP口语测试为代表反映出的交际能力取向，是一种新的测试理念，这种交际语言测试在英语等一些外语教育中已经践行，但在汉语外语教学中尚未完全普及。我们认为，在交际能力培养目标逐渐成为世界各国语言教育的主要目标的外语教育时代共识的背景下，IBDP口语测试所采用的基于综合性评价的交际语言测试模式对汉语测试的国际化推广有重要的借鉴意义。进一步地，我们还要积极发挥口语测试对汉语教学的反拨作用，不仅推动汉语语言测试从“assessment of learning”向“assessment for learning”转变，也以此为基础，推动汉语国际教育走上以全面培养学习者交际能力为目标的道路上来。