口语能力量表研究<br/>——以大学英语四、六级口语考试评分量表为例

口语能力量表研究
——以大学英语四、六级口语考试评分量表为例

2015-03-24朱丽瑶上海交通大学上海200240

文教资料 2015年32期

朱丽瑶（上海交通大学，上海　200240）

口语能力量表研究
——以大学英语四、六级口语考试评分量表为例

朱丽瑶
（上海交通大学，上海200240）

摘要：大学英语四、六级口语考试（CET-SET）是国内大规模的、面向非英语专业大学生的计算机口语水平考试。本研究以CET-SET为例，探讨英语口语评分量表的实证性研究及改进建议。本实验就样本的口语表现展开结构化访谈，探讨对评分员口头报告分析总结得出评分标准及子评分标准，与现有CET-SET量表的差异、评分标准重要性排序、整体评分与分项评分对比等主要问题。

关键词：CET-SET口语表现评分量表评分标准

一、引言

在过去的半个世纪中，英语作为第二语言的测试受到社会各界如语言教学测试机构、移民局、语言学者的广泛关注。最早的语言能力测试量表是由美国外交学院（Foreign Language Institute，以下简称FSI）制定，旨在对口语表现的评判给出指导。FSI量表对语言量表后来在美国、欧洲、澳大利亚、加拿大、日本等国家的发展产生影响，其中目前影响范围最广的是欧洲共同框架（Common European Framework of Reference for Languages-Learning，Teaching，and Assessment，以下简称CEFR），该量表旨在统一欧洲的语言能力等级标准。国内的英语测试领域目前无统一的语言能力量表，各量表也主要出现在不同的教学大纲中，如《高等学校英语专业教学大纲》、《大学英语课程教学要求：试行》等。目前国内最大规模之一的英语口语考试是四、六级口语考试（College English Test-Spoken English Test，以下简称CET-SET），由CET-SET考委会于1999年正式实施，主要面向于英语四级笔试高于500分或者六级笔试高于425的考生。在过去的十多年中，CET-SET已由传统的面对面的考试形式逐渐转为机考形式，目前的机考阅卷中评分员对考生在机考中自我回答问题及双人讨论环节的表现评分，CET-SET的评分量表在过去的十多年中一直未有任何改动。现有的CET-SET量表是由考委会专家们参考国外其他口语量表，通过直觉法制定评分标准及描述语的。尽管目前对该量表是否准确地描述并区分了考生的口语表现有些担忧，然而，对于CET-SET量表的评分标准及描述语的实证性研究及改进的研究非常少。目前关于量表构建的主要研究都集中在通过定量研究的方法研究评分员一致性方面（Lado，1961；Fulcher，2003；Shohamy，1983；Morrison &Lee，1985）。本研究通过定性研究评分员在结构化采访中对口语表现及评分量表的观点和评论，对现有CET-SET评分量表作出实证性研究及提出改进建议。

二、研究背景

一直以来，口语能力都被认为是英语听说读写四项技能中最难测量的。口语考试是测量考生使用目标语言进行口语交际的能力。一般认为，口语水平主要从词汇、语法、发音、流利度和社会语言学五个方面考虑。Bachman，杨慧中，Luoma都在交际语言能力中提到了口语能力有如下特征构成：语言应用能力，如语音、词汇和语法结构的准确性；话语组织能力，如连词的使用、语句长度、句子及段落间的衔接；社会语言学能力，如交际的适切性、有效参与讨论、交际策略的使用。Higgs和Clifford的研究表明，评分员在对不同等级的口语考生评分时，对评分量表五个方面的侧重不一样，提出了一个各评分标准的相对贡献模型。如在给所有口语等级的考生评分时，词汇和语法两个评分标准的重要性都是第一位的，但是随着口语能力的提高，其他评分标准如发音、流利度、社会语言学也越来越重要。

评分量表主要分为整体评分量表和分项评分量表，整体评分量表是对口语表现给出一个整体印象分，分项评分量表对口语表现的不同方面（一般是3-5个方面）给出不同分数。一般而言，整体评分信度高，分项评分效度高。CET-SET整体评分量表给出了A、B、C、D四个等级及相应的等级描述语，分项评分量表给出了准确性和范围、话语的长短和连贯性、灵活性和适切性三个评分标准及相应的描述语。

口语量表的开发主要有三种方法，即直觉法、定性法、定量法。直觉法凭借在语言测试领域有丰富经验的一组专家的认知，参考已有的教学大纲、考试量表而设计，如目前的CET-SET量表制定采用的是直觉法。定性法要求专家们分析报告描述语或者样本口语表现，如王海贞开展了一项关于全国英语专业四级口试（TEM4-Oral）评分员对评分标准的理解和使用研究，对收集到的24名TEM4-Oral评分员在评分时的口头报告数据进行定性分析。定量法基于大样本数理统计，如Fucher通过统计并回归分析口语表现中各种流利度特征出现的频率，判断哪些因素对考生成绩有显著性影响。Milanovic，Saville和Shen采用了项目反应理论证实评分员能否准确区分量表上不同等级考生的口语表现。

通过回顾目前国外广泛使用的英语语言量表，如美国的ACTFL量表、加拿大的CLB量表、澳大利亚的ISLPR量表，了解国内主流量表的背景及构建特点，如目前语言量表领域影响范围最大，被各种课程大纲、考试等参照的CEFR量表的构建，以Bachman的交际语言能力为理论，通过开展大范围的定性和定量研究，对描述语池进行实证研究而完成。

三、实验设计

本实验挑选了六个经四、六级考委会专家给出整体等级分和各分项分，并曾作为评分员培训材料的机考口语表现样本，将样本分为三组。第一组样本由口语等级为C+（在实验中编号为NO.1）和A（NO.2）的考生组成；第二组样本口语等级分别为B+（NO.3）和A+（NO.4）；第三组样本口语等级分别为B（NO.5）和C（NO.6）。由于获取的实验材料的有限性，每组样本中的两名考生在双人讨论环节并不是与组内的另一名考生互动，而是分别与本实验未提及的其他考生互动。参加本实验的评分员是九名有丰富大学英语口语教学经验的老师（在实验中分别编号为R1，R2等），每名评分员被邀请根据某一组的考生口语表现（如评分员R1，R4，R7评判第一组样本的口语表现；R2，R5，R8评判第二组样本；R3，R6，R9评判第三组样本），在研究员的主导下展开结构性访谈。本实验旨在探索三个问题：对评分员口头报告分析总结得到评分标准及子评分标准，以及上述评分标准与现有CET-SET量表的差异、三个最重要的评分标准、整体评分与分项评分对比。

为了解实验的可操作性，对实验设计作出改进，在正式实验之前展开了预备实验，实验形式为结构化采访，实验全程录音，共邀请两名评分员（R1和R2）分别参加。实验过程共分六部，为了更好地开展结构性采访，实验中辅以PPT说明。第一步是向评分员介绍实验的目的、CET-SET机考流程，了解评分员是否参加过CET-SET阅卷。第二步是请评分员（以R1为例）分别听完第一组两名考生（NO.1和NO.2）的口语表现录音，作出两位考生水平孰高的判断，并给出清晰、详细的理由说明为什么一名考生的口语表现比另一名考生好。第三步是提供给评分员CET-SET整体评分量表，要求评分员根据整体评分量表对刚听到的两名考生的口语表现分别给出等级，并说明在评分过程中，评分员可以使用“+”。第四步是提供给评分员CET-SET分项评分量表，要求评分员根据量表给出考生在三个标准，即准确性和范围、话语的长短和连贯性、灵活性和适切性上的分项分。第五步是评分员被问到如下问题：上述评分量表上述评分标准是否覆盖了评价学生口语能力的所有方面；评分过程中，有哪些上述评分量表未提到却会影响对学生口语能力的评判的评分标准，并且指出评分中看重的三个评分标准。第六步是评分员被进一步问到更多开放性问题：对目前的CET-SET量表的建议；评价CET-SET评分的整体评分和分项评分；CET-SET考查了学生的什么能力；对本实验的建议。预备研究的顺利进行及经初步分析得出的数据有效性证实了正式研究的可实施性，同时预备研究的数据被纳入后期分析讨论中。

在完成了所有评分员的采访后，对实验录音进行整理，实验录音时长平均为50分钟。对数据的分析如下：首先对比评分员给出的分项分与整体分与样本由CET-SET考委会专家给定的分数对比得出分数的差异，并结合评分员是否有CET-SET阅卷背景作出分析。为了回答本实验的第一个问题，评分员阐述口语表现样本中一考生优于另一考生的原因被总结，并借鉴文献综述中所提及的口语表现特征、评分标准进行分类。然后，通过对评分员对CET-SET量表是否覆盖了评分员对于口语表现特征的分析，总结评分员评分信念与现有CET-SET量表的差异。为了回答第二个问题，评分员对于三个最重要的评分标准的观点被一一总结并以表格的形式呈现，并附上该评分标准是否被现有CET-SET标准覆盖。除此之外，评分员对现有CET-SET量表的建议也被分析。为了回答最后一个问题，评分员对整体评分及分项评分的观点也被一一总结。

四、分析与讨论

分数分析评分员根据CET-SET分项评分量表提出的准确性和范围、话语的长短和连贯性、灵活性和适切性三个方面，对口语表现的分项评分，根据CET-SET整体评分量表，对口语表现的等级评分，与CET-SET考委会专家组给定的分数存在差异。将所有评分员给出的分项分进行加权汇总转换为18个等级分，与CET-SET专家给定的整体分进行对比，共有3个等级分完全一致，13个等级分相隔半个等级（如A和B+相差半个等级），2个等级分相差一个等级（如B和C相差1个等级）。一般认为，相差半个等级以内的评分是有效的，因此评分员分项评分的加权汇总等级分的有效率高达88.9%。将评分员给出的整体评分与CET-SET专家给定的整体分进行对比，评分员整体评分的有效率高达83.3%。结合评分员的背景，对比评分员的评分与专家评定分数，得出评分员是否有CET-SET评分经验对评分一致性没有影响。

五、评分标准及子评分标准的分类

通过同时参考Higgs和Clifford，Bachman，杨慧中，Luoma对口语能力的界定，以及国外广泛使用的口语能力量表，对评分员提及的口语表现特征的口头报告进行分类，得出六个评分标准：（1）准确性包括发音的准确性、词汇的准确性、语法的准确性、口误；（2）范围包括词汇量大小、语法结构的丰富度；（3）话语管理包括流利度和语速、停顿和结巴、重复和自我纠正；（4）逻辑与衔接包括清晰的、有论据支撑的思维框架、句子间自然的过渡；（5）内容包括内容的丰富度、内容的深度；（6）交际策略包括交际的有效性、互动、交际技巧的使用。

六、评分员评分信念与CET-SET量表的差异

九名评分员中有七名认为现有的CET-SET量表未完全覆盖口语表现特征。通过分析总结评分员对该问题的回答及对CET-SET量表的建议，可以得出内容是被提及次数最多的，其次是逻辑。评分员还指出交际策略一直被忽视，其中R2指出现有的CET-SET量表虽部分提及但并未重视交际策略，R7指出任务完成度是否可以作为综合印象分的标准之一。

七、评分标准的重要性排序

通过分析总结不同评分员对最重要的三个评分标准的排序，可以得出评分员对于评分标准的重要性的差异非常大，并且与现有的量表所覆盖的标准存在差异。总的来说，评分员提到的首先重要、其次重要却与现CET-SET量表中未覆盖的评分标准大体相同，主要是内容、逻辑、连贯性。评分员提到的再次重要却在现量表中未覆盖的评分标准与上面所提及的也大体相同，除了新增交际策略和认为完成度。

八、总体评分与分项评分

评分员在被问及对整体评分和分项评分的看法时，5名支持分项评分的评分员认为分项评分更加实用、易于操作、容易遵循、清晰易懂、更加客观公正等；4名支持整体评分的评分员认为整体评分是整体印象分、在国际上被更多采纳、适用于大型口语考试、口语表现特征本身不可分等。

九、结语

本实验通过对评分员在采访中口头报告的定性分析，对现有的CET-SET量表展开了实证性研究，并对CET-SET量表的改进提出如下建议：（1）由于评分员的评分信念与现有的CET-SET量表的差异，建议将内容的深度和丰富度、逻辑和连贯性、交际策略整合到现有的量表中；（2）分项评分时评分员对不同方面的侧重点不一样，因此，在设计分项评分量表的时候应该考虑权重；（3）对评分员的培训对提高评分员评分信念与量表的一致性很重要，Ingram就曾提到考试工具的信度很大部分取决于对评分员培训的质量及评分员对量表的理解和使用；（4）整体评分量表的改进可以参照外国的口语量表如：ACTFL，CEFR等，使用更加详细的描述语更加清晰地描述不同等级的口语表现。

参考文献：

［1］Bachman，L.F.Fundamental Considerations inLanguage Testing.Oxford：Oxford University Press，1990.

［2］Fulcher，G.Testing Second Language Speaking.Pearson Education.2003.Higgs，T.V.&Clifford，R.The push Toward Communication，in Higgs，T.V.（ed.）Curriculum，Competence，and the Foreign Language Teacher，Lincolnwood，IL：National Textbook Co.，1982.

［3］Ingram，D.E.Reporton the Formal Trialling of the Australian Second Language Proficiency Ratings.Canberra：Australian Government Publishing Service/Department of Immigration and Ethnic Affairs，1985.

［4］Lado R.Language Testing：The Construction and Use of Foreign Language Tests.A Teacher’s Book.New York：Mc-Graw-Hill Book Company，1961.

［5］Luoma S.Assessing Speaking.Cambridge：Cambridge languageassessmentseries，2004.

［6］Milanovic，M.，Saville，N.andShen，Shuhong.A study of decision-making behavior of composition markers，in Milanovic，M.&Saville，N.（eds.）Studies in Language Testing 3：Performance，cognition and assessment.Cambridge：Cambridge University Press，1996．

［7］Shohamy，E.Rater Reliability of the Oral Interview Speaking Test.Foreign Language S，1983，16：3，pp.219-222.

［8］王海贞.全国英语专业四级口试评分员对评分标准的理解和使用.外语教学理论与实践，2008（2）：33-39.

［9］杨惠中.大学英语口语考试设计原则.外语界，1999 （3）：48-57.