口语测试中考官评分倾向性研究

2015-11-21朱燕谷珍

新教育时代电子杂志(学生版) 2015年29期

关键词：倾向性主考官考官

朱燕谷珍

（北京城市学院北京 100083）

口语测试中考官评分倾向性研究

朱燕谷珍

（北京城市学院北京 100083）

一、引言

口语测试是语言测试的一个重要组成部分，但由于其自身的特点和要求，口语测试的评分一直被认为是十分困难的。语言测试难就难在“语言既是测试的目标又是测试的工具”［1］。正如Brown & Yule［2］所言，“口语测试一直以来都是英语教师头疼的问题”。因为口语测试评分过程完全是主观的，一般情况下虽然有描述性的评分标准，但考官在评分过程中的个人好恶和倾向性是难以避免的。本文拟通过TEP（Test of English Proficiency）口语测试，对考官评分过程中的倾向性进行分析。

二、研究背景及研究问题

（一）研究背景

1. 国内外研究现状

口语测试的评分方法可以分为主观评分和客观或半客观评分两种。前者主要有综合评分（Holistic Rating）和分项评分（Analytic Rating）［3］。国内外对主观性评分方法的研究非常多，其中，对评分主体（考官）的研究是口语测试中重要组成部分。所以，有不少的口语测试研究是以考官为对象的，如：考官就受试口语水平看法的一致性［4］；考官性别对测试结果的影响［5］。国内学者对口试考官也做了一些研究，但还不够深入和广泛，主要集中在测试的信度和效度上。本文主要针对分别进行综合评分和分项评分的考官的评分倾向性进行研究。

2. TEP口语测试简介

大学英语应用能力测试（口语）（Test of English Proficiency Oral，简称TEP Oral）主要是为了检测学生经过学习后是否达到《大学英语课程教学要求》规定的英语口语教学目标。大学英语应用能力测试（口语）按四项标准评分：交际效果、内容和组织、语音语调、语法和词汇。大学英语应用能力测试（口语）的评分员是获得授权的考官。每场口试有两名评分员，两名评分员独立打分。主考官评分员的分数占考生总成绩的40%，副考官评分员的分数占考生总成绩的60%。

（二）研究问题

口语测试中考官的评分倾向性表现可谓多种多样，从评分关注的维度来说，有考官对评分因素关注侧重的心理，从考官本身的背景来说，考官可能受到性别、年龄、专业、评分经验和教龄等因素的影响，对口语评分有着不同的心理表现，从而形成评分的倾向性。限于研究的条件和论文的篇幅，本研究不能对评分倾向性面面俱到地进行研究，只选择主要的评分心理事实和规律进行研究：即针对考生的语言特征和非语言特征，考官在评分过程中的评分倾向性。其中，语言特征包括交际效果、图片描述、话题陈述、语音语调、语法和词汇；非语言特征包括任务的完成情况、对考生的第一印象、考生的声音质量、考生的自信程度、考生间的交流等方面。

三、研究方法

（一）研究工具和方法

研究工具包括：（1）评分标准和评分记录表，评分记录表包括整体性评分记录表和分项评分记录表；（2）评分员调查问卷。评分员调查问卷的主要内容有：调查考官对语言特征和非语言特征的关注程度。

研究的方法为实证性研究，通过对调查问卷和口语测试的评分结果的分析，揭示考官在评分过程中的倾向性问题，对这些评分倾向性的心理机制尽可能做进一步的解释。

（二）研究样本

研究样本为参与一次考生规模为250人左右的TEP口语测试的全体18名考官。

四、研究结果分析

（一）评分结果统计分析

研究人员针对主副考官的评分结果进行了配对样本T检验，TEP口语测试的满分为5分，主考官在评分过程中采用整体评分法，给出的是综合评分（5分制），副考官则采用分项评分法，给出分项得分，再根据不同的比重，录入excel中后，自动得出副考官总分（5分制）。从配对样本T检验的结果可以看出，主考官均值高于副考官均值，高出0.073分，此外，主考官评分的标准差大于副考官评分的标准差，说明主考官评分差异大于副考官，即主考官在评分过程中的随意性和主观性表现更为突出。

表一成对样本统计量

（二）考官问卷统计结果分析

针对考生的语言特征和非语言特征，考官在评分过程中会表现出一定的评分倾向性，其中，语言特征包括交际效果、内容和组织、语音语调、语法和词汇；非语言特征包括任务的完成情况、对考生的第一印象、考生的声音质量、考生的自信程度、考生间的交流等方面。

本研究在问卷设计上根据以上语言与非语言的各特征，并结合考官对评分过程的解释性说明。问卷统计结果如下：

表二考官问卷统计结果

根据对考官的问卷调查统计结果，笔者得出以下结论：

1. 从考官使用评分量表的情况看，即使是经验丰富的考官也不可能只注意考生的语言特征，而不被考生口语表达中各种各样的其他特征所影响，所有考官在评分过程中不仅使用了评分量表中的各项指标，而且也根据自身的经验融入了很多评分量表中没有涉及到的非语言特征。副考官的评分活动中 73% 的涉及给定的评分量表，而剩余的27% 则是依据自己的经验和喜好，即依据非语言特征进行评分。与副考官相比，主考官的更少地依赖评分量表，更多地使用非语言的特征为评分依据。

2. 在口语测试过程中，因为主考官与考生有语言交流，常常不自觉的使用积极性评论，更多地认可考生的表现，因此，主考官在评分过程中，表现的比副考官的评分员更为宽容，因此，主考官的评分均值高于副考官。

3. 在评分过程中，副考官更多地关注评分量表中的各项具体指标和标准，而主考官则更多地强调任务的完成情况和考生之间的比较和交流，以及考生的自信程度等非语言特征。

五、结论

从问卷调查的解释性说明中，我们可以看出考官重视口语可理解性和交际任务的完成，大部分考官认为口语的目的是交际，交际的功能的实现是通过信息的有效传递，那么，如果考生的口语能够让人听懂，即能够让人理解，也就很好地实现了口语的功能。而口语测试中，主副考官评分倾向性的差异也为口语测试形式和标准的完善提供了一定的依据，同时也有助于口试考官在测试中按照评分量表规范评分行为，尽可能减少不确定的主观因素影响，以期实现测试结果的公平性。

［1］Bachman， L. F. Fundamental Considerations in Language Testing［M］. Oxford: Oxford University Press，1990.7.

［2］Brown， G. & G. Yule. Teaching the Spoken Language［M］. Cambridge University Press，1983.102.

［3］李筱菊. 语言测试科学与艺术［ M ］ . 长沙: 湖南教育出版社，1997.

［4］Lazaraton， A. Interlocutor Support in Oral Proficiency Interviews: The case of CASE ［J］. Language Testing， 1996a. （13） : 151-172.

［5］O'Loughlin， K. The Impact of Gender in Oral Proficiency Testing ［J］. Language Testing， 2002 （19） : 169-192.