英语口语测试信度对比研究

2015-05-04刘卓瑛

张家口职业技术学院学报 2015年2期

关键词：口试考官效度

王珊，刘卓瑛

(1.海南师范大学外国语学院，海南海口 571158；2.张家口职业技术学院，河北张家口 075051)

英语口语测试信度对比研究

王珊1，刘卓瑛2

(1.海南师范大学外国语学院，海南海口 571158；2.张家口职业技术学院，河北张家口 075051)

通过对比计算机辅助口试和传统面试型口试在内容信度、实施信度和评分信度方面研究发现：在内容信度一致的情况下，计算机辅助口试的实施信度和评分信度明显高于面试型口试。机试两位评分老师的评分相关系数为0.889，高于口试0.762的相关。同时，问卷调查显示63.09%的学生认为口语机考不存在评分老师的印象分，因此更加公正。

计算机辅助口语机考；面试型口语考试；信度

1 引言

随着我国改革开放的不断深入，我们与国际社会在政治、经济、文化等领域进一步扩大交流，对能够娴熟使用外语进行口头交流的人才需求日益增加。因此，外语口语测试具有重大的实际意义。金艳(2000)指出口语测试对口语教学有极强的“指挥棒”作用，科学的口语能力测试能够推动口语教学向着正确的方向发展。蔡基刚(2005)更进一步指出大学英语四、六级口试不仅对大学英语教学产生影响，甚至对中、小学英语教学也起到指挥棒的作用。虽然大学英语四、六级考试委员会早在1999年就开始实行了四、六级口语考试，但是由于存在考试信度、效度、师资、时间、费用等诸多问题，大学英语口语测试一直难以大规模推广普及(周忠新，2007)。2005年2月，国家四、六级考试委员会在正式出台的《全国大学英语四、六级考试改革方案(试行)》中明确提出“将积极研究开发计算机口语测试，以进一步扩大口语考试规模”。计算机辅助英语口语测试能否在保证测试信度和效度的前提下使英语口试得以大规模的实施，并使口语测试的反拨作用得以充分发挥成为当今国内外语教学研究的热点之一。

2 口试信度和评分标准

信度表示口语测试结果的稳定性，即同一考生在不同测试条件下测试结果应当是一致的。测试的信度与效度之间存在着密切的关系，但是需要说明的是这种关系是单方向的。信度低则效度差，而效度差信度不一定低，即口语测试的高信度是高效度的保障(刘润清，1991：19)。口试信度主要包括内容信度、实施信度和评分信度。在外语口语测试中，评分信度一直受到研究者的密切关注。因为考官对评分误差的控制在很大程度上决定了口试的信度，误差越大，信度越低，反之亦然。实行多人对同一考生打分可以消除评分误差，提高口试信度。另外，口试信度还受到考官对评分标准的理解和把握。二语口语测试中常用的评分标准有三种：分析评分法(analytic scoring)、综合评分法(holistic scoring)和任务分项评分法(item analytic scoring)。第一种方法是指考官对考生的口语水平的不同维度进行评分，例如考生的语音、语法、流利程度等维度分项打分，然后依据各个分项得分算出总分。第二种评分方法是考官按照一定的评分准则根据自己对考生口语水平的总体印象进行打分。这种评分方式的特点是速度快，适用于大规模的口语考试。第三种评分方法是考官对考生完成每项任务完成情况进行打分，例如内容、语言表达等。总分根据每项任务完成的得分计算得出。吕长竑等(2008)比较研究了这三种口语测试常用的评分标准。他们发现分析评分法的效度和信度最高，但是要求授权考官必须经过严格的阅卷培训。就大学英语口语实施的实际情况而言，综合评分标准最符合这种大规模口试可操作性较强、效度和信度较高的评分要求。

3 口试形式

Clark(1975)最早将口语分为直接型口试和间接型口试。直接型口试又称面试型口试(Oral Proficiency Interview简称OPI)，具有较高的表面效度，可以较为真实地测试学生的交际能力，但评分信度通常较低。间接型口试也称录音考试(Simulated Oral Proficiency Interview简称SOPI)，利用磁带方式录音，实行评分和考试分开，因此信度高于面试型口试。国内金艳和郭杰克(2002)在探索磁带录音式口试时发现录音考试考官的评分相关为0.835，评分信度比较令人满意。随着科技的不断进步，口语考试形式现在正在向计算机辅助口试(Computer-based Oral Proficiency Test 简称COPT)方向发展。COPT通过计算机来提供声音、图像及视频，让考生按照指令回答问题，考试结束后计算机自动记录并存储考生回答，考官则根据所录音频或录像来给予评分。蔡基刚(2005)研究结果表明计算机口试无论在效度和信度方面都超过四、六级面试型口试；在考试成本上也有较大的降低。

本文主要通过对比面试型口试与计算机辅助机试两种测试方式在内容信度、实施信度和评分信度的差异，研究后者能否取代前者的可行性，为实现大规模英语口试提供实证研究依据。

4 研究结果与分析

本研究的对象是海南师范大学二年级非英语专业学生和参加评分的老师。考生熟悉传统的面对面型口语测试方式和计算机辅助机试，本次口语考试成绩将计入期末总评成绩，因此考生十分重视本次口试。

4.1 内容信度

考试内容的长度、难度与区分度是影响内容信度的三个因素(Bachman,1999)。从理论上说，测试内容覆盖面越广，时间长度越长，测试信度越高。本次期末口语考试的题型为回答问题，测试内容是视听课堂所学过的知识，试题题库于考前一周公布，要求学生对每个问题做好充分的准备，考试时随机发放试题。这样避免了考生对某一考题准备充分得高分而对另一话题没准备而得分的情况，从而提高了口语测试的内容信度。考生首先在语音实验室参加机试，录音由外教社大学英语口语考试系统自动收取并存储，教师给音频录音评分。考试结束两天后，我们从参加机考的全年级中随机抽取了一个班41名考生使用传统的面对面考试形式对他们再次进行了口语测试，题型和考题内容不变，考生采用抽签的方式进行传统的面试型口试。因此，两种口试的内容信度是一致的。

4.2 实施信度

所谓实施信度是指测试准备和过程的可靠性。蔡基刚(2005)在分析考试条件时指出，面试型口试的实施信度依赖于考官现场的诸如语音、语调、语速、精神状态等可变因素。如果考官语速过快、口气过硬和发音模糊都会影响到考生口语水平的发挥。在本次研究中，问卷调查结果表明有58.35%的考生表示在面试型口试中会因为听不懂指令而不知道说什么。而只有3%的考生认为口语机考的指导信息和提示信息不清楚。在面试型口试过程中，考官容易对讲得流利的考生更加宽容而对讲得结结巴巴的考生耐心欠佳而出现对口试规定时间任意地延长或缩短。但是在计算机口试中则不会出现这种情况，因为考试时间会在电脑屏幕上自动显示，考试同时开始进行和结束。这样每一位考生的考试时间都得到保证从而提高了考试的实施信度。

4.3 评分信度

评分信度取决于评分标准、评分依据和评分者。在本研究中，计算机口试和面试型口试均采用了既符合期末大规模考试要求、信度和效度又较高的综合评分法(吕长竑，2008)。两组参加评分的老师均已从事大学英语教学十年以上，拥有研究生学历。唯一的差别是评分依据不同：面试型口试的两位评分老师现场同时给一位考生打分；机考两位评分老师拿到学生录音材料后分别在各自的电脑上阅卷。如表1，表2所示，计算机口试的评分信度明显高于传统的面试型口试。

表1：面试型口试两位老师评分相关性

**. 在 .01 水平(双侧)上显著相关。

表2：计算机口试两位老师评分相关性

**. 在 .01 水平(双侧)上显著相关。

表1和表2显示面试型口试两位老师评分的相关是0.762；计算机口试两位老师评分的相关是0.889，高于面试型评分。虽然两组老师使用的都是综合评分法，但是机考评分老师的评分信度比较令人满意。学生在面对面口试时容易紧张，评分老师长时间的评分工作易引起疲倦，这都会影响到考试的效度和信度。相对于教师和学生面对面的口语测试，计算机辅助口试可以使考生口语水平的发挥不受考官情绪的影响；评分可由教师在方便的时间和舒适的地方进行；相同的考题使测试信度得到保证。这一研究结果与学生调查问卷中的一项调查结果相吻合。如表3所示，63.09%的学生认为机考的评分更加公正。

表3：口语机考不存在考官对考生的印象分，因此更公正

4.4 面试、机试成绩描述统计量

本次期末大学英语口语考试总分为100分，如表4所示，考生的机试平均分74.15分，略高于面试平均分，说明学生对课堂学习的知识掌握较好。对于满分100分的考试而言，机试标准差8.49很小，面试标准差9.68高于机试。这说明学生机试的表现比面试相近。面试的各项成绩低于机试可能是由于学生面对考官时的紧张和焦虑造成的。调查问卷显示，56.7%的受试者认为在面试型口试中感到紧张和焦虑。

表4：面试、机试描述统计量

5 结语

综上所述，计算机口试无论在内容、实施和评分方面都具有较高的信度。且在内容信度一致的情况下，机试的实施信度和评分信度都高于传统的面试型口试。计算机口试科学合理的评分是确保考试信度和效度的关键,计算机辅助口语测试是一种较为理想的口语测试手段，评分结果令人满意。但是如果计算机辅助口语测试采用综合法和分析法相结合来评分是否会取得更高的信度呢？例如，剑桥大学考试委员会的口语测试就是运用综合/分析法评分；国内大学英语四、六级口试 ( CET - SET )也是采用分析性的综合评分法。杨惠中(1999)认为该评分方法科学、客观, 而且有很强的可操作性。另外，评分员自身必须加强语言测试理论的学习和研究，培训环节是必不可少的。

[1]教育部高等教育司. 大学英语课程教学要求(试行)[Z].上海: 外语教育出版社,2004.

[2]考委会. 全国大学英语四、六级考试改革方案(试行)[Z].大学外语教学通讯，2005，(1).

[3]蔡基刚. 大学英语四、六级计算机口语测试效度、信度和可操作性研究[J]．外语界，2005，(4)：66 -75．

[4]金艳. 大学英语四、六级考试口语考试对教学的反拨作用[J].外语界,2000,(4).

[5]金艳，郭杰克. 大学英语四、六级考试非面试型考试效度研究[J].外语界，2002，(5): 72-79.

[6]刘润清. 语言测试和它的方法[M]. 北京：外语教学与研究出版社，1991.

[7]吕长竑，宋冰，王焰，刘文丽，黎斌. 口语测试评分标准比较研究[J].外语教学与研究，2008，(6)：440-446.

[8]杨惠中. 大学英语口语考试设计原则[J].外语界,1999,(3): 48-57.

[9]周忠新.大学英语大规模口语测试的探讨研究[J]. 教学研究, 2007, ( 1) : 44-48.

[10]Bachman, L. F. Fundamental Considerations in Language Testing[M]. 上海：上海外语教育出版社，1999.

[11]Clark J L. Theoretical and technical considerations in oral proficiency test[A]. In Randall L J, Spolsky B (Ed). Testing Language Proficiency[C]. Virginia: Centre for Applied Linguistics, 1975.

A Comparative Study of the Reliability of Oral Proficiency Test

WANG Shan1，LIU Zhuo-ying2

(1.School of Foreign Languages Study, Hainan Normal University, Haikou, Hainan 571158;2. Zhangjiakou Vocational and Technical College, Zhangjiakou, Hebei 075051)

When examining the inter-reliability of the Computer-based Oral Proficiency Test (COPT) and Oral Proficiency Test (OPT), the findings show that inter-reliability of COPT is higher than that of OPT in terms of implementing and rating when contents of both tests are equal. The findings also show that the inter-reliability of raters of COPT obtains a correlation of 0.889, higher than that of OPT, 0.762, which coincides with the results of a survey conducted to the students, in which 63.09% of them hold the belief that rating of COPT is more reliable than that of OPT. The research proves the higher reliability of COPT.

OPI; COPT, reliability

2015-03-21

王珊(1978-)，女，海南海口人，讲师，硕士。研究方向：英语语言教学和测试。

本文为2011年度海南省高校大学英语教改项目“计算机辅助英语口语测试的实效性研究”(项目编号：Hyjg2011-7)的研究成果。

H319

1008-8156(2015)02-0055-03

修回日期：2015-05-05