APP下载

机助口试和传统面试的对比研究

2015-07-06孙海洋

中国考试 2015年8期
关键词:口试效度信度

孙海洋 刘 彬

1 研究背景

近年来随着信息化手段的广泛应用,计算机辅助口语考试已成为很多学校和考试机构尝试的新型考试形式,随之而来的研究也不断深入,呈上升趋势。

口语测试分为直接型和半直接型(semi-direct oral test)(Clark,1975):前者的典型形式就是面试型口试(oral proficiency interview),由受过培训的考官主持并当场评分,内容包括对话、讨论和角色表演等;半直接型口试即考生和考官之间没有面对面的交流,利用统一的录音、视频或者书面材料获取考生的口语表达样本,并进行即时录音,考试结束后评分员根据考试录音评分,主要包括录音口试(tape-mediated oral test,又叫模拟面试simulated oral proficiency interview)和机助口试(computer-assisted oral test)两种形式。直接型口试的最大优点是能够让考生与考官之间、考生之间开展互动交流,因而具有真实性。

以往的研究结果表明,直接型面试可以较为真实地测试考生的交际能力,但其评分信度比较低(Shohamy et al.,1986);而且无法满足大规模口语测试的需要。而半直接型口试缺乏交互性,不够真实,但由于实行评分和考试相分离,避免了面试中考官的情绪或其他突发事件等可变因素影响考生发挥,因此其信度往往高于直接型口试。而对于录音口试和机助口试这两种半直接型口试形式,后者充分利用了现代计算机技术,操作方便且能更好地模拟真实生活中的交际情境,不仅能很好地满足高校大规模口语测试的需求,同时又可以避免录音设备易出故障的问题,因此受到越来越多的重视。

笔者所在学校长期以来一直采用直接型面试口试形式,为了解决面试口试存在的问题,实行考评分离,降低考试成本,我们决定探索计算机辅助口试的信度和效度,为大规模口语测试提供可行性依据和支持。

2 文献综述

国外的大型机助口语考试很多,例如美国圣地亚哥大学开发的D-VOCI(Digital Video Oral Communication Interview),美国应用语言学研究中心开发的COPI(Computerized Oral Proficiency Instrument)(蔡基刚,2005;Malabonga,Kenyon&Carpenter,2005),托福考试也于2005年在全球开始实施基于计算机的网络化口语考试,将听与说,读与说结合在一起测试(李玉平,2009)。

国内目前已经投入使用或者正在开发的机助口语测试有上海市和广东省的高考和中考英语口试(王保云,2006),复旦大学的听说机考尝试(邱东林等,2005),大学英语四、六级计算机口语测试(蔡基刚,2005),英语专业四级机辅口试(文秋芳、赵学熙,1998)等。以往这些机助口试的内容、任务类型以及所测能力如表1所示。

在大学英语四、六级机考口试全面推出之后,与之相关的研究也如雨后春笋般大量涌现。主要有效度、信度、公正性、可操作性、可推广性、反驳作用等方面的研究。对比传统面试和机助口试形式的研究包括以下几项:尹楠等(2010)采用定性和定量相结合的方法对比了两种口试形式对考生口语流利性的影响,发现在非互动的口语任务中学生在机考状态下表达更流畅一些,而在如讨论、辩论等的互动任务中,学生错误更多,语速较慢;蔡基刚(2005)对比了学生在两种口试形式下的成绩,发现机助口试的信度和效度都要高于传统面试,而且考试成本有显著的降低。高丙梁(2007)的研究对比了3个班学生两次机助口试和一次面试成绩,通过学生的调查问卷认为机助口试是一种有效的测试形式,能反映学生的真实水平。

综上所述,有关机助口试的实践和研究在我国已经全面展开,然而从测试学角度比较两种考试形式对考生成绩影响的实证研究并不多。本研究拟采用测试学的方法探究两种考试形式的信度和效度,并对学生在两种考试形式中所取得的成绩进行比较,通过实证的方法来验证机助口试是否能取代传统面试。

3 研究设计及方法

3.1 研究目的和问题

本研究旨在对比学生在面试和机试两种考试形式中口语成绩的差异,比较两种考试的信度和效度,为开展计算机辅助口试提供实证依据。具体研究问题有3个:(1)两种考试形式下学生在每项任务的考试成绩是否有显著差异?(2)哪种考试形式的信度更高?(3)哪种考试形式的效度更高?

3.2 被试

采取学生自愿报名的原则,报名学生有40余人,最终参加两次测试的只剩30位研一学生。这些学生参加了笔者所在学校的入学分级考试,考试成绩均在60分以上。

表1 以往机助口试的考试任务类型及语言功能

3.3 考试任务

研究者前期对所在系的老师和在校硕士生进行了一个小型调查,了解学生在将来的学习和工作中需要使用英语的任务类型。根据调查结果,经研究组成员最后协商确定,硕士生口试机考任务包括朗读,描述图片,提问和口头作文4项。其中朗读、描述图片及口头作文是常见的考试任务类型。之所以将提问纳入考查范畴有两个原因:第一是由于我们有相当一部分学生在上学期间或者以后的科研工作中要参加国际会议,而国际会议上作为参会听众的提问和作为发言人对于听众所提问题的确认,是学生应该具备的一项技能;第二是被调查老师们反映,学生们在课堂上问老师问题时往往只重视关键词和要表达的意思(focus on meaning),而忽视了问题的语法准确性,这样往往问出的问题不清楚、不准确,别人也不知所云。为此,我们设定机试的提问任务为学生根据所听材料提3个问题:两个细节理解问题(local question),1个整体理解问题(global question)或 引 申 问 题(implication question)。为了体现出面试的互动性,提问任务其实是一个情景对话(Stansfield,C,W.&D.M.Kenyon,1992),要求考生在给定情景中问考官问题以达成目的。

研究者从项目组成员所提供的每项任务中抽选一个考试任务,准备考试指令录音并将其拷贝到蓝鸽平台的考试电脑程序中,预留出考生准备及答题时间,生成自动考试程序。由于机试和面试都是同一批学生,我们在面试和机试中采用了两套内容不同但难度相当的任务。

3.4 考试过程及评分

机考在机房进行。在正式考试任务之前有5个热身问题,考生边听指令录音边按照要求回答问题,指令及准备和答题时间共20分钟左右。系统自动对学生的回答录音,打包拷贝录音供评分。两位老师分别评分。面试有两位考官,一位负责跟学生交流,两人单独评分。每位学生考试时间15分钟左右。

两次考试的评分均采用整体评分的方法,评分老师按照0~6的等级对考生在每个任务的表现打整体分。朗读评分综合考虑语音语调,语速和节奏,流利性和连贯性;提问评分综合考虑问题的适切性、准确性和表达的流利性;而描述图片和口头作文综合考虑语言运用的准确性、表达的连贯性和任务完成情况。

3.5 数据分析方法

首先采用SPSS对比了两种口试形式中学生成绩的差异,然后用FACETS对学生在两次考试中各项任务的成绩进行多侧面Rasch模型分析,考查两种考试形式下各项任务的信度和效度。

4 研究结果

4.1 考试成绩对比分析

配对样本t检验结果(见表2)显示,学生在两种考试形式中的朗读成绩没有显著差异(p>0.05),这表明用机试来考查朗读能力没有问题。而学生图片描述和提问的面试成绩显著高于机试成绩,这可能是由于学生刚开始面对机器还不太适应,但是在面试中考官会给学生各种提示,引导学生产出更多的句子。口头作文成绩是机试显著高于面试,这完全出乎我们的意料之外。可能原因是学生在机试环境中更放松,表达更自如。

表2 两种口试形式各任务成绩的配对样本t检验

4.2 信度和效度分析

FACETS分析结果显示,机试的分隔指数和信度指数均高于面试(见表3),这表明,相比较面试而言,机试更能将不同能力的学生区分开来。

表4是两种考试形式下各任务侧面的FACETS统计量对比。面试结果显示,朗读最简单(难易度指数为-0.69),学生该任务得分最高,口头作文最难(难易度指数为0.40),学生得分最低;机试结果中同样是朗读最容易(难易度指数为-1.41),但提问最难(难易度指数为2.38)。面试提问任务的加权均方拟合值为1.24,不在0.8~1.2的合理范围之内,此任务效度较低,不能很好地区分考生的语言能力。此外,面试中朗读任务的加权均方拟合值(1.20)亦在不合理范围的边缘,表明此任务的效度和区分度不够好,不能很好的区分学生的能力高低。而机试中所有任务的加权均方拟合值均在可接受范围之内。

从评分员侧面的统计数据来看(见表5),机试和面试的四位评分员评分一致性总体来说比较好,除了面试的1号评分员打分比较集中外(加权均方拟合值为0.73),其他3位评分员的评分加权均方拟合值均在正常指标范围内(0.8~1.2)。但是4位评分员的严厉度还是有显著差异的(分隔指数信度为0.90,固定卡方值在0.01水平显著)。

表3 两种考试形式的个人分隔指数和信度指数对比

表4 两种考试形式各任务侧面统计量对比

表5 两种考试形式评分员侧面统计量对比

5 讨论

相对而言,机试的信度高于面试(信度指数0.90>0.69),机试更能将不同能力的学生区分开来。这可能是由于面试中的朗读和提问任务效度不高而引起(加权均方拟合值不在正常指标范围)。尽管面试中的一位评分员打分相对比较集中,但考生在朗读和提问两项任务的分数变异太大,尤其是提问,能力高的考生在这两项任务反而得了低分,反之亦然。但两种形式下的学生朗读成绩的平均分并无显著差异,究其原因,面试中的朗读除了考试指令外再无别的提示,没有考官和考生的互动,考生只是被动地朗读所给材料,和机试的情况无差异。即使朗读任务不能很好地区分不同口语能力的考生,它也往往是口语考试必不可少的一部分。这是对考生语音语调的基本要求,目的不是区分考生能力,而是看考生是否达到要求。从性质上说,朗读这个考试任务是典型的标准参照考试任务,考生达到一定标准即可,而不是非要将学生的能力按高低排名。这也与我们的考试目标吻合:我们的目标是考查非英语专业硕士生的口语水平,看他们是否达到了大纲所规定和要求的程度,语音语调是最基本的要求之一。

面试中的提问任务效度不好,而这个任务却是所有任务中考官与考生互动最多的一个。面试中的提问是考官先给一个有关旅游的话题,让考生问问题,考官来做简短的回答,考生再根据回答继续提问。而机试中的提问只是让考生就所听讲座录音提出3个问题,评分老师根据问题的准确性和与讲座内容的相关性来给分。试后对学生访谈了解到,在他们的学习生活中提问的机会比较少,这些研一的学生很少有人参加过国际会议,往往是被问,因此他们还不太习惯提问这种考试任务。而在面试中,由于与面试官有互动,有些其他任务发挥不太好的学生反而取得了较好的成绩,造成了这个任务的效度较低。

从时间成本上来讲,机试节省了施考和评分的时间,有利于大规模口试的开展。过去笔者所在的学校对硕士生口语水平的考查只是基于任课教师课堂测试,形式单一,由于在短时间内要考查多个人,只能采用两人对话的形式,无法全面考查学生的口语能力。机助口试的实施不仅会有效地提高测试的效率,信度和效度,而且会促进学生对于口语水平的重视,提高口语表达能力,是对以学习为导向的测试的理念(Learning-Oriented test,Saville,2013)的最好阐释。

6 结语

基于以上的分析和讨论,本研究发现机试的信度高于面试;学生在机试中有两项任务的成绩显著地低于面试,分别是图片描述和提问,而机试中的口头陈述这项任务的成绩显著地高于面试。这些结果表明口试形式的变化对考试结果造成了一定的影响。但多侧面Rasch测量分析显示,面试任务本身也存在问题,效度不高,同样的任务,通过机试的形式反而提高了效度和信度。由此可见,在测试学生非互动性口语能力时,机试完全可以取代面试作为大规模口语考试的形式。

[1] Clark,J.L.Theoretical and technical considerations in oral proficiency test.In Randall L.J.&Spolsky,B(Eds.),Testing Language Proficiency[M].Virginia:Center for Applied Linguistics.1975:10-28.

[2] Malabonga,V.,Kenyon,D.M.&Carpenter,H.Self-assessment,preparation and response time on a computerized oral proficiency test[M].Language Testing,2005,22(1):59-92.

[3] Saville,N.A systematic view of language assessment[C].Keynote speech given at Perspectives on language learning,teaching and assessment in China conference,2013.

[4] Shohamy,E.,Reves,T.&Bejerano,Y.Introducing a new comprehensive test of oral proficiency[J].English Language Teaching Journal,1986,40:212-220.

[5] Stansfield,C,W.&D.M.Kenyon.The development and validation of a simulated oral proficiency interview[J].The Modern Language Journal,1992,76(2):129-141.

[6] 蔡基刚.大学英语四、六级计算机口语测试效度、信度和可操作性研究[J].外语界,2005(4):66-75.

[7] 高丙梁.计算机口试与面试的比较研究[J].外语电话教学,2007(2):73-75.

[8] 李玉平.大规模计算机辅助英语口语测试效果实证研究[J].外语界,2009(4):69-76.

[9] 尹楠,郑玉荣,王丽丽,辛丹.机辅与面试对口语流利性影响的对比研究[J].外语与外语教学,2010(3):25-29.

[10] 邱东林,季配英,万江波,程寅.大学英语听说机考尝试[J].外语界,2005(4):76-79.

[11] 王保云.外语口试的形式评析[J].外语电化教学,2006(2):60-64.

[12] 文秋芳,赵学熙.全国英语四级录音口试评分的实践与研究[J].解放军外国语学院学报,1998(2):52-55.

猜你喜欢

口试效度信度
效度验证模式系统整合与效度研究发展策略
《广东地区儿童中医体质辨识量表》的信度和效度研究
作为数学教育研究质量分析的信度
我省将于7月25日前公布高考成绩及录取分数线
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
平衡损失函数下具有时间效应和通胀因子的信度估计
中文版脑性瘫痪儿童生活质量问卷的信度
BEC加试:口试成了成败关键
复杂图形测验对区分阿尔茨海默病与非痴呆的诊断效度
什么是口试