APP下载

基于内容证据的PETS-4口试效度研究

2015-12-14高怀勇刘锋戢焕奇

山东外语教学 2015年3期
关键词:口试效度

高怀勇,刘锋,戢焕奇

(四川农业大学文法学院,四川雅安 625014)

基于内容证据的PETS-4口试效度研究

高怀勇,刘锋,戢焕奇

(四川农业大学文法学院,四川雅安 625014)

本研究依据语言测试效度理论,通过检查表、问卷调查和访谈方法收集“内容相关与内容覆盖”、“测试任务特征”和“测试实施环境特征”等口试的“内容证据”,检验了2013年9月PETS-4口试的效度。研究结果表明:1)PETS-4口试任务内容相关和内容覆盖恰当,符合预设的考查内容与目标;2)PETS-4口试任务特征和实施环境特征有利于拟测构念的表现,具体表现为:(1)口试任务充分体现了测试设计者预设的“交际模式”、“交际功能”、“口试渠道”和“真实性”等口试特征,考官语言输出用语严格一致;(2)测试场景、施测程序符合测试整体要求。上述证据综合表明2013年9月的PETS-4口试在内容证据方面具有较高的效度。[关键词]全国公共英语等级考试;口试;效度;内容证据

1.0 引言

作为行为测试(performance testing)之一的英语口语测试历来为研究者所关注,如:口试研究综述(杨莉芳,2006;王保云,2006;邹琼,2007;吕长宏等,2008),CET口试效度研究(金艳、郭杰克,2002),TEM口试效度研究(王海贞,2007;黄永红,2006)。PETS(全国公共英语等级考试)是教育部考试中心设计并组织实施的全国性标准化英语考试,在我国有很强的影响力,其口试研究亦受到学界广泛关注。纵观目前国内PETS口试研究,虽然在口试特点与交际特征(李洁平,2004;庞继贤、潘文红,2007;肖德法、向平,2004)、口试体系设计及其特色(刘庆思,2008;金启军等,2002)、口试与口语教学之关系(向平、肖德法,2003)、口试评分信度(向平,2003)等方面有广度和深度的发展,但就PETS口试效度研究而言,相关研究缺乏。虽然高怀勇等(2011,2014)探讨过PETS口试效度,但其研究仅限于评分过程、试题内部结构分析和测试后效研究。作为大规模、高风险测试之一的PETS口试,对其效度的考查不可依赖单一证据,有必要从不同角度收集证据来考察其准确性与科学性。国外虽然有学者用检查表法(observation checklist)(如O’Sullivan et al.,2002)和会话分析法(如Lazaraton,2000)从内容证据视角检验过英语口试的效度,但其研究对象为剑桥大学考试委员(UCLES)编制的英语口试系统,PETS口试在内容证据方面效度如何,有待进一步验证。基于此,本研究依据语言测试效度理论,采用检查表(checklist)、问卷调查和访谈方法从以下三方面收集“内容证据”来检验PETS-4口试的效度:1)内容相关和内容覆盖;2)口试任务特征;3)口试实施环境特征。

2.0 效度理论框架

要谈测试,必须从测试效度的涵义开始。效度是“测量工具确能测出其所要测量特质的程度”(杨惠中&Weir,1998:1),即测试的准确性和有效性。Messick(1989:7)将效度的涵义界定为“证据和理论依据支持基于测试分数或其它评估方式所做出的推断或采取的行动的程度”。效度是决定语言测试与评价质量的关键(Alderson et al.,1995;Bachman,1990;Messick,1989;Weir,2005),是科学的测量工具所必须具备的最重要的条件之一。自20世纪60年代以来,效度问题成为“语言测试国际研讨会的一个永恒话题,并将一如既往”(Bachman,2000: 22)。20世纪90年代后,效度被普遍认为是一个整体概念 (Messick,1989;Bachman,1990; Cronbach,1988;Anastasi,1988;Weir,2005),该效度框架下的基本观点有:1)效度是一个整体概论,构念效度是其核心,传统上不同的效度种类是构念效度的不同证据来源;2)效验即举证,效度验证过程是所有测试使用者举证说明其合理性的过程。

测试界对效验证据的讨论由来已久,如Bachmann(1990)认为,效验证据应包含:内容相关与覆盖、效标关联性、测试公平性。美国心理学会(APA 1999)则认为效验证据来源有五类:测试内容、反应过程、内部结构、与其他变量关系和测试后效。在此基础上,Weir(2005)和Shaw&Weir(2007)从实践操作的角度对效度证据进行了梳理,他们认为效验证据有以下五方面:1)理论证据或认知效度;2)内容证据或环境效度;3)评分证据;4)测试后效证据;5)效标关联证据。其中“内容证据”是“影响交际语言测试质量的决定性因素”(Douglas,2000)。Bachman将内容证据分为“内容相关”、“内容覆盖”和“测试方法”(method facets)三方面。内容相关指“对相关测试的表现行为(即相关能力)与相应任务的具体明细或说明”(1990:244)。具体来说,内容相关包括:1)对拟测能力理论构念的阐述与界定;2)对拟测能力所涉及的相应任务和指标的详细说明。内容覆盖指“测试任务能代表所测能力各方面的程度”(Messick,1989:

10)。也就是说,内容相关与测试设计者对拟测能力构念与测试任务的界定与详细指标说明有关,内容覆盖与测试任务代表拟测能力的程度有关。换言之,对内容相关和内容覆盖的考察可以通过对比考试设计者对拟测构念和考试内容的具体要求与考试相关者(考官与考生)和测试专家对该考试的认识而获得。Bachman虽然提出了“测试方法”维度,却没有提出具体的操作方法。鉴于此,Weir对测试方法进行了细化,他认为“一项测试中所选择的任务……与任务本身对语言和应试者的能力要求有关,也与任务本身和任务实施环境所要求的条件有关”(2005:19)。也就是说,内容证据除了应该考察测试所要测量能力的详细指标(即内容相关)和测试任务的代表性(即内容覆盖)外,还应包括“测试任务特征“和“测试实施环境特征”。在讨论口试效度验证时,Weir将口试“任务特征”分为“语言输入与输出”和交谈考官(interlocutor)两个方面。前者主要考量口试参与者在口试过程中的语言“交际模式”、“交际功能”、“口试渠道”(即测试口试的方式)和“真实性”四个方面(Weir,2005:46)。后者主要考查考官的语言输出。“实施环境特征”是“测试环境接近真实语言使用环境的程度”(O’Sullivan et al.,2002:33-56),即测试物质环境应符合测试要求,操作程序应一致(李清华,2007)。正是为了突出语言使用的社会性,Weir才强调收集“任务特征”和“实施环境特征”的重要性,因为语言测试过程不是发生在真空中,只有了解测试任务特征和真实的语言使用环境,我们才有可能使语言测试任务尽可能复制(模拟)这种过程,从而反映受试使用语言的真实能力(李清华,2007)。

图1 口语测试“内容证据”考查示意图

上述理论探讨促进了人们对测试内容证据机理的认识,但是作为有影响的大规模测试之一的PETS口试,对其测试内容方面的效度考查不可依赖主观想象简单推测。有必要在具体的社会环境下进行实证研究。基于此,本研究拟考查PETS口试相关人员(考试中的考官与考生)和测试专家对该测试的认识在多大程度上与测试设计者的预设目标相一致,其操作机理如图1所示。

3.0 研究设计

3.1 研究问题

本研究拟回答以下两个问题:

1)PETS-4口试任务“内容相关和内容覆盖”是否符合预设的考查内容与目标?具体要回答的问题是:(1)PETS-4口试测试任务是否考查了拟测构念的详细指标?(2)PETS-4口试测试任务能否充分代表拟测构念?

2)PETS-4口试任务特征和实施环境特征是否有利于应测构念的表现?具体要回答的问题是:(1)PETS-4测试任务是否充分体现测试设计者预设的特征?(2)interlocutor的语言输出是否有利于拟测构念的表现?(3)PETS-4测试物质环境与操作程序是否有利于拟测构念的表现?

3.2 研究对象

参加本研究检查表调查的对象为13位国内语言测试专家(2位为博导,11位为博士或博士后研究人员)。参加本研究问卷调查的对象有:1)参加先导性实验的60名四川某高职院校考生(均参加了2012年9月PETS-4口试);2)川、陕两地参加2013年9月PETS-4口试的考生461人,考官38人(其中30人为英语口语教师,8人为专业从事语言测试的教育行政人员)。参加本研究访谈的对象为参加上述问卷调查的10位考官(7位英语口语教师和3位教育行政人员)和20名考生。

3.3 研究工具

本研究根据《PETS考试指南》下称《指南》),对口语能力的界定及考试内容的要求并结合O’Sullivan(2002)的口试内容证据特征量表设计了PETS-4口试内容证据调查问卷,访谈提纲和检查表。在进行正式研究之前,本研究进行了先导性实验,目的在于确定问卷的信度与结构效度。根据第一次先导性实验(30名受试)结果,研究者对问卷进行了修改(如拆分、合并部分问卷题目;避免使用生僻术语,必要时在问卷中进行特别说明、解释,以避免调查对象不理解问卷内容)。并进行第二次先导性实验(另30名受试),通过SPSS16.0对实验结果进行因子分析和信度分析,结果见表1和图2。从表1和图2可见:问卷中的27个问题包含3个维度(因子),第一个维度为问题1-12,调查有关PETS-4“内容相关与内容覆盖”,其信度为0.816;第二个维度为问题13-25,调查PETS-4“口试任务特征”,其信度为0.848;第三个维度为问题26-27,考察PET-4“实施环境特征”,其信度为0.864。整个问卷的内部一致性系数为R=0.92。访谈提纲包括有关内容证据三个方面的六个问题。检查表是用专业术语对问卷的提炼,与问卷内容一致。

表1 内容证据调查问卷结构、因子分析与信度分析表

图2 调查问卷因子结构图

3.4 研究步骤与数据收集

征得考场同意,研究者对4个考室进行口试过程全程录像,并随机选择了8组考生(每个考室4人,共16人)的录像文件作为测试专家在检查表上评判的依据(观看视频录像后作出选择)。录像内容随同检查表及PETS-4口试试卷(见附录4)一同通过电子邮件发给13位专家。检查表在两个月内完成。问卷调查在口试结束后进行,时间约20分钟。为避免问卷调查本身的局限性,本研究于问卷调查结束后对10位口试考官和20名学生进行访谈。对考官的访谈采用半开放一对一式访谈(semi-structured),时间为15分钟/人。对学生的访谈以5人/组/15分钟的形式进行。检查表和调查问卷采用利克特五级量表。调查对象在量表上的选择表明他们对选项的态度:1=完全不同意;2=不同意;3=不知道;4=同意;5=完全同意。分数的高低代表同意的程度。本研究发出检查表13份,问卷499份,收回有效检查表11份,问卷442份。我们对访谈内容进行录音和文字转换以备后用。

4.0 结果与讨论

调查统计结果显示(见表2),测试专家、考生和考官普遍认为PETS-4口试在内容证据方面有较高效度:92.63%的考官和考生(下称受试)和87.12%的专家认为PETS-4口试测试任务考查了拟测构念的详细指标,充分代表了拟测构念;92.09%的受试和96.03%的专家赞成PETS-4测试任务充分体现了测试设计者预设的特征,考官语言输出用语严格一致,有利于拟测构念的表现;88.47%的受试和84.24%的专家赞成PETS-4测试物质环境与操作程序均有利于拟测构念的表现。为使我们收集的证据有说服力,下面我们结合问卷结果和访谈结果进一步分析讨论“内容相关和内容覆盖”、“口试任务特征”和“实施环境特征”证据。

4.1 内容相关和内容覆盖

问卷中有关“内容相关与内容覆盖”的问题(1-12题)是根据《指南》对口语能力的界定及考试内容的要求而进行设计的。《指南》中详细界定了PETS-4口试的拟测构念及其详细指标,并对PETS-4口试测试内容有较清晰的界定与阐述(2003:22)。将《指南》对考试构念和内容的要求与考试相关者(考官与考生)以及测试专家对该考试的认识进行比对,我们可以检验PETS-4口试“内容相关与内容覆盖”是否达到了《指南》的总体设计目标。如果施测任务与《指南》要求一致,我们就得到了内容相关和覆盖的一个证据(McNamara,2006)。从表2

可见,87.12%的专家和92.63%的受试赞成PETS-4口试测试任务考查了《指南》拟测的口语能力及其详细指标,充分代表了拟测的口语能力(M分别为3.656和4.194)。这一结论也在访谈中得到了印证,大多数访谈者(如I5,I13,I16,I22)①均认为PETS-4考查了“英语口语的各方面能力,任务覆盖面广,很全面,类型众多……要求层次不一”。因此PETS-4各项测试任务都满足了《指南》对口语能力的要求和覆盖范围。因此我们得出结论:PETS-4口试任务“内容相关和内容覆盖”符合预设的考查内容与目标。

表2 调查问卷结果统计(N=463)

4.2 口试任务特征

4.2.1 交际模式

口试中诱导出的话语功能和交互性受不同交际模式的影响(Lier,1989)。口试的交互性程度“取决于所采用的交际模式,如讲座、面试、对话等”(Weir,2005:71)。对话是比较理想的交际模式,原因在于在该交际模式下,交际双方同等拥有话语权和交际责任,而不是由考官独自控制话语权,承担交际责任(同上)。因此,“一项有效度的口试必须包含交互性”(同上: 72)。从表2可见,所有专家和98.75%的受试赞成PETS-4口试的交际模式主要是强调交际的“互动性”与“责任”的面对面对话模式(第13题)。综合起来,访谈者认为面对面对话模式有利于体现口试的互动性(I23,I26)。测试题目的设定方便考生参与到交际中去,彼此应答,接替话轮,共同承担交际责任、构建对话、完成言语交际任务,实现口语交际的“社会性”(Luoma,2004:20)。考官I28认为:“有信息差的试题设计使得听话者必须根据讲话者的内容组织语言,讲话者必须根据听话者的反应调节自己的词汇和信息,因为对话双方持有的信息不均等,需要进行真实的交际沟通。所有的交际都是以信息沟通为出发点,而不是以语言形式为出发点,信息的获取和信息的表达都是在参与交际的各方之间互动完成。这与传统的口语考试中考官提问考生回答截然不同”。

4.2.2 交际功能

口试中的“交际功能”(即话语的illocutionary force)是口语测试与评估中重要的考量因素(ETS 2001)。根据欧盟2001年制定的《欧洲语言通用参照框架》,交际功能可以分为两类:宏观功能和微观功能(Luoma,2004)。前者指使用语块描述、叙述、评价、解释等;后者指实施请求、道歉、邀请、劝说、建议等具体语言行为。口语任务应该考查这两方面的能力(O’Sullivan et al.,2002)。由表2可见,分别有83.76%受试和84.25%的专家认为PETS-4有效考查了语言的交际功能,具体情况见表3。结合访谈内容,访谈者I1,I26,I29认为PETS-4通过询问考生有关生活、工作、学习等方面的问题考查考生问候、打招呼、道歉、致谢等微观功能。而访谈者I28,I29,I30则认为利用有信息差的图片PETS-4考查了描述、叙述、评价、解释等宏观功能。PETS-4可以说是综合考查语言宏观功能和微观功能的测试模式典范之一。

4.2.3 口试渠道

“口试渠道”指通过什么方式来测试,是面对面谈话、电话谈话、看图说话还是独白等。测试方式不一样,诱导出的语言产出会有差别(Weir,2005)。表2显示,所有专家和94.96%的受试赞成PETS-4口试以面对面对话方式为口试渠道。一接受访谈的考官(I21)以一项测试任务为例说明PETS-4口试的测试渠道:考官分别给两考生具体内容不同但都是关于“野外生存”的图片,要求考生进行交互描述,告诉对方自己图片的内容(如,一考生持有图片显示野外生存需要“火柴、帐篷,电话”等工具,而另一考生持有的图片显示野外生存需要“手电筒、指南针、药品、水”等必须品,考生需要就图片信息进行描述、沟通),在沟通的基础上,考生相互讨论、协商并决定野外生存需要带哪些物品,并说明选用该物品的理由,并最终形成野外生存物品必备清单(问题解决)。面对面口试渠道无疑有助于诱导出反映受试口语真实水平的样本。适当的口试渠道和采样任务的多样化(问候-描述-讨论-问题解决)是保证测试效度的一个重要因素(Bachman&Palmer,1996)。

4.2.4 真实性

真实性是决定一项测试质量的关键指标之一,是“一项测试任务特征与目的语使用任务特征的一致性程度”(Bachman&Palmer,1996:23),一致性程度越高,测试真实性就越高(Bachman,1990:123)。测试任务真实性的考查离不开对目的语使用特征的考查。英国语言测试专家Weir(1993)对目的语使用特征作了比较详尽的描述,他认为操本族语者的英语技能主要体现在三个方面:(1)常规技能(routine),如问候、陈述、解释等;(2)即席技能(improvisational),如表明目的、确认不/理解、寻求提示等;(3)微观语言技能(micro-linguistic),如话轮转换、补偿策略等。调查结果显示(见表2),分别有83.74%的受试和85.92%的专家赞成PETS-4口试任务考查了这三种口语技能,具有真实性,具体情况见表4。访谈考官I21和I26认为在微观语言技能方面,PETS-4口试中图片的描述与讨论起着关键的作用。由不同图片指示诱导难度呈等级、具有信息差的一般性话题使考生无论是在“图片描述”环节还是在“讨论与问题解决”环节都要进行必要的话轮转换、修正、补救策略甚至寻求提示等以顺利完成交际任务(庞继贤、潘文红,2007)。多数访谈考生与考官都认为无论是从“问候”到“描述”,还是从“讨论”到“问题解决”,PETS-4均对语言的三种技能进行了全面考察。可以说这是一种符合现代语言交际理论有交际真实性的口试形式。

表4 PETS-4口试真实性调查结果(N=463)

4.2.5 Interlocutor的语言输入

“口试考官因素可能是口试中最难界定的变量”(Weir,2005:80)。只要口语测试中有考官的参与,他们说什么、做什么,对考生的表现都有影响。在PETS-4口试中,考官的语言指令对考生完成测试中规定的任务有很大影响。如interlocutor的语速、口音、清晰度、语篇长度等都会对考生测试表现产生影响(Weir,2005:154)。作为interlocutor的考官技能和可比较性是测试是否公正的重要考量因素(Luoma,2004:52)。因此测试开发者应尽量编制清晰、明白、一致的考官指令,对考官进行培训和认证(Bachman&Palmer,1996)。为了保证测试效度,PETS-4口试对考官培训、考官资格认证,特别是考场指令(如考官在测试中讲话的多少、讲话的复杂程度、话语的所指范围、语言的功能范围等)都做出了详尽规定(《PETS口试教师指南》,2003:4)。这一点得到了调查结果和访谈结果的印证:所有访谈者、测试专家和98.79%的受试均认为interlocutor的语言输入严格一致。其中所有专家和98%的受试认为考官主持考试的指导语是严格一致的(第24题),95.58%的受试和所有专家赞成考官的语言输入不因考生而异、不因考场而异(第25题)确保了口试的公平性。这是直接测试中非常难得的。

4.3 实施环境特征

测试实施的物质环境和实测程序会影响考生的测试体会从而影响考试结果,对保证测试的公正和可比性尤为重要(Luoma,2004)。测试物质环境具体指口试考场的布景和座位安排等。在口语测试中,如果物质环境不能反映出考生将来所使用的语言,那么考试效度将受到威胁(Khalifa,2003)。实测程序的差异会诱导出不同的语言产出,从而影响考生表现(Weir,2005)。调查结果显示85.47%的受试和84.24%的专家同意PETS-4口试的实施环境有利于拟测构念的表现(见表2)。访谈考官I26和I28认为,在统一的施测程序下,PETS-4的施测程序严格一致。这一点也得到82.36%的受试和86.5%的专家认同(第26题)。在考场的布景上,88.58%的受试和81.98%的专家认为PETS-4考场的布景创造了轻松的气氛(第27题)。这一点得到访谈结果的印证,访谈考官I23和I27认为PETS-4口试对考场房间大小、桌子摆放位置和摆放方式、灯光位置、光线强度等都有具体规定与要求(如房间不宜过大,灯光或阳光不能从考官的背后照射过来;应该将桌子摆在距门不远的地方,避免考生因在口试考官的注视下穿过房间而紧张;考官应该同考生呈直角就坐,避免考生和考官面对面以减少考生的紧张感)。考生越放松,所产出语言的采样量越大,受与构念无关变量影响也就越少,口试效度也就越高(Messick,1989)。测试环境设置和施测过程的人性化是PETS-4口试同等关注语言测试社会认知维度的真实体现。

5.0 结语

综上所述,本研究通过检查表、调查问卷和访谈方法收集PETS-4口试“内容相关和内容覆盖”、“任务特征”和“实施环境特征”等口试的“内容证据”,验证了PETS-4口试的效度。

分析结果表明:1)PETS-4口试测试任务考查了《指南》规定的口语能力详细指标,口试测试任务充分代表了拟测口语能力。表明PETS-4口试“内容相关和内容覆盖”符合预设的考查内容与目标。2)口试任务充分体现了测试设计者预设的“交际模式”、“交际功能”、“口试渠道”和“真实性”等特征,考官的语言输出严格一致,增强了测试的效度。测试物质环境符合测试总体要求、施测程序一致。即PETS-4口试任务特征和实施环境特征有利于拟测构念的表现。这些源自不同渠道的证据综合表明2013年9月的PETS-4口试在内容证据方面有很高的效度。

本研究通过检查表、调查问卷和访谈方法对PETS-4口试的内容证据进行了研究,虽然由于试题例证的不足(仅限于2013年)以及统计分析的缺陷(仅仅考查百分比和平均分),本结论不能概括整个PETS-4内容证据情况,但管中窥豹,可见一斑。本研究对PETS口试内容效度的探索能为众多PETS口试研究增加新的例证,对提高PETS口试的科学性和有效性作出有益探索,同时,本研究有望能启发测试研究者采用更科学、有效的研究方法,如有声思维法(think aloud)、内省法(introspection)、回顾法(retrospection)等方法从不同视角对其他测量工具的效度进行更具普遍意义、更深入、细致的研究。

*本文在写作过程中得到了上海交通大学金艳教授的悉心指导,谨致谢忱!错讹之处,概由本人负责。

注释:

①I表示Interviewee,I11表示第11位接受访谈者,同理可解释文中的I18,I13,等。限于篇幅,有兴趣者可向作者索取有关录音、视频、文字资料。

[1]Alderson,J.C.,C.Clapham&D.Wall.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.

[2]Anastasi,A.Psychological Testing(6th ed.)[M].New York:Macmillan,1988.

[3]APA.Standards for Educational and Psychological Testing[Z].Washington,DC:APA,1999.

[4]Bachman,L.F.Fundamental Considerations in Language Testing[M].Shanghai:Shanghai Foreign Language Education Press,1990.

[5]Bachman,L.F.Modern language testing at the turn of the century:Assuring that what we count counts[J].Language Testing,2000,17(1):1-42.

[6]Bachman,L.F&A.Palmer.Language Testing in Practice[M].Oxford:Oxford University Press,1996.

[7]Cronbach,L.J.Five Perspectives on validity Argument[C].In H.Wainer&H.Braun(eds.).Test Validity.Hillsdale,NJ:Lawrence Erlbaun,1988.3-17.

[8]Douglas,D.Assessing Language for Specific Purposes:Theory and Practice[M].Cambridge:CUP,2000.

[9]ETS.Test of Spoken English and Speak Score User Guide[Z].Princeton,NJ:Educational Testing Service.http://www.toefl.org/tse/tesindex.html.2001.[2014-03-05]

[10]Khalifa,H.(ed).Student Achievement Test Development Manual[Z].Egypt:USAID,2003.

[11]Lazaraton,A.A qualitative approach to the validation of oral language tests[J].Studies in Language Testing,Ser.14.Cambridge:Cambridge University Press,2000.

[12]Lier,L.Reeling,writhing,drawling,stretching and fainting in coils:Oral proficiency interviews as conversa-

tion[J].TESOL Quarterly,1989,23(3):489-503.

[13]Luoma,S.Assessing Speaking[M].Cambridge:Cambridge University Press,2004.

[14]McNamara,T.Assessment of second language proficiency[A].In Keith Brown(ed.).Encyclopedia of Language and Linguistics[C].Elsevier Science,2006.251-271.

[15]Messick,S.A.Validity[C].In R.L.Linn(ed.).Educational Measurement(3rd.ed.).New York:Macmillan,1989.3-103.

[16]O’Sullivan,B.,C.Weir&N.Savill.Using observation checklists to validate speaking test tasks[J].Language Testing,2002,19(1):33-56.

[17]Shaw,S.&C.J.Weir.Examining writing in a second language[A].Studies in Language Testing 26[C].Cambridge:Cambridge University Press/Cambridge ESOL,2007.

[18]Weir,C.J.Understanding and Developing Language Tests[M].New York:Prentice Hall,1993.

[19]Weir,C.J.Language Testing and Validation:An Evidence-Based Approach[M].Palgrave:Macmillan,2005.

[20]高怀勇,戢焕奇,刘峰,汪定明.基于试题内部结构和评分过程的口试构念效度研究——以PETS四级为例[J].山东外语教学,2011,(4):49-55.

[21]高怀勇,刘峰,戢焕奇.基于测试后效证据的PETS口试效度研究[J].解放军外国语学院学报,2014,(5):40-48.

[22]黄永红.英语专业四级口语测试的信度和效度[J].外语研究,2006,(3):36-38.

[23]教育部考试中心.全国英语等级考试PETS口试教师指南[R].北京:教育部,2003.

[24]教育部考试中心.全国英语等级考试PETS考试指南(第二版)[R].北京:教育部,2003.

[25]金启军,李思国,梁兴莉.全国公共英语等级考试体系:理论与实践[J].外语与外语教学,2002,(4):38-46.

[26]金艳,郭杰克.大学英语四、六级考试非面试型口语考试效度研究[J].外语界,2002,(5):72-79.

[27]李洁平.PETS口试特点及信度和效度:兼谈口试中的失误与应试策略[J].继续教育研究,2004,(4): 90-92.

[28]李清华.《语言测试与效度验证——基于证据的研究方法》述介[J].现代外语,2007,(2):214-217.

[29]刘庆思.全国英语等级考试(PETS)计算机辅助口语考试研究[J].中国外语,2008,(2):7-9.

[30]吕长宏,宋冰,王焰,刘文丽.口语测试评分标准比较研究[J].外语教学与研究,2008,(6):453-458.

[31]庞继贤,潘文红.PETS-3口试的会话分析[J].外语与外语教学,2007,(10):12-17.

[32]王保云.外语口试的形式评析——面试、录音口试和机助测试[J].外语电化教学,2006,(1):60-64.

[33]王海贞.基于评分过程证据的英语专业四级口试效度研究[J].解放军外国语学院学报,2007,(4):49-53.

[34]肖德法,向平.交际策略与PETS口试研究[J].外语与外语教学,2004,(12):16-18.

[35]向平.论提高PETS口试评分的信度——对一次PETS口试量分统计结果的思考[J].中国成人教育,2003,(12):87-89.

[36]向平,肖德法.PETS口试对成人英语口语教学的启示[J].中国成人教育,2003,(10):74-75.

[37]杨惠中,C.J.Weir.大学英语四、六级考试效度研究[M].上海:上海外语教育出版社,1998.

[38]杨莉芳.近二十年口语测试研究中存在的主要问题[J].外语教学,2006,(1):42-48.

[39]邹琼.普通高校大学英语口语水平测试模式研究[J].四川外语学院学报,2007,(6):71-74.

Validation Study of PETS-4 Oral Test:A Study Based on Content Evidence

GAO Huai-yong,LIU Feng,JI Huan-qi
(College of Literature and Law,Sichuan Agricultural University,Ya’an 625014,China)

This study,employing checklist,questionnaire and interview,validated PETS-4 oral test administered in Sep 2013,on the basis of content-related evidence by collecting evidence from“content-related”,“content-coverage”,“task demand”and features of“the context of oral test”.The results indicate that:1)test tasks in PETS-4 do represent and cover the target domain;2)The characteristics of test tasks and contexts both facilitate the construct supposed to be tested,specifically:(1)test-tasks in PETS-4 fully represent the presupposed characteristics of oral communication in terms of discourse mode,communicative function,channel and authenticity.Language input of interlocutors is strict and uniform;(2) settings and administration settings all meet the general requirements of oral test.Considering the evidence listed above,we may conclude that PETS-4 oral test administered in Sep 2013 is of high validity in term s of content-related evidence.

Public English Test System;oral test;validity;content-related evidence

H319

A

1002-2643(2015)03-0047-10

10.16482/j.sdwy37-1026.2015-03-006

2014-09-08

本文为国家社科基金项目“整体效度观下的语言测试效度研究:基于证据的效度验证”(项目编号:13BYY085)的部分成果。

高怀勇(1974-),男,四川雅安人,硕士,副教授。研究方向:语言测试。刘峰(1980-),男,江西吉首人,博士,讲师。研究方向:二语习得、语言测试。戢焕奇(1975-),男,四川眉山人,硕士,讲师。研究方向:应用语言学。

猜你喜欢

口试效度
《广东地区儿童中医体质辨识量表》的信度和效度研究
我省将于7月25日前公布高考成绩及录取分数线
开展数学口试,提升学生数学核心素养
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
PETS口试评分培训效果的多面Rasch分析
耳鸣残疾问卷中文版的信度和效度检验及其临床应用
被看重感指数在中国大学生中的构念效度
外语形成性评估的效度验证框架
BEC加试:口试成了成败关键
复杂图形测验对区分阿尔茨海默病与非痴呆的诊断效度