基于口语任务的语言测试效度实证研究
2010-09-27陈欣
陈 欣
(江苏大学 外国语学院,江苏 镇江 212003)
基于口语任务的语言测试效度实证研究
陈 欣
(江苏大学 外国语学院,江苏 镇江 212003)
基于任务的语言测试代表了语言测试的最新发展。在对其理论依据及效度定义维度讨论的基础上,可以通过实验数据验证任务型语言测试的两个主要效度指标:结构效度及预测效度,从而进一步确立任务型口语测试模式的有效性。
语言测试;任务;效度
20世纪 80年代,任务型语言教学 TBLT(task-based language teaching)已成为国际英语教育的主流模式。作为交际法教学的延续,它将任务的设计、控制和完成置于交际环境之中,倡导以体验、实践、参与、交流和合作的学习方式实现目标并感受成功。新的语言学习观和教学法理论必然催生相应的测试模式与之匹配。近年来,正是在 TBLT理论的推动下,基于任务的语言测试 (task-based language assessment)迅速发展并成为测试界关注的热点。2000年在加拿大温哥华召开的第 22届国际语言测试研讨会主题之一就是“Putting tasks to the test”。语言测试权威杂志 Language Testing于 2002年第 4期专刊讨论基于任务的语言测试,充分表明 TBLA已成为语言测试界探索的新课题。国内对测试效度的研究始于 20世纪 90年代后期,至今研究成果不多[1-3]。目前对语言测试的效度研究多限于理论层面的阐述,微观和实证研究明显滞后。而对口语测试的研究主要集中在对口语测试特点、口试的真实性、大学英语口语测试模式的探索[4-5],对基于任务的语言测试效度的研究则少见。据此,本文尝试在对基于口语任务的语言测试的效度进行理论分析的基础上,以实验分析数据对任务型口语测试的有效性加以验证。
1 任务型语言测试的理论依据
基于任务的语言测试 (TBLA)强调以任务 (task)为核心和基本分析单位,项目的选择从任务出发,测试工具编写以任务为基础,评定的对象以应试者完成任务的表现 (task performance)为依据。这里所说的“任务”实际上就是真实世界的活动 (real-world activity)。可以说,实际生活中即非测试环境下使用的语言任务多种多样且不计其数,而测试中使用的任务可看成现实生活中所使用的语言任务的取样。显然,这种以任务为核心的语言测试与传统测试有着极大的区别,其目标是诱导和评价学习者在以意义为中心并有明确交际目的的语言使用环境下的交际行为[6],真实世界的需要成为任务设计的驱动力。
TBLA的发展是依据当前颇为流行的“建构主义”(constructivism)和交际语言测试。建构主义认为知识是暂时的、发展的和非客观的,是经过学习者内心构建并受社会文化影响的[7],人的认知与经验共同发展,知识与经验的重新构建是体验、发现和创造的过程。因而真实自然的任务有利于激活学习者已有的知识结构和认知图式,促进自身知识的重组与构建,实现语言知识的内化。基于上述理论,任务型语言测试将测试目标指向学习者在实际生活中有效运用语言完成特定交际任务的能力。相对于以语言知识为纲的结构主义测试和以意义为纲的综合测试,此类测试是以交际任务为纲,以真实性和交互性为特征,采用社会语言学视角,从学习者在现实生活中可能承担的社会角色出发,模拟真实的语言交际情景和文化交际情景,考察他们有效使用语言达到交际目的的能力。
2 任务型语言测试效度的定义维度
谈到测试学的未来发展时,Bachman曾指出“语言测试专业化和测试效度研究是语言测试界现在和未来的两大重点领域”[8]。效度是指根据逻辑分析和相关证据来说明考试分数在多大程度上解释考生语言能力的量度。美国心理学会认为效度应作为整体概念来研究,效度的确立主要包括收集结构效度、内容效度和标准关联效度这三方面的证据[9]。
在语言测试中,“结构”(construct)通常指某项语言能力,结构效度依据的是其测试的理论框架。效度的确立依据统一的教学思想、语言教学理论与大纲的指导并落实于具体的任务分析。实际上,任何测试无论是内容相关还是结构相关或是标准关联都是以其“结构”的理论定义为基础的,因此,“效度”或“结构效度”或“构念效度”在本质上并无区别。任务型语言测试的理论基础或“构念”主要体现在其真实性与交际性:遵循 Bachman与 Pa lmer所提出的测试任务与实际语言运用任务特征的一致性原则[10]。以能力为中心也是 TBLA的构念,这里的能力包括语言能力、社会语言能力、语篇能力和策略能力。
3 任务型语言测试效度验证
3.1 研究问题
交际口语测试因其测试任务充分体现真实性与交际性并涉及全面的语言能力要求而具备任务型语言测试的基本特征,因此本研究以交际口语测试模式为研究对象来验证 TBLA的效度。而涉及效度验证的三方面证据即内容相关、标准关联和结构相关证据具有整体性,例如衡量内容效度的主要因素覆盖度和代表性,一定是以在既定构念的理论框架之下的考试任务对所测行为范畴的代表度来衡量的。因其不适合做实证研究,本研究拟从效度的结构相关和标准关联这两大主要指征探究以下问题:1)基于口语任务的语言测试的结构效度如何?2)基于口语任务的语言测试的预测效度如何?
3.2 数据来源与分析方法
被试为江苏大学 80名均已通过 CET-4且分数都在 550以上的非英语专业二年级本科生。
模拟国家四六级口语考试 (CET-SET)的形式和评分规则构建了小规模的校内任务型交际口语测试,安排在 2008年 11月和次年 5月分两次进行。被试通过抽签分成三人小组按要求完成指定任务。由两名具有多年 CET-SET培训经验的资深教师担任评分员,分别对每位受试现场评分,考试结束后再取平均值。评分标准为准确性、连贯性、适切性和灵活性。取值范围每项 0~5分。由于 CET-SET口语任务内在构念的核心是真实性和交际性及在此基础上被试的语言能力、社会语言能力、语篇能力和策略能力,本研究选择了体现上述构念的 CET-SET的经典项目:问题回答 (2项)、图片描述、小组讨论共 4项任务。结构效度验证采用相关分析,预测效度验证采用回归分析,测试数据均采用 SPSS17.0进行统计。
3.3 结果与讨论
为检验校内任务型交际口语测试的结构效度,我们通过 SPSS 17.0对被试 2008年 11月的各单项成绩间和各单项成绩与测试总成绩间的皮尔逊相关系数做了比较分析。结果如表1所示:
表1 校内任务型交际口语测试成绩的皮尔逊相关系数比较
续表
由表1我们可得出两方面结论:1)体现结构相关的各分项成绩与总成绩间的皮尔逊相关系数不仅呈正相关,且分别达到 0.810,0.812及 0.845的高相关值,并显示在 0.01水平具显著性。2)体现结构关联的另一指征,即各分项成绩间的相关性矩阵分析显示低相关系数值,分别为 0.362,0.451及 0.491,处于 +0.3~+0.5的有效区间。从以上结果可见,具显著性的各高相关值表明各分项测试体现了整张试卷所针对的构念,而测试分项值间呈低相关,说明结构内各项目间呈相关的同时也具一定独立性,因而整项测试具有较高的结构效度。
表2 2009年5月口语测试一元线性回归分析回归模型统计量表M odel Summaryb
表3 2009年5月口语测试一元线性回归分析方差分析表ANOVAb
表2和表3为回归分析所生成的模型统计量表和方差分析表。表2显示 2008年与 2009年两份试卷的相关值为 0.838,R Square值 0.702,表明独立变量 (2008卷)对应变量 (2009卷)有 70.2%的预测效度。表3显示在显著水平,独立变量与应变量完全无线性关系的概率为 0.000,且 F值很大,极具显著性。可以得出结论:本回归模型有效,预测效度具统计学意义。
4 结 语
本文在探讨任务型语言测试理论依据的基础上,从测试效度的定义维度入手,通过 Bachman和 Palmer测试任务特征框架下的校内任务型交际口语测试实验研究,为任务型语言测试有效性的确立提供相关证据。鉴于本次试验的样本规模局限,实验结果权作引玉之砖,以待更大规模的实证研究来确认。
[1]杨惠中,WEIR C J.大学英语四、六级考试效度研究[M].上海:上海外语教育出版社,1998.
[2]金艳,吴江.以“内省法”检验 CET阅读理解测试的效度[J].外语界,1998(2),47-52.
[3]邹申.英语语言测试——理论与操作[C].上海:上海外语教育出版社,1998.
[4]蔡基刚.大学英语四、六级计算机口语测试效度、信度和可操作性研究[J].外语界,2005(4),66-75.
[5]黄永红.英语专业四级口语测试的信度和效度[J].外语研究,2006(3),36-38.
[6]ELL IS R.Task-based Learning and Teaching[M].Oxford:Oxford University Press,2003.
[7]FOSNOT C.Constructivism:Theory,perspectives,and practice[M].Boston:Teachers College Press,2006.
[8]BACHMAN L.Modern language testing at the turn of the century:assuring thatwhatwe count counts[J].Language Testing,2000(2):27-33.
[9]BACHMAN L.Fundamental Considerations in Language Testing[M].Oxford:Oxford University,1990.
[10]BACHMAN L,PalmerA.Language Testing in Practice:Designing and DevelopingUseful language Tests[M].Oxford:Oxford University Press,1996.
[11]邹申.语言测试[M].上海:上海外语教育出版社,2005.
[12]韩宝成.语言测试:理论、实践与发展[J].外语教学与研究,2000(1),47-52.
〔责任编辑:胡 菲〕
Abstract:Task-based language assess ment sets the current trends in international circle of testing.To further confirm the effectiveness of task-based language assess ment,construct validity and predictive validity,the key indices of validity,are examined through empirical analysis based on the exploration of theoretical basis of TBLA and defining perspectives of validity.
Key words:language assess ment;task;validity
Empirical study on the validity of task-based language assess ment
CHEN Xin
(School of Foreign Languages,Jiangsu University,Zhenjiang 212013,China)
H09
C
1008-8148(2010)04-0008-03
2010-09-17
江苏省教育厅高校哲学社会科学基金项目(05SJD740019)
陈 欣 (1965—),女,浙江余姚人,副教授,硕士生导师,主要从事语言测试与教学研究。