校本英语分级考试的构念效度研究<br/>——以QDAU英语分级考试为例

校本英语分级考试的构念效度研究
——以QDAU英语分级考试为例

2012-12-04邹绍艳

当代外语研究 2012年8期

邹绍艳

(青岛农业大学,青岛,266109)

1.引言

英语分级考试的主要目的是通过对学生的英语水平进行测量,将他们分配到合适的英语学习环境中,最大限度地优化他们的学习经历,为之提供多元化的英语教学。自20世纪八十年代以来,根据教育部颁发的《大学英语教学大纲》(1985,1986)的要求,中国绝大部分高校都在分析本校教学需求和现状的基础上,实行了大学英语分级教学,部分高校还开发设计了新生英语分级考试,以便更准确地测量学生的英语学习起点(金艳2008:60)。

Westrick(2005)认为,开发一种有效的分级考试不仅包括设计与真实课程相关的题目、对题目进行试测、分析考试数据,更重要的是应该不断地完善考试,以确保考试分数的可靠性以及决策的合理性。尽管目前各高校自行开发设计的英语分级考试被广泛用于制定重要的分级教学决策,但是关于这类校本考试的效度研究却鲜有报道。本研究选取山东省某所高校开发设计的校本英语分级考试(以下简称QDAU英语分级考试)①为研究对象,检验校本英语分级考试的构念效度,以期进一步完善此类考试,保证分级教学决策的合理性。

2.构念效度概述以及分级考试的研究现状

美国心理学会(American Psychological Associ-ation)等机构把“根据考试成绩所做出的推论的恰当性、意义性和有用性”归纳为效度(1985:9),并且把效度认定为考试开发和考试评估中最基本的要素(1999:9)。传统上,效度分为内容效度、效标关联效度和构念效度等几种不同类型,但是心理测量学家越来越把效度看作是一个整体概念(Bachman 1990)。在Bachman和Palmer(1996)提出的测试有用性的公式中,构念效度取代了传统意义上的效度概念。Messick(1998:3)认为,“效度是一个统一的概念,即只有构念效度这一种效度,而并非传统意义上的多种概念。统一概念的意思是蕴含在构念效度中的分数意义存在于所有基于分数的推断之中。”简而言之,构念效度指的是考试分数在多大程度上能够代表我们想要测量的能力或构念。

国外针对英语作为外语或第二语言学习者(EFL,ESL)的分级考试的效度研究起步较早,成果也比较丰富。Wall等人(1994)研究了用于诊断学术英语环境中受试者语言能力弱点的Lancaster大学英语分班考试,并指出效度研究中最大的困难就是进行同期效度检验。Fulcher(1997)对Surrey大学的英语分级考试预试试卷进行了信度和效度验证。Green和Weir(2004)用项目反应理论和因子分析法对全球语言学校通用的英语分级考试进行了研究,并对这种基于语法的测试能否为教学提供足够的诊断性信息提出了质疑。国内学者对分级考试的研究起步较晚,而且研究方法主要以理论综述和试卷结构描述分析为主(如王瑞2006；彭家海2007；刘立2009),并没有对分级考试的效度进行深入全面的实证性研究。

Anderson等人(1991)认为对构念效度的研究是一个不断收集各种证据,支持分数解释的持续的过程。QDAU英语分级考试尽管已实施十年有余,但是其构念效度却未曾受到关注与验证。鉴于该考试在大学英语分级教学决策中的关键性作用,所以有必要开展相关研究,验证考试的构念效度。

3.研究设计

3.1 研究问题

Messick(1989,1992)提出分数的解释和相应的构念效度有两种情况:1)构念表现不足,即构念中的某些重要特征被遗漏,测试分数不能通过该构念得到充分恰当地解释；2)构念不相关,测试分数可能因为这些与测试目的不相关的构念而被曲解,从而影响效度。根据这一理论,本文拟定总体上研究的一个大问题是:校本英语分级考试的构念效度如何？具体而言,将探讨以下三个小问题:

(1) QDAU分级考试的内部结构是否具有一致性？(2) QDAU分级考试的构念中包括几个因子？是否存在构念表现不足或构念不相关的现象？(3) 受试对QDAU分级考试的态度如何？是否认可该考试的效度？

3.2 研究对象、工具和方法

QDAU分级考试的考试大纲、试卷是本文的主要研究对象。考试大纲主要规定考查学生的语言知识以及语言知识的应用能力,具体包括:词汇语法知识、阅读理解能力,以及语言知识的综合应用能力。

QDAU分级考试的试卷包括五个测试任务:快速阅读(Skimming and Scanning)、选错(Error-selecting)、仔细阅读(Careful Reading)、词汇和语法(Vocabulary and Grammar)以及完形填空(Cloze),所占比例分别是10%、15%、50%、15%和10%,满分为100。所有的测试任务都是客观题,采用多项选择题型(Multiple Choice Items)。根据开发该考试的主要负责教师介绍,考试试卷之所以不设计听力、口语和写作任务主要是考虑到施测的方便性和阅卷的客观性。

问卷调查是本研究使用的主要研究工具。问卷设计采用里克特五级量表的形式:1代表非常不认同,2代表不太认同,3代表一般,4代表比较认同,5代表非常认同。问卷的内容涉及到考试试卷的整体效度和分项效度。

本文采用定量和定性分析相结合的方法,首先用SPSS14.0软件对QDAU分级考试的分数分布进行正态分布检验,然后对五个测试任务的分数进行相关性分析和因子分析,检验试卷内部结构是否具有一致性,并探索试卷所要考核的构念,最后用问卷调查了解考生对试卷总体效度及对各分项效度的意见。

3.3 实验对象和数据收集

本研究的受试是山东省一所普通高校分属四个不同专业班级的128名大一新生。他们来自全国不同地区,学习英语的背景存在一定的差异,但这并不影响基于考试分数所做出的决定的公平性。Eckes和Grotjahn(2006:291)认为,“在分级考试中,我们经常需要对受试者在多样化的目标语使用情境中的能力进行快速有效地判断,勿需考虑他们各自的语言学习历史”。

受试于2011年9月参加了该校组织的QDAU分级考试,时长为2个小时。为确保收集到有效可靠的数据,本文的作者及其他五位外语教师单独监考。考试结束后,监考人员向128名受试发放了问卷,让他们用15分钟完成,然后全部收回。

4.结果与讨论

由于参加该研究的样本总量小于200人,因此,我们首先对受试的分数进行正态分布检验,看正态分布条件是否符合,然后再进一步开展其它的统计分析与研究。

图1 受试者在QDAU分级考试中的成绩分布图

图1是对受试在QDAU分级考试中的分数的正态分布检验图。从图中可以看出,该考试的分数基本呈现正态分布,但考试的分数比较趋中,也就是说分布在60分左右的人数最多。

表1 QDAU分级考试的描述性参数

表1是受试考试分数的描述性统计结果。从表1可知,测试的均值和标准差分别是63.92和14.77,说明分数的离散程度较高,能够区分不同水平的受试者。研究者认为,图1所反应的考试分数的趋中现象应该是由参与研究的样本较小造成的结果。

4.1 QDAU分级考试项目内部一致性分析

QDAU分级考试各子项目之间以及子项目与总分之间的相关矩阵如表2所示。

表2 相关矩阵

注:**p<0.01， *p<0.05

从表2可知,所有子项目与总分的相关都在0.01水平上显著。“根据经典测量理论,子项目和总分的相关可能被期望达到0.7或者更高,因为总分是对语言能力的综合测量”(Aldersonetal.1995:184)。在所有子项目与总分的相关中,仔细阅读与总分相关系数最大,相关性最为明显。其余测试项目如快速阅读、选错、词汇、完形填空与总分的相关关系虽然也在0.01的水平上显著,但都低于0.7,表明这些测试项目对总分的影响虽然显著,但并未达到经典测试理论所期望的指标。这一结果说明,在五个测试项目中,仔细阅读对总分的解释力最强。

Alderson等(1995)认为,测试中之所以设计不同项目是因为它们能够考核不同的能力,因此我们预期的相关也比较低,可能在0.3～0.5之间。而在分级考试各子项目之间的相关中,阅读理解与选错、阅读理解与词汇语法、词汇语法与完形填空之间的相关关系都在0.01的水平上显著。但是快速阅读与词汇的相关系数非常低,仅为0.090,快速阅读与完形填空之间竟然呈现负相关关系。这说明快速阅读考查的语言能力与词汇语法和完形填空是完全异质的。另外,选错部分与完形填空部分的相关也非常低,只有0.153,说明这两部分考核的语言能力也是异质的。而且值得注意的是,快速阅读和仔细阅读的相关系数为0.202,仅在0.05水平上显著。

产生这种相关关系的原因可能有以下几点:第一,仔细阅读部分在整份试卷中所占的比例最大(50%),而相比之下,其它测试项目所占的比例较小,因此除了阅读理解与总分的相关系数高于0.7以外,其他测试项目与总分的相关系数都未达到0.7。第二,快速阅读这种测试任务目前尽管已在大规模考试(如CET、TEM、TOEFL等)中被广泛应用,但是对于大一新生而言,这是一种比较陌生的题型,他们不太了解完成这种任务所需要的策略和技巧,因此这一项目的分数与其他项目的分数相关性较差。第三,QDAU分级考试的选错部分要求考生从15个所给句子中选出错误,但是并未提供充分的语篇信息,这与高考英语的改错部分不太一样,因此受试在这种题型上表现出的能力也较弱,导致这一项目的得分与其它项目得分的相关性不太明显。

总之,在所有子项目之间的相关关系中,只有选错与仔细阅读、仔细阅读与词汇语法以及词汇语法与完形填空之间的相关关系在0.01的水平上显著,而其余子项目之间的相关关系都未达到0.01的显著性水平,说明QDAU分级考试的试卷内部结构一致性不太理想,有待于进一步提高。

4.2 QDAU分级考试构念的因子分析

为了进一步探索QDAU分级考试所考核的构念,我们需要对表2中的相关矩阵进行因子分析。首先对相关矩阵进行KMO与Bartlett球形检验,结果显示KMO检验系数为0.660,Bartlett球形检验的卡方值为49.240,p=0.01,满足对表2中的相关矩阵进行因子分析的条件。表3和表4分别是利用主成份分析法提取的公因子方差以及被解释的方差总计。

表3 公因子方差

从表3可以看出,在5个测试项目中,快速阅读能够解释公因子中最大的方差,达0.714；其次是完形填空,达0.641；仔细阅读、词汇语法和选错这三部分能够解释的公因子的方差值依次是0.553、0.536和0.441。这说明提取的公因子能够较好地代表这5个变量。而5个测试项目所考核的构念在公因子中得到最大程度体现的是快速阅读和完形填空。

表4 被解释的方差总计

表4显示,5个因子中特征值大于1的因子有两个,它们的特征值分别是1.810和1.079。经过正交旋转后,它们的特征值略有变化,分别是1.809和1.080,这两个因子能够解释的方差百分比是36.185%和21.599%,也就是说这两个因子总共能够解释五个变量中56.783%的方差。表5中显示的是主成分分析法提取的两个因子在五个项目中的负荷。

表5 被提取的因子负荷矩阵

a.两个因子被提取

从表5可以看出,主成分分析法提取了两个主要因子,其中因子1在词汇语法和完形填空两个部分的负荷都高于0.6,可以把它看作是词汇语法知识及其在语篇中的运用能力。而因子2在快速阅读部分的负荷最大,达到0.813。另外它在选错和仔细阅读部分的负荷也比较大,分别是0.567和0.573,因此应该把因子2确定为阅读理解能力。

根据因子分析的结果,可以得出结论,QDAU分级考试的构念主要包括两个因子:第一是词汇语法知识及其在语篇中的运用能力；第二是阅读理解能力。这与QDAU分级考试大纲规定考核的构念基本一致,但是大纲中拟考核的“语言知识的运用能力”并没有在5个测试项目中得到充分体现,而且总分中仍然有大约43%的方差没有被提取的公因子所解释,也就是说考试的分数中仍然存在构念表现不足的现象。

4.4 问卷调查结果

回收的128份问卷中,剔除4份未作任何回答的问卷,剩下124份视为有效问卷。问卷共包含10道题目,其中1～9是选择题,而最后1个题目则是开放式问题。前5个问题的调查结果如表6所示。

表6 Q1-Q5的调查结果

注:Q1=您在考前非常了解本次考试的目的和意义；Q2=试卷整体结构设计合理；Q3=试卷指令清晰,便于理解；Q4=试卷能够准确测出您的英语水平；Q5=试卷能够有效地区分不同水平的英语学习者。

表6显示,受试对第1个问题的赞同比例较低,只有23%的受试考前对这次分级考试的目的和意义比较了解。但是,受试对考试目的和意义的了解会直接影响他们在考试中的表现或考试的分数。第2到第5个问题旨在调查受试者对试卷表面效度的态度,从表6中可以看出,他们对这几个问题所涉及的内容的认同度都略高于50%,这4个问题的得分均值都在3.4以上,说明大多数受试者对试卷的整体效度比较肯定。

Q6～Q9旨在调查受试对5个测试项目的意见,调查结果如表7所示。

表7 第6-9个问题的调查结果

从表7可以看出,受试对五个测试项目的意见有较大差异。对于Q6即哪个测试任务最能准确地测量您的英语水平这一问题,42%的受试者选择词汇语法,31%的人则选择仔细阅读,这说明绝大多数受试者比较认同这两个传统测试任务的效度。对Q7即哪个测试任务最不能反映您目前的英语水平这一问题,受试的反应几乎同他们对Q6的反应决然相反。选择快速阅读和选错的人分别占了48%和22%,这说明大多数受试者不太认同这两种测试任务的效度,尤其是快速阅读的效度。Q8问的是哪个测试任务最难,58%的人的答案为快速阅读。受试对这一问题的反应同第7个问题的调查结果恰好一致,说明对他们来说较难的测试任务,效度也难以得到认可。Q9问的是哪个测试任务最简单,56%的受试者选择词汇语法,说明多数受试者认为传统测试项目比较简单,而且能够测量出他们的实际水平。

最后1个开放式问题旨在了解学生对于QDAU分级考试的试卷设计是否还有别的意见或建议。对于这一问题,34%的受试者没有回答,而其他的受试者则提出了各种各样的意见,如:“全是选择题,很枯燥”；“为什么不考写作,我很擅长写作啊”；“既然是分级考试,听力和口语也很重要”；“Skimming and Scanning文章篇幅实在太长太难了”；“选错题应该提供上下文,像高考一样”；……

问卷的结果给了我们如下重要启示:

一方面,考试的开发或施测部门应在考前向考生充分说明考试目的和意义,唯有如此,考生才会以一种积极的态度参加考试,发挥出最佳水平,考试的结果才具备可比性。受试对测试任务的态度很大程度上取决于自身水平的高低以及他们对测试任务的熟悉程度。仔细阅读、词汇语法和完形填空都是受试者在中学阶段就已经比较熟悉的项目,而快速阅读和选错对于受试者来说则是比较陌生的题型。

另一方面,受试的意见反映出他们对考核口语、听力和写作的需求,即交际语言能力的需求。Bachman(1990)提出的交际语言能力(communicative language ability)框架认为,语言能力包括语言知识或能力,以及在具体的交际情景中对这种能力的恰当使用。QDAU分级考试的测试任务全部采用多项选择题型,不能充分考核受试者的交际能力,尤其是产出性语言能力,这是此次考试最大的缺陷。考试开发者也应该把受试的实际语言能力需求放在首位。

QDAU英语分级考试还存在以下几个问题值得进一步探讨:第一,既然分级考试目的是为了保障分级教学的顺利进行,那么考试大纲的制定是否应该考虑到后续教学要求？第二,分级考试所考核的构念与考试大纲界定的构念应怎样进行合理的衔接？第三,快速阅读作为一种对阅读策略和技巧要求较高的测试任务,是否应该在分级考试中使用？

5.结语

本研究以QDAU分级考试为例,尝试验证了校本英语分级考试的构念效度。研究结果表明,在校本英语分级考试的开发和设计中存在一定的问题,此类考试的构念效度有待于进一步提高。例如,QDAU分级考试大纲中界定的“语言知识的使用能力”这一构念比较笼统,可能不利于命题者设计相关的测试任务。严明(2012)提出,对于测试设计者而言,首先要考虑的是如何把抽象的语言能力具体化,使其在实践中指导测试开发和设计。考试的开发和设计应该综合考虑受试的实际语言需求和考试的可操作性,否则无法充分彰显考试的有用性。

受限于研究条件,本文只分析了一所学校开发的分级考试的小样本数据,虽在一定程度上体现此类考试的构念效度,但是鉴于分级考试是大学英语分级教学实施的重要依据,且对教学可能产生巨大的反拨作用,我们建议从多个角度在更多的规模上对这类考试进行更加全面的研究。

附注:

① QDAU英语分级考试是山东省某高校开发设计的校本英语分级考试。

Alderson, J.C.etal.1995.LanguageTestConstructionandEvaluation[M].Cambridge: Cambridge University Press.

American Psychological Association.1985.StandardsforEducationalandPsychologicalTesting[S].Washington, DC: American Psychological Association.

American Psychological Association, American Educational Research Association, and National Council on Measurement in Education.1999.StandardsforEducationalandPsychologicalTesting[S].Washington, D.C.: American Educational Research Association.

Bachman, L.F.1990.FundamentalConsiderationsinLanguageTesting[M].Oxford: Oxford University Press.

Bachman, L.F.& A.S.Palmer.1996.LanguageTestinginPractice:DesigningandDevelopingUsefulLanguageTests[M].Oxford: Oxford University Press.

Fulcher, G.1997.An English language placement test: Issues in reliability and validity[J].LanguageTesting14(2):113-38.

Green, A.B.& C.J.Weir.2004.Can placement tests inform instructional decisions[J].LanguageTesting21(4):467-94.

Messick, S.A.1989.Validity[A].In R.Linn (ed.).EducationalMeasurement[C].New York: Macmillan.13-103.

Messick, S.A.1992.Validity of test interpretation and use[A].In M.C.Alkin (ed.).EncyclopediaofEducationalResearch(6th edition)[C].New York: Macmillan.

Messick, S.A.1998.Consequences of test interpretation and use: the fusion of validity and values in psychological assessment (RR-98-48)[R].Princeton: ETS.

Nakamura, Y.2007.A Rasch-based analysis of an in-house English placement test[R].Sendai.

Wall, D.etal.1994.Evaluating a placement test[J].LanguageTesting11(3):321-44.

Westrick, P.2005.Score reliability and placement testing[J].JALT27(1):71-92.

金艳.2008.关于大学英语教学改革的思考:评价与教学[J].中国外语教育(3):57-66.

刘立.2009.完形填空考点效度分析及语篇教学——个案分析中央民族大学2008级新生入学英语分级测试试卷[J].广西民族大学学报(哲学社会科学版)(S1):127-29.

彭家海.2007.提高大学英语分级测试信度和效度的途径浅议[J].南方论刊(12):76-77.

王瑞.2006.大学英语入学分级水平交际能力测试研究[J].黑龙江高教研究(10):167-68.

严明.2012.商务英语能力构念界定和测试[J].当代外语研究(2):23-28.

邹绍艳.2012.高等农业院校大学英语分级考试的校标关联效度研究[J].中国农业教育(2):11-13.