APP下载

从入学测试看学生英语应用能力发展态势*
——以自建题库为例

2012-12-02

外语与翻译 2012年2期
关键词:区分度效度信度

邢 宏

(海南大学外国语学院,海南 海口570228)

从入学测试看学生英语应用能力发展态势*
——以自建题库为例

邢 宏

(海南大学外国语学院,海南 海口570228)

本文采用Bachman的语言能力观,以自建题库的学生入学摸底考试的试做和试测考卷为蓝本,将听力部分的应用型篇章和题目作为目标参照,依据准则参照测量和项目反映理论,利用GITEST软件包对试卷本身及测试结果进行了信度、效度尤其是结构效度的验证,用定量的方式提供解释依据。发现学生的英语应用能力并非想象得那样差,有相当一部分学生已经显示了基本的英语应用能力素养,还有部分学生已经具备一定的综合应用能力。这也为教师今后的教学实践提供了参考依据:教师的责任应该是如何将这种能力挖掘延伸使其具备可持续发展的态势,而不仅仅只在”培养”上下功夫。

信度效度;自创题库;入学摸底测试;应用能力;发展态势

着力培养学生的“综合应用能力”是大学英语《教学要求》突出强调的教学目标。是当前大学英语教学的重中之重。下大力气培养学生的“综合应用能力”,言下之意就是学生的英语应用能力弱或者根本未达到应有的程度。事实是否如此,我们先研究一下高中英语毕业学生需达到的标准。《高中英语新课标》表述高中英语课程的总目标是培养学生的综合语言运用能力。七级是高中阶段必须达到的级别要求,八级和九级是为愿意进一步提高英语综合语言运用能力的高中学生设计的目标。如此说来,完成高中英语七级的学习就意味着学生入大学之初就已经具有了一定水平的英语综合能力了。在大学英语的教学中,学生的英语应用能力到底需要‘培养’还是‘提高延伸’?就此引发了我们课题的一项核心研究:创建以深化能力立意,突出能力考查为宗旨的入学摸底试题库,以便考察、预测和确认学生英语应用能力态势及发展走向。

一、题库创建的理论框架——语言测试理论的语言能力观

语言能力是语言习得过程和测试研究的对象,在语言教学和测试中具有非常重要的作用。反过来,语言测试也能提供实证以研究语言能力的本质。就语言测试而言,决定结构效度的先决条件就是对语言能力的操作性定义[1](Bachman,1990)。

语言测试理论就语言能力的讨论至今已一个多世纪,经历了四个时期即:前科学时期、心理测量一结构主义的结构主义时期、心理语言学一社会语言学时期和交际语用时期[8](Spolsky,1978转引自王克非,2000)。前三个时期中,无论是Lado为代表的语言能力模型,还是以Oller和Spolsky为代表的语言能力模式,在科学性或理论性上备受诟病:它们对语言能力的概括都是静态的,都是从知识和结构的角度,而不是从应用的角度来概括。这些模式关注对语言能力的描写,其研究仅局限于语言系统内部,出发点和归宿点在于追求对纯语言结构的分解。上世纪90年代,继Hymes及Canale&Swain提出交际能力之后,Bachman[1](1990:81-109)提出了新的交际语言能力模式。他突破了结构主义局限,把语言能力看成是由认知因素贯穿的,在应用中体现出来的能力。Bachman认为,语言交际能力就是把语言知识和语言使用的场景特征结合起来创造并解释意义的能力。按照这种模型开发的语言测试既注重被测试者的语言知识,又考虑到受试者在有意义的语境中能否恰当得体地使用这种语言的能力。Bachman的交际语用模式博采众长,全面描述了语言能力的性质及其组成部分。可以说是迄今为止最完善的一个理论模式,代表了90年代语言测试界在探讨语言能力性质方面的进展。

Bachman的理论尤其对交际语言能力测试方面的概念定义研究起了十分重要的推动作用,如对测试构想的定义和交际测试的定义[8]。在语言测试中,构想的定义非常重要,因为对考生在考试中的表现的解释必须依据测试的构想[3]。“所谓构想,就是假设的概念”[4]。题库的理论框架依据Bachman的语言能力观将综合应用能力定义为语言能力。在语言测试理论及语言习得研究中“语言能力”即是一种构想。构想是一种潜在的理论形式,其具体的体现是试卷和测试成绩,也就是说测试成绩是学生语言能力的外部表现。我们就是在假设,我们借助测试和他所包含的每个题目所引发的这一种语言行为可以恰当、充分、有意义,从而有效的反映这一种语言能力[10]。测试本身以及测试的结果是否真实有效以及所测的语言能力是否真实反映了学生的实际状况,正是本文论述的焦点。

二、研究方法

本研究是课题“大学英语电脑调适性测试系统(CALT)及题库创建”的后半部分,目的在于“创建一个信度效度较高、有诊断性,有预测性,重语言应用能力和交际功能,以新生为对象的,以大学英语入学摸底测试为内容的标准化试题库”。题库的指向是英语入学摸底测试针对性非常明确:考察学生的英语综合应用能力,特别通过加大听力和阅读应用类题型的权重来观察分析学生英语应用能力的态势及发展走向。

本研究采用定量分析手段,首先依据准则参照测量设计、开发试题.测试结果是依据一个准则或能力范围,而不是其他考生的表现来解释的。换句话说,分数分析不依靠考生之间的差异或分数分布的一种常态来解释。此外,项目反应理论“一个受试者在某个测试题或测试项上的表现受测试项的难度和受试者的能力的影响”[1],不仅为我们的计算机化调适性测试提供理论支持,帮助我们揭示测试项目的难度与受试者能力之间的关系;更为测试验证收集了证据、为试题的效度提供了强有力地理论解释。

重视语言测试理论的研究,掌握命题的原则,在试卷编制过程中努力把握信度、效度及其它评价指标之间的平衡关系是题库创建前必做的功课。试题生产的流程基本按照分任务——选材料——审材料——改写材料——写 题——审题——改题——填覆盖分析表——拼题——试做——审全套题——试测——结果分析等十六个步骤进行[6],07年至今,完成所有备选题目的生产,并以纸质试卷的形式抽样请08级新生进行3套试题的试做,请09级新生完成8套题目的试测工作。全部的题目采用GITEST软件包进行统计分析。检验合格的题目将按照计算机适应性语言测试的技术要求进行编程入库,供学生在电脑上完成做答。

(一)题库前测情况

阐释特定的考试成绩是否准确反映了学生的语言能力,信度和效度是在设计和使用测试时首要关注的特征。Bachman[2](1996)将信度定义为“测试的一致性”也就是指测试结果的可信度、可靠度。测试信度是测试效度的前提和基础,一份试卷的测试结果如果缺乏信度,就没有使用价值。为了确保试题的质量控制,我们先在08级入学初期小范围对三套题目试做,三套题的客观题目均由听力(20题),词汇与语法结构(10题),综合填空(20题)以及阅读(20题)组成,每题一分,满分70分。试做的结果检验用GITEST软件包进行全面的分析评估。

衡量一套试卷质量的信度指标不仅可以从它的平均值(Mean),标准差(Sd),答对率(P),及难度(Pd),区分度(Rbis)反映出信度的高低,更可以通过计算R11和信度系数α来确定信度值的高低范畴。单就重要指标来说,首先是答对率,多项选择题的答对率以0.6左右为好.难度(Pd)的取值范围在1~25之间,13为理想值;理想的R11要求达到0.9,合格的信度取值在0~1之间;α值达到0.80最佳。宏观的区分度为Rbis,通常Rbis≥0.3定为考试的质量分析指标之一(李筱菊,2001:126-128).依据以上的各项指标,从表1可以看出,08级试做的三套题目信度良好,虽然难度系数Pd,R11和α未到达理想值,但是三套试卷的质量是过关的.试做为我们提供了详实的数据和难得的经验.表2显示,09级经修改重组试测的八套卷的各项质量控制指标都达到要求。题目数量增大(听力和词汇与语法结构部分各增加了10题,使客观题总数达90题),难度系数提高但试卷质量更优,关键指标R11已接近0.9的理想值,α值也达到0.80或者近似0.8的最佳水平,Rbis全部超过≥0.3的合格标准。可以说09级试测的八套卷信度更高。

表2 09级八套试测客观题目客观信度数据(90分)

表2显示,信度参照指标说明试卷具有可靠性,试卷的测试结果具有较高的可信度。然而效度对于我们的摸底考试至关重要。无论08级的试做还是09级的前测其信度指标旨在为考试效度验证提供理论指导和方法框架。测试分数在多大程度上准确代表了受试者的语言能力是我们最为关注的问题:它表明测试与测试目标的关联程度。效度高的测试说明测试在内容和结构等方面达到了测试和学生语言能力的高度结合,而效度低的测试则不能反映出学生的真实语言能力(周世界2009)。构想效度一方面指测试测到理论假设的某种特质的程度,另一方面指测试能够证实的理论本身的合理性和有效程度。构想效度在操作方面的主要挑战仍然是语言能力的定义问题 (Bachman,1990)。因此效度验证十分必要,本文主要依据前测试卷中的听力数据结果,在构想效度概念下,对客观试题从实证的角度进行效度验证。

(二)听力题型设计

如前所述,学生的英语综合应用能力是入学测试考察的重点,题型设置是关键。为了提高考试的效度,试卷中主要通过加大听力和阅读应用型语篇的权重得以体现。写题的原则更是突出能力考查。目的是通过测试对象在有限的测试任务样本中的表现推断出测试对象的语言能力。听力题型的设计侧重在创建真实情景下测量受试者语言的交际能力,即在正常真实的交际环境下学生能否听懂对话、独白等各种类型的材料,能否提取材料大意和重要细节,明白说话人言外之意,推断类型、语用含义和语言的社会语言恰当性等。相比08级试做题目的专人朗读录音,09级试测的音频内容尽量采用真人真语来营造真实的场景以突出真实生活的特征,如广播电视的新闻播报,访谈或现场节目等。确保听力测试任务的真实性、明确目的语使用场景的听力需要来实现听力测试构想,是使听力测试具有效度,尤其是构想效度的重要保证(何勇斌2005)。

为了准确把握每道题目的质量和层次,我们对即将入库的备选篇章每一篇每一题都做了如下的记录(见表3)。这样的记录统计一目了然,对后期的题目效度研究大有裨益。听力篇章的最后一篇,题目相对难一些。偏重选择实用性材料。对理解的要求会更高:需要综合概括或间接推断才能获取信息。本文主要以这8篇的32个题目为蓝本,用定量的方式提供解释依据。

表3 备选篇章信息记录样卡

三、结果分析

验证学生对英语应用型题目的把握程度,就是将听力实用型篇章及题目作为目标参照,将其测试结果与全套试卷及听力II做宏观和微观的数据分析对比。第一步先利用相关证据对试卷外部结构进行整体效度剖析。假设整套题与听力II有明显相关性,听力II又与各大题呈显著相关,就揭示考卷各大题之间具有同质性,证明试卷考到了它要考的构念,即考卷效度高。第二步再通过题目答对率,区分度,难易度这些指标对内部数据进行梳理。如果整套题的难易度与听力II的难易度以及备选篇章题目的难易度大致相当,三部分的答对率变化幅度不大,则说明加权的应用型题目对于部分学生是可接受的。另外如果数据显示宏观区分度,,篇章各小题区分度以及答案项答对率都达到质量控制指标要求,从构想效度的角度观察则说明分数意义的一致性程度高,因而对目标行为推测的可信度也就较高,推论的结果也就具有说服力,从而印证了我们的测试构想:即学生在入学初始已显现或者具备一定的英语应用能力。

(一)相关性分析

表4 相关数据统计

表4反映出听力II`和整套题的相关度最低0.65,最高0.84,说明每套题的听力II与总分都呈强相关,考得是同一构念,完全体现了考试凸显应用能力的宗旨。此外还可以看出听力II与听力I相关度在0.33~0.55之间,与语法在0.40到0.63之间,与 Cloze的相关度在 0.3~0.63之间,与阅读 1在0.33~0.58之间(阅读2是我们课题的实验性尝试,包括5段公共场所阅读资源,每段一题一分,共5分。这里只列表),说明它们既不是强相关,也不是相互独立,各项之间相互有关联,但又不互相包含,意味着这几部分在考同一个构想时有其独立性。揭示出各大题均考到预设的内容,考点有别于其他大题。所有这些相关证据都表明前测的八套试卷具有构想效度,即在测试语言应用能力上具有有效性。同时听力II与各大题之间的这种趋同关系也证明考卷考到了学生的应用能力。测试题目和所假设的语言能力基本吻合,即测试有良好的效度。

(二)测试分数的描述统计结果

题目的区分度是反映题目质量的一个重要指标。区分度可以反映出测试内容能否把被测试者中高水平考生的和低水平考生区分开来。其质量合格指标是≥0.3,越高越好。表5中听力II宏观区分度Rbis全部合格,多数趋于≥0.5的理想值,说明篇章听力具有不错的区分度,能区分出中高水平学生和成绩偏弱的学生。

答案项区分度rbis,的合格指标也是≥0.3,32题中系数超过0.6有5题,0.5 ~0.59 有8题。0.4~0.49 有10 题,0.3~0.39有6题,0.24~0.28有3题。除了这3题需谨慎对待外,其余的每一题都可以判定中高水平考生对应用型题目的解答好于偏差的考生。答案项平均分m的数值幅度为1~25,大于14为佳,除2题未达标,其余30题均达到要求,从一个侧面反映出答对题目的学生对这种应用型题目已基本掌握,显示他们具备一定的英语应用能力。

表5还反映出,整套的难易度Pt同听力II难易度Pi以及篇章各小题难易度Pd大致相当,32个小题中有一半达到或超过13的理想值。说明至少有50%学生答对最后一篇一半以上的题目。说明部分中等程度的学生也能够应付具有一定难度的题目。从答对率分析,听力II绝大多数都超过60%理想比率,跟表2中整套题的答对率大致相当。答案项达到60%答对率的题目13个(占32题的40.6%),达到50% 的7题,两项加总就表明答案项答对率超过50%的题目达20题,占32题的62.5%。再次证明并不是单有程度好的学生才答对难题。具体到答案项答对率低于40%的9题,即F27,F29,G28,H29,I29,J28,J30,L27,L30,难易度 Pd 最低 14.45,最高17.99,无疑显示它们统统都是困难度很大的题目,而题目的区分度却表明除H29和J28未达到0.3的合格线外,其它7题区分度良好,9题答案项平均分m均保持在14.18至15.82之间,更加证明答对这些题目的学生并不是靠猜测得到答案而是真正会做。同时9道难题(占32题的28%)的答对率接近30%,将真正很棒的考生凸显出来,也进一步说明这部分学生已经具备一定的英语应用能力。

构想效度是分数解释的证据基础,它保证了分数解释的合理性,使得以分数为基础的理论推断具备有用性(李清华)。同时效度又是一个多层面的整体概念,需要采用多维的、多层次的、多侧面的证据支持。这些证据之间是互补而不是互相替代的关系。综合以上分析可以推断,听力测试题目很好地反映出学生的语言水平,试卷具有很高的构想效度,统计过程中所采用多种方法、多种指标,从不同角度都验证同一构想效度即考生已经显示或具备一定的英语应用能力。

表5 测试分数的统计结果

H 卷 11.38 11.75 .62 .55 Pd 12.09 12.92 14.67 13.00 P .59 .51 .34 .50 rbis .62 .60 .27 .40 m 14.63 14.90 14.18 14.27 I卷 12.38 13.68 .43 .34 Pd 11.80 12.62 14.55 13.42 P .62 .54 .35 .46 rbis .39 .28 .60 .53 m 13.91 14.39 13.86 15.19 K 卷 10.89 11.86 .61 .43 Pd 5.70 12.74 9.07 11.29 P .97 .53 .84 .67 rbis .41 .44 .45 .42 m 14.01 14.30 14.89 14.45 J 卷 12.17 12.31 .57 .44 Pd 11.51 15.48 9.71 14.45 P .65 .27 .79 .36 rbis .45 .39 .57 .62 m 13.14 14.17 13.66 14.35 L 卷 12.24 12.83 .52 .40 Pd 17.99 14.49 11.26 9.60 P .11 .36 .67 .80 rbis .40 .32 .57 .48 m 15.74 14.33 14.25 13.66

四、结语

通过对摸底测试本身以及测试结果的信度效度检测帮助教师认清学生英语综合应用能力的态势是一项一举多得的研究。首先创建一套科学可行试题库实属必要,而对入库的题目进行试做试测更是必不可少,它使得符合各自学校校情的自建题库更有目的性和针对性。其次,经过效验的数据结果对教师的教学无疑起到良好的引领作用。本研究就发现学生的英语应用能力并非想象的差,相反有相当一部分学生已经显示了基本的英语应用能力素养,还有部分学生已经具备一定的综合应用能力。教师的责任应该是如何将这种能力挖掘延伸使它们进一步发扬光大,而不是只在‘培养’上下功夫。同时我们也认识到,效度是一个相对的概念,它总是针对于一定的测试对象和目的而言的。作为一种间接的测量手段,通过抽样的形式完成对学生语言能力的测试任务,因而,它不可能达到百分之百的准确。另外,经审核合格的题目目前只是通过了纸质考试检测评估,最后还需采用项目反应理论为数学模型建立CALT题库,从题库中选取符合受测者语言水平的题目进行测试,届时或许可以更加迅速准确地估计受测者的语言能力水平,使得我们的研究得到进一步地完善。

[1]Alderson,J.C.,C.Clapham & D.Wall.Language Test Construction and Evaluation[M].Cambridge:CUP,1995.

[2]Alderson,J.C.& J.Banerjee.Language testing and assessment(Part Two)[J].Language Teaching,2002,(35):79 -113.

[3]Bachman,L.F.Modern language testing at the turn of the century:assuring that what we count counts[J].Language Testing,2000,17(1):1-42.

[4]Bachman,L.F.Statistical Analyses for Language Assessment[M].Cambridge:CUP,2004.

[5]Bachman,L.F.Fundamental Considerations in Language Testing[M].Oxford University Press,1990.

[6]Bachman,L.F,Palmer,A.Language Testing in Practice[M].Oxford:Oxford University Press,1996.

[7]Cyril J.Weir Communicative Language Testing[M].Prentice Hall,1990.

[8]J.Charles Alderson语言测试的设计与评估外[M].北京:外语教学与研究出版社,2000.

[9]Douglas,D.Developments in language testing[J].Annual Review of Applied Linguistics,1995,(15):167 -187.

[10]Shohamy,E.The relationship between language testing and second language acquisition,revisited[J].System,2000,28(4):541-553.

[11]何勇斌.听力测试的构想效度及其实现[J].外语教学,2005,26(3).

[12]李清华.语言测试之效度理论发展五十年[J].现代外语(季刊),2006,29(1).

[13]李清华.语言测试与效度验证——基于证据的研究方法述介[J].现代外语(季刊),2007,3(2).

[14]李筱菊.语言测试科学与艺术[M].长沙:湖南教育出版社,2001.

[15]李燕.计算机化口语考试的构念效度研究[D].广州:广东外语外贸大学,2005.

[16]李妍.语言测试的语言能力理论对认知因素的开掘过程[D].北京:北京语言大学,2003.

[17]刘保权.语言测试与跨文化交际能力研究的接口[M].保定:河北大学出版社,2008.

[18]王立非.现代外语教学论[M].上海:上海教育出版社,2000.

[19]汪顺玉,刘世英.英语专业八级考试人文知识部分测试效度分析[J].外语教学,2007,28(5).

[20]汪顺玉.语言测试构念效度研究[M].成都:四川大学出版社,2009.

[13]魏红梅.SPSS对语言测试题信度和效度的检测分析[J].四川教育学院学报,2007,(11).

[21]徐蔚.博士生英语运用能力测试的理论分析[A].第二届中国研究生教育学术论坛论文集[C].2007.

[22]杨满珍.20世纪90年代国外语言测试的发展[J].外语教学,2002,(9).

[23]周世界,鹿学军.以因子统计方法分析语言测试中的构想效度[J].大连海事大学学报(社会科学版),2009,8(2).

[24]邹申,杨任明.简明英语测试教程[M].北京:高等教育出版社,2000.

2012-05-23

海南省教育厅高校科学研究项目(Hjsk200927;Hjsk201230)

邢宏(1965-),女,海南海口人,副教授。

猜你喜欢

区分度效度信度
《广东地区儿童中医体质辨识量表》的信度和效度研究
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
浅谈试卷分析常用的几个参数及其应用
图形推理测量指标相关性考察*
浅观一道题的“区分度”
科技成果评价的信度分析及模型优化
单维参数型与非参数型项目反应理论项目参数的比较研究*
耳鸣残疾问卷中文版的信度和效度检验及其临床应用
被看重感指数在中国大学生中的构念效度
外语形成性评估的效度验证框架