APP下载

TEM-4阅读理解测试内容效度分析

2013-11-13

湖北工业大学学报 2013年3期
关键词:内容效度考纲效度

刘 凌

(1 湖北工业大学外国语学院, 湖北 武汉 430068; 2 华中师范大学外国语学院, 湖北 武汉 430072)

效度的高低是衡量语言测试最重要的指标,或者说是语言测试的基本出发点,一项效度很低的语言测试是没有意义的[1]。英语专业四级考试(Test for English Major-band 4,简称TEM-4),作为国内唯一英语语言文学专业学生基础阶段的大规模标准化语言测试,其效度倍受关注。广大学者对其中占分比例较大的阅读理解的内容效度尤为关注,相关研究持续不断。Arthur Hughes[2]曾经从正反两方面提出内容效度的重要性:测试的内容效度越高,越能精确测量想要测的语言能力;内容效度低的测试会带来负面的反拨效应,测试中应该要测而未被测量的内容将有可能被教师和学生忽略。

纵观已开展的研究,研究者的研究方法和角度基本相同。即,选择连续几年的测试真题,分别从选材、阅读速度、阅读难度、出题角度等方面与教学大纲进行逐一对比,评估其内容效度高低[3]。这种研究方式主要基于成就考试的性质和内容效度的定义。本文将沿袭一贯的研究方法,对2009至2012年的TEM-4阅读测试部分进行内容效度分析,并从测试的反拨作用及内容效度和构念效度的关系两方面进行评价和提出进一步完善的建议。

2005年起实施的新版《高校英语专业四级考试大纲》[4](以下简称新《考纲》)明确英语专业四级考试的性质是“标准参考性教学检查类考试”,目的是“全面检查已完成英语专业基础阶段课程的学生是否达到了《大纲》所规定的各项英语专业技能要求”。因此,英语专业四级考试是成就测试,是基于教学大纲(syllabus-based)内容上的考试,相比基于语言理论(theory-based)的水平考试,其突出特点是与教学大纲的密切联系。

内容效度( content validity)属于内在效度,即测试本身的效度。它指的是测量工具内容上(包括材料、题材、题目)的代表性(representativeness)或所选内容样本的充分性(sampling adequacy)[5]。本研究根据Bachman和Palmer[6]提出的考试任务特点框架,从语篇输入特征和预期回答特征上考查TEM-4阅读测试内容上的代表性和所选内容样本的充分性。语篇输入包括体裁、题材、文章长度、文章阅读速度和篇章难度;预期回答特征包括阅读能力的考查,题项的设计。分析中选择新《考纲》进行逐一比较,因为新考纲在测试要求上与《高等学校英语专业英语教学大纲》[7]中对阅读理解四级水平的规定完全一致,并在选材原则和测试形式上作出较《大纲》更为明确的规定。

1 选材是否符合测试要求

据新《考纲》,TEM-4阅读理解材料的选择应符合以下原则:1) 题材广泛,包括社会、科技、文化、经济、日常知识、人物传记等。2) 体裁多样,包括记叙文、 描写文、说明文、议论文、广告、说明书、图表等。从表1可看出,阅读文章的选材范围广泛,从日常知识的打电话,修电脑,付小费,大扫除,到社会热点,如经济大萧条,大学生毕业就失业等现象;从地理奇观纳斯卡线到历史奇观开罗的图坦卡蒙法老金雕像,从科技,如解读工程师的贡献,提炼优秀科技人员的思维行动方式到人文,如毕业演说,饮食文化,日式相亲,还包括人物传记,哈灵顿。不仅如此,专四的阅读测试在选材上秉承一贯宗旨:“所选文章虽是大众热门话题,但通常,作者的观点,探讨的角度与大众观点,传统角度不同”[8]具体说来就是突出一个“变”字。首先表现在话题不变但切入点变化;如,关于手机,不再是它的通话便捷,短信编辑或者是娱乐功能,而是将其用作回避社交的功能;小费问题,着眼的不是常见的餐厅酒店的小费,而是付给从事物业的人员的假日小费;虽然谈的是常见的“如何表达谢谢”,但却出人意料地谈到用“thank you”表达谢意从使用频率上来说只排第20位;关注的是美国近期热点“经济大萧条”,但没从铺天盖地的叙述“大萧条”带来的负面影响的材料中选取文章,而是另辟蹊径地选取“大萧条”所带给人们在生活和工作方式上的正面影响;其次,有些文章本身就凸显“变化”,如:2011年的TEXT A 阅读模式的改变;TEXT C 日本人相亲方式的改变;2012年的TEXT C 60年前后大学毕业就业情况的变化。这样的选材原则既保证泛而不偏,与英语专业学生基础阶段的阅读水平相符,又可避免受试者仅凭其背景图示来选择答案;并从扩大视野,开阔角度,培养批判性阅读习惯方面起到良好的反拨作用。需要指出的是虽然各题材的比例不是绝对均衡(社会、科技、文化、经济、日常知识、人物传记的比例是:2∶3∶6∶1∶3∶1),但符合各类题材在现实阅读中出现的比例,而且充分考虑到基础阶段英语专业学生的阅读能力与水平。与专四考试相比,专八考试和全国研究生入学考试中社论所占的比例较大。

从表1还可以看出,阅读文章在体裁的多样性上不断改进:首先“加大了记叙文的比重,由2001-2004年的6.25%增至2005-2008年的25%”[8],2009-2012年在继续保持25%的记叙文的比重上,试题编撰者有意识地选取夹叙夹议的文章,一定程度上弥补议论文选材的不足。描写文则延续了颁布新大纲之后2005-2008年四年描写文所占的比重6.25%[8]。描写文、记叙文、说明文、议论文在专四阅读测试中的比例为:1∶4∶8∶3,逐渐接近现实生活中实际阅读情形。不足之处在于广告、说明书、图表一类实用体裁的文章继2005年取消Skimming & Scanning部分考题后完全缺失。这一定程度上影响了内容效度,并且这些实用文体在日常生活中随处可见,如果在专四考试的阅读中能占据一定比例,势必会提高学生对此类体裁文章的关注度,提醒他们随时留意生活中的英文广告,说明书和图表。其结果一方面可以不自觉地提高学生的英文输入,另一方面也丰富了学习者的阅读体裁,有利于培养学生针对不同文体采取不同阅读策略的阅读能力,促使他们成为一个灵活应对各种文体的具备策略意识的读者。

2 阅读速度是否达到测试要求

新《考纲》[4]对阅读速度是这样规定的:“阅读材料共长1800个单词左右。每篇材料后有若干道题。学生应根据所读材料内容,从每道题的四个选项中选出一个最佳的答案。共20道题。”根据表2统计,2009-2012年的阅读材料的长度除2010年外,均在1800词左右,符合大纲要求,但2010年和2011年两年的材料长度及题目字数有较大差异,总字数相差超过400词,几乎相当一篇文章的长度,极大地影响不同年度考生的公平性。另外,需要补充说明的是,虽然考纲要求“阅读速度为每分钟120个单词”,“考试时间为25分钟”,在研究中不宜用120词乘以25分钟共计3000词作为衡量阅读材料长度的标准,因为这25分钟的考试时间既包括阅读材料也包括答题及填涂答题卡的时间。

表1 2009-2012年TEM-4阅读理解材料题材体裁一览表

表2 2009-2012年TEM-4阅读材料字数一览表

3 阅读能力的考查是否符合测试要求

阅读能力在阅读过程中通过不同的阅读技能加以体现。邹申和杨任明[9]把Heaton于1978年提出的14项阅读技能分为三类:基本语法词汇概念,语法词汇运用技能和篇章理解技能。《考纲》[4]对TEM-4阅读理解的测试要求是:“……能掌握所读材料的主旨大意,了解说明主旨大意的事实和细节;既理解字面意思,又能根据所读材料进行判断和推理;既能理解个别句子的意义,也理解上下文的逻辑关系。”不难看出,专四阅读技能测试要求集中在篇章理解技能。具体分析如下:

表3的统计结果显示近四年试题考点的覆盖量达到《考纲》要求,试题的分布总体比例符合真实阅读情况下主旨,细节,态度,推理等的实际比例,但其中2011年的“事实和细节”题型与“判断、推理和引申”题型比例失调,这一定程度上会影响不同年度考生的公平性。

表3 2009-2012年TEM-4阅读理解试题考点一览表

近四年试题继续延续新《考纲》实施以来,保证每年的考题都涉及主旨大意和作者态度观点的题型,从表格上看09年没有作者态度观点题,主要是因为09年有3篇文章均是以第一人称的角度,夹叙夹议。故笔者在分类时,把涉及文中“我”的态度题目均归入细节推断题。此外,继2008年设计两道有关文章结构与上下衔接的问题[8],近四年试题已经固定下这一题型,每年都设计1至2道结构题,满足了大纲“理解上下文的逻辑关系”的要求。

以上两点的改进,显示专四阅读测试在考查角度把握上的日趋成熟。这无疑加强了专四阅读测试的正面的反拨效应,促使学生提高篇章意识,更好的理解衔接手段的作用,形成观点与材料紧密联系的整体阅读观,改变学生单一使用bottom-up model的阅读模式,逐步引导学生形成综合的阅读模式,即:bottom-up model和 top-down model综合使用。

4 题项的设计是否符合测试要求

依据《考纲》规定,专四阅读理解部分的测试形式一直采用信度较高的多项选择题。比较市面上权威参考书所提供的答案发现,近4年的考题设计更趋于严谨,仅有2道题目出现不同的参考答案。但笔者仔细考查试题,发现仍有完善的空间。一是“作者态度题”的干扰项设计。近4年共有6道“作者态度题”,其中2010年第90题,2011年第83题和2012年第93题的干扰项设计科学,但2010年第85题和2012年的第92题,第100题这三题都有unclear, not clear, indifferent作为干扰项,然而,这样的干扰项对考生实际无法起到干扰作用。

阅读测试的文章均来自公开出版发行的刊物,这些文章的作者并不以被选中考题为写作目的,而是因为对所撰写的话题关注,感兴趣;因此,作者对所写话题抱有明确态度,不可能持漠不关心(indifferent)和不清楚(unclear, not clear)的态度。事实上,笔者研究了多种国内全国性标准化测试的阅读真题,没有以上述选项作为正确项的题目。正因如此,上述干扰项很容易被考生在思考“作者态度”题时,第一时间排除掉,增大猜测几率。同样的问题还出现在09年第90题,这是道风格题(What is the tone of the passage?)题目中也有unclear这样的干扰项。一篇能够被公开发表的文章质量上是有保障的,这样的文章一定有较鲜明的风格特点,所以,unclear这样的干扰项形同虚设。二是在题干的编写上,应该把选项中重合的部分并入题干[9]。建议2009年第81题的题干改为:“According to the passage, when one is , most weight be imposed on hip-joints. ”建议2010年第92题的题干改为:“‘But graduation speeches are less about the message than the messenger′ is explained in the paragraph.”建议2011年第81题的题干改为:“According to the passage, paragraph briefly reviews the historical challenges for reading. ”建议2009年第96题把选项中的he并入题干,第97题把选项中的didn′t并入题干,第100题把选项中的Ed并入题干,2011年第88题把选项中的Because并入题干;2012年的第88题可以仿照2009年的第99题改为“Which of the following statements is CORRECT about Cindy?”

5 建议和结语

综合以上分析,近四年的TEM-4阅读理解测试的内容效度有进一步的提高,试题命制更科学,更严谨,更规范,更好地发挥其正面的反拨作用。具体表现在选材广泛:既紧密联系生活,又角度新颖;体裁多样:通过增加夹叙夹议文章的方式增加了文体形式。各类题材及体裁之间的比例分配均充分考虑真实阅读情形和考生的阅读水平。阅读能力的考查方面对作者的观点和态度、主旨大意及逻辑结构的稳定涉及弥补了此前考题在“理解上下文的逻辑关系”上考查方面的不足。

但TEM-4阅读理解测试仍有完善的空间:首先,在体裁多样性上,新《考纲》在旧《考纲》的基础上,特别增加了描写文,广告、说明书、图表等体裁方面的要求。这要求试题命制者考虑如何将原有放在Skimming & Scanning中考查的内容有机地融入改版后的阅读材料中。其次,篇章的长度仍然欠稳定。更主要的是,题项的设计既存在技术上的问题(如上文所分析),也存在构念效度的问题。阅读考试全部采用多项选择题,保证测试信度的同时,不可避免的忽视了大量真正语言输入和交际能力的检测[10]。内容效度是做为整体概念的构念效度框架下的一个组成部分。内容效度的局限性在于只关注测试而不关注考生,所以,即便是基于大纲的成就测试也必须进行构念效度的整体分析,否则,即便内容效度很高的测试,其测试结果也不足以作为考生能力的评价指标[3]。李俊和葛俊丽[11]通过实验验证,多项选择题答案的唯一性掩盖了该测试题型的主观性,即出题者在出题过程中将主观意识加入到试题中,而且这种主观意识的体现影响了阅读试卷的效度。当然,试题组可以通过反复前测中的难易度、区分度和选择项分析,进一步提高多项选择题的客观性。即便如此,多项选择题型还存在除无法避免的猜测几率外另一个问题,即测试者无法了解考生做出选择的原因,既有可能因为错误的原因选出正确的答案,也可能因为正确的原因选出错误的答案[12]。所以,虽然多项选择题在评卷上能极大的避免主观因素带来的误差,但如果这种测试形式无法满足阅读理解能力测试的构念效度,建议尽量使TEM-4的测试方式或任务贴近真实阅读活动,有选择地增加一些诸如关键词问答(short-answer question)、信息转换(information transfer)、填空题(blank-filling)、匹配(matching)等。事实上,近年来,国内的全国英语研究生入学考试,全国英语等级考试(PETS)和国际的雅思(IELTS)考试都有很好的尝试。大纲与测试之间的关系是一种互动关系;充分利用并且利用好这种互动关系,对我们不断改进教学与测试大有裨益[13]。

本研究的局限性在于回避了“篇章难度”这个方面的考查,原因是《考纲》中规定的“中等”是个模糊表述,虽然国外许多语言学家和心理学家都提出了量化计算阅读材料易读度公式,如SMOG系数、Fry估量法、Flesh公式等,但易读度公式的测算仅从平均词数和音节的角度进行,并不能绝对说明问题,因为具体一篇文章的难度还受到其他一些重要因素的制约,比如题材、体裁、词汇、专业背景知识、母语/非母语、语法结构等等[10]。国内相关研究中用相同易读度公式考查相同测试的难度值也不一致,如侯艳萍[10]和徐晶[3];陈柳青[14]和陶加辉&邬小琴[15]。《考纲》还进一步规定专四阅读的选材难度为“能读懂难度相当于美国Newsweek的国际新闻报道。能读懂难度相当于Sons and Lovers 的文学原著。”对于前者,试题编撰者只需从Newsweek或与之相当难度的Time,U.S News & World Report等选材即可;而对于后者,笔者建议利用美国的一些阅读评级网站[16]。如,用蓝思(Lexile)评级可查到Sons and Lovers的阅读分值为1200L,试题编撰者可以选用蓝思分级阅读分值为1200L左右的文学原著,这样,就能较好地满足考纲对阅读材料难度的要求。

客观而言,要在有限的时间、有限的材料里做到面面俱到绝非易事。英语专业四级考试自1990年开始实施至今,不断更新理念,完善试题,极大地推动英语专业教学的改革创新,真正实现TEM-4实施的教育目的和社会价值。

[参考文献]

[1] 刘润清,韩宝成. 语言测试和它的方法[M]. 修订版. 北京:外语教学与研究出版社, 2004:206.

[2] Arthur H.Testing for Language Teachers[M].北京:外语教学与研究出版社,2000:22-28.

[3] 徐 晶. 英语专业四级考试阅读理解内容效度研究[J]. 湖北经济学院学报(人文社会科学版), 2013, 10(1):208-210.

[4] 高等学校外语专业教学指导委员会英语组. 高校英语专业四级考试大纲(新版) [Z]. 北京:外语教学与研究出版社;上海:上海外语教育出版社, 2004.

[5] Kerlinger F N. Foundations of behavioral research[M].New York: Holt, Rinehart and Winston, 1973: 458.

[6] Bachman L F, Palmer A S. Language testing in practice[M].Oxford: Oxford University Press,1996:56-72.

[7] 高等学校外语专业教学指导委员会英语组. 英语教学大纲[Z]. 北京:外语教学与研究出版社;上海:上海外语教育出版社, 2000.

[8] 刘 凌.TEM-4阅读理解测试内容效度分析[J]. 安徽工业大学学报(社会科学版), 2008, 25(6):115-117.

[9] 邹 申,杨仍明.简明英语测试教程[M].北京:高等教育出版社, 2005:86.

[10] 侯艳萍. 近七年英语专业四级阅读理解内容效度评估[J]. 河北大学学报(哲学社会科学版), 2012, 37(4):142-147.

[11] 李 俊,葛俊丽.论英语阅读测试的内容效度问题[J]. 浙江工业大学学报(社会科学), 2002, 30(6):603-609.

[12] Alderson J. C.Assessing Reading[M].北京:外语教学与研究出版社, 2011:212.

[13] 邹 申. 语言教学大纲与语言测试的衔接——TEM8的设计与实施[J]. 外语界, 2003,(6):71-78.

[14] 陈柳青. 阅读理解内容效度分析[J]. 延安职业技术学院学报, 2010, 24(2):65-67.

[15] 陶加辉,邬小琴. 大学英语新四级阅读理解内容效度研究[J]. 教育与考试, 2010 (2):32-36.

[16] 姜洪伟. 美国阅读分级方式简评及思考[J]. 出版发行研究, 2010 (10):10-14.

猜你喜欢

内容效度考纲效度
COSMIN方法介绍:评价患者报告结局测量工具内容效度的评分系统
用联想的方式复习考纲动词
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
诵读100句,记考纲重难点词汇(二)
通读100句,记考纲重难点词汇(一)
英语专八阅读理解部分内容效度的历时对比研究(2009—2017年)
把握准考纲,吃透双曲线
被看重感指数在中国大学生中的构念效度
大学英语新四级阅读理解内容效度研究
外语形成性评估的效度验证框架