2015—2017研究生英语入学考试（一）阅读部分内容效度研究

2018-12-27牟欣

课程教育研究 2018年45期

【摘要】研究生英语入学考试是大规模高风险考试，其阅读部分占总分值60%，对整个考试的效度水平影响巨大。本文以考试大纲作为依据，采用Bachman的任务特征框架理论以及Flesche易读度参考量表2015-2017年试卷阅读部分进行内容效度分析，发现在题材和体裁上试题分布并不均匀，偏重议论文和社会科学类文章。对阅读速度没有设置考察，但是三年的体量相差较大，因此对阅读速度的隐含考察也有差异。可读性差异也很明显，呈两年高一年低的数据，同时阅读技能考察也偏向浅层次的细节查读，而对深层次的阅读能力考察较少。这些数据反映出的问题必将会影响考试的公平性和可靠性。

【关键词】内容效度研究生英语入学考试任务特征框架

【基金项目】X5018013201603，学术英语大规模读写测试的效度研究，校人文社科基金。

【中图分类号】H319 【文献标识码】A 【文章编号】2095-3089（2018）45-0120-02

一、研究背景

研究生英语入学考试（NETEM）是一种尺度相关——常模参照性考试，是由教育部高等教育司主办的全国性教学考试。其考试性质是“为高等学校和科研院所招收硕士研究生而设置的具有选拔性质的全国统一入学考试科目，其目的是科学、公平、有效地测试考生，对英语语言的运用能力”[1]根据2015-2017年NETEM考纲的描述，考试分为听力，阅读和写作三个部分，阅读部分占到总分比值的60%，占比远超“英语知识运用”（10%）和“写作”（30%）[1]。鉴于此考试是一个大规模高风险的考试且关系到诸多学子的教育公平，对其内容效度进行研究十分必要。

有关考试内容效度的研究在国内外已经十分成熟，相关理论及成果层出不穷。早在1998年杨惠中和Weir.C.J.进行了大学英语四、六级考试效度研究[2]。他们以1987-1995年的四、六级考试为材料，通过对比考试，实证研究，问卷调查和座谈等形式研究了其构念效度，内容效度和其他效度；2009年杨惠中做了此项研究的后续历时研究，内容涵盖1996至2007年的阅读考试，采用Bachman提出的任务特征框架[3]。他们的研究均证实四、六级考试的阅读部分具有很高的内容效度，基本涵盖大纲的要求。陈燕（2007）[4]研究了2003至2006年阅读部分多项选择题的内容效度；邓会（2014）研究了2010-2014年考研英语（二）阅读部分的内容效度[5]。

本文对2015-2017年度的研究生英语入学考试（NETEM）阅读部分进行效度研究，采用Bachman（1990）[6]的任务特征框架理论，验证试卷内容是否符合考試大纲要求，内容效度如何。

二、研究方法及结果

关于效度和内容效度的研究有丰富的理论成果，大部分学者都认可Haynes（1995）[7]提出的定义，即内容效度是一种指标或程度，旨在衡量某个有特定目的的测试其构念的相关度和代表性。而一个测试或者测试工具的代表性是指对目标构念的各个因素的吻合度（Lynn，1986；Nunally&Bernstein;，1994；Suen&Ary;，1989）[8-9]。其中“构念”是指目标测试的概念，属性和各种变量（邓会，2014）[5]。

Bachman（1990）[6]提出的任务特征框架理论是被众多测试研究学者认可的，成熟的效度测量理论。此理论认为测试的内容效度有六个考核标准：测试环境，测试说明，文本输入，预期回答，以及文本输入和预期回答的关系。

2015-2017年考纲阅读部分要求变化很小，对阅读能力的要求如下：

“考生应能读懂选自各类书籍和报刊的不同类型的文字材料（生词量不超过所读材料总词汇量的3%），还应能读懂与本人学习和工作有关的文献资料，技术说明和产品介绍等[1]”。

结合任务特征模式理论和考纲要求，考虑到NETEM考试的稳定性和规范性，本文着重从文本输入和预期回答两个方面来进行研究。

1.文本输入

文本输入包括体裁，题材，文本长度，阅读速度和可读性五个方面[6]。

体裁一般分为四个大类：描写文（描述人，事物，场景，反映作者的内心世界），记叙文（描述事件或人物的发展），说明文（旨在说明事物的结构，属性，特征，范围等等）和议论文（通过运用抽象的思想来揭示事物本质，使读者接受作者的思想并有所行动）。

题材按常见类型分为自然科学，社会科学和人文科学。

阅读速度在考试大纲和考试说明中都没有明确的要求，而且题型设置上也没有对阅读部分的时间加以单独设计，所以只能按照阅读部分占总成绩60%折合。总考试时间为180分钟，因此认为阅读部分的总答题时间为108分钟。根据杨惠中和Weir.C.J.[2]的研究结果，阅读题中文本阅读和答题的时间比例大概是1：0.75，所以本研究认为阅读文本时间理论上应为62分钟。

从统计结果不难看出，近三年的阅读题材主要集中在议论文，也有少量的说明文出现，但是英文四大文体中的描写文和记叙文则完全没有出现。题目选择则偏社会科学，偶尔也有美国历史或是狄更斯生平这种主题的人文类阅读，但是自然科学类型的材料完全没有出现。根据考试大纲对阅读能力的要求“考生应能读懂选自各类书籍和报刊的不同类型的文字材料（生词量不超过所读材料总词汇量的 3%），还应能读懂与本人学习或工作有关的文献、技术说明和产品介绍等。” [1]三套题的体裁和题材分布都是不均衡的，没有照顾到多样性。特别是考虑到研究生入学后需要大量阅读和使用学术英语，在“与本人学习或工作有关的文献、技术说明和产品介绍等”方面的阅读材料，应有所加强。阅读篇幅差异也很明显，16年阅读题篇幅只有15年和17年的65%左右，因此在阅读速度要求上也会不同。

关于阅读材料的难度，使用Microsoft的易读度统计。结果显示，三年阅读部分难度波动比较大（见表二），15年和17年达到了“较难”的程度，而16年则是在“难”的范围内。同一份试卷内不同题目之间的难度差异也很大，特别是17年的翻译题，难度骤降到18.1。阅读题难度不稳定也是一个对信度的干扰因素，虽然易读性不是衡量文本难度的唯一标准，但是仅此一项的大幅度变化，对考试信度和公平性也会带来损害。

2.预期回答

预期回答主要研究阅读能力考查和题型。根据考纲要求，NETEM应该考核的阅读技能有8项[1]。

1）理解主旨要义；2）理解文中的具体信息；3）理解文中的概念性含义；4）进行有关的判断、推理和引申；5）根据上下文推测生词的词义； 6）理解文章的总体结构以及上下文之间的关系；7）理解作者的意图、观点或态度；8）区分论点和依据。

为了统计方便，我们将这八种技能标号为S1-S8，这八种阅读技能在三年考题中分布如下：

其中S1、S6和S7考核整体阅读技能，而S2、S3、S4、S5和S8考查细节阅读技能。

从百分比可以看出，细节阅读技能在考试中占有压倒性优势，达到总体比例的66%，说明在考试中，学生关注细节信息比较容易得到高分，而对文章整体主旨结构的掌握要求偏低。特别是对S2的考查，占38%之多。在涉及S2的考题里，学生只要较好的理解了信息点出现的一句或者几句话，就可以作对大部分的阅读题，而对文章的整体结构并不需要明确掌握。S3在三年的阅读题中没有明确的考查到，这可能与题材和体裁的偏向性有关。由于缺乏说明文和描写文，也少见自然科学类的文章，所以也沒有涉及理解概念性信息的题目出现。S8的考查也很少，在2017年的最后一题中有间接的考查。这两种技能的考查程度和考纲要求的有一定差异。

此外，阅读理解也是一种涉及不同层面的认知过程，根据Barrett（1974）提出的一个由易到难的阅读技能水平。从NETEM的考查技能来看，目前的考核范围仍然主要集中在前三个层次，这三个层次也被称为直接陈述信息（explicitly stated information），而对深层次的阅读能力考查基本没有涉及。

三、结论

从以上分析可以看出，2015-2017年研究生入学英语考试（一）的阅读部分，在体裁上较偏重议论文，说明文也有一定涉及，但是描写文和记叙文完全没有，与考纲要求有差异。题材上偏向社会科学，自然科学类文章没有涉及，与考纲要求有差异，对于不同专业参加考试的考生也显失公平。在阅读速度上篇幅差异较大，尤其是16年篇幅明显偏短；而且题型设计里没有速度要求的设置，所以不能排除考生会以牺牲其他题目的做答时间为代价完成阅读。综合八种阅读技能的覆盖程度，阅读部分对查读的考查十分充分，而对略读以及文章总体结构的考查则涉及较少，考查层次偏浅。这些数据反映出的问题必将会影响考试的公平性和可靠性。

参考文献：

[1]教育部.全国硕士研究生招生考试英语（一）考试大纲：非英语专业：高教版2016[M]. 高等教育出版社，2015.

[2]杨惠中.大学英语四、六级考试效度研究[M].上海外语教育出版社， 1998.

[3]蒋淑均.大学英语四、六级考试阅读理解测试内容效度研究（1996-2007）[D].重庆大学，2009.

[4]陈燕.全国硕士研究生入学统一考试英语考试的阅读理解内容效度研究[D].西南交通大学，2007.

[5]邓会.全国硕士研究生入学统一考试英语（二）的阅读理解内容效度研究[D].华中师范大学，2014.

[6]Bachman，L.F.（1990）.Fundamental Considerations in Language Testing[M].Oxford： Oxford University Press，1990

[7]Haynes，S.N.，&Edward;， S.K， et al. Content Validity in Psychological Assessment： AFunctional Approach to Concepts and Methods[J].American Psychological Association，1995，3，238-247

[8]Lynn，M.R.Determination and Quantification of Content Validity[J]. Nursing Research， 1986，35，382-385

[9]Nunnally， J.C.& Berstein， I.H. Psychometric Theory （3rdED.）[M].New York：McGraw-Hill，1994.

作者简介：

牟欣（1978.2.9-），女，汉族，甘肃省兰州市人，硕士研究生学历，讲师，研究方向为教育测量，英语测试的效度与信度，二语习得的认知诊断。