大学英语四级考试集库式完形填空［1］的内容效度研究

2014-04-26袁慧

宿州教育学院学报 2014年5期

关键词：低水平区分度效度

袁慧

(上海外国语大学研究生部上海200083；上海海洋大学外国语学院上海201306）

大学英语四级考试集库式完形填空［1］的内容效度研究

袁慧

(上海外国语大学研究生部上海200083；上海海洋大学外国语学院上海201306）

本文旨在研究大学英语四级考试集库式完形填空的内容效度，即探索它是否能测量被试在篇章层次上理解和运用单词的能力。被试为上海某高校438名非英语专业学生，研究工具为四个测验。其中两篇测验（整A和整B）取自大学英语四级考试历年真题。另外两篇测验（散A和散B），分别改编自整A和整B。随机抽取的高低两个水平的被试，分别完成了一个整篇原文测验和一个散句改编测验。结果显示，在整篇原文和散句改编测验中，高水平被试的成绩并没有体现显著差异；低水平被试整篇和散句测验成绩有显著差异。研究表明，可通过提高考点层次、适当增加选项的干扰性来提高大学英语四级集库式完形填空的内容效度。

大学英语四级考试集库式完形填空内容效度

2006年大学英语四级考试(以下简称CET4)实行改革，在传统的分题多项选择式完形填空之外增加集库式完形填空这一新题型，旨在“考核学生篇章语境中的词汇理解和运用能力”[1]。从2013年12月开始，集库式完形填空独挑大梁，完全取消分题多项选择式完形填空。对于集库式完形填空的内容效度，即在多大程度上能代表它所要测量的目标，尚未有充分的证据。基于此，本研究主要以定量的实验方法探索该题型的内容效度，力求为CET4改革提供更多参考依据。

一、研究背景

已有的集库式完形填空效度研究多涉及和其他类型的完形填空对比。有多种类型对比，如魏晓红[2]、史君[3]、刘敬涛[4]对比集库式和多项选择式、开放式完形填空的效度。前两者的研究表明，集库式完形填空和开放式完形填空更为相关，在一定程度上测试受试的阅读能力；而且集库式完形填空的难度和区分度达到三者里的最佳值。但刘敬涛的研究结果略有不同，集库式完形填空的难度和区分度处在三类完形测试中间。

除了上述的多种类型对比，还有两两对比研究。何莲珍[5]运用相关矩阵，对比集库式与分题选择式完形填空，指出前者比后者在测量阅读能力上有更高的效度。彭苗苗[6]对比CET4的多项选择式和集库式完形填空，也表明集库式完形填空和阅读理解能力更相关，且难度更大、区分度更高。李丽[7]以25选20的集库式完形填空为研究对象做了类似的研究，结果一致。

和上述研究不同，陈艳君[8][9]通过定量与定性相结合方法，对集库式和分题选择式完形填空进行对比研究，同样证明前者的难度和区分度都大于后者。然而，有声思维研究结果显示受试在答题过程中较多地使用句内层面信息，跨句子语篇层面信息的运用则相对较少。

不涉及对比，高晓莹[10]和郭丽[11]的研究是专门针对集库式完形填空。高晓莹的研究是唯一运用内省法和即刻追述法的研究，分析了12名非英语专业学生解答该题型的心理过程。其研究表明阅读水平高的受试在答题过程中似乎更偏重对篇章的理解，而阅读水平低的受试更依赖于对单词的理解。郭丽的研究探索了CET4集库式完形填空的内容效度，结果显示：对于叙述型文章的完型填空，句与句之间的信息发挥了较为显著作用，而高水平组受试最有效地利用了这种篇章层次的线索；而在另一篇百科全书式文章的测验中，句子之上的线索没有发挥显著效应。两项研究表明，被试的水平以及篇章的类型对被试是否运用篇章层次之上的信息有影响。

综上所述，目前对集库式完形填空的研究多涉及到和其他形式完形填空的对比，专门针对CET4集库式完形填空的效度研究并不多。在对比研究中，集库式完形填空多体现出了较高的效度和区分度，能较好地测量出被试的综合能力。但在单独针对CET4集库式完形填空的研究中，集库式完形填空并没有体现较好的内容效度。因此，有必要对集库式完形填空的效度开展进一步研究。

二、研究设计

（一）研究问题

本研究主要回答以下两个问题：(1)集库式完形填空是否能测量受试在篇章层次上理解与运用词汇的能力？(2)不同英语水平的受试在篇章层次上理解与运用词汇的能力是否有区别？

（二）研究对象

受试为上海某高校2013级438名新生，分高低两个水平，各两个班级，共四个班级参加本实验。

（三）实验工具

研究工具为四个测验。其中两个集库式完形填空测验，选自2009年6月和2010年12月CET4，分别是原文整篇测验A(以下简称“整A”)和原文整篇测验B(以下简称“整B”)。整A有260个单词，共15句，它陈述了一名教师的教学想法。整B有236个单词，共13句，主要阐述基因是人类很多特性的基础。

表1:整A和整B考察点比较

从以上的考点分析，可以看出整A和整B基本一致。

另外两篇测验分别改编自整A和整B。把整A切分成单独句子，再剔除5句不包含题项的句子，然后将句子顺序打乱，形成了新的测验——散句测验A(以下简称“散A”)，由10个独立句子组成，分别编号。以同样方法形成散句测验B(以下简称“散B”)。在供选择的15个单词上，整A和散A，整B和散B是一致的，同样以字母顺序排列，以相同的方式在一个方框中给出。而且，这四套卷子的题目和词库都在同一页打开，方便测试对象。因此整A和散A的区别在于，前者中的句子是在正常的语篇中出现的，是按原来的自然顺序排列的，而散A中句子的自然顺序被完全打乱。整B和散B的区别与整A和散A的区别一样。评分方法是采用唯一选择法(only word method)。如果被试在整篇和散句的情况下，成绩没有显著差异，则说明整篇的上下文语境对被试没有帮助。

整A和整B两套试题的难度对比通过测试另外不参加本研究的学生完成。141名学生同时做了整A和整B，配对样本T检验结果表明二者难度不存在显著性差异(t=-0.032，P＞0.05)。另外56名学生同时做了散A和散B，配对样本T检验的结果表明二者难度也不存在显著性差异(t=-0.336，P＞0.05)。

(四）数据收集与分析

1)对随机抽取的高低水平共4个班级学生的入学考试成绩分别进行独立样本T检验，结果显示高水平的两个班级之间在语言水平上不存在差异，低水平的两个班级之间的语言水平也不存在差异。这样排除了测试对象在水平能力上的差异，如果实验结果有差异，那也就是试题上的差异，也就是完形填空上的差异。

2)在同一个时间段，低水平班级1(简称L1)在课堂上做整A和散B两篇试题，低水平班级2(简称L2)做散A和整B两篇试题。高水平班级2(简称H1)在课堂上做整A和散B两篇试题，高水平班级2(简称H2)在课堂上做散A和整B两篇试题。每篇试题的做题时间严格控制在10分钟之内。测试之前，为了降低学生的焦虑感，告诉学生测试的分数不计入课程成绩。回收试卷的有效份数即参加本研究的人数如表2所示。

3)四套试题分别有10个空，每个空1分。据此评分标准得出的成绩结果被输入SPSS 17.0中，用独立样本T检验来检验整A和散A的成绩，整B和散B的成绩是否存在显著差异。

表2:总体情况列表

四、研究结果

（一）低水平两个班级整A和散A成绩对比结果

表3:低水平两个班级整A和散A成绩独立样本T检验结果如下所示

检验结果显示，低水平学生的整A和散A的成绩存在显著性差异(t=-2.942，df=207，P＜0.05)。低水平学生的散A的成绩明显好于整A的成绩。从两者的标准差来看，整A的标准差高于散A的标准差，说明整A的区分度高于散A。

（二）低水平两个班级整B和散B成绩对比结果

表4:低水平整B和散B成绩独立样本T检验结果如下所示

检验结果显示，低水平学生的整B和散B的成绩存在显著性差异(t=-5.690，df=207，P＜0.05)。低水平学生的整B的成绩明显好于散B的成绩。从两者的标准差来看，整B的标准差略高于散B的标准差，说明整B的区分度略高于散B。

（三）高水平两个班级整A和散A成绩对比结果

表5:高水平整A和散A成绩独立样本T检验结果如下所示

检验的结果显示，高水平被试的整A和散A的成绩不存在显著性差异(t=1.924，df=227，P〉0.05)。从两者的标准差来看，整A的标准差略低于散A的标准差，这说明对于高水平的英语学习者来说，集库式完形填空的区分度并不是很好。整A和散A的成绩没有显著区别，说明篇章线索并不起作用。

（四）高水平两个班级整B和散B成绩对比结果

表6:高水平整B和散B成绩独立样本T检验结果如下所示

检验的结果显示，高水平被试的整B和散B的成绩不存在显著性差异(t=-.826，df=227，P〉0.05)。从两者的标准差来看，整B的标准差略高于散B标准差。这样的结果，也让我们质疑CET4集库式完形填空的效度，是否真正地检测到被试在篇章中理解和运用词汇的能力。

五、讨论

对于整A和散A的测验成绩来说，低水平的被试在散句测验的情况下，反而成绩优于在有上下文语境测验的情况。这说明对于A测验，低水平被试不需要利用上下文的线索，同样能解出答案，甚至于做得更好。高水平被试做两种形式的A测验，成绩并无显著差异。综合两种情况，可以解释为被试在做A测验的过程中并不需要篇章之内、句子层次之上的信息。如果被试没有运用篇章之内、句子层次之上的信息，那么集库式完形填空仅仅测试了学生词汇层面的能力。

对于整B和散B的测验成绩来说，高水平被试做两种形式的B测验，成绩也并无显著差异。但低水平被试在有上下文语境的整B测试中，成绩明显优于做散B的情况，这和做A类型的测试情况不一致。在测试结束三天之后？，笔者随机抽取了低水平10名学生进行访谈，追述答题整A和整B过程。下面是其中一位受访者追述答题整B的片段：

“……到最后两题咯。嗯，我对eventually和essentially吃不准，词义我都懂。一个是‘最终，最后’的意思，另外一个是‘实际上，本质上’的意思，……好像放进去都对，可以说‘人最后像一张未……的相片’，也可以说‘人本来就像一张未……的相片’。……，反正一开始瞎选择啦。后来，反复看上下文，还是发现应该是‘人本来就像一张未……的相片’……”

对比了整A和整B的两篇文章，二者都考察了3道句外语境推断题(如表1)。但整A设置干扰选项的迷惑性明显不及整B。例如，整A第三道题选项especially的干扰项remarkably和daily，明显不及整B中的eventually和essentially的相似性带来的混淆大。这就解释上述的受访者在回忆整B答题过程中的困惑，由此相应地解释了低水平被试整B成绩好于散B，但散A成绩好于整A。

而且，数据结果显示对于低水平被试来说，整B的平均分6.1917(见表4)高于整A的平均分5.27(见表3)。同样地，整B的区分度2.63236(见表4)，也高于整A的区分度2.270(见表3)。这说明，如果干扰项设置恰当，不仅能够“考核学生篇章语境中的词汇理解和运用能力”。

另外一方面，高水平被试在整篇和散句的成绩对比中，均无显著差异。这也可以从对高水平学生的随机访谈结果中得到解释。下面是一位被试回忆作答整A的片段：

“……在整A的作答中，大多数情况下，我都是根据语法，还有词汇知识作答。……especially这道题，读起来很顺，自然而然就选了它？……。下面一个题目，不是元音开头的形容词都可以全部排除啊。剩下就是emotional和enormous，很明显单词mansion前面就只能选择enormous啦，没别的选择啦。……”

访谈的结果显示，高水平被试即使是在整篇的情况下，也大多通过句内信息作答。因此整篇测验和散句测验的两种形式的作答对他们的答题成绩没有影响。

六、结论与启示

本研究通过改变试题形式，研究集库式完形填空的内容效度。结果表明：对于较高水平被试来说，篇章信息不起作用；对于较低水平被试来说，如果设置的选项干扰性强，篇章信息对成绩有显著影响。以上的实验说明CET4集库式完形填空的内容效度还有待于进一步提高

未来的改革中，CET4集库式完形填空测试可考虑适当地提高考点层次，“语篇层次考点的题目，显然比单词层次更能测试出测试对象运用语言的真正能力。层次越高，意味着考点的效度越高”？[12]。设置更有迷惑性的干扰项放入词库中供被试选择，避免被试利用语感、猜测、排除等应试技巧。

未来研究中还需要考查其它变量(如删词方式、文本难度等)对集库式完形填空效度的影响。另外，完形填空是一个复杂的心理过程，涉及到一系列的认知活动。本研究的访谈在测试三天之后开展，有自身的局限性。可考虑用有声思维或即刻追述法对受试答题的心理过程进行定性研究。从而为提高集库式完形填空的效度，提供更多真实的证据。

[1]全国大学英语四、六级考试委员会.大学英语四级考试大纲（2006年修订版）[M].北京：高等教育出版社，2007.

[2]魏晓红.多项选择与开放式完形填空的效度对比研究[D].成都：西南交通大学硕士学位论文，2004.

[3]史君.英语阅读测试三种完形填空题型的对比研究[D].清华大学硕士学位论文，2005.

[4]刘敬涛.三种完形填空测量能力的对比研究[D].北京：首都师范大学硕士学位论文，2009.

[5][12]何莲珍.分题选择完型填空与集库式完型填空的对比试验[J].浙江大学学报，1999（6）：97-102.

[6]彭苗苗.英语四级考试中集库式完形填空与选择式完形填空的效度研究[D].东北师范大学硕士学位论文.2009.

[7]李丽.大学英语测试中两种完形填空的效度对比研究[D].西北大学硕士学位论文，2012.

[8]陈艳君.基于答题过程的分析——集库型完形填空与分题选择型完形填空的对比研究[D].广东：广东外语外贸大学硕士学位论文，2008.

[9]陈艳君.完形填空测量能力的效度验证——基于答题过程的分析[J].考试研究，2009（1）：79-93.

[10]高晓莹.集库式完型填空答题过程的内省法研究[D].重庆：重庆大学硕士学位论文，2008

[11]郭丽.集库式完型填空效度研究[J].中国外语，2010，7（4）：70-76.

[1]在《大学英语四级考试大纲（2006修订版）》中，集库式完形填空被称为“选词填空”。但在目前的研究中，该类型的完形填空多被称为集库式完形填空，因此本文沿用此种名称。