完形填空题型的理论基础

2016-07-04白雪

校园英语·上旬 2016年3期

白雪

【摘要】本文根据空缺删除原则的不同，将各种完形填空变体归为基于语言冗余性和基于语言能力成分观两大类，并就两类完形填空对效度论证的不同要求进行了总结。

【关键词】完形填空语言冗余性语言能力成分观效度论证

完形填空（cloze procedure）最初作为衡量文本易读性（readability）的一种研究方法，由泰勒（Wilson L. Taylor）于1953年借鉴格式塔心理学术语closure正式命名。由于出题便捷、评分客观，完型填空被拓展应用于一般性智力测验、母语语言能力测量及学习效果（reading to learn）评定等领域。20世纪六七十年代，该题型开始用于第二语言教学与测试。（Alderson 1979）使用者出于测试目标、语言观以及可行性等方面的考虑，通过空缺删除原则、答题方式等的改变，研发出不同的完形填空变体形式。其中空缺删除原则的不同，反映了设计者的不同语言观，语言观的差异又对完形填空试题开发和效度论证都提出了不同要求。

一、基于语言冗余性的完形填空

1.标准定比删除完型填空。最初，用于易读性测试的完型填空使用定比删除原则（fixed-ration deletion），即每隔n个单词删除一词。被引入母语阅读水平测试领域时，仍坚持这一标准操作程序。通过一系列信度和效标关联效度研究，研究者认为被试在该题型上的表现一致性良好（performance consistency），测试结果稳定有效。

完形填空用于易读性研究和母语水平测试的理论基础是语言中普遍存在可简化冗余性（Language reduced redundancy，简称LRR）（Spolsky et al. 1968）人们有能力通过推测加工出被简化的冗余信息来补全话语完成交际。通过观察被试利用语言固有冗余性来填补空缺的情况，在被试同质的情况下，可判断文本的难易度，在文本一定的情况下，可判断被试的母语水平。在母语水平测试中应用LRR类题型最基本的操作原则是保证采样的随机性，完形填空设计中通过文本选择和空缺设置两层随机性处理，确保对被试语言能力采样的随机性。（Lin et al. 2008）

这种对随机性的强调，是基于反实在论（antirealism）的工具主义（instrumentalism）证明测试有用性（usefulness）的必然要求（Fulcher 2014）。反实在论者认为不存在所谓语言能力这一心理实体，或认为没有必要对其本质及构成进行研究，需要证明的是测试语境（assessment context）对测试成绩使用的目标语境有充分的代表性，考生在测试中的表现可以概化到目标语境（Chapelle 1998）。

对目标语境的代表性一方面通过内容分析等手段比较测试语境与目标语境的异同获得（Jonz 1989），另一方面就要从操作层面确保随机性，保证对目标语境的有效覆盖，传统的定比删词完型程序（fixed-ratio cloze procedure）被认为是保证随机性的有效手段，而基于语言冗余性原则的各类变体形式效度论证中也需要提供随机性证明。

2.基于随机性的完形填空变体形式。六七十年代，定比删词完型用于测试二语综合能力（a measure of overall ESL proficiency）后，研究显示，被试的表现一致性不如母语稳定，不同研究所得的信度差异巨大，在0.31到0.96之间（Brown 2013），为一组被试设计的测试很难在更换被试后取得同样可靠的效果。针对相同被试，文章难度、话题、删词频率的变化也都会影响测试信度。（Klein-Braley 1981）而且，一段完形填空中大量题目的区分度很低。

鉴于此，有研究者在坚持随机性的基础上，对完形填空进行改造以提高测试的稳定性和可靠性。比较有代表性的有以下两种：

（1）剪裁型完型（well-tailored cloze）。即将一篇文章根据首个删词点的不同，按定比删词，设计为一组试卷，进行试测，根据试测得出的题目难度、区分度进行筛选，得到一组改良版试题用于实测。（Brown et al. 2001）

（2）C-Test。标准C-Test中，文章首句保持完整，從第二句起，每隔一词删去一个单词后一半（如单词字母数是单数，则删除部分比保留部分多一个字母。单字母词，如 “I”、“a”，可从计数中忽略。在实际操作中，往往也有以音节为删除单位的情况）。Raatz and Klein-Braley （1981）认为，C-Test比传统完型更严格的遵守了随机性原则，并且具有更高的可靠度。

二、基于语言能力成分观的完形填空

为解决二语教学测试中完形填空信度不高、试题区分度不佳的问题，除上文所述在坚持随机性原则基础上所提出的改良方法以外，有更多的研究者对随机删除原则本身提出了质疑。Alderson指出基于LRR所要求的随机性原则的传统完形填空不适用于二语教学与测试，非母语条件下，删除哪些语言成分还应该基于“语言本体及语言加工理论”。后来更明确区分了两类完型题型，用gap-filling test指基于一定理论的理性删除完型（rational deletion cloze），用cloze专指传统的定比删除完型，并认为前者可用于测试阅读理解能力，后者则不能。（Alderson 2000）

从语言能力成分观出发的删除原则代表了向实在论（realism）方向的转变，研究者认同语言能力（competence）是一种实体性的抽象心理存在，只是不能被直接观察到，需要将设想的抽象能力操作化为可观察的形式，通过被试的表现对这些心理特质（trait）进行推测。（Fulcher 2014）“研究者在现实世界中进行观察，其目的是想在观察的基础上描写、归纳或解释某些东西，而这些东西我们可称之为‘构念（construct）”（Chapelle 1998）

對于理性删除完型来说，测试设计者在不同的语言理论框架下根据各自需要考察的重点，设置空缺，推测被试某方面的能力。如删除语法词考察句法能力，删除实词考察语篇连贯和词汇搭配能力，按比例删除有关句法、连贯、策略运用的词考察多元能力结构（Bachman 1985）等等。

虽然研究者依据的语言理论不同，但研究兴趣大体集中在完型填空能否在各个知识或加工过程层面有效区分被试。有研究认为设计良好的完形填空题能全面反映被试词汇、语法、语篇知识，完成题目既需要低层解码加工过程，也需要高层理解加工过程，题目不仅能检测被试学习阅读（learning to read）的情况，也能反映通过阅读学习知识的情况（reading to learn）。（Gellert & Elbro 2013）另有研究者认为，完形填空只能考察句法词汇知识，完成题目不涉及阅读整合等高层加工过程，题目完成后无法更新记忆中已有的情境图式（schema），不能从阅读中学习新东西，和自然阅读加工过程存在极大差异。（Nation & Snowling 1997） Brown（2004）则综合双方观点，认为完形填空对低水平被试来说，更偏重考察低层加工能力，对高水平被试来说，更侧重考察高层加工能力。

因为对完型填空能否考察高层阅读加工能力争议较大，为明确突出考查语篇阅读能力的目的，研究者又专门开发了以下变体形式：如句子/语段完型（gap sentence/ gap text），即抽取文中的句子、段落，打乱顺序回填（用于First Certificate in English（简称FCE）、Certificate in Advanced English（简称CAE））；空缺词组（phrase cloze）（Sadeghi 2014）以及删除语篇连贯机制（cohesive device）的语篇完型（discourse cloze）（Storey 1997）。

基于语言能力成分观的完形填空在试题开发时，要求命题者有清晰的欲测能力构念，并对考生行为做出预测；测试后收集答题结果和过程中的各项证据，核查答题者行为是否与命题者的预测相符。

可见，基于不同语言观的完形填空题型，从命题要求到效度论证需求都存在着较大差异，测试研发者需要审慎选择，切忌在设空时既无测试目标，又不遵修随机性原则，而使测量目标不明确，构念效度论证无的放矢。

参考文献：

[1]Alderson，J.C.1979.The cloze procedure and proficiency in English as a foreign language.TESOL Quarterly 13.219-28.

[2]Alderson，J.C..2000.Assessing reading Cambridge：Cambridge University Press.

[3]Bachman，L.F..1985.Performance on the cloze test with fixed ratio and rational deletions.TESOL Quarterly 19.335-56.

[4]Brown，J.D.2013.My twenty-five years of cloze testing research：So what？International Journal of Language Studies 7.1-32.

[5]Brown，J.D.，A.D.Yamashiro & E.Ogane.2001.The Emperors new cloze：Strategies for revising cloze tests.A focus on language test development，ed.by T.Hudson & J.D.Brown，143-61.Honolulu，HI：University of Hawai‘i Press.

[6]Chapelle，C.A.1998.Construct definition and validity inquiry in SLA research.Interfaces between second language acquisition and language testing research.，ed.by L.F.Bachman & A.D.Cohen，32-111.Cambridge，U.K.

[7]New York，NY：Cambridge University Press.

[8]Fulcher，G.2014.Philosophy and Language Testing.The Companion to Language Assessment，ed.by A.J.Kunnan.Chichester，West Sussex，U.K.； Malden，MA：Wiley-Blackwell.

[9]Gellert，A.S.& C.Elbro.2013.Cloze Tests May be Quick，But Are They Dirty？Development and Preliminary Validation of a Cloze Test of Reading Comprehension.Journal of Psychoeducational Assessment 31.16-28.

[10]Jonz，J..1989.Textual sequence and second-language comprehension.Language Learning 39.207–49.

[11]Klein-Braley，C..1981.Empirical Investigations of Cloze Tests：University of Duisburg Unpublished PhD.

[12]Lin，W.，H.Yuan & H.Feng.2008.Language reduced redundancy tests：a reexamination of cloze test and C-test.Pan-Pacific Association of Applied Linguistics 12.61-79.

[13]Nation，K.& M.Snowling.1997.Assessing reading difficulties：The validity and utility of current measures of reading skill.British Journal of Educational Psychology 67.359-70.

[14]Raatz，U.& C.Klein-Braley.1981.The C-Test-a modification of the cloze procedure.Practice and Problems in Language Testing，ed.by T.Culhane，C.Klein-Braley & D.K.Stevenson，113-48.Colchester：University of Essex.

[15]Sadeghi，K.2014.Phrase Cloze：A Better Measure of Reading？The Reading Matrix 14.76-94.

[16]Spolsky，B.，S.M.Bengt，E.W.Sako & C.Aterburn.1968.Preliminary studies in the development of techniques for testing overall second language proficiency.Problems in Foreign Language Testing.Language Learning Special Issue，ed.by J.A.U.a.J.Fata，79-103.

[17]Storey，P.1997.Examining the test-taking process：A cognitive perspective on the discourse cloze test.Language Testing 14.214-31.