阅读理解测试的信度研究：来自概化分析的视角

2016-04-07关丹丹

心理学探新 2016年1期

关键词：题组阅读理解信度

关丹丹

(教育部考试中心，北京 100084)

阅读理解测试的信度研究：来自概化分析的视角

关丹丹

(教育部考试中心，北京 100084)

摘要：阅读理解测试通常为多个题目共用一个语篇材料，属于典型的题组题型，传统的基于单题的信度估计方法将会高估测试的信度。研究采用概化理论模型，通过比较传统ã信度系数以及不同的概化理论测量设计模型，探讨不同方法对阅读理解测量精度估计的差别；同时，通过改变语篇和题目的数量来观察概化系数和可靠性指数等指标的变化，为改进考试设计和命题提供参考信息。结果表明，忽略语篇的单变量概化设计以及基于题目的ã系数会在概化系数上高估0.0404，将语篇作为多变量的交叉设计会在概化系数上高估0.0480，基于语篇的ã系数与单变量嵌套设计的概化系数一致。另外，增加阅读理解中的语篇量或题目量都可以提高测量的精度，但增加语篇量在提高阅读理解测试的测量精度上更为高效。

关键词：阅读理解；题组；概化理论；信度；ã系数

1引言

阅读理解是语言测试的主要题型之一，通常包括一定语篇的阅读材料，并在阅读材料后设置一些与材料理解相关的题目，以达到考核学生语言能力的目的。这种受共同刺激影响和制约的项目集合通常被称为题组(Testlet)，阅读理解属于典型的题组题型(Wainer & Kiely，1987)。以往的研究显示，在对由题组构成的测试得分进行估计时，如果采用传统的基于单题的信度估计方法(如ã系数)将会高估测试的信度(Sireci，Thissen，& Wainer，1991；Wainer，1995)。在语言测试中，Bachman(1999)把这种由语篇题组造成的偏差称为语篇效应(Passage Effect)，并建议增加语篇量以降低这种偏差。国外针对阅读理解测试的研究表明，语篇效应确实会对信度的估计或者概化系数有影响(Li & Brennan，2007；Wan & Brennan，2005；Lee & Frisbie，1999；Lee，2002)。Li和Brennan(2007)采用多种概化设计对ITBS阅读理解测试的研究表明，忽略语篇效应会导致信度高估0.015，Lee和Frisbie(1999)的研究结果认为使用基于单题的ã系数对ITBS阅读理解测试会高估0.04。在SAT考试中的言语测试也有报告0.10的高估(Sireci等，1991)。国内关于语篇效应对阅读理解测量精度影响的量化研究相对较少，目前还是普遍以ã系数报告阅读理解的测试信度。

概化理论(Generalizability Theory)是由克龙巴赫等人于上个世纪70年代在经典测量理论的基础上发展起来的。概化理论是一种把测量误差作为模型参数来处理的测量理论，它不仅保留了经典测量理论中控制误差的标准化技术，而且发展出了把误差控制与决策需要或测量结果的概括程度相结合的理论和方法(杨志明，张雷，2003)。概化理论对测量目标和测量侧面(facet)进行了区分，判别和分析不同侧面对分数的不同影响。从概化理论的视角来看，在使用阅读理解测试对考生阅读理解能力进行测量时，至少包含两个可能会影响考生分数的侧面：语篇和根据语篇设定的题目。使用概化理论方法可以分离出阅读中的语篇、题目效应，可以科学、有效地评价测量的精度。另外，使用概化理论还可以对其语篇量和题目量的大小进行不同设计下的调整，结合概化系数、可靠性系数、相对误差、绝对误差等指标综合衡量，从而有助于获得最佳的考试设计。Lee(2002)使用多种概化设计对阅读理解测试分析时发现，增加语篇量和题目量能提升概化信度，张敏强等人(2010)采用数据模拟技术与概化理论对增加阅读中的语篇量和题目量对提高测量精度也进行过探讨。但国内尚缺乏对真实考试中阅读理解测试测量精度的实证概化研究。

该研究以全国英语等级考试为例，对阅读理解测试的信度进行实证性研究。研究目的有两个：一是比较传统ã信度系数以及不同的概化理论测量设计模型下，对阅读理解测量精度估计的差别，量化实际考试中语篇效应对测量精度估计的影响；二是通过改变语篇量和题目量来观察概化系数和可靠性指数等指标的变化，为考试工作者改进该项考试的设计和命题提供有用的参考信息。

2研究方法

2.1被试与数据

数据来自某次全国英语等级考试(PETS)三级，抽取阅读理解测试部分，共有考生6830人。该阅读理解测试包含4篇阅读材料，每篇阅读材料设有5个题目，即共有20个题目。数据的描述统计见表1。

2.2概化分析

根据阅读理解测试的数据结构和观测全域的概念，采用两侧面嵌套设计p×(i：h)对数据进行分析是最为合适的模型。在设计中：p代表考生，i为题目，h为语篇。p×(i：h)表示考生依次作答每篇语篇下指定的题目。

但是，在使用概化理论分析英语测试的实际中，也可以忽略语篇的概念，或者是把语篇作为固定侧面来考虑。因此，研究者共提出三种概化设计：(1)单变量p×i交叉设计，忽略语篇侧面；(2)将语篇作为固定侧面来考虑的多变量p•×i°交叉设计；(3)考虑语篇侧面的单变量p×(i：h)设计。针对上述三种测量设计分别进行概化研究(G研究)、基准模式决策研究和改变语篇量和题目量的决策研究(D研究)。

数据分析采用GENOVA(Crick & Brennan，1983)和mGENOVA(Brennan，2001b)软件。

3结果

3.1单变量p×i设计

单变量p×i设计的G研究与D研究结果见表2。基准模式下，该阅读理解测试的概化系数为0.8211，可靠性指数为0.8055。在P×I决策研究中，假定题目全域是无限的，因此可以通过改变题目面的水平数来看测试信度的变化。研究发现概化系数和可靠性指数均随着题目数量的增加而提高。

表2　单变量p×i设计的G研究与D研究结果

3.2多变量p•×i°设计

多变量p•×i°设计的G研究结果见表3。考生在四篇阅读理解上的得分相关较高，为0.7549~0.9238。语篇4的方差分量最大，语篇3的方差分量最小。

表3　多变量p•×i°设计的G研究结果

基准模式下，按照每个语篇占25%的权重估计全域总分，D研究结果见表4。测量精度最高的是语篇4，其概化系数和可靠性指数为0.7329和0.7086；语篇2和语篇3的测量精度较低。全域总分的概化系数和可靠性指数均较高，分别为0.8287和0.8155；相对误差和绝对误差的方差均较小。这说明本次英语考试的阅读理解测试的总体测量精度较高。

另外，4个语篇对全域总分方差的贡献比例与当初命题时各占25%的意图不完全一致。其中语篇4的方差贡献最大，而语篇2和语篇3的方差贡献则低于命题意图。命题者有必要对语篇2和语篇3所提供的阅读材料和有关问题作进一步的分析，以提升今后阅读理解的命题质量。

表4　多变量p•×i°设计的D研究结果(基准模式)

表5　多变量p•×i°设计的D研究结果(改变题目量)

另外，通过改变题目量来看测试信度的决策研究中，增加每个语篇的题目量，则每个语篇的概化系数和可靠性指数增大，同时，阅读理解测试全域总分的概化系数和可靠性指数也随之增大，测量误差减小。当每个语篇的题目数量为6时，即可保证每个语篇的概化系数和可靠性指数均在0.50以上。

3.3单变量p×(i：h)设计

单变量p×(i：h)设计的G研究和D研究结果见表6。结果表明，语篇的方差分量小于嵌套在语篇中的题目方差分量。在基准模式下(即语篇数量为4，每个语篇的题目数量为5)，D研究显示概化系数为0.7807，可靠性指数为0.7533。考虑到我国阅读理解测试通常包括20~30题，在此范围内的D研究显示，语篇的增加和每个语篇下题目数量的增加，都会增大概化系数和可靠性指数。具体表现为，当每个语篇固定为5题时，随着语篇的数量从4增加到6，概化系数由0.7807提高至0.8422；当语篇数量固定为5篇时，随着题目的数量从4增加到6，概化系数由0.7882提高到0.8365，结果见表6和图1。可见，语篇的增加相对于每个语篇下题目的增加，在提高阅读理解测试的测量精度上更为高效。这与Lee和Frisbie(1999)等人研究结果一致。

表6　单变量p×(i：h)设计的G研究与D研究结果

图1　分别改变题目量与语篇量的概化系数变化

3.4几种信度估计结果的比较

根据阅读理解测试的数据结构和观测全域的概念，采用单变量p×(i：h)设计对数据进行分析和信度估计是理论上最为合适的模型(Lee & Frisbie，1999；Brennan，2001a)，因此将其作为标准，比较基准模式下其他两种概化设计与单变量p×(i：h)设计对阅读理解测量精度估计的差异；另外，采用传统信度估计方法，分别计算基于题目的ã系数，以及基于语篇得分的ã系数，比较传统信度估计与单变量p×(i：h)设计对阅读理解测量精度估计的差异。结果见表7。

表7　几种信度估计与p×(i：h)概化系数的比较

结果显示，忽略语篇效应或者把语篇作为多变量，都不能准确的估计阅读理解测试的精度，在概化系数上将会高估0.0404或0.0480。若采用传统信度估计方法，基于题目的ã系数会对阅读理解测试的信度高估0.0404，基于语篇的ã系数与p×(i：h)设计的概化系数一致。

4讨论与结论

研究发现忽略语篇的单变量概化设计会在概化系数上高估0.04，基于题目的ã系数估计也同样会高估0.04，Lee和Frisbie(1999)所报告的ITBS阅读理解测试高估结果与此研究非常一致，但在SAT考试中的言语测试曾报告有0.10的高估(Sireci等，1991)。这说明，语篇效应对阅读理解测试测量精度的影响是普遍存在且不可忽视的，影响程度及具体原因需要结合测试内容进行具体分析。另外，就语言测试而言，阅读理解仅是语言测试的一个代表性题型，其所体现出来的“语篇效应”或者说“题组效应”同样可能存在于听力测试、完型填空测试等题型中。除了阅读理解在测量精度上的高估外，听力测试、完型填空测试亦有此类问题，因此语言测试若仅报告传统基于单题的信度估计指标是不合适的，特别是对于高利害语言测试的信度报告应该尤为谨慎。

对于此阅读理解测试的信度估计而言，基于单题的克龙巴赫ã系数与在随机单面交叉设计条件下的概化系数估计值相等；基于语篇的ã系数与在语篇侧面的单变量p×(i：h)设计中的概化系数估计值相等，也就是说报告基于语篇的ã系数也是可以的。该研究中将语篇作为固定侧面来考虑的多变量p•×i°交叉设计虽然不适合估计整个测试的信度，但是能够对每一篇阅读理解进行更精细的分析，从而为改进阅读理解设计和命题提供更多参考。

最后，该研究仅关注了阅读理解测试中的语篇和题目两个侧面，还可以关注其他侧面，如题目的能力考查点——语言测试中称为微技能。通常而言，阅读理解主要考察理解文中具体信息、理解主旨要义、理解作者的意图、观点或态度，以及进行有关的判断、推理和引申等四种微技能。关于语篇、微技能和题目的概化研究，将不仅有助于提高测量的信度，还有助于提高测量的效度。另外，考生自身的因素，如文化背景、常识、专业知识等也会影响测量的效果，同一份阅读理解测试对于不同的考生亚群体，可能会表现出不同的语篇效应，这种跨群体的概化研究比较将有助于确保考试公平。

参考文献

杨志明，张雷.(2003).测评的概化理论及其应用.北京：教育科学出版社.

张敏强，刘淑桢，黎光明.(2010).概化理论在英语阅读精确性研究中的应用.教育测量与评价(理论版)，5，4-8.

Bachman，L.F.(1999).FundamentalConsiderationsinLanguageTesting.Shanghai：Shanghai Foreign Language Education Press.

Brennan，R.L.(2001a).Generalizabilitytheory.New York：Springer-Verlag.

Brennan，R.L.(2001b).ManualformGENOVA.Iowa City，IA：Iowa Testing Programs，University of Iowa.

Crick，J.E.，& Brennan，R.L.(1983).ManualforGENOVA：AGeneralizedAnalysisofVarianceSystem.Iowa City，IA：The American College Testing Program，the ACT.

Lee，G.，& Frisbie，D.A.(1999).Estimating reliability under a generalizability theory model for test composed testlets.AppliedMeasurementinEducation，12(3)，237-255.

Lee，G.(2002).The influence of several factors on reliability for complex reading comprehension testlets.JournalofMeasurement，39，149-164.

Li，D.M.，& Brennan，R.L.(2007).AMulti-groupGeneralizabilityAnalysisofaLarge-scaleReadingComprehensionTest(CASMA Research Report NO.25).Iowa City，IA：Center for Advanced Studies in Measurement and Assessment，The University of Iowa.(Available from http：//www.education.uiowa.edu/casma).

Sireci，S.G.，Thissen，D.，& Wainer，H.(1991).On the reliability of testlet-based tests.JournalofEducationalMeasurement，28，237-247.

Wainer，H.(1995).Precision and differential item functioning on a testlet-based test：The 1991 Law School Admissions Test as an example.AppliedMeasurementinEducation，8，157-186.

Wainer，H.，& Kiely，G.L.(1987).Item clusters and computerized adaptive testing：A case for testlets.JournalofEducationalMeasurement，24(3)，185-202.

Wan，L.，& Brennan，R.L.(2005).Reliabilityofscoresfortestscomposedoftestlets：Acomparisonofapproachesinthreemeasurementmodels.Paper presented at the Annual Meeting of the National Council on Measurement in Education.April 12-14.Montreal，Canada.

Reliability Study in English Reading Comprehension Test：From the Perspective of Generalizability Theory

Guan Dandan

(National Educational Examinations Authority，Beijing 100084)

Abstract：For a reading comprehension test，it is usually the case that several passages are used with many items in each.Previous studies have indicated that the reliability of test scores composed of testlets might be overestimated by conventional item-based reliability estimation methods.By conducting a series of generalizability analyses of a reading comprehension test，this study demonstrated the amount of discrepancy in coefficients when different methods are used or different facets are taken into account.Results showed Cronbach’s alpha based on item scores and the G-coefficients of p×i were both higher than the G-coefficients of p×(i：h) and Cronbach’s alpha based on passage scores.The magnitude of overestimation was found to be about 0.0404.The difference of G-coefficients between p•×i and p×(i：h) models were 0.0480.The generalizability coefficients based on increasing numbers of passages or increasing numbers of items within each passage were found to be raised，but the generalizability coefficients increase at a greater rate by increasing the number of passages than by increasing the number of items per passage.

Key words：reading comprehension test；passages effect；Generalizability Theory；reliability；Cronbach’s alpha

中图分类号：B841.2

文献标识码：A

文章编号：1003-5184(2016)01-0070-05