项目反应理论模型应用中需要注意的几个问题

2015-06-27燕雁赵守盈

中国考试 2015年2期

王芳燕雁赵守盈

王芳燕雁赵守盈

对IRT模型应用中须注意的几个重要问题做了分析与探讨，包括模型的假设,模型的拟合，模型对样本大小的要求等，虽然分析与探讨这些问题时主要以单维参数IRT模型为焦点，但非参数IRT模型以及多维IRT模型的应用也同样涉及这些问题。这些模型拥有某些特别的优势，在某些情况下应用是恰当的，但在健康评估领域并不是全部适用。

项目反应理论；模型假设；模型选取；模型拟合；样本量

近年来，随着我国心理测量研究不断发展，项目反应理论得到越来越多学者的关注，在实践领域的应用也越来越多。以全文出现“项目反应理论”在中国知网进行检索，得到如表1所示检索结果，足以看出项目理论在我国发展之迅速。但由于项目反应理论本身有其特殊要求，为了避免误用，对项目反应理论应用中必须注意的问题进行研究与讨论有非常重要的意义与价值。本文从以下四个方面探讨项目反应理论应用中值得注意的问题（见表1）。

1 对IRT模型假设的评价

表1 中国知网全文转载有关项目反应理论内容论文篇数统计

单维参数IRT模型有一个非常重要的假设，就是所有项目所测量的心理品质只有一种，即保证测量的目标为单一心理结构，项目间的协方差能够被单一潜在维度解释，检验这一假设是否得到满足的方法之一是对项目做主成分分析，考察特征根值的相对大小[1]（Reckase M D.A，1977）。探索性因素分析常用特征根的值大于1这一标准来确定因子个数[2]（Loeh Lin,1987），但在IRT应用中，即便是特征根大于1的因子有多个时，依然可以认为单维性假设成立。确定因子数的另一种方法是考察特征根碎石图[2～4]，（Cattell,1966;1978;L oeh Lin,1987）。这种方法是通过特征根的值迅速下降，曲线降转变为平缓线型的节点来确定因子数目。例如，对一30个项目的测验进行主成分分析，发现特征根大于1的因子有5个，不过第一因子的特征根（13.37）明显大于其他4个因子（1.6，1.5，1.4，1.1），而且30个项目中有29个项目在第一个因子上的标准化因子载荷大于0.35，分布区间为0.28到0.81之间，平均载荷值为0.65，根据这些观察结果即可以断定该测验为单一维度，满足IRT的单维性假设[5]（Orlando,Sherbourne, &Thissen,2001）。这就是说可以综合考察特征根的大小，第一因子各项目的载荷值分布范围以及各项目在第一因子上的载荷值大小来确定IRT单维性假设是否得以满足。同样，对于几个拥有二阶因子结构的项目组来说，如果所有二阶因子都在同一个高阶因子上有较大载荷值，也可以认为单维性假设得到满足[6]（罗洪刚等，2012）。另外，对于认知性测验来说，也可以运用哥特曼量表谱评价单维性假设是否得到满足。当不能确切判断单一维度假设是否满足时，考察IRT模型的分析结果是否因为违背单维性假设而出现异常就变得非常重要（比如，是否存在1个或多个区分度特别低的项目）。此外，如果将项目的反应结果看作连续型数据不合适，最好采用分类数据探索性因素分析技术。

IRT模型的第二个假设就是局部独立性，这一点从技术层面讲也属于单维性假设，要求除了与测量的目标之间的关系，项目间不应该有另外的系统性共变，否则就称为项目间存在局部依存关系（LD）。局部依存的潜在源头是项目有相同的题干（如所有项目都涉及身体疼痛，经历等），项目拥有非常相似的内容或者项目循序出现等。有学者编制了检验二值计分项目局部依存的软件[7]（Chen& Thissen,1997），但检验多值计分的项目依存性合适的软件还没有。检验多值计分项目依存的替代性方法是验证性因子分析，在验证性因子分析中，如果单一因子残差矩阵有过量的共变，则预示存在局部依存，仔细考察这一残差矩阵或者观察与单一因子分析结果对应的模型修正指数即可发现是否存在局部依存。除此之外，IRT的分析结果也可以提供一些有用信息。对于短量表来说，这些做法尤其有效。如果存在局部依存，就会衍生新的测量目标变量。如果两个项目存在高的局部依存，则这两个项目的区分度就会显著大于其他项目，在这种情况下，应该将其中一个项目删除，再重新进行IRT分析。参数IRT模型应用中涉及的最基本假设之一是模型必须适用于数据。对这一假设进行检验涉及模型的选择和模型拟合分析问题，接下来对这两个问题做详细讨论。

2 选择恰当的IRT模型

研究者已经提出了多种IRT模型[8]（Thissen and Steinberg,1986）在为数据选择合适的IRT模型时首先要考虑的问题是项目反应的类别数。对于二值计分的项目来说，单参、双参以及三参逻辑斯蒂模型均可用，对于多值计分项目来说，各种部分计分模型[9～13]（PCM，Masters,1982;RSM,Andrich,1978a, 1978b;GPCM,Muraki,1992,1997），等级反应模型[14,15]（GRM,Samejima,1969,1997）以及称命模型[16]（Bock, 1972）均会用到，其中等级反应模型常用于顺序性反应项目，称名模型常用于无确定性顺序反应项目。

Rasch模型也是常用的IRT模型。Rasch模型的独到特点是假定所有项目与作为测量目标的潜在特质之间存在相同的相关关系，因此，所有项目的区分度参数相同。不管是二值计分还是多值计分项目，选择模型时必须考虑的一个重要问题就是是否将区分度参数释放的问题，也就是是否允许不同的项目有不同的区分度。如果要释放项目区分度参数则应该选择除Rasch模型之外的其他IRT模型，如果不释放区分度参数则Rasch模型更为合适，因为这一类模型更为简约，因而其运算优势也较为明显（比如，Rasch模型软件可以更为丰富的分析结果，而且直接给出模型拟合的分析结果）。不过，因为对项目区分度做了限定，即要求所有项目的区分度相同，所以Rasch模型在精确反应数据信息方面存在一定局限。

除了项目区分度参数的释放问题，对于二值计分的项目来说还应考虑其猜测参数问题，这一问题通常是出现在学业测量中。当然，在学业测量之外也有人考虑过这一问题[16]（如Reise&Waller,2003）,但由于其解释较为模糊，所以使用并不普遍。

对于多值计分项目，称名模型适用于对项目的作答无具体顺序性的情况，比如，在健康研究领域，对项目的反应多为多个类别且有一定的顺序性，因此，不管是GPCM（或者是Rasch模型中的PCMs）还是GRM都是适用的模型。在这两类模型中做进一步选择通常取决于研究人员的偏好或者研究人员对这两种模型软件的熟悉程度。（PARSCALE分析PCM模型更为容易，MULTILOG更适于GRM模型）。运用TESTGRF软件[17]（Ramsay,1995）生成项目的描述图对于确定适合数据的恰当IRT模型也能提供一些有用的参考信息。

3 对IRT模型拟合的评价

所有IRT模型的应用都是基于模型正确这一基本假设，IRT模型的应用价值依赖于其对于数据信息反映的程度。在对IRT模型与数据的拟合分析中，期望有一种诊断性工具来评价模型与数据拟合的程度，模型的拟合可以通过比较模型预测结果与被试的真实作答结果之间的差异大小进行分析，已经有多种方法来实现这一思想。

对模型总体拟合情况进行直接评价存在很多挑战，也很少使用。不过，对IRT模型与数据之间的拟合进行相对性评价运用较多，其公式如下：

这一评价是通过对嵌套模型进行对数似然比计算实现的，这一统计量符合x2分布，例如，检验2PL和3PL模型对一组项目的相对拟合情况，可以检验其差异的显著性，其公式如下：

其D统计值符合x2分布，其自由度等于两个模型参数的差异。如果分析结果达到显著水平则认为3PLM对数据的拟合度更好。

除了对模型与数据的总体拟合情况外，还可以评价每个项目的拟合情况，对于Rasch模型来说，由于观察分数可以作为被试能力水平θ的统计值，各分数组的模型预测的比例也可以直接与实际观察的结果进行比较，所以，Rasch模型的项目拟合统计量的建构相对容易。到目前，研究者已经提出了多种用于检验Rasch模型下项目拟合优度的统计量[18～22]（Anderson,1973;Glas,1988;Rost&Davier,1994; Wright&Mead,1977;Wright Panchapakesan,1969），这些统计量在Rasch模型专用软件包的分析结果中也大多可以得到。

目前，研究者也构建了多种针对2PLM和3PLM的项目拟合优度统计量，因为对于这两种模型来说，被试的能力为潜在变量，模型预测的答对比例作为能力水平的函数，通常不能直接与观察数据进行比较，所以这些统计量的建构就复杂得多。

有些针对二值计分项目的2PLM和3PLM的项目拟合优度是按照这样的思路建构的：以基于模型估计的能力水平对被试进行分组，然后计算各组的观察结果以及模型预测结果，并将这两种结果的差异作为项目拟合优度的统计量，Yen的Q1[23]（Yen，1981），Bock的x2[24]（Bock，1972），以及McKinLey和Mill[25]（1985）在Yen的基础上提出的似然比G2统计量都属此类项目拟合优度统计量，当项目数多于20个时，BiLOG软件分析结果中会给出这些统计量，但在对这些统计量进行解释时必须谨慎，因为其I类错误有被放大的倾向。

近年来有研究从另外角度提出来了一些新的项目拟合优度统计量[26,27]（Orlando&Thissen,2000; 2003），这一统计量只针对二值计分的项目，以各总分组被试模型预测和实际观察的答对频数与答错频数为基础来计算，这一基于总分的方法构建了两个新的统计指标：S-x2（Pearson x2值）和S-G2（似然比统计量G2）。但针对多值计分的以似然方法为基础的项目拟合优度指数的算法还在研究过程中（Bjorner等）。虽然这些项目拟合优度统计量在部分商用软件中还不能计算，但研究人员对这些统计量的兴趣越来越强，已经开发出了免费的计算S-x2的软件。

也有研究者提出了用图形直观呈现项目拟合情况的方法，这些图形往往与项目拟合的统计指标结合使用，或者作为项目拟合情况的初步诊断。Hambleton和Swaminathan[28]（1985）提出了一种通过图形直观比较各能力组被试在项目的平均观察表现与模型预测表现的方法。Wainer和Mislevy[29]（1990）提出了与之相似的另一种图示方法，他们将观察数据和描线结合在一起构建项目拟合情况直观图。Kingston和Dorans[30]（1985）将项目作答结果与能力水平的回归曲线作为判断项目拟合情况的工具。也有研究者以后验概率分布为基础构建项目拟合情况图[31,32]（Drasgow等，1995，Mislevy和Bock,1986）。

4 对测量工具进行评价的样本量要求

就样本大小来说，虽无确定性的要求，但也有一些一般性论述和指导性原则。

首先，模型参数越少，对样本量的要求也越小，模型越复杂，需要的样本量越大。有研究者认为，要得到稳定的参数估计量，样本量不能少于100（Linacre,1994），对于最简单的Rasch模型来说，至少需要50个样本。Tsutakawa和Johnson[33]（1990）建议，要使模型参数得以精确估计，样本量应该接近500。不过，有其他学者建议有200个观察样本或者再少一点都可以[34,35]（如对于DIF的检验，Qrlando& Marshall,2002;Thissen,Steinberg&Gerrard,1986）。

其次，样本量越大，IRT的项目参数和被试分数的估计就越精确（标准误更小），这意味着参数估计的目的是一个值得考虑的问题。不同的问题和不同的目的，对精确度水平的要求也不同。例如，如果以评价问卷质量为目的，则不需要太大的样本量。但如果是以获得被试在一个问卷上的精确IRT分数为目的，或者是为建设题库对项目进行校准，则需要较大的样本量。

另外一个值得考虑的问题是被试样本的能力（潜在心理特质）分布，较大的同质性被试样本不能够反映被试总体的特征，所以只能获得潜在特质某一有限区间范围内得到参数的精确估计结果。从理论上来说，被试的能力水平（潜在特质）在这一区域范围内应该呈均匀分布，落在能力（潜在特质）分布两边较为极端位置的项目，如果这一位置的被试较少，项目越满足IRT的单维性假设及条件独立性假，而且难度水平也存在一定的差异，则需要的样本量就越小。

另外，项目得分与作为测量目标的潜在特质之间的相关也是一个重要问题，如果相关较弱则需要较大的样本量[36]（Thissen,2003）。还有，项目的反应类别越多，则待估计的项目参数也就越多，需要的样本量也就越大。在理想情况下，项目的各种作答结果上都应该有被试，不过，在实际情况下，这一点很难得到满足，至少是要求项目的各个反应类型都有被试选择，这样才能保证IRT模型的各个分析指标及项目参数得以全部估计。

[1]Reckase M D.A linear logistic multidimensional model for dichoto⁃mous item response data.In W.J.van der Linden and Ronald K. Hambleton（Eds）,Handbook ofmodern item response theory（pp.271-286）[M].New York:Springer-Verlag.1977.

[2]Loehlin J C.Latent variable models[M].New Jersery:Lawrence Erl⁃baum Associates.1987.

[3]Cattell R B.The scientific use of factor analysis[M].New York:Ple⁃num.1978.

[4]Cattell R B.The screetest for the number of factors[M].1966：1, 245-267.

[5]Orlando M A T D.Likelihood-based item-fit indices for dichoto⁃mous item response theory models[M].2001:24,50-64.

[6]罗洪刚，罗杰，赵守盈.Guttman量表谙及其发展[J].黔南民族师范学院学报，2012（4）.

[7]Chen W H T D.Local dependence indices for item pairs using item response theory[M].1997:22,265-289.

[8]Thissen D S L.A Taxonomy of Item Response Models[M].1986:51, 567-577.

[9]Masters G N.A Rasch model for partial credit scoring[M].1982: 47,149-174.

[10]Andrich D.Application of a psychometric rating model to ordered categories,which are scored with successive integers[M].1978:2, 581-594.

[11]Muraki E.A generalized partial credit model:Application of the EM algorithm[M].1992:16,159-176.

[12]Muraki E.A generalized partial credit model.In W.van der Linden &R.K.Hambleton(Eds.)[M].New York：Springer，1997：153-164.

[13]F.S.Estimation of latent ability using a response pattern of graded scores[M].1969:17.

[14]F.S.Graded response model.In W.van der Linden&R.K.Hamble⁃ton(Eds.)[M].New York:Springer.,1997：85-100.

[15]Bock R D.Estimating item parameters and latent ability when re⁃sponses are scored in two or more nominal categories[M].1972：37, 29-51.

[16]Reise S P W N.How many IRT parameters does it take to model psychopathology items?[M].2003：8,164-184.

[17]Ramsay J O.TestGraf-A Program for the Graphical Analysis of Multiple Choice Test and Questionnaire Data[Computer software] [M].Montreal：McGill University，1995.

[18]Anderson E.A goodness of fit test for the rasch model[M].1973：38,123-140.

[19]Glas C A W.The derivation of some tests for the Rasch model from the multinomial distribution[M].1988:53,525-546.

[20]Rost J V D M.A conditional item-fit index for rasch models[M]. 1994:18,171-182.

[21]Wright B M R.BICAL:Calibrating items and scales with the Rasch model（Research Memorandum No.23）[M].Chicago IL:University of Chicago,Department of Education,Statistical Laboratory,1977.

[22]Wright B P N.A procedure for sample-free item analysis[M].1969: 29,23-48.

[23]Yen W.Using simulation results to choose a latent trait model[M]. 1981：5,245-262.

[24]Bock R D.Estimating item parameters and latent ability when re⁃sponses are scored in two or more nominal categories[M].1972：37, 29-51.

[25]Mckinley R M C.A comparison of several goodness-of-fit statistics [M].1985：19,49-57.

[26]Orlando M A T D.Likelihood-based item-fit indices for dichoto⁃mous item response theory models[M].2000：24,50-64.

[27]Orlando M A T D.Further examination of the performance of S-x2, an item fit index for dichotomous item response theory models[M]. 2003：27,289-298.

[28]Hambleton R K S H.Item response theory:principles and applica⁃tions[M].Boston:Kluwer-Nijhoff,1985.

[29]Wainer H M R J.Item response theory,item calibration,and profi⁃ciency estimation.In H.Wainer,N.J.Dorans,R.Flaugher,B.F.Green, R.J.Mislevy,L.Steinberg,&D.Thissen,Computerized adaptive testing: A primer（65-101）[M].Hillsdale NJ:Lawrence Earlbaum Associ⁃ates,1990.

[30]Kingston N D N.The analysis of item-ability regressions:an explor⁃atory IRT model fit tool[M].1985：9,281-288.

[31]Drasgow F L M V.Fitting polytomous item response theory models to multiple-choice tests[M].1995：19,143-165.

[32]Mislevy R J B R.Bilog:item analysis and test scoring with bianry lo⁃gistic models[M].Mooresville,Indiana:Scientific Software,1986.

[33]Tsutakawa R K J J.The effect of uncertainty of item parameter esti⁃mation on ability estimates[M].1990：55,371-390.

[34]Orlando M.Marshall G N.Differential item functioning in a Span⁃ish translation of the PTSD checklist:detection and evaluation of impact[M].2002：14,50-59.

[35]Thissen D S L.A Taxonomy of Item Response Models[M].1986:51, 567-577.

[36]Thissen D.Estimation in Multilog,in M.du Toit（ed.），IRT from SSI: Bilog-MG,Multilog,Parscale,Testfact,Lincolnwood[M].IL:Scientific Software International,2003.

Some Key Issues Concerning the Application of Item Response Theory

WANG Fang，YAN Yan&ZHAO Shouying

Several Key Issues concerning the application of IRT were explored in depth,including the hypothesis of IRT model,the model fit of IRT and the appropriate sample size.Though these Issues were discussed mainly based on parameter IRT models,we never meant that these issues have nothing to do with non-parameter IRT models. These models are relatively advantageous in some areas and need to be applied appropriately.However not of all these models are appropriate when used in health assessment.

Item Response Theory；Model Hypothesis；Model Choice；Model Fit；Sample Size

G405

1005-8427(2015)02-0020-5

王芳，女，贵州师范大学心理硕士研究生（贵阳 550001）

燕雁，女，贵州航天职业技术学院，助教，贵州师范大学硕士研究生（贵州遵义 563000）

赵守盈，男，贵州师范大学教授，硕士研究生导师（贵阳 550001）