IRT测验等值模型的选择——以广东佛山市中考数学实测数据为例<br/>

IRT测验等值模型的选择——以广东佛山市中考数学实测数据为例

2012-01-03黎光明张敏强

中国考试 2012年2期

黎光明张敏强

IRT测验等值模型的选择
——以广东佛山市中考数学实测数据为例

黎光明张敏强

以广东省佛山市中考数学实测数据为例，说明IRT测验等值模型的选择过程，其基本步骤包括等值设计、参数估计、量表化和测验等值等。供选择的四种IRT测验等值模型分别为SL、SN、NR和GPCM模型。分析发现，等值误差由小到大依次是SL、SN、NR和GPCM，SL与GPCM、NR存在显著性差异（p＜0.001），SN与GPCM、NR存在显著性差异（p＜0.001），GPCM与NR 存在显著性差异（p＜0.001），但SL与SN不存在显著性差异（p＞0.05）。结果表明：（1）从模型等值的效果看，SL和SN最优且相当，NR等值效果欠佳，GPCM等值变异最大，效果最差；（2）选择IRT的SL或SN等级反应模型进行此类测验等值较为合适。

中考数学实测数据；项目反应理论（IRT）；测验等值；心理与教育测量

1 引言

测验等值是项目反应理论研究的重要内容，是题库建设和进行自适应测验的基础。测验等值的目的是为了将不同测验形式的分数转换到同一个分数量尺上，以便将不同的测验结果进行比较[1]。不论是基于经典测量理论（Classic Test Theory，CTT）的测验分数等值，还是基于项目反应理论（Item Response Theory，IRT）的测验分数等值，由于存在各种模型、设计和方法，人们不得不对它们进行比较，以选择出适合数据资料的模型、设计和方法。

近年来，国内一些学者[2][3][4]对等值设计及方法均有探讨，但对等值模型的比较研究较少。实际上，在测量理论的实际应用中，如进行题库建设或自适应测验，需要选择合适的反应模型来进行等值，不同的模型适合于不同的等值数据。与CTT等值模型相比，由于IRT等值模型能够进行项目参数等值，IRT等值模型具有更多优点，所应用的范围更为广泛[5]。但是，IRT存在多种反应模型，既有二级反应模型，也有多级反应模型，所选择的反应模型不同，可能会有不同的等值结果。国内以往的一些IRT等值研究[6][7]，大多数是基于某一种模型之下，没有考察多种反应模型等值比较问题。那么，这就存在以下问题：一是没有给出所选等值模型的充分理由，虽然有些研究给出了一些模型资料检验的一些指标，但检验并不充分；二是所选模型可能存在多种，理论上应该一一检验并进行比较，仅考察一种模型，其做法显得主观化。因此，对IRT测验分数等值，需要比较供等值的多种反应模型。

Kolen和Brennan（2004）[8]根据不同模型的等值要求，给出了经典测量理论下不同等值模型的观察分数和真分数标准误，并对它们进行了比较研究。Kim（2005）等人[9]根据所设定的一些等值标准，比较了IRT三参数Logistic模型与强真分数理论下的Be⁃tas 4模型的真分数及观察分数的等值结果。Von Davier,Alina和 Wilson（2008）[10]对包含二值记分的数据资料进行了不同IRT模型下的测验真分数等值比较。但是，这些学者并没有在相同条件下对多种等级IRT等值模型进行过比较。

国内各种教育与心理测验所得的数据资料，常常既包含二级记分的题目，也包含多级记分的题目。根据此种实际情况，应该选择IRT的多级反应模型来进行数据等值，因为二级反应模型可看作是多级反应模型的特例。在等值的实际工作中，常常需要报告测验的观察分数，即使采用真分数等值，最后也要表达成相应的观察分数。相应地，本研究采用测验的观察分数来进行等值。

研究可供选择的IRT多级反应模型包括：Same⁃jima(1969)逻辑斯蒂克等级反应模型（SL）、Sameji⁃ma(1972)正态肩形等级反应模型（SN）、Muraki（1992）拓广分部评分模型（GPCM）、Bock（1972）称名反应模型（NR）。基于这四种IRT多级反应模型，用实测数据作测验观察分数等值，以比较这四种IRT多级反应模型的等值精确度，从而选出适合数据资料等值的IRT多级反应模型。

2 方法

2.1 数据来源

由广东省佛山市教育局提供的2005年“中考数学”实测数据[2]。2005年佛山市普教进行课程改革，分为“课改实验区”和“非课改实验区”。“中考数学”相应分为课改区的测验X和非课改区的测验Y。课改区有考生50 902人，非课改区有考生10 882人。测验X、测验Y各有24道题，其中客观题15道，主观题9道。测验X和测验Y有一个锚测验V，测验V的主客观题共9道。

2.2 等值设计与方法

课改区与非课改区考生能力有所差异，且测验X与Y中有一个共用锚测验，本研究采用非等组锚测验设计作为研究的等值设计。IRT等值方法主要有 MM（Mean/Mean）、MS（Mean/Sigma）、HA（Haeba⁃ra）和 SL（Stocking-Lord）方法。Stocking-Lord是基于项目特征曲线等值方法，具有较多优良特性，本研究统一选用此种方法来进行测验等值。

2.3 等值步骤及工具

2.3.1 参数估计

依据各种等值模型分别对测验X和测验Y进行参数估计，得出各测验的项目参数值。使用的软件是 Parscale 3.5[11]和 Multilog 7.0[12]，其中 Parscale用于估计SL、SN和GPCM的参数，Multilog软件用于估计NR的参数。

2.3.2 量表化

将测验X和测验Y所得两测验的项目参数进行量表化（Scaling），即统一量纲，使用的是STUIRT软件[13]。

2.3.3 测验等值

将测验X和测验Y量表化结果，通过POLYE⁃QUATE软件[14]进行等值转换，就将得到四种IRT模型下的测验观察分数等值结果。

2.4 比较基准和标准

2.4.1 比较基准

选择某种CTT等值方法作为四种IRT模型观察分数等值的比较基准，供比较的CTT等值方法包括Tucker线性等值、Levine线性等值和未平滑的等百分位等值方法。

2.4.2 比较标准

四种IRT模型测验观察分数比较标准是计算四种IRT模型测验观察分数等值结果与作为比较基准的CTT观察分数等值结果的两种差异量：

一是标准加权均方差或总误差的平方根，由下式定义：

其中m是测验的题目数，j是原始分数，f是获得j分的人数，n是总人数，dj=（X-X′），X′是作为比较基准的等值分，X是估计的等值分，是作为比较基准的等值分的方差。

二是误差平均差，由下式定义：

3 结果

3.1 测验观察分数等值结果

四种IRT模型下的测验观察分数等值结果及作为比较基准的Tucker观察分数等值结果列于表1。为节省篇幅，以10分为一分数段列出。

3.2 总误差平方根

根据差异量定义公式，计算标准加权均方差或总误差平方根，其结果如表2所示。

表1 四种IRT多级模型测验观察分数等值结果(举例)

表2 四种IRT多级反应模型总误差平方根及排名

3.3 误差平均差的方差分析

根据误差平均差的定义，分别计算四种多级模型的误差平均差，并把所得的误差平均差作为因变量，四种模型作为自变量，进行单因素方差分析，所得结果如表3所示。

表3 单因素方差分析

从表3可知四种IRT模型误差平均差整体有差异。因此，需要进一步作事后检验，结果如表4所示。

也给出四种模型误差平均差均数的事后检验图示结果，如图1所示。

表4 事后检验结果

图1 误差平均差均数比较

4 分析与讨论

采用非等组锚测验设计，对测验X和测验Y进行IRT多级反应模型测验观察分数等值，其目的是根据数据资料选择合适的多级反应模型，以供等值使用。传统的做法是进行模型数据资料拟合度检验。但是，检验多个多级反应模型时需要同时检验多个指标，包括模型单维性、参数不变性及残差等，许多技术仍不成熟。模型资料拟合检验需要根据各种指标量对IRT模型进行一一检验，但有时所得结论会出现矛盾情形。Ostini[15]认为IRT多级反应模型比较可以用Monte-Carlo方法模拟数据，并选择合适的指标进行模型间的比较，但由于Monte-Carlo数据模拟需要选定某种一般模型来产生参数及作答反应矩阵，而众多多级反应模型选哪种合适？常常给等值比较造成了困难。

Wang,Lee,Brennan和 Kolen（2006)[16]采用某种CTT观察分数等值结果作为IRT多级反应等值模型观察分数等值结果的比较基准。CTT等值方法较多，较常见的有Tucker线性等值、Levine线性等值和未平滑的等百分位等值方法等。CTT众多等值方法存在差异，需要比较它们的优劣。通过CIPE 1.0软件[17]计算Tucker线性等值、Levine线性等值和未平滑的等百分位等值三种CTT方法的等值标准误，并用等值标准误作为衡量三种方法的优劣指标。从图2不难看出Tucker线性等值方法的标准误最小，Levine线性等值方法的标准误次之，等百分位等值方法的标准误较大。这说明在三种CTT等值方法中，Tucker线性等值方法的最好。因此，选择Tucker线性等值方法的结果作为供IRT测验观察分数比较的标准。实际上，进一步分析发现Tucker线性等值的两个前提假设得到了较大的满足，因而比其他两种CTT等值方法的结果更为精确。因此，在表1中选择Tucker线性等值方法作为供比较的标准更为合适。

图2 三种CTT等值方法的标准误

标准加权均方差或总误差平方根是供比较的量化指标，应该与大样本标准、循环到自身、数据模拟等等值标准有所区分。这是因为标准加权均方差或总误差平方根和等值标准误一样隶属于某种统计量，是一种量化的比较标准指标。这个指标是为了说明以Tucker线性等值结果作为观察分数等值基准，四种多级反应模型测验X转换为测验Y的观察分数后的等值变异。通过计算这个变异来，从总体上可以看出每种多级反应模型等值后与设定基准的离散程度。为了消除方向带来的影响，常常用平方表示，这样就形成了标准加权均方差或总误差。此外，也可以构建误差平均差，来表示出多级反应模型等值结果与设定基准之间的离散程度。为了证明两者能否一致地反映变异程度，该研究同时采用了两者作为比较的标准。

从表2的标准加权均方差或总误差平方根结果看，IRT的SN模型最小为0.086，其次是SL模型为0.087，再次是NR模型为2.820，最大是GPCM模型为5.846。根据总标准加权均方差或总误差平方根值越小测验等值误差越小的原则，发现SN和SL最佳（分别排名第一和第二），其次是NR模型（排名第三），最差是GPCM模型（排名第四）。

为了验证两种比较标准对结果的一致性，也采用了误差平均差作为比较标准。把所得的误差平均差作为因变量，IRT的SN、SL、NR和GPCM四种模型作为自变量，进行单因素方差分析（如表3所示）。从表3可以看出，方差分析的结果有显著性差异，组间均方3578.339，组内均方19.036，两者的比值F=187.975（p＜0.001），需要做事后检验（如表4所示）。

根据表4的事后检验结果，发现SL与GPCM、NR存在显著性差异（p＜0.001），SN与GPCM、NR存在显著性差异（p＜0.001），GPCM与NR存在显著性差异（p＜0.001），但SL与SN不存在显著性差异（p＞0.05）。从图1的四种模型误差平均差均数结果可知，IRT模型的SL和SN误差平均数均值最小，NR次大，GPCM最大。

从以上分析可知，IRT的SL与SN两种模型等值误差最小，而且两者的差异量相当接近（差值仅为0.001）。那么，则表明SL与SN对数据资料的拟合优于其他两种模型，等值效果最佳。SL和SN同属于Samejima等级反应模型（GRM），两者在形式上存在差异，但因为逻辑斯蒂克等级反应模型和正态肩形等级反应模型存在等量关系，因此两种模型的等值效果几乎一致。那么，可以认为SL和SN属于同质模型，在模型选取中，只要择其一则可。NR模型等值变异量较SL和SN模型大，说明等值效果欠佳，原因是NR是一种无序模型，用于有序数据等值效果自然不佳。GPCM模型的等值变异量在四种模型中最大，表明这种模型等值的效果最差，可能的原因是该年中考数学试题从总体上看并非每道试题都按部计分，某些试题存在反序现象，从而影响等值效果。因此，从结果看，选择IRT的SL或SN两种等级反应模型进行此类多级反应等值较为合适。

5 结论

（1）从模型等值的效果看，IRT的SL和SN最优且相当，NR等值效果欠佳，GPCM等值变异最大，效果最差。

（2）选择IRT的SL或SN等级反应模型进行此类测验观察分数等值较为合适，SL和SN属于等级反应模型的同质模型，在模型选取中，只要择其一则可。

[1]戴海崎,张锋,陈雪枫.心理与教育测量(第三版)[M].广州:暨南大学出版社.2011.

[2]张敏强,黎光明,焦璨.普教“升中”考试中测验等值的应用研究——以广东省佛山市“升中”考试为例[J].心理与行为研究,2009，7(1)：27-31.

[3]张敏强,黎光明,刘晓瑜,焦璨.教学管理与评价的测量技术:测验等值的理论、方法及应用[J].教育研究与实验，2009(2)：54-57.

[4]黎光明,张敏强.全测验与锚测验题型分值比对等值误差的影响[J].考试研究,2009，5(3)：71-77.

[5]漆书青,戴海崎,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社.2002.

[6]周骏,欧东明,徐淑媛,戴海崎,漆书青.等级反应模型下项目特征曲线等值法在大型考试中的应用[J].心理学报,2005(6)：832-838.

[7]黎光明,刘晓瑜,张敏强.测验等值技术在中小学教学管理与评价中的应用[J].教育测量与评价(理论版),2009，14(3)：8-11.

[8]Kolen,M.J.,&Brennan,R.L.Test equating,linking,and scaling:Methods and practices(2nd ed.).New York:Springer-Verlag.2004.

[9]Kim,D.I.,Brennan,R.L.,&Kolen,M.J.A Comparison of IRT Equating and Beta 4 Equating.Journal of Educational Measure⁃ment,2005，42(1)：77-99.

[10]Von Davier,Alina,A.L.,&Wilson,C.Investigating the popula⁃tion sensitivity assumption of item response theory true-score equating across two subgroups of examinees and two test formats.Applied Psychological Measurement,2008，32(1)：11-26.

[11]Thissen,D.Multilog user’s guide:Multiple,categorical item analy⁃sisand test scoring using item response theory[Computer program].Chicago:Scientific Software International.1991.

[12]Muraki,E.,&Bock,R.D.PARSCALE(Version 3.5):IRT item analysis and test scoring for rating-scale data[Computer program].Lincolnwood,IL:Scientific Software.1998.

[13]Kim,S.,&Kolen,M.J.STUIRT(Version 1.0):A computer program.Iowa City,IA:Iowa Testing Programs,University of Iowa.(Avail⁃able from the web address:http://www.uiowa.edu/～casma).2004.

[14]Kolen,M.J.POLYEQUATE:A computer program.Iowa City,IA:The University of Iowa.(Available from the web address:http://www.uiowa.edu/～casma).2004.

[15]Ostini,R.,Identifying substantive measurement differences among a variety of polytomous IRT models.Ph.D.dissertation,University of Minnesota,United States.2001.

[16]Wang,T.,Lee,W.,Brennan,R.L.,&Kolen,M.J.A Comparison of the Frequency Estimation and Chained Equipercentile Methods Under the Common-Item Non-Equivalent Groups Design.Paper presented at theannual meeting of National Council of Measure⁃ment in Education,April,San Francisco.2006.

[17]Kolen,M.J.CIPE(Version 1.0):A computer program.Iowa City,IA:Iowa Testing Programs,University of Iowa.(Available from the web address:http://www.uiowa.edu/～casma).2004.

How to Select Equating Models for College Entrance Examination Based on Item Response Theory

LI Guangming and ZHANG Minqiang

This research exemplified college entrance examination of Foshan city in Guangdong province and explored how to select the decent mode from SL、SN、NR and GPCM by such as equating design,data collection,prameter estimation,scaling,test equating,which could fit data by comparing the result of observed-score equating for four IRT models Methods.Compared merits and demerits of IRT models in terms of value of difference,we find:Rank of total error squared root were SL,SN,NR and GPCM.There was significant difference（p＜0.001）between SL and GPCM and NR and between SN and GPCM and NR and between GPCM and NR,but there wasn’t significant difference（p＞0.05）between SL and SN.The research show:(1)SL and SN were the best from the equating effect,but NR wasn’t good and GPCM was the worse;(2)It was wisdom and decent to select SL or SN to do test equating like this.

College Entrance Examination;Item Response Theory(IRT);Test Equating;Psychological and Educational Measurement

G405

1005-8427(2012)02-0008-6

广州大学
华南师范大学