教育测量理论新进展及发展趋势

2012-01-28乐美玲张佳慧

中国考试 2012年5期

辛涛乐美玲张佳慧

教育测量理论新进展及发展趋势

辛涛乐美玲张佳慧

以多维项目反应理论和认知诊断理论为代表的现代教育测量理论的兴起反映了人们不满足于单一的测量分数、希望得到更加详细的诊断信息的现实情况。将测量理论与教育评价和考试等实践领域相结合产生了增值性评价、自适应测验以及计算机化自适应多阶段考试等应用研究。目前大多数前沿领域，如认知诊断和计算机化认知诊断测验，还处于理论研究的阶段，尚未在大规模测评项目中应用；但随着研究的不断深化以及实践领域的迫切需求，新一代测量理论势必在教育等领域发挥重要的作用。

多维项目反应理论；认知诊断理论；垂直标定；增值评价；计算机化自适应测验

20世纪50年代至今，除了经典测量理论（Clas⁃sical Test Theory,CTT）外，项目反应理论（Item Re⁃sponse Theory,IRT）、概化理论（Generalizability The⁃ory,GT）以及认知诊断理论（Cognitive Diagnostic Theory,CDT）并存于心理与教育测量领域。现代测量理论大多是在经典测量理论的基础上，针对其某方面的不足发展起来的，以解决实践中的问题。目前，随着教育以及各领域的发展，新的需求不断涌现，对测量理论提出新的挑战。因此，测量研究者继续传承这种理念，进一步完善、发展测量理论；同时，研究者将测量理论应用于教育等领域的考试实践中，取得了丰富的成果。

目前，以IRT为核心的现代测量理论取代了CTT的核心地位，在现代测量实践中发挥着重要的作用。然而，IRT的强假设（单维性、局部独立性和单调性）在很大程度上限制了其在考试实践中的应用。随着认知科学、计算机科学及数理统计学等学科渗入到心理与教育测量学领域，教育测量与评价活动正经历着深刻的变化。传统的教育测验只给出一个笼统的考生测验分数，然而当今人们更希望通过教育测验提供更为详细的诊断信息从而更深入地了解学生的认知结构与水平。此外，教育决策者希望建立起教育监测系统，更好地了解学生学业成就的发展情况，并且对教师和学校的效能进行相对客观的评估。同时，随着科技的进步与发展，越来越多的考试不再采用纸笔测试，而是借助于计算机来实现，如此各种新题型得以引进到各类测试中。新题型的出现也给测量理论提出了新的要求，由于大多数模型都是针对0-1评分的项目建立的，因此需要进一步拓展到多级评分的条件下。

仔细梳理近年来有关现代测量理论的研究，可以看出，测量理论的研究进展主要体现在三个方面：一是多维项目反应理论的研究，二是认知诊断理论的发展，三是对垂直标定的探讨。将测量理论应用于考试实践的研究包括增值评价，计算机自适应测验以及计算机自适应序列考试。

1 测量理论的研究进展

1.1 多维项目反应理论的研究

多维项目反应理论（Multidimensional Item Re⁃sponse Theory，MIRT）将知识解构成多个维度，通过估计每个维度的能力值实现知识结构的诊断（余娜，辛涛，2009）。多维项目反应理论为测验中所涉及的每个维度引入能力和项目区分度参数，相当于将测验题目和考生之间的交互作用模型化（Reckase，1997）。它通过一个非线性的函数表征题目参数、考生的多维潜在能力以及其正确作答概率之间关系（康春花，辛涛，2010）。通过这个模型可以使我们对考生的多个特质进行分别的推断，因此MIRT对心理测验的分析比单维IRT能提供更为精确和细致的信息，对心理测验的编制、开发及评价具有重要的指导和参考价值。

目前，MIRT已经被成功地应用于检测测验项目所需属性/技能的详细结构（Ackerman，Gierl，&Walker，2003；Embretson，2007；Gorin&Embret⁃son，2006；Walker&Beretvas，2003）。维度增加给MIRT的参数估计造成了较大的困难，在一定程度上限制了MIRT的发展和应用，因此MIRT的参数估计仍然是当前研究的重心（Cai，2010a，2010b；De⁃mars，2006；de la Torre，2008，2009；Jiang，2005；Zhang&Stone，2004；涂冬波，蔡艳，戴海崎，丁树良，2011）。蔡力等（Cai，Yang，&Hansen，2011）提出了一个灵活的多组项目双因子分析框架，支持多种多维项目反应模型。扩展的双因子模型允许估计来自不同组的数据的潜变量均值和方差。此外，还有研究者探索MIRT的计算机自适应测验研究（Finkelman，Nering，&Rossos，2009；Li&Schafer，2005）以及MIRT在心理测验中的应用（Kacmar，Farmer， Zivnuska， &Witt， 2006； te Marveled，Glas，van Landeghem&van Dammek，2006）。还有研究者探索了多级评分的MIRT模型（Ferrando，2009；涂冬波等，2011），但是现有的多级评分数据的MIRT模型描述潜在结构的程度如何，还未见足够多的研究（康春花，辛涛，2010）。此外，对于多维度测验等值（如van der Linden，2000，2010）的方案也是值得研究者继续深入的方向。

1.2 认知诊断模型的发展

早期人们通过MIRT进行“认知诊断”的尝试，但这种建立诊断模型的方法存在一定局限性：一方面，不同的能力维度用属性进行概括时，属性的定义无法深入到认知过程的细节；另一方面，模型中属性的数量是有限的，否则会造成模型参数估计的困难（余娜，辛涛，2009）。为了克服这些问题，后续发展的诊断模型采用二分的属性向量组表征知识结构。目前，认知诊断模型的研究在以下两个方面有较多进展：一是对认知诊断模型（Cognitive Diagnostic Model，CDM）的整合以及模型—数据拟合的研究；二是从0-1评分到多级评分模型的拓展。

据统计，认知诊断模型发展至今已达100多种。由于CDM数量众多，研究者们试图提出一般的模型框架对模型进行整合，具体的模型可看作是一般模型的特例，例如von Davier（2008）的一般诊断模型（General Diagnostic Model，GDM），Rupp，Templin和Henson（2010）的对数线性模型（Log-Linear CDM，LCDM）以及de la Torre（2011）的G-DINA模型框架。虽然一般认知诊断模型可以整合多个模型，但由于参数估计的复杂性，其使用很有限。在具体应用时，还是要涉及具体模型间的比较与选择（Rupp，Templin&Henson，2010），其核心问题是对模型—数据拟合情况的评价。de la Torre和Douglas（2004）通过比较题目的边际分布以及成对题目的联合分布的期望特征和观测特征，计算三个模型拟合指标，但没有给出用以检验模型拟合的p值。Templin和Henson（2006）在de la Torre和Douglas（2004）的指标基础上，结合Lange⁃heine，Pannekoek和van de Pol（1996）的Monte Car⁃lo拟合优度检验方法，提出Monte Carlo重新抽样（Re-Sampling）技术。de la Torre（2011）的G-DINA模型框架还提供比较全模型与简化模型拟合情况的Wald检验。可见，目前在认知诊断中，模型—数据拟合评价方法的研究还处于探索阶段，还没有一个公认的方法，将来的研究须在计算繁琐的方法和较简单的启发式方法之间寻找平衡（Templin&Henson，2006）。

当前绝大多数认知诊断计量模型仅适用于0-1评分数据资料，大大限制了认知诊断在实际中的应用。近年来，研究者已经开始将一些CDMs扩展到多级评分题目中。Bolt和Fu（2004）将融合模型（Fusion Model，FM）扩展到多级评分情形，但是FM中未知参数估计特别复杂且诊断准确率也不高。国内学者在CDM的扩展方面也做出许多贡献：如祝玉芳和丁树良（2009）对属性层级方法（Attribute Hierarchy Methodology，AHM）进行多级评分的扩展，并提出多级评分的AHM。田伟和辛涛（2012）对规则空间方法（Rule Space Methodology，RSM）进行了基于多级评分项目的扩展，还开发了基于MAT⁃LAB的规则空间模型软件。涂冬波等（2010）基于等级反应模型（Graded Response Model，GRM）的思想对DINA模型进行拓展，开发出适合多级评分（含0-1评分）数据的多级评分DINA模型（Polytomous DINA，P-DINA）。

此外，基于认知诊断模型的等值（de la Torre&Lee，2010；Roussos，Templin，&Henson，2005；Roussos&Xu，2003 in Roussos，Templin，&Hen⁃son，2007；Xu&von Davier，2008；李峰，2009）、Q矩阵的自动估计（Chen，Xin，Wang，&Chang，in press）、DINA模型的扩展（de la Torre，2009）、多级属性的CDM（Templin，2004；von Davier，2008）、属性不等权重的CDM（de la Torre，2011；罗欢等，2010）等都是新兴的研究领域，还需要进一步研究。

1.3 垂直标定的研究

对于很多的教育应用，评测学生成就或能力倾向从某一年到下一年（以及在学校教育课程的不同阶段上）的发展程度是非常重要的。这种发展可以通过给各年级学生施测同一测验来评测，然而这种做法的问题在于同一测验不可能准确测量所有年级学生的学业成就水平。为了解决这个问题，一般通过使用多个测验水平以构建教育成就和能力倾向成套测验，其中每个测验水平适合于某个特定年级或年龄的学生。这就需要使用垂直标定（vertical scaling）（也称为垂直等值）方法，将多个测验水平上的分数与发展的分数量尺（developmental score scale）联系起来（Kolen，2006）。

垂直标定有三种基本的设计：共同题设计（com⁃mon item design）、等组设计（equivalent group design）和标定测验设计（scaling test design）。其中标定测验设计最难实施，因为它不仅要求针对各个年级编制一份单独的测验，还需进行标定测验的测试。共同题设计最容易实施，但容易产生情境效应：共同题处于相邻年级中低测验的末尾和高年级测验的开始位置，如果锚题在这两个不同的位置发挥的作用不同，产生了项目漂移（item drift），可能会严重影响垂直等值的效果（Michael，2006；Michael&Brenner， 2004； Wells， Subkoviak， & Serlin，2002）。其他两种方法没有这个问题，因为等组设计中各年级的链接通过随机组实现，标定测验设计中各年级的链接通过由所有学生完成一份共同的标定测验实现。

目前，垂直标定研究有一些新的进展，Patz和Yao（2007）提出了广义分层IRT模型（general hier⁃archical IRT model，简称嵌套模型）用于构建发展性量尺。该研究将多维IRT引入到垂直等值中，希望通过解决不同年级水平的测验构念的多维性问题，提高垂直等值结果的准确性。Martineau（2006，2007）的研究表明，不同年级水平的测验在结构上的变化（cross-grade construct shift）显著影响垂直标定结果的准确性，因此将MIRT引入到垂直标定中，是解决测验结构变化的一个可能的方法（Lin，2006；Kim，2008）。垂直标定从理论基础、方法到测验领域中的应用都还需要大量的深入研究，将理论切实地运用到实践当中也将成为研究者今后努力的一个重要方向。

2 测量理论的应用研究

2.1 增值模型的发展与应用

在传统教育评价领域，对学校和教师的评价多是一种终结性评价，即以学生测验成绩的均值为标准进行评价。这种单一的评价方法反映的信息并不准确，受到各方面的批评。增值评价（Value-add⁃ed Assessment）作为一种新的教育评价思路，近年来得到越来越广泛的关注，并引发了大量的相关研究，它为传统的教育测验分数的分析提供了新的视角，能够实现对学校和教师效能的客观评价。对教师进行增值评价的基本做法是，考虑影响学生学业成绩的种种因素，如学生的个人情况（性别、智力、起点学习水平等）、家庭背景信息（师资、办学条件之类）等，借助适当的测量理论与模型，把教师对学生学业成绩的影响从其他种种因素的影响中分离出来，准确计算其对学生年度学业成绩退化的具体影响程度，由此而评估其给学生带来的成绩“增值”幅度（辛涛，张文静，李雪燕，2009）。

增值评价的统计模型一般以多水平回归模型为基础，随着研究的不断深入，采用的模型表现出复杂化的趋势。一般的增值模型假设某学校或教师的效应对所有学生来说都是相同的，但最近有研究者（Dokumaci&Meyer，2010）认为，学校或教师对不同群体学生的增值影响可能是不同的，据此提出了增值效应差异模型（differential effect val⁃ue-added model）。有研究者探讨了不同年级测验间的垂直链接对增值模型中教师效应或学校效应估计结果的影响（Briggs&Weeks，2009）。此外还有一些研究者进行了教师效应增值估计的效度研究（Harris&Sass，2007；Jacob&Lefgren，2008；Kane&Staiger，2008）。

我国学校效能研究起步较晚，相关实证研究大概起源于20世纪90年代，已经进入了学校效能评价研究的末期，研究内容主要集中在对学校效能一致性的研究上，很少关注学校效能的稳定性。边玉芳与林志红（2007）以浙江省金华市39所高中学校2006年参加高考的15649名考生作为样本，通过增值模型分析得出不同区域、类型的学校增值情况存在差异的结论。张文静等（2010）以房山区42所小学的1238名四年级学生42名数学教师为研究对象，以四年级下学期的数学测验成绩为因变量，四年级上学期的数学测验成绩作为协变量加入两水平线性模型中建立基础增值模型，结果显示，教师的特征变量中，教师的性别、年龄、教龄和学历专业对学生学业成绩的增长无显著影响，而教师的职称和最终受教育水平则对学生学业成绩的增长有显著影响；与教学相关的变量中，是否参加过新课程培训这一变量对学生学业成绩的增长有显著影响。曹健等人（2010）运用增值排序法和协方差分析法通过对1237名学生进行分析，首次证实了学生学业成绩增值差异特征：“U形曲线”的存在，即起点水平较低和起点水平较高的两部分学生，其增值幅度高于中间水平学生。

2.2 计算机化自适应测验的进展

随着计算机技术和测量理论的飞速发展，计算机化自适应测验（Computerized Adaptive Testing，CAT）自20世纪70年代早期被引入测验领域，目前已经成为一种非常流行的测验模式（Cheng，2008）。CAT的基本思路是让计算机模仿聪明主考官的做法，每次都呈现难度与考生能力水平接近的题目。因此，较传统纸笔测验（Paper-and-Pencil，P&P），CAT使用较少的题目就能够更准确地估计考生的潜在特质（心理测量学领域一般称为能力θ）（Wainer，1990；Weiss，1982）。CAT还有很多优点：（1）当题库得到良好维护时，它可以提供可靠的、连续的测验；（2）整个测验过程都是由计算机完成，因此测验公平、公正和高效；（3）与多媒体技术结合可以提供包括音频剪辑和视频剪辑在内的新题目类型。这些优点使得CAT成为很多大规模教育评估项目的首选（陈平，辛涛，2011a）。

认知诊断计算机化自适应测验（Cognitive Diag⁃nostic Computerized Adaptive Testing，CD-CAT）将CAT与认知诊断结合起来，势必成为CAT发展的一个新方向。CD-CAT是对CAT的扩展，它不仅可以提供关于考生优缺点的诊断反馈，还可以提高诊断测量的准确性与效率。因此，CD-CAT近年来在教育测量领域得到广泛关注（e.g.,Chen，Xin，Wang，&Chang，in press；Cheng，2009；McGlohen&Chang，2008；Xu，Chang，&Douglas，2003；陈平，辛涛，2011a，2011b；毛秀珍，辛涛，2011；林海菁，丁树良，2007；汪文义，丁树良，游晓锋，2011）。目前相关研究还刚刚起步，研究者探讨了CD-CAT选题策略的研发和比较（如Xu，Chang和Douglas，2003；McGlohen 和 Chang，2008；Cheng，2009；Wang，Chang，&Huebner，2011；陈平，李珍，辛涛，2011；毛秀珍，辛涛，2011），以及CD-CAT中新题校准和Q矩阵自动估计的问题（Liu，Xu，&Ying，2011；陈平，辛涛，2011a，2011b）。

2.3 计算机化自适应多阶段考试

虽然理想化的计算机化自适应测验有众多优点，但在实践中其对题库的高要求以及测验安全的隐患迫使我们重新评估CAT的有效性。结构化的计算机化自适应多阶段考试（Computer-Adaptive Multistage Testing，ca-MST）是使用题组（testlet）的自适应测验（Drasgow，Luecht，&Bennett，2006）。ca-MST最初由Luecht和Nungester（1998）提出，当时称为计算机自适应序列测验（Computer-Adaptive Sequential Testing，CAST），而目前ca-MST的缩写更为人熟知。近年来，ca-MST逐渐受到重视，被看作是介于线性测验与自适应测验之间的一种测验形式（Armstrong&Little，2003；Hambleton&Xing，2002；Jodoin，Zenisky，&Hambleton，2002；Lu⁃echt， 2000； Luecht， Brumfield， & Breithaupt，2002；Luecht&Burgin，2003；Patsula&Hamble⁃ton，1999）。从ca-MST是一个事先构建的多阶段自适应题组模型，该模型结合多阶段自适应技术与自动组卷（Automated Test Assembly，ATA），允许测验开发者在较大程度上控制题册以及数据的质量。ca-MST具有自适应的性质，因此比纸笔测验或计算机化的线性测验更加有效；ca-MST在内容效度、题册质量以及测验材料曝光等的控制上比CAT更有优势（Luecht，2000；Luecht&Burgin，2003）。正因为ca-MST在测验实践中表现出的许多优点，美国的一些大型测验项目，例如注册会计师统一考试（Uniform CPA Examination）和研究生入学考试（Graduate Record Examination，GRE）都开始用ca-MST替代CAT。因此，ca-MST也成为了研究的热点之一（e.g.Breithaupt&Hare，2007；Gierl et al.，2011；Sireci et al.，2008），在《教育测量》（第四版）中也有详细的介绍，也可参见Luecht和Sireci（2011）向大学理事会提交的综述报告。

3 展望

随着人们不断对测量结果提出更高的要求，测量理论和测量模型表现出复杂化的趋势，这在一定程度上反映出教育测量等领域的现实情况的复杂性。然而，研究者和实践者们也逐渐开始反思开发复杂模型的必要性，如何整合不同的测量理论和模型等技术性问题；以及如何将测量的结果有效地应用于教育评价和教育问责，如何向不具有统计或测量学专业知识的相关利益群体报告和解释测量的结果等实践中的问题。

目前，无论是多维IRT、认知诊断还是垂直标定都还处于理论研究的阶段，较少应用于实际的测评项目。如何在考试实践中应用这些新的测量理论和模型，以及在实践中会遇到什么问题，还有待进一步探索。但可以肯定的是，根据教育测评的发展趋势，认知诊断和CD-CAT有很好的发展前景，例如，我国《国家中长期教育改革和发展规划纲要（2010—2020年）》明确提出要改革教育质量评价制度，完善教育质量监测评估体系，定期发布测评结果，建立学生发展指导制度，加强对学生的理想、心理和学业等多方面指导；美国奥巴马政府通过的新联邦资助方案“卓越竞争”（Race to the Top，RTTT）强调评价的目的应该是了解学生的学习与进步，而不仅仅是对学生的学习情况进行监督和排名。

认知诊断和CAT的结合产生了具有较大发展前景的CD-CAT，可以预见如果将增值评价的思想与CTT以外的其他测量理论相结合，如多维IRT、认知诊断理论和垂直标定，将产生更大的价值。随着我国加大对教育监测、教育评价的重视程度，增值评价和CD-CAT等将在未来的教育实践中发挥重要的作用。

[1]Ackerman,T.A.,Gierl,M.J.,&Walker,C.M.Using multidimen⁃sional item response theory to evaluate educational and psychologi⁃cal Tests.MIRT Instructional Module/Educational Measurement:Issues and Practice,2003：37–53.

[2]Armstrong,R.D.,&Little,J.The assembly of multiple form struc⁃tures.Paper presented at the annual meeting of the National Coun⁃cil on Measurement in Education.2003,April.

[3]Breithaupt,K.,&Hare,D.R.Automated simultaneous assembly of multistage testlets for a high-stakes licensing exam.Educational and Psychological Measurement,2007：67,5-20.

[4]Briggs,D.C.,&Weeks,J.P.The sensitivity of value-added model⁃ing to the creation of a vertical score scale.Education Finance and Policy,2009，4(4),384-414.

[5]Cai,L.High-dimensional exploratory item factor analysis by a Me⁃tropolis–Hastings Robbins–Monro algorithm.Psychometrika,2010a，75(1),33-57.

[6]Cai,L.Metropolis-Hastings Robbins-Monro algorithm for confir⁃matory item factor analysis.Journal of Educational and Behavioral Statistics,2010b，35(3),307-335.

[7]Cai,L.,Yang,J.S.,&Hansen,M.Generalized full-information item bifactor analysis.Psychological Methodsm，2011，16(3),221-248.

[8]Cheng,Y.Computerized adaptive testing—new developments and applications.Unpublished doctoral thesis,University of Illinois at Urbana-Champaign.2008.

[9]Cheng,Y.When cognitive diagnosis meets computerized adaptive testing:CD-CAT.Psychometrika,2009，74,619-632.

[10]de la Torre,J.Multidimensional scoring of abilities:The ordered polytomous response case.Applied Psychological Measurement,2008，32(5),355-370.

[11]de la Torre,J.Improving the quality of ability estimates through multidimensional scoring and incorporation of ancillary variables.Applied Psychological Measurement,2009，33(6),465-485.

[12]de la Torre,J.The generalized DINA model framework.Psy⁃chometrika,2011，76,179-199.

[13]de la Torre,J.,&Douglas,J.A.Higher-order latent trait models for cognitive diagnosis.Psychometrika,2004，69,333-353.

[14]de la Torre,J.,&Lee,Y.S.A note on the invariance of the DINA model parameters.Journal of Educational Measurement,2010，47,115-127.

[15]DeMars,C.E.Application of the bi-factor multidimensional item response theory model to testlet-based tests.Journal of Education⁃al Measurement,2006，43(2),145–168.

[16]Drasgow,F.,Luecht,R.M.,&Bennett,R.Technology and Test⁃ing.In R.L.Brennan(Ed.),Educational measurement(4th ed.,pp.471–515).Washington,DC:American Council on Education/Praeger Publishers.2006.

[17]Embretson,S.E.Construct Validity:A Universal Validity System or Just Another Test Evaluation Procedure?Educational Research⁃er,2007，36(8),449–455.

[18]Ferrando,P.J.Difficulty,Discrimination,and Information Indices in the Linear Factor Analysis Model for Continuous Item Respons⁃es.Applied Psychological Measurement,2009，33(1):9–24.

[19]Finkelman,M.,Nering,M.L.,&Roussos,L.A.A conditional expo⁃sure control method for multidimensional adaptive testing.Journal of Educational Measurement,2009，46(1),84–103.

[20]Fu,J.,&Li,Y.Cognitively diagnostic psychometric models:An in⁃tegrative review.Paper presented at the Annual Meeting of the Na⁃tional Council on Measurement in Education,Chicago,IL.2007.

[21]Gierl,M.J.,Lai,H.,Li,J.,&Breithaupt,K.Evaluating the Perfor⁃mance of CATSIB in a Multi-Stage Adaptive Testing Environment.Manuscript submitted for publication.2011.

[22]Gorin,J.S.,&Embretson,S.E.Item Diffficulty Modeling of Para⁃graph Comprehension Items.Applied Psychological Measurement,2006，30(5),394.

[23]Hambleton,R.K.,&Xing,D.Comparative analysis of optimal and non-optimal computer-based test designs for makingpass-fail de⁃cisions(Center for Educational Assessment Research Report No.457).Amherst,MA:University of Massachusetts,School of Educa⁃tion.2002.

[24]Harris,D.N.,&Sass,T.R.Teacher training,teacher quality,and student achievement.National Center for the Analysis of Longitu⁃dinal Data in Education Research(CALDER).Working Paper,2007，3.

[25]Jacob,B.A.,&Lefgren,L.Can principals identify effective teach⁃ers?Evidence on subjective performance evaluation in education.Journal of Labor Economics,2008，26(1),101-136.

[26]Jiang,Y.L.Estimating parameters for multidimensional item re⁃sponse theory models by MCMC methods.Unpublished doctoral dissertation,Michigan State University.2005.

[27]Jodoin,M.,Zenisky,A.,&Hambleton,R.K.Comparison of the psychometric properties of several computerbased test designs for credentialing exams.Paper presented at the annual meeting of the National Council on Measurement in Education,New Orleans,LA.2002,April.

[28]Kacmar,K.M.,Farmer,W.L,Zivnuska,S.,&Witt,L.A.Apply⁃ing multidimensional item response theory analysis to a measure of meta-perspective performance.The Electronic Journal of Business Research Methods,2006，4(1),23–30.

[29]Kane,T.J.,&Staiger,D.O.Estimating teacher impacts on student achievement:An experimental evaluation:National Bureau of Eco⁃nomic Research.2008.

[30]Kim Y.Y.Effects of test linking methods on proficiency classifica⁃tion,UIRT versus MIRT liking.Unpublished doctorial dissertation.Michigan State University,East Lansing,U.S.2008.

[31]Kolen,M.J.Scaling and norming.In R.L.Brennan(Ed.),Educa⁃tional measurement(4th ed.,pp.156–186).Washington,DC:American Council on Education/Praeger Publishers.2006.

[32]Kolen.M.J.,&Brennan,R.L.Testing equating,scaling,and lingk⁃ing,methods and Practices.New York,Springer.2004.

[33]Langeheine,R.,Pannekoek,J.,&van de Pol,F.Bootstrapping goodness-of-fit measures in categorical data analysis.Sociological Methods and Research,1996，24,492–516.

[34]Li T.The effect of dimensionality on vertical scaling.Unpublished doctorial dissertation.Michigan State University,East Lansing,U.S.2006.

[35]Li,Y.H.,&Schafer,W.D.Trait parameter recovery using multi⁃dimensional computerized adaptive testing in reading and mathe⁃matics.Applied Psychological Measurement,2005，29(1),3–25.

[36]Liu,J.C.,Xu,G.J.,&Ying,Z.L.Statistical inference of the Q-matrix in diagnostic classification models.Paper presented at the 76th Meeting of the Psychometric Society,Hong Kong,China.2011,July.

[37]Luecht,R.M.Implementing the computer-adaptive sequential testing(CAST)framework to mass produce high-quality comput⁃er-adaptive and mastery tests.Paper presented at the Annual Meeting of the National Council on Measurement in Education,New Orleans,LA.2000,April.

[38]Luecht,R.M.,Brumfi eld,T.,&Breithaupt,K.A testlet assembly design for the uniform CPA examination.Paper presented at the annual meeting of the National Council on Measurement in Educa⁃tion,New Orleans,LA.2002,April.

[39]Luecht,R.M.,&Burgin,W.Matching test design to decisions:Test specifications and use of automated test assembly for adap⁃tive multi-stage testlets.Paper presented at the Annual Meeting of the National Council on Measurement in Education,Chicago,IL.Retrieved from http://www.psych.umn.edu/psylabs/catcentral.April,2003.

[40]Luecht,R.M.,&Nungester,R.J.Some practical examples of com⁃puter-adaptive sequential testing.Journal of Educational Measure⁃ment,1998,35,229–249.

[41]Luecht,R.M.,&Sireci,S.G.A Review of Models for Comput⁃er-Based Testing.Research Report for College Board.2011

[42]Martineau J A.The effects of construct shift on growth and ac⁃countability models.Unpublished doctorial dissertation disserta⁃tion.Michigan State University,East Lansing,U.S.2004.

[43]Martineau J A.A distorting value added,the use of longitudinal,vertically scaled student achievement data for growth-based,val⁃ue-added accountability.Journal of Educational and Behavioral Statistics，2006，31:35-62.

[44]Mcglohen,M.,&Chang,H.H.Combining computer adaptive test⁃ing technology with cognitive diagnostic assessment.Behavior Re⁃search Methods,2008，40,808-821.

[45]Patsula,L.N.,&Hambleton,R.K.A comparative study of ability estimates obtained from computer-adaptive and multi-stage test⁃ing.Paper presented at the annual meeting of the National Council on Measurement in Education,Montreal,Quebec,Canada.1999,April.

[46]Patz R J,Yao L.Vertical scaling:statistical models for measuring growth and achievement.In:Rao C R,Sinharay S.Eds.Handbook of statistics.Ameterdam,Netherlands:Elsevier，2007，955-975.

[47]Reckase,M.D.The past and future of multidimensional item re⁃sponse theory.Applied Psychological Measurement,1997，21,25-36.

[48]Robert H.Meyer&Emin Dokumaci.Value-Added Models and the Next Generation of Assessments.Exploratory Seminar:Measure⁃ment challenges within the race to the top agenda center for K-12 assessment&performance management.2010，3-43.

[49]Roussos,L.,Templin,J.,&Henson,R.Theoretically grounded linking and equating for mastery/non-mastery skills diagnosis models.Unpublished ETS Project Report,Princeton,NJ.2005.

[50]Roussos,L.A.,Templin,J.L.,&Henson,R.A.Skills diagnosis using IRT-Based latent class models.Journal of Educational Mea⁃surement,2007，44(4),293-311.

[51]Rupp,A.A.,Templin,J.,&Henson,R.A.Diagnostic measure⁃ment:Theory,methods,and applications.The Guilford Press.2010.

[52]Sireci,S.G,Baldwin,P.,Martone,A.,Zenisky,A.,Kaira,L.,Lam,W.,Shea,C.,Han,K.T.,Deng,N.,Delton,J.,&Hambleton,R.K.Massachusetts adult proficiency tests technical manual:Version 2.Amherst,MA:Center for Educational Assessment.April,2008.

[53]te Marveled,J.M.,Glas,C.A.W.,van Landeghem,G.,&van Damme,J.Application of multidimensional item response theory models to longitudinal data.Educational and Psychological Mea⁃surement,2006,66(1),5–34.

[54]Templin,J.Generalized linear mixed proficiency models for cogni⁃tive diagnosis.Unpublished doctoral dissertation,University of Illi⁃nois at Urbana-Champaign.2004.

[55]Templin,J.L.,&Henson,R.A.Measurement of psychological dis⁃orders using cognitive diagnosis models.Psychological methods,2006，11,287-305.

[56]van der Linden,W.J.A test-theoretic approach to observed-score equating.Psychometrika,2000，65,437-456.

[57]van der Linden,W.J.Local observed-score equating.In A.A.von Davier(Ed.),Statistical models for equating,scaling,and linking.New York:Springer.2010.

[58]von Davier,M.A general diagnostic model applied to language testing data.British Journal of Mathematical and Statistical Psy⁃chology,2008,61,287-307.

[59]Wainer,H.Computerized adaptive testing:A primer.Hillsdale,NJ:Erlbaum.1990.

[60]Walker,C.M.,Beretvas,S.N.Comparing Multidimensional and Unidimensional Proficiency Classifications:Multidimensional IRT as a Diagnostic Aid.Journal of Educational Measurement,2003,40(3),255–275.

[61]Wang,C.,Chang,H.,&Huebner,A.Restrictive stochastic item se⁃lection methods in cognitive diagnostic CAT.Journal of Education⁃al Measurement,2011,48,255-273.

[62]Weiss,D.J.Improving measurement quality and efficiency with adaptive testing.Applied PsychologicalMeasurement,1982,6,473-492.

[63]Wells,C.S.,Subkoviak,M.J.,&Serlin,R.C.The effect of item parameter drift on examinee ability estimates.Applied Psychologi⁃cal Measurement,2002,26(1),77-87.

[64]Xu,X.,Chang,H.,&Douglas,J.A simulation study to compare CAT strategies for cognitive diagnosis.Paper presented at the an⁃nual meeting of National Council on Measurement in Education,Montreal,Canada.2003.

[65]Xu,X.,&von Davier,M.Linking for the general diagnostic model.Issues and Methodologies in Large-Scale Assessments,IEA-ETS Research Institute,Hamburg,2008,1,99-113.

[66]Zhang,B.,&Stone,C.A.Direct and indirect estimation of three-parameter compensatory multidimensional item response models.Paper presented at the annual meeting of the American Educational Research Association,San Diego,CA.2004.

[67]边玉芳，林志红.增值评价：一种绿色升学率理念下的学校评价模式.北京师范大学学报（社会科学版）,2007,204:11-17.

[68]曹健，惠善康，李庆龙.两种增值评价方法在基础教育评价中的应用.教育测量与评价，2010,4-7.

[69]陈平,李珍,辛涛.认知诊断计算机化自适应测验的题库使用均匀性初探.心理与行为研究,2011,9(2),125-132.

[70]陈平,辛涛.认知诊断计算机化自适应测验中的项目增补.心理学报,2011a,43(7),836-850.

[71]陈平,辛涛.认知诊断计算机化自适应测验中在线校准方法的开发.心理学报,2011b，43(6),710-724.

[72]康春花,辛涛.测验理论的新发展：多维项目反应理论.心理科学进展,2010，18(3):530-536.

[73]李峰.无锚题测验的链接——规则空间模型的途径.博士毕业论文[D],北京师范大学.2009.

[74]罗欢,丁树良,汪文义,喻晓锋,曹慧媛.属性不等权重的多级评分属性层级方法.心理学报,2010，42(4),528-538.

[75]林海菁,丁树良.具有认知诊断功能的计算机化自适应测验的研究与实现.心理学报,2007，39(4),747-753.

[76]毛秀珍,辛涛.认知诊断CAT中选题策略的改进.北京师范大学学报(自然科学版),2011，47(3),326-330.

[77]田伟,辛涛.基于等级反应模型的规则空间方法.心理学报,2012,44(1),249-262.

[78]涂冬波,蔡艳,戴海琦,丁树良.一个多级评分的认知诊断模型：P-DINA模型的加法.心理学报,2010,42(10),1011–1020.

[79]涂冬波,蔡艳,戴海琦,丁树良.多维项目反应理论:参数估计及其在心理测验中的应用.心理学报,2011,43(11),1329-1340.

[80]汪文义,丁树良,游晓锋.计算机化自适应诊断测验中原始题的属性标定.心理学报,2011,43(8),964-976.

[81]辛涛，张文静，李雪燕.增值性评价的回顾与前瞻.中国教育学刊，2009(4):40-43.

[82]余娜,辛涛.认知诊断理论的新进展.考试研究,2009,5(3),22-34.

[83]祝玉芳,丁树良.基于等级反应模型的属性层级方法.心理学报,2009,41(3),267–275.

[84]张文静，辛涛，康春花.教师变量对小学四年级数学成绩的影响：一个增值性研究.教育学报，20106(2):69-76.

New Progress and Trends of Measurement Theory

XIN Tao,LE Meiling and ZHANG Jiahui

The rising of modern measurement theory,represented by multidimensional item response theory and cognitive diagnostic theory,reflects the fact that people are no longer content with a single test score,but demand more specific diagnostic information.The combination of measurement theory and education assessment sparks the research on value-added assessment,computerized adaptive testing and computer-adaptive multistage testing.Most of the advanced research including cognitive diagnosis models and cognitive diagnostic computerized adaptive testing,still remain in the stage of theoretic research;but it is unquestionable that with the progress in research as well as the ever increasing need in practice,this new generation of measurement theory would soon play a crucial role in education and other fields.

Multidimensional Item Response Theory;Cognitive Diagnostic Theory;Vertical Scaling;Value-added Assessment;Computerized Adaptive Testing

G405

1005-8427(2012)05-0003-9

北京师范大学