计算机化多阶段测验的基本结构及其研究进展

2015-07-06黄生顺

中国考试 2015年7期

杨涛黄生顺辛涛

1 引言

近年来，计算机化多阶段测验（Multistage Testing,MST）相继成为多个大型考试项目的施测形式，如美国注册会计师资格考试、医师执照考试、法学院入学考试和研究生入学考试（GRE），与此同时，许多研究也正在尝试将这种测验形式应用到PISA和NAEP等大规模教育测评项目中。[1][2]MST受到越来越多研究者和实践者的青睐。

MST是使用题组的自适应测验，[3]根据被试的能力水平适应性地施测相应难度的题目集合。与计算机自适应测验（Computer Adaptive Testing，CAT）一样，依靠大型题库，自行去适应被试水平，但是MST根据被试在前面题目中的表现，施测的是事先组装好的一组题目，而不是单个题目。

MST兼具线性测验和CAT的优点。一方面，和传统的纸笔测验类似，MST的模块在施测前组装，有时题本也是在施测前组装，测验开发者可以对模块和题本的统计目标、测验内容的覆盖程度、内容间的平衡以及试题材料（图表、音频、视频）等进行检查，对测验有更高的控制能力；在一个模块内，考生可以使用纸笔测验中所习惯的答题方式，如检查和跳过某道题。另一方面，在MST中，题库中的题目事先组合为不同难度的模块，用来适应不同能力的被试，可以达到和CAT差不多、但高于线性测验的测验效率和测量准确性；而且考生作答和自己能力水平相当的题目，更能激活他们的答题动机，收集到更加真实有效的信息。MST结合测验开发者的智慧和适应性，不仅能够提供稳健可靠的测验工具，而且具备较高的测量精度，综合考虑适应性、实践性、测量准确性和可控性，[4]是一种实用性较强的测验形式。

MST的诸多优势得益于其独特的框架结构。MST分为多个阶段，一般来说，除第一阶段外，其他阶段有多个平均难度不同的模块，这样的结构实现了计算机化测验的适应性，同时有利于对测验质量的控制。在一些国内心理和教育测量领域的研究者和考试机构开始将关注点转向MST之际，[5][6]本文对MST测验形式的基本结构进行综述，以帮助读者更加全面地了解MST灵活的结构，为促进MST在国内的研究和应用提供理论参考。

2 MST结构的基本问题

2.1 MST结构的特点

为了更清楚地描述MST测验形式的结构，避免和其他测验形式的概念（如题本、题组）相混淆，Luecht和Nungester提出了一系列术语，分别是模块、阶段、路径、面板。[7]

模块（Module），由一组难度相近的题目组成，这些题目可以彼此独立，也可以是有共同背景材料的多个题目（如阅读题）。有些研究也称为题组（testlet），但题组一般是指共用同一背景材料的一组题目，[8]为了和这个概念进行区分，本文采用模块这个术语。在施测过程中，模块作为一个单元向考生发放和计分，考生需要完成一个模块的所有题目，但是不同考生作答的模块可能不同。为了适应不同能力的考生，模块有不同的统计特征（如平均难度、模块信息函数）。

为了在施测过程中能够为不同能力的考生选择相应难度的模块，MST分为多个部分，一个部分就称作是一个阶段。MST由多个阶段组成，一般来说，第一阶段包括一个模块，其他阶段包括多个平均难度不同的模块。因为MST借助计算机进行阶段间的评分和模块选择，一个阶段向另一个阶段的过渡只需较短时间，考生可能不会察觉到阶段的存在。

阶段和模块共同组成了MST的结构（Configuration）。不同阶段数量和模块数量可以组合为不同的结构。图1是一个三阶段的MST结构。第一阶段有一个中等难度模块（1M），第二阶段分别有一个低难度模块（2L）、一个中等难度模块（2M）、一个高难度模块（2H），第三阶段也有三个平均难度不同的模块（3L、3M、3H），这样的结构简称为1-3-3设计。

图1 1-3-3 MST设计

第一阶段所有考生作答同一模块，也称作探测测验（Routing Test）。第一阶段完成后，估计考生的当前能力，利用路线选择策略（Routing Rule）在第二阶段选择与考生能力匹配的模块，每个考生只作答三个模块中的一个。第二阶段完成后，重复能力估计和模块选择过程。第三阶段完成后使用考生在所有题目的作答反应数据估计考生的最终能力。考生在各个阶段所接收模块的顺序就是路径（Pathway），反映了考生实际作答的题本。图1总共有7条路径，每个考生的题本会随着考生能力不同而不同。

为了更好地实施MST测验，测验开发者常常会将多个阶段的所有模块组合在一起，组成面板（Panel）。测验开发时为了控制题目和模块的曝光程度，一般会按照MST的结构组装多个平行的面板（图2），然后随机向考生发放。虽然面板作为一个整体发放给考生，但是路线选择策略会为每个考生找到最适合的模块，所以考生在每个阶段只能看见且只能作答一个与自己能力水平匹配的模块。

图2 平行的1-3-3设计面板

除了使用面板进行测试，也可以在测试过程中从模块库中选择与每个考生能力相符的模块。[9]不管采用哪种方式实施测验，MST都保持阶段和模块组成的结构，这使得它的开发实施不是简单地依赖自适应算法（如路线选择策略），测验开发者的专业知识和经验也在其中发挥着重要的作用。[10]正如Wainer和Kiely认为，多阶段的模块是一种保持CAT优势同时允许使用专家智慧的机制。[11]

2.2 MST结构的选择

MST设计灵活，结构多样，不同测验采用不同的阶段数量和模块数量。在决定使用MST作为测验的实施方式后，测验开发者首先需要根据测验情况和实际条件来确定阶段数量和模块数量，考虑的因素主要有测验目的、题库情况和预设的考生能力分布等。

测验有不同的目的，有些测验主要是为了准确估计考生的能力水平，而有些测验则关注将考生分到合适的类别，判断考生的表现水平。不同测验目的下的MST应该采用不同的结构设计。用于能力测验的MST希望准确测量整个量尺上的能力，那么需要更多阶段和模块来适应不同能力范围的被试；[12]用于分类测验的MST更注重分类决策的准确性，模块难度能够适应分类分数附近的能力即可。美国的语言测试和美国的注册会计师考试均采用1-2-2设计，这是因为这些测验不太关注整个能力量尺上的测量准确性，它们关注的是中上水平的考生是否掌握了测验目标要求的知识和能力。

题库是MST的重要组成部分，题库大小和质量是影响MST测量精度的重要因素，而且题库质量的改善有利于提高测验信息函数。实际上，题库质量，尤其是题目难度参数的分布情况，还会限制结构的选择。[13]每种MST结构都需要一个不同的题库。如某个阶段需要两个不同难度的模块，中等难度和非常难的模块，这就意味着题库需要有许多中等和高难度的题目。如果这两个模块，一个低难度，一个高难度，那么必须保证题库中有大量相应难度的题目。在实践中，由于自适应测验对题库的要求较高，如果题库整体质量不好，任何测验设计也无法弥补，所以测验开发者使用题库优化技术和题目编写技术等来保证题库的质量，而在框架结构设计时就不需太注意题库的约束。

MST的阶段包括多个模块，每个模块适应某一范围内的考生能力，模块数量会影响考生间能力分组的粗细程度。不同考试中考生能力的分布形态和离散趋势都存在差异。考试能力分布一般是服从正态分布，不过在具体的教育考试中，考生能力分布可能不是正态的；或起初是正态分布，后来随着年龄增长、接受教育而导致部分考生的能力值升高，而变成负偏态分布；资格考试中被试的能力分布比较集中，成就测验的考生能力分布相对较广。为了覆盖不同考生群体的整个能力量尺，需要设置相应的模块数量，如果能力分布比较广，也许需要加入更多的模块。

MST结构的选择是专家根据实际条件和测验特性进行综合判断的结果，除了考虑以上三个因素，测验开发者还要考虑考试科目的性质、测验结构等。

3 MST结构的相关研究

3.1 阶段数量的影响

MST的适应性是在阶段之间完成的，更多阶段允许MST有更大的适应性和更高的灵活性。[14]Patsula的研究发现阶段从两个增加到三个时，能力估计误差减小。[15]但是阶段比较多时，面板结构变得复杂，组卷质量可能会降低；模块和面板检查的工作量也会相应加重，同时对最终的测量准确性并没有太大的作用。[16][17]

Zheng，Nozawa，Gao和Chang比较1-2-4和1-2-3-4在很多条件下的表现，包括阶段间题目数量的分配方式、各阶段模块组装的先后顺序、测验间题目是否重复、路线选择策略和目标测验信息函数的构建方式。研究表明只有使用优化的目标测验，且信息函数和测验间题目可以重复时，四阶段的分类准确率比三阶段更高一点，其他情况没有发现一致的结果。[18]不同的测验设计在准确性和相对效率等方面的确有差异。因为从本质上来看，阶段越多分流的次数越多，测验结果越接近CAT。

两阶段MST实施简单方便，除了可以使用计算机来施测，也支持纸笔测验。大规模测评项目喜欢使用这种结构来验证MST的可行性，德国的国民教育纵向研究[19]和NAEP[20]首先给考生发放一个相同的题本，经过一段时间后根据被试的能力分配三个不同难度题本中的一个。但是两阶段只有一个适应点，被试在第二阶段很有可能分到不恰当的模块，特别是能力在分流时模块间的临界分数附近的被试。为保险起见不建议采用两阶段结构，已有的研究一般采用三阶段或四阶段。[21]

3.2 模块数量的影响

大多数MST的研究和应用在第一阶段使用一个模块，随后的阶段模块依次增加，每个阶段平均有5个模块。如果某一阶段的模块比较多，题目的平均难度水平就越多，模块的难度和被试能力可以更有针对性地进行匹配，所以模块数量提供更大的适应性和更高的灵活性。Patsula模拟研究表明，第二阶段或第三阶段模块从3个增加到5个，能力估计的准确性和测验效率增加。[22]

和阶段数的问题一样，模块的增多同样会导致组卷的复杂性和检查工作量的增加，而且需要更广的题目难度分布，这对题库提出更高的要求；[23]而且测量准确性不一定有太多的提升。[24][25]Lord建议在实践中每个阶段使用3个或4个模块。[26]

3.3 常见结构的比较

整理MST的相关文献发现，研究或实践使用的MST结构非常多样，主要有1-3、1-2-2、1-2-3、1-3-2、1-3-3、1-1-2-3、1-5-5-5-5、1-1-2-3-3-4、5-5-5-5-5-5。不同的阶段模块组合适用于特定条件下的测验，不过为了更清楚地认识不同结构的特点，帮助实践者更快速地找到合适的结构，诸多研究对不同结构的各方面表现进行探讨。

Zenisky设计了4种测验信息量、2种信息量在各阶段的分配方式、4种路线选择策略、3种通过率，比较了1-2-2、1-2-3、1-3-2、1-3-3结构在这些条件（共4×2×4×3=96个）中的表现。结果表明所有设计的分类准确率、误判率和漏判率都差不多。[27]全国英语等级考试结合英语考试的特点，专家团队提出并设计了1-3-5和1-2-5-5两种测试框架。研究者模拟生成500个、1000个、3000个和5000个样本量，以检验两个测试框架的性能。研究结果表明，随着阶段的增加，能力估计的标准误逐渐减小，模拟能力与估计能力呈现出更高的相关，而且分类决策的准确性也更高。[28]

为了满足考试的需要，题库不仅要包括二值计分的项目，还需要包括多级计分的项目，如简答题。近年来，对多值计分题的题库或混合题型题库中的结构设计相关研究越来越多。Kim,Chung,Park和Dodd对比了基于分部评分模型（Partial Credit Model，PCM）的面板设计（1-3-3,1-2-3,1-3-2和1-2-2），他们发现所有的面板设计表现差不多。[29]同时他们还探讨了1-3-3、1-3-2、1-2-3和1-2-2四种设计在多种路径规则和测验长度下的表现，发现不同结构的分类准确性和分类一致性基本相同。[30]Chen关注拓展分部评分模型（Generalized Partial Credit Model，GPCM）下的MST设计的测量精度和题库利用情况。比较了1-2、1-3、1-4、1-2-2、1-2-3、1-2-4、1-3-3和1-3-4八种结构在两种测验长度和两种探测测验长度下的表现，发现同一条件不同结构的偏差、RMSE和分类准确性均非常一致；发现测验长度相同时，模块越多题库的题目利用得越充分。该研究还探讨了所有考生的题目重复情况，模块越多，一般测验重叠率越小，而当探测测验较长时，模块数量的影响将减弱。[31]

Wang采用模拟方法比较了多维MST的1-3、1-2-3和1-3-3设计，结果表明1-2-3设计产生了最好的测量准确性，这和研究采用由后向前的组卷顺序有关。本研究还发现只有当各维度间能力相关程度高时，多维结构设计的测量精度才优于每个维度单独实施、用多维模型估计能力的测量精度。[32]

由此可见，所有MST结构都能保证较高的测验精度，这给MST设计带来很大的灵活性。

4 问题与展望

模块和阶段的结构是MST最重要的组成部分，选择和决定一个合适的结构是开发一个MST最基础的工作。不同模块和阶段组合的表现是当前MST研究的重要领域，通过对已有研究的梳理发现仍存在一些问题待解决。

4.1 多维多阶段自适应测验的结构设计

相对常见的单维IRT模型、多维IRT模型不仅更符合目前心理和教育测验的真实情况，而且可以提供被试在一系列分量表上的信息，这些信息有助于标识被试在所测查的多种能力上的表现。多维IRT模型成为近40年来研究较为活跃的领域之一，而且在CAT也得到愈来愈广泛的应用，这些都意味着多维IRT模型应用到MST是必然趋势。然而，多维IRT模型下的MST质量是否优于各个维度单独施测，尚未有定论。而且由于多维结构的引入，考生不一定在所有维度上都处于同一水平，所以各阶段的模块数会随着维度数几何增加，使得面板结构设计变得复杂，设计出简洁而又有效的多维MST结构对促进MST的应用和推广有重要意义。

4.2 分类测验的结构研究

分类测验包括两个类别的掌握性测验和多个类别的水平性测验。用于分类测验的MST的目的是将考生分到不同的表现类别，主要关注分类决策时分类临界分数附近的测量准确性。目前，MST主要应用于各种资格考试，已有的研究也重点探讨这类MST的设计，并得出很多重要的结论。多类别水平测验将被试分到多个表现水平中，可以详细地知道被试已具备的知识和能力，是教育和心理测验中常用的测验。但是对于在多类别分类测验下的MST，阶段数量的研究没有一致的结论，而模块数量的研究还是空白。结合更多的考试实践条件找出适合在特定情境下的框架结构对MST应用者非常有价值。

由于分数解释和使用的需要，不同考试使用不同的表现类别数量，如PISA采用的是六个类别和七个类别，TIMSS采用的是四水平，而NAEP采用的是三个类别。测验的类别数不同，分类临界分数个数也不同，为了保证每个分类分数有较高的测验精度，模块数量和阶段数量可以作出相应的调整。接下来应该进一步探讨不同表现类别的分数测验适合采用的模块和阶段。

4.3 MST结构的安全性

测验安全是MST需要考虑的重要问题。多阶段结构设计是一种有效控制题目曝光的方式，但是仅仅关注题目的使用频率是不够的，平均测验重叠率、测验重叠率的标准差和广义测验重叠率反映着考生之间的题目重复情况，也是重要测验安全指标。Wang，Zheng和Chang理论论证了各阶段所有模块发放概率相同的条件下，阶段数量会影响测验重叠率的标准差；同时还进行了模拟研究，发现对于测验重叠率均值相同时，MST的测验重叠率标准差比CAT更大。[33]需要进一步考查不同模块和阶段在这些指标上的表现，做到既能兼顾题目曝光程度和测验重叠状况，又不损失测量准确性。这是今后研究者在结构设计方面重要的研究方向和目标。

4.4 MST结构影响因素的研究

国内外研究者深入探讨了基本结构和其他测验设计变量间的相互作用，但对考生能力分布、题库大小和质量等因素的研究较少。

Brossman和Guille比较1-3-3-3-3-3设计下6种不同能力分布，发现随着能力分布的标准差增大，RMSE和平均SEM也增大，但是增大的程度比线性测验要低。[34]这也充分体现了MST更有潜力准确测量整个量尺上的能力，但是如果考生能力分布较广时，需要更高的适应性来准确测量不同能力的考生。题库的质量可以通过区分度、难度、项目信息量的分布情况来考察，以往仅关注它们对MST组卷的影响程度。进一步的研究应考虑不同分布形态和离散程度的考生群体、题库大小和质量对MST框架结构的影响。

由于真实测验情境复杂，并不存在一种适合于任何情境的理想结构。结合不同结构的表现，综合考虑各外在因素间的相互作用并合理借鉴其他测验形式的框架结构，就可以确定特定测验条件的相对优化结构。

[1] Xu，X.,Sikali，E.,Oranje，A.,Kulick，E.Multi-stage testing in educational survey assessments[C].New Orleans:the National Council on Measurement in Education,2011.

[2][20] Bock，R.D.,Zimowski，M.F.Feasibility studies of two-stage testing in large-scale educational assessment:Implications for NAEP[R].Washington,DC:National Center for Education Statistics,2003.

[3] Drasgow，F.,Luecht，R.M.,Bennett，R.Technology and Testing[M]//Brennan，R.L.Educational measurement(4th ed.).Washington,DC:American Council on Education/Praeger Publishers,2006:471-515.

[4][23] Zenisky，A.,Hambleton，R.K.,Luecht，R.M.Multi-stage testing：Issues,designs,and research[M]//Van der Linden，W.J.,Glas，C.A.W.Elements of Adaptive Testing.New York:Springer,2010:355-372.

[5] 王睿,罗照盛,王钰彤.计算机化多阶段自适应测验在限时瑞文推理测验中的应用[C]//第十七届全国心理学学术会议论文摘要集.北京:中国心理学会,2014.

[6][28] 关丹丹,刘庆思.两种PETS计算机自适应序列测试框架比较研究[J].中国考试，2013（1）:16-22.

[7][16][24] Luecht，R.M.,Nungester，R.J.Some practical examples of computer-adaptive sequential testing[J].Journal of Educational Measurement,1998（35）:229-249.

[8] Rosenbaum，P.R.Items bundles[J].Psychometrika,1988,53（3）:349-359.

[9][27] Zenisky，A.L.Evaluating the effects of several multi-stage testing design variables on selected psychometric outcomes for certification and licensure assessment[D].Amherst:University of Massachusetts,2004.

[10] Wainer，H.Computerized Adaptive Testing:A primer[M].Hillsdale:Lawrence Erlbaum Associates,1990.

[11] Wainer，H.,Kiely，G.L.Item Clusters and Computerized Adaptive Testing:A Case for Testlets[J].Journal of Educational Measurement,1987（24）:185-201.

[12] Crotts，K.M.,Zenisky，A.L.,Sireci，S.G.,Li，X.Estimating Measurement Precision in Reduced-length Multi-stage Adaptive Testing[J].Journal of Computerized Adaptive Testing,2013（1）.

[13] Zenisky，A.L.,Hambleton，R.K.Multistage Test Designs:Moving Research Results into Practice[M]//Yan，D.L.,Davier，A.A.Von,Lewis，C.Computerized Multistage Testing:Theory and Applications.Boca Raton,FL：CRC Press,2014:21-38.

[14] Luecht，R.M.,Burgin，W.Test information targeting strategies for adaptive multistage testing designs[C].Chicago:The Annual Meeting of the National Council on Measurement in Education,2003.

[15][22] Patsula，L.N.A comparison of computerized-adaptive testing and multi-stage testing[D].Amherst:University of Massachusetts,1999.

[17][25] Luecht，R.M.,Nungester，R.J.,Hadidi，A.Heuristic-based CAT:Balancing item information,content and exposure[C].New York:The Annual Meeting of the National Council on Measurement in Education,1996.

[18] Zheng，Y.,Nozawa，Y.,Gao，X.H.,Chang，H.H.Multistage Adaptive Testing for a Large-scale Classification Test:Design,Heuristic Assembly,and Comparison with Other Testing Modes[R/OL].（2013-12-24）[2015-04-05].http：//education.illinois.edu/edpsy/people/hhchang.

[19] Pohl，S.Longitudinal Multistage Testing[J].Journal of Educational Measurement,2013（50）:447-468.

[21] Breithaupt，K.,Hare，D.R.Automated simultaneous assembly of multistage testlets for a high-stakes licensing examination[J].Educational and Psychological Measurement,2007,67（1）:5-20.

[26] Lord，F.M.Applications of item response theory to practical testing problems[M].Hillsdale：Lawrence Erlbaum Associates,1980.

[29] Kim，J.,Chung，H.,Park，R.,Dodd，B.G.A comparison of panel designs in the multistage test based on the partial credit model[C].New Orleans:The Annual Meeting of the American Educational Research Association,2011.

[30] Kim，J.,Chung，H.,Park，R.,Dodd，B.G.A comparison of panel designs with routing methods in the multistage test with the partial credit model[J].Behavior research methods,2013（45）:1087-1098.

[31] Chen,L.Y.An investigation of the optimal test design for multistage test using the generalized partial credit model[D].Austin:University of Texas,2010.

[32] Wang，X.R.An Investigation on Computer-adaptive Multistage Testing Panels for Multidimensional Assessment[D].Greensboro:The University of North Carolina,2013.

[33] Wang，C.,Zheng，Y.,Chang，H.H.Does Standard Deviation Matter?Using“Standard Deviation”to Quantify Security of Multistage Testing[J].Psychometrika,2014,79（1）:154-174.

[34] Brossman，B.G.,Guille，R.A.A Comparison of Multi-stage and Linear Test Designs for Medium-size Licensure and Certification Examinations[J].Journal of Computerized Adaptive Testing,2014（2）:18-36.