计算机化自适应测验模拟方法的研究范式与特点
2016-02-13简小珠戴步云
简小珠 戴步云 陈 平
计算机化自适应测验模拟方法的研究范式与特点
简小珠 戴步云 陈 平
计算机化自适应测验(CAT)在理论与实践中得到广泛应用。目前许多CAT研究可以归纳为两种研究范式:实测作答的CAT研究范式和测验作答数据模拟的CAT研究范式。CAT模拟研究方法的步骤有模型选择、题库模拟、测试起点、选题策略、测验终止策略等。CAT模拟研究的主要趋势有:选题策略、终止策略仍然是CAT研究的重点;CAT模拟研究的设计内容更适合实际测验情况;CAT研究设计采取多因素设计;模拟结果多方面综合评价等。
项目反应理论;计算机化自适应测验;CAT模拟
1 CAT模拟研究范式的分类
从1985年美国军队职业能力倾向成套测验(ASVAB-CAT)采用计算机化自适应测验(Comput⁃erized Adaptive Testing,CAT)正式施测以来,CAT作为一种新的测验形式在实际测试中得到较为广泛的应用,包括学校教育考试、职业资格考试、人格测量、多维能力测量、认知诊断等多方面。美国明尼苏达大学CAT研究中心分别于2007年和2009年组织了CAT专题研讨会议,2010年CAT国际协会(In⁃ternational Association for Computerized Adaptive Testing,IACAT)成立,并创立了CAT研究专业期刊(Journal of Computerized Adaptive Testing)。从2007年起,每一年或两年CAT国际协会都会举行一次CAT专题研讨会议。CAT研讨会极大地促进了CAT研究的发展。经过30多年的研究发展与应用,CAT研究已经分化发展出多种研究范式。本文依据以下三个问题:被试是真实还是模拟、题库是真实还是模拟、被试作答是真实还是模拟,将CAT研究归纳为以下两种研究范式。
1.1 实测作答的CAT研究范式
第一类范式是实测作答的CAT研究范式(live CAT administration)。实测作答的研究范式是基于真实的题库、真实的被试以及真实的作答反应进行研究。基于真实题库的试题参数已进行预测和参数估计,例如使用了真实的题库、真实的被试以及真实的作答反应进行研究。[1][2]实测形式的CAT研究范式的特点是,可以为CAT模拟提供基本依据,进一步证实在CAT模拟研究中得出的结论。但实测作答的CAT研究范式也存在着局限性:①需要真实的考生、试题库和现场测试管理,需要大量的人力物力,而且费时。②被试只能作答数量有限的试题,可能难以覆盖整个题库,有些试题可能从未使用。③从实测考生得到的作答数据可能会包括一些不确定的“噪音”,也可能不会适合预设的IRT模型。
1.2 测验作答数据模拟的CAT研究范式
第二类范式是测验作答数据模拟的CAT研究范式,此模拟研究范式又细分为以下三种形式。
第一种形式,基于真实纸笔测验参数的数据模拟形式(real-data simulations)。在该种模拟形式下,题库的试题参数是真实的,但被试能力参数是模拟的,被试作答也是模拟的。使用真实题库参数的模拟主要是为了使得CAT模拟研究更加接近真实情况,而且可以分析在达到与传统纸笔测验相同的测验精度时,CAT测验形式需要多少试题,可以节省多少题量。
第二种形式,混合模拟设计形式(hybrid simula⁃tions)。该模拟方式是将CAT测试和事后模拟(post-hoc simulations)结合,在被试进行CAT正式测试时安排插入新试题进行施测,获得这些新试题的被试作答数据的稀疏矩阵。在混合模拟设计形式下,题库参数是真实题库的参数,而且被试在CAT测验上的作答情况也是真实的,但混合模拟设计需要依据被试作答这些已知的参数信息,来模拟更多的被试和被试作答数据矩阵,进一步估计待测试题的参数,最后根据这些模拟数据的稀疏矩阵估计项目参数,从而实现题库所有试题都等值到同一量尺上。这种混合模拟方式在一些研究文献中也称之为试题参数在线标定策略。[3]
第三种形式,蒙特卡洛模拟形式(Monte Carlo simulations),即CAT模拟。在CAT模拟形式下,被试能力参数是模拟的,被试作答数据是模拟的,大多数的题库试题参数是模拟的。CAT模拟方法可用于CAT理论性研究,也可用于在实际CAT测试前进行评估校准试题库的试题曝光率参数、测验交叠率控制参数,确定实测CAT的测试起点、选题策略、能力估计方法、测验终止条件等。CAT模拟方法,是计算机化自适应测验的理论与技术研究中最常用、最主要的方法,绝大部分的CAT研究文献都是采用CAT模拟方法。CAT模拟方法对计算机化自适应测验的早期研究起到了很重要的推动作用。[4]使用CAT模拟方法具有以下优点:①当研究的测验情境与问题较为复杂,研究的变量不容易控制时,可以通过CAT模拟方法来模拟问题情境。②可以避免反复测试同一批被试,使用CAT模拟方法则可以反复多次模拟,而能避免在实际中一次测试结果所带来的测量误差。③可以避免实际测量中的“噪音”。因为真实被试在进行CAT测试时,往往会受到各种额外因素的影响。
2 CAT模拟方法的步骤与特点
CAT模拟研究方法的过程与实际CAT的测试过程一样,只不过CAT模拟方法中被试能力参数是模拟的,作答数据也是模拟的。CAT模拟方法的使用方式多种多样,但CAT模拟研究有共同的组成部分与步骤。本文归纳概括以往研究文献,得出CAT模拟方法包括模型选择、题库模拟、被试模拟、测试起点、作答模拟、选题策略、能力估计、测验终止、重复模拟、结果分析10个基本步骤。
2.1 模型选择
CAT模拟研究第一步是选择IRT数学模型作为基础模型,CAT研究中常用的IRT模型有单参数、两参数和三参数Logistic模型,Samejima等级反应模型或其他多级记分模型。
2.2 题库模拟
在大部分CAT模拟研究中使用模拟题库,则需要模拟试题参数。题库模拟的试题量往往为500~3 000题,也有些研究模拟题量为10 000题。试题区分度a参数取对数并服从正态分布,即log(a)~N(0,1),也有一些研究a参数服从正态分布,例如a~N(0.7,0.2)。试题难度b参数在很多模拟研究中服从标准正态分布N(0,1),也有一部分研究让b参数服从U[-3,+3]或U[-4,+4]。一些CAT模拟研究将题库b参数模拟生成均匀分布,其原因在于:在CAT测试中题库是面向各个层次水平被试进行测试,因此在能力高端或低端区间,也需要有较多的试题来满足测试。如果高难度试题(或者低难度试题)太少,则在高能力被试(或低能力被试)测试时选题较困难,容易导致测量偏差,而且容易导致这些试题过度曝光。如果使用均匀分布的题库就可以避免这些问题。除了题库试题参数分布对CAT有影响之外,研究者对CAT题库的容量大小与CAT测验长度、测量精度关系进行模拟研究,结果发现当题库容量较小(题库容量为75题,分15个能力水平区间,每个区间分别有5题)时,仍然可以用相对较少的试题(测验长度相对较小)获得与纸笔测验相同的测量精度。[5]
2.3 被试模拟
被试能力参数模拟时的被试数量,在许多研究中的取值范围一般为300~2 000人,也有研究模拟1万或5万人。被试能力参数的模拟可以分为三种情况:①大多数模拟研究将被试能力参数分布服从正态分布N(0,1),或者均匀分布U[-3,+3]。将被试模拟服从均匀分布,可以使得能力两端的被试数量与能力量尺中间的被试数量一样多,减少在能力量尺两端由于被试数量较少而带来的样本偏差。此外,有些研究为了充分比较,也将模拟能力参数为偏态的被试分布。②被试分布模拟实际测验被试的分布。例如Sympson&Hetter(1985)获取实测题库的试题曝光率参数,此时进行CAT模拟的被试能力分布需要符合实际参加测试的被试分布。[6]③在能力区间[-4,+4]选择有代表性能力水平的被试进行分析,例如Chang和Ansley(2003)在分析被试能力条件标准误情况时,选取了固定在-3.2至3.2之间的17个能力点进行分析。[7]此外,在有些研究中对被试能力区间分段,按被试的能力区间分别计算模拟结果的评价指标。例如Rulison和Loken(2009)在分析各个能力水平被试的偏差时,将-3.25至3.25能力区间分为26段,并分别计算被试偏差情况。[8]
2.4 测试起点
在大多数CAT模拟研究中,能力起点从能力中点θ=0.0开始。有些测验为了研究的需要,选择其他方式作为测试起点,在Barrada等(2009)的研究中,被试能力的测试起点从难度区间(-0.5,0.5)随机选择一个作为起点,这样可以避免在能力中点θ=0.0的试题过度曝光。[9]陈平、丁树良等(2006)以随机试探性3道试题作为CAT测试起点。[10]Ruli⁃son和Loken(2009)的研究中指定前2道试题答对或答错作为CAT测试起点。[11]
2.5 作答模拟
被试作答数据的模拟是CAT模拟的核心环节,此步骤也就是使用蒙特卡洛模拟方法产生CAT测验模拟数据的环节。被试作答模拟,是指虚拟的被试按被试能力真值水平(或初始能力值)进行模拟试题作答过程,根据被试能力初始值θa(θa已知)与选择出来的试题(a,b参数已知,使用三参数模型时c参数也需要已知),计算作答概率P,再由随机函数命令生成一个随机数φ(φ为0至1之间),比较P与φ的大小来确定被试得分。如果P大于φ,则被试作答正确;如果P小于φ,则被试作答错误。
如果是多级记分模型,以Samejima等级反应模型为例,根据试题j难度参数bj,1,bj,2…,bj,Fj与被试能力真值,计算出中等能力被试在各个等级上的作答概率Paj,1,Paj,2…,Paj,Fj,并且有Paj,1>Paj,2>…>Paj,Fj;由随机函数产生一个随机数φ,比较φ与Paj,1,Paj,2…,Paj,Fj的大小,如果Paj,Fj>φ,则被试得分为Fj;如果Paj,1<φ,则被试得分为0;如果Paj,1<φ<Paj,F(其中0<x<Fj),则被试得分为uaj=x。
2.6 选题策略
选题策略(包括试题曝光率控制和测验交叠率控制)是计算机化自适应测验安全的核心步骤和关键环节,许多CAT研究都是围绕选题策略和测验安全控制进行CAT模拟。国内外研究者已对众多的CAT策略及其变式进行了概括梳理。毛秀珍、辛涛(2011)将CAT选题策略划分为提高测量准确性的选题策略(进一步分为经典项目选择策略和现代项目选择策略)和具有非统计约束的选题策略。[12]简小珠、戴海崎、张敏强、彭春妹(2014)根据选题策略的基本原理与发展脉络,将众多的选题策略归为五种:Fisher信息函数系列、K-LI信息函数系列、α分层系列、贝叶斯系列、b匹配系列,并给出了根据CAT测验情境来选择相应的选题策略的建议。[13]Chang(2014)着重论述了CAT选题策略的基本原理与发展,包括Robbins–Monro选题策略、最大Fisher信息函数、α分层方法、Kullback–Leibler信息函数这四种基本选题策略的特点、优势,以及各种衍生选题策略。[14]
近年来在选题策略中的测验交叠率控制是目前研究者进一步深入研究分析的热点。针对被试间可能通过网络或其他途径分享试题而致试题被泄露,Yi,Zhang和Chang(2008)进行了模拟分析,发现在不同情境下α分层方法在消除试题分享、控制测验交叠率方面都要优于最大项目信息量方法。[15]Chen(2010)进一步将测验交叠率细分为成对交叠率和一般交叠率,提出新测验交叠率控制方法。由CAT模拟结果发现,此控制方法通过控制一般测验交叠率,可以同时控制试题曝光率水平,以及控制成对测验交叠率和适度提高题库利用率。[16]Chen和Lei(2010)进一步将试题在被试之间的交叠分为三种类型:试题分享(item sharing)、无序试题交叠(unordered item pooling)、有序试题交叠(ordered item pooling),并提出以上三种情况下测验交叠率与试题曝光率之间关系的算法。CAT模拟研究结果表明,在Sympson&Hetter的试题曝光率控制方法并结合测验交叠率控制方法下,由试题分享而导致的测验交叠率都低于无序试题交叠、有序试题交叠情况下的测验交叠率。[17]Zhang,Chang和Yi(2012)的CAT模拟研究结果表明,当题库存在试题分享的情况时,与单一题库设计相比,多层题库设计下的试题曝光率相对较均匀,测量精度相对较高,被试分享试题在被试之间重叠的平均试题量,即测验交叠率也相对较低。[18]Zhang(2014)提出了对被泄露的分享试题进行识别侦探的统计算法,由CAT模拟结果显示,在CAT题库测试过程中,此统计算法可以侦查出哪些试题可能是属于被分享而泄露的试题。[19]
2.7 能力估计
CAT模拟中最主要的、常用的能力估计方法有极大似然估计方法(Maximum Likelihood Estimation,MLE)、期望能力估计方法(Expected a Posteriori Es⁃timation,EAPE)和极大后验能力估计方法(Maxi⁃mum a Posteriori Estimation,MAPE)三种。这三种基本方法发展出不同的变式。
Warm(1989)概括了MLE方法的多种变式,包括Biweight能力估计方法、Huber方法、边际极大似然估计方法(Marginal Maximum Likelihood,MML)。[20]Schuster和Yuan(2011)提出MLE方法的变式Huber方法,当被试作答出现扰动现象(包括猜测现象和睡眠现象)时,Huber方法可以实现被试能力的稳健性估计。[21]
EAPE能力估计方法,除了EAPE的标准分布之外还有多种变式,包括EAPE-N(0,2)方法(先验分布均值为0,方差为2)、EAPE-N(0,1)方法、EAPEN(0,0.5)方法、EAPE-U(-4,4)(先验分布为均匀分布)、EAPE负偏态分布。例如Rulison和Loken(2009)使用EAPE-N(0,2)方法、EAPE-N(0,1)方法、EAPE-N(0,0.5)方法,得出在CAT测试的后期阶段EAPE-N(0,2)方法的能力估计准确性要优于EAPE-N(0,1)方法、EAPE-N(0,0.5)方法。[22]一些研究者还使用了EAPE方法的其他变式,Chen(1996)在研究中使用能力估计方法EAPE-U(-4, 4)、EAPE负偏态分布的方法。[23]
MAPE的变式有WMAPE方法(Weighted Maxi⁃mum a Posteriori Estimation,WMAPE)。Sun,Tao, Chang和Shi(2012)提出了WMAPE估计方法,他们通过CAT模拟研究发现,WMAPE估计方法比MLE方法、MAPE方法和Jeffreys方法的偏差都要小。[24]此外,还有一些不常用的能力估计方法,包括Jack⁃knife方法、H-estimators方法,这些方法是被试能力估计方法中的稳健性估计方法。[25]
2.8 测验终止
CAT测验终止的标准主要有固定测验长度和不固定测验长度两类。以固定测验长度为终止标准时,当模拟作答试题数量达到规定的测验长度便终止测验。CAT模拟的固定测验长度范围一般为15~70题,多数研究在25~45题之间。当CAT终止标准为不固定测验长度时,需要准则作为终止标准,常用的准则包括标准误准则、最小信息量准则、贝叶斯最小方差变异准则。Choi,Grady和Dodd(2011)提出了新的测验终止方法,即预测误差减小方法(Predicted Standard Error Reduction,PSER),该方法以能力估计值的预测后验方差为基础,结合标准误终止准则并定义误差减小的上限参数、下限参数。[26]
在CAT测试过程中,由标准误判断准则给出测试可以“终止”信号。如果此时题库中可以选择一道测试试题使标准误差减小,而且减小量大于上限参数,试题给予被试测试,如果答对则测验继续;由标准误判断准则给出测试需要“继续”信号,如果此时题库中选择用来测试的试题能使标准误差减小,而且减小量大于下限参数,试题给予被试测试,如果被试答错则测验终止。Choi,Grady和Dodd(2011)在研究中比较分析标准误、最小信息量这两个终止准则的优缺点,并进一步提出PSER终止标准。根据CAT模拟结果,PSER有较高的题库利用率,当测验信息较小时,PSER终止时的测试题量比其他方法要少;当测验信息量较大时,PSER终止时的测量精度比其他方法要高。[27]
2.9 重复模拟
重复“2.4测试起点”至“2.8测验终止”这五个步骤,对每个被试进行重复模拟测试。多数研究中重复次数为30次至5 000次,也有一些研究模拟的重复次数为10 000次及以上。相对来说,模拟次数越多,由模拟结果计算出来的评价指标值则相对越稳定,偏离性越小。因此,建议在CAT模拟研究中的重复次数应该在5 000次以上。
2.1 0结果分析
在CAT测验重复模拟后,需要对模拟数据进行统计分析。根据CAT研究的实际需要,研究者提出了多方面的评价指标,概括起来大致有以下五个方面:①反映参数估计模拟返真性能的指标,包括偏差(Bias)、均方根误差RMSE(或均方误差MSE)、平均绝对值误差(MAE)、估计值与能力真值的相关系数、覆盖百分率(Percentage Coverage of 95%Confi⁃dence Intervals,PCT)等。②反映测验的测量准确性、测验精度方面的评价指标,包括标准误、测验信息量等。③反映题库安全性方面的评价指标,包括试题最大曝光率观测值、测验交叠率、试题使用频数的卡方统计量χ2、过度曝光试题的数量等。④反映题库利用率方面的评价指标,包括题库中被调用试题所占的比例、题库中所有试题调用次数的标准差、从未调用试题的数量、曝光率低于0.02的试题量等。⑤反映测验效率方面的评价指标,包括平均测验长度、人均用题量等评价指标,测验效率方面的指标主要用于变长CAT中。
3 CAT模拟研究的发展趋势
CAT模拟研究呈现以下几方面的发展趋势:
第一,CAT选题策略(包括试题曝光率控制、测验交叠率控制)、终止方法过去十多年是CAT研究的热点领域,今后也将依然是研究的重点领域。Barrada,Olea,Ponsoda等(2010)提出选题策略的比较方法,即在CAT模拟中以控制最大试题曝光率为自变量,分析其对测验的精度(以RMSE为指标)和测验安全性(以Overlap为指标)的影响,并用类似反函数曲线图形表示测验精度与测验安全性之间的关系,[28]此分析方法可作为选择CAT选题策略的一个参考依据。
第二,CAT模拟的测验内容更贴合测验实际情境。在CAT测验内容的各个方面都尽量让CAT模拟设计贴近实际情况,例如:①在IRT模型方面:近年来的CAT模拟研究中,一些研究者使用含有反映猜测现象、失误现象的四参数模型,[29]也有一些研究者提出基于被试能力水平、含有猜测参数的单参数模型;[30]②在题库参数方面:模拟成适合实际被试群体分布需求的题库或者直接使用实际题库参数;③在被试能力参数模拟方面:或者是模拟实际被试能力群体分布,或者是以代表性被试能力点来代表被试群体;④在选题策略方面:一些研究者提出结合多方面因素的模式,包括结合被试作答反应时间来进行选题,通过收集每一道试题的被试作答反应时间,从而提出结合被试作答反应时间形成半参数化的选题策略模式。[31]
第三,CAT研究设计采取多因素设计,将IRT模型、题库类型、被试能力分布、选题策略、能力估计方法、终止策略等进行多因素设计,这种多因素设计方法已成为目前CAT模拟研究的一种主要设计方式。例如:Murphy,Dodd和Vaughn(2010)使用3个选题策略×2个IRT模型×3个题组效应水平,共计18种情境;[32]在Lin(2011)的研究中,分析了4个选题策略×3个试题内容平衡和试题曝光率×3个置信区间长度×2个能力水平区域,共计72种情境;[33]在Yen,Ho,Laio等的研究中,设计了2个数学模型× 2种测验初始阶段作答情境,对于CAT模拟研究结果的平均值、标准误,采用方差分析方法进行比较检验,比较不同测验条件下是否存在主效应、交互效应。[34]
第四,CAT模拟结果分析呈现一种多方面评价、多指标综合考虑的趋势。目前CAT研究中往往需要综合考虑测量精度、测验与题库安全、题库利用率、测验效率等多个测验目标,因此研究者进一步提出了反映多测验目标约束控制方面的评价指标,计算CAT模拟测验达到约束控制目标的所占比例,或者被试在CAT测验中未达到约束控制目标的平均次数,这些评价指标包括达到约束条件要求的测验百分比、[35]约束条件违背的平均测验数量,[36]被试平均违规次数[37]等。对多测验目标约束控制和综合评价是CAT模拟研究结果评价的一种趋势。
[1][29][34]Yen,Y.,Ho,R.,Laio,W.,et al.An empirical evaluation of the slip correction in the four parameter logistic models with com⁃puterized adaptive testing[J].Applied Psychological Measurement, 2012,36(2):75-87.
[2][4]Sands,W.A.,Waters,B.K.,&Mcbride,J.R.Computerized adaptive testing.From inquiry to operation[M].Washington,DC: American Psychological Association,1997:50-51.
[3]陈平,张佳慧,辛涛.在线标定技术在计算机化自适应测验中的应用[J].心理科学进展,2013,21(10):1883-1892.
[5]Wagner-Menghin,M.M.,&Masters,G.N.Adaptive testing for psy⁃chological assessment:how many items are enough to run an adap⁃tive testing algorithm[J].Journal of Applied Measurement,2013,14(2):106-117.
[6]Sympson,J.B.,&Hetter,R.D.Controlling item-exposure rates in computerized adaptive testing[C]//Proceedings of the 27th annual meeting of the Military Testing Association.San Diego,CA:Navy Personnel Research and Development Center,1985:973-977.
[7]Chang,S.W.,&Ansley,T.N.A comparative study of item exposure control methods in computerized adaptive testing[J].Journal of Edu⁃cational Measurement,2003,40(1):71-103.
[8][11][22]Rulison,K.L.,&Loken,E.I’ve Fallen and I Can’t Get Up: Can High Ability Students Recover from Early Mistakes in CAT? [J].Applied Psychological Measurement,2009,33(2):83-101.
[9]Barrada,J.R.,Julio Olea,Ponsoda,V.,et al.Test Overlap Rate and Item Exposure Rate as Indicators of Test Security in CATs[C/OL]. [2015-10-15]//Proceedings of the 2009 GMAC Conference on Com⁃puterized Adaptive Testing.http:www.psych.umn.edu/psylabs/CAT⁃Central/:2009.
[10]陈平,丁树良,林海菁,等.等级反应模型下计算机化自适应测验选题策略[J].心理学报,2006,38(3):461-467.
[12]毛秀珍,辛涛.计算机化自适应测验选题策略述评[J].心理科学进展,2011,19(10):1552-1562.
[13]简小珠,戴海崎,张敏强,等.CAT选题策略分类概述[J].心理学探新,2014,34(5):446-451.
[14]Chang H.Psychometrics behind computerized adaptive testing[J]. Psychometrika,2015,80(1):1-20.
[15]Yi,Q.,Zhang,J.M.,&Chang,H.H.Severity of organized item theft in computerized adaptive testing:A simulation study[J].Ap⁃plied Psychological Measurement,2008(32):543-558.
[16]Chen,S.A procedure for controlling general test overlap in comput⁃erized adaptive testing[J].Applied Psychological Measurement, 2010,34(6):393-409.
[17]Chen,S.Y.,&Lei,P.Investigating the relationship between item exposure and test overlap:Item sharing and item pooling[J].British Journal of Mathematical and Statistical Psychology,2010(63): 205-226.
[18]Zhang,J.,Chang,H.,&Yi,Q.Comparing single-pool and multi⁃ple-pool designs regarding test security in computerized testing[J]. Behavior Research Methods,2012(44):742-752.
[19]Zhang,J.A Sequential Procedure for Detecting Compromised Items in the Item Pool of a CAT System[J].Applied Psychological Measurement,2014,38(2):105-121.
[20][25]Warm,T.A.Weighted likelihood estimation of ability in item response theory[J].Psychometrika,1989(54):427-450.
[21]Schuster,C.,&Yuan,K.Robust estimation of latent ability in item response models[J].Journal of Educational and Behavioral Statis⁃tics,2011,36(6):720-735.
[23]Chen,S.The comparison of maximum likelihood estimation and ex⁃pected a posteriori in CAT using the graded response model[J].国教学报,1996(19):339-371.
[24]Sun,S.,Tao,J.,Chang,H.,et al.Weighted Maximum-a-Posteriori Estimation in Tests Composed of Dichotomous and Polytomous Items [J].Applied Psychological Measurement,2012,36(5):399-419.
[26][27]Choi,S.W.,Grady,M.W.,&Dodd,B.G.A New Stopping Rule for Computerized Adaptive Testing[J].Educational and Psy⁃ chological Measurement,2011,71(1):37-53.
[28]Barrada,J.R.,Olea,J.,Ponsoda,V.,et al.A Method for the Com⁃parison of Item Selection Rules in Computerized Adaptive Testing [J].Applied Psychological Measurement,2010,34(6):438-452.
[30]Martín,E.S.,Del Pino,G.,&De Boeck,P.IRT Models for Abili⁃ty-Based Guessing[J].Applied Psychological Measurement,2006, 30(3):183-203.
[31]Fan,Z.,Wang,C.,Chang H.,et al.Utilizing Response Time Distri⁃butions for Item Selection in CAT[J].Journal of Educational and Behavioral Statistics.2013,38(4):381-417.
[32]Murphy,D.L.,Dodd,B.G.,&Vaughn,B.K.A Comparison of Item Selection Techniques for Testlets[J].Applied Psychological Measurement,2010,34(6):424-437.
[33]Lin,C.Item Selection Criteria with Practical Constraints for Com⁃puterized Classification Testing[J].Educational and Psychological Measurement,2011,71(1):20-36.
[35]Shin,C.D.,Chien,Y.,Way,W.D.,et al.Weighted Penalty Model for Content Balancing in CATS 2009[R/OL].[2015-10-15].http:// www.pearsonedmeasurement.com/downloads/research/Weighted% 20Penalty%20Model.pdf.
[36]Cheng,Y.,&Chang,H.The maximum priority index method for se⁃verely constrained item selection in computerized adaptive testing [J].British Journal of Mathematical and Statistical Psychology, 2009(62):369-383.
[37]潘奕娆,丁树良,尚志勇.改进的最大优先级指标方法[J].江西师范大学学报(自然科学版),2011,35(2):213-215.
The Research Paradigm and New Developments Direction of Computerized Adaptive Testing Simulation
JIAN Xiaozhu,DAI Buyun&CHEN Ping
Computerized Adaptive Testing(CAT)is widely used in the theory and practice of the educational tests. In this paper,the CAT research paradigm was summarized as two categories,including the actual CAT research paradigm and the CAT simulation research paradigm.The CAT simulation research in the literatures could be divided into three kinds of CAT simulation forms.To sum up all the CAT simulation research literature,the CAT simulation method comprises of ten components,including the choice of the IRT model,the simulating the item pool,the starting point of CAT,item selection strategies,test termination rules,etc.This paper also summarizes some new developments and future research direction of CAT simulation.Firstly,the item selection strategies and the test termination rules are still the research hotspot.Secondly,the test design of CAT simulation is dealt with and is close to the actual situation.The multi-factor experimental design was adopted in CAT simulation.The research results of the simulation tests are evaluated on multiple attributes in CAT simulation.
Item Response Theory;Computerized Adaptive Testing;CAT Simulation
G405
A
1005-8427(2016)01-0016-7
本文系江西省社会科学规划青年项目(批准号:13JY47)的研究成果之一。
简小珠,男,井冈山大学教师教育研究中心,副教授;江西师范大学心理学院,江西省心理与认知科学重点实验室,博士后(江西吉安 343009)
戴步云,男,华南师范大学心理学院,在读博士(广州 560631)
陈 平,男,北京师范大学认知神经科学与学习国家重点实验室,副教授(北京 100875)