CAT中能力参数估计方法的改进:R-MLE估计法*
2016-04-07蔡艳
蔡 艳
(江西师范大学心理学院,江西省心理与认知科学重点实验室,南昌 330022)
CAT中能力参数估计方法的改进:R-MLE估计法*
蔡艳
(江西师范大学心理学院,江西省心理与认知科学重点实验室,南昌 330022)
摘要:本文对CAT中能力估计的常用方法——最大似然估计法(MLE)进行改进,研究中结合EAP方法提出了改进的MLE法(R-MLE)。Monte Carlo模拟研究发现:不论是在定长CAT还是非定长CAT中,不论是在1PL模型下还是在2PL或3PL模型中,不论是在何种CAT题库结构下,R-MLE法较传统的MLE法具有更佳的估计精度及更有效的测验效率;R-MLE法不仅可以提高CAT的能力估计精度还可以进一步改善CAT测试的效率,具有一定的应用前景。
关键词:计算机化自适应测验;能力估计方法;EAP;MLE
1引言
计算机化自适应测验(CAT)是项目反应理论最为成功的应用之一(Van der linden & Glas,2010)。CAT因“量体裁衣、因人施测”的现代测量思想而深受研究者和应用者的推崇,目前国际上大型CAT的具体实例包括美国研究入学测验(GRE)、美国商学院研究生招生测验(GMAT)等。
当前,对于CAT的研究已引起了国内外学者的广泛关注(如陈平,丁树良,2008;戴海琦,陈德枝,丁树良,邓太萍,2006;简小珠,张敏强,2010;罗芬,丁树良,王晓庆,2012;Barrada,Olea,Ponsoda,& Abad,2010;Chang & Ying,1999,2008;Doebler,2012;Kieftenbeld & Natesan,2012;等)。但从目前研究来看,国内外关于CAT的研究主要集中在CAT的选题策略研究,对这一领域的研究成果也最为丰富。但关于CAT中能力估计方法的研究国内外的文献却不多,尤其是关于CAT能力估计新方法的研究则更少。我们知道,CAT中能力估计的精度不足会导致CAT的优势难于发挥,其自适应(adaptive)的选题策略宗旨也是建立在对被试能力准确估计的基础之上,因此选择合适的CAT能力估计方法或者开发估计精度更高的新方法值得进一步探讨。
目前国际上,CAT中能力参数估计的方法主要有最大似然估计(MLE)、贝叶斯期望后验估计(EAP)、贝叶斯众数估计(MAP)和马尔科夫链蒙特卡罗(MCMC)方法等,每种方法各有特点。Wang和Vispoel(1998)认为,CAT中MLE方法的主要缺点是参数估计中需要不断迭代估计以及被试全对或全错的情况下无法估计等,但优点是MLE估计是能力参数的充分估计量;EAP和MAP等贝叶斯法的主要缺点是先验分布的选择非常重要,但EAP法不需要迭代估计。当然,MCMC算法最大的缺点在于耗时很长,不利于CAT的即时估计及选题,但其估计的精度较高。因此,CAT中,各种能力参数估计方法各有千秋,研究者可以根据实际情况选择恰当的估计方法。
查阅国内外相关文献,我们发现传统CAT能力估计方法中,研究者一般是自始至终采用某种估计方法(如MLE或EAP或其它),对于同一个CAT中,在CAT不同阶段采用不同估计方法对同一被试能力进行估计的研究未见相关文献。我们认为,参数估计的不同算法各有优劣,在CAT中由于能力估计是一种动态即时估计(每做完一题都需重新估计被试能力),因此在CAT不同阶段/不同情况下可以采用不同的估计方法,以充分发挥各种估计方法的优势,从而提高CAT能力估计的精度及提高CAT的测试效率,这种全新的思路将会在更多领域进行尝试。
为此,本研究拟探讨CAT中不同能力估计方法的结合,以充分发挥各种估计方法的优势。本研究拟重点探讨MLE法与EAP法的结合,过程分析如下:对于采用MLE法进行能力参数估计的CAT,其初始阶段一般不是正式自适应选题阶段,通常是先从题库中随机抽取几题(如3~5题)供被试作答,然后根据被试在这几题的做答情况初估被试能力,但只有当被试得分不全为0分也不全为满分时,方能采用MLE法进行估计,否则仍需从题库中继续选题直至被试得分不全为0分也不全为满分后进行能力初估;接着在能力初估的基础上进入正式的CAT自适应选题策略。由于CAT的初始题较少且一般为难度中等试题,能力较高的被试或能力较低的被试在初始阶段获得满分或0分的可能性较大,这势必导致如下问题:在CAT初始阶段得满分或0分的被试进入正式的自适应选题策略阶段较晚,对于定长CAT则会大大降低MLE法对被试能力估计的精度,而对于不定长CAT则会大大降低CAT自适应的测试效率(即需要更多试题方能结束测试)。那么在实践中有没有方法可以克服MLE法的以上不足呢?一方面对于所有被试,可以较快进入CAT自适应选题阶段;另一方面,对于得分为满分或0分时,仍可估计被试的能力。为了弥补MLE法的以上不足,本研究拟采用EAP法与MLE相结合,具体结合的思路为:一旦被试全得满分或0分则采用EAP进行估计,否则采用MLE估计,这样就可以从CAT的第2题始就实现对被试的自适应选题,大大提高了CAT自适应的宗旨及测试的效率。由于这种新方法更多的是弥补MLE法不能估计“全得满分或0分的被试”不足的基础上提出来的,因此本文称此方法为改进的MLE法(简记为R-MLE)。
为了进一步验证本研究提出的R-MLE的效果,本文采用Monte Carlo实验的方法进行,分别考察定长CAT和不定长CAT,不同IRT模型下(1PLM、2PLM和3PLM)及不同CAT题库下R-MLE方法的可行性及合理性,并与传统的MLE方法进行比较。
2研究一:CAT中改进的MLE法(R-MLE)与传统MLE法的比较
2.1实验1:定长CAT下R-MLE估计精度
采用3×3两因素实验设计,考察定长CAT中测验长度和所采用的IRT模型两种因素下,比较改进的MLE法(即R-MLE法)与传统的MLE法的参数估计精度,其中测验长度分别为10题、20题和30题,IRT模型分别为1PLM、2PLM和3PLM。
本实验为定长CAT,当被试的测验长度达到预先指定的要求(如10题、20题或30题)则结束CAT。
2.2实验2:不定长CAT下R-MLE估计精度
采用2×3两因素实验设计,考察不定长CAT中测量信度和采用的IRT模型两种因素下,比较改进的MLE法与传统的MLE法的参数估计精度,其中测量信度分别为0.8和0.9,IRT模型分别为1PLM、2PLM和3PLM。
本实验不定长CAT中,当被试的测量信度达到预先指定的要求(如r=0.8和r=0.9)则结束CAT。
根据Wang和Vispoel(1998)的研究,信度与信息量间存在如下转换公式:
在能力θ的标准正态分布中,Sx=1。当信度为0.8时,则信息量为5;当信度为0.9时,则信息量为10。因此,在不定长CAT中,只有当被试的测量信度(或测验信息量)达到预先设定的要求则终止CAT。
2.3模拟过程
(1)题库项目参数:共模拟300道试题。对于3PLM,a的取值范围限定在[0.25,2.5],b限定在[-4,4],c小于0.3。当令参数c=0时,则模型变为2PLM;令参数c=0和a=1时则模型变为1PLM。
(2)被试参数:θ~N(0,1)。每种实验处理模拟被试1000人,并重复实验30次,即每种实验处理模拟30000被试。其中实验1有3×3=9种实验处理,模拟270000名被试;实验2有2×3=6种实验处理,模拟180000名被试,共计模拟被试450000名被试。
2.4评价指标
分别比较传统MLE和改进后的MLE(即R-MLE)两种参数估计方法对被试参数估计的精度即返真性(Recovery)以及测试的效率(即不定长CAT中被试平均使用的测验项目数)。返真性采用平均绝对离差(ABS)指标,即能力参数估计值与真值的平均绝对离差。
2.5结果
表1和图1为在二级评分CAT下,MLE与R-MLE两种方法的参数估计精度。
表1 R-MLE法对能力参数估计精度的改善(ABS)
图1 R-MLE与MLE平均ABS比较
表1和图1表明:
在定长CAT的实验1中,不论CAT测验长度是10题、20题还是30题,R-MLE法的平均绝对离差(ABS)都小于MLE法;同样,不论是在1PLM、2PLM还是3PLM,R-MLE法的平均绝对离差(ABS)也都小于MLE法。这表明改进的MLE法即R-MLE法的参数估计的精度优于传统的MLE法,新方法具有更小的估计误差。
在不定长CAT的实验2中,实验结果与实验1基本相同,不论测量的信度是0.8还是0.9,R-MLE法的平均绝对离差(ABS)都小于MLE法;同样,不论是在1PLM、2PLM还是3PLM,R-MLE法的平均绝对离差(ABS)也都小于MLE法。数据显示改进的MLE法即R-MLE法的参数估计的精度优于传统的MLE法,新方法具有更小的估计误差。对于测验效率指标(见表2),除了在1PLM实验情景下,R-MLE法的被试平均使用项目数少于MLE,说明R-MLE法较MLE法具有更高的测试效率。
表2 R-MLE与MLE的测验效率比较
通过本研究中的实验1和实验2,我们可以看出,在二级评分的CAT中,本文提出的综合法即R-MLE法较传统的MLE法具有更高的估计精度和更高的测验效率,新方法具有一定的应用前景。
3研究二:不同题库结构下R-MLE法对能力参数估计精度的改善
为便于说明问题及简化实验,本研究采用的IRT模型均为2PLM。
3.1实验3:定长CAT下R-MLE估计精度
本实验CAT定长为20题,采用单因素实验设计,考察不同题库下R-MLE法与传MLE法参数估计精度。
3.2实验4:不定长CAT下R-MLE估计精度
本实验CAT的信度固定为0.9,采用单因素实验设计,考察不同题库下R-MLE法与传MLE法参数估计精度。
3.3模拟过程
本模拟与研究一基本一致,但题库结构不同,具体模拟四种不同类型的题库,分别为:
(1)题库1:难度参数正态分布(b~∈N(0,1)),区分度对数正态分布(a~logN(0,1))
(2)题库2:难度参数正态分布(b~N(0,1)),区分度均匀分布(a~U(0.25,2.5))
(3)题库3:难度参数均匀分布(b~U(-4,4),区分度对数正态分布(a~logN(0,1))
(4)题库4:难度参数均匀分布(b~U(-4,4),区分度均匀分布(a~U(0.25,2.5))
3.4评价指标
采用平均绝对离差(ABS)以及测试的效率(即不定长CAT中被试平均使用的测验项目数)。
3.5结果
从实验结果可以看出(见表3及表4),不论是在何种题库结构下,R-MLE法的估计精度优于MLE法,且测试的效率也优于MLE法。当然,表3与表4说明不同题库结构下,两种方法的估计精度不完全一致,这说明题库的结构在一定程度上会影响CAT的能力估计精度,这也一点与以前研究基本一致。
表3 不同题库结构下R-MLE法与MLE的比较(2PLM)
表4 不同题库结构下R-MLE与MLE的
4研究结论及讨论
本研究对传统CAT能力估计方法进行改善,具体改善的方法是将不同方法进行结合,在CAT的不同阶段采用合适的估计方法,本研究重点关注了采用EAP方法来弥补MLE方法的不足,由此提出了R-MLE估计法。Monte Carlo实验表明:不论是在定长CAT还是非定长CAT中,不论是在1PL模型下还是在2PL或3PL中,不论是在何种CAT题库结构下,R-MLE法较传统的MLE法具有更佳的估计精度及更有效的测验效率。R-MLE法不仅可以提高CAT的能力估计精度还可以进一步改善CAT测试的效率,因而具有较好的应用前景。
当然,本研究还有许多不足,如只考虑EAP和MLE两种方法的结合,未来研究还可以进一步考察其它方法的结合;研究中只考察二级评分模型下R-MLE的效果,它在多级评分CAT的适用性还有待进一步探讨。我们撰写此文,希望能起着抛砖引玉的作用,让更多研究者参与到CAT能力估计方法改进的研究中,以进一步推动我国在这领域的发展。
参考文献
陈平,丁树良.(2010).允许检查并修改答案的计算机化自适应测验.心理学报,40(6),737-747.
戴海崎,陈德枝,丁树良,邓太萍.(2006).多级评分题计算机自适应测验选题策略比较.心理学报,38(5),778-783.
简小珠,张敏强.(2010).CAT初始阶段被试能力估计方法改进探究.心理科学,(6),1470-1472.
罗芬,丁树良,王晓庆.(2012).多级评分计算机化自适应测验动态综合选题策略.心理学报,44(3),400-412.
Barrada,J.R.,Olea,J.,Ponsoda,V.,& Abad,F.J.(2010).A method for the comparison of item selection rules in computerized adaptive testing.AppliedPsychologicalMeasurement,34(6),438-452.
Chang,H.H.,& Ying,Z.L.(2008).To weight or not to weight?Balancing influence of initial items in adaptive testing.Psychometrik,73(3),441-450.
Chang,H.H.,& Ying,Z.L.(1999).A-stratified multistage computerized adaptive testing.AppliedPsychologicalMeasurement,23,211-222.
Doebler,A.(2012).The Problem of Bias in Person Parameter Estimation in Adaptive Testing.AppliedPsychologicalMeasurement,36(54),255-270.
Kieftenbeld,V.,& Natesan,P.(2012).Recovery of Graded Response Model Parameters A Comparison of Marginal Maximum Likelihood and Markov Chain Monte Carlo Estimation.AppliedPsychologicalMeasurement,36(5),399-419.
Van der linden,W.J.,& Glas,C.A.(2010).ElementsofAdaptiveTesting.Springer,New York Dordrecht Heidelberg London.
Wang,T.,& Vispoel,W.P.(1998).Properties of ability estimation methods in computerized adaptive testing.JournalofEducationalMeasurement,35(2),109-135.
The Revised MLE Algorithm of Ability Estimated Method in CAT:R-MLE Algorithm
Cai Yan
(School of Psychology,Jiangxi Key Laboratory of Psychology and Cognitive Science,Jiangxi Normal University,Nanchang 330022)
Abstract:In this paper,referring to the most popular ability estimation algorithm(maximum likelihood estimation method,MLE),some modification were done integrated into expected a posterior method(EAP),the new algorithm was called R-MLE method.The basic idea of this method was the following:once the score of the examinee was zero or full,his ability was estimated by EAP method;otherwise it was estimated by MLE method.Thus the adaptive choose of items was started from the second item in CAT,which was expected to be more effective and more adaptive than ever.The Monte Carlo simulation method was used here.The ABS index was used to test theprecision of ability parameter estimate and the average use ration index of items was used to test the efficiency of testing.Two studies were employed here.The first one was designed to compare the precision of ability parameter estimation between R-MLE algorithm and MLE algorithm under the fixed and unfixed test length rule of CAT and under 1PLM,2PLM and 3PLM.The second one was employed to compare the precision of ability parameter estimation between R-MLE algorithm and MLE algorithm under different structure of item bank,but only the 2PLM being considered.The findings suggested:Under any kind of CAT item bank,whether the fixed test length rule or unfixed test length rule was used,whether the one,two or three parameter logistic model were used,it was found that the estimation accuracy and efficiency of the R-MLE method was greater than that of the MLE method.It was also found that it would be more effective during CAT test when R-MLE method was used,which would be more applicable in practice.
Key words:computerized adaptive testing;ability estimation method;EAP;MLE
中图分类号:B841.2
文献标识码:A
文章编号:1003-5184(2016)01-0092-05
通讯作者:蔡艳,E-mail:cy1979123@aliyun.com。
*基金项目:教育部人文社科基金(11YJC190002),国家自然科学基金(31300876,31100756,31160203),高等院校博士点基金项目(20103604120001,20123604120001),江西省教育科学规划项目(13YB029,12YB088),江西师范大学青年英才培育资助计划项目资助。