多级评分计算机化自适应测验动态调和平均选题策略*
2016-07-13王晓庆丁树良熊建华
王晓庆 罗 芬 丁树良 熊建华
(江西师范大学计算机信息工程学院,南昌 330022)
多级评分计算机化自适应测验动态调和平均选题策略*
王晓庆罗芬丁树良熊建华
(江西师范大学计算机信息工程学院,南昌 330022)
摘要:对于等级反应模型下计算机化自适应测验构建一个新选题策略,利用调和平均数以更好地度量难度参数向量与能力估计值之间的距离;调节区分度参数的幂指数以控制其在测验各阶段对项目选择的不同影响;利用项目信息函数提高测验的精度,并综合权衡能力估计精度和项目曝光率。模拟实验表明在同等实验条件下该策略与著名的最大Fisher 信息量选题策略(MFI)相比,仅仅测验长度多用两个项目,能力估计精度基本相当,而曝光率有很明显优势,只为MFI的十分之一,这大大提高了测验安全性。
关键词:等级反应模型;计算机化自适应测验;动态综合选题策略;调和平均
1引言
计算机化自适应测验(computerized adaptive testing,CAT)依靠大型题库,采用现代测量理论,自行适应被试水平,灵活施测难度最恰当且性能优良的项目,从而实现对被试的高效测量(漆书青,戴海琦,丁树良,2002)。许多大型的测验都采用了CAT形式,例如美国的研究生入学考试(GRE)、美国商学院研究生入学考试(GMAT)和美国的医生护士资格考试(NCLEX)等。CAT包括六个基本组成部分:所采用的项目反应理论(Item Response Theory,IRT)模型、题库、初始项目的选择、选题策略、特质估计方法和测验终止规则(Weiss & Kingsbury,1984)。其中选题策略是CAT的重要环节之一,关系到测量准确性,测验安全和测验信度及效度(毛秀珍,辛涛,2011)。
0~1评分CAT通常采用最大Fisher信息量(MFI)(Lord,1977)(以下将Fisher信息量简称为信息量)选题策略,该策略只需施测较少项目就能准确估计被试能力。IRT指出能力的测量方差为测验信息量的倒数(漆书青等,2002),即测验信息量越大,对潜在特质的估计标准误差就越小,CAT测量的精度越高。因此,CAT的选题策略往往是MFI或其变式(李铭勇,张敏强,简小珠,2010)。由于MFI使高区分度项目过早使用或使用频繁,而低区分度项目很少使用甚至不使用,导致题库中的项目使用率不均匀,从而危害了考试的安全(Chang & Ying,1996,1999)。针对这种测验安全问题,国内外研究者从用条件概率方法(简称SH法)(Sympon & Herrer,1985;Stocking & Lewis,1998)和改进选题策略这两方面入手以控制项目的最大曝光率。由于SH方法不能提高低曝光率项目的使用率且当题库更新时,必须重新模拟计算曝光参数(程小扬,丁树良,严深海,朱隆尹,2011)。因此更多的学者寻求基于MFI的改进策略。
Chang和Ying(1996,1999)针对MFI安全问题,提出了a-分层和按b分块按a分层选题,这两种方法提高了低区分度项目的使用率,却不能明显降低高曝光率项目的使用率。程小扬等人(2011)认为a-分层选题策略中分层的数目是预先确定的,在同一层中对备选项目的要求是其难度与能力估计值相匹配;但是在执行a-分层,区分度不能按照指定的规则跟随能力估计精度的变化而做比较细微的变化(Cheng,Chang,Douglas,& Gao,2009)。他们将信息量与层间可变幂指数的区分度相结合改进MFI,同时从控制项目的最大曝光率的角度出发,加入曝光因子,该策略在保证测验精度的基础上,极大地提高题库的利用率。
使用多级评分项目,而不仅仅使用0~1评分项目是当前测验发展的新方向之一(Meijer & Nering,1999)。由于0-1评分模型中尽量选取难度与能力估计值相近为基本原则制定选题策略,多级评分模式的特点是每个项目有多个等级难度(步骤参数)(Dodd,De Ayala,& Koch,1995),因此0-1评分模型的选题策略难以移植到多级评分模型。然而和0-1评分CAT一样,多级评分模式下CAT的研究重点仍然是在给定要求下,寻找合适的选题策略。
Choi和Swartz(2009)、Penfield(2006)均在多级评分模式中不考虑项目曝光率的前提下,讨论基于贝叶斯方法选题策略的优劣,他们发现贝叶斯方法在多级评分模式下没有0-1评分中表现得那么好,而且发现对于多级评分项目的选题策略而言,项目区分度的影响比项目难度的影响大。程小扬和丁树良(2011)基于拓广分部评分模型提出了变加权选题策略,在CAT的逐步求精的过程中,依据能力估计精度的提高改变区分度的幂指数从而达到调整区分度对初始选题的影响。如果不仅考虑在层与层之间调整区分度的影响,还能够像b-分层那样结合项目难度参数的分层,应该可以对这种选题策略进行改进。对于多级评分模型的选题策略,罗照盛、欧阳雪莲、漆书青、戴海琦和丁树良(2008)提出能力估计值应该与项目的多个等级难度/步骤参数相匹配的想法。罗芬、丁树良和王晓庆(2012)利用能力估计值和项目所有难度/步骤参数差的绝对值的几何平均(geometric mean,GM)值实现罗照盛等(2008)的这个想法,提出了多级评分下基于几何平均的动态综合选题策略(Dynamic and Comprehensive Item Selection Strategy,简称为DC,本文中称之为GMDC)。他们的研究表明该策略对题库结构(即项目参数的分布)不敏感,并且和MFI相比,在保证测验的精度的同时,可以极大地降低项目的曝光率,其曝光率仅仅是MFI的三分之一左右。
以上的研究均表明巧妙使用信息量可能是平衡能力测量准确性和题库使用安全性的重要途径,而更加精细地控制区分度参数在CAT实施过程中对选题的影响,更好地度量能力估计值与项目等级难度参数的距离等均有助于新选题策略的制定。
2新的选题策略
GMDC策略通过在剩余题库中极小化下式(罗芬等,2012)
(1)
在(1)式中,GMDC利用几何平均数综合项目的步骤参数向量,它度量步骤参数向量和能力估计值之间的距离,距离越小,能力和难度(步骤)参数向量越接近,效果就越好。然而能不能够用其他方法更加准确地度量难度(步骤)参数向量和能力估计值之间的差异?众所周知,对于正数,几何平均数不超过(小于等于)算术平均数(Becknbach & Bellman,1961),调和平均数不超过几何平均数。我们欲用调和平均数代替(1)中的几何平均数,希望更加准确地度量难度(步骤)参数向量和能力估计值之间的差异;并依照程小扬和丁树良(2011)提出区分度按照指定的规则跟随能力估计精度的变化而做比较细微的变化,制定了一个新的选题策略,称为调和平均的动态综合选题策略HMDC(DC based on harmonic mean),即极小化(2)式
(2)
本文建立在等级反应模型GRM的基础上,比较了4种选题策略:GMDC策略、HMDC策略、加上最大信息量法和随机选题法作为比较的基准。我们的模拟实验表明程小扬和丁树良(2011)提出的区分度的幂指数比罗芬等(2012)的幂指数的结果更好,因此,我们对GMDC中区分度的幂指数做了一些变化,采用了程小扬和丁树良(2011)的区分度幂指数的定义方法。参数调整后的4种选题策略分别为:
③MFI选题策略
④随机选题策略(RAN)
3实验方法
实验采用Monte Carlo模拟方法,比较在同等条件下各种选题策略的表现。CAT的施测过程请参见漆书青等(2002)一书。
3.1Monte Carlo模拟数据
用N(p,q)表示平均值为p,方差为q的正态分布。p=0,q=1时为标准正态分布;在[p,q]区间上的均匀分布用U(p,q)表示。
根据陈平、丁树良、林海菁和周婕(2006)的设计,模拟4个服从不同分布的题库,每个题库含有1000个项目,每个项目的难度等级数从{3,4,5,6}中随机选取。题库参数(区分度参数a,等级难度参数b)的分布如下:第一种题库b~N(0,1),lna~N(0,1);第二种题库b~U(-3,3),lna~N(0,1);第三种题库b~N(0,1),a~U(0.4,2.5);第四种题库b~U(-3,3),a~U(0.4,2.5);并且在各种分布条件下,限定a的取值范围为[0.4,2.5]。
模拟1000个能力服从N(0,1)的被试群体参与不同题库结构的CAT的测试。
我们设定测验的信息量达到预定值M(设M=16)或达到最大测验长度ML(设ML=30)时,CAT过程结束。采用EAP估计被试的能力。
3.2评价指标
使用的三个评价指标如下(罗芬等,2012)
本文中ABS是平均绝对偏差,ABS的值越小,说明估计的精度越高。Nf是平均测验长度,用以评估测验效率,值越小,说明测验效率越高。卡方(χ2)统计量(Chang & Ying,1996,1999)用来评估题库项目的曝光率,值越小,说明曝光率越均匀,CAT的安全性越好。
4模拟实验的结果分析
4.14种不同选题策略在ABS上的表现
表1 能力服从N(0,1),6种不同选题策略的ABS
从表1中我们可以看出,在给定条件下,对于评价指标ABS来说:
HMDC的表现比GMDC差一些,但至少和MFI相当;HMDC、GMDC这两种选题策略的估计精度均在b和lna服从标准正态分布题库结构下要高于其他题库结构;和MFI相比,其他3种选题策略的能力估计精度都不差。
4.24种不同选题策略在Nf上的表现
表2 能力服从N(0,1),6种不同选题策略的Nf
表2表示在同等条件下4种选题策略的平均测验长度(Nf),图1表示测验终止时,不同测验长度上累计人数占群体人数的百分比。
从表2可以看出,HMDC与GMDC的平均测验长度基本相当,HMDC在b~U(-3,3),a~U(0.4,2.5)结构下,较其他题库结构测验长度更短。上述4种选题策略中,MFI的测验长度最短,RAN的测验长度最长。
从图1可以看出在四种题库结构下,HMDC的结果都好于或接近GMDC。
4.34种不同选题策略在χ2上的表现
表3 能力服从N(0,1),4种不同选题策略在χ2上的表现
从表3中我们可以看出,对于关乎题库安全性的指标χ2值:
4种不同选题策略中MFI的χ2值最大,RAN的χ2值最小。HMDC是除RAN之外表现最好的选题策略。HMDC仅为GMDC的χ2值的1/4到1/3;仅为MFI的1/10到1/8,并且HMDC在各个题库结构下,χ2的值相差不大。
若将题库中各个项目调用次数占总人数的百分比从低到高排序,从0%到100%,以10%为步长递增,称这些百分点为曝光点,统计在各个曝光点区间项目的累计个数。显然曝光率越均匀,各曝光点的连线越接近一条直线,否则就变成折线(罗芬等,2012)。图2为四种不同题库结构下,被试群体分别运用上述4种选题策略,满足CAT终止规则时,各个相邻曝光点(曝光点的定义如上)区间累积曲线示意图。
从图2中可以看出,无论在哪种题库结构下曝光点为50%以后的累计项目个数,各种选题策略的差别不大。RAN策略的连线接近直线平滑上升,HMDC策略的连线和RAN最接近,MFI策略的连线成阶梯式上升,曝光点前50%的累计项目个数大约为题库容量的40%,而RAN在这个曝光点的累计项目个数接近或超过题库容量的55%,MFI选题策略在曝光点50%与60%的连线较其他选题策略更加陡峭,这也充分说明采用MFI选题策略使得题库的利用率不够均匀;曝光点为前30%时,除在b~U(-3,3),lna~N(0,1)题库下,MFI的累计项目数接近于40%,其他题库结构下,MFI的累计项目数大约在20%左右,而HMDC策略的前50%的累计项目个数都接近或超过60%。其他选题策略,曝光点为前30%时,累计项目数基本在25%-40%,尤其HMDC曝光点为前30%时,累计项目数达到了35%以上。
5结论与讨论
从Monte Carlo模拟实验结果中我们有如下发现:
HMDC选题策略在不同的题库结构下,表现有不同。对于能力估计精度(ABS)而言,在b~N(0,1),lna~ N(0,1)题库结构下的结果要好于其他题库结构;而对于测验长度(Nf)和曝光率(χ2)而言,在a~U(0.4,2.5)的题库结构下的结果要好于lna~N(0,1)题库结构的结果。在四种不同的题库结构下,HMDC在ABS和Nf这两个指标的值基本和GMDC相当,但在χ2这个指标下,较GMDC有较大的优势。HMDC的ABS值与MFI基本相当,Nf比MFI要多用两个项目,但在χ2值上,与MFI相比有很明显的优势,几乎仅为MFI的十分之一。
图1 能力服从N(0,1),满足终止规则,被试人数的累计百分比
图2 各个曝光点上累计项目个数百分比
本文利用项目信息函数,项目的区分度参数和项目的难度参数向量构建了一个新的选题策略,模拟实验表明,该选题策略在保证测验精度的同时,极大地降低了项目的曝光率,提高了题库的使用率,有效地保障了CAT的测验安全性。从本文可以看出,项目信息函数、项目的区分度参数和项目的难度参数向量都对CAT的实施有重要的作用,能否找到其他更有效的方法来利用这些信息?另外新的选题策略对其他多级评分模型的作用如何也值得研究;新的选题策略中,我们采用程小扬和丁树良(2011)调节区分度的方法以合理地使用区分度参数,能否找到其他更有效的调节方法,这也值得进一步的研究。
参考文献
陈平,丁树良,林海菁,周婕.(2006).等级反应模型下计算机化自适应测验选题策略.心理学报,38,461-467.
程小扬,丁树良.(2011).拓广分部评分模型下计算机自适应测验变加权选题策略.心理科学,34,965-969.
程小扬,丁树良,严深海,朱隆尹.(2011).引入曝光因子的计算机化自适应测验选题策略.心理学报,43,203-212.
李铭勇,张敏强,简小珠.(2010).计算机自适应测验中测验安全控制方法评述.心理科学进展,18,1339-1348.
罗芬,丁树良,王晓庆.(2012).多级评分计算机化自适应测验动态综合选题策略.心理学报,44,400-412.
罗照盛,欧阳雪莲,漆书青,戴海琦,丁树良.(2008).项目反应理论等级反应模型项目信息量.心理学报,40,1212-1220.
毛秀珍,辛涛.(2011).计算机自适应测验选题策略述评.心理科学进展,19,1552-1562.
漆书青,戴海琦,丁树良.(2002).现代教育与心理测量学原理.北京:高等教育出版社.
Chang,H.H.,& Ying,Z.L.(1996).A global information approach to computerized adaptive testing.AppliedPsychologicalMeasurement,20,213-229.
Chang,H.H.,& Ying,Z.L.(1999).A-stratified multistage computerized adaptive testing.AppliedPsychologicalMeasurement,23,211-222.
Cheng,Y.,Chang,H.H.,Douglas,J.,& Guo,F.M.(2009).Constraint-weighted a-stratification for computerized adaptive testing with nonstatistical constraints.EducationalandPsychologicalMeasurement,69,35-49.
Choi,S.W.,& Swartz,R.J.(2009).Comparison of CAT item selection criteria for polytomous items.AppliedPsychologicalMeasurement,33,419-440.
Dodd,B.G.,De Ayala,R.J.,& Koch,W.R.(1995).Computerized adaptive testing with polytomous items.AppliedPsychologicalMeasurement,19,5-22.
Lord,F.M.(1977).A broad-range tailored test of verbal ability.AppliedPsychologicalMeasurement,1,95-100.
Meijer,R.R.,& Nering,M.L.(1999).Computerized adaptive testing:Overview and introduction.AppliedPsychologicalMeasurement,23,187-194.
Penfield,R.D.(2006).Applying Bayesian item selection approaches to adaptive tests using polytomous items.AppliedMeasurementinEducation,19,1-20.
Sympson,J.,& Hetter,R.(1985).Controlling item exposure rates in computerized adaptive testing.Proceedingsofthe27thannualmeetingoftheMilitaryTestingAssociation(pp.973-977).San Diego,CA:Navy Personnel Research and Development Center.
Stocking,M.L.,& Lewis,C.(1998).Controlling item exposure conditional on ability in computerized adaptive testing.JournalofEducationalandBehavioralStatistics,23,57-75.
Weiss,D.J.,& Kingsbury,G.G.(1984).Application of computerized adaptive testing to educational problems.JournalofEducationalMeasurement,21,361-375.
An Item Selection Strategy in Computerized Adaptive Testing using Harmonic Mean to Measure the Distance between Ability Estimated and Item Difficulty Vector for Polytomous Items
Wang XiaoqingLuo FenDing ShuliangXiong Jianhua
(College of Computer Information and Engineering,Jiangxi Normal University,Nanchang 330022)
Abstract:Some researches based on dichotomous model and polytomous model show that it is helpful of raising test security by making full use of the function of item Fisher information(FIFI)and item parameters.In this study,a new ISS named HMDC(Dynamic and Comprehensive Item Selection Strategies based on harmonic mean)is proposed based on Graded Response Model(GRM),its special features are(1)harmonic mean is used to measure the distance between difficulty parameter vector of an item and the estimate of ability parameter(2)the role of differentiate parameters is adjusted in the process of CAT(3)add FIFI to integrate the advantages of MFI.To compare the results of the different item selection strategy(ISS)approaches in CAT,a simulation study is conducted based on GRM.According to different distributions of the logarithm of discrimination parameter a and the difficult parameter vector b,four item pools were simulated.Three indices of ABS,Nf and Chi-square value were used to compare the different ISS approaches.The results of the simulation study show that the HMDC acquired higher the accuracy of ability estimation and lower average exposure rates than MFI,but test lengths are longer than MFI,particularly,Chi-square value is approximately one-tenth of MFI.
Key words:Graded Response Model(GRM);Computerized Adaptive Testing(CAT);Dynamic and Comprehensive Item Selection Strategies;harmonic mean
*基金项目:国家自然科学基金(31160203,31360237,31300876,31500909),教育部人文社会科学研究青年基金项目(13YJC880060),江西省教育厅青年科学基金项目(GJJ13208),江西省教育厅科学技术研究项目(GJJ150356),江西师范大学青年成长基金。
通讯作者:罗芬,E-mail:luofen312@163.com。
中图分类号:B841.2
文献标识码:A
文章编号:1003-5184(2016)03-0270-06