计算机自适应测试中c分层法的层数研究
2011-11-22包佃清连云港师范高等专科学校计算机系江苏连云港222006
包佃清 (连云港师范高等专科学校计算机系,江苏 连云港 222006)
计算机自适应测试中c分层法的层数研究
包佃清 (连云港师范高等专科学校计算机系,江苏 连云港 222006)
根据CAT(计算机自适应测试,Computerized Adaptive Testing)试验所需的模型结合国内外现有可操作性的选题策略,采用c分层法进行计算机模拟试验。通过模拟测试长度最大值分别为30、60、90的不同情况下测试结果,可以发现在8个评价指标下c分层法最佳分层数为10。
选题策略;逻辑斯蒂;自适应测试;蒙特卡洛
近年来项目反应理论(Item Response Theory,IRT)逐渐被尝试应用到从业人员测试工作中来。自适应测试比常规测试具有更高的效率,它可以用比常规测试更少的试题量而获得可与之相比或更好的测试效果。有试验表明,在同等测量精确度的条件下,自适应测试可缩短40%~60%的测试长度[1]。因此自适应测试系统在从业人员能力测试中有很好的应用前景。计算机自适应测试(Computerized Adaptive Testing,CAT)中的关键技术之一就是选题策略。常用的选题策略有a分层法、b分层法、c分层法、最大信息量法、K-L信息量法等,从文献[2]中可知,采用3参数逻辑斯蒂模型(3PLM)在选题策略上建议采用c分层法[2]。下面,笔者对计算机自适应测试中c分层法的层数进行了研究。
1 3PLM模型及c分层法
c分层法的基本思想是把题库分成若干组,每组按b分层法分为若干层,把每组的相同层依次组合成子题库,进行实测时,依次从子题库中抽取试题[3]。
笔者讨论了在相同的试验环境下,采用c分层法时,不同的搜索层数是否影响试验结果。根据已有的文献资料及以往的试验分析结果,决定采用3PLM模型:
(1)
式中,D=1.702;a表示试题的区分度;b表示难度系数;c是猜测系数;pi(θ)表示能力为θ的考生答对区分度为a、难度系数为b、猜测系数为c的题目的概率。
2 试验方法
应用蒙特卡洛方法首先应该生成模拟参数。为了计算方便,假设2个条件:①所有试题记分方式为1/0;②采用3PLM模型的特征曲线。模拟参数生成步骤[4]如下:
1)参数ai生成12个服从U=(1,0)分布的随机数ra(1),ra(2),…,ra(12),令:
则ai=exp(lnai),若ailt;0.2,则放弃生成该参数。
2)参数bi生成12个服从U=(1,0)分布的随机数rb(1),rb(2),…,rb(12),令:
3)参数ci生成的随机数服从U=(1,0)分布,其中i=1,2,…,m,m为题库试题数,这样就产生了m对参数(ai,bi,ci)。同理,对每个θa生成12个服从U=(1,0)分布的随机数rθ(1),rθ(2),…,rθ(12),令:
其中,a=1,2,…,N,N是受测人数。如此反复,直到所有的试题全部生成。
试验研究的是定长测试,其终止条件是当测试内容、时间及长度达到预先设定的条件时,则终止。这种方法的优点是条件易于掌握和实现,且可对每个测验项目的使用率作较精确的统计。
3 试验结果
针对最长测试长度不超过30、60、90的3种情况进行试验,下称试验1、试验2和试验3。
常用的评价指标有[5]测验效率E、测验偏差Bias、测验标准误差MSE、试题曝光均匀度Chi指标、测验重叠率R、平均测验长度avgL、最大长度maxL、最短长度minL等。
试验用蒙特卡洛方法模拟试题数量为 2000 的3参数试题库,模拟1000受测者,子题库k个,k(3,4,…,22)进行逐层搜索,分别进行试验1、试验2和试验3,并分析8个评价指标,讨论每种情况下的最佳搜索层数,试验结果见表1、表2和表3。
表1 最长测试长度不超过30的试验结果
表2 最长测试长度不超过60的试验结果
表3 最长测试长度不超过90的试验结果
在c分层法下由试验数据得出,在相同的受测者和相同的题库容量下,平均测验长度分别为24.5、35.7和39,说明测试收敛程度较好;Bias值分别为-0.0252~0.0216、-0.036~0.03156和-0.0372~0.01272,除了试验2指标幅度偏大外基本呈正态分布;测验效率E符合预期,具有良好的测验效率,其他指标均正常。
可以看出3个试验均在搜索层数3~22范围内,根据8个评价指标得出在c分层法下搜索层数最佳值为10层。
[1]余胜泉,何克抗.网络题库系统的设计与实现[J].中国远程教育,2000,9(3):53-57.
[2] 包佃清.3PLM下计算机自适应选题策略比较[J]. 淮海工学院学报(自然科学版),2010,19(2):20-23.
[3] WANG Fen-su. Applieation of componential IRT model for diagnostie test inastandard conformante learning system[J].Advaneed Learning Technologies,2006,16(8): 237-241.
[4] 尹汉明.基于ASP.net的《预防医学》CAT系统的研究与实现[D].南昌: 江西师范大学, 2006.
[5] 王茜娟.按c分层不定长CAT研究与实现[D].南昌: 江西师范大学, 2004.
[编辑] 洪云飞
10.3969/j.issn.1673-1409.2011.07.024
TP301.4
A
1673-1409(2011)07-0068-02
2011-05-15
江苏省“十一五”现代教育技术研究课题(2010-R-17736)。
包佃清,男,硕士,讲师,现主要从事软件工程、信息技术、计算机辅助教育等方面的教学与研究工作。