APP下载

不定长CAT 引入曝光因子的平均调整信息选题策略研究*

2015-12-27朱隆尹丁树良程小扬蓝立毅

心理学探新 2015年1期
关键词:题库测验选题

朱隆尹,丁树良,程小扬,蓝立毅

(1.江西师范大学,南昌330022;2.赣南师范学院,赣州341000)

1 引言

计算机化自适应测验(Computerized Adaptive Test,CAT)是项目反应理论(Item Response Theory,IRT)和计算机技术相结合的产物,是目前流行的现代考试方式之一。有了一个高质量的题库以后,CAT 需要考虑的主要问题有测验入口设计、能力估计方法、选题策略和终止规则等四个问题。一个好的选题策略要兼顾提高能力估计的精度和测验的安全性。Lord(1977)最早提出了极大Fisher 信息量选题策略(MFI),张华华(2002)认为极大信息量选题法虽然测验效率高,但试题曝光率太高,容易引发测验安全问题;Chang 和Ying(1999)进而提出了按a-分层选题策略,文剑冰和侯杰泰(2001)研究过a-分层选题策略。一般情况下子题库数量都是相等或近似相等,程小扬和丁树良(2011)认为分层化选题策略中子题库题量不平衡会改善CAT 性能他们在按a-分层选题策略基础上提出子题库题量不平衡的选题策略。Chang,Qian 和Ying(2001)和Qing等(2003)认为按a-分层选题策略没有考虑项目a、b 参数的相关性,由此提出了按b -分层的选题策略。Barrada,Mazuel 和Olea(2006)认为按b -分层选题策略在3PLM 中没有充分考虑项目的猜测度等参数,他们提出充分利用3PLM 项目所有参数的MIS-B 选题策略,特别有趣的是MIS -B 选题策略在2PLM 下实际上就是按b -分层选题策略。程小扬、丁树良、严深海和朱隆尹(2011)在Lord 的极大信息选题策略基础上引入曝光因子以改善项目曝光率,具体做法如下:

记ecf(j)、λj和a(j,T,K)分别为项目j 的曝光因子、调节因子和区分度aj的幂函数,把极大Fisher信息量选题法中的信息量计算方法修正为:

表1 λj的取值与ecf(j)的关系

其中N 为题库项目总数,nj为项目j 被前n -1 个考生使用的次数。

其中aj为项目j 的区分度,T 表示分T 个阶段选题,k(k=1,2,…,T)表示当前CAT 实施中选题所处的阶段。

CAT 施测时每次只要从题库中选取fj(θ^)最大的当前考生尚未使用的项目(称为该考生的剩余题库,不致混淆时,简称为剩余题库)即可。

程小扬等人(2011)引入曝光因子的选题策略能很好地改善项目的曝光率,有力地增强了测验的安全性。为方便叙述,这里称程小扬等人(2011)的这个选题策略为程氏选题法。

程氏选题法是否有其他进一步改进的方法和策略,改进后效果如何是一个值得探讨的问题。

2 新选题策略设计

当项目量小时,(5)式不一定成立,但是这里仍采用(5)式的区间作为的一个区间估计(只不过这时 估 计 精 度 比 较 差)。把[- ME(),+ME()]平均分成q 等分(q 为项目参数估计时结点数,据漆书青,戴海琦,丁树良(2002)介绍,BILOG推荐使用项目数量的平方根取整的2 倍),记为x1,x2,…,xq,则平均调整信息计算方法如下:

这样,CAT 施测时每次只要从剩余题库中选取Avgj()最大的项目即可。称(6)式的选题法为极大平均调整信息策略(Maximum Average Adjustment Information Strategy,MAAIS)。

为了考察新的选题策略的表现,将其和几种目前认为较好的进行比较,比较方法是Monte Carlo 模拟,并采用以下评价标准,CAT 的测验偏差Bias、测验标准误差MSE、测验效率E、试题曝光均匀度Chi、测验重叠率R 和综合评价Comp,各指标计算公式如下:

设M 为被试总数,infj为被试j 测量的总信息量,Lj为被试j 的测试长度,为被试j 的能力估计值,θj为被试j 的能力真值,N 为题库总项目数,Ai是题库中第i 个项目的曝光率,TO 是被试的项目重叠总数,mi是题库中第i 个项目使用的次数。

用AvgL 表示平均测验长度。

显然,测验效率E 值越大越好;测验偏差Bias、测验标准误差MSE、试题曝光均匀度Chi 和测验重叠率R 则是其值越小越好。

综合评价Comp 的计算方法是对Bias、MSE、E、Chi 和R 统一量纲后再加权求和。陈德枝(2004)给这五个标准的权分别是0.5、0.5、1、1 和1(当然也可根据实际需要适当调整)。对评价标准统一量纲的方法是:对值越大越好的评价标准,所有方法在此标准上的最大值做分母,各种方法在该标准上的值做分子,求这两者的比值;对值越小越好的评价标准,所有方法在此标准上的最小值做分子,各种方法在该标准上的值做分母,求这两者的比值。显见,Comp 是越大越好。

3 实验方法与结果分析

Monte Carlo 模拟实验中题库分4 个阶段,考试总信息量取16,考试最大试题长度为40 个,考生样本数量为1000 人,试题库数量为1000 题。考生群体能力服从标准正态分布,试题难度参数b 分别考虑服从N(0,1)且-3≤b≤3 和U(-3,3)两种情况,试题区分度参数a 分别考虑lna 服从N(0,1)且0.2≤a≤2.5 和U(0.2,2.5)两种情况,试题猜测度c 服从α 为5 和β 为17 的贝塔分布,考虑到每个题库重复5 次实验的平均时间约1 小时左右,本文共模拟了6 个题库,每个实验结果为6 个题库分别重复5 次的总平均值。文中所有实验程序均采用Matlab 2007 编写运行。

表2 3PLM 不定长CAT 不同选题策略实验结果(lna∽N(0,1),b∽N(0,1))

表3 3PLM 不定长CAT 不同选题策略实验结果(lna∽N(0,1),b∽U(-3,3))

表4 3PLM 不定长CAT 不同选题策略实验结果(a∽U(0.2,2.5),b∽U(-3,3))

表5 3PLM 不定长CAT 不同选题策略实验结果(a∽U(0.2,2.5),b∽N(0,1))

纵观上面四个表可以看出,与其他两个选题策略相比,MAAIS 和OMAAIS 选题法都有较明显的优势,当难度b 服从标准正态分布时OMAAIS 要比MAAIS 好,当难度服从均匀分布时,MAAIS 要比OMAAIS 好。

当然在表中列出的选题策略中,按计算量由小到大排序的顺序分别是:按b - 分层、程氏选题法、OMAAIS 和MAAIS。在模拟实验时在每个重复实验中MAAIS 下每个考生花费的时间不到1 秒钟,只要采用适当的编程优化,MAAIS 增加的计算量可以接受。

4 进一步要研究的问题

虽然这里只给出了3PLM 模型下不定长CAT的结果,事实上以上实验结果也适用于2PLM 模型下不定长CAT。

MAAIS 和OMAAIS 选题策略相对程氏选题法明显增加了计算量,如何继续进一步优化以减少计算量是今后要研究的问题之一;另外如何将MAAIS和OMAAIS 选题策略用到多级评分模型CAT 或认知诊断的CAT,这也是今后要进一步研究的问题;还有当题量很小时,(5)式误差或很大,估计区间是否应该放大,以及如何放大,放大以后效果如何等等都值得考虑。

本文在第十届海峡两岸教育与心理测量年会上宣读时,UIUC 张华华先生和台湾中正大学苏雅蕙女士给出了十分中肯的评论,给本文的修改提供了很大的帮助,特此致谢。

陈德枝.(2004).Samejima 等级反应模型下CAT 选题策略比较研究.硕士论文.(未出版).南昌:江西师范大学.

程小扬,丁树良.(2011).子题库题量不平衡的按a 分层选题策略.江西师范大学学报,35(1),5 -9.

程小扬,丁树良,严深海,朱隆尹. (2011). 引入曝光因子的计算机化自适应测验选题策略.心理学报,43(2),203 -212.

漆书青,戴海琦,丁树良.(2002).现代教育与心理测量学原理.北京:高等教育出版社.

文剑冰,侯杰泰.(2001).A -stratified 方法在不定长度CAT中的应用. 台北:第五届华人社会心理与教育学术研讨会.

张华华.(2002). 计算机自适应考试设计中的误区.考试研究,2,35 -39.

Chang,H.H.,Qian,J.,& Ying,Z.(2001).A-stratified multistage CAT with b -blocking. Applied Psychological Measurement,25,333 -341.

Chang,H.,& Ying,Z.(1999).A-stratified multistage computerized adaptive testing. Applied Psychological Measurement,25,211 -222.

Juan,R.B.,Paloma,M.J.,& Julio,O.(2006).Maximum information stratification method for controlling item exposure in computerized adaptive testing.Pslcothema,18(1),156 -159.Load,F.M.(1977).Practical applications of item characteristic curve theory.Journal of Educational Measurement,14,117 -138.

Qing,Y.,& Chang,H. H. (2003). A - stratified design with content-blocking.Br J Math Stat Psychol,56,359 -378.

猜你喜欢

题库测验选题
“勾股定理”优题库
“轴对称”优题库
本刊诚征“独唱团”选题
“轴对称”优题库
“整式的乘法与因式分解”优题库
谈诗词的选题
本刊诚征“独唱团”选题
本刊诚征“独唱团”选题
《新年大测验》大揭榜
两个处理t测验与F测验的数学关系