多维自适应测试在教育测量中的应用研究
2015-05-30丛晓
丛晓
摘 要:本文对多维自适应测验在教育测量中的应用进行了研究。研究表明,它可以提高测量效率。在测量精度不变的情况下,相对于一维自适应测试,使用项目数目减少30%~50%,提高了测量效率。此外,又可以进行多种能力的测量,说明它是一个非常有效的方法。
关键词:计算机自适应测试;项目反应理论;多维自适应测试;教育测量
一、前言
计算机自适应测试(Computerized Adaptive Testing,CAT)根据学生对先前项目(item)的反应,选择项目并提供给学生进行测试。这种项目选择程序的目标是为学生选择适合其能力水平的测试项目,主要优点是从实质上提高了测量的效率。测量效率即为测量精度与测试长度的比率。[1]
实际中,大多数CAT都使用一维项目反应理论模型。然而,当前教育测量理论都涉及学生的多种能力结构,因此,学者们又提出了多维自适应测试(Multidimensional Adaptive Testing,MAT)的模型和理论。[2]MAT的优点包括:第一,与一维测量模型相比,MAT更紧密地契合概念化的多重结构理论模型与统计测量模型;第二, 与传统测试或CAT相比,产生了减少项目数目和提高测量精度的效果。
二、多维自适应测试的实施
MAT包括四个基本要素:多维项目反应理论模型、项目选择方法、测试终止准则、能力估计方法。下面对这四个部分进行详细论述。
1.多维项目反应理论模型
多维项目反应理论模型指的是依赖于p个能力θ=(θ1,θ2,…, θp)对项目i(U1=1)的正确反应概率,项
目涵盖一个或多个项目参数。通常,使
用多维三参数logistic模型:P(U1= 1∣θ)=ci+ — ①
其中,ai'为(1×p)向量的区分度参数,bi为难度参数,ci为伪猜测参数。1是(p×1)向量在多维空间上的难度参数。
2.项目选择方法
项目选择方法是多维自适应测试的核心,确定了如何从题库中为学生选择合适的项目。一般情况下,能力的极大似然估计在均值θ和方差(θ∣θ)=
I(θ,θ)-1上是渐进正态的,其中I(θ,θ)是Fisher信息矩阵。
I(θ,θ)=-E(—) ②
假设所有潜在能力变量线性合并,并保持能力的权重不变λ=(λ1,λ2,…,λp)'
根据最小方差准则,从题库中选择一个合适的项目,如下等式所示:
arg mini[Var(λ'θ∣θ)]=arg mini[λ'Var(θ∣θ)λ] ③
由于MAT选择的项目仅考虑项目参数以及能力估计的标准,所以选择并呈现给学生的项目内容可能不平衡。这可能会导致不同维度的精度不同,并可能会导致测量精度的整体损失。
3.测试终止准则
采用的终止标准包括展示项目的数目、测量精度等,或者是多种方法的结合。多维自适应测试常采用展示的项目数目作为终止标准,这样做可以达到增强与常规测试可比性的目的。而使用测量精度则在很大程度上依赖于所使用的项目池的特性。因此,对于MAT的应用,应该合并测量精度与最大测试项目数目和最小测试项目数目作为测试终止标准。
4.能力估计方法
在项目反应理论中,本地独立性假设意味着学生对于不同项目的反应预期是统计独立的,并用极大似然方法进行能力估计。对于能力向量θ=(θ1,θ2,…,θp)估计,为了保证收敛,通常使用Newton-Raphson方法或者Fisher的方法,直到达到一个或更多的终止标准。
三、总结
与CAT传统测试相比,MAT可以大幅提高测量效率,在不损失测量精度的条件下,为考生展示的项目数目约为CAT的30%~50%。重要的是,MAT对具有多重结构的高效率的能力测试是非常有效的方法。为把理论模型用于实际的测量开辟了新的阶段,可以增强教育测量中测试得分解释的有效性。
参考文献:
[1]Segall,D.O..Multidimensional adaptive testing.Psychometrika[J]. 1996,61(02).
[2]Pommerich,M.,&Segall,D.O.Local Dependence in an Operational CAT:Diagnosis and Implications[J].Journal of Educational Measurement,2008,45(03).
(作者单位:东北电力大学理学院)