APP下载

基于基尼指数的双目标CD-CAT选题策略*

2020-12-15王晓庆涂冬波

心理学报 2020年12期
关键词:基尼题库测验

罗 芬 王晓庆 蔡 艳 涂冬波

(1 江西师范大学心理学院,南昌 330022)

(2 江西师范大学计算机信息工程学院,南昌 330022)

1 引言

终结性评价用一个连续标量θ(常称为潜在特质或能力)来刻画学生在某个学习阶段的学习效果,基于项目反应理论(item response theory,IRT)的计算机化自适应测验(computerized adaptive testing,CAT)以“量体裁衣”的方式能更高效地实施终结性评估。形成性评价用一个离散向量α(常称为潜在认知模式或知识状态)来帮助教师了解每个学生的潜在认知状态,为教师提供教学反馈,以便更好地“因材施教”,这有利于学生学业和教师职业发展,基于认知诊断理论(cognitive diagnostic theory,CDT)的CAT 以“个性化”测验方式快速诊断被试认知的长处和短板。教学需要终结性评价与形成性评价相互结合,既关注结果又关注过程,使学习过程和对学习结果的评价达到和谐统一。IRT-CAT 关注终结性评价,CD-CAT (cognitive diagnostic computerized adaptive testing,CD-CAT)关注形成性评价,两者结合的双目标 CD-CAT (dual objective CD-CAT,Dual-CAT)可以将它们的优势互补,从而更好地完成测验目标。

Dual-CAT 的两个重点研究主题:一是建构题库的心理计量学指标,正如IRT-CAT 依赖于项目反应模型(item response method,IRM),CD-CAT 依赖于认知诊断模型(cognitive diagnostic model,CDM),Dual-CAT 也依赖于测验模型,测验模型与题库的心理计量学指标息息相关。现有文献,只有统一模型(unified model,也称为 fusion model) (Hartz,2002; Rupp et al.,2010)和高阶模型(de la Torre &Douglas,2004)将被试的知识状态α与能力θ建构在一个模型中,但统一模型所含参数较多,在统计上难以估计(Hartz,2002),因此实际应用较少。而高阶模型采用层级结构,将潜在特质视为比潜在属性更高层的一般能力,能力θ与项目的正确作答概率之间的关系是通过被试知识状态α间接相关,只有当属性个数较多时(例如大于10),能力θ的估计才会比较准确(de la Torre & Douglas,2004; Hsu & Wang,2015; Huang,2020)。因此Dual-CAT 的选题策略研究大多并不基于上述两种模型而采用分离建模的方法,使用统一模型还是使用分离建模这两种方式决定了选题策略的构造方法也不同,对于分离建模方式需要IRM 和CDM 的模型参数,如何为这两套模型参数建立联系是实施Dual-CAT 的基础。

de la Torre 和Douglas (2004)的研究表明对于同一批数据,高阶模型估计的θ与IRT 中2PLM(two-parameter logistic model)模型估计的θ有较高的相关性; Wang 等人(2014)的研究也表明,单维项目反应模型(IRM)和DINA 模型(Junker & Sijtsma,2001)在属性间高度相关或线性层级相关时,能够很好地拟合相同的数据,他们的研究为分离建模方式提供了支持,采用两步估计方法通过考虑各自的心理模型可获得稳定的α和θ估计(Kang et al.,2017)。

二是选题策略。选题策略是实施Dual-CAT 的关键技术,优良的选题策略应该既能达到较高的分类精度和估计精度以满足测验目的,又能保证较为均匀的题库利用率以提高题库安全,还需具有较快的运算速度以满足实时响应的需求,研究者们围绕这个目标提出了多种选题策略。

IRT-CAT 和CD-CAT 的选题策略分别注重潜在特质的评估和潜在认知结构的评估,如何将这两者有效地结合起来?学者们提出了若干种适合Dual-CAT 的选题策略,文献中已有的Dual-CAT 选题策略主要有两类:第一类是影子测验选题法; 第二类是组合策略选题法。

McGlohen 和Chang (2008)在分离建模方式下讨论了影子测验选题法与IRT-CAT 和CD-CAT 的单一目标选题法的性能:(1)利用IRT-CAT 中最大信息量策略(maximum fisher information,MFI) (Lord,1980)或极大化Kullback-Leibler (KL) (Chang & Ying,1996)信息量策略选择适合被试当前估计能力的项目,测验结束再估计被试的知识状态; (2)利用CD-CAT 中的极小化香农熵策略(Shannon entropy,SHE)或极大化KL 信息量(Tatsuoka,2002; Xu et al.,2003)选择适合被试当前知识状态估计值的项目,测验结束再估计被试的能力; (3)适应被试当前能力估计值和知识状态估计值的影子测验(shadow test)选题,即先根据被试能力估计值,采用(1)的方法构建最合适的影子题库,再从影子题库中采用(2)的方法选取最适合当前知识状态估计值的项目作为下一题的备选。他们将这三种方案在能力θ估计精度、认知状态α分类精度和项目曝光控制等3 个指标上进行对比,研究结果表明影子测验选题的表现更优。

杜宣宣(2010)也采用了影子测验选题法,与McGlohen 和Chang (2008)不同之处在于,他先构建最适合当前知识状态估计值的影子题库,再从影子题库中选取最适合当前能力估计值的项目作为下一题的备选,并在不同属性层级结构下对能力θ估计精度、知识状态α分类精度等指标进行对比,他的研究结果也表明与单一目标选题策略相比,影子测验选题的表现更优。

McGlohen 和Chang (2008)、杜宣宣(2010)的影子测验选题是两步估计法,有学者认为(Cheng,2007;Dai et al.,2016)两步“局部优化”的组合并不一定保证“良好的综合结果”,更理想的项目选择方法应该在一个步骤内同时考虑以获得更适合的项目,因此提出基于的组合策略选题法。

Cheng (2007)和Dai 等人(2016)用线性加权组合的指标代替影子测验选题,是关于的信息量,如MFI 或KL等,是关于的信息量,如SHE、KL、PWKL(posterior-weighted KL) (Cheng,2009)、MPWKL(modified PWKL) (Kaplan et al.,2015)和PWACDI(posterior-weighted attribute cognitive discrimination index) (Zheng & Chang,2016)等。他们的研究表明在能力θ估计精度、认知状态α分类精度和项目曝光控制等3 个指标上,与影子测验选题法相比,合成指标表现更优。

Wang 等人(2012)也基于分离建模方式,将对被试知识状态的诊断视为约束条件,使用IRT-CAT中最大优先级指标方法(maximum priority index,MPI) (Cheng & Chang,2009)来选题,即一种乘法组合策略:,使得IRT-CAT既可以测量被试能力又能对被试认知状态进行分类。他们的研究表明,由KL 信息量构造的MPI 指标能够获得较好的测量精度。

综合来看,组合策略相对于影子测验选题法而言,能更加细致地刻画之间相互作用对选题的影响。究竟采用加法组合策略还是乘法组合策略,与采用何种信息量度量有关。Zheng 等人(2018)对比了多种信息量的加法组合策略和乘法组合策略,他们的研究结果表明这两种组合方式在不同信息量下各有优劣。

加法组合策略的研究有Cheng (2007)的两种KL 信息量组合的DIM (dual information method)策略,Wang 等人(2014)为消除KL 和PWKL 信息量差异提出的ASI (aggregate standardized information method)策略和ARI (aggregate ranked information method)策略,Kang 等人(2017)用对称KL 信息量提出的JSD (Jensen shannon divergence)策略以及KL和MPWKL 信息量组合的MASI (modified ARI)和MARI (modified ASI)等。

乘法组合策略的研究有Wang 等人(2012)提出的MPI 的加权策略,Dai 等人(2016)用对数转换消除MFI 信息量和SHE 信息量量纲差异,将加法组合策略转换为乘法组合策略的 DWI (dapperness with information)策略,Zheng 等人(2018)提出的 IPA(information product approach)策略等。

这些选题策略在一定条件下,都有各自的优势,或精度较高但因运算量大选题耗时较多,如IPA 策略; 或精度稍低但可预先计算减少选题用时,如ASI 策略; 或精度更低但用时少且题库利用率较均匀,如JSD 策略。另外这些选题策略,还可能存在因两种信息量量纲差异较大造成合成指标有所偏向,或因进行转换以消除量纲差异所带来的信息损失等问题。我们希望开发一种对而言量纲比较统一的信息指标,既保证估计精度和分类精度较高,又能兼顾题库利用率均匀性且选题耗时较少的新策略。

在CD-CAT 中,大多采用贝叶斯决策对被试进行分类,被试的知识状态类别是一个随机变量,当类条件概率和先验概率已知的情况下,通过贝叶斯公式计算被试属于每个类别的后验概率,将被试的类别决策为后验概率大的一类,理论上已证明这种决策的平均错误率最低(张学工,2010,pp.14-15),因此贝叶斯决策通常也称最小错误率贝叶斯决策。研究表明(陈平 等,2011; 韩雨婷 等,2018; Wang& Chang,2011),基于被试知识状态类别的后验概率所构造的选题策略(Zheng & Chang,2016)和基于被试能力估计置信区间的后验概率所构造的选题策略具有较高分类精度和估计精度,如CD-CAT 中的香农熵策略(Tatsuoka,2002; Xu et al.,2003)和多维IRT-CAT 中连续熵(也称微分熵)策略(Wang &Chang,2011; 韩雨婷 等,2018)。

熵用于度量随机变量不确定性,熵越大,随机变量的不确定性就越大。在CD-CAT 中,用熵度量被试知识状态类别后验概率的变化,然后采用贝叶斯决策根据被试知识状态类别的后验概率进行分类,熵的变化直接反映各类别后验概率的变化,因而基于熵所构建的选题策略的分类准确性较高,如香农熵策略(Tatsuoka,2002; Xu et al.,2003)。统计学中,基尼指数也是一种度量随机变量不确定性的指标,并应用于决策树的分类算法,如既有基于熵的ID3 算法(Quinlan,1986)和C4.5 算法(Quinlan,1993),也有基于基尼指数的CART 算法(Breiman et al.,1984),这些算法都是机器学习中的经典算法(周志华,2016)。

本研究拟采用基尼指数构建双目标CD-CAT的选题策略。基尼指数和熵有共性也有差异。两者的共性在于它们都可以度量随机变量的不确定性程度且既可以处理连续型随机变量又可以处理离散型随机变量。设离散型随机变量X所有可能取的值为x v(v=1,2,…,V),X取各个可能值的概率p{X=xv}=p v,v=1,2,…,V,且,那么随机变量X的熵可以表示为:,随机变量X的基尼指数可以表示为:。令f(y)=-lny,在y=1 处进行一阶泰勒展开(忽略高阶无穷小),f(y)=f(1)+f′(1)(y-1)+O(·)≈1-y,因此,在pv=1处熵可近似转化为:=Gini(X)1摘自https://www.jianshu.com/p/75518e6a5c64,说明在极值点处,信息熵和基尼指数取得相同值。从数学表达式上看,熵对随机变量的概率使用对数加权,反映的是一种非线性关系,而基尼指数使用线性加权,反映的是一种线性关系。熵的计算公式中含有对数运算,基尼指数只需求平方和,因此基于基尼指数构造的选题策略会和香农熵选题策略一样具有较高的分类精度,而运算速度快于香农熵策略,且基尼指数的线性加权方式对测验过程中各类别的后验概率变化更加敏感,从而有助于扩大选题范围,有利于提高题库利用率。

本文利用基尼指数的上述优良性质,提出基于基尼指数的选题策略,期望新策略能保证测量精度,同时兼顾题库利用均匀性并能快速实时响应,为同时兼顾宏观能力评估和微观认知诊断提供新的更优的方法。

2 已有双目标CD-CAT选题策略简述

我们介绍三种有代表性的Dual-CAT 的选题策略。ASI 策略是加法组合策略的代表,通过标准化消除了两种信息量量纲差异后再将转换后的信息量进行线性加权; IPA 策略是乘法组合策略的代表;JSD 策略是题库利用率最均匀且选题耗时最少的选题策略代表。

2.1 ASI 策略

Cheng (2009)提出用PWKL 策略代替KL 策略,极大地提高了被试的知识状态α(α是一个0 和1 构成的向量)的分类精度,设测验测量K个独立属性,被试的知识状态有2K类,测验结束将被试划分到其中的一类,PWKL 选题策略的目标函数为:

其中Rt为被试作答t题后的剩余题库。j为剩余题库中的项目,c=1,2,…2K为被试知识状态的类别下标,αc为 2K种知识状态的第c个类别,π t(αc|Y)为在t个项目的得分模式Y=(Y1,Y2,...,Yt)下类别cα的后验概率,Yj为被试在项目j的得分,y为项目的可能得分,对于两级评分项目而言,y=0或1,为被试知识状态的当前估计值,为给定CDM 和已知时,被试作答第j题的答对概率。

Chang 和Ying (1996)用KL 策略代替MFI 策略来测量被试的能力θ(θ是一个连续变量),以克服当作答项目比较少时能力估计不准确的问题,KL选题策略的目标函数为:

其中δ建议取,t为被试已作答的项目数,为能力θ的当前估计值,为给定IRT中的IRM 和已知时,被试作答第j题的答对概率。

其中w为权重。

2.2 IPA 策略

Zheng 和Chang (2016)提出适用于CD-CAT 短测验的PWACDI (posterior-weighted attribute cognitive discrimination index)选题策略,PWACDI 选题策略的目标函数为:

其中,u和v为被试知识状态的类别下标,αu和αv为 2K种知识状态中不相同的两个类别,PWDjuv为根据项目j构造的2K× 2K的KL 信息矩阵,矩阵内的元素为任意两个知识状态的期望加权KL 距离。all relevant cells 是指PWDjuv矩阵中两种不同知识状态αu和αv所对应位置的所有元素,且这两种知识状态仅在第k个属性值是不同的,其他属性值相同。PWACDI 选题策略与被试当前知识状态估计值无关,并且注重区分2K种模式中,那些差异较小的模式,这不同于PWKL 策略。

Zheng 等人(2018)提出适用于双目标CD-CAT的IPA 策略,认为该策略能提供一个统一的框架来连接其他的双目标选题策略,将“权重”视为与IRT信息相等的对应项,则不需考虑公式(10)中的权重。信息量乘法的选题策略的目标函数为:

Pj可以是或PWACDIj等其他CDCAT 的选题策略,根据Zheng 等人(2018)的研究,的表现更好。

2.3 JSD 策略

Kang 等人(2017)提出JSD 选题策略,不同于PWKL 策略,它是对称的KL 信息,令,JSD选题策略的目标函数为:

特别说明,为了更清楚的描述JSD 策略,我们补充了一些符号,因此本文中JSD 选题策略中的表达式与原文(Kang et al.,2017)不是完全相同,但没有改变选题策略本身的含义。

3 基于基尼指数的双目标CD-CAT选题策略

本研究分别定义了基于被试知识状态类别的后验概率和基于被试能力估计置信区间的后验概率的基尼指数,并将两者组合构成基于基尼指数的双目标CD-CAT 新策略,以期达成高精度、高题库利用率和快速反馈的测验需求。

3.1 基于基尼指数的CD-CAT 选题策略

设测验考查K个属性,在t个项目的得分模式Y=(Y1,Y2,…,Yt)下类别αc(c=1,2,…,2K)的后验概率为π t(αc|Y)(简记为π t(αc))且,根据基尼指数的定义(李航,2012),则被试知识状态类别后验概率的基尼指数定义为:

πt为t个项目的反应模式Y=(Y1,Y2,…,Yt)下知识状态类别后验概率的集合,π0(αc)是类别αc的先验概率,一般取1/2K,p h(αc)为给定CDM 下知识状态为cα的被试答对第h题的概率,Yh为被试在项目h的得分,其他符号的含义同第2 节。

Gini_CD(πt)刻画在t个项目的反应模式Y=(Y1,Y2,…,Yt)下,被试知识状态类别后验概率分布的离散程度,其值越小则概率分布越集中,即一个或某些类别的后验概率会远大于其他类别,从而有助于提高贝叶斯决策对被试分类的准确性。遍历并选择剩余题库中使Gini_CD(πt,Yj)取得最小值的项目j作为下一题的候选。

由于被试对候选项目j的作答反应Yj未知,对于两级评分项目,Yj的值为0 或1 (即y=0 或1),定义被试知识状态类别后验概率的期望基尼指数:

由全概率公式

Gini_CD选题策略的目标函数为:

Rt为被试的剩余题库,即从剩余题库中选择具有最小E[Gini_CD(πt,Yj)]的项目j。

3.2 基于基尼指数的IRT-CAT 选题策略

由于被试对候选项目j的作答反应Yj未知,对于两级评分项目,Yj的值为0 或1(即y=0 或1),定义能力估计值的置信区间后验概率的期望基尼系数:

Gini_IRT选题策略的目标函数为:

Rt为被试的剩余题库,即从剩余题库中选择具有最小的项目j。

3.3 组合策略

Cheng (2007)和Wang 等人(2014)提出将基于被试知识状态的KL 信息函数和能力的KL 信息函数进行加权线性组合以得到单一信息量形式的双目标选题策略,如公式(8)和(10)。Zheng 等人(2018)提出将两个函数相乘的双目标选题策略,如公式(16)。由于乘法运算更加费时。我们采用Cheng(2007)和Wang 等人(2014)的线性加权和方式获得基于基尼指数的双目标选题策略目标函数。

本文提出的新策略基于两个随机变量后验概率的基尼指数构造的新指标,由于每个随机变量后验概率的取值范围为[0,1],且后验概率的累加和为1,这两个后验概率构造的基尼指数指标的量纲不会有很大差异,不需要像Wang 等人(2014)将两个KL 信息量进行标准化再进行线性组合,因转化还是会带来信息损耗,新策略的合成方法保持了原有信息。

Gini 选题策略的目标函数为:

其中,w是权重,根据Wang 等人(2014)的建议,在高质量题库中建议使用理论权重w=1 -t/TL,t为已做答项目数,TL为预设的测验长度。

4 模拟实验设计

为考察不同CDM、被试不同知识状态分布以及不同测验长度下新策略的性能及其与其他选题策略的比较,开展了Monte Carlo 模拟实验研究。实验考察了3 种CDM (G-DINA,DINA,R-RUM)× 3种被试知识状态的分布(高阶模型、高相关多元正态模型和低相关多元正态模型)×4 种测验长度(5、10、15、20)=36 种情形下新策略的表现。

4.1 认知诊断模型

在饱和模型G-DINA (de la Torre,2011)和缩减模型(DINA,R-RUM) (Hartz,2002; Junker & Sijtsma,2001)下讨论各选题策略表现。G-DINA 模型在适当约束条件下可简化为不同的缩减模型:若G-DINA所有主效应和低阶交互效应值为 0,则其简化为DINA 模型; 若对数连接函数的所有交互效应的值为0,则可得R-RUM。

4.2 题库参数和被试知识状态

4.2.1 模拟题库项目的属性向量

设题库考察5 个独立属性,每个项目最多考察3 个属性即共种项目属性向量,每种属性向量重复10 次,可得题库中250 个项目的属性向量。

4.2.2 模拟被试知识状态的真值

被试知识状态采用两种方式模拟,一种采用HO-CDM (Wang et al.,2012,2014; Huang,2020),另一种采用多元正态分布生成(Dai et al.,2016;Kang et al.,2017)。考察这两种模拟方式是因为他们的作答反应数据可以同时拟合CDM 和IRT 的模型,也是双目标CD-CAT 中常用的模拟方法。

(1)被试知识状态用HO-CDM (de la Torre &Douglas,2004)生成。高阶模型假定考生是否掌握某个属性与泛化的潜在能力有关。通过logit 链接,给定高阶能力θi,被试i掌握属性k的概率定义为:,类似 I RT 中的2PLM 模型,其中λ1k和λ0k是区分度参数和位置参数,θi~N(0,1),lnλ1k~N(0,1) (将值的约束在[0.2,2.5]区间范围内),λ0k~N(0,1),另生成随机数r,r~uniform(0,1),如果P(αik|θi)≥r,则令αik=1,否则令αik=0 (Ma & de la Torre,2020)。

(2)被试知识状态用多元正态模型生成。采用多元正态阈值模型(均值为0; 变量间的相关分别设0.8,0.2 两种水平,分别代表属性间存在高相关和低相关)生成被试真实属性掌握模式,用0 作为截断点获得离散值知识状态(Ma & de la Torre,2020)。

4.2.3 模拟题库CDM 项目参数和IRT 模型参数

采用第 1 节介绍的分离建模方法构建题库,CDM 模型分别采用G-DINA、DINA 和R-RUM 模型,IRT 模型采用2PLM,这些模型是研究和实践中经常使用的模型。

题库参数用R 软件中的GDINA 包和mirt 包模拟和估计。

以G-DINA 模型和被试的知识状态采用高相关多元正态模型生成为例介绍题库项目参数的模拟。

(1)根据GDINA 包(Ma & de la Torre,2020)的说明文档,CDM 参数的设定可以采用三种方法。第一种方法,为每个项目指定猜测参数p(0)和失误参数1-p(1),其中,p(0)表示未掌握项目任何一个考察属性的被试正确作答概率,p(1)表示掌握了项目所有考察属性的被试正确作答概率,其他类型的被试作答概率从[p(0),p(1)]中生成,需符合约束单调性原则,即掌握项目考察属性个数多的被试的正确作答概率大于掌握项目所考察属性个数少的被试的正确作答概率; 第二种方法,为每个项目的每种知识状态指定答对概率; 第三种方法,为每个项目指定G-DINA 模型中的delta 参数。

因第一种方法简单易操作,本研究采用第一种方法,利用GDINA 包中的simGDINA 函数模拟G-DINA模型的项目参数,设p(0)~uniform(0.05,0.25),p(1)~uniform(0.75,0.95),其他掌握了项目所考察的部分属性的被试正确作答概率从[p(0),p(1)]中生成,正确作答概率保证单调性。

(2)因为2PLM 的项目参数估计需要1000 以上样本才能获得较好的精度,本文利用高相关多元正态模型模拟3000 个被试的知识状态,根据已知的每个项目属性向量和G-DINA 模型的项目参数获得每个被试在每个项目上的正确作答概率p,另外生成随机数r,r~uniform(0,1),如果p≥r,则令得分为1,否则令得分为0,即获得3000×250 的完全得分阵(Wang et al.,2012,2014)。将得分阵用R 软件中的mirt 包(Chalmers,2012)中mirt 函数拟合2PLM可得题库中250 个项目的区分度和难度参数,用R软件中的GDINA 包中GDINA 函数对G-DINA 模型参数进行校正,以获得更准确的参数。

按照上述方法,可以获得相应的 3(G-DINA,DINA,R-RUM)×3(高阶模型、高相关多元正态模型和低相关多元正态模型)=9 种题库的CDM 的参数和2PLM 参数。

4.2.4 模拟被试能力的真值

被试对项目的反应是根据CDM 模型模拟生成,模拟被试作答题库所有项目的反应数据,将反应数据用期望后验算法(Bock & Mislevy,1982)估计被试的能力值作为其真值(Wang et al.,2012,2014; Dai et al.,2016; Kang et al.,2017)。

4.3 选题策略

DIM 策略(Cheng,2007)是首个将两个KL 信息量进行线性组合的策略,ASI 策略将两个信息量标准化以消除两个信息量的量纲差异后再线性组合,根据Wang 等人(2014)的研究结果,ASI 策略优于DIM 策略。根据Zheng 等人(2016,2018)的研究结果,PWACDI 策略在短测验上的分类精度优于PWKL 策略,PWACDI*KL 策略和DWI 策略(Dai et al.,2016)都属于双信息量的乘法组合策略IPA,研究(Zheng et al.,2016,2018)表明,PWACDI*KL 在一簇IPA 策略中表现更好。JSD 策略(Kang et al.,2017)基于被试当前知识状态估计值和能力估计值的对称KL 信息选题,在选题过程中不需要积分运算,因此运算简单,选题速度很快,根据 Kang 等人(2017)的研究,JSD 策略与其他策略相比在选题用时和题库利用均匀性上有较大的优势。

本文将Gini 策略与ASI 策略(Wang et al.,2014)、IPA 中的代表 PWACDI*KL 策略 (Zheng et al.,2018),JSD (Kang et al.,2017)策略在9 种题库下进行对比,从测量精度(包含知识状态分类精度和能力估计精度)、题库利用均匀性和选题用时等方面考查新策略的性能。

4.4 终止规则

实验均采用定长测验,定长测验设置了4 个水平:5、10、15 和20 题。

4.5 评价指标

4.5.1 知识状态分类精度指标

模式判准率是评价知识状态分类精度的指标,值越大,分类精度越高。

其中I(·) 表示当条件·为TRUE 时,计数为1,否则为0。N为被试人数。是被试知识状态的估计值,αi是被试知识状态的真值。

4.5.2 能力估计精度指标

用Bias和RMSE作为能力估计精度的指标。值越小,参数返真性越高。

4.5.3 题库使用均匀性指标

卡方值和测验重叠率是评价题库使用均匀性的重要指标,值越小,题库使用越均匀,利用率越高。

其中mj为项目j的曝光次数,L为题库容量,TL设定的测验长度,其他变量含义同上。

4.5.4 选题用时

其中,Ti为第i个被试完成测验所需时间(单位:秒)。由于模拟研究的时间消耗主要在选题上,其他用时可忽略不计,因此TC即为选题耗时。值越小,选题速度越快。

4.6 CAT 实施过程

整个CAT 的程序,运行于Python 3,硬件配置为4 核处理器Intel Core i5 1.9GHz,内存8G。以G-DINA 模型和高相关多元正态模型模拟被试知识状态的实验条件为例,说明CAT 的实施过程。

(1)选择对应实验条件下在R 环境中用GDINA包和mirt 包构建的题库(细节参照第4.2 节);

(2)采用高相关多元正态模型模拟被试的知识状态作为被试知识状态的真值,并模拟被试采用G-DINA 模型作答题库所有题,用期望后验法估计其能力值作为被试能力真值(细节参照第4.2 节);

(3)随机分配3 题给被试作答,根据初始3 题的反应,估计被试知识状态初值和能力初值;

(4)分别采用Gini 策略,ASI 策略,IPA 策略,JSD策略选题进入各自CAT 的过程,被试每作答一个项目,采用最大后验法估计被试知识状态和采用期望后验法估计被试能力;

(5)重复(4)直到满足测验停止要求;

(6)测验结束后根据每种策略下的最终被试知识状态估计值和被试能力估计值计算第4.5 节中的评价指标。

为消除随机效应,每次模拟1000 个被试,每种实验条件重复10 次,计算每种实验条件下各评价指标的平均值(见第5 节的表格,SD表示其标准差)。

5 实验结果

5.1 分类精度的比较

表1 表明,Gini 策略和IPA 策略的模式判准率远高于ASI 策略和JSD 策略,且整体而言Gini 策略的模式判准率略高于IPA 策略,这两种策略在不同实验条件下的模式判准率均超过95%且标准差都较小,说明他们的分类结果稳定可靠,可适用于不同CDM 的题库或多种CDM 混合题库。

图1 是各选题策略在不同测验长度上的表现,随测验长度的增加,各选题策略的模式判准率逐渐提高。Gini 策略和IPA 策略的变化曲线非常相似,增长最快,始终保持最好的判准率。在短测验(TL<15)中,Gini、IPA 和ASI 策略的模式判准率很接近,在中长测验(TL>15)后,ASI 策略的增长速度要低于前两者。与表1 的结论相同,Gini 和IPA 策略在不同实验条件下的变化曲线没有太大差异,因此他们在短测验和中长测验下均能获得较好的分类精度。

5.2 能力估计精度的比较

表2 表明,除在DINA 模型下属性间低相关的实验条件外,4 种策略对能力估计基本是无偏的。ASI 策略的估计偏差最小,其次是Gini 策略。IPA策略具有最小的能力估计均方差值,与之相比,Gini策略稍稍差一些,但最大差异也仅有0.04。当属性间高相关时,4 种选题策略的能力估计均方差值非常接近,最大差异仅有0.03,而在其他条件下,最大差异达0.22,这说明属性间高相关时,4 种选题策略均可用,而其他条件下可优先考虑IPA 和Gini策略。Gini 和IPA 策略的能力估计精度与CDM 有关,Gini 策略所受影响更小一些。ASI 和JSD 策略的能力估计精度既与CDM 有关又与被试知识状态分布有关。

表1 20 题各选题策略的模式判准率均值及标准差

图1 不同测验长度的模式判准率

表2 20 题各选题策略的Bias 和RMSE

图2 表明随测验长度的增加被试能力估计的均方差值在下降,即参数估计精度在上升,Gini 和IPA 策略均方差值下降速度最快,且两种策略的下降曲线基本相同,JSD 策略的下降趋势最慢。当属性间高相关时,4 种选题策略的曲线基本重合,在其他条件下,与图1 类似,在短测验(TL<15)中,Gini、IPA 和ASI 策略的曲线基本一致,在中长测验(TL>15)后,ASI 策略不如前两者。因此Gini 和IPA 策略在短测验和中长测验下均能获得较好的能力估计精度。

5.3 题库使用均匀性的比较

表3 表明,JSD 策略的题库利用均匀性优于其他3 种策略。Gini 和IPA 策略的题库利用率指标值相近,整体而言,Gini 策略的题库利用均匀性稍好于IPA 策略,且两者均好于ASI 策略。当在DINA模型下属性间高相关时,4 种选题策略的题库利用率指标值比较接近,而在其他条件下差异较大。4种选题策略的题库利用均匀性指标既与CDM 有关,又与被试知识状态的分布有关。

图3 表明,随测验长度的增加,各选题策略的卡方值在下降,即题库使用均匀性逐渐提高。每种选题策略在不同条件下的曲线变化基本相似,JSD 的下降曲线最好,其次是Gini 策略,当在DINA 模型下属性间高相关时,4 种选题策略的下降曲线基本重合。

5.4 选题用时的比较

表4 表明,JSD 策略的选题用时最少,其次是ASI 策略,接着是Gini 策略,用时最多的IPA 策略。IPA 策略的选题用时是Gini 策略的近10 倍。每种选题策略在不同条件下用时基本不变,因为选题时间主要与选题策略算法的运算量,属性个数和题库容量有关,当属性个数确定和题库容量已知,选题算法的运算量起决定性作用。

图2 不同测验长度的能力估计均方差

表3 20 题各选题策略的题库使用均匀性指标

图3 不同测验长度的卡方值

表4 20 题各选题策略的选题用时指标(单位:秒)

6 总结和讨论

6.1 总结

本文利用基尼指数的优良性质,构造一种新的双目标CD-CAT 的选题策略,模拟实验表明新策略的测量精度较高,兼顾题库利用均匀性并能快速实时响应,为同时兼顾宏观能力评估和微观认知诊断提供了新的更优的方法。

实验考察了3 种CDM 和3 种不同被试知识状态分布下,4 种双目标选题策略(Gini 策略、ASI 策略、IPA 策略和JSD 策略)的表现,综合来看,得到如下结论:(1) Gini 策略和IPA 策略在分类精度指标,能力估计精度指标和题库使用均匀性指标上均具有相似的表现,测量精度高且受CDM 模型和被试知识状态分布的影响较小,可以适用于实际测验中含多种认知诊断模型的混合题库。总体而言,Gini策略稍好于IPA 策略,且Gini 策略的选题用时仅为IPA 策略的十分之一; (2) Gini 策略和ASI 策略都是两种信息量线性加权的组合策略,在短测验时,两种选题策略在测量精度指标上的表现很接近,而在中长测验时,虽然ASI 策略的用时是Gini 策略的1/3,但ASI 策略的测量精度和题库使用均匀性均不如Gini 策略; (3) Gini 策略与JSD 策略相比,JSD策略在题库使用均匀性和选题用时指标上有较大的优势,但其测量精度远不如Gini 策略。

综上所述,短测验时,Gini 策略、IPA 策略和ASI 策略均有较好的测量精度,都值得推荐。对于中长测验时,对于属性个数少和题库容量较小的情况下,推荐使用Gini 策略和IPA 策略,而当属性个数增多和题库容量增大时,推荐使用Gini 策略。当属性间高相关且属性个数非常多和题库容量非常大时,推荐使用ASI 策略和JSD 策略,ASI 策略的测验精度稍高于JSD 策略。

6.2 讨论

Gini 策略是基于被试知识状态类别的后验概率和被试能力估计置信区间的后验概率构造的,因此受CDM 和被试知识状态分布的影响较小,这种构造方法直接反映后验概率的变化且采用了最小错误率贝叶斯决策确定被试的知识状态,因而测量的精度也非常高。基尼指数的线性加权方式,使得其对后验概率的变化相比熵而言更加敏感,从而有助于扩大选题范围提高题库利用均匀性,且加法运算速度较快,能满足Dual-CAT 实时响应的需求。

在某些条件下(如被试的知识状态由高阶模型生成),Gini 策略的能力估计精度会稍低于IPA 策略,而此时Gini 策略的模式判准率会稍高于IPA 策略,可能的原因是组合策略中能力的信息量和知识状态的信息量共同作用选择下一题,两种信息量在选题过程中互相均衡的结果。Zheng 和Chang (2016)指出当已知题库参数,公式(3)中的KL 信息量可以预先计算,缩短了ASI 策略的选题用时,而Gini 策略是定义在随机变量后验概率,必须根据被试的作答反应实时计算,因此选题用时会稍有增加。

JSD 策略仅计算基于当前估计值的KL 距离,运算量小,选题非常快,而Gini 策略需考虑有限集合和区间范围内后验概率变化,需要求和与积分运算,因此选题耗时会超过ASI 策略和JSD 策略。当测验长度较短时,能力估计值和被试知识状态估计值偏离真值较远,基于他们当前估计值的JSD 策略的选题范围比较宽泛,从而使得题库的利用率会更加均匀; Gini 策略不依赖于能力和知识状态的当前估计值,而依赖于他们的概率分布,选题会更趋集中。

Gini 策略的测验精较高,但其题库利用率不如JSD 策略。Wang 等人(2011)的研究表明限制渐进法(Restrictive Progressive Method:RP)和限制阈值法(Restrictive Threshold Method:RT)能均衡测量精度和项目曝光率,下一步研究拟将Gini 策略与RP 和RT 方法结合,提高Gini 策略的题库利用均匀性。测量精度和题库利用均匀性是一对相互冲突的指标。使用控制项目曝光技术后,题库利用均匀性会更好,但也会带来测量精度下降的不利影响,如何权衡需要进一步研究。另外,使用控制项目曝光技术后,各选题策略之间的差异是否会消除,也有待进一步研究。当属性个数较多时和题库容量较大时,Gini 策略的选题用时可能会超过用户的期望值(延时超2 秒) (Nah,2004),下一步研究拟将Gini 策略与动态搜索算法(Zheng & Wang,2017)结合,对其优化以减少选题用时。

本文采用分离建模的方法获得两类模型的参数来构建Dual-CAT 的题库,题库项目是否完全拟合所关注的模型还需要进一步探查以期获得更准确的测量结果。文中Dual-CAT 的题库参数的建立过程是先模拟CDM 的参数和项目的属性向量,根据CDM 模型获得反应数据,然后用反应数据估计IRT 参数,这是目前研究中常用的方法(Dai et al.,2016; Kang et al.,2017; Wang et al.,2012,2014),能否采用先模拟IRT 的项目参数,根据IRT 模型获得反应数据,然后用反应数据估计CDM 参数和项目属性向量的方法构建题库?在这种方式构建题库下各选题策略的表现有待进一步探查。

随着测验数据的复杂性和测验要求的限定,选题策略的发展也要适应新测验形式的发展,比如属性多级化项目测验(涂冬波,蔡艳,2015)、多级评分项目测验(蔡艳 等,2016)、多维项目测验(韩雨婷等,2018; Hsu & Wang,2019)、多阶段CD-CAT (罗芬 等,2018; Kaplan & de la Torre,2020)、融入非统计约束的多阶段测验(Lin & Chang,2019; Liu et al.,2018)以及结合反应时的CAT 测验(Fan et al.,2012;Huang,2020),可探讨基于基尼指数的选题策略在这些测验场景下的效果及其应用。

猜你喜欢

基尼题库测验
国家职业技能鉴定铸造工职业题库开发成果审定会在沈阳召开
Wimbledon Tennis
“整式的乘法与因式分解”优题库
脑力急旋风
卷入选战的布基尼
两个处理t测验与F测验的数学关系
数字测验
强制“脱衫”
猿题库
你知道吗?