APP下载

项目区分度指标在属性多水平和混合计分项目下的组卷研究 *

2024-01-31马大付秦春影喻晓锋

心理与行为研究 2023年6期
关键词:区分度计分题库

马大付 秦春影 喻晓锋 何 催

(1 江西师范大学心理学院,南昌 330022) (2 济南市教育教学研究院,济南 250002)

(3 南昌师范学院数学与信息科学学院,南昌 330032)

1 前言

近年来,在“以评促学”理念下,教育测量从对学生能力测量转向对微观知识状态(knowledge state,KS)的测量。由此,认知诊断评估(cognitive diagnosis assessment,CDA; Leighton & Gierl,2007;Rupp et al.,2010)技术应运而生。通常,考生KS 为潜在离散变量,因此如何构建诊断测验实现将考生KS 转换为可观测的外在表现至关重要,良好的诊断测验不仅需要反映KS 结构,还需充分区分不同KS(丁树良 等,2010; von Davier & Lee,2019)。

认知诊断自动测验组卷(cognitive diagnosis automated test assembly,CD-ATA; Wang et al.,2016)是CDA 实施的关键步骤,是指从已校正题库中(Becker et al.,2021; Henson & Douglas,2005)根据测验统计(如测验精度) 与非统计约束(如答案平衡)选择项目的过程,组卷结果与诊断准确性和有效性直接挂钩(Lin et al.,2019)。Lin 等人(2017)将CD-ATA 方法分为两类:面向指标方法(indexoriented methods) 与面向模拟方法(simulationoriented methods)。面向指标方法基于项目区分度指标,在满足非统计约束同时,寻求产生最大项目区分度线性和的J(J为测验长度)个项目。常用项目区分度指标包括:CDI(cognitive discrimination index; Henson & Douglas,2005)、ADI(attribute diagnosis index; Henson et al.,2008)、MCDI 与MADI(modified CDI; modified ADI; Kuo et al.,2016)、EAMR(expected attribute match rate; 汪文义 等,2018)等;面向模拟方法通过模拟N个被试在M(M为题库大小)个项目的作答,将组卷问题转换为求取对N个被试产生最佳诊断精度的J个项目组合。该类方法常采用优化算法求解,如遗传算法(generic algorithm,GA; Finkelman et al.,2009),蚁群算法(ant colony optimization,ACO; Lin et al.,2017)等。

然而,上述研究仅停留在属性二分且项目二级计分,未见有研究探索更加复杂的属性多水平或项目多级计分诊断测验组卷,这在一定程度上无法满足实际测验需求。实际测验的计分题型不仅为二级计分,测验目标也并非考察属性掌握与否,测验中可能既包括二分属性又包括多分属性为属性k最高水平,Lk≥1},且同时包含二级与多级计分项目。例如:TIMSS 2007 四年级科学教育测验从“了解、应用和推理”三种水平测量属性掌握程度(Mullis et al.,2005),使用168 个0/1 二级计分与19 个0/1/2 三级计分项目。

因此,探究更符合实际测验的属性多水平或项目多级计分组卷,为实际组卷提供参考存在一定价值。为解决此类复杂组卷,需开发相应CDATA 方法。尽管现有部分CD-ATA 方法适用于任意组卷场景(如CDI、ADI、面向模拟方法),但这些方法均存在一定缺陷,如CDI 与ADI 组卷精度较低且易忽略属性层级结构(attribute hierarchy,以下称“属性结构”) (唐小娟 等,2013; Kuo et al.,2016),面向模拟方法需要大量迭代过程,组卷效率低(Finkelman et al.,2010; Lin et al.,2017)。而MCDI 与MADI 同时考虑属性结构与属性测量次数,相较CDI 与ADI 的组卷结果更优(Kuo et al.,2016)。因此,考虑对MCDI 与MADI 进行属性多水平扩展,使其可适用于复杂的实际诊断测验组卷将是一种更优策略。

本研究的首要问题是如何使MCDI 与MADI方法适用于属性多水平组卷。而后,为使研究结果更贴合实际,基于属性多水平,考虑三种实际组卷测验:二级计分测验、多级计分测验、二级与多级计分混合测验,将不同指标组卷方法用于上述三种测验。为解决上述问题,首先需选择一个可同时满足属性多水平,多级计分的认知诊断模型(cognitive diagnosis model,CDM)。现有此类CDM 包括GDM(von Davier,2008)、GPC-HO-RPa-DINA(Zhan et al.,2017)、GRPa-DINA(王立君 等,2022)等,其中,GRPa-DINA 模型有着参数少、易解释、模型易应用等优势,因此本研究拟选用该模型作为题库的底层模型。

2 GRPa-DINA 模型

依据累积类别反应函数建模思路,王立君等人(2022)对RPa-DINA(詹沛达 等,2016)模型和PDINA(涂冬波 等,2010)模型进行相应拓展,得到同时处理属性多水平、项目多级计分的GRPa-DINA模型,见公式1、公式2、公式3。

3 项目区分度指标

3.1 CDI 与ADI

CDI 与ADI 均基于D 矩阵(Henson & Douglas,2005),D 矩阵用于描述任意两个KS 的KL (Kullback-Leibler)距离(Chang & Ying,1996),项目j上任意的D 矩阵见公式4。

CDI 与ADI 在描述项目区分度时采用了不同思路,CDI 考虑KS 的加权平均KL 距离,体现项目的整体区分能力;ADI 则使用相似KS 的KL 距离,体现项目属性区分能力。属性多水平CDI 与ADI 的计算公式分别为公式5、公式6。

3.2 拓展MCDI 与MADI

Kuo 等人(2016)为CDI 与ADI 增加属性结构与属性测量次数两项权重,改进后的MCDI、MADI见公式7、公式8。

当属性m为属性n的先决条件时,为1,否则为0。分母部分为属性二水平线性型可达矩阵(reach matrix,以下称“R 阵”)之和。属性为线性型时,为1,独立型=2K/[K(K+1)]。

为使MCDI 与MADI 适用于属性多水平组卷,需考虑两方面信息。首先,属性由二水平转向多水平时,对属性的测量应转向对属性各水平的测量。其次,属性多水平R 阵与属性二水平不同,蔡艳和涂冬波(2015)指出属性多水平R 阵可由两阶段获得,第一阶段通过扩张算法得到属性二水平R 阵,再根据属性结构插补得到属性多水平R阵。以线性型为例,K=5,每个属性的水平数分别为2、2、3、3、4。属性多水平插补过程如图1 所示。

图1 属性多水平插补过程

需要说明的是,CDI 与ADI,GMCDI 与GMADI 均采用顺序组卷。首选题库中区分度最高的项目,后根据限制条件筛选满足条件的项目,选择剩余题库中区分度最高的项目,以此类推,直至达到组卷长度。不同的是,CDI 与ADI 组卷时,项目区分度为定值,而GMCDI 与GMADI 组卷时项目区分度为变值,组卷时通过两项权重不断更新项目区分度。

4 模拟研究

模拟研究目的是为探讨四种项目区分度组卷方法在属性多水平组卷中的表现,为使测验更符合实际,操控多种可能影响组卷结果的因素进行两项模拟研究。研究1 模拟二级与多级计分题库,比较属性多水平时,二级计分与多级计分哪种题型更适合进行诊断分析以及不同区分度指标在两种题库下的组卷表现。研究2 模拟更加实际的、同时包含二级与多级计分项目的混合比例测验,探究测验中不同计分题型存在一定比例时,组卷精度的变化。

4.1 研究1:二级计分与多级计分项目独立组卷

4.1.1 研究设计

研究1 采用2×4×3×5 的四因素完全随机设计,自变量为题库类型、属性结构、组卷长度、组卷方法。四种因素的水平设置见表1。

表1 研究1 四因素水平

参考已有研究的属性结构设计(蔡艳,涂冬波,2015),固定属性数量K为5,属性水平数为2、2、3、3、4。

题库生成:生成两种计分题库,0/1 二级计分题库,0/1/2/3 多级计分题库(王立君 等,2022);为保证每种q向量有被测量3 次的可能,固定题库大小J为500(以独立型结构为例,除去全为0 的KS,将144-1=143 种KS 重复三次,剩余71 题从143 种KS 中随机抽取)(Kuo et al.2016);二级与多级计分项目的计分类别参数采取王立君等人的生成方法,第一计分类别参数与从均匀分布U(0,0.25)中随机抽取,多级计分的其他计分类别参数

被试生成:固定被试量N为1000,为方便模拟,被试KS 从相应属性结构的所有KS 中随机抽取。

作答生成:根据被试的掌握模式、项目q向量及项目参数,通过GRPa-DINA 模型计算被试在项目上正确作答各计分水平的概率,得到累计概率和,与生成的U(0,1)随机数比较,随机数落在哪个累计概率和区间则得到相应区间的分数。例如,0/1/2/3 多级计分项目,假设被试得到4 种分数的概率分别为0.1、0.1、0.1、0.7,4 种分数概率区间为0~0.1、0.1~0.2、0.2~0.3、0.3~1,生成随机数0.8,落在第4 分数区间,被试在该项目上得3 分。

4.1.2 评价指标

组卷首要考虑的是精度问题,采用模式判准率(pattern accuracy rate,PAR)与属性判准率(attribute accuracy rate,AAR) 作为精度指标。见公式13、公式14。

采用最大后验概率(maximum a posterior,MAP;Huebner & Wang,2011)估计被试KS,每种条件重复100 次。

4.1.3 结果

图2、图3 展示了多级计分项目的PAR 与AAR,二级计分项目的精度变化与多级计分项目趋势相同。

图2 五种组卷方法多级计分组卷模式判准率

图3 五种组卷方法多级计分组卷属性判准率

从图2 可发现,随组卷长度增加,各组卷方法精度都获得提高,组卷长度越长,精度越高。四种属性结构中,GMCDI 与GMADI 始终是PAR 最高的两种组卷方法,且随组卷长度增加,GMCDI 与GMADI 的差距逐渐减小,出现天花板效应。属性为独立型时,CDI 与ADI 同GMCDI 与GMADI 的差异较小,远优于RD 组卷;除独立型结构,CDI、ADI 与RD 的PAR 接近,线性型结构下,RD 组卷在部分条件上优于CDI 与ADI,这与Kuo 等人(2016)针对属性二水平的组卷结果相似,即属性结构较复杂时,基于CDI 与ADI 的PAR 较低,甚至低于RD 方法。

图3 与图2 具有相同趋势,五种组卷方法的AAR 均随组卷长度增加而提高;GMCDI 与GMADI的AAR 始终最高;除线性型时,RD 组卷高于CDI 与ADI,其他条件下RD 组卷均接近或低于CDI、ADI。总之,图2、图3 展示了GMCDI 与GMADI 是两种不受属性结构影响且更为有效的属性多水平组卷方法。

研究1 的另一目标在于比较二级与多级计分项目的属性多水平组卷精度。基于简单随机抽样,相较其他组卷方法,RD 组卷是比较二级与多级计分项目的更优选择。从表2 与表3 的RD 部分可看出,所有条件下,RD 在多级计分项目上的组卷精度(PAR 与AAR)均高于二级计分,表明多级计分项目更适用于属性多水平组卷。另外,从表2和表3 还可发现,多数情况下CDI 与ADI 在二级计分项目上的组卷精度更高,而GMCDI 与GMADI绝大多数时都在多级计分项目上取得更高诊断精度,这表明CDI 与ADI 方法并不适用于多级计分项目组卷。值得注意的是,除独立型结构外,GMCDI最大P↑值均出现在组卷长度为20 上,后随组卷长度增加而降低。

表2 二级与多级计分项目组卷模式判准率比较

表3 二级与多级计分项目组卷属性判准率比较

4.2 研究2:二级计分与多级计分项目混合组卷

4.2.1 研究设计

研究2 采用4×5×9 三因素完全随机设计,自变量为属性结构、组卷方法、组卷比例。属性结构,组卷方法与研究1 一致,组卷比例设置为1∶9、2∶8、3∶7、…、9∶1 等9 个水平。

研究2 的题库产生、被试KS、考生作答模拟与研究1 一致。固定组卷长度为30,采用两阶段组卷:首先从二级计分题库中选择项目,后从多级计分题库中选取,例如组卷比例为1∶9 时,则先从二级计分题库中选择30×0.1=3 题,后从多级计分题库中选取剩余27 题。

4.2.2 结果

从表4 和表5 中可看出,相同条件下,GMCDI与GMADI 的组卷精度最优,尽管组卷比例相似时这两种方法存在一定程度的精度起伏,但总体上满足随组卷比例提高而组卷精度逐渐降低的规律。值得注意的是,在某些条件下,GMCDI 与GMADI 的混合计分组卷结果优于二级或多级计分的结果,例如收敛型时,GMADI 的最高模式判准率为0.918,高于二级与多级计分的0.902、0.916。而RD、CDI、ADI 在混合计分组卷上未表现出规律性、混合计分组卷时二级与多级计分项目非简单线性求和的方式,即多级计分项目越多,组卷精度越高;并且在某些条件下,使用这三种方法进行混合计分组卷会出现严重低于二级或多级计分组卷精度的情况,例如线性型,使用CDI 组卷,最低模式判准率为0.619,低于二级计分的0.674。这表明,RD、CDI、ADI 并不适用于混合计分组卷。综上,GMCDI 与GMADI 在混合计分组卷时有着很好的选题延续性,可有效用于混合计分组卷,而RD、CDI 与ADI 则不适用。

表4 五种组卷方法30 题时的混合计分模式判准率

表5 五种组卷方法30 题时的混合计分属性判准率

5 讨论

组卷是诊断测验的一项必要工作,组卷指标将决定题目的选用而影响最终的组卷结果。为实现属性多水平测验组卷,本研究将两种区分度指标CDI、ADI 及扩展项目区分度指标GMCDI、GMADI 应用于此类测验。研究结果表明:(1)多级计分项目较二级计分项目更有利于进行属性多水平认知诊断;(2)CDI 与ADI 适用于二级计分组卷且易受属性结构影响,混合计分组卷结果较差。(3)无论是二级或多级计分项目的单独或混合计分组卷,GMCDI 与GMADI 均可取得最高组卷精度且不受属性结构影响,两者之间的组卷精度差异随测验长度增加而逐渐降低。

出现上述结果的可能原因是:首先,GMCDI与GMADI 组卷精度更优是因为指标组卷的思想差异,CDI 与ADI 基于最大期望判准率的组卷思想,一次性选取题库中最大区分能力的项目进行组卷,忽略了项目q向量组合是影响诊断测验的重要因素(Lin et al.,2017; Zeng et al.,2010);而GMCDI 与GMADI 则兼顾项目区分度与属性水平平衡,保证选用较高区分度项目的同时也对不同属性进行多次测量,因而获得更高组卷精度。其次,多级计分项目的诊断结果优于二级计分项目,但两者的差异似乎并不大的原因是,当属性存在多个水平时,二级计分项目仅可将被试归为两类:掌握组与未掌握组,而多级计分项目对被试群体有着更详细的划分,因此多级计分项目的诊断结果更加准确;而两者差异较小的原因一方面可能是组卷长度较长,组卷精度逐渐达到天花板;另一方面可能与所使用的诊断模型有关,尽管该模型在多级计分项目上可对不同KS 被试进行更详细分类,但由于属性数量水平较多,因此尽管使用多级计分项目,也难以对所有KS 进行精确划分。最后,GMCDI 与GMADI 在混合计分组卷结果上较优,而CDI 与ADI 则并不适用于混合计分组卷,这是因为尽管项目的计分方式不同,但GMCDI 与GMADI 仍然能够保证项目选择过程中项目q向量的组合方式是连续的;而C D I 与ADI 的组卷方式则是分割的,组卷时将二级与多级计分项目的选择看作是两个独立的过程,结果也表明这种分割的过程不适用于混合计分组卷。

尽管本研究的结果具有一定理论与实际意义,但仍存在一些不足。首先,本研究使用GRPa-DINA 模型作为题库的底层模型,未来也可使用其它同类CDM,如GDM(von Davier,2008)与GPCHO-RPa-DINA(Zhan et al.,2017),pG-DINA(Chen &de la Torre,2013)等;其次,本研究仅比较了不同区分度指标的组卷精度差异,并未深入讨论各指标的组卷特性,如不同指标对不同属性数量项目的偏好或对不同计分方式项目的偏好。另外,在混合计分组卷时,对GMCDI 与GMADI 采用的是先二级再多级的组卷顺序,未来可探讨先多级再二级或二级与多级依次进行的顺序,探究不同组卷顺序是否会对组卷结果产生影响;除此之外,为符合测验要求,组卷测验研究通常需要符合某些非统计约束(Becker et al.,2021; Henson & Douglas,2005),如Finkelman 等人(2020)为使测验符合一定的时限要求,将反应时(response time,RT)作为非统计约束考虑进组卷,而出于简便性考虑,本研究并未对此类约束进行操控,未来可探讨含非统计约束的属性多水平组卷。最后,本研究使用的均为参数化组卷方法,而实际要想获得稳定的项目参数,需要较大被试量,这在一定程度上限制了诊断方法的使用,未来也可开发属性多水平非参数组卷方法,如使用R 阵组卷(丁树良 等,2016;Zeng et al.,2010)。

6 结论

CDI 与ADI 不适用于属性多水平、项目多级计分与混合计分组卷。通过对已有指标组卷方法M C D I 与M A D I 进行属性多水平拓展,得到GMCDI 与GMADI,这两类组卷方法适用于多种实际组卷情形,且不受属性层级结构与项目计分比例影响。

猜你喜欢

区分度计分题库
带定性判断的计分投票制及其公理刻画
“勾股定理”优题库
“轴对称”优题库
“轴对称”优题库
“整式的乘法与因式分解”优题库
引导素质教育的新高考计分模式构想:线性转化计分模式
基于单片机的中国式摔跤比赛计分器开发设计
浅谈试卷分析常用的几个参数及其应用
图形推理测量指标相关性考察*
浅观一道题的“区分度”