基于多级评分的属性层级方法和广义距离法的认知诊断
2014-06-15祝玉芳王黎华
祝玉芳 王黎华
基于多级评分的属性层级方法和广义距离法的认知诊断
祝玉芳 王黎华
基于等级反应模型的属性层级方法和多级评分的广义距离法,是两种基于项目反应理论的多级评分的认知诊断方法。本文通过采用Monte Carlo方法模拟比较两种方法的优劣,发现在四种属性层级结构、四种被试作答失误率情况下,对发散型来说,多级评分的广义距离判别法相对更好;对无结构型来说,基于等级反应模型的属性层级方法是更好的选择;对收敛型和线型而言,被试作答失误率比较大时多级评分的广义距离判别法相对更合适,其他情况下两种方法诊断效果差不多。
多级评分;认知诊断;属性层级方法;广义距离法
一、引言
随着义务教育的普及,我国学校教育已经逐步由“精英教育”转化为“普及教育”,教育者不但关注教育结果,而且关注教育过程。与之相适应,在强调测试选拔功能的同时,教育测试的辅助教学与诊断功能也逐步受到重视。除了报告分数,测试者还应该为教师、学生和家长提供关于学生对知识、技能的掌握情况,根据这些反馈信息,教师可以进行反思并有针对性地补救教学;学生可以不断监督、评价自己的学习,从而提高学习效率,促进自身学习能力的发展与提高。
认知诊断(CognitiveDiagnosis,CD)理论是根据被试对测试题目的反应,将传统的单一考试分数转化为被试对试题中所涉及的认知过程与技能的掌握概率,据此提供被试的有针对性的信息,即通过考试报告被试的知识状态。近年来,教育与心理测量学家们提出了不少认知诊断模型,但是这些模型大多是“0-1”评分的,而我国大规模教育考试中的计算题、论述题等不仅仅使用两级评分,而且使用了多级评分。两级评分是多级评分的特例。事实证明,使用多级评分项目比使用两级评分项目可以获得更多的诊断信息。然而,和“0-1”评分相比,多级评分认知诊断的相关研究尚不多见,因此,开展多级评分认知诊断的相关研究很有必要。
基于等级反应模型的属性层级方法(A Polytomous Extension of Attribute Hierarchy Method Based on Graded Response Model,简称 GRMAHM)[1]和多级评分的广义距离法(A Polytomous Extension of the Generalized Distance Discriminating Method,简称GDD-P)[2]是两种多级评分的认知诊断方法。二者都是基于项目反应理论(IRT)的诊断方法。这两种方法最大的差别是比较被试的观察项目反应模式和期望项目反应模式之间的准则,GRM-AHM是用对数似然比,而GDD-P是用广义距离。实际测验中,施测者一般很难检验诊断方法是否精确诊断了被试的知识状态,因而往往通过MonteCarlo方法模拟研究,通过归准率的高低来确定诊断方法的优劣。目前尚没有相关文献比较研究过GRM-AHM和GDD-P的优劣。本研究主要介绍这两种方法的统计原理和使用方法,并采用MonteCarlo方法比较这两种方法的优劣,以期为研究者在认知诊断的实测应用中选择合适的诊断方法提供依据。
二、基于等级反应模型的属性层级方法(GRM-AHM)
GRM-AHM应用对数似然比(LL)作判别方法。有研究者在GRM-AHM[3]中比较过几种判别方法,LL的诊断率最高。多级评分IRT选用Samejima的等级反应模型 (Graded response model,GRM)。它的数学表达式为:
其中,Xα是被试α(α=1,…,N)的观察得分向量,Vβ(β=1,…,R)是期望得分向量(N是被试数,R是期望项目反应模式数)。我们仍可将Xα称为观察项目反应模式,Vβ称为期望项目反应模式。fj(fj≥1,j=1,2,…,J)是第j个项目的满分(J是诊断测验项目个数)。上式中,Pαjt与Pβjt的值用等级反应模型(GRM)来计算,xαjt和vβjt的值非0 即1。若被试α在第j个项目上的得分为m,记Xαj=m,则xαjm=1,而t≠m时xαjt=0(0≤t≤fj);若Vβ的第j分量为m,即Vβj=m,则vβjm=1,而t≠m时vβjt=0(0≤t≤fj)。
本研究将使LL(Xα,Vβ)值达到最小的期望项目反应模式Vβ对应的属性掌握模式判为被试α的属性掌握模式。
三、多级评分的广义距离法(GDD-P)
GDD-P定义了被试的观察项目反应模式和期望项目反应模式之间的广义距离,将被试的观察项目反应模式判归为离它最近的期望项目反应模式所对应的知识状态。在项目为多级评分的认知诊断测验中,它的数学表达式为:
Xα=(Xα1,…,XαJ)表示被试α的观察项目反应模式,Vβ=(Vβ1,…,VβJ)表示第β种期望项目反应模式,d(Xαj,Vβj)表示j项目上被试α的观察反应Xαj与项目j上第β种期望反应Vβj的广义距离,d(Xα,Vβ)表示Xα到Vβ的广义距离,即为所有
其中,项目的广义距离之和;PV(βjθα)是能力水平为θα的被试α在项目j上得到反应为Vβj的概率。
本研究将使d(Xα,Vβ)值达到最小的期望项目反应模式Vβ对应的属性掌握模式判为被试α的属性掌握模式。
四、GRM-AHM和GDD-P的比较
本研究采用MonteCarlo方法模拟研究,比较GRM-AHM和GDD-P的优劣,使用Matlab7.0软件编写程序。
1.测验Q矩阵的设计
本研究采用Leighton等人[4]采用的四种属性层级结构(如图1所示的发散型、收敛型、线型和无结构型),由属性层级关系可以得到属性的邻接阵,继而得到可达阵R,使用Tatsuoka[5]的缩减算法或丁树良[6][7][8]的扩张算法导出潜在Q阵(Qr阵),Qr阵的每一列都可作为认知诊断测验项目类。Qr阵再加上一个零列,构成被试Q阵(Qs阵)[9],它的列表示了被试知识状态的所有可能类。测验的期望项目反应模式全集由Qs的转置乘以Qr(即得到(对应分量的值为多级评分),即得到认知诊断分类中心,被试知识状态与期望项目反应模式是一一对应的。实际测验中,研究者一般把Qr阵用作测验Q矩阵(如本研究),可不一定非得用Qr阵为测验Q矩阵,只需包含可达阵R的矩阵都可测验Q矩阵,因为只要测验Q矩阵中包含了可达阵R就能保证知识状态和期望项目反应模式是一一对应的。[10][11]
不管是GRM-AHM还是GDD-P,都是比较被试观察项目反应模式和期望项目反应模式,只要两者满足方法的准则,则匹配成功,那该被试观察项目反应模式匹配的期望项目反应模式对应的知识状态就被诊断为被试的知识状态,所以测验Q矩阵必须保证知识状态与期望项目反应模式的一一对应。
图1 含七个属性的四种层级结构图
2.被试观察项目反应模式的模拟
在实际测验中,被试观察项目反应模式就是被试对测验题目的作答反应模式。模拟的方法是对每个期望项目反应模式的分量加上随机误差,造成被试作答失误率slip(这里的slip是指与期望项目作答反应不一致,包含失误或猜测)后所得到的反应向量作为被试观察项目反应模式。本研究在四种slip(分别为2%、5%、10%和15%)情况下比较GDD-P和GRM-AHM的优劣。
模拟被试作答矩阵的方法如下:
(1)模拟产生被试。把期望项目反应模式按总得分从小到大排序,然后使具有这些得分的被试人数满足标准正态分布,产生5000个被试进行分配,其中得分相同的期望项目反应模式平均分配人数。
(2)模拟观察项目反应模式。如要模拟每个模式的每个项目的得分有5%的概率发生slip的情况,采用一个服从开区间(0,1)上均匀分布U(0,1)的随机数r,如果r>0.925且该得分不是满分,则该项目得分增加1分;如果r<0.025且该项目得分不是0则该项目得分减1分,否则该项目得分不变,这样就模拟产生了一个以5%概率发生slip的观察项目反应模式。采用相同的方法可模拟产生2%、10%和15%失误概率的观察项目反应模式。[12]
表1 归类结果
3.两种诊断方法的比较
对被试作答矩阵采用三参数等级反应模型[13]估计项目参数和能力参数;使用GDD-P和GRM-AHM把被试的观察项目反应模式和期望项目反应模式进行匹配,匹配的期望项目反应模式对应的知识状态即为该被试的知识状态,从而得到每位被试的知识状态。
本研究在4种slip下考虑4种属性层级结构的诊断结果,即用“4×4”交叉设计,共16个试验,每个试验都重复进行20次以减少误差,每次试验都对两种诊断方法(GRM-AHM和GDD-P)比较研究,以考察失误概率对诊断准确率的影响及诊断方法对诊断准确率的影响。
我们把发生slip前的期望反应模式作为真值,然后用模式归准率(PatternRatio,简称PR)和属性边际归准率(Marginal Ration,简称MR)[14]作为评价指标来比较方法的优劣。
4.结果分析
表1列出了两种诊断方法在4种层级结构上的归准率(模式归准率和属性边际归准率)。从表1我们可以知道:对于4种7个属性的属性结构,两种诊断方法在4种silp情况下的模式归准了都在80%以上,属性边际归准率都在90%以上。图2至图5显示了归类结果,从这些图表我们可以看出:对于发散型结构,4种slip情况下都是GDD-P比GRM-AHM的诊断效果好;对于无结构型结构,GRM-AHM反而比GDD-P诊断效果好;对于收敛型和线型结构,在15%slip时是GDD-P方法更好,在其他3种slip时,两种方法的诊断效果相差不大。
图2 发散型归类结果图
图3 收敛型归类结果图
图4 线型归类结果图
图5 无结构型归类结果图
五、应用
理论最终服务于实践,本研究探讨了基于多级评分的属性层级方法和广义距离法的认知诊断方法在实证数据中的应用。如果我们想诊断某学校学生在“进位计数制”这一内容的掌握情况,步骤如下:
(1)根据诊断目标,由学科专家界定完成测验任务所需的认知属性(知识结构与认知技能),以及这些属性之间的层级关系。在借鉴喻晓峰[15]等人研究成果的基础上,我们确定了五个属性,分别为:A1(进制的概念),A2(十进制转化成其他进制),A3(其他进制转换成十进制),A4(二进制转换成八进制或十六进制),A5(八进制或十六进制转换成二进制)。这五个属性间的层级关系如图6所示。
图6 “数的进制”的属性的层级
(2)根据属性及其间的层级结构,确定属性间的可达阵R、潜在Q阵(Qr阵)、被试Q阵(Qs阵)。测验Q矩阵(Qt阵)可根据实际需要编制,只需Qt阵包含可达阵R即可,本测验的Qt阵如表2所示。之后,我们根据Qt阵和Qs阵计算期望反应模式,确定认知诊断的分类中心。
表2 测验Q阵(Qt阵)
(3)根据Qt矩阵编制认知诊断测验题目。比如表2中题目I5在A1和A2这两个分量的值为1,其余为0,则题目I5只包含属性A1和A2,不包含其他属性,本测验的I5的内容为:十进制数为57,则其二进制数为多少?
其他测验题目按相同的方法编制,然后组织学生实施认知诊断测验。
(4)收集被试的测验数据,选择合适的认知诊断模型对题目参数和学生的知识状态进行评估。本测验的属性层级结构是无结构型,由表1我们可以知道,对于本测验GRM-AHM比GDD-P的诊断效果更好,故选GRM-AHM作为本测验的认知诊断模型。我们也可以根据测验的Qt阵、被试情况产生模拟数据来比较哪种诊断模型更适合。
(5)对于每个被试来说,把被试的作答反应模式和每个期望反应模式依据式(1)进行计算,使得对数似然比的值最小的期望反应模式对应的属性掌握模式就是该被试的属性掌握模式。从而可以向被试报告属性掌握模式,让被试知道自已对每个属性的掌握情况;向教师报告被试对每个属性的平均掌握率,从而判断所有被试对每个属性的掌握情况,进而开展补救教学。
六、讨论
本文介绍了两种多级评分认知诊断方法(GRM-AHM和GDD-P),并对这两种方法进行了比较研究。实验结果发现:对发散型来说,GDD-P相对更好;对无结构型来说,GRM-AHM是更好的选择;对收敛型和线型而言,slip比较大时GDD-P相对更合适,其他情况下两种方法诊断效果差不多。这样,对于多级评分认知诊断的实测,可以根据实验结果在不同的测验情况下选择不同的诊断方法。
对于认知诊断方法来说,诊断率越高诊断效果越好,所以开发具有更好诊断率的认知诊断方法应是我们努力的方向。
[1][3][12][14]祝玉芳,丁树良.基于等级反应模型的属性层级方法[J].心理学报,2009,41(3):267~275.
[2]Sun J N,Xin T,Zhang S M & Jimmy de la Torre. A Polytomous Extension of the Generalized Distance Discriminating Method[J]. Applied Psychological Measurement,2013,37 (7): 503~521.
[4]Leighton J P,GierlMJ,Hunka S M. The attribute hierarchy method for cognitive assessment: a variation on Tatsuoka’s rule space approach [J]. Journal of EducationalMeasurement, 2004,41(3):205~237.
[5]TatsuokaKK.Architecture of knowledge structure and cognitive diagnosis: a statistical pattern recognition and classification approach [M].P. D. Nichols,S. F. Chipman & R. L. Brennan. Cognitively Diagnostic Assessment. Hillsdale,NJ: Erlbaum,1995. 327~361.
[6]Ding S L,Luo F,Cai Y,Lin H J,Wang X B. Complement to Tatsuoka’s Q matrix theory [M].K. Shingemasu,A. Okada,T. Imaizumi,T. Hoshino . New trends in psychometrics. Tokyo: UniversalAcademy,2008. 417~423.
[7]丁树良,祝玉芳,林海菁等.Tatsuoka Q矩阵理论的修正[J].心理学报,2009,41(2):175~181.
[8]杨淑群,蔡声镇,丁树良等.求解简化Q矩阵的扩张算法[J].兰州大学学报(自然科学版),2008,44(3):87~91.
[9]丁树良,汪文义,罗芬.认知诊断中Q矩阵和Q矩阵理论[J].江西师范大学学报(自然科学版),2012,36 (5):441~445.
[10]丁树良,杨淑群,汪文义.可达矩阵在认知诊断测验编制中的重要作用[J].江西师范大学学报(自然科学版),2010,34(5):490~494.
[11]丁树良,罗芬,汪文义.认知诊断分类中心的确定[J].心理学探新,2013,33(5):396~401
[13]陈青,丁树良,朱隆尹等.3参数等级反应模型及其参数估计[J].江西师范大学学报(自然科学版),2010,34(2):117~122.
[15]喻晓锋,丁树良,秦春影等.贝叶斯网在认知诊断属性层级结构确定中的应用[J].心理学报,2011,43 (3):338~346.
责任编辑/王彩霞
G40-058.1
A
1674-1536(2014)12-0009-05
祝玉芳/上饶师范学院小学教育师范分院教师,硕士,研究方向为认知诊断。(上饶 334000)
王黎华/上饶师范学院小学教育师范分院教师,硕士,研究方向为教育心理学。