APP下载

聚类诊断分析法诊断正确率的影响因素

2015-07-05康春花任平

中国考试 2015年2期
关键词:样本容量个数层级

康春花 任平

1 引言

在心理与教育测量学中,通常把对个体认知过程、加工技能或知识结构的测评称为认知诊断评估(Cognitive Diagnosis Assessment,CDA)[1]。CDA以认知诊断测验为载体,采用适宜的测量模型对学生在项目作答中的知识结构和认知过程进行诊断分析,可针对每个学生的知识状态,制订教学和补偿计划,真正体现了测量的诊断性和发展性功能。在CDA中,对学生知识状态的准确判断是其首要目的,然而,能否实现准确判断,其依赖因素很多,其中两点至关重要,即有效的认知模型和合宜的诊断模型[2]。目前关于诊断模型的研究多为参数模型[3~11],参数模型有其优势的同时也存在一定的局限性,如参数估计算法较难、耗时较长、假设条件较强、所需样本容量较大,从而使其实践价值严重受限,对于小型测验或课堂评估无能为力。相比而言,非参数方法受限较少、假设条件较弱、计算简便、对样本容量无依赖等特点[12],使其近年来备受青睐,研究者开始探索非参数方法在诊断分类中的应用。如Henson等人提出了总分模型[13]。该模型采用属性总分(Sum-Scores)和属性总分截断值(cutoffs)来区分被试对各属性的掌握情况,当被试在各属性上的总分大于该属性的总分截断值时,则判其掌握了该属性。总分模型较参数模型易于理解,但各属性总分截断值的获取过程较为复杂。2009年和2013年,Chiu等人提出通过K-均值法(K-means)、系统聚类(Hierarchical Agglomerative Cluster)及惩罚的汉明距离(Penalized Hamming Distance)对属性总分进行聚类,从而实现对被试知识状态的诊断分类[14][15],其结果可与参数模型相媲美。

非参数方法易于理解和操作,只需Q矩阵、无须估计参数,理论上对样本容量无依赖,应该能拓宽CDA的实践应用范围。然而,目前国内外对非参数诊断方法的研究还很少,一是仅限于0~1计分层面,二是未对非参数方法判准率的影响因素加以研究。而已有关于参数模型的研究表明:属性层级结构、样本容量、题目容量、失误率、属性个数等都会对判准率产生影响[16][17]。因此,厘清非参数诊断法判准率的影响因素,对于发现非参数方法的优势及应用前景非常重要。本文拟基于属性合分的聚类分析思想,探讨属性个数、样本容量、及属性层级结构对非参数诊断法判准率的影响,为CDA走向小型测评及课堂评估提供依据。

2 聚类诊断分析法简介

聚类诊断分析法是由Chiu等人于2009年在属性合分的思想上提出的[18],在其过程中,被试的属性合分向量和初始聚类中心是其核心概念。

属性总分向量可用来表示被试对属性的反应模式。根据被试的作答结果,可得到每个被试i的属 性 总 分 向 量 Wi。 Wi=(Wi1,Wi2,…,Wik),其 中为被试i在题目j上的作答反应,Yij=1表示被试i答对第j题;Yij=0表示被试i答错第j题。qjk表示题目j是否测量了属性k,若题目j测量了属性k,则qjk=1,反之qjk=0。Wik为被试i在属性k上的总分,是被试正确作答测量属性k的题目数的累加。以3个属性为例,对属性总分向量的计算进行简单说明。假设3个属性之间相互独立,测验Q阵如表1所示。若被试i在测验的7道题目上的作答反应向量为(1,0,1,0,1,1,0),则根据属性总分的计算公式,被试i的属性总分为Wi=(2,1,3)(见表1)。

得到刻画被试在各属性掌握情况的总分向量,就可通过聚类分析,将具有相同或类似属性掌握模式的被试聚为一类。在对被试知识状态进行聚类分析的过程中,其聚类算法与传统聚类分析法相同,所不同的是,诊断分析法中需要指定初始聚类中心。接下来以常用的K-means算法为例,阐明聚类诊断分析法的思路。

表1 含3个属性的测验Q阵

CDA的目的是根据被试的观察反应模式(Observed Response Patterns,ORP),将其判归到相应的理想掌握模式(Ideal Master Pattern,IMP)中。因此,采用聚类分析对被试进行分类时,可根据测验所考察的属性层级关系,得到所有符合逻辑的IMP,则可将IMP对应的各属性的总分向量作为聚类中心初始值[19]。为此,基于K-means算法的步骤为:

(1)根据属性层级关系,得到k个IMP,计算k个IMP对应的各属性的总分向量,作为K-means聚类初始中心;

(2)根据Q矩阵和被试的ORP计算出被试在各属性的总分向量;

(3)以IMP对应的总分向量为初始聚类中心,计算各被试的总分向量到各聚类中心的距离,把被试分配到最近的聚类中心;

(4)所有被试分配完成后,重新计算k个聚类中心,并与前一次的k个聚类中心比较,如果聚类中心发生变化,重新计算被试到新中心的距离,再一次将被试分配到距离最近的中心,重复该过程直到聚类中心不再变化,每个被试不再重新分配为止;

(5)输出聚类结果。

3 模拟研究

3.1 研究目的

在控制作答失误率和题目数量的情况下,基于聚类诊断分析法,探讨属性个数、样本容量、属性层级关系对判准率的影响。

3.2 研究设计

在控制被试知识状态为均匀分布、题目数为25题左右(24~32题)、作答失误率为10%的情况下,研究包含3种属性个数(3个、5个、7个)、3种样本容量(100人、500人、1000人)、4种属性层级结构(线型、收敛型、发散型及无结构型)的3×3×4交叉设计,共36个试验,每个试验重复10次以减少误差。

3.3 研究过程

3.3.1 属性层级结构

含3个、5个、7个属性的属性层级结构如图1、图2、图3所示。在3个属性的属性层级结构中,由于属性个数少,本文以独立型取代无结构型。

图1 3属性层级结构图

图2 5属性层级结构图

图3 7属性层级结构图

3.3.2 Q矩阵的生成

通过属性层级结构得到R矩阵,再通过扩张算法得到简化Q阵[20],其中IMP为简化Q阵加上全零模式后的转置。当属性个数为3个时,图1所示的四种属性层级结构(线型、收敛型、发散型、无结构型)下,简化Q阵中分别有3道、4道、4道、7道题目,如表2所示。为控制题目数量,将以上四种结构的题目扩充8倍、6倍、6倍、4倍至24道、24道、24道、28道。当属性个数为5个时,图2所示的四种属性层级结构(线型、收敛型、发散型、无结构型)下,简化Q阵中分别有5道、6道、10道、16道题目,如表3所示。为控制题目数量,将以上四种结构的题目扩充5倍、4倍、3倍、2倍至25道、24道、30道、32道。当属性个数为7个时,图3所示的三种属性层级结构(线型、收敛型、发散型)下,简化Q阵中分别有7道、8道、25道题目,如表4所示。为控制题目数量,将以上四种结构的题目扩充4倍、3倍、1倍至28道、24道、25道。无结构型的简化Q阵包含64道题目,罗欢等人认为无结构型选64题太多,可剔除含属性较多题目[21]。因此,本文无结构型选22题,只包含测量1个到3个属性的题目,测验Q阵如表5所示。

3.3.3 观察反应模式的模拟

根据属性层级结构可得到对应的IMP,将n(100、500或1000)个被试随机分配到所有的IMP中。根据各试验条件下的Q矩阵,在没有任何猜测及失误的情况下,得到不同知识状态对应的理想反应模式(Ideal Response Pattern,IRP)。然后采用Leighton等的模拟方法[22],在理想作答的基础上,模拟作答失误概率为10%情况下的被试作答反应矩阵。具体过程为:假设每个被试在每道题目上的作答失误率为10%,先产生一个服从0~1的均匀分布的随机数r,当r>0.95或r<0.05时,若被试作答为1,则变为0;若被试作答为0,则变为1。

表2 3属性在4种属性层级结构下的简化Q阵

表3 5属性在4种属性层级结构下的简化Q阵

表4 7属性在3种属性层级结构下的简化Q阵

表5 7属性在无结构型下的测验Q阵

3.3.4 评价指标

采用模式判准率(Pattern Match Ratio,PMR)和边际判准率(Marginal Match Ratio,MMR)作为诊断正确率的评价指标[23]。PMR为属性掌握模式全部判对的被试占总人数的比例,其中N为被试人数,ni表示被试i的属性掌握模式是否判断正确,即诊断后的被试属性掌握模式与其理想掌握模式是否相同。ni=0表示不同,ni=1表示相同。MMR为单个属性的判准率,其中N为被试人数,K为属性个数,nk为第k属性上的判对人数。

3.4 研究结果

表6为聚类诊断法在不同属性个数、不同样本容量、不同属性层级关系下的模式判准率(PMR)和边际判准率(MMR),每种试验条件下的判准率都是10次重复实验的均值。根据表5可依次得到属性个数为3个、5个、7个时,样本容量和属性层级关系作用下的PMR和MMR均值图,如图4和图5所示。

3.4.1 属性个数对判准率的影响

从表5、图4、图5可以看出,随着属性个数的增加,诊断正确率(PMR、MMR)均值呈下降趋势,PMR均值较MMR均值下降幅度稍大。当属性个数为3个时,PMR均值介于0.906到0.983;当属性个数增加大到7个时,发散型结构下的PMR均值最低,为0.464。属性个数为3个时,MMR均值最低也大于0.96,除属性个数为7个、属性层级结构为发散型下的MMR低于0.9外,其他实验条件下的MMR均值都高于0.9。由此可见,跟参数诊断模型的研究结果类似[24](7个属性时PMR均值为0.66),聚类诊断法的判准率也会受属性个数的影响,但除7个属性在发散型结构下PMR低于0.50,其他条件下均在0.60以上,且多数在0.70~0.86,较参数模型稳健性稍好。

3.4.2 层级关系对判准率的影响

随着属性个数的不同,不同属性层级结构下的诊断正确率的变化也不同。属性个数为3个和5个时,PMR和MMR从高到低依次为:线型、收敛型、发散型、无结构型;属性个数为7个时,PMR和MMR从高到低依次为:线型、收敛型、无结构型、发散型。可见,无论属性个数多少,线型和收敛型的判准率均表现最好且较为稳定,而发散型和无结构型却稳定性较差。当属性个数为3个和5个时,发散型均优于无结构型,当属性个数增加到7个时,无结构型却优于发散型。因此,总体而言,与参数模型结果类似[25],属性层级关系的紧密度会影响判准率。然而,所不同的是,参数模型认为:层级关系越紧密判准率越高,而本研究结果表明,当属性个数较多时,无结构型却优于发散型。

3.4.3 样本容量对判准率的影响

相对属性个数和层级结构对判准率的影响而言,样本容量对判准率的影响较小。从图4和图5可以看出,样本容量的增大并没有导致PMR和MMR的多大变化。具体而言,当属性个数为3时,不同样本容量下的判准率几乎无异;当属性个数为5个和7个时,只是在收敛型下100人稍差,不过其增幅也仅0.071,而500人和1000人并无差异,反而属性个数为5个时,在线型结构下,样本容量增加到1000人时,会导致PMR均值的降低。可见,与至少需要上千人的样本容量才表现出较高判准率的参数模型相比,非参数诊断方法具有不依赖样本容量的优势。当属性个数较少时,100人的样本容量就能达到较高的判准率,随着属性个数的增加,一般而言,500人的样本容量就已经是较佳样本了。

4 结论

本研究基于属性合分和K-means思想,介绍了聚类诊断分析法在CDA中的应用,重点探讨了属性个数、样本容量、及属性层级结构对该方法判准率的影响。所得结果表明:①属性个数的增加会导致判准率的下降,但其稳健性较参数模型要好;②属性层级结构对判准率会产生一定影响,一般而言,从高到低依次为:线型、收敛型、发散型、无结构型,但属性个数为7个时,无结构型显著优于发散型;③判准率对样本容量无依赖,一般情况下,500人已是较佳样本,但当属性个数较少时,100人的样本容量也已足够。由此,可以认为,作为一种非参数认知诊断方法,聚类分析法具有操作简便,除了需要Q矩阵外,无须其他信息,相对较稳健且对样本容量无依赖等优势,这为CDA走向小型测验及课堂评估提供了新方法和新视角。当然,本研究仅为0~1计分情境下的结果,多级计分情境下其表现如何?知识状态分布对判准率的影响如何?是以后研究将关注的方向。

表6 各种试验条件下的PMR和MMR值

图4 属性个数为3、5、7个时,样本容量和属性层级结构作用下的PMR均值图

图5 属性个数为3、5、7个时,样本容量和属性层级结构作用下的MMR均值图

[1] Yang,X.D.,&Embretson,S.E.Construct validity and cognitive diagnostic assessment.In J.P.L.M.Gierl(Ed.),Cognitive diagnostic assessment for education:Theory and applications[M].Cambridge,UK:Cambridge university press,2007.

[2] Borsboom,D.,Mellenbergh,G.J.,&van Heerden,J.The concept of validity[J].Psychological review,2004,111(4):1061.

[3] De La Torre,J.,&Douglas,J.A.Higher-order latent trait models for cognitive diagnosis[J].Psychometrika,2004,69(3):333-353.

[4] Fu,J.,&Li,Y.Cognitively diagnostic psychometric models:An integrative review[C].Paper presented at the annual meeting of the National Council on Measurement in Education,Chicago,IL.2007.

[5] 张淑梅,包钰,保佳,李姗姗.项目之间具有相关性的认知诊断模型[J].北京师范大学学报(自然科学版),2014(4):31-336.

[6] 毛秀珍.基于属性掌握概率的认知诊断模型[J].四川师范大学学报(自然科学版),2014(3):437-443.

[7] 张淑梅,包钰,郭文海.一种多级评分的广义认知诊断模型[J].心理学探新,2013(5):444-450.

[8] 涂冬波,蔡艳,戴海琦.基于HO-DINA模型的多级评分认知诊断模型的开发[J].心理科学,2013(4):984-988.

[9] 李娟,丁树良,罗芬.基于等级反应模型的广义距离判别法[J].江西师范大学学报(自然科学版),2012(6):636-639.

[10] 涂冬波,蔡艳,戴海琦,丁树良.HO-DINA模型的MCMC参数估计及模型性能研究[J].心理科学,2011(6):1476-1481.

[11][23][24] 涂冬波,蔡艳,戴海琦,丁树良.一种多级评分的认知诊断模型:P-DINA模型的开发[J].心理学报,2010(10):1011-1020.

[12] 胡竹菁.心理统计学[M].北京:高等教育出版社,2010.

[13] Henson,R.,Templin,J.,&Douglas,J.Using Efficient Model Based Sum-Scores for Conducting Skills Diagnoses[J].Journal of Educational Measurement,2007,44(4):361-376.

[14][18] Chiu,C.-Y.,Douglas,J.A.,&Li,X.Cluster analysis for cognitive diagnosis:Theory and applications[J].Psychometrika,2009,74(4):633-665.

[15] Chiu,C.-Y.,&Douglas,J.A nonparametric approach to cognitive diagnosis by proximity to ideal response patterns[J].Journal of Classification,2013,30(2):225-250.

[16] [25] 蔡艳,涂冬波,丁树良.五大认知诊断模型的诊断正确率比较及其影响因素:基于分布形态、属性数及样本容量的比较[J].心理学报,2013(11):1295-1304.

[17] 颜远海,丁树良,汪文义.影响AHM与DINA诊断准确率的因素研究[J].江西师范大学学报(自然科学版),2011(6):640-645.

[19] Ayers,E.,Nugent,R.,&Dean,N.Skill set profile clustering based on student capability vectors computed from online tutoring data.In R.S.J.d.Baker,T.Barnes,&J.E.Beck(Eds.),Educational data mining 2008:1st International Conference on Educational Data Mining,Proceedings,2008:210-217.

[20] 丁树良,祝玉芳,林海菁,蔡艳.Tatsuoka Q矩阵理论的修正[J].心理学报,2009(2):175-181.

[21] 罗欢,丁树良,汪文义,喻晓锋,曹慧媛.属性不等权重的多级评分属性层级方法[J].心理学报,2010(4):528-538.

[22] Leighton,J.P.,Gierl,M.J.,&Hunka,S.M.The Attribute Hierarchy Method for Cognitive Assessment:A Variation on Tatsuoka's Rule-Space Approach[J].Journal of Educational Measurement,2004,41(3):205-237.

猜你喜欢

样本容量个数层级
科室层级护理质量控制网的实施与探讨
怎样数出小正方体的个数
军工企业不同层级知识管理研究实践
基于军事力量层级划分的军力对比评估
采用无核密度仪检测压实度的样本容量确定方法
等腰三角形个数探索
怎样数出小木块的个数
职务职级并行后,科员可以努力到哪个层级
怎样数出小正方体的个数
蒙特卡罗模拟在计量经济学中的应用