APP下载

认知诊断测验的属性分类一致性和分类准确性指标*

2016-07-13汪文义宋丽红丁树良

心理学探新 2016年3期
关键词:属性信度

汪文义,宋丽红,陈 平,丁树良,程 艳

(1.江西师范大学计算机信息工程学院,南昌 330022;2.江西师范大学初等教育学院,南昌 330022;3.北京师范大学中国基础教育质量监测协同创新中心,北京 100875)



认知诊断测验的属性分类一致性和分类准确性指标*

汪文义1,宋丽红2,陈平3,丁树良1,程艳1

(1.江西师范大学计算机信息工程学院,南昌 330022;2.江西师范大学初等教育学院,南昌 330022;3.北京师范大学中国基础教育质量监测协同创新中心,北京 100875)

摘要:分类一致性和分类准确性是衡量考试信效度的两个重要评价指标。基于项目反应理论下分类一致性和分类准确性指标,提出认知诊断测验的属性(模式)分类一致性和分类准确性指标,讨论分类一致性指标、分类准确性指标与属性估计误差之间的关系,并由属性掌握概率的估计标准误推导出属性分类准确性的上限。结果显示:属性(模式)分类一致性可准确估计重测一致性;分类准确性指标计算简单,可准确估计认知诊断测验的判准率。

关键词:分类一致性;分类准确性;属性经验信度;属性α信度;确定性输入噪声与门模型

1引言

在认知诊断评估领域中,诊断测验的信效度是一个较新的研究领域。认知诊断主要是在离散潜在空间对被试分类,连续潜在空间下信度评估方法不能直接应用于诊断测验(Henson,2005;Roussos et al.,2007)。因此,诊断分数信度常常没有报告,属性分类结果的可信度就无从得知(Templin & Bradshaw,2013)。

总之,已有诊断测验的信度和效度评价方法,主要基于模拟的方法、α系数、相关系数或仅给出模式分类指标等。笔者基于Rudner方法或Guo方法的思想(Guo,2006;Rudner,2001,2005;Wyse & Hao,2012),构建单个测验的分类一致性和分类准确性指标。该研究与以前研究的区别在于:(1)无需模拟平行测验,也不是基于α系数,众所周知,α系数仅在平行测验、τ等价测验或基本τ等价测验条件下适用;(2)给出计算简单的属性(模式)分类一致性和分类准确性指标;(3)研究分类一致性和信度系数之间的关系;(4)研究分类准确性与模拟的判准率之间的关系。

2分类一致性和分类准确性指标

2.1确定性输入噪音与门模型及知识状态估计

以最近研究较多的非补偿的认知诊断模型确定性输入噪音与门模型(DINA)为例,讨论新指标的构建,该模型的项目反应函数(de la Torre,2009):

被试在M个项目上的得分向量为Xi=(xi1,xi2,…,xiM),给定αi,在局部独立性假设下,其似然函数为:

如通过EM算法估计项目参数后(de la Torre,2009),则可采用极大似然法(MLE)、最大后验估计法(MAPE)或属性的边际后验概率估计法(MPPE)估计知识状态。MAPE估计如下:

然后,可通过确定各属性的划界分数,得出被试i在各个属性上掌握或未掌握状态。划界分数需要进行设定,不同设定方法对分类信度的影响值得研究(Rupp,Templin,& Henson,2010)。此处划界分数的设定不在研究范围之内,仅将各属性的划界分数均设为0.5。

2.2属性(模式)分类准确性指标

用于估计单个测验分类准确性的Rudner方法计算简单(陈平,李珍,辛涛,高慧健,2011;韩宁,2008)且有诸多应用(Lathrop & Cheng,2013)。分类准确性即所有类别上的被试观察分类与期望分类一致的比率(Rudner,2001,2005)。Guo方法(Guo,2006)弱化了Rudner方法的假设,计算仅依赖于似然函数(与采用均匀先验的后验分布对应),计算相对简单,被视为是Rudner方法的改进方法。

2.3属性(模式)分类一致性指标

分类一致性反映两份平行测验或独立重测下被试的分类一致性。据Wyse和 Hao(2012)分类一致性的计算或类似于Templin和Bradshaw(2013)构建的列联表,可得属性k的分类一致性指标为:

类似地,可得模式分类一致性指标为:

2.4属性分类一致性指标、分类准确性指标与属性概率的标准误的关系

由定义知,属性分类一致性大于分类准确性(Wyse & Hao,2012)。Templin和Henson(2009)源于IRT中经验信度指标(可参见BILOG-MG手册),提出了属性经验信度指标如下:

3模拟研究

3.1研究目的

通过模拟研究,评价分类一致性、属性信度和模拟重测一致性的关系;评价分类准确性与模拟判准率的关系;考察两指标的影响因素。

3.2研究设计

考虑6个相互独立属性,模拟10000被试,项目数固定为300,猜测与失误参数分别服从U(0.05,0.25)和U(0.05,0.40),项目以0.2的概率考察属性,得到两个不同Q阵的题库。采用随机组卷(RD)和无约束的CDI组卷(Henson,2005),各得到一个含30个项目的测验Q阵及项目参数,重复模拟30个得分阵。

3.3评价指标

3.4研究结果

表1 属性或模式的判准率和分类准确性均值

表1从上至下4种条件下,MAP估计的模式分类一致性 分别为:0.59,0.87,0.37,0.65,而重测一致性分别为:0.53,0.83,0.32,0.71。重测一致性根据Roussos等(2007)的方法,采用模拟方法计算得到。图1至图4给出了各模拟条件下属性的信度指标的均值,结果显示:经验信度和分类一致性比α信度,更为接近重测一致性,尤其是在CDI组卷条件下。因CDI组卷基本上选择考察单个属性的项目,考察相同属性的项目基本满足基本τ等价条件,而随机组卷有的项目考察多个属性,易违背单维性条件。

图1 U(0.05,0.25)、RD条件下各信度系数比较

图2 U(0.05,0.25)、CDI条件下各信度系数比较

图3 U(0.05,0.40)、RD条件下各信度系数比较

图4  U(0.05,0.40)、CDI条件下各信度系数比较

4实证数据分析

5结论和讨论

属性(模式)分类准确性指标可较好估计模拟的属性(模式)判准率;由属性概率标准误可得出分类准确性的上限;属性α信度系数表现不如分类一致性和经验信度系数;构建的分类一致性和分类准确性指标比Cui等(2012)提出的指标计算要简便。

新构建的诊断测验分类一致性和分类准确性指标,可较好反映属性报告分数的分类信、效度,对测验信、效度评估具有重要应用价值。分类准确性可较好估计判准率,意义在于:(1)通常判准率在真实测验中得不到,可使用分类准确性指标评价真实测验的判准率;(2)可为变长计算机化自适应诊断测验下特定的终止规则提供解释,如仅以最大后验概率0.8的标准终止测验,基本上可以认为所有被试的判准率接近0.8(汪文义,丁树良,宋丽红,2014)。测验信效度在测验编制、组卷和自适应诊断测验中的应用,有待研究。

该研究仅基于DINA模型定义和讨论新指标,但新指标可应用于其它有显式表达式的认知诊断模型,即可通过显示函数给出知识状态和项目参数下项目反应答对概率的数学表达式,如融合模型和确定性输入噪声或门模型等。是否可稍加改变以适合属性层级模型,值得研究。Q矩阵作为效度证据的重要来源之一,直接决定诊断反馈结果的准确性和有效性。该研究在分类准确性估计中尚未考虑Q矩阵本身质量好坏的影响,这些指标是否对Q矩阵误指(宋丽红,汪文义,丁树良,2015;汪文义,宋丽红,丁树良,2015)敏感,以及可否作为评价Q矩阵质量的一项指标,值得思考。其他因素,如样本量大小、属性层级结构、测验长度对其影响如何也有待关注。

值得注意的是,IRT经验信度是建立在潜变量方差和误差方差相互独立假设之上的。在认知诊断模型中,潜变量为分类变量,潜变量方差和误差方差不相互独立(Templin & Bradshaw,2013),因此使用Templin和Henson(2009)提出的属性经验信度应慎重。

参考文献

陈平,李珍,辛涛,高慧健.(2011).标准参照测验决策一致性指标研究的总结与展望.心理发展与教育,2,210-215.

丁树良,毛萌萌,汪文义,罗芬,Cui,Y.(2012).教育认知诊断测验与认知模型一致性的评估.心理学报,44,1535-1546.

关守义.(2009).克龙巴赫α系数研究述评.心理科学,32,685-687.

韩宁.(2008).评价考试质量的新指标:决策一致性和决策准确性.中国考试,6,3-6.

孟庆茂,刘红云.(2002).α系数在使用中存在的问题.心理学探新,22(3),42-47.

宋丽红,汪文义,丁树良.(2015).测验Q矩阵的修正方法及其比较研究.江西师范大学学报(自然科学版),39,623-630.

汪文义,丁树良,宋丽红.(2014).兼顾测验效率和题库使用率的CD-CAT选题策略.心理科学,37,212-216.

汪文义,宋丽红,丁树良.(2015).基于探索性因素分析的Q矩阵标定方法.江西师范大学学报(自然科学版),39,138-144,170.

Cui,Y.,Gierl,M.J.,& Chang,H.-H.(2012).Estimating classification consistency and accuracy for cognitive diagnostic assessment.JournalofEducationalMeasurement,49,19-38.

de la Torre,J.(2009).DINA model and parameter estimation:A didactic.JournalofEducationalandBehavioralStatistics,34,115-130.

Gierl,M.J.,Cui,Y.,& Zhou,J.(2009).Reliability and attribute-based scoring in cognitive diagnostic assessment.JournalofEducationalMeasurement,46,293-313.

Guo,F.(2006).Expected classification accuracy using the latent distribution.PracticalAssessment,Research&Evaluation,11,1-6.

Henson,R.(2005).Test construction for cognitive diagnosis.AppliedPsychologicalMeasurement,29,262-277.

Lathrop,Q.N.,& Cheng,Y.(2013).Two approaches to estimation of classification accuracy rate under item response theory.AppliedPsychologicalMeasurement,37,226-241.

Lee,W.C.,Brennan,R.L.,& Wan,L.(2009).Classificationconsistency and accuracy for complex assessments under the compound multinomial model.AppliedPsychologicalMeasurement,33,374-390.

Liu,H.Y.,You,X.F.,Wang,W.Y.,Ding,S.L.,& Chang,H.H.(2013).The development of computerized adaptive testing with cognitive diagnosis for an english achievement test in China.JournalofClassification,30,152-172.

Roussos,L.A.,DiBello,L.V.,Stout,W.,Hartz,S.M.,Henson,R.A.,& Templin,J.L.(2007).The fusion model skills diagnosis system.In J.P.Leighton & M.J.Gierl(Eds.),Cognitivediagnosticassessmentforeducation:Theoryandapplications(pp.275-318).New York:Cambridge University Press.

Rudner,L.M.(2001).Computing the expected proportions of misclassified examinees.PracticalAssessment,Research&Evaluation,7,1-8.

Rudner,L.M.(2005).Expected classification accuracy.PracticalAssessmentResearch&Evaluation,10,1-4.

Rupp,A.A.,Templin,J.L.,& Henson,R.A.(2010).Diagnosticmeasurement:Theory,methods,andapplications.New York:The Guilford Press.

Sijtsma,K.(2009).On the use,the misuse,and the very limited usefulness of Cronbach’s alpha.Psychometrika,74,107-120.

Templin,J.,& Bradshaw,L.(2013).Measuring the reliability of diagnostic classification model examinee estimates.JournalofClassification,30,251-275.

Templin,J.,& Henson,R.(April,2009).Quantifyingreliabilityindiagnosticclassificationmodels.Paper presented at the annual meeting of the National Council on Measurement in Education,San Diego,CA.

Wyse,A.E.,& Hao,S.(2012).Anevaluation of item response theory classification accuracy and consistency indices.AppliedPsychologicalMeasurement,36,602-624.

An Evaluation of Attribute-level Classification Consistency and Accuracy Indices in Cognitive Diagnostic Assessment

Wang Wenyi1,Song Lihong2,Chen Ping3,Ding Shuliang1,Cheng Yan1

(1.College of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022;2.Elementary Educational College,Jiangxi Normal University,Nanchang 330022;3.Collaborative Innovation Center of Assessment toward Basic Education Quality,Beijing Normal University,Beijing 100875)

Abstract:Classification consistency and accuracy indices can be used as important indicators of the reliability and validity of classification results.Cognitive diagnostic assessment focuses on make attribute classification-based decisions while reliability of classification is often not reported in diagnostic score reporting.Classification consistency and accuracy indices(Cui,et al.,2012)were used to evaluate the consistency and accuracy of classification results at the whole-pattern level,but it needs to develop attribute-level classification consistency and accuracy indices for CDA(Cui,et al.,2012).The study investigated attribute-level and pattern-level classification consistency and accuracy indices based on the Rudner method or the Guo method(Guo,2006)in item response theory.Procedures were developed for the computation of classification consistency and accuracy indices specifically designed for cognitive diagnostic assessments.We also used simulated data from the deterministic input noisy “and” gate model to evaluate their performances.According to the simulation results,the classification accuracy indices performed well with simulated diagnostic tests in that their values matched closely with the simulated correct classification rates across different simulation conditions.In addition,classification consistency indices matched with the results of the test-retest consistency indices.

Key words:classification consistency index;classification accuracy index;empirical reliability of attribute;Cronbach’s α reliability of attribute;the deterministic input noisy “and” gate model

*基金项目:全国教育科学规划教育部重点课题(DHA150285),国家自然科学基金(31500909,30860084,31160203,31360237,31300862,61262080),教育部人文社会科学研究青年基金项目(13YJC880060),江西省社会科学研究“十二五”(2012年)规划项目(12JY07),江西省教育科学2013年度一般课题(13YB032),江西省教育厅科技计划项目(GJJ13207),东北师范大学应用统计教育部重点实验室开放课题(KLAS130028614),国家社会科学基金(12BYY055),国家教育科学规划项目(CCA110109),江西师范大学青年成长基金和博士启动基金。

通讯作者:宋丽红,E-mail:viviansong1981@163.com。

中图分类号:B841.2

文献标识码:A

文章编号:1003-5184(2016)03-0264-06

猜你喜欢

属性信度
新世纪20年国内测验信度研究*
《广东地区儿童中医体质辨识量表》的信度和效度研究
作为数学教育研究质量分析的信度
平衡损失函数下具有时间效应和通胀因子的信度估计
互联网时代的生成性教学属性分析与实践研究
对两种实体观的探析
用好文件“属性” 解决实际问题
Winsock控件的属性及应用方法
耳鸣残疾问卷中文版的信度和效度检验及其临床应用
中文版脑性瘫痪儿童生活质量问卷的信度