认知诊断评价理论视角下的教育测量理论述评——兼论认知诊断对基础教育评价的展望<br/>

认知诊断评价理论视角下的教育测量理论述评——兼论认知诊断对基础教育评价的展望

2012-11-08黄小平胡中锋

中国考试 2012年12期

黄小平胡中锋

1 现代教育测量理论的发展概述

教育与心理测量是按照一定的规则给研究对象在一定性质的量度系统（scaling）上赋值的过程，其目的在于通过对可观察到的行为对预测量对象的属性进行客观描述进而达到对预测量对象的正确认识[1]。从1911年比纳和西蒙建立了第一个心理测验以来，测验理论和测量的技术有了很大的发展。发展至今，已经形成三大主流理论体系，分别是：经典测验理论（Classical Test Theory，CTT）、概化理论（Genalizability Theory，GT）和项目反应理论（Item Response Theory，IRT），测验理论得到了不断的完善。

第一大理论体系是经典测验理论（CTT），其核心概念是真分数理论，即一个可观察分数（X）等于真分数（T）与误差分数（E）之和，认为真分数就是用相同的两份平行测验向同一批被试施测无数次后所得到的观察分数分布的期望，即平均分，并假设真分数与误差、误差与误差之间无相关。在真分数的基础上，CTT提出了信度的概念，它认为一份测验所测值可不可靠，可以通过信度来进行评价，信度实质上是对多次反复测量随机误差大小的反映。随机误差小，所测值就越可靠；反之，测值就越不可靠。在CTT中，信度是评价一份测验质量好坏的重要指标。

CTT使用的难度概念与比纳利用实测资料进行试题难度分析的思想可以说是同出一辙，即都可视为所抽取具有代表性的行为样本正确回答某个项目的人数占所有被试总人数的比率，或者称之为得分率、答对率，用P表示。很显然，CTT理论中的难度概念建立的基础应当归属于随机抽样理论范畴，因为P值会受到所抽取的不同能力大小样本的影响。这样，对考生能力和试题这两个本不是同一维度的评价也就自然而然的被放在了同一尺度或者量纲上来进行考量。因此，经典测验理论的很大缺陷就是试题难度依赖于所测对象样本的能力。类似地，对考生的能力评价也依赖于所测试的试题样本的难易程度。

第二大理论体系是概化理论（GT），是在对真分数测验理论的信度研究的基础上发展起来的，是对经典真分数理论特别是信度理论的进一步拓展，提出了测验情境关系（the context of measurement of situation）概念，改变了真分数固定不变，测量误差只是个含混不清的随机误差，求测验信度就是计算相关系数的传统做法，应用方差分析的方法对测量资料的变异性即测量误差来源做出具体分解，找出全面考量各种类型的测量情境关系和考察不同情境关系下各种测量条件的影响，从而能有针对性地控制和提高测量的精度，但其在进行方差的划分与计算类信度系数时，仍然遵循的是抽样的思想，这与CTT有其相当的一致性。

第三大理论体系是项目反应理论（IRT），亦称作为潜在特质理论（Latent Trait Theory），从20世纪60年代提出以来得到了很大的发展（Birnbaum，1968;Rasch，1960），随着计算机技术的发展为IRT中复杂的参数估计方法的实现提供了可能，这种理论认为：被试在某个项目上能否正确作答某个试题的概率是由其能力和试题的性质共同决定的，通过建立数学模型来刻画被试能力与试题属性之间的关系，被试能力与试题难度的差值越大，被试在该题上作答的概率越大；反之，能力与试题难度的差值越小，被试在该题目上作答的概率就小，其常用到的三参数Logistic模型表达式如下：

上式中x是被试在该题上的得分，θ是被试能力，a，b，c是试题的参数，分别代表了试题的难度、区分度和猜测度参数。

项目反应理论主要有以下几个优点：（1）考生能力和试题的难度被定义在同一个量度系统上，克服了CTT中试题难度与考生能力不可比较的缺陷；（2）提出了试题信息量与测验信息函数的概念，可以对测验的测量精度即误差进行事先控制，对于测验组卷有指导作用。进入到20世纪90年代以来，IRT模型得到了很大发展，由简单的二级记分（0，1）模型发展到多级记分模型，由单维模型发展到了多维模型（Van der Linden，1997）。IRT本身亦在不断完善当中，但是IRT也有其本身的一个局限，即现代的测量理论仍然采用的是行为主义的S-R模式，通过被试对刺激所作的反应模式来推断被试的内部心理过程，但是，这种通过θ值来推断被试的内部心理过程其实并未被真正揭示出来，被试的内部心理过程仍然是一个黑箱，并因此被指责为是将“20世纪的统计学应用于19世纪的心理学”（Mislevy，1993）。这种仅把所测的内部心理属性看成是纯统计结构，忽视了对被试作答过程的考察分析，计量时只注重作答反应结果，只注重计量而忽视心理品质或结构的实质内容显然已经不能满足当前社会发展的需要，特别是近年来认知心理学的发展为各种数学模型的开发提出了更为广阔的应用前景，将认知心理学的理论与教育与心理测量模型结合，真正使得教育与心理测量为具体的认知学科服务，对教育测量和评价理论产生了极其重要而广泛的影响。

2 认知心理学对教育测量的主要贡献

自从1989年《教育测量》第三版发表Richard Snow和David Lohman《认知心理学在教育测量中的应用》一文以来，认知心理学开始渗透到心理计量学领域，Snow和Lohman（1989）认为建立在认知心理学基础的认知评价分析至少可以在以下四个方面对教育与心理测量学做出贡献：

第一，认知心理学的理论和发展提供了教育测验分数理解的新方法。正如Snow和Lohman（1989）所提出的，在教育与心理测量模型（EPM）中提到的θ，并没有考虑到知识技能的如何获得，教育与心理测量的分数不仅反映了不同操作技能、所用策略和知识元素，还包括了程序性知识和陈述性知识以及可控制的和自动化的各种能力要素的不同组合，这些能力要素有些是变量，有些是恒定不变的，且在不同人群和不同的任务实践中起不同的作用，而认知心理学的重要贡献之一就是对这些复杂的操作过程进行分析。

第二，教育测验的认知分析有助于我们理解测验所表征的结构，并能为测验的结构效度提供新的证据。测验结构效度一直是测量学家所关注的问题，通过对所测测验的认知分析可以了解整个测验的问题表征、知识内容，知识起始状态及考生作答所选用的策略（Van Lehn，1989），因此，认知分析研究可以为教育测验的结构效度提供新的证据。

第三，教育测验在不同内容领域内的结构分析可以开发出不同认知内容下所需要的测量方法及改善现有测量方法。当前心理和教育测量领域发展的一个重要方向就是认知诊断评价（Cognitive Diagnosis Assessment，CDA），即要根据对被试在测验上的作答反应给出能描述出考生详细认知过程及其详细的知识结构。

第四，对考生的内部心理过程的认知分析可以对诸如学科能力倾向、学习理论、指导和教育成就的理论提出的原有假设进行有效评价并对其进行延伸和扩展。

总之，认知心理学有助于促进教育与心理测量理论的发展，认知分析使得研究者可以对测验内部结构的特征进行试验，评价已有教育与心理测量学模型的假设，创造出新的测量学模型并对测验结构进行构建，对被试得分及其测验结果进行解释。

因此，在我国当前关于基础教育质量监测与评估的测评方法上，将认知心理学的研究发展成果有效地和现代教育与心理测量理论的相结合并对考生的能力结构进行全方位的测量和评价，是教育与心理测量和评价的重要发展趋势之一，这对于真正提升教育考试的质量是有实际意义的。

3 认知诊断评价与测量的结合

3.1 认知诊断的心理学基础

认知心理学应用于教育与心理测验，为教育与心理测量学理论的发展注入了新鲜的血液，也为建构不同领域内的心理计量学模型提供了崭新的视角。为了从被试的作答反应中获得关于考生更为深层次的信息，许多研究者都做了一些尝试，他们认为其中的一条出路就是“将认知与测量相结合”，这个新的领域被称为是“新一代的测量理论”（Embreton，1985;Fishcher，1973;Mislevy，1995;Tatsuoka，1984，1990等）。

刘声涛、戴海崎等在《认知诊断两大基础研究及其发展述评》中就曾指出了认知诊断的两大基础研究：一大基础是依赖于心理学的基础研究；另一大基础是测量学基础。他们认为认知诊断涉及的领域研究包括知识领域和实践知识领域、能力及智力领域。他们指出：“认知诊断现在主要应用于两个领域中，一是知识领域；另一种是一般能力及智力领域。前者的主要目的是为教育与决策提供丰富的信息，后者主要目的是心理学理论的建构与实践。”在知识领域中，其研究主要涉及程序语言学习、数学、物理、词汇、阅读、写作等领域；在实践领域中，主要的研究涉及有机械维修、电路设计、医疗、销售、军队领导等领域；在能力及智力的研究中，其关注的视角主要是在言语能力、空间能力、推理能力等领域，认知分析涉及认知过程、认知结构模式和图式、认知策略的选用与转移等。在这些研究中，有些研究结果已经将认知分析的结果与具体的心理测量学模型相结合，用于认知诊断。如在言语能力方面，Sternberg R.J.等[2]分析了实时言语理解的信息表征和加工过程，将结果用于测验设计和分析；在空间能力方面，James W.Pellegrino等[3]对空间能力和专门技能做了任务分析，并把分析结果用于工程设计与制图的测量中；在推理能力方面，Earl C.Butterfield等[4]对生成字母系列的归纳推理项目做了认知分析，并设计了自动生成字母系列的计算机系统。

3.2 认知诊断的测量学基础

认知诊断的另一大研究基础是测量学基础，一份测验要实际应用于考试评价，真正体现考试的比较、鉴别、选拔功能，应当强调测验设计。测验设计强调以心理活动的内在加工机制为基础，使内在的认知特征外化[5]。然后，心理计量学家致力于建构能融合不同的认知变量的模型，并且运用各种现代统计方法估计模型中的参数，实现对各认知变量进行量的分析和刻画的仼务。

测验设计需要学科专家与测量学专家共同来编制。作为学科专家而言，需要界定学科内容和教育所要测量的目标，制定本学科域内的“双项细目表”，运用布卢姆的认知层次目标理论对所测题目的知识属性、内容结构及知识属性之间的相互联系要有一个明确而详细定义。同时，测量学家应当根据学科专家认知分析结果建立起恰当的认知诊断模型，这些模型应当具备以下功能：第一，模型要与考试实测资料结果相拟合，这是模型得以正确应用的基础；第二，模型在建立之前应建立相应的评分规则；第三，对认知分析得到的结果给予合理解释，建立相应的评分模型。

另一方面，教育与心理测量的一个目的已经不仅仅是从测验的内部特性来反映个体间差异以及关注于测量的精度问题并回答“测什么”、“如何测”、“在什么性质量尺上如何指定值”、“所得测值可靠”及“测验测到的是否真的是本来打算要测的东西”，而更多的在于测量之后能够提供给考生、教育评价者更多、更为直观且更易量化的评价信息，这些评价信息的重要作用和意义在于：

（1）考生不仅仅知道自身的学习掌握情况，并有针对性地对自身的掌握内容采取弥补性的措施进行“纠错”，提高自我评价的能力。

（2）对于某个任教学科的教师而言，可以为其教学提供关于考生更多的测验内部信息，真正做到“教学相长”，形成对学生的发展性评价。

（3）可以为教育决策部门尤其是教育监测与评价部门提供更为真实的评价信息，做到评价的真实性，从而为提高教育评价的效度提供帮助。

（4）从科学性评价学生的角度而言，反映的是对学生能力的过程性评价和非终结性评价。

4 认知诊断评价模型及其应用研究

目前，关于认知诊断评价模型国内应用较多的是Tatsuoka20世纪80年代提出的规则空间模型（Rule-Space Model，RSM），也是众多认知诊断模型中应用较为广泛的认知诊断模型之一。

在这些研究中，余嘉元、戴海琦、吕英、张青华等人早有著文将认知诊断模型用于实际的测验当中，并实现了对考生内部心理结构的认知分析和诊断，如余嘉元[6]（1995）曾利用规则空间模型，结合认知心理学和IRT理论、数据库代数理论知识对南京市和无锡市三所中学的644名初中二年级学生利用30个不等式题目，18个认知属性上进行诊断，来识别考生的认知错误。

戴海崎、张青华[7]（2004）在《规则空间模型在描述统计学习模式识别中的应用研究》中，应用规则空间模型判别学生的属性掌握模式（即知识结构），根据299名被试在测验项目上的作答反应将他们划归为30种不同的属性掌握模式。

最近这几年，尤其是2007年以来，认知诊断模型已经充分应用在我国的大规模考试的实测数据中，同时也应用于基础教育的学科，如数学、物理、化学、英语等的认知诊断，这类代表性的研究主要有：（1）黄小平、戴海琦[8]（2007）等人利用RSM，对2006年国家执业医师考试的454名考生诊断，最后得到八种典型反应模式，并将454名考生的实际作答模式判归为这8种典型反应模式，从而实现对考生口腔内科学知识属性掌握的识别及其分类，并针对我国执业医师考试分数报告的形式和内容提出了改进建议；（2）黎娇[9]（2008）利用RSM，研究了九年级学生在学习欧姆定律过程中所需掌握的7种认知属性和属性间的层级关系，然后编制测验，再根据233名被试在测验上的作答反应，应用RSM将他们分别判归为13种不同的属性掌握模式，根据学生所具有的属性和作答中出现的错误提出相应的补救路径和教学建议；（3）刘启亮[10]（2009）等对初中化学教学中生化学化合物的有关知识进行了诊断，将91.46%被试的实际作答模式判归为21种理想属性反应模式，从而实现了对被试属性掌握情况的诊断。

目前，对于RSM的应用研究关注的视角转向讨论模型本身及其诊断方法的比较，从模型本身探讨模型诊断率的改善和适切性等问题：如祝玉芳、丁树良[11]（2008）讨论了规则空间模型理论基础的改进，提出Tatsuoka在求取理想项目反应模式全集的错误性，并提出了几种确定理想项目反应模式全集的方法和几种新的分类方法，并用蒙特卡洛模拟比较这些分类方法与规则空间方法的优劣；曾玲艳[12]（2010）对认知诊断模型分类准确率进行了研究，从诊断技术和方法上提出了将可达阵与认知诊断信息量指标相结合的选题策略，利用Monte Carlo模拟实验结果，提高了模式判准率与平均边际判准率。孙佳楠[13]、张淑梅、辛涛（2011）等提出了一种基于Q矩阵与广义距离的认知诊断方法，他们在属性层级方法和丁树良等人（2009，2010）改进的Q矩阵理论的基础上，通过定义观察反应模式与理想反应模式之间的广义距离，给出了一种识别被试知识状态的认知诊断方法，即广义距离判别法，通过DINA模型生成被试的作答反应矩阵进行模拟研究，以模式判准率和属性判准率作为衡量被试知识状态分类准确率指标，将广义距离判别法、RSM和AHM的分类A方法分别与DINA模型进行比较，并提出了广义距离判别法具有更好的分类效果。

在开发认知诊断测验或者计算机化自适应化测验方面，最具代表性的是文剑冰（2006）在其博士论文《应用规则空间模型（RSM）讨论了在诊断性计算机化自适应测验（CAT）中的应用》，该文通过实验研究方法分别考察了测验长度、测验属性的多少和它们之间的关联，测验使用试题的复杂程度、试题的随机参数大小，以及项目反应理论模型等因素对于模型估计准确性的影响，同时，还考察了各因素之间的交互影响作用。国内还有其他方面关于认知诊断测验的编制研究。这些测验都是在小范围内或者通过模拟数据方法进行，真正用于我国大规模考试的实际数据的应用还未出现。

在国外的研究中，有许多学者将不同的认知诊断模型应用于考试实践，如K.K Tatsuoka、Samejima、Dibello&Stout、Fumiko、G.Edward Miller、Hua H.Chang等人将不同的认知诊断模型（CDM）应用于不同类型的教育测验当中，这其中包括了小范围内教师用于诊断小学四年级的四则运算测验，如Tatsuoka 及其同伴（1990，1995，1997）[14]运用该模型对具有9个认知属性的“分数加法”的掌握模型进行诊断，将593名学生中的90%归为33种掌握模式，并在此基础上建立了具有认知诊断功能的计算化的自适应测验，并同时对于未掌握的属性加以补救。G.Edward Miller，Hua H.Chang《在大规模考试评价中的补充性诊断测验》中就指出，运用Fusion模型对美国有影响的PSAT考试及高中毕业考试进行认知诊断，同时，运用模拟研究方法从题目特性和测量维度上估计了属性掌握分类的精确性。

综观国内外各种认知与测量模型相结合的研究，研究的视角主要在于：一是对测量模型的基础理论研究，主要研究模型使用的条件、各种模型之间的参数估计精度的比较，并侧重于方法本身诊断率的改善。二是侧重于具体学科的应用，应用较多的领域是数学（尤其是小学数学）、语言、建筑及其在计算机适应性测验当中。三是开发具有认知诊断功能的教育测验，并运用于考试实践中。四是认知诊断模型呈现多种类型、在吸取各自优点的基础上扬弃并互为补充，同时研究者根据某个具体的模型进行模拟研究的认知诊断。

到目前为止，各种用于测验的诊断模型有很多种，国外有研究者统计，研究者至少已开发出60种认知诊断的模型[15]并被应用于认知诊断，就已开发应用的这些模型看，可以对认知诊断模型作一个简单的归类。认知诊断的测量学模型有两个基础性的模型，一种是Fisher[16]提出的线性逻辑斯谛克特质模型（linear logistic trait model）；另一种是Tatsuoka等人提出的规则空间模型（rule space methodology）。前一个模型是潜在特质模型的扩展，目的是剖析观察分数下被试的潜在特质。后一个模型是潜在分类模型的扩展，目的是按被试在潜在特质上质的差异将被试进行分类。以线性逻辑斯谛克特质模型为基础发展出的模型有多成分潜在特质模型（multicomponent trait model）[17]、线性指数模型（linear exponential model）[18]等十余种。联合线性逻辑斯谛克特质模型和规则空间模型发展出的模型有联合（统一）模型（unified model）[19]、融合模型（fusionmodel）[20]、DINA 模（deterministic input，noisy and gate model）[21]NIDA 模型（noisy inputs，deterministic，and gatemodel）[22]等。

通观各种有关认知诊断应用于各种类型考试的研究，不同的研究者提出了很多的认知诊断测量模型，每个模型都有它的优缺点，如张华华（2007）在《在大规模考试评价中的补充性诊断测验》中认为一个成功模型的应当具备以下几个特征：（1）被试属性的估计；（2）与题目属性相关的能力估计；（3）模型参数的识别。限于篇幅，本文对这些认知诊断模型不作一一介绍。

5 评价、展望与启示

认知诊断评价理论是认知心理学和心理测量理论发展相结合的产物，尽管评价模型本身还有诸多不完善之处，但在实践应用中，仍然体现了它的优越性，已为众多发达国家所使应用，应用各类模型可以对学生的内在知识结构进行量化分析，主要意义在于：

（1）超越了过去以一个简单的学业成绩总分来评判学生能力的评价模式；

（2）它能够挖掘出学生更深层次认知结构上的信息，这些信息将为过程性评价、形成性评价、发展性评价提供重要的证据和信息；

（3）对学生的测验结果即分数报告系统将更为细致，解释起来具有操作性和针对性；

（4）有利于教师开展“因材施教”，并为教育监测和评估等教育决策部门提供有利的参考。

因此，认知诊断模型用于现阶段考试评价——基础教育监测与评价提供了有力的诊断工具，具有极大的应用价值和广阔的应用前景，笔者认为，认知诊断评价模型应用在基础教育监测和评估上作以下几点展望：

第一，编制具有实质性意义上的认知诊断测验，使认知结构与测量相结合；

第二，改革现有考试分数报告形式，给出具有诊断功能的评价分数报告；

第三，评价方式走向多元，真正实现对考生的发展性评价等多元评价，为提高我国基础教育质量提供依据；

第四，更有利于我国同国际学生评估项目的接轨，使我国评价方法和手段进一步科学化。

[1]漆书青，戴海崎，丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社.2002.

[2]Robert J.sternberg，Timothy P.Mcnamara.The representation and processing of information in real-time verbal comprehension.In Susan E.Embretson9（Eds.）.Test design:developments in psychology and psychometrics.Harcout Brace Jovanovich，Publishers.1985：21-44.

[3]Robert J.sternberg，Timothy P.Mcnamara.The representation and processing of information in real-time verbal comprehension.In Susan E.Embretson9（Eds.）.Test design:developments in psychology and psychometrics.Harcout Brace Jovanovich，Publishers.1985：21-44.

[4]EarlC.Butterfield，DonnNielsen，KennethL.Tangen，MichaelB.Richardson.Theoretically based psychometric measures of inductive reasoning.In Susan E.Embretson9（Eds.）.Test design:developments in psychology and psychometrics.Harcout Brace Jovanovich，Publishers.1985：77-147.

[5]刘声涛，戴海崎，等.新一代测验理论——认知诊断理论的源起与特征 [J].心理学探新，2006（4）:73-77.

[6]余嘉元.运用规则空间模型识别解题中的认知错误[J].心理学报，1995（5），vol.27（2）：196-203.

[7]戴海崎，张青华.规则空间模型在描述统计学习模式识别中的应用研究 [J].心理科学，2004（4）：959-951.

[8]黄小平，戴海崎.规则空间模型在口腔内科分数报告中的应用的研究[J].中国考试，2008（8）：3-8.

[9]黎娇.规则空间模型在中学物理教育评价中的实证研究——以欧姆定律学习为例[D].2008年硕士学位论文.

[10]刘启亮，陈正顺，罗志华.规则空间模型在初中化学教学中的应用研究[J].网络财富，2009（5）：132-133.

[11]祝玉芳，丁树良.规则空间模型理论基础的改进[J].江西师范大学学报（自然科学版），2008（2）:69-72.

[12]曾玲艳.认知诊断中分类准确率的研究[D].2010年硕士学位论文.

[13]孙佳楠，张淑梅，辛涛，包钰.基于Q矩阵和广义距离的认知诊断方法[J].心理学报，2011，43（9）:1005-1102.

[14]Tatsuoka，K.K&Tatsuoka，M.M.Computerized cognitive diagnostic adaptivetesting:effect on remedial instruction asempirical validation.1997.

[15]Hartz，S.M.A Bayesian Framework for the Unified Model for Assessing Cognitive Abilities:Blending Theory with Practicality.Unpublished doctoral dissertation，University of Illinois at Urbana-Champaign.2002.

[16]Hartz，S.，Roussos，L.&Stout，W.Skill Diagnosis:Theory and Practice.User Manual for Arpeggio software.Princeton，NJ:Educational Testing Service.2002.

[17]Susan E.Embretson.Multicomponent Latent Trait Models for Test Design.In Susan E.Embretson（Eds.）.Test design:developments in psychology and psychometrics.Harcout Brace Jovanovich，Publishers.1985：195-218.

[18]Hartman Scheiblechner.Psychometric Models for Speed-Test Construction:The Linear Exponential Model.In Susan E.Embretson（Eds.）.Test design:developments in psychology and psychometrics.Harcout Brace Jovanovich，Publishers.1985:219-244.

[19]Dibello L.V.，Stout W.F.，Roussos L.A.，Unifies Cognitive/Psychometric Diagnostic Assessment Likelihood-Based Classification Techniques.In Paul D.Nichols，Susan F.Chipman，Robert L.Brennan（Eds.）Cognitively diagnostic assessment ，Lawrence Erlbaum Associates，Inc.1995:361-390.

[20]Hartz，S.，Roussos，L.&Stout，W.Skill Diagnosis:Theory and Practice.User Manual for Arpeggio software.Princeton，NJ:Educational Testing Service.2002.

[21]Robert Henson，Jeff Douglas.Test Construction for Cognitive Diagnosis.Applied Psychology Measurement，Vol.29 No.4，July 2005:262-277.

[22]Fischer，G..H.Thelinear logistic test model asan instrument in educational research.Acta Psychological，1973（37）:359-374.

[23]Carpenter，P.A.，Just，M.A.，&Shell，P.What one intelligencetest measures:A theoretical account of processing in the Raven’s Progressive Matrices Test.Psychological Review，1990（97）.

[24]Piswanger，K.Cross-cultural comparisonsby means of the matrices these of Formann.In German.Unpublished doctoral dissertation，University of Vienna，Vienna.1975.

[25]Fischer，G.h and Forman，A.K.Some applications of logistic latent trait modelswith linear constraintson theparameters.Applied Psychological Measurement 1982（4）:397-416.

[26]康春花，戴海崎.采用LLTM作测量与认知结合研究的初步探讨[J].心理科学，2001（5）：569-572.

[27]Tatsuoka，K.K.Rule Space:An approach for dealing with misconceptions based on item response theory.Journal of Educational Measurement，1983，20（4）：345-354.

[28]Tatsuoka，K.K.Toward integration of item response theory and cognitive error diagnoses.In N.Frederiksen，R.L.Glasser，A.M.Lesgold，and M.G.Shafto（Eds.），Diagnostic monitoring of skills and knowledge acquisition，1990，453:486.Hillsdale，NJ:Lawrence Erlbaum Associates.

[29]Tatsuoka，K.K.Architecture of knowledge structure and cognitive diagnosis:A statistical pattern recognition and classification approach.In P.D.Nichols，S.F.Chipman，and R.L.Brennan（Eds.），Cognitively Diagnostic Assessment.327:361.Hillsdale，NJ:Lawrence Erlbaum Associates.Journal of Educational Measurement，1995，34（1）:3-20.

[30]DiBello，L.，Stout，W.，and Roussos，L.Unified cognitive/psychometric diagnostic assessment likelihood-based classification tech-techniques.In P.D.Nichols，S.F.Chipman，and R.L.Brennan（Eds.），Cognitively Diagnostic Assessment（p.361-389）.Hillsdale，NJ:Lawrence Erlbaum Associates.1995.

[31]DiBello，L.，Stout，W.，and Hartz，S.On identifiability of parameters in the unified model for cognitive diagnosis.Paper presented at the Annual Metting of Psychometric Society，Vancouver，Canada.2000.

[32]Hartz，S.，Roussos，L.，and Stout，W.A bayesian framework for the unified model for assessing cognitive abilities:Blending theory with practicality.Unpublished doctoral dissertation，University of Illinoisat Urbana-Champaign.2002.

[33]Hartz，S.，Roussos，L.，and Stout，W.Skills Diagnosis:Theory and Practice.User Manual for Arpeggiosoftware.ETS.2002.

猜你喜欢