认知诊断测评的研究述评及展望

2020-09-08赵少勇张年宽

考试研究 2020年4期

陆璐赵少勇张年宽

一、引言

随着我国基础教育课程改革的不断深入，新时代的教育聚焦于培养具有社会竞争力的个体。个体的核心素养水平决定着其生存的竞争能力[1]。学生发展核心素养，主要是指学生应具备的、能够适应终身发展和社会发展需要的必备品格和关键能力。中国学生发展核心素养以培养 “全面发展的人” 为核心，分为文化基础、自主发展和社会参与三个方面。具体包括人文底蕴、科学精神、学会学习、健康生活、责任担当和实践创新六大素养。

核心素养作为一个宏观概念包括了众多方面，想要使其更好地落地生根，就必须始终贯彻以学生为主体，始终立足于学生成长的需要。然而，学生的认知水平参差不齐，对每个学科知识的掌握情况也有很大差别。传统的测验只能提供一个分数或者能力值，虽然分数在一定程度上可以提供诊断依据，但是相同分数的学生往往具有不同的认知结构和认知过程[2]。认知诊断测评（cognitive diagnostic assessment， CDA）的出现很好地弥补了这一缺陷，有助于人们更深入地了解隐藏在学生分数背后的认知结构、加工技能和认知过程等心理内部结构之间的差异，从而帮助教师为学生提供更具有针对性的补救措施和教学方案[3]，进一步达到提升学生核心素养的目标。

二、认知诊断理论

认知诊断理论是新一代心理与教育测验理论的核心，是认知心理学与现代测量学相结合的产物[4]，已经成为心理学、测量学和教育学等学科的研究热点，引起了国内外研究者的广泛关注。要对学生进行更有效、更准确的认知诊断测评，就必须借助科学的认知诊断测验以及选择合适的认知诊断模型。目前关于认知诊断领域的研究主要集中在以下两个方面：（1）理论基础研究，即认知诊断模型（cognitive diagnostic models， CDMs）的开发及拓展；（2）实证应用研究，即研究者在理论研究的基础上采用实证数据对被试进行测评。

以下将分别介绍目前常见的认知诊断模型和认知诊断应用研究的现状。

三、认知诊断模型

认知诊断模型是实现认知诊断功能必不可少的核心环节，它将认知变量融入心理计量模型，成功连接了个体的外部作答反应和内部认知属性，从而实现对被试内部心理加工过程的分析，进而提供具体的认知诊断信息。每个认知诊断模型都是基于某些既定的假设，不同的认知诊断模型具有其各自的特点和适用条件，研究者需要根据各自研究的特点（如计分方式、属性水平等）选择或者建构适当的认知诊断模型，CDMs 的合理性直接决定了认知诊断测评结果的准确性及有效性[5]。至今，国内外的研究者已经根据不同的研究需要开发出了众多认知诊断模型[6，7]。

1. 二级评分/二分属性的认知诊断模型

较早被研究者用来进行认知诊断研究的模型是线性逻辑斯谛克特质模型（linear logistic trait model，LLTM）[8]，LLTM 是在 Rasch 模型[9]的基础上发展出来的，与单维的Rasch 模型具有相同的基本形式。此外，还有一个具有开创意义的认知诊断方法，即规则空间方法（rule space methodology，RSM）[10]，其强调的Q 矩阵理论（Q-matrix theory）建立了项目与属性之间的关系，将不可观察的认知属性转化为项目反应模式，Q 矩阵理论提出后就成为认知诊断研究中的核心理论，随后开发的认知诊断模型很多都是基于Q 矩阵理论构建的。 LLTM 和RSM 被认为是两个基础性的认知诊断模型[11]，后续发展出来的许多认知诊断模型均是以这两个模型为基础。例如，多成分潜在特质模型（multicomponent latent trait model， MLTM）[12]和一般潜在特质模型（general latent trait model， GLTM）[13]等多个潜在特质模型均是在LLTM 的基础上发展而来；而统一模型（unified model， UM）[14]、融合模型（fusion model， FM）[15]和属性层次方法（attribute hierarchy methodology， AHM）[16]等模型均是在 RSM 的基础上发展出来的。

根据不同的研究需要及理论假设，研究者陆续开发了一系列的认知诊断模型。除了上述提到的几个以外，常见的还有DINA 模型（deterministic input，noisy “and” gate model）[17，18]、DINO 模型（deterministic input， noisy “or” gate model）[19]、LCDM （log-linear CDM）[20]、ACDM（additive CDM）[21]等。其中，DINA 模型具有参数简单、计算简便且易于理解的优点，是应用最广泛的认知诊断模型之一，众多研究者针对DINA 模型的不同方面进行了相应的拓展。有研究者在DINA 模型的基础上考虑高阶成分在模型中的潜在作用，发展出高阶 DINA 模型（high-order DINA model， HO-DINA model）[22]。针对具有多种解题方法的题目，也有研究者提出了多策略DINA 模型（multiple-strategy DINA model， MS-DINA）[23]。为了弥补DINA 模型在诊断过程中不考虑属性的层级关系而导致属性判准率较低的缺陷，研究者开发了基于属性层级关系的 DINA 模型，即 DINA_HC 模型[24]。还有研究者提出了饱和模式的DINA 模型（generalized DINA， G-DINA）[25]，该模型在特定的约束条件下可以转换成DINA 模型、DINO 模型或其他约束模型。此外，考虑到多个时间点的测量结果可以对个体的发展进行更全面的诊断，因此纵向数据的重要性得到了研究者的关注，然而现有的大部分CDMs 均不能处理纵向数据，因此有研究者在DINA 模型的基础上开发出了纵向DINA 模型（longitudinal DINA model， Long-DINA model），以期可以更好地对纵向数据进行处理[26]。

2. 多级评分认知诊断模型

虽然目前研究者们已经开发或拓展出了数量众多的认知诊断模型，然而较早的CDMs 大多仅适用于 0-1 计分的二级评分数据（dichotomous data），适用于多级评分数据（polytomous data）的CDMs 较少。这种二级计分的数据通常只适用于填空题、选择题或者判断题。然而，在实际的教育情境中，大部分学科的试卷往往还有其他题型，如计算题、综合题、作图题等，这些比较复杂的题型无法简单地采用二级计分的方式（0-1）来评分。虽然在分析数据时，可以根据一定的规则将多级评分的数据转换成二级计分的形式，但是该做法会丢失部分数据信息。因此，为了更好地满足现实的教育需求，不少研究者对多级评分的CDMs 进行了探索与研究。

其中，有研究者在传统二级评分DINA 模型的基础上提出了多级评分DINA 模型（polytomous DINA model， P-DINA model）[27]。由于 P-DINA 模型倾向于将被试得分归为0 分或满分，因此有研究者在P-DINA 模型的基础上对其进行优化并提出了rPDINA 模型（revised P-DINA model），优化后的模型在一定程度上克服了该缺陷[28]。还有研究基于PDINA 模型的拓展思路提出了多级评分的HO-DINA模型[29]以及多级评分的DINO 模型（polytomous DINO model， P-DINO model）[30]等。此外，还有研究者基于Tatsuoka（1995）的规则空间方法拓展出了多级评分RSM[31]；Sun 等人基于广义距离判别法（generalized distance discriminating method， GDD）[32]提出了多级评分的广义距离判别法（GDD method for test with polytomous response ， GDD-P）[33]；祝玉芳等人在多策略认知诊断方法（multiple-strategies cognitive diagnosis method， MSCD）的基础上拓展出了多级评分数据的 MSCD[34]；Ma 和 de la Torre 提出了可以处理多级评分数据的顺序反应G-DINA 模型（sequential GDINA model）[35]。近期还有不少研究者为满足研究或现实需要，提出新的多级评分CDMs，例如GPDM（general polytomous diagnosis model）[36]和可以处理多策略项目多级评分数据的诊断树模型（diagnostic tree model， DTM）[37]等，进一步丰富了多级评分CDMs 及其应用。

3. 多分属性认知诊断模型

同样地，在属性的水平划分上，较早的CDMs 几乎都属于二分属性（dichotomous attributes）的范畴，没有考虑多分属性（polytomous attributes）的情况，即认为被试对属性的掌握情况只有两种，即0 =“未掌握”/1 =“掌握”；项目对属性的考查情况也只有两种，即 0 =“未考查”/1 =“考查”。然而，被试对某一知识点（属性）的掌握情况通常无法简单地归为 “掌握” 或“未掌握”，对被试的属性掌握情况进行多水平划分更加符合实际情境。例如，《义务教育的课程标准》使用 “了解、理解、掌握、运用” 等术语表述学习活动结果目标的不同水平；PISA 2015 的科学素养测试框架将认知属性的掌握水平分为 “低水平、中等水平和高水平”[38]；TIMSS 2015 的科学认知框架也将属性的掌握程度从低到高分为“了解、应用和推理” 三种水平[39]。

因此，为满足现实需求，研究者们提出了多分属性的概念[40，41]，并且提出了顺序类别属性编码（ordered category attribute coding， OCAC）[42]的方法，以期可以开发出更加适合实际教育情景的多分属性CDMs。例如，Karelitz 在 OCAC 的框架下提出了 OCAC-DINA 模型[43]；von Davie 提出的 GDM（general diagnostic model）既适用于二分属性的情景，也适用于多分属性的情境[44]；Chen 和de la Torre 基于GDINA 模型提出了可处理多分属性数据的pG-DINA（polytomous generalized DINA）模型[45]；后续，蔡艳和涂冬波基于该拓展思路在rRUM（reduced reparameterized unified model）[46]和 DINA 模型的基础上分别拓展出了 PA-rRUM （polytomous attributes rRUM）和PA-DINA（polytomous attributes DINA）模型[47]；詹沛达、边玉芳和王立君对pG-DINA 模型的约束模型进行了重参数化（reparametrized），重参数化后的模型（i.e.， RPa-DINA 模型和 RPa-DINO 模型）相比原模型更易于研究者和读者的理解与应用，可以在一定程度上降低多分属性CDMs 的实践应用难度[48]。Templin 和Bradshaw 在已有的诊断分类模型（diagnostic classification models， DCM）基础上提出了可处理多分属性的DCM （diagnostic classification models for polytomous attributes）[49]。近期还有研究者将高阶潜在结构模型（high order latent structural model，high-order LSM）与RPa-DINA 模型进行融合，开发出了可处理多分属性的高阶LSM （partial mastery，higher-order LSM for polytomous attributes）[50]。

4. 多级评分的多分属性认知诊断模型

综合以上的论述可以看出，目前研究者们已经在传统CDMs 的基础上分别拓展出了多级评分的CDMs 和多分属性的CDMs，相比之前那些只能处理二级评分及二分属性数据的传统CDMs 更加符合实际的教育情境。然而，目前的多分属性CDMs 均是在二级评分CDMs 基础上拓展而来的，而现实教育环境中存在同时具有多分属性和需要多级评分题目的情境，此时现有的多分属性CDMs 就显得 “力不从心” 了。虽然可以根据一定的规则将多级评分数据转化为二级评分数据，但是该做法会造成数据信息的丢失。如果能够将多分属性的CDMs 进行多级评分拓展，使模型在考虑多分属性的同时又能够处理多级评分数据，那么研究者就可以利用该模型从被试的作答数据中得到更全面、准确的诊断信息。因此有研究对多分属性多级评分CDMs 进行了初步探索与研究。

昌维将RPa-DINA 模型进行了多级评分拓展，新模型简称为PRPa-DINA 模型[51]。该模型具有可以同时处理多分属性多级计分与二分属性二级计分数据的优点。虽然Karelitz 指出在使用OCAC 对属性的各个水平进行编码时，多分属性的水平与二分属性之间存在一定的对应关系：K 个多分属性相当于个二分属性，可以将多分属性转化为二分属性之后，使用更简单的二分属性模型对数据进行处理[52]。詹沛达等人也指出多分属性与二分属性之间可以进行等价转换[53]。然而，随后有研究者在对比了二分属性和多分属性之后发现，当多分属性的个数不超过3 个时，可以考虑将多分属性转化成二分属性，采用相对简单的二分属性模型；但当多分属性个数超过3 个时，多分属性模型对被试能力估计更为准确[54]。在实际教育情境中，大部分学科的知识点（属性）都是具有多种水平的，实践研究中多分属性的个数很可能不止3 个，因此采用多分属性的CDMs 是非常有必要的。 PRPa-DINA 模型的数学表达式如下：

其中，Pnit 表示被试n 在项目i 上恰得t 分的概率；P*nit表示被试n 在该项目i 上得 t 分以及 t 分以上的概率；P*ni（t+1）表示被试 n 在该项目 i 上得（t+1）分及以上的概率；sit 表示被试在项目i 上的潜在得分为t分，而实际得分小于t 分的概率；git 表示被试在项目i 上的潜在得分为t 分，而实际得分大于t 分的概率；表示被试n 在项目i 上的潜在作答（只有当被试n 对项目i 所考查的全部属性的掌握水平都大于/等于项目 i 对属性的考查水平时，ηni=1；否则，ηni=0）；ωnik表示被试n 在项目i 中属性k 上的潜在作答（当被试n对属性k 的掌握水平大于/等于项目i 对属性k 的考查水平时，ωnik=1；否则，ωnik=0）；q*ik表示项目 i 是否考查了属性k；αnk表示被试n 对属性k 的掌握水平。

值得注意的是，被试在项目上的得分增高，失误参数和猜测参数的变化趋势不一样。失误参数呈递增趋势，Sit≤Si，（t+1），即假设被试掌握了项目 i 考查的所有属性，那么其在t 分上的失误概率会小于或等于（t+1）分上的失误概率，可以理解为被试更容易在高分上表现出失误。猜测参数呈递减趋势，，即被试如果没有全部掌握项目i 考查的所有属性，那么其在t分上的猜测概率大于或等于（t+1）分上的猜测概率，可以理解为取得低分的被试更有可能是猜对的。

5. 认知诊断模型小结

以上从评分方式（二级计分/多级计分）和属性的划分水平（二分属性/多分属性）两个方面对现有的常用认知诊断模型进行了介绍，这些模型的简单分类概括及其各自的特点（适用条件）如表1 所示。

表1 常用认知诊断模型及特点

四、认知诊断的应用研究

如前所述，目前研究者对认知诊断的研究主要可以分为两个部分，一部分集中在认知诊断模型的开发和拓展上（e.g.， Chen & de la Torre， 2013；Chen， de la Torre， & Zhang， 2013； de la Torre，2009； de la Torre & Douglas， 2004； Hou， de la Torre， & Nandakumar， 2014； Templin & Bradshaw，2013； Zhan， Wang， Jiao， & Bian， 2018；詹沛达，陈平，边玉芳， 2016）[55]，另一部分就是认知诊断的实证应用研究。目前，认知诊断已经被广泛地应用于学科知识测评、语言技能评估和精神障碍的诊断等多个领域。

1. 学科知识测评领域

将认知诊断应用到学科知识测评领域的研究是最多的。 Tatsuoka 首次提出RSM 后就将其运用到数学加减法的认知诊断中[56]，随后出现了众多研究者将认知诊断应用于测评关于数学的各种知识技能中。例如，de la Torre 等人提出了高阶潜在特质模型（Higher-order latent trait models），并将其应用到分数减法的测评研究中[57]；Birenbaum 等人将RSM 应用到TIMSS-R 中八年级数学部分的诊断评估[58]；在国内，学者余嘉元较早地将RSM 应用到数学中不等式知识的评估中，以期可以识别学生在解题过程中的认知错误[59]；康春花等人编制了小学数学应用题和小学数学的图形与几何的认知诊断测验[60，61]。除了将认知诊断应用到数学学科，英语学科的认知诊断研究也不在少数，主要集中在对英语阅读理解部分的诊断测评[62-65]。同时，也有研究者将认知诊断应用到其他学科。例如，王珏和解月光使用基于前概念体系的学习者认知诊断方法对被试的初中物理学习情况进行测评[66]。还有研究者将GDM 应用到包括阅读、写作、数学和科学等学科的NAEP（National Assessment of Educational Progress）数据分析中，结果发现，GDM 在各个学科上均能准确地对被试的能力进行诊断，并且该方法可以有效降低其他控制变量对结果的影响[67]。

2. 语言技能评估领域

在语言技能测评方面，较早时就有学者使用RSM 对被试的第二语言阅读技能进行测评，结果发现该方法可以很好地对口语测试数据进行分析，并为测试者提供准确的诊断反馈报告[68]。后续出现了不少研究者将CDMs 应用于外语（相对被试的母语而言）的阅读技能测评，结果均表明基于CDMs 的方法不仅能为研究者提供被试总体能力，还可以准确诊断被试在各个属性上的掌握情况[69-72]。还有研究者将融合模型FM（fusion model）用于测评被试在托福测试中的阅读技能水平，并且探讨了基于CDMs 的个性化诊断报告对教学的影响[73]。von Davier 将GDM应用到托福测验的听力和阅读技能的测评，结果表明，GDM 可以对被试的属性掌握情况进行准确的诊断归类[74]。国内学者范晓玲还将认知诊断技术应用到阅读障碍儿童的语音、字形阅读、语素意识和汉语词汇的诊断评估中，结果均表明，基于认知诊断的结果不仅能够准确评估阅读障碍儿童的具体表现，还能提供更丰富的诊断信息[75-77]。

3. 精神障碍诊断领域

认知诊断作为一种新技术为各类精神障碍的诊断提供了重要的依据。例如，有研究者使用部分的有序分类模型（partially ordered classification models）诊断精神分裂症患者的神经认知功能[78]。还有研究者将 CDMs （i.e.， DINA & DINO）应用到病态性赌博（pathological gambling）的诊断研究中，结果表明，基于 CDMs 的诊断结果与 DSM-IV （Diagnostic and Statistical Manual of Mental Disorders-IV）[79]对病态性赌博的诊断标准基本一致[80]。 de la Torre， van der Ark和 Rossi 将 G-DINA 模型及其约束模型（i.e.， DINA，DINO & ACDM）应用到米隆临床多轴调查量表（Millon Clinical Multiaxial Inventory-III， MCMI-III）[81]的数据分析上，并且在项目水平（item level）上对比了各个模型的优劣，同时对基于CDMs 的分析结果和传统分析结果进行对比，结果发现，基于CDMs 的方法可以提供更详细、准确的结果[82]。近来，有研究者将认知诊断应用于抑郁症的诊断研究中，基于CDMs的框架提出了抑郁症的认知诊断测验（cognitive diagnostic test for depression， CDMs-D）[83]。此外，还有学者将认知诊断应用到个体的酒精干预研究中[84]。

4. 其他领域

认知诊断的应用研究还涉及到了其他领域。例如，部分研究者将认知诊断应用到计算机自适应测试（computerized adaptive testing， CAT）上，提出了各种认知诊断计算机自适应测试（CD-CAT），旨在结合认知诊断和计算机自适应测试的优势，从而更好地对被试的能力进行测评[85-89]。此外，García， Olea 与de la Torre 还将G-DINA 模型应用于情景判断测验（situational judgment tests， SJTs）的数据分析中，结果表明，该模型可以很好地对此数据进行分析[90]。

五、结论

总之，认知诊断已经应用于众多领域，这为认知诊断研究提供了大量理论和实证方面的依据，充分证明了认知诊断测验在许多领域中都是有效的测量工具。学科教育作为认知诊断应用最广泛的领域，现已取得了较为丰富的理论基础和实证研究成果。然而，鉴于认知诊断的相关知识比较复杂，目前很少有一线教师能够掌握认知诊断的知识与技术，对认知诊断测验的编制、使用认知诊断模型进行数据分析等关键部分掌握起来较为困难，因此研究者在发展认知诊断的同时，应该考虑如何使一线教师更好地掌握该技术，使认知诊断技术的应用在各领域更好地落地，从而具备更普遍的推广价值。

六、未来研究展望

首先，在现实教育情境中，各学科所涉及的内容和知识点大多属于多分属性（即一个知识点并不能简单地被分为掌握/未掌握），并且许多题目的计分方式也不是简单的0-1 计分，很多题型均需采用多级评分的方式。因此，在条件允许的情况下，使用多分属性多级评分认知诊断测验对学生进行测评，并且采用多分属性多级计分的认知诊断模型对测验数据进行分析是一个较好的选择。虽然已有研究者在RPa-DINA 模型的基础拓展出了多级评分的RPa-DINA 模型（PRPa-DINA 模型），然而该研究仅停留在理论研究的层面，还没有研究者进行相应的实证研究，因此，未来研究者可以进行相应的实证研究，采用真实数据来进一步验证PRPa-DINA 模型的科学性。

其次，PRPa-DINA 模型是基于P-DINA 模型的拓展思路进行建构的，存在一定的局限性，研究者在未来的研究中可以尝试基于其他更好的思路对其进行拓展。此外，PRPa-DINA 模型是在DINA 模型的基础上拓展出来的，而DINA 模型是一种连接、非补偿的CDM，其理论假设并不符合所有教育情境，因此，未来研究者可以对其他 CDMs（e.g.， G-DINA）进行多分属性多级评分的拓展，以应对复杂的现实教育情境。

再者，所有的测评都是为了学生更好更全面的发展，从而提升他们的核心素养。因此，结合具体的干预手段，对学生的知识掌握情况进行多个时间点测量，从而对学生的纵向发展进行较全面的测评是必不可少的。在未来研究中，可以从该角度出发，根据认知诊断报告制定个性化的补救方案，然后进行纵向追踪，并与传统的教学补救进行对比，探讨认知诊断补救效果是否优于传统的教学补救。

最后，认知诊断的关键技术对于一线教师而言较难掌握。因此，研究者在未来研究中应当考虑该因素，致力于开发出操作较简单的认知诊断分析平台。目前，江西师范大学涂冬波教授团队已经开发出了操作较简单的认知诊断分析平台（flexCDMs），该平台包括了几种常用的认知诊断模型（如DINA、DINO、rRUM、ACDM、seqGDINA），在一定程度上方便了研究者及一线教师对认知诊断数据的分析。然而该平台所包括的CDMs 主要是二级计分的，多级计分的 CDMs 只有 seqGDINA，并不包括多分属性CDMs 以及更符合实际教育情境的多分属性多级计分CDMs，因此还有待于进一步拓展。