认知诊断理论在数学教育评价中的应用
2016-10-14王立东
王立东,郭 衎,孟 梦
认知诊断理论在数学教育评价中的应用
王立东1,郭 衎2,孟 梦3
(1.中国人民大学附属中学,北京 100080;2.北京师范大学数学科学学院,北京 100875;3.西南大学数学与统计学院,重庆 400715)
质性地比较论证了基于认知诊断理论的数学教育评价工具开发的可行性.通过分析实际测试数据,比较几种不同认知诊断模型中的参数估计方法实际应用于分析数学评价测验的可能性.研究发现,认知属性概念可以帮助研究者和实践者分析影响学生解答数学题目背后的认知结构.人工神经网络模型能够充分利用理论设计的认知模型,克服测验题目有限、题型多样、认知属性差异大等不易分析的困难,较好评价学生的数学学业成就,为后续教学提供诊断性信息,达到了诊断性测验的目的.
数学教育评价;多维评分;认知诊断模型;属性层次模型;人工神经网络模型
1 研究背景
通常的数学测验只给出一个笼统的测验分数,而对于具有相同分数的学生,既不易区分他们可能具有的不同数学认知结构[1],也没有具体给出学生在数学学习的哪个方面存在不足.在教育研究中,这种测验分数无法提供精细化的学生学业成就评价;在教学实践中,这种测验分数对于后续数学教学的指导,也往往依赖于教师对于试卷的经验性分析.
心理测量学中的认知诊断理论(Cognitive Diagnose: CD)依据测量学理论和统计分析技术给出了对于学生学习状况的标准化多维评价,为后续的教学实践提供了精细化的指导信息.心理学工作者开发了多种认知诊断模型和技术,如规则空间模型(Rule Space Model: RSM)[2]、DINA模型[3]、属性层次模型(Attribute Hierarchy Method: AHM)[4]等.在具体的模型下,又有多种不同的统计分析方法,如在AHM模型的理论框架下,就有多种属性掌握概率的参数估计方法[5].
研究将以大规模七年级学生代数学业成就测试的编制与实施为案例,尝试将认知诊断理论中的AHM模型应用于数学学业成就的诊断性评价中,通过质性分析论证其应用于数学教育理论与实践的可行性.
2 理论基础
2.1 AHM模型概述
AHM模型是在规则空间模型的基础上发展起来的一种重要的认知诊断模型.该方法的核心概念是认知属性(Attribute),对于该概念,心理测量界有多种描述,但详细考察其间没有本质上的区别.综合Tatsuoka(2009)、Leighton等(2004)的观点,认知属性可以被认为是一般性的知识与认知技能,或程序与陈述性知识,在课程标准为教学目标的教学系统中,可以将属性等同于课程标准中的具体教学目标的条目.在数学背景下的认知属性可以是具体的数学知识(如掌握有理数的定义)、技能(如能够求解二元一次方程组),也可以是相对抽象的数学思想(如数学类比的思想)等.它是一种将考生在测验项目上的作答情况与特定认知属性掌握情况建立数量关系的统计方法,进而能够对于学生学业成就进行多维度评价,为后续的教学提供诊断信息(指出学生在哪个认知属性的掌握上存在不足)[6].
该方法以认知结构理论为基础,在操作上,先由学科专家确定要测量的各个认知属性及其层次关系,将此作为指导测验编制的认知结构模型.如:图1表示分别被称为直线型和收敛型的认知结构模型,各自由4个和6个需要测量的认知属性组成.
(直线型)
(收敛型)
图1 属性层次结构图示例
在数学学习上,这若干个认知属性应存在逻辑先决关系(由箭头表示),如A1A2表示学生掌握A2属性必须是以掌握A1属性为前提(如掌握二元一次方程组的解法必须是以掌握一元一次方程解法为基础),即直接的先决关系.
这样在测量高级属性的过程,可以提供低级属性的测量信息.如,正确回答二元一次方程题目的学生,可被判定是掌握了二元一次方程属性,同时,也在一定程度上掌握了一元一次方程属性.此外,正确回答了一元一次方程题目,但错误回答二元一次方程题目的学生,要比错误回答了一元一次方程题目和二元一次方程题目的学生在二元一次方程属性的掌握情况上更好(虽然他们错误地回答了二元一次方程题目).
在属性层级关系的基础上,可以获得一个可达矩阵(Reachability Matrices):表示各属性间的直接或间接的先决关系.
在可达矩阵的基础上,通过扩张算法(丁树良等,2009)[7]得到包含各类可能的属性组合的完全的矩阵,该矩阵建立了题目与属性的关系.
基于这个过程设计的题目能够整合已有的认知理论对于各类属性层次结构的认识,可以从内容效度的角度保证了所设计的测验能够测量、区分学生不同的认知结构.
通过矩阵,可以获得若干个学生的期望反应模式,这个模式假设学生完全依照认知模型作答,不受任何随机因素(如猜测,发挥失常等)影响.也可以获得与期望反应模式相对应的属性掌握模式(即在理想状态下,具有某种属性掌握模式的学生的答题结果是期望反应模式).如图1中,直线型结构给出的认知结构样例中,学生应有4种理想的反应模式包括(1, 0, 0, 0)、(1, 1, 0, 0)、(1, 1, 1, 0)、(1, 1, 1, 1),其中4个数字分别表示学生回答4道试题(由矩阵决定)的正误情况.即按照图1中的层次关系,在理想的情况下,学生如果正确回答了第二题,在无其它随机因素影响的前提下,应正确地回答第一题.对应的属性掌握模式为(1, 0, 0, 0),即仅答对第一题的学生在理想状态下,应是仅掌握第一个认知属性.
在教育实践中,学生对于某种属性的掌握情况无法仅由掌握和不掌握来描述,同时实际答题的过程中还受到许多随机因素的影响.AHM模型可以基于学生的实际答题情况(称为反应类型),如:(1, 0, 0, 1)代表学生正确回答第一、第四题,错误回答了第二、第三题.AHM模型通过估计属性掌握概率(对于各个属性掌握情况都用一个属于[0, 1]的数来刻画)更加细致地刻画属性掌握情况,如(0.1, 0.5, 0, 0.8)可代表学生对于4个认知属性的掌握情况(该学生较好地掌握了第四个属性,对于第二个属性掌握一般,没有掌握第一、第三个属性).认知诊断模型对于学习者在某个属性上的掌握情况做出判断,进而从中获得反馈指导相应的教学(如学生在第一、第三个认知属性的学习上需要重点加强,补充学习).
2.2 测验框架设计与试题编制
评价模式选择为标准参照的诊断性评价,以课程标准中的有关数学教学内容的具体条目为测量目标,将其作为AHM模型中的认知属性.
在征询了部分一线教学专家的意见的基础上,将七年级的代数和几何内容分开编制测试问卷.(由于在七年级的教学要求中,代数几何的综合内容可以忽略不计,同时忽略统计教学内容和一次不等式(组)的教学内容.由于在七年级第二学期期中考试后(5月底,6月初)对于学生进行测量,按照基本教学计划,多数学校还未教授这两个内容.)
针对代数测试卷(编码为卷Ⅰ)先在16个涉及代数的属性中(不包括不等式的内容)由多位有中学教学经验的数学教育专业博士生从上述属性中,抽取认为处于核心知识地位的8个属性(总数的50%),具体见表2.
表2 代数内容认知属性
在此基础上,得到各测试卷认知模型.属性层次结构图见图2.
图2 属性层次结构
以上属性层次结构给出了需要测量的8个属性的层次结构关系,如掌握属性A1.1是掌握属性A1.2和A1.3的直接先决条件.
用矩阵的形式给出如图2所示结构图,得到如表3所示的可达矩阵.
表3 可达矩阵(卷Ⅰ)
在可达矩阵的基础上,获得缩减矩阵.这个矩阵考虑了8个具体层级关系属性理论上可以在相关题目中实现各种组合情况,同时也考虑到了数学学科内容的特点,包括按照理论上的属性搭配模式编制的问题可能不是在初中范围内实质上的,有意义、有价值的数学问题(如强行将两个数学内容联系在一起或者产生如二元一次方程组与绝对问题相结合的难度过大的题目),或者这些问题是否过于复杂、难度过大的问题,同时也考虑是否会造成试卷过长的问题.如是否考虑属性A1.2(相反数与绝对值内容)会造成题目大量增加(因为A1.2相对“独立”).
在可达矩阵的基础上,获得了如下的缩减矩阵(包括11类题目),如表4所示.
表4 缩减Q矩阵(卷Ⅰ)
上述矩阵表明,在开发测验中,需要编制11类题目.
在此基础上,形成卷Ⅰ的各个测试题目.
正确回答该题目需要掌握涉及A1.1和A1.2两个属性的知识与能力.正确回答该问题说明学生较好地掌握了属性A1.1(有理数的意义、数轴上的点表示有理数、比较有理数的大小)和属性A1.2(会求有理数的相反数与绝对值(绝对值符号内不含字母)).
2.3 属性掌握分数的参数估计模型
针对如何通过学生的题目反应模式获得学生对于各个属性的掌握分数的问题,现有文献提供了多种针对AHM模型的参数估计方法.
方法一:Leighton, et al(2004)提出了依据“滑动”(slips),观测反应模式(Observed Response Pattern)向期望反应模式判定的方式中的A方法,结合Tatsuoka(2009)中属性掌握概率的概念获得一个新的属性掌握分数估计方法,具体过程如下:
计算其由某个特定的期望反应模型“滑动”而来的后验似然:
方法二:朱金鑫等(2009)[8]提出了非IRT的属性掌握概率的估计方法.首先,计算学生在包含属性的项目中答对的比例,利用这个比例估计学生掌握某个属性的概率,同时将答对某个项目的概率定为该项目涉及的所有属性掌握概率估计的乘积,这个项目答对的概率可以修正上述学生掌握某个属性的估计,进而获得学生在某个属性掌握概率的
估计:
朱金鑫等(2009)认为这个估计方法可以消除属性间的影响,但研究者认为属性间可能存在的影响恰恰可以为属性掌握情况的估计提供更为丰富的信息.如:如正确回答二元一次方程的学生,即使在求解一元一次方程的题目中出错,但在有关一元一次方程的认知属性的评价中,应当考虑属性层次提供的信息,不应评为0.
方法三:Gierl, et.al(2007),(2008)[9]提出了应用人工神经网络学习模型(Artificial Neural Networks,以下简称ANN)估计属性掌握概率的方法.ANN方法是由生物神经网络启发的计算模型,包含多组不连接的人工神经元.在学习的过程中,通常基于内部或外部的信息修正激发函数.通常被用来建立输入与输出的复杂关系以发现数据的模型.
该方法采用Logistic函数(S型曲线)作为隐藏层(Hidden Layer)和输出层(Output Layer)的激发函数(Activition Function):
可以看到该种方式的模型决定了各个项目的结果都为各个属性掌握的结果的估计提供了信息,这就建立了属性之间的联系,可用学生的答题情况估计学生的属性掌握情况.
下文将基于一个实证大样本调查研究的数据比较上述3种参数估计方法的运算结果,质性地论证将认知诊断理论应用于数学教育评价的可行性.
3 数据搜集
针对性地搜集了理论框架设计所需的数据,从而保证了研究的系统性.数据来自北京师范大学与美国Vanderbilt大学的MIST-CHINA国际合作项目的数据库,样本来自中国3个大城市学区的教师与学生.
用分层随机抽样的方法从重点中学(示范中学)与非重点中学(普通中学)中近似随机选择若干所初级中学(包括完全中学的初中部).从每所学校的七年级随机选取5~7名数学教师作为教师样本,选取每位教师教授的一个班的学生为学生样本(随机选择每位教师的一半的学生完成代数测试),有效数据为:1 304名学生的代数测试数据.
4 数据分析与讨论
利用实际施测数据对于几种方法进行了比较,讨论了各种方法的差异,进而获得了适合该研究数据分析的相对高效度的分析方法.
尝试一:利用综述中的方法一获得对于学生属性掌握分数的估计,每个学生的属性掌握情况由一个八维向量来表示,但通过计算各个维度属性掌握分数的相关系数,发现该方法在分析研究数据的计算结果存在一定的问题,如表5所示.
表5 属性掌握分数的相关性的案例
通过相关分析,学生在某些属性的掌握概率与另外一些属性的掌握概率呈现负相关(如表5中用下划线标识的),而且相关系数较大(统计显著),项目反应理论(IRT)估计的学生数学能力数值(在表格中以BILGdata表示)与部分属性能力数值呈现负相关的现象.
这种现象与教育实践经验无疑是不相符的,通常的认识是在同一个领域的学习中,不同的内容间的学习情况在一个群体中应当是具有一定的一致性的,呈现强负相关的情况无疑是值得怀疑的.
这是由于在对于学生进行多维认知评价的时候使用具有单维假设(假设学生的能力能够用一个数值来表示)的IRT模型所带来的问题.即在计算滑动似然的时候,单维的IRT模型不易精确刻画相应的似然,同时此研究的测试在使用IRT分析时,鉴于实际作答情况,采取了3参数的IRT模型(有两道非选择试题也做了3参数分析),这在某种程度上降低了IRT分析的精确性.
从这个意义上讲,对于项目反应理论模型估计参数效果不佳,即具有一定数量的非选择题,并且涉及的知识内容较为宽泛(属性之间的差异较大,不满足IRT的单一维度假设)的测验,不宜采用上述模型分析.
在这样的情况下,尝试不基于IRT模型的分析方法.
尝试二:利用综述中的方法二,其估计结果不存在上一方法中所出现的负相关和估计值过小的问题.但出现一个新的问题,即部分涉及项目较少的属性的掌握分数估计结果较为单一(只有3种分数,对应3种属性掌握情况),如属性A4.3(有两个题目涉及),不易区分出学生对于该属性的不同掌握情况.属性A4.3的掌握分数估计结果见表6.
表6 属性A4.3的掌握分数估计结果
这种单一的现象使得对于某些属性的掌握分数的估计过于依赖单一的题目,而忽略了各个属性之间的相关性对于估计某些属性掌握概率的贡献,如有理由期望在低一层次掌握较好的学生比掌握较差的学生更有可能掌握更为高级的属性(恰恰后文分析的神经网络模型可以实现这点).这种现象是由于对于属性A4.3仅有两道题目测试,造成分母值较为单一.
同时,该结果出现了低水平属性和高水平属性能力“倒挂”的现象,如所有学生属性A1.1的属性能力的均值为0.045 087,作为最基础需要掌握的属性,其得分反而低于其它所有的属性,这无疑有悖于教育经验.出现这种现象的原因是因为该种估计方法依赖于项目的数量,由于测试条件限制(时间限制),代数测试的项目数量有限,这就使得随机因素影响了参数估计结果.同时这也是一种基于实际数据的模型,抛开了属性的层级结构的假设,因此产生了“倒挂”现象的可能.
从这个意义上讲,对于题目数量有限但需要评价的认知属性较多(且相关关系“紧密”)的测验,该评价方法不易充分利用理论设计中的认知结构模型来高效度地测量学生的属性掌握情况.
分析上述不足,研究者尝试第三种参数估计方式:
将20个与期望属性掌握模式相对应的期望反应模式(由矩阵生成的学生对于各个属性的掌握的各种情况(对于每种属性仅限制于没有掌握和完全掌握两种情况))作为样本(Examplers),即20个十二维向量做为模型训练的输入.而将20个期望反应模式作为期望变量(Desired Varibales),即20个八维向量作为模型训练的输出.
选择SPSS16.0的默认设置(如,多层感知器(Multilayer Perceptron)过程,Batch类型的训练类型,自动生成隐藏层单元数等),获得估计结果,形成权重矩阵.这个权重矩阵和激发函数即作为连接前文所述实际反应模式与属性能力的映射.注意这是一个基于理论假设而非基于数据的模型.
进而将学生的项目反应作为向量,输入属性能力,SPSS自动生成了16个隐藏层:即学生的8个属性掌握能力的八维向量到一个虚拟隐藏层的十六维向量再到学生答题结果(12道题)的十二维向量的映射,从而可以通过学生的答题结果回归估计学生的属性掌握能力.
需要注意的是,这是一种不受数据影响的估计方法,其参数估计完全基于测验内容的理论设计(不由实测数据估计参数的模型),而不受到学生回答情况的影响,因此相对于施测情况不是特别理想的测验(如学生不认真作答)相对有效.
表5的数据表明模型的拟合较好.
表5 模型拟合指标
对于前述两个模型出现的问题,神经网络模型都提供了很好的解决方法.各个属性之间呈现正向相关.这个结果与周超(2009)[10]的研究结果相一致(虽然对于认知水平的认识和处理方式(如基于题目和基于教学目标、内容)有所差异).
神经网络模型能够很好地利用各个属性之间的联系(特别是层次结构关系)来更精细地估计属性分数.不同题目的反应对通过权重为属性分数的估计提供了贡献.例如:对于两个都错误地回答了A4.3有关的题目的学生,很好地掌握了属性A4.3上位属性(包括A1.1、A1.3、A1.4、A3.2、A4.2)的学生对于A4.3的掌握情况,估计很可能好于未能很好地掌握这些属性的学生.
通过上述分析,可以看到,对于有如下特征的测验,人工神经网络模型能够很好的分析.(1)基于认知结构模型设计的;(2)题目数量有限;(3)要测量的属性较为宽泛;(4)题型丰富(选择,填空,解答)且不易用IRT模型分析.
至此,应用人工神经网络模型可以获得对于学生在各个数学学习目标(认知属性)的学习评价结果,每位同学都得到了一个标准化的成绩报告,包括其在8个代数学习内容上的评分.这个成绩报告可以为后续教学实践活动提供指导,如:为教学质量提供系统的反馈,针对性地设计“补偿性”教学(包括采用“微课”等信息技术的方式).
5 结 论
通过测试工具的编制与实施的过程分析可以看到,认知诊断可以帮助数学教育工作者系统地设计结构效度较高的诊断性测验工具.认知属性概念,可以帮助研究者和实践者分析影响学生解答数学题目背后的认知结构.同时,通过比较几种参数估计方法,找到可以相对合理的对测验结果数据进行多维分析的统计模型——人工神经网络模型.该模型能够充分地利用理论设计的认知模型,克服测验题目有限、题型多样、认知属性差异大等不易分析的困难,较好地评价学生的数学学业成就,为后续教学提供诊断性信息,达到了诊断性测验的目的.
这些评价数据信息不仅可以用于有针对性的教学改进,也为大样本教育政策研究,如教育效能、学校效能、教师效能研究等,提供了精细的学生评价数据.
[1] 涂冬波,蔡艳,戴海崎,等.现代测量理论下四大认知诊断模型述评[J].心理学探新,2008,(2):64-68.
[2] Tatsuoka K K.[M]. New York and London: Routledge Taylor & Francis Group, 2009.
[3] 孙佳楠,张淑梅,辛涛,等.基于矩阵和广义距离的认知诊断方法[J].心理学报,2011,(9):1 095-1 102.
[4] Leighton J P, Gierl M J, Hunka S M. The Attribute Hierarchy Method for Cognitive Assessment: A Variation on Tatsuoka’s Rule-Space Approach [J]., 2004, 41(3): 205-237.
[5] 王立东.数学教师对学生学业成就的影响研究[D].北京师范大学,2012.
[6] 朱文芳.俄罗斯数学教育评价改革的动态与研究[J].课程·教材·教法,2006,(2):90-92.
[7] 丁树良,祝玉芳,林海菁,等.Tatsuoka矩阵理论的修正[J].心理学报,2009,(41):175-181.
[8] 朱金鑫,张淑梅,辛涛.属性掌握概率分类模型——一种基于矩阵的认知诊断模型[J].北京师范大学学报,2009,(2):117-122.
[9] Gierl M J, Wang C, Zhou J. Using the Attribute Hierarchy Method to Make Diagnostic Inferences about Examinees’ Cognitive Skills in Algebra on the SAT [J]., 2008, 6(6): 53.
[10] 周超.八年级学生数学认知水平的检测与相关分析[D].华东师范大学,2009.
Application of Cognitive Diagnose Model in Mathematics Educational Assessment
WANG Li-dong1, GUO Kan2, MENG Meng3
(1. The High School Affiliated to RENMIN University of China, Beijing 100080, China;2. School of Mathematical Science, Beijing Normal University, Beijing 100875, China;3. School of Mathematics and Statistics, Southwest University, Chongqing 400715, China)
Qualitatively illustrating the feasibility of developing mathematics education assessment tool based on Cognitive Diagnose Model. Several different parameter estimation model based on survey data were compared. The results indicated that the concept of cognitive attributes could help both the researchers and the practitioners to analyze the cognitive structure behind students’ solutions of mathematical problems. Artificial neural networks model could fully make use of the cognitive model to solve the problems of limited amount of rubrics as well as diversity of different cognitive attributes, and assess students’ mathematical achievement with high validity, which provide diagnosestic information for future instruction.
mathematics educational assessment; multi-dimensional scoring; CDM; HLM; ANN
G40-034
A
1004–9894(2016)06–0015–05
2016–08–14
全国教育科学“十二五”规划2015年度青年专项课题——数学教育视角下的影子教育研究(EHA150424);国家自然科学基金课题——用于多级评分认知诊断的统计模型研究(11171029)
王立东(1983—),男,黑龙江哈尔滨人,教育学博士,主要从事数学教学论、教育测量评价、超常儿童教育的理论研究与实践.
[责任编校:周学智]