基础教育学业水平评价的新方式:CAT认知诊断
2012-04-29彭春妹简小珠
摘 要:认知诊断是目前基础教育学业水平评价的热点研究之一。计算机自适应测验与认知诊断技术结合,发展到具有认知诊断功能的计算机自适应测验(CAT认知诊断)功能,通过CAT认知诊断方法可以在课堂教学中测试并即时反馈结果,给出学生知识掌握的诊断信息,为后续的补救教学提供了参考依据。有研究者认为,CAT认知诊断将逐渐成为基础教育学业水平评价的主要形式。
关键词:基础教育;CAT认知诊断;学业水平评价
中图分类号:G40-058.1 文献标识码:A 文章编号:1009-010X(2012)08-0023-03
一、CAT认知诊断的发展背景
对学业水平进行认知诊断是目前基础教育测量与学业水平评价的热点研究之一。随着现代教育测量的认知诊断理论技术的发展,许多研究者认为,在学业水平评价中不能仅仅满足于给学生一个简单的考试分数,而要给出知识掌握的诊断信息,判断学生的认知结构所存在的缺陷,以便在后续教学中给予恰切的补救措施。而传统的考试评价方法仅关注了学生的作答结果,忽视了学生完成作业时的认知过程,只是简单提供一个考试分数或者评定等级,不能对学生的不同的知识掌握状态作出比较准确的诊断评价。例如,对于相同分数的学生个体间的差异,过去的考试测量方法是无法区分的;而且在测验中的某一个知识点的作答准确率,只能够说明有多少学生掌握,多少未掌握,但对未掌握的学生答错试题的原因无法判断。
认知诊断理论是以认知心理学和现代教育测量理论为基础的,根据测量任务的认知分析,编制认知诊断测验,根据学生作答反应,来诊断学生的知识掌握情况,从而为进一步的补救教学提供依据。认知诊断的目标是将认知状态分为多个认知状态模式(多个认知状态类型),根据学生的作答情况将学生归为某一认知状态模式,并具体分析该学生哪些知识点掌握了,哪些知识点未掌握。
美国教育法案“No Child Left Behind Act of 2001”规定所有实施的测验须向家长、学生和老师提供诊断信息。美国教育界逐渐加强了基础教育阶段的学生学业水平的测试评价;而且,普遍认识到,考试在给出分数结果的同时,也应给予诊断评价,考试与评价要为促进学生发展服务。目前,大规模运用认知诊断测验来评价学生学业水平的典型例子是美国的PSAT(高考预考)。
随着计算机自适应测验(Computerized Adaptive Testing, CAT)技术的广泛应用,认知诊断方法与计算机自适应测验进一步相结合,已发展到具有认知诊断功能的计算机自适应测验,即CAT认知诊断,可运用计算机自适应测验对学生进行认知诊断,例如Tatsuoka(1997)应用规则空间方法开发具有认知诊断功能的CAT[1],实现了对个体的认知属性进行认知诊断。随后,不少研究者仍在继续对CAT认知诊断测量方法进行不断完善。使用CAT认知诊断进行学业水平诊断评价的一个显著优点是,能立即诊断、分析出学生的知识掌握状态,并能立即将信息反馈给教师和学生,为教师的补救教学和学生的补救复习提供参考依据。
二、CAT认知诊断方法的基本组成部分
Huebner提出计算机自适应测验有六个基本组成部分。同样,CAT认知诊断也是由六个基本部分组成:(1)用于CAT认知诊断的测量模型;(2)建立量表化的题库;(3)CAT认知诊断的测试起点;(4)CAT认知诊断的选题策略;(5)CAT认知诊断的测验终止标准;(6)最终能力估计与知识状态估计的方法。
(一)用于CAT认知诊断的测量模型
计算机自适应测验进行认知诊断的测量基础,是适用的认知诊断测量模型。在目前的研究与实践中,可用于计算机自适应测验方式的认知诊断模型比较多,但主要的常用模型有三种:DINA模型(the Deterministic Input, Noisy-And Gate Model )、NIDA模型(the Noisy Input, Deterministic-And Gate Model)和规则空间模型(Rule-Space Model)。其中,DINA 模型是目前研究者使用较多的模型,它采用了简化的模型定义,仅涉及到“失误”和“猜测”两类参数,真正实现了对认知诊断模型的简化,参数估计相对简单,且易于解释。
(二)建立量表化的题库
建设用于认知诊断、参数估计量表化题库,是进行CAT认知诊断测验的一项基础性工作。在认知诊断题库的建设过程中,要根据已选定认知诊断模型,对目标知识内容进行认知结构和认知属性分析,列出认知属性矩阵并据此编制相应的测验项目,这项工作将由相关知识领域的专家和具有丰富教学经验的学科教师,与教育测量专家一起共同完成,是根据编制好的测验项目进行初测,并使用认知诊断模型的参数估计软件,来估计试题的认知属性参数,从而完成测验的题库建设。
(三)CAT认知诊断的测试起点
CAT认知诊断的最初测试的几道试题,往往是从反映基本的、常用的知识属性试题中来选择的,且前5道试题都是随机选择,第五道试题在测试之后才进行学生能力估计和认知属性掌握的诊断。如果已经获得了学生以往的认知诊断的测试记录,特别是当CAT认知诊断测试是一个连续性测试,或者存在前测、后测、再测的情况时,那么,在第二次对该学生进行CAT认知诊断时,则可以根据以往的测试情况进行试题选择。
(四)CAT认知诊断的选题策略
在CAT认知诊断测试的第五道试题之后,学生每答完一道试题后,就进行一次能力估计和认知诊断分析,并据此进行下一道试题的选择,因而CAT认知诊断选题策略是影响到是否能准确测量学生认知属性的重要步骤。Xu,Chang和Douglas(2003)提出了两种选题策略: K-L信息函数方法和Shannon Entropy 信息量方法,并通过研究论述了这两种选题方法能较好的实现CAT认知诊断。后来有研究者[4,5] 又在这两种选题策略的基础上进行了改进,提出后验加权K-L信息函数方法,和混合K-L信息函数方法,并进行了有关的比较研究。
(五)CAT认知诊断的测验终止标准
Tatsuoka(2002)最早提出了CAT认知诊断的终止标准,当学生被判别为某一知识状态类型时的后验概率大于0.80时,则可以终止测验。本标准也同时为使用CAT认知诊断来对学生进行认知诊断的测量精度和能力估计的测量标准,提供了依据,一般来说,学生能力估计的后验分布越陡峭,对学生知识状态诊断的精确性越高。
(六)最终能力估计方法与知识状态估计
在CAT认知诊断的最后步骤,是对学生的掌握知识状态进行分类。目前常用的方法是贝叶斯后验估计方法(Bayes Rule)。在CAT认知诊断中对学生的知识掌握状态分类,与纸笔测验下对学生知识掌握状态分类是一样的。认知诊断的结果报告形式,包括技能掌握概率分析图、以及个人的认知状态“掌握”情况(分为“掌握”和“未掌握”两种),将详细报告每个学生在各个知识技能点上的掌握概率。当知识技能掌握概率在0.8以上,则判断学生在该知识技能点上为“掌握”。
三、CAT认知诊断在基础教育学业水平评价中的展望
目前,中小学课堂教学的学业水平评价,主要是依靠考试分数,教师往往仅根据个人经验来判断学生的知识掌握状态和认知错误。而现代教育测量的认知诊断技术,包括 CAT认知诊断,可以为每一个学生的知识掌握情况进行认知诊断分析,进而为教师的后续补救教学、个性化指导,以及学生的补救复习提供有效的参考依据。目前,已有研究将CAT认知诊断运用于一些教学知识单元模块,特别是掌上移动实验室技术,以及移动网络技术的出现与发展,有助于推动CAT认知诊断测量方法在课堂教学使用并推广。
Jang设想了未来CAT认知诊断测量方法在课堂教学中的应用情境:在每个单元教学结束时,教师应立即进行认知诊断的小测验,学生在课堂上用微型电脑完成CAT认知诊断测试,学生完成作答后就可以立即报告分数,并详细分析、报告学生对哪些知识掌握了,哪些未掌握,教师据此进行有针对性的补救教学。Jang认为,如果将来课堂教学能达到这一步,CAT认知诊断将会逐渐成为课堂教学的有效测量评价方法。
当然,CAT认知诊断理论与技术运用于课堂教学,还需要进一步克服以下两个方面的困难:一是要根据课堂教学内容与知识点,如何进行认知属性分析并以此为基础编制认知诊断试题,以形成CAT诊断测验;二是要进一步发展可操作性强、(下转第26页)(上接第24页)易于推广使用的CAT认知诊断模型,从而有效而简洁地对学生的作答反应进行CAT诊断分析,以得到准确的诊断分析结果。
参考文献:
[1]Tatsuoka K K, Tatsuoka M M. Computerized cognitive diagnostic adaptive testing: Effects on remedial instruction as empirical validation[J]. Journal of educational measurement. 1997,34,(1):3~20.
[2]Huebner A. An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive Assessments [J]. Practical Assessment, Research Evaluation. 2010,15,(3):13~15.
[3]Xu X, Chang H, Douglas J. A simulation study to compare CAT strategies for cognitive diagnosis[Z]. 2003. Paper presented at the the annual meeting of the American Educational Research.
[4]Cheng Y. When cognitive diagnosis meets computerized adaptive testing: CAT认知诊断[J]. Psychometrika. 2009,74,(4): 619~632.
[5]Mcglohen M, Chang H. Combining computer adaptive testing technology with cognitively diagnostic assessment[J]. Behavior Research Methods. 2008,40,(3):808~821.
[6]Tatsuoka C. Data analytic methods for latent partially ordered classification models[J]. Applied Statistics. 2002,51,(3):337~350.
[7]吴绍兵,卓 斌. 探析MCL条件下中学数学课堂教与学方式的若干变化[J].上海教育科研,2011,(10):78~79.
[8]Triantafillou E, Georgiadou E. The design and evaluation of a computerized adaptive test on mobile devices. [J]. Computer Education. 2008,50,(4): 1319~1330.
[9]Jang E. A framework for cognitive diagnostic assessment. [M]. Towards an adaptive CALL: Natural language Processing for diagnostic language assessment , Chapelle C A, Chung Y R, Xu J, Ames,IA:Iowa State University, 2008,117~131.