基于纵向认知诊断模型的形成性评价研究
——以中学物理欧姆定律教学为例
2024-01-25钟志强
钟志强
(鞍山师范学院 物理学院,辽宁 鞍山 114007)
认知诊断(cognitive diagnosis model,CDM)模型中的认知属性是指完成测验所需的知识结构或认知加工技能.认知属性掌握模式是认知属性的逻辑组合.认知诊断模型利用统计方法根据测试作答情况将被试划分到相应认知属性掌握模式中,从而可以对学生认知水平及教师教学效果进行评估,并提供个性化建议,完善形成性评价.
当前,认知诊断模型应用多以横断研究为主,假定被试知识状态在一段时间内相对固定,对被试认知属性在该时段上答题记录的掌握情况进行评估与分类,并以此进行补救教学.为进一步判断教学效果,需收集被试跨时间段的测评数据,使用纵向认知诊断(longitudinal cognitive diagnostic model,LCDM)模型评估学生认知属性掌握和潜在能力变化的情况.探索纵向认知诊断最初实践手段是重复横断认知诊断并对前测与后测的数据进行比较的过程.其不足在于:缺少随时间变化对模型参数进行校准的机制,无法在统一量规中同时估计参数值[1],这样,就不能进行纵向参数估计并得到更精准的诊断分类结果.因此,后续学者将潜在转换分析LTA技术引入DINA模型、DINO模型或LCDM模型,从而产生了LTA-CDM,其目标是确定潜在分类是否会随时间变化,但还存在等间隔测量和认知属性独立的应用前提.因而,探索能满足跨多时间段测量理论假设且测量指标相对连续稳定的纵向认知诊断模型是当前理论与实践关注的问题.
1 研究模型的选择
HO-GDINA(the higher order-general deterministic input noisy “and” gate)模型假定认知结构具有跨时间不变性,即不同时间点所测量的属性不变,可以同时测量全体与个体一阶能力和二阶知识属性的变化[2].其简化模型表征如图1[3],潜在变量属性(a)关联潜在能力(γ),其结构类似结构方程中的测量模型;潜在能力(θ)关联潜在变量属性(a),能力可随时间连续变化从θ1到θt,其结构类似结构方程中的结构模型;特殊维度是实现两个测验等值转换并方便分数间可比性的锚题.第一阶测量模型表征潜在变量属性(a)与题目作答之间的关系,是对DINA模型的逻辑回归转换.第二阶高阶潜在结构(higher-order latent structural model)模型表征一般潜在能力(θ)与潜在变量属性(a)之间的关系.第三阶纵向发展模型反映潜在能力(θ)随时间变化的情况,其中,潜在能力为多元正态分布.参考相关模型及文献[4],本研究选择了HO-GDINA模型,利用R语言的CDM包等进行纵向认知诊断模型分析.
图1 HO-GDINA模型
2 研究方法与过程
2.1 测试题
欧姆定律是中学物理教学中的重点和难点,需反复教学与练习,是进行纵向认知诊断研究的优选对象.本次研究测试题主体采用的是“确定和解释纯电阻电路概念测试(determining and interpreting resistive electric circuits concepts test,DIRECT1.0)”.该测试是国际测量欧姆定律相关知识的常用测量工具,共29道题,每题3~5个选项,答题30 min,已证明该测试题具有较高的信度和效度.
本次研究邀请有经验的中学物理教师和高校物理教学与课程论教师共6人.在明确认知诊断测验编制基本要求的前提下,对试题涉及的认知模型基本概念达成共识,并对DIRECT试题进行了适当补充.表1规定了正确答题需要的知识和策略认知属性.图2(a)表征了认知属性之间的层级结构,是知识信息加工的心理顺序或者逻辑顺序(深色块表示试题包含对应属性).图2(b)明晰了表征属性与题目之间关系的认知属性.两套测试卷包含了Q矩阵完全相同的20道题.其中,试卷满足对每个属性大于3次考查的条件[5],且各有5道重复试题作为锚题,见图2(b)前5列矩阵.锚题实现了试题参数的跨时间可比性,既解决横向平行测验,也解决纵向重复测验,其选择满足如下基本要求:测验全部认知属性,难度在中等偏上,数量占总试题数量的1/4~1/3[6].
表1 欧姆定律认知属性列表
图2 欧姆定律属性层级结构(a)与两卷共同Q矩阵(b)
2.2 测试对象
采用整群抽样法,在辽宁省沈阳市选取A、B两所整体教育质量处于中等水平的初中学校作为测试对象.收集了846人的两次测试成绩,其中,A学校430人,B学校416人.
2.3 测试过程
首先,利用两试卷分别对A、B两所学校进行第一次测试,应用认知诊断模型分析整体和个体知识点掌握状况,以此作为调整和补救教学的依据.其次,进行两个学校集体教学补救,学校A采用常规错题讲解法补救,学校B采用认知诊断法补救.再次,交换试卷,再对两所学校进行第二次测试.最后,利用纵向认知诊断法分析整体和个体知识点的掌握状态和能力变化,判断补救的教学效果,给出下次补救教学的建议,从而实现更加精准的形成性评价研究.
3 试题参数检验
试题参数检验是模型拟合和教学诊断的前提,检验参数包括试题猜测系数、失误系数、难度、区分度、近似误差均方根.
从表2可知,试题猜测系数、失误系数最大值均小于0.4,说明模型参数合理、结果可靠.试题难度值在0.5左右,系数合理.区分度在0.936~1.000区间,大于0.4,说明本次研究试题区分度非常理想.近似误差均方根平均值为0.070,小于0.1,说明试题误差合理.全部题目均合乎效度要求.
表2 认知诊断模型试题参数检验结果
传统的信度分析在实践上难以满足平行测验的应用条件,理论上还有单个测验Cronbach’sα系数偶尔会落在信度区间外的问题.源于项目反应理论的信度分析也存在使用条件限制,即掌握概率标准误的属性经验信度系数是建立在潜变量方差和误差方差相互独立假设之上[7],多个潜变量模型达到相同精确估计需要更大规模测试.为弥补以上信效度检验方法的不足,认知诊断模型应采用分类准确性效度和一致性信度.本次研究的分类准确性效度为0.998,分类一致性信度为0.997.可见,模型试题参数检验结果理想.
4 第一次横向认知诊断分析
4.1 整体属性模式和平均分数分布
两校整体属性模式和模式对应的平均分数分布见图3.
图3 整体属性模式(a)和模式对应的平均分数分布(b)
根据属性间的层级关系,模型共形成12种属性模式.图3(a)中第426号个体属性模式为“110010”,共有60人,在进一步计算结果中,该模式有58个8分和2个13分两种得分形式,由此可知,相同属性模式的答题分数不一定相同.在得8分的学生中,有215个“111000”、58个“110010”和1个“111100”三种属性模式,图3(b)中平均分从左到右升序排列,表示属性模式的难易顺序.其中,属性模式“111000”人数最多,即表1认知属性编码中a1、a2、a3三个属性都掌握的人数有216人,平均分(每题1分)为8分;“111111”属性全掌握模式分值虽最高,但标准差也较大,说明全掌握模式不一定能答对所有题.由此可知,相同分数学生不一定具有相同的属性模式,对其教学补救措施也应不同.
4.2 横向认知诊断结果
第一次认知诊断只属于横向分析,包括属性整体掌握程度与正确答题率.由于本次研究仅涉及6个掌握程度属性变量,较少的数据变量不适合统计分析,因而以定性分析加以说明.从图4(a)认知属性掌握程度可知,两校总体相似:a1、a2掌握很好,a3、a6掌握明显不足.从图4(b)试题正确答题率中可知:9、10、6、1、7较为容易,16、18、19、20、17、2相对较难,总体试题和锚题难度分布合理.在本次实验中,由于研究数据的非正定性,研究工具R语言CDM包中的gdina.dif对象不能建立,因而实验错失了软件系统自带的试题卡方检验.因此,本次研究采用试题作答程度(平均分)的t检验,对比两个独立或相关样本正确答题率是否存在差异.其中,两次所有试题正确答题率都整体通过了方差齐次性Levene检验(p>0.05).使用独立样本t检验比较第一次横向两次成绩(t=0.150,p=0.880),认为两校20道题正确答题率差别较小.结合两校6种认知掌握程度,可以确定两校当前教学质量基本一致.
图4 第一次测试两校试题认知属性掌握程度(a)与正确答题率比较(b)
4.3 教学补救方法
教学补救可分集体教学补救和个别化教学补救.鉴于学校教学多以班级授课形式存在,应优先考虑集体教学补救.两校在有限的规定时间(两学时)内进行教学补救:A校采用错题补救法,参考图3(b)部分,重点选讲考试有难度的试题;B校采用认知诊断补救法,参照图2(a)中属性层级关系和图4(a)中认知属性掌握不足的先后顺序a3 试题正确答题率是显变量,属于直接实测数据.使用相关样本t检验进行同校前后两次试题正确答题率数据比较,即纵向比较.数据通过方差齐次性Levene检验(p>0.05),A校纵向t检验结果为t=1.283,p=0.214;B校纵向t检验结果为t=5.315,p<0.01.可见,B校成绩前后变化显著,达到统计标准,认知诊断补救取得预期教学效果.在图5(a)成绩箱线图中可看出:正确率在补救教学后都得到提高,但B校第2次成绩比较集中,因而教学效果相对较好.在图5(b)正确答题率变化图中可看出:两校难度较大的试题正确率均有提高,但B校提高较多;难度中等的试题正确率,A校数据两次交错,B校数据一致提高;难度较低的试题中,A校正确率微有下降,B校表现持平.总体看来,A校补救教学有助于难题解答,B校补救教学有利于提高总体成绩. 图5 两校4次试题正确答题率分布与比较箱线图(a)与折线图(b) 掌握程度与学生能力是潜变量,属于间接测量数据,通过模型计算获得.学校属性掌握程度需定性分析.在图6(a)属性掌握程度中,两校整体6个属性纵向均有提高,B校第二次提高较大;两校属性a6教学效果改善不明显,应该是下次教学补救的重点.HO-GDINA模型能计算学生能力,可利用高阶一般能力变化进行数据分析,兼顾横向和纵向比较.为避免多次利用t检验会加大Ⅰ类统计错误,本研究利用Holm法得矫正p值.两校学生4次能力数据全部通过正态分布Shapiro检验(p>0.05)、方差齐次性Levene检验(p>0.05)和单因素方差分析检验(F=22.084 9,p<0.05),说明数据方差齐次并存在组间区别,满足多重t检验的应用条件.根据统计结果,B校纵向比较(t=3.170,p<0.05)、A校纵向比较(t=8.500,p<0.05)、第2次A与B横向比较(t=4.311,p<0.05)三项均达到统计水平上的显著差异.由此可知,A、B两校教学效果均有提高,但B校补救教学效果更明显.借助能力数据表征的图6(b)整体能力和图6(c)个体能力,也可定性分析(能力按各自升序排列). 图6 两校4次属性掌握程度与能力分布 教育测量中,项目反应理论结合总结性评价,从宏观角度考查学生的成绩与能力;认知诊断理论对应着形成性评价,能帮助教师宏观把握学校和班级整体认知结构,微观把握学生个体认知状态,对学生认知属性有所了解.B校借助认知结构诊断报告提供的教学反馈信息,经过补救教学,教学效果好于A校,主要表现在:学生成绩的集中水平和分散程度有所改进,尽管仍有少数学生没能掌握难度较大的属性,但属性的掌握情况多数增强,能力变化效果显著. HO-GDINA模型能够实现纵向诊断功能,评估补救教学效果,促进形成性评价,但也有不足.理论上,模型假设属性结构独立,这与教学实践不符.一是同一教学单元中,学生的知识掌握程度和层级属性关系会随学习过程而改变.二是不同教学单元中,认知属性和知识结构是变化的,也不能通过属性粒度的调整融入相同的模型中.实践中,受教学时长限制,同一教学单元的纵向评价不能有过多频次,纵向诊断的生存周期与纵向诊断发挥优势又表现出逻辑悖论.此外,在知识追踪研究中考虑的学生答题时间因素也没能纳入认知诊断模型中,这是认知诊断模型的又一缺陷.如此,动态地表征学习者知识掌握程度的认知模型应是当前理论与实践探索的重要方向.5 第二次纵向认知诊断分析
5.1 两校试题正确答题率纵向比较
5.2 两校属性掌握程度与学生能力比较
6 总结与展望