智慧教育视野下基于Rasch模型的知识掌握与认知能力分析研究 *

2021-10-08武法提樊敏生

华东师范大学学报（教育科学版） 2021年8期

武法提田浩王瑜樊敏生

（1. 数字学习与教育公共服务教育部工程研究中心，北京 100875；2. 北京师范大学教育技术学院，北京 100875；3. 宝安中学（集团）实验学校，深圳 518101；4. 西北师范大学教育技术学院，兰州 730070）

一、引言

基于学生的表现数据进行精准诊断，是进行智能推荐和干预的前提，也是实现智慧教育的技术基础（彭红超，祝智庭，2017）。在传统教学环境中，学习诊断主要通过标准化测验方式，设计标准答案和采分点（王志军，陈丽，2017），考查学生对知识的掌握程度。在信息技术环境中，利用智慧教育云平台可以采集学生的过程行为数据，在关注总结性评价的同时也注重过程性评价（牟智佳，2014）。然而目前的在线学习评价指标体系尚未被大家一致认可，依然处于“众说纷纭”的状态（李玉斌等，2013），因此即使在信息化环境中，标准化测验依然是学习过程的主要诊断方式。

智慧教育不仅注重知识技能的传授，更看重学生认知能力的培养。但这种基于分数的诊断形式，其主要问题是无法挖掘考试背后的意义和本质（周群，雷新勇，2008），无法透过分数了解学生真实的认知能力。比如：同一分数的两位学生，其认知能力不一定完全相同；不同分数段的学生，其认知能力相差程度也无法判断；对于不同的考试，由于试卷难度不同，考试成绩的提高或降低无法表示学生认知能力的变化。可见，如何通过考试成绩分析学生真实的认知能力是智慧教育时代至关重要的命题。

本研究基于潜在特质模型—Rasch模型，设计学生认知能力的分析流程，使用学生的实际考试结果数据，分析其知识点掌握情况，并挖掘学生真实的认知能力，助力智慧教育视野下的学习诊断更加科学、精准。

二、Rasch模型在教育中的应用

（一）Rasch模型原理阐述

图1 Rasch模型数学关系函数图像

Rasch模型具有三个特征。第一，个体和题目共用同一标尺。通过Rasch模型的计算，个体能力与题目难度将转换为同一测量单位，从而能够直接比较题目难度与个体能力之间的关系。例如，即使学生未作答A试题，但根据学生在与A类似的B试题上的作答表现，便可对学生在A试题上的表现进行预测。第二，Rasch模型的分析结果具有线性特质。考试的原始分数是非线性的，相同的分数差距并不代表对知识掌握程度的相差程度相同，Rasch模型对成绩进行转化，使新的数据具有线性特征。例如，通过分析不同学生之间的分数差距，便可对其知识掌握水平差异进行预测。第三，参数分离。通过Rasch模型计算出的题目难度分布和学生能力分布之间相互独立，互不影响。例如，分析两位学生各自在两个不同考试中的表现，也可对其能力进行比较。

Rasch模型是一个理想状态下的模型。Rasch模型一般假设学生完成题目的情况只受知识影响，但这样的条件在现实教学中很难达到。学生作答情况受多方面因素的影响，个人能力是主要因素，但是周围的环境、学生当时的状态、阅读理解问题的能力等都会对作答情况产生影响。比如，在现实教学中，一些学生在掌握了某一知识点的情况下依然会出现相应问题回答错误的情况，这可能是学生答题时不专心不认真导致的，但也不排除题目本身的表述存在问题。由于Rasch模型是理想化的，所以在使用Rasch模型时，首先需要对其进行拟合分析。Rasch模型进行数据分析时的拟合指标为残差的均方（Outfit MNSQ）和加权（以方差为加权系数）后残差的均方（Infit MNSQ）。两个指标的值在介于0.7到1.3之间时（Bowles & Ram，2006），说明数据与模型的拟合度良好，可以进行后续分析；当指标值小于0.7时称之为不饱和拟合，而大于1.3时称之为过度拟合。只有数据和模型间的拟合指数符合要求时，才可以继续进行接下来的分析，否则需要另外寻找解决的途径。

（二）Rasch模型在教育领域的典型案例

教学评价就是使用具有良好信效度的评价工具对学习者进行精准诊断，并根据诊断结果施加教学改进和干预的过程（马世晔，章建石，2012）。本文选取教育领域中Rasch模型的三个应用案例，其研究目标分别侧重于检验工具信效度、诊断学习者真实能力、检验教学干预有效性，以此来说明Rasch模型助力学习诊断与评价的机制。

1. Rasch模型检验测验工具的信效度

考试是对学习者进行评价的一种重要手段。通过对一系列试题进行作答，可以检验学生的学业成就以及学习行为的变化情况，但是目前缺乏一种系统性的方法，能够有效分析测验工具的信效度。

塔里布等人（Talib et al.，2018）以某大学150位大二学生为研究对象，通过Rasch模型对某门课程中学习者的期末考试作答数据进行分析，提出了一种能够有效测量测验工具信效度的程序化方法。

该研究使用Rasch模型将学生表现与试题难度转化为logit单位，并置于同一标尺下进行比较。若试题平均难度低于学生平均表现，则表明试题较为简单；通过Rasch模型拟合，被试信度与试题信度较高，体现了该试题的可靠性较好；同时，该套试题的被试分离度较高，反映出试题具有较好的区分度。

2. Rasch模型测量学习者的真实能力

基于产出的教育（outcome-based education，简称OBE）是一种以能力作为产出导向，关注学生能力的提升，更加以学生为中心的教育形式（苏芃，李曼丽，2018）。在OBE理念下，学生的表现可以通过考试、小组项目、汇报展示等多种方法进行评估。然而，仅凭借学生在考试、项目中的得分来精准测量学生真实的能力仍是相当困难的。

奥斯曼等人（Osman et al.，2012）以某大学的64位本科生作为研究对象，以其在《工程设计II》课程中的表现作为研究数据来源。课程最终使用四种方式进行综合考核，分别是设计项目、BQ报告、汇报展示、同伴互评。

借助Winsteps工具，我们使用单维Rasch模型对学生表现数据进行分析，得到个体−题项分布图。通过比较学生与题项在图中的间距，我们可以得到学生的能力水平。间距越大，表明学生顺利完成该项目的可能性越大。位于题项平均难度以上的学习者，反映出其表现要高于预期；而针对完成项目时存在困难的学习者，则需要在对应项目中施加干预来提升他们的学业表现。

3. Rasch模型判断教学模式的有效性

目前对于教学模式的有效性大多通过准实验的方式进行验证，通过分组实施教育干预，进而对实验组和对照组进行差异性检验。然而，传统的差异检验方法（如t检验和ANOVA）仅能分析整体组别间的差异，而无法说明个体层面上的教学有效性。

Vogel & Engelhard（2011）使用多面Rasch模型（many-faceted Rasch，简称MFR），比较演绎式教学和归纳式教学成效的差异。该研究以44名大学生在法语课上对10个语法结构的学习为例，将所有学生随机分为两组，分别实施两类不同的教学方法，在学期始末分别对两组学生的法语水平进行前后测，并在前后测之间穿插进行10次阶段性测验。

MFR在Rasch模型中除了学生能力和题项难度之外，还包含了更多因素，在该研究中是指前后测之间的时间因素以及两种教学方式的效果。借助FACETS工具，该案例分别对时间—题项，以及教学方法—题项进行交互分析，结果显示题目的难度在前后测之间以及不同组别之间均无显著差异。在过程性测验中，通过计算分离信度，并比较不同组别学生表现的平均值，发现学生在接受归纳教学法之后表现出来的能力水平显著高于演绎教学法。通过进一步进行残差分析，可以得到每位学生在每道题目上的实际表现，进而了解不同教学方法对不同个体的教学有效性。

通过以上对典型案例的分析可以看出，Rasch模型在教育领域中的应用近年来取得了明显进展。使用Rasch模型，可以从试卷得分映射出背后学生真实的作答能力。学校教育备受诟病的弊患之一是“高分低能”，也即学生可以在测验中获得高分数，但不一定能够掌握足够的领域问题解决能力。因为知识与能力虽同属教育的重要目标，但二者的获得机制却完全不同（王映学，2016）。然而，已有的Rasch模型所探讨的“能力”是学习者作答试题的真实能力，并非学习者对领域知识的认知能力，因此已有研究对知识掌握与认知能力的关系挖掘尚有不足。基于此，本研究以布鲁姆认知领域学习分类为切入点，依托数字学习与教育公共服务教育部工程研究中心自主研发的Cloudbag智慧教育云平台中的组卷考试功能，通过Rasch模型分析学生的考试结果数据，从而判断学生的知识掌握水平和认知能力。

三、研究方法与过程

（一）研究对象

本研究选取贵阳市某中学高三年级4个文科班共195名学生作为研究对象，以其在2017年9月份政治月考试卷上的作答情况为例，探究Rasch模型在分析学生知识掌握水平和认知能力上的操作程序和方法。

（二）研究流程

首先，教师使用Cloudbag智慧教育云平台中的组卷功能，在平台题库中选取试题，组成月考试卷。其次，研究者和教师合作，针对月考试卷编制双向细目表，为每道题目标注知识点属性和认知能力属性，并在多轮试用之后为每道题目生成Rasch难度，从而将题目转换为可被Rasch模型分析的形式。然后，发放试卷给学生作答，并收集学生的作答数据，运用Rasch模型分析学生的知识掌握水平和认知能力。最后，将学生认知能力分析结果通过教育云平台中的学习分析仪表盘进行可视化呈现，实现在常态化课堂中分析学生认知能力的目标。

（三）分析模型及工具

（四）研究结果

1. 试题的编制

初始题目在编制前，需要根据大纲的要求以及所要考查的内容编制双向细目表，双向细目表是一个将知识细目维度和技能细目维度有机组合而成的列联表（魏玉平，潘虹辉，2016）。研究团队和实验学校的政治学科教师合作编制了月考试卷的双向细目表，根据双向细目表给每道题目添加了知识点属性，并依据布鲁姆认知领域学习分类为每道题关联认知能力要求，在进行多轮试用之后为每道题目生成Rasch难度，由此，题目就成为Rasch题库中的备用题目。最终编制的月考试卷共包括14道试题，其中单选题有12道，材料分析题有2道。题目与知识点和认知能力要求的关联情况见表1。需要说明的是，在材料分析题中，每个大题下设置有若干小题（第38题包括2个小题，第39题包括3个小题）。考虑到本研究的主要目的是分析学生的知识掌握能力与认知能力，且本研究使用的多维模型可以处理题目与知识点的非一对一的对应关系，因此后续分析仅从大题层面进行，无需细化到小题层次。

表1 政治月考试卷双向细目表

2. 拟合度检验

我们将月考试卷发放给高三年级的学生进行作答，并收集学生的作答数据。将14道试题的作答数据导入Winsteps软件，进行拟合度检验。题目的拟合分析包括加权拟合和未加权拟合两种，当两者的均方误差值均介于0.7到1.3之间时，说明数据结果符合Rasch模型的要求（Bowles & Ram，2006）。拟合度检验结果见表2，其中第17题（未加权拟合均方误差值为1.47>1.3）以及第19题（未加权拟合均方误差值为1.92>1.3）不符合模型要求，将其进行删除。后续分析基于删除之后的12道试题进行。同时对拟合指标不符合要求的学生进行删除，共删除学生31名，删除后剩余学生164名。

3. 学生能力与题目难度分布

通过Winsteps进行分析，可以得到怀特图，见图2。左侧的怀特图表示客观题的学生能力与题目难度分布情况，右侧怀特图表示材料分析题的学生能力与题目难度分布情况。每个怀特图的左列表示学生能力的分布，学生的位置越高表示学生能力越强；右列表示题目难度的分布，题目的位置越高表明题目难度越大。学生能力和题目难度均被转化为logit标尺，因此可以直接进行比较。在logit标尺下，题目的平均难度被设置为0。

图2 学生能力与题目难度分布图

在客观题的怀特图中，每个“#”代表3个学生，每个“·”代表1到2个学生。可以看出，大部分学生分布在−1 logit到1 logit之间，表明题目的难度适中且具有较好的区分度。其中，第13和第18题位于怀特图的顶部，表明这两道题难度最大，超过了所有学生的真实能力；而第15题位于怀特图的底部，表明这道题难度最小，小于所有学生的真实能力。第13题的难度值为1.64 logit，第15题的难度值为−2.68 logit，表明客观题之间的难度差异较大。并且第14题与第15题之间存在较大的空白区域，表明题目难度可以进一步调整以更加精细地测量学生能力。学生能力的平均值大于题目难度的平均值（0.23 logit>0 logit），说明从整体来看，学生的实际表现要高于预期。在材料分析题的怀特图中，每个“#”代表2个学生，每个“·”代表1个学生。大部分学生分布在0 logit到0.5 logit之间，并且学生能力的平均值大于题目难度的平均值（0.15 logit>0 logit），表明学生在材料分析题上表现出的能力高于预期。材料分析题共包括两个题目，其中第39题的难度较大，有42.7%（N=70）的学生能够顺利作答；而第38题的难度较小，有87.2%（N=141）的学生能够顺利作答。

表2 拟合度检验结果

4. 知识点掌握水平分布

单选题属于客观题，我们在分析时采用0−1的计分方式；材料分析题属于主观题，我们在分析时采用分步计分方式。由于计分方式的不同，后续知识点掌握水平分析与认知能力分析将分别针对客观题和主观题进行。

我们使用Conquest软件对各知识点的作答情况进行分析。月考卷中的客观题主要考察了12个知识点，在用软件分析的过程中，每个知识点相当于一个维度，通过对数据分析可以得出在每一个知识点上学生的分布。客观题知识点掌握水平分布见图3。图中最左侧为Rasch标尺，从下到上测量值逐渐升高，对于每个知识点中的学生而言，所处位置越靠近顶端，说明对于知识点的掌握越好。图中每个“X”代表1.3个学生，学生分布越集中说明知识点的区分度越小，分布越分散说明知识点的区分度越大。在图中我们可以看出在12个知识点上，学生的掌握水平基本上都呈正态分布，并集中分布在−1 logit到1 logit之间。说明在10道客观题中，虽然难易程度不一，但是均具有较好的区分度。

图3 客观题知识点掌握水平分布

在两道主观题中，共包含5个小题，考查了5个知识点。在主观题的知识点掌握水平分布图中，每个“X”代表1.1个学生。可以看出在5个知识点上，学生的掌握水平基本上都呈正态分布，并集中分布在−0.5 logit到0.5 logit之间（见图4），表明题目均具有良好的区分度。

图4 主观题知识点掌握水平分布

5. 学生知识掌握水平与认知能力分析

在对全体学生的知识点掌握水平分布情况进行分析之后，我们接下来使用Conquest工具对每个学生的知识掌握水平和认知能力进行分析。依据试卷的双向细目表，Conquest工具可以根据作答结果分析得出学生在每个知识点上的测量值，测量值越高，说明学生对此知识点的掌握水平越好；也可以得出学生在各认知能力层次的测量值，测量值越高，表明学生在该认知能力层次上的表现越好，达成该层次认知能力的可能性越大。

以学号为181104的学生为例。为了更加直观地将该生与班级平均水平进行对比，我们以雷达图的形式对知识点掌握水平进行可视化呈现。雷达图中的红色圆点线代表该生在各个知识点的掌握水平，蓝色实线代表该生所在班级整体的知识掌握水平，绿色短划线则代表整个年级的知识掌握水平。在客观题中，该生在“消费”“中国共产党”“群众观”“矛盾的特点”和“人生价值的创造与实现”等知识点上的掌握程度要远远高于班级平均水平；而在“公民权利与义务”“唯物辩证法”和“联系的特点”等知识点上的掌握程度远远低于班级平均水平（见图5a）。在主观题中，该生在“经济生活”与“政治生活”两个知识点上的掌握程度高于班级平均水平；而在“文化多样性”和“传统文化”两个知识点上的掌握程度则低于班级平均水平（见图5b）。

图5 (a)客观题知识点掌握水平雷达图；(b)主观题知识点掌握水平雷达图

进一步地，我们根据答题情况对学生的认知能力进行分析，仍然以学号为181104的学生为例。在使用Rasch模型完成认知能力的量化之后，通过单样本t检验判断该生认知能力层次与班级平均水平的差异，结果见表3。

表3 认知能力测量值t检验结果

在客观题中，主要考察了“理解”“应用”和“分析”三个认知层次。其中，“理解”的认知层次较低，客观题的12道试题中有8道试题关注该层次，这8道试题的难度分布较为均匀，对于学生的区分度较好，该同学在“理解”层次上表现出的认知能力显著高于班级平均水平（t=−4.290，p=0.000<0.001）；在“应用”层次，相关的2道试题难度均较低（第15题难度为−2.68 logit、第21题难度为−0.84 logit），班级整体能力均高于试题难度，因此这2道试题对于整体学生的区分度不高，该生与班级平均水平也未呈现显著差异（t=1.147，p=0.259>0.05）；“分析”属于高阶认知层次，涉及的3道试题难度也较大，第13题与第18题是难度最高的两道题目（第13题难度为1.64 logit、第18题难度为1.36 logit），该同学在这一层次上表现优异，显著高于班级平均水平（t=−4.398，p=0.000<0.001）。

在主观题中，主要考察了“记忆”“分析”和“评价”三个认知层次。其中，“记忆”属于最基础的认知层次，只有第39（3）题关注这一层级，题目难度较小，该学生在这一层次上的表现显著低于班级平均水平（t=4.587，p=0.000<0.001），在第39（3）题所涉及的知识点“传统文化”上也显著低于班级平均水平；在“分析”层次，第38（2）和第39（1）题均关注该层次，这2道试题的区分度不高，所以该生与班级平均水平之间未呈现显著差异（t=−0.594，p=0.556>0.05）；“评价”属于高阶认知层次，第38（1）和第39（2）题关注该层次，该同学在这一层次上表现优异，尤其是第38（1）涉及的“经济生活”知识点，该同学的掌握程度显著高于班级平均水平（t=−2.949，p=0.005<0.01）。

总体来看，该生在“理解”“评价”层次高于班级平均水平，在“记忆”层次低于班级平均水平，在“应用”层次与班级平均水平无差别，表明该学生在中高阶认知表现较好，而在低阶认知仍存在欠缺。值得一提的是“分析”层次。该生在客观题的“分析”层次上显著高于整体，在主观题的“分析”层次上则无显著差异，这是由于认知能力的分析是借助双向细目表中“试题−知识点−认知能力要求”的关联关系，由试题作答情况进行推断的。主观题中涉及“分析”层次的试题区分度不高，该生与班级整体的作答情况无明显区分，因此该生与班级整体在主观题的“分析”层次上也未体现出显著差异。

另外，使用winsteps工具，可以生成每位学生在该次考试中总的知识掌握水平和认知能力。以知识掌握水平作为横坐标，以认知能力作为纵坐标，我们可以绘制学生“知识掌握—认知能力”散点图，见图6。在坐标系中，从左往右表示知识掌握水平越来越高，从下到上表示认知能力逐渐增强，原点表示班级的平均水平，图中每个点代表一位学生。从图6所示的班级整体情况来看，坐标轴原点的横纵坐标值均小于0，表明班级的平均知识掌握水平和平均认知能力都要低于试题的平均难度；散点成正向分布，表明当学生具备较高的知识掌握水平时，通常也会呈现出较高的认知能力。具体到班级内部学生的分布来看，大部分学生比较集中，多分布于第一、二象限，表明班级内学生知识掌握水平比较分散，但普遍具备较高的认知能力；第三象限中也分布有一些学生，并存在两个离群点，表明两位学生在知识掌握和认知能力方面均远远低于其他同学，影响了班级的平均水平。

图6 学生“知识掌握—认知能力”分布散点图

分布于不同象限的学生具有不同的学习特征，教师也应分别设计差异化的教学策略和指导方法：分布在第一象限的学生，其知识掌握水平和认知能力都较好，教师需要给予充分的鼓励，帮助学生保持学习的习惯和节奏；分布在第二象限的学生，具有较强的认知能力，但是知识掌握水平有待提升，教师可以为其提供基础性的习题资源，帮助这部分学生夯实基础；分布在第三象限的学生，知识掌握水平和认知能力都较差，教师可以尝试改正这部分学生不良的学习习惯，帮助学生稳步提升；分布在第四象限的学生，知识掌握较为扎实，但是没有达到较高的认知能力，教师可以多对其点拨引导，实现突破。另外，教师不能忽视离群点所代表学生的个性化需求，应针对其具体知识点的掌握情况和认知能力给予个性化指导和帮助，进而从整体上提升学生个体和班级的平均水平。

四、讨论与总结

（一）研究结论

本研究以贵阳某实验学校政治考试为例，通过在195名学生中开展实证研究，总结归纳出基于Rasch模型进行学生知识掌握和认知能力分析的系统性方法与流程。首先，本研究使用单维Rasch模型进行题目难度的分析和拟合度的检验，筛选符合Rasch模型的标准化高质量试题。Rasch模型可以在同一标尺下对学生能力和试题难度进行直接比较，因此相比传统考核方式可以更精确地测量学生的真实能力，分析结果的可读性更强。其次，本研究借助多维Rasch模型，通过双向细目表中“试题—知识点—认知能力要求”的关联关系，进行学生知识掌握和认知能力的分析。最后，本研究以一名学生为例，展示了个体在知识掌握和各认知层次方面与班级平均水平的对比与深入分析。学生可以通过雷达图，发现自己的薄弱知识点以及有待达成的认知能力层级；教师则可以通过散点图，了解不同类型学生的知识和认知特点，并施加个性化干预，帮助学生取得学业成功。

根据学生在各认知层次上的不足，教师可以选择对应的教学方法和教学策略。高阶认知过程需要建立在低阶认知达成的基础之上，因此教师需要逐渐提升学习者的认知层次，以实现有意义学习（Kumpas-Lenk et al.，2018）。第一，在记忆层次，教师可以厘清关键概念、术语、事实等信息，并提供线索让学生进行知识的识别和回忆（黄莺等，2008）；第二，在理解层次，教师可以帮助学生对知识进行分类，识别知识之间的关系，促进学生达成理解（Ramirez，2017）；第三，在应用层次，教师可以提供现有的信息，并呈现使用信息解决问题的流程方案，改善学生的操作过程以促进知识的应用；第四，在分析层次，教师可以将完整的材料分解成片段，帮助学生对各片段加以区分，探索整体和部分的关系（Sun et al.，2019）；第五，在评价层次，教师可以给定学生评判标准，或者鼓励学生自己制定标准，让学生对观点做出判断；第六，在创造层次，教师可以帮助学生对已有信息进行整合重组，也可以鼓励学生通过撰写、演讲或实验的方式进行文档、人工制品等的创造（Dunham et al.，2015）。

在对学生个体进行干预时，教师还需要将具体知识点与认知过程结合起来，综合确定改进措施与干预手段。若忽略了认知过程，会导致教育目标定位不清；而忽略了知识掌握，则会造成教育目标的空洞（王小明，2011）。

以学号为181104的学生为例：第一，在记忆层次中，该学生在“传统文化”的知识点上存在欠缺，教师可以通过反复、强调等方法帮助该生明晰相关概念，智慧教育云平台也可适当推荐一些教学材料，比如以图文形式呈现传统的习俗、建筑等，帮助学生完成相关概念的回忆和重现。第二，在理解层次中，该学生在“公民权利与义务”与“唯物辩证法”两个知识点上存在不足，平台可以呈现知识地图，将复杂概念图示化，教师也可以通过举例，比如“货币发行与通货膨胀之间的对立统一规律”，来实现知识的迁移和理解。第三，在应用层次中，该学生在“联系的特点”的知识点上有待提升，教师可以呈现社会中的实际案例，比如“疫情期间各国人民命运之间的联系”，将联系的几个特点分别与案例进行对应，帮助学生直观了解相关知识如何应用于实践。第四，在评价层次中，该学生在“文化多样性”的知识点上存在欠缺，教师可以尝试结合具体情境，比如“中国各地不同的饮食文化”，引导学生运用相关知识对实际情境中体现的观点进行评价。

（二）研究创新点

实现“因材施教”与个性化学习的前提是对学生的学习状态进行精准诊断，而精准诊断离不开有效的测量与评价。使用Rasch模型可以保证考试的科学性和有效性，提升考试的价值。首先，Rasch模型可以分析试题的难度、区分度，帮助教师遴选优质试题，以提升考试的质量。其次，通过将试题与知识点和认知能力层次关联，Rasch模型可以挖掘成绩背后的意义，使考试能够起到诊断学生认知结构的作用，体现学业评价的诊断功能。最后，Rasch模型一方面可以分析学习者个体的知识掌握情况和认知能力结构，助力个性化诊断；另一方面也可以帮助教师把握整体学生的知识掌握和认知能力分布，为教师的教学改进提供决策依据，实现“整体—个体”不同尺度下教学过程的优化。

（三）研究局限与展望

但是本研究仍存在以下不足。首先，本研究仅针对政治学科的一次考试进行分析，由于学科之间的差异，无法了解学生在其他学科的综合认知能力；其次，Rasch模型对知识掌握与认知能力的分析，仍然基于学生对试题的作答情况，如果试题不具备较高的区分度，在一定程度上会影响对学生知识掌握和认知能力的判断；最后，本研究涉及的考核形式仅局限于纸质试题，这类考核对于高阶认知的关注尚有不足。

在未来的研究中，一方面可以对多个科目进行同步分析，争取排除学科差异对学生认知能力分析带来的影响；另一方面可以丰富考核类型，比如结合传统纸质测验与项目汇报等形式，增加对学生高阶认知能力的考察。最后，在当前的智慧教育时代，学习分析发展如火如荼，可以通过分析学生的在线学习行为大数据，进而实现对学习者的精准诊断。未来可以集成学习分析与测量模型各自的优势，将过程性评价与总结性评价的结果结合起来，实现对学生知识和认知结构更加精准地诊断，也可以为后续的智能推荐、预测和干预等研究提供信效度的保证。