APP下载

Rasch模型在英语试题质量分析的应用

2021-07-20何必凯

现代商贸工业 2021年20期

何必凯

摘 要:运用Rasch模型对一份高中英语学业测试试卷进行质量分析,从试题难度,难度与学生能力匹配及试卷区分度来评估试题质量。结果表明,试卷整体信效度较高,能较好对学生的英语能力进行测试。最后进行学业诊断分析并提出教学建议。

关键词:Rasch模型;试题质量分析;学业诊断

中图分类号:G4     文献标识码:A      doi:10.19311/j.cnki.1672-3198.2021.20.078

经典测量理论框架下,题目难度的评价方法比较简单,一般以题目的正确率(客观题)、得分率(主观题)来表示。但这种难度存在如下问题:难度指标与实际意义相悖。正确率、得分率的理论取值在[0,1]之间,该值越高,代表题目越简单;该值越低代表题目越难。难度系数的绝对值与其代表的含义相悖,因此,正确率、得分率等通过率指标更应称为“容易”度。

难度的计算受学生群体的能力分布影响。通过率受学生群体总体水平的影响,同一题目,在整体水平较高的学校,通过率高,则可能被判定为简单题;在整体水平较差的学校,通过率低,却又可能被判定为难题。即便是同一群体,不同时间段得到的通过率也不是稳定的。因此,通过率仅可作为参考,不能作为评价题目难度的指标。

本研究引入Rasch模型进行题目难度估计,该模型有跨群体、跨情境的稳定性,解决了经典测量理论框架下以通过率作为难度指标的弊端。

1 难度

Rasch模型将题目平均难度设定为0,题目难度分布在[-∞,+∞]之间。以0为中心,可以将题目难度划分为5个等级,难度在(3,1]之间称为难题,难度在(1,-1]之间称为中等题,难度在(-1,-3]之间称为简单题,难度大于等于3的难题、难度低于-3的简单题均称为极端难度题目,如表1所示。统计结果显示简单题、中等题占总题数的79%难度配比比较合理,但存在4道极端难题。

从不同题型来看,听力题、单选、情境和完形题以中、低难度为主,难题较少;阅读理解和基础知识应用以中、高难度题目为主,简单题较少。

Rasch模型通过拟合指数评价题目、数据的质量,最常用的指标为Infit MNSQ,该指标的理论最佳取值为1,当Infit MNSQ为1,代表实际数据与Rasch模型的预测完全相同。一般认为拟合指数取值在[0.7,1.3]之间时,题目与数据拟合较好,未出现数据与理论假设严重不符的情况。因此,拟合指标可以用来评价在一次考试过程中单个题目的质量,若拟合指数超出相关理论建议的范围,则认为该题对整个测评的贡献不大,质量较差。本次数据分析,发现有4个题目拟合指数大于1.3,占总题目数的5%。进一步分析后发现,这些题目均为难题,其中阅读理解2个题目、听力1个题目、单选和1个题目。主要原因是有难度题容易出现猜测答题的情况,猜测答题,尤其是那些猜对题目答案的被试,实际作答情况与模型预测不符,最终导致不拟合。

2 难度与学生能力匹配度

Rasch模型将题目难度和学生能力统一在同一个量尺上,实现了学生能力与题目难度的直接比较。基于这一特征绘制的题目难度——学生能力分布图可以非常直观得反应整套试卷难度与学生能力的匹配程度。本次测试的题目——学生分布图如图1所示。

图形从左向右分成三个区域,左侧“Measr”列称为Rasch量尺,即衡量题目难度和学生能力的一把“尺子”。该尺子的刻度与传统意义上的尺子不同,其参照点0点在尺子的中间。Rasch模型将所有题目的平均难度设定为0。中间的“Students”列代表学生,以“*”和“.”表示,每个“*”代表3名学生,低于三人时用“.”表示。分布位置越往上,代表能力水平越高,反之则代表能力水平越低。右侧的“Items”列代表题目,分布位置越往上,代表难度越高,反之则代表难度越低。

从图形上看,本次考试以中等和简单题目为主,但是也有4道极端难题(66、68、70、75)和较简单题目(5题)。

学生能力主要分布在[-2,3]之间,题目难度分布在[-2.5,2.5]之间。试卷难度相较于学生整体能力偏简单。但是本套试卷又存在4道极端难度题,这在一定程度上影响了本次测试对这一群体的评价精度;对于难度在[-3.-1]之间的题目,没有相對应的学生,这些题目对学生总体来讲过于简单,没能在诊断中起到足够的作用。在后续的试卷修订过程中,可以考虑对极端难度题的替换;同时在整卷中选择一些中等题目,替换为过于简单的题目,以提高对高水平学生的诊断效果。

基础教育阶段考试的目的除了对学生进行诊断外,还希望将学生划分为不同能力等级,以满足升学、分层教学等需求。因此,对试卷区分学生的能力“试卷的区分度”评价也是本次数据分析的内容之一。本次测试,通过Rasch的分隔系数、分割信度等指标来评价试卷的这一特性。

Rasch模型通过被试分隔系数(Person Separation Index)、分隔信度(Person Separation Reliability, PSR)和分隔指数(Strata)评价测量精度。分隔指数表示试卷可以将学生区分为几个有显著差异的组别,Strata=(4*PSI+1)/3,当PSI=2时,Strata=3,即量表可以将被试区分为高分、中分、低分三组;同时,PSR应高于0.8。本次测验的PSI=3.49,Strata=5.0,PSR=0.92,说明本次测验虽然有部分题目难度设置不合理,但因题目总数较大,仍可起到区分不同英语水平学生的作用,具备一定的测量精度。

3 学业诊断

Rasch模型的基本原理认为被试正确作答题目的概率可以用个体能力θ与该题目难度δ的一个简单函数来表示。

Pni1=e(θn-δi)1+e(θn-δi)