项目反应理论在大学英语词汇试题质量分析中的应用<br/>——基于等组设计的研究

项目反应理论在大学英语词汇试题质量分析中的应用
——基于等组设计的研究

2020-06-10王天剑

五邑大学学报（社会科学版） 2020年2期

王天剑

(贵州财经大学外语学院，贵州贵阳 550025)

一、引言及文献综述

在很多高校，大学英语是公共基础必修课，考试频繁且参加人数众多。传统考试一般采用统一试卷，但随着通讯技术发展，作弊越来越容易。为防范作弊，不少考试同时采用多种平行试卷(如A卷、B卷、C卷等)。但是，平行试卷在参数上容易出现差别，参数的差别，会导致不同试卷考生成绩无法比较。本研究采用项目反应理论(IRT)的等值原理，对同一次考试平行试卷上的词汇题进行参数和质量分析。

IRT也称潜特质理论或潜特质模型，是一种关于建模的理论。它借助一种单调上升的项目特征函数，描述个人在教育心理测量中的表现，与潜特质(某种能力)、项目参数(难度、区别度和猜测度)等变量之间的关系(Umobong，2017)[1]。IRT于上世纪50与60年代萌芽于国外，从70年代至今，一直在应用中发展。该理论的产生与经典测量理论(CTT)的局限性有关(Guler等，2014；Kohli 等，2015；Awopeju等2016)[2-4]。在CTT框架下，个人能力估计对项目具有依赖性，项目难度估计对考生样本具有依赖性。在特定条件满足时，IRT可以通过校准算法，使项目难度估计不受样本影响，个人能力估计不受试题影响(Kean等，2014；Yu等，2014)[5,6]。

IRT的主要功能之一是进行考试等值(Bolsinova等，2016; Ojerinde等，2016)[7,8]。等值不仅可以将参加不同考试的被试成绩，放在同一尺度上比较，也可以将不同考试的试题参数放在同一尺度下比较。等值可通过等组等值(equivalent group equating)实现，也可通过不等组等值(non-equivalent group equating)实现。不等组等值需借助锚题(anchoring items)进行，等组等值需要借助同一总体的不同随机样本实现，其基本思路如图1所示：

图1 等组等值流程

首先需明确考生总体，然后以随机方式，将考生分成不同小组，每一小组采用一种试卷副本。分析试卷时，将所有作答结果放在一个IRT模型中处理，从而实现试题参数和成绩的等值。

基于随机等组设计，本研究对一次大学英语考试中的词汇题进行参数和质量分析，着重回答如下问题：

(一)本次考试词汇试题考查的潜特质维度有多少个？

(二)本次考试词汇试题部分宜采用几个参数的IRT模型进行分析？

(三)本次考试词汇试题等值后的成绩如何？

(四)本次考试词汇试题等值后的参数、信息分布和项目质量如何？

如上问题(一)和问题(二)服务于问题(三)，因为进行IRT分析，需要确定潜特质维度，并选用适当参数的模型。

二、研究方法

(一)研究数据

本文数据来自贵州某高校一次大学英语读写课程考试。该考试同时动用A、B两套试卷，每套试卷都包含词汇(20道选择题)、阅读(3篇短文理解)、写作(1篇作文)和翻译(1段短文翻译)，两套试卷无重复内容。基于等组设计原理，参加考试的各班学生被提前随机分成两组，一组采用A卷，另一组采用B卷。考试结束后，随机抽取一个分院4个自然平行班的学生，进行结果分析。剔除缺考和空白试卷后，有效试卷中含A卷120份，B卷115份，两套试卷共计235份。本文着重考查等值后的词汇题参数和质量。所有词汇题都属于四选一项目，每道题选择正确记1分，错误或漏选记0分，词汇题占总试卷分值的20%。

(二)研究工具

研究采用SPSS 15和专业软件 BILOGMG 3.0作为数据分析工具。BILOGMG 3.0由(1996)[9]开发，可用于单组或多组二分数据的IRT参数分析。

三、研究结果

(一)词汇题考查的潜特质维度

IRT模型可分为单维模型和多维模型。单维模型(传统IRT模型)适用于测量单个潜特质(因子)的试题分析，多维模型适用于包含两个或多个潜特质的试题分析。在数据分析之前，需要对词汇试题的潜特质维度进行确认。这里采用SPSS，分别对A卷和B卷进行主成分分析，考查因子个数，即确定试题测量的潜特质维度，结果如表1和图2所示。

表1 词汇项目的主成分分析结果

根据表1，在A卷和B卷中，特征值大于1的因子都有4个。两套试卷第一个因子的特征值分别为5.605和5.484，其方差占总方差的比重分别为28.025%和27.418%。第二、第三和第四个因子的特征值，都普遍远远小于第一个因子(不足第一个因子的三分之一)。碎石图(图2)同样表明，第一个特征值和其余特征值之间变化陡然。结合表1和图2可知，在两套试卷中，词汇试题测量的潜特质具有单维性，数据符合单维项目反应理论模型分析要求。

图2 词汇项目主成分分析碎石图

(二)项目反应模型参数选择

在单维项目反应模型中，存在单参数、双参数和三参数模型之分。为选择有效模型，分别比较了不同参数模型对数据的适合度，包括似然函数(-2 LOG LIKELIHOOD)、最大信息量和卡方(含矫正卡方)检验值(彭康洲等，2009)[10]，结果呈现于表2。

表2 单参数、双参数和三参数模型对数据的拟合信息

根据表2的卡方或矫正卡方检验结果，所有模型都与所有项目拟合良好。但是，三参数模型的似然函数(4767.455)最小，且提供的最大信息量(A、B卷分别8.0876和9.5706)都超过了单参数和双参数模型。基于各种拟合信息，本研究应优先选用三参数IRT模型。

(三)词汇题的成绩等值结果

本研究中，接受A卷考生共计120名，接受B卷考生共计115名。现从两组考生中各抽取5名，展示等值(采用的均值和标准差与原始分相似)前后的成绩(表3)。

表3 等值前后成绩示例

注：IRT最初输出的能力分均值为0，标准差为1，表中能力分是参照原始分的均值和标准差，改变尺度后的结果

表3中的原始分是指词汇题正确回答的百分值。例如，SA1在20道词汇题中，正确回答14道，14/20×100=70,所以原始分为70。等值分是依据原始分的均值和标准差换算出来的能力分。等值后大部分成绩都有变化，而且变化方向不一。例如，SA1的原始分是70，等值后变成63；SB1的原始分25，等之后变成31。之所以出现这些变化，是因为等值前的分数，没有考虑试题的参数(区别度、难度、猜测度)。等值以后的分数是根据这些参数调整的结果，可以客观公平地反映个人的能力。

(四)等值后词汇题的参数、信息分布和项目质量

采用三参数IRT模型，对词汇题作答数据进行分析，可得表3所示参数与信息分布结果。第一列(“项目”)是词汇项目编号。第二列(“得分(%)”)是各项目正确回答的百分率(如，项目T01出现在A卷，共有120名考生作答，104人答对，得分=104/120 ×100 = 86.7)。第四列至第六列(“区分度”、“难度”、“猜测度”)是基于IRT的三种参数估计。第七列(“信息量”)是项目能够提供的最大信息量，它反映的是测量的准确度。第八列(“信息点”)是指，项目能够提供最大信息量时，其所对应的考生能力水平点。如下部分从不同方面展开讨论。

表4 词汇题等值后的参数与信息分布

平均区别度0.962(标准差0.302)；平均难度-0.037(标准差0.958)；A卷和B卷词汇题的信息总量分别是8.088和9.570。

1．词汇试题的区别度

项目区别度反映的是项目对不同能力考生的区分功能，其数值越高越好。观察表4可知，A、B卷所有词汇项目的区别度位于区间[0.482，1.759]之内。根据戴海琦(2006)[11]的建议，项目区别度不应低于0.5。表4中有两个项目区别度不合要求：T04(0.499<0.5)和T22(0.482<0.5)。由于平均区别度理想(0.962>0.5)，本研究涉及的词汇项目在整体上区别功能良好。

2．词汇试题的难度

IRT将试题难度和考生能力放在同一个量尺上度量，均值接近0，标准差为1。观察表4可知，词汇题项目难度位于区间[-2.380，+1.506]内，平均难度-0.037(标准差0.958)。进一步计算显示，40道词汇题的平均正确率为51.0%。对于区分能力而言，百分之五十左右的正确率属于理想难度；但是对成就测验而言，让将近半数学生不及格的考试显然偏难。由于大学英语课程考试属典型的成就测验，故本次考试词汇试题整体上偏难。

3．词汇试题的猜测度

猜测度是通过猜测答对题目的概率。本研究中的词汇题属于四选一项目，猜测度在理论上不应高于0.25。根据表4数据，猜测度位于区间[0.015，0.064]内，平均猜测度为0.033(标准差0.012)。这意味着，靠猜测答对的平均概率仅有3.3%，所以试题猜测度属于理想水平。

4．词汇试题的信息量

信息量的全称是“最大信息量”，是项目能提供的最大测量精确度指标。对于有百分之五十几率答对的考生(特定的能力水平)，一个试题项目能提供的信息量最大。也即最大信息量对应于一个最大信息点。一组试题所有项目的信息量之和，构成该组试题的信息总量。观察表4发现，本次考试词汇题的信息量位于区间[0.156，2.148]内，A卷和B卷词汇题的信息总量分别是8.088和9.570。

根据漆书青等人(2003)的建议，一套完整试卷的信息总量应达到25以上(标准误控制在0.20以下)，信息总量应按照分值比例，由各部分试题分摊。本研究考查的词汇题在这次大学英语考试完整试卷中，所占分值比例为20%，故应分摊的信息量为 25×20% = 5。由于每套试卷的词汇题由20个项目组成，每个项目应分摊的信息量为5/20=0.25。观察表4可知，T4(0.168)，T5(0.232),T22(0.156)和T29(0.225)提供的信息量都低于0.25，因此这四道题质量较差。但是，A卷和B卷词汇题的信息总量分别是8.088和9.570，都大于5，所以整体上两套词汇题提供的信息总量符合要求。图3展示的是A、B卷词汇题信息总量与测量误差变化的趋势，其中实线代表信息总量(对应于左侧纵轴刻度)，虚线代表标准误(对应于右侧纵轴刻度)。横轴表示考生能力的分布(从-4到4)。信息总量曲线反映的是，对于不同能力考生，成绩用于诊断个人能力时精确度的变化；标准误曲线反映的是，成绩用于诊断个人能力时偏差的变化。两条曲线走向相反。A卷对于能力分在0.625左右的考生，提供的信息量最大(8.088)，能力诊断误差最低；B卷对于能力分在-0.125左右的考生，提供的信息量最大(9.57)，能力诊断误差最低。总体而言，词汇试题成绩能够较准确地反映中间水平考生的能力，但不能准确反映两极水平考生的能力，这也是不少考试存在的共同问题。