APP下载

项目反应理论在大学英语词汇试题质量分析中的应用
——基于等组设计的研究

2020-06-10王天剑

关键词:等值信息量特质

王天剑

(贵州财经大学 外语学院,贵州 贵阳 550025)

一、引言及文献综述

在很多高校,大学英语是公共基础必修课,考试频繁且参加人数众多。传统考试一般采用统一试卷,但随着通讯技术发展,作弊越来越容易。为防范作弊,不少考试同时采用多种平行试卷(如A卷、B卷、C卷等)。但是,平行试卷在参数上容易出现差别,参数的差别,会导致不同试卷考生成绩无法比较。本研究采用项目反应理论(IRT)的等值原理,对同一次考试平行试卷上的词汇题进行参数和质量分析。

IRT也称潜特质理论或潜特质模型,是一种关于建模的理论。它借助一种单调上升的项目特征函数,描述个人在教育心理测量中的表现,与潜特质(某种能力)、项目参数(难度、区别度和猜测度)等变量之间的关系(Umobong,2017)[1]。IRT于上世纪50与60年代萌芽于国外,从70年代至今,一直在应用中发展。该理论的产生与经典测量理论(CTT)的局限性有关(Guler等,2014;Kohli 等,2015;Awopeju等2016)[2-4]。在CTT框架下,个人能力估计对项目具有依赖性,项目难度估计对考生样本具有依赖性。在特定条件满足时,IRT可以通过校准算法,使项目难度估计不受样本影响,个人能力估计不受试题影响(Kean等,2014;Yu等,2014)[5,6]。

IRT的主要功能之一是进行考试等值(Bolsinova等,2016; Ojerinde等,2016)[7,8]。等值不仅可以将参加不同考试的被试成绩,放在同一尺度上比较,也可以将不同考试的试题参数放在同一尺度下比较。等值可通过等组等值(equivalent group equating)实现,也可通过不等组等值(non-equivalent group equating)实现。不等组等值需借助锚题(anchoring items)进行,等组等值需要借助同一总体的不同随机样本实现,其基本思路如图1所示:

图1 等组等值流程

首先需明确考生总体,然后以随机方式,将考生分成不同小组,每一小组采用一种试卷副本。分析试卷时,将所有作答结果放在一个IRT模型中处理,从而实现试题参数和成绩的等值。

基于随机等组设计,本研究对一次大学英语考试中的词汇题进行参数和质量分析,着重回答如下问题:

(一)本次考试词汇试题考查的潜特质维度有多少个?

(二)本次考试词汇试题部分宜采用几个参数的IRT模型进行分析?

(三)本次考试词汇试题等值后的成绩如何?

(四)本次考试词汇试题等值后的参数、信息分布和项目质量如何?

如上问题(一)和问题(二)服务于问题(三),因为进行IRT分析,需要确定潜特质维度,并选用适当参数的模型。

二、研究方法

(一)研究数据

本文数据来自贵州某高校一次大学英语读写课程考试。该考试同时动用A、B两套试卷,每套试卷都包含词汇(20道选择题)、阅读(3篇短文理解)、写作(1篇作文)和翻译(1段短文翻译),两套试卷无重复内容。基于等组设计原理,参加考试的各班学生被提前随机分成两组,一组采用A卷,另一组采用B卷。考试结束后,随机抽取一个分院4个自然平行班的学生,进行结果分析。剔除缺考和空白试卷后,有效试卷中含A卷120份,B卷115份,两套试卷共计235份。本文着重考查等值后的词汇题参数和质量。所有词汇题都属于四选一项目,每道题选择正确记1分,错误或漏选记0分,词汇题占总试卷分值的20%。

(二)研究工具

研究采用SPSS 15和专业软件 BILOGMG 3.0作为数据分析工具。BILOGMG 3.0由(1996)[9]开发,可用于单组或多组二分数据的IRT参数分析。

三、研究结果

(一)词汇题考查的潜特质维度

IRT模型可分为单维模型和多维模型。单维模型(传统IRT模型)适用于测量单个潜特质(因子)的试题分析,多维模型适用于包含两个或多个潜特质的试题分析。在数据分析之前,需要对词汇试题的潜特质维度进行确认。这里采用SPSS,分别对A卷和B卷进行主成分分析,考查因子个数,即确定试题测量的潜特质维度,结果如表1和图2所示。

表1 词汇项目的主成分分析结果

根据表1,在A卷和B卷中,特征值大于1的因子都有4个。两套试卷第一个因子的特征值分别为5.605和5.484,其方差占总方差的比重分别为28.025%和27.418%。第二、第三和第四个因子的特征值,都普遍远远小于第一个因子(不足第一个因子的三分之一)。碎石图(图2)同样表明,第一个特征值和其余特征值之间变化陡然。结合表1和图2可知,在两套试卷中,词汇试题测量的潜特质具有单维性,数据符合单维项目反应理论模型分析要求。

图2 词汇项目主成分分析碎石图

(二)项目反应模型参数选择

在单维项目反应模型中,存在单参数、双参数和三参数模型之分。为选择有效模型,分别比较了不同参数模型对数据的适合度,包括似然函数(-2 LOG LIKELIHOOD)、最大信息量和卡方(含矫正卡方)检验值(彭康洲等,2009)[10],结果呈现于表2。

表2 单参数、双参数和三参数模型对数据的拟合信息

根据表2的卡方或矫正卡方检验结果,所有模型都与所有项目拟合良好。但是,三参数模型的似然函数(4767.455)最小,且提供的最大信息量(A、B卷分别8.0876和9.5706)都超过了单参数和双参数模型。基于各种拟合信息,本研究应优先选用三参数IRT模型。

(三)词汇题的成绩等值结果

本研究中,接受A卷考生共计120名,接受B卷考生共计115名。现从两组考生中各抽取5名,展示等值(采用的均值和标准差与原始分相似)前后的成绩(表3)。

表3 等值前后成绩示例

注:IRT最初输出的能力分均值为0,标准差为1,表中能力分是参照原始分的均值和标准差,改变尺度后的结果

表3中的原始分是指词汇题正确回答的百分值。例如,SA1在20道词汇题中,正确回答14道,14/20×100=70,所以原始分为70。等值分是依据原始分的均值和标准差换算出来的能力分。等值后大部分成绩都有变化,而且变化方向不一。例如,SA1的原始分是70,等值后变成63;SB1的原始分25,等之后变成31。之所以出现这些变化,是因为等值前的分数,没有考虑试题的参数(区别度、难度、猜测度)。等值以后的分数是根据这些参数调整的结果,可以客观公平地反映个人的能力。

(四)等值后词汇题的参数、信息分布和项目质量

采用三参数IRT模型,对词汇题作答数据进行分析,可得表3所示参数与信息分布结果。第一列(“项目”)是词汇项目编号。第二列(“得分(%)”)是各项目正确回答的百分率(如,项目T01出现在A卷,共有120名考生作答,104人答对,得分=104/120 ×100 = 86.7)。第四列至第六列(“区分度”、“难度”、“猜测度”)是基于IRT的三种参数估计。第七列(“信息量”)是项目能够提供的最大信息量,它反映的是测量的准确度。第八列(“信息点”)是指,项目能够提供最大信息量时,其所对应的考生能力水平点。如下部分从不同方面展开讨论。

表4 词汇题等值后的参数与信息分布

平均区别度0.962(标准差0.302);平均难度-0.037(标准差0.958);A卷和B卷词汇题的信息总量分别是8.088和9.570。

1.词汇试题的区别度

项目区别度反映的是项目对不同能力考生的区分功能,其数值越高越好。观察表4可知,A、B卷所有词汇项目的区别度位于区间[0.482,1.759]之内。根据戴海琦(2006)[11]的建议,项目区别度不应低于0.5。表4中有两个项目区别度不合要求:T04(0.499<0.5)和T22(0.482<0.5)。由于平均区别度理想(0.962>0.5),本研究涉及的词汇项目在整体上区别功能良好。

2.词汇试题的难度

IRT将试题难度和考生能力放在同一个量尺上度量,均值接近0,标准差为1。观察表4可知,词汇题项目难度位于区间[-2.380,+1.506]内,平均难度-0.037(标准差0.958)。进一步计算显示,40道词汇题的平均正确率为51.0%。对于区分能力而言,百分之五十左右的正确率属于理想难度;但是对成就测验而言,让将近半数学生不及格的考试显然偏难。由于大学英语课程考试属典型的成就测验,故本次考试词汇试题整体上偏难。

3.词汇试题的猜测度

猜测度是通过猜测答对题目的概率。本研究中的词汇题属于四选一项目,猜测度在理论上不应高于0.25。根据表4数据,猜测度位于区间[0.015,0.064]内,平均猜测度为0.033(标准差0.012)。这意味着,靠猜测答对的平均概率仅有3.3%,所以试题猜测度属于理想水平。

4.词汇试题的信息量

信息量的全称是“最大信息量”,是项目能提供的最大测量精确度指标。对于有百分之五十几率答对的考生(特定的能力水平),一个试题项目能提供的信息量最大。也即最大信息量对应于一个最大信息点。一组试题所有项目的信息量之和,构成该组试题的信息总量。观察表4发现,本次考试词汇题的信息量位于区间[0.156,2.148]内,A卷和B卷词汇题的信息总量分别是8.088和9.570。

根据漆书青等人(2003)的建议,一套完整试卷的信息总量应达到25以上(标准误控制在0.20以下),信息总量应按照分值比例,由各部分试题分摊。本研究考查的词汇题在这次大学英语考试完整试卷中,所占分值比例为20%,故应分摊的信息量为 25×20% = 5。由于每套试卷的词汇题由20个项目组成,每个项目应分摊的信息量为5/20=0.25。观察表4可知,T4(0.168),T5(0.232),T22(0.156)和T29(0.225)提供的信息量都低于0.25,因此这四道题质量较差。但是,A卷和B卷词汇题的信息总量分别是8.088和9.570,都大于5,所以整体上两套词汇题提供的信息总量符合要求。图3展示的是A、B卷词汇题信息总量与测量误差变化的趋势,其中实线代表信息总量(对应于左侧纵轴刻度),虚线代表标准误(对应于右侧纵轴刻度)。横轴表示考生能力的分布(从-4到4)。信息总量曲线反映的是,对于不同能力考生,成绩用于诊断个人能力时精确度的变化;标准误曲线反映的是,成绩用于诊断个人能力时偏差的变化。两条曲线走向相反。A卷对于能力分在0.625左右的考生,提供的信息量最大(8.088),能力诊断误差最低;B卷对于能力分在-0.125左右的考生,提供的信息量最大(9.57),能力诊断误差最低。总体而言,词汇试题成绩能够较准确地反映中间水平考生的能力,但不能准确反映两极水平考生的能力,这也是不少考试存在的共同问题。

A卷(T1-T20, 信息峰值8.088,能力点0.625) B卷(T1-T40, 信息峰值9.57 能力点-0.125)

图3 词汇题信息总量变化趋势

五、 结 论

本文根据等组等值原理,分析了两套平行试卷中,词汇试题测量的潜特质维度与适用IRT模型,等值后的成绩、参数和信息分布,评价了词汇试题项目的质量,结果可以概括如下:

(一)两套试卷的词汇题测量的潜特质具有单维性,分析宜采用单维度三参数模型;

(二)多数成绩等值后会出现变化,不同考生的成绩变化方向不一。

(三)两套试卷词汇题整体上区别度理想,猜测度较低,信息总量较高。但是个别项目区别度较低,信息量不足,词汇题整体上偏难。

本研究对大学英语考试具有一定的启示。基于随机分组,让不同考生使用不同平行试卷考试是可行的[13],但是结果需要进行等值,否则不同试卷成绩缺乏可比性。大学英语考试后进行的试卷分析,应包含参数分析。根据分析结果,可将优质试题项目纳入题库,以备今后命题使用。

猜你喜欢

等值信息量特质
论宋韵文化的精神特质及生成原因
重磅!广东省发文,全面放开放宽落户限制、加大住房供应……信息量巨大!
文人的心理探索之“痴颠狂怪”特质
德国城乡等值化的发展理念及其对中国的启示
异步电动机等值负载研究
好校长应该具备的三大特质——兼谈校长培训的几点思考
走出初中思想品德课的困扰探讨
让多媒体技术在语文课堂飞扬