APP下载

全国英语等级考试锚测验非等组设计中样本量对等值结果的影响

2017-09-12景春丽马洁章建石

中国考试 2017年6期
关键词:教育部考试中心等值样本量

景春丽 马洁 章建石

(教育部考试中心,北京 100084)

全国英语等级考试锚测验非等组设计中样本量对等值结果的影响

景春丽 马洁 章建石

(教育部考试中心,北京 100084)

本研究采用锚测验非等组设计,探究了锚测验样本量的变化对等值结果的影响。数据来自全国英语等级考试(PETS),使用以Bigsteps为核心的自主改进软件,基于Rasch模型估计题目参数。为了探究等值结果对合格分数线的影响,本研究对比了不同样本量锚测验参数估计值与锚题参数给定值的差异,并对不同样本量锚测验得出的实考试卷等值结果与最大样本量锚测验得出的实考试卷等值结果进行了差异分析。结果表明,当锚测验样本量达到150时,等值结果比较稳定。这一结果表明,PETS设定的300人左右的锚测验样本量是合理的。

锚测验非等组设计;项目反应理论;单参数模型;等值

1 问题提出

全国英语等级考试(Public English Test System,简称PETS)是教育部考试中心设计并负责的全国性英语水平考试体系。除PETS-4外,其他级别的考试每半年举行一次,从这个角度来看,PETS为当前新高考英语科一年两考的改革在考试技术层面进行了多年的探索。在一年两考中,等值技术至关重要。PETS所采用的等值技术是锚测验非等组设计,设定进行锚测验等值的样本量为300人左右。在实际操作过程中,很多情况下由于抽样的限制,样本量往往达不到300人。那么在这种情况下,等值结果是否精确?基于以上实际情况,本研究探究了锚测验样本量对PETS等值结果及其稳定性的影响。

测验等值是将不同量尺的测验分数转换到同一量尺的测量技术。具体地说,测验等值是将测量同一心理特质的多种测验形式的测验分数转换成相同标尺上的分数,进而使得这些不同测验形式的分数之间具有可比性的过程[1]。在主要以标准参照方式进行分数解释的能力水平认证考试和职业资格考试中,分数的可比性是考试质量的重要保证[2]。测验等值中的一项重要任务就是控制等值误差,使得误差的大小不会影响对等值结果的应用,以及在等值基础上开展的后续工作。控制测验等值误差的研究包括分析等值误差性质,探清等值误差各种可能的来源,设计各种控制等值误差的技术与方法等[3]。基于IRT的分数等值是在估计出参数的基础上进行转换,等值结果的稳定性与考生样本量密不可分。在假定考生群体没有变化的情况下,增大样本量可以保证参数估计的稳定性和准确性,从而可以有效地降低随机误差,因此样本量是影响随机误差最直接的指标之一。国内外研究证明,增加样本量可以增大等值的精确度,降低随机误差。Kolen和Brennan认为,在传统等值和线性等值中,每个测验通常需要400个样本,等百分位等值需要略多于1 500的样本量[4]。马洪超的研究表明,考生样本量为2 000左右时,各种方案的等值结果均比较稳定,考生样本量进一步增大时,等值误差不降反增[5]。Victor K.Heh研究了小样本在随机等组设计中对等值结果精确性的影响[6]。Fitzpatrick和Yen讨论了不同样本量对等值结果可信度的影响,分析了样本量为200、500、1 000的结果,发现样本量为200时,不能够估计出比较精确的题目参数[7]。Motika详细讨论了样本量为25、50、100、200时对线性等值结果精确性的影响[8]。Eid研究了样本量对等值结果的影响,表明共同题设计在不同的样本量下和两个测试难度下均具有精确性和有效性,还发现等组设计在样本量为200、400、800的情况下均不精确[9]。不同形式的测验等值对样本量的要求也不一样,等值实践中需针对具体的测验形式选取适宜的样本量,而不是机械地采用某一研究结论[5]。

2 数据收集

在全国英语等级考试中,为保证不同考次对考生笔试能力的考查要求一致,需要将具有不同难度、不同分数分布的试卷的分数转换到一个统一的量尺上。数据收集设计是锚测验非等组设计,锚题外置[4]。每次正式考试前一周左右随机抽取300名左右参加本次考试的考生参加锚测试。本研究采用某次全国英语等级考试第五级(PETS-5)的锚测验数据和实测数据。锚卷在一定时间内尽可能保持稳定,通过每次考前的锚测验题目参数和给定锚题参数的关系,将本次正式考试的题目参数转换到锚卷的量表上。

在实际情况下,由于很多原因,不能保证每次参加锚测试的样本量都能达到300人左右。因此,本研究从参加锚测验的考生样本中随机抽取30人、60人、90人、120人、150人、180人、210人、240人、300人作为样本,再从正式考试中抽取10 000人(包括随机抽取参加锚测验的样本),通过考号将锚测验和正式考试的成绩链接起来。参数估计基于Rasch模型来计算[10],采用以Bigsteps为核心的自主改进软件进行参数估计和参数转换。

3 结果分析

3.1 依据经典测量理论分析抽样的合理性

研究的样本是从参加锚卷测试的660名考生中随机抽取的,用Excel中的随机抽样函数进行随机抽样。为了验证抽样是否合理,表1、表2、表3对不同样本量锚测验的观察分数进行了分析。由表1、表2可知,不同样本量锚测验观察分数的均值不存在显著差异。表3表明,不同样本量的抽样与实际考生样本之间锚测验的观察分数也均不存在显著差异。综合表1、表2、表3结果可知,研究的随机抽样合理。

表1 不同样本量锚测验观察分数的统计描述

表2 不同样本量锚测验观察分数的方差分析

3.2 参数估计

在锚测验非等组设计中,不同版本测验中项目参数和能力参数的转换均是通过锚题参数的平均值和标准差实现的,而Rasch模型在锚题参数转换过程中只用到了锚题参数均值。不同样本量锚题难度参数均值及与给定锚题难度的相关系数见表4。从表4可知,不同样本量锚题难度参数均值为-0.09~-0.04,随着样本量的变大,难度均值变化越小,在样本量达到150之后,参数均值趋于稳定;从不同样本量锚题难度与给定锚题难度之间的相关系数也可以看出,随着样本量的变大,相关系数趋于稳定,在样本量达到150以后,相关系数稳定在0.7~0.72。

表3 不同样本量锚测验观察分数之间的比较

表4 不同样本量估计锚题难度参数均值及与给定锚题难度的相关系数

3.3 估计差异分析

本研究从两个方面考虑参数及等值差异:一是考虑样本量不同时锚测验所估计出的锚题难度值与给定锚题难度值之间的差异;二是考虑不同样本量锚测验对应的试卷等值结果的差异。同时,以样本量为660的锚测验等值结果为标准,比较不同样本量的锚测验的等值结果与样本量为660的锚测验的等值结果。计算差异的指标为均方根离差(Root Mean Squared Deviation,RMSD)。

从表5可知,不同样本量估计出的锚题难度值与给定锚题难度值的差异较小,但是当样本量介于30到120之间时,RMSD值并不稳定,当样本量达到150之后,RMSD值趋于稳定。由表6可知,不同样本量锚测验对应的试卷等值结果与设置的标准之间的均方根离差较小,但是当样本量介于30到120之间时,RMSD值并不稳定,当样本量达到150之后,RMSD值趋于稳定。

3.4 等值结果对实际考试结果的影响

垂直量表是将测量领域相似但考查的内容水平不同的数个测试构建到一个共同量表上的过程,即在测试内容相同但水平不同的测试之间,通过共同量表,使得试题的难度或考生的水平能够在数值上相互比较。莫春晖详细介绍了将PETS-1至PETS-5统一到一个量表上的过程,并且定位了每个级别的合格能力值,PETS-5级的合格能力值为75[11]。

本研究用不同样本量锚测验将实际考试题目参数转换到给定锚题的量表上,通过自主研制的计算能力值软件(abli)计算合格能力值对应的客观题实际分数线。由表7可知,用不同样本量锚测验得出的实际分数线是47或者48,但是当样本量达到150以上,实际分数线就稳定在47。

4 结论

本研究比较了锚测验的样本量不同时等值结果的差异,分别从经典测量理论、IRT中的参数估计均值及与给定锚题的相关系数、估计差异、等值结果对实际考试结果的影响几个方面进行了分析。结果表明,在保证抽样随机并且具有代表性的前提下,样本量在150~660时(PETS设置的样本量在300左右,本研究的最大样本量是660),基于Rasch模型的等值方法的等值结果比较稳定。也就是说,对于目前的PETS-5,考前进行的锚测验样本量确定在150以上就可以得到比较稳定的结果。但需要注意的是,试题参数估计与等值试卷的长度、题型及试题的性质有关。当这些因素变化时,对锚测验样本量的要求也可能会发生变化。因此,一个考试要采用多大的锚测验样本量,要具体分析,不能一概而论。

表5 不同样本量锚题估计难度值与给定锚题难度值之间的误差

表6 不同样本量对应的试卷等值结果与样本量为660的等值误差

表7 不同样本量锚测验等值结果对实际考试结果的影响

[1]顾海根.心理与教育测量[M].北京:北京大学出版社,2008.

[2]谢小庆.考试分数等值的新框架[J].考试研究,2008(2):4-16.

[3]戴海崎.等值误差理论与我国高考等值的误差控制[J].江西师范大学学报(哲学社会科学版),1999(1):29-35.

[4]KOLEN M J,BRENNAN R L.Test Equating,Scaling,and Linking methods and Practices(3nd edition)[M].New York:Springer,2014.

[5]马洪超.考生样本量对项目反应理论(IRT)等值稳定性的影响[J].考试研究,2011(2):62-66.

[6]HEH V K.Equating accuracy using small samples in the random groups design[EB/OL].(2007-07-01)[2017-03-22].https://etd.ohiolink.edu/rws_etd/document/get/ohiou1178299995/inline.

[7]FITZPATRICK A R,YEN W M.The Effects of Test Length and Sample Size on the Reliability and Equating of Tests Composed of Constructed-Response Items[J].Applied Measurement in Education,2001 14(1):31-57.

[8]MOTIKA R.Effects of anchor item content representation on the accuracy and precision of small sample linear test equating[D].Iowa:University of Iowa,2003:84-154.

[9]EID G K.The Effects of Sample Size on the Equating of Test Items[J].Education,2005(1):165

[10]余民宁.试题反应理论(IRT)及其应用[M].台北:心理出版社,2009.

[11]莫春晖.PETS垂直量表的建立[J].中国考试,2014(10):40-46.

The Effects of the Sample Size on the Result of Test Equating on the Common-Item Nonequivalent Group Design for PETS

JING Chunli,MA Jie,ZHANG Jianshi
(National Education Examinations Authority,Beijing 100084,China)

This study explores the effects of the sample size on the result of test equating on the common-item nonequivalent group design,using data from the Public English Test System(PETS).This study uses a selfimproved Rasch-based software tool called Bigsteps to estimate the item parameter.To explore the effects of test equating on the passing score,the researchers compare the parameter estimate based on the different-sample-size anchor test and the given value of the parameter,and analyze the difference between the equating results on the live test based on the different-sample-size anchor test and the largest-sample-size anchor test.It turns out that the equating result becomes stable when the increasing sample size reaches 150.Therefore,the sample size of 300,which PETS uses,is reasonable.

Common-Item Nonequivalent Group Design;Item Response Theory;Rasch Model;Equating

G405

A

1005-8427(2017)06-0060-5

10.19360/j.cnki.11-3303/g4.2017.06.010

(责任编辑:陈宁)

景春丽(1982—),女,教育部考试中心;

章建石(1979—),男,教育部考试中心,助理研究员;

马 洁(1993—),女,教育部考试中心。

猜你喜欢

教育部考试中心等值样本量
医学研究中样本量的选择
异步电动机等值负载研究
情报站
雅思考试费2020年调整为2170元考试日期已发布
航空装备测试性试验样本量确定方法
教育部考试中心网上测试卡
Sample Size Calculations for Comparing Groups with Binary Outcomes
赏高考真题,品命题思路
电网单点等值下等效谐波参数计算
基于戴维南等值模型的静稳极限在线监视