匹配变量纯化的测验偏差检验方法

2022-12-17汪文义何韵玲宋丽红

江西师范大学学报（自然科学版） 2022年5期

汪文义,何韵玲,宋丽红,黄涛

(1.江西师范大学计算机信息工程学院,江西南昌 330022;2.江西师范大学教育学院,江西南昌 330022)

0 引言

从2018年到2022年的全国两会,“公平”与“质量”2个关键词始终贯穿政府工作报告的教育部分,如2022年的“促进教育公平与质量提升”.2020年10月中共中央、国务院印发的《深化新时代教育评价改革总体方案》是教育评价领域的一份纲领性文件,凸显了教育评价在新时代教育事业发展中的重要地位[1].教育评价改革是新时代深化教育改革创新的关键突破口,是落实立德树人教育根本任务的重要方向标,是推动教育高质量发展、实现创新人才培养的重要保证.教育学者需要结合新时代教育改革创新的国家战略,针对教育评价改革、新时代教育公平等一系列热点和重点问题展开系统地研究[2].有研究显示增值性教育评价本身的效果与想象的效果差别很大,并没有想象的那么公平和准确[3-4].当智能技术大规模应用于评价时,尤其要警惕不可解释、不透明的算法所做出的评价判断.如用东南沿海地区初中生的英语口语语料训练的自动评分模型,全国使用或者用于西部地区就可能存在公平性问题[5].

测验公平是测验效度的基本问题.测量偏差(test bias)是指与测验所测构念无关因素导致相同构念能力被试组在测验分数上的系统差异,通常采用项目功能差异(differential item functioning,DIF)来分析测验偏差.常见的DIF方法主要有MH方法和GMH方法、STD和SMD方法、LR和LDFA方法、SIBTEST和P-SIBTEST方法等[6].下面主要关注SIBTEST及其推广方法CSIBTEST.SIBTEST 是由R. Shealy等[7]于1993年提出的均匀或单向DIF检验方法，张华华等[8]在此基础上提出了多级评分的SIBTEST方法.在SIBTEST方法基础之上,H.H. Li等[9]于1996年提出非均匀或双向DIF检验方法CSIBTEST,并采用模拟方法得到其统计量的抽样分布进行假设检验.CSIBTEST根据参照组和目标组的项目反应函数的交叉位置,对2个分段的SIBTEST统计量求和,以避免SIBTEST统计量正负相加而抵消.R.P. Chalmers等[10]对原CSIBTEST的统计量进行修改并使用卡方分布作为新统计量的渐近抽样分布.本文主要使用R.P. Chalmers所改进的SIBTEST和CSIBTEST.

测验偏差检验方法SIBTEST和CSIBTEST主要基于克隆巴赫α信度系数[11]对真分数估计.而近年来对克隆巴赫α信度系数受到了诸多批判和争论[12],本文将其他信度估计应用于SIBTEST和CSIBTEST方法中,并检验了信度估计对测验偏差检验的影响.测验信度往往基于测验作答反应进行估计,不同群体的测验作答反应或题目间协方差矩阵不尽相同.因此,测验信度具有群体依赖性,即不同群体的测验信度可能不尽相同[13-15].CSIBTEST方法基于参照组和目标组2个测验信度对真分数进行估计,再按照交叉位置分数将匹配分数划分为2类子样本,并分别计算其卡方统计量,然后将2个独立的卡方统计量相加得到自由度为2的检验统计量.既然CSIBTEST方法将参照组和目标组按匹配分数划分为2类子样本,有必要对子样本上的测验信度也进行估计,将其应用于真分数估计,这样可校准能力分布差异,从而在参照组和目标组存在能力分布差异时偏差检验可能更有价值.新方法先使用CSIBTEST获得交叉位置参数,相当于进行DIF预分析,再使用子样本上信度估计用于真分数估计,对匹配变量进行在一定程度上纯化,期望新方法可更高效检验存在DIF试题.因为新方法源于匹配变量纯化的DIF检验思想[16-17],故被称为匹配变量纯化的测验偏差检验方法.

1 研究方法

1.1 信度系数

测验信度定义为测验真分数与测验总分方差之比ρXX′=σ2(T)/σ2(X).克隆巴赫α系数是在真分数理论下提出来的信度估计[11].在真分数理论下,观测分数可以表示为真分数和误差分数之和,即被试i在第j题上的观测得分Xij、真分数Tij和误差分数Eij之间的关系可以表示为

Xij=Tij+Eij=Ti+vj+Eij,

(1)

式(1)也被称为基本真分数等价(essential tau equivalency),将不同题目的真分数差异量限制为常数vj[12].若将式(1)看成因子分析模型特例,则Ti、vj和Eij分别代表(全局)因子得分、局部因子得分(题目的截距)和特殊因子分数.含有J个试题的测验观察总分的方差可以表示为测验真分数方差和误差方差之和:

(2)

若将Var(X)中非对角线元素的平方和C2的函数用于估计真分数方差,可得到下面的信度估计公式[19-20]:

在不同题目上因子负荷会有所不同,从而有如下单因子模型或同质模型(congeneric model)[12]:

Xij=Tij+Eij=λjTi+vj+Eij,

ωh也被称为测验的同质性信度[25].

GLB信度系数采用以下多因子模型估计信度的上限,多因子模型为

1.2 匹配变量纯化的测验偏差检验方法

在新方法中,匹配变量纯化主要采用信度系数分组计算真分数回归,再基于分组的真分数估计并结合CSIBTEST进行测验偏差检验.CSIBTEST是基于SIBTEST而提出的交叉或双向偏差检验方法.SIBTEST是一种基于显著性检验的测验偏差检验的非参数方法.它是由R. Shealy等[7]提出的,主要被用于测量工具单向偏差的检验方法中.

(ngk-1).

4)构建检验统计量.在原假设H0:βcro=0成立下,服从自由度为2的卡方检验统计量为

(3)

当没有交叉位置参数时,式(3)退化为

2 模拟研究

2.1 研究设计

采用蒙特卡罗模拟验证新提出的匹配变量纯化的测验偏差侦查方法,检验其在各种条件下的表现.参照已有相关研究的实验设计[10],得分矩阵模拟采用2参数Logistic模型[27-28]:

P(U=1|a,d,θ)=1/(1+exp(-aθ-d)),

参照组的能力水平服从N(0,1),而目标组的能力分为2个水平,分别服从N(0,1)和N(0.25,0.75).参照组和目标组的样本量分为2个水平,均为1 000或3 000.测试长度固定为25,第25个项目为存在偏差项目.项目的偏差主要分为3种类型.第1种为区分度不同类型(DIF-A),即在参照组和目标组上的区分度分别为1.0和1.5,而截距均为0;第2种为难度不同类型(DIF-B),即在参照组和目标组上的截距分别为0和-0.2,而区分度均为1.0;第3种为混合类型(DIF-AB),在参照组和目标组上的区分度分别为1.0和1.2、难度分别为0和-0.2.

在mirt包中可以找到SIBTEST和修改的CSIB-TEST统计量的开源实现,以及推荐的渐近抽样分布[29].因此,对比方法使用在mirt包中SIBTEST和CSIBTEST的实现[10].同时,对SIBTEST函数代码进行适当修改以得到本文所提出的新方法,简记为GCSIB.每种实验条件重复500次,以得到方法的第I类错误和统计检验力.本文还考虑了4种信度估计对3种方法表现的影响.

2.2 实验结果

1)第I类错误率.表1给出了在各条件下测验偏差侦查方法的第I类错误率.模拟结果表明:SIBTEST和CSIBTEST能够达到与显著性水平相近的第I类错误率,即第I类错误率接近显著性水平0.05.而新方法在目标组为标准正态分布时的第I类错误率略高于显著性水平,而当目标组存在能力分布差异时,新方法第I类错误率控制较差.而项目偏差类型、信度估计、样本量对各种方法的第I类错误率影响较小.

表1 在各种条件下测验偏差侦查方法的第I类错误率

2) 统计检验力.表2给出了在各种条件下测验偏差检验方法的正确拒绝虚无假设的比率(即正确拒绝错误假设的比率).从总体来看,SIBTEST和CSIBTEST正确拒绝虚无假设的比率均低于新方法的,这表示新方法在识别存在偏差的题目上存在一定的优势.各方法的表现受样本量影响较大,当样本量从1 000增加到3 000时,SIBTEST、CSIBTEST和新方法正确拒绝虚无假设的比率增幅分别为30%、44%和34%.

表2 在各种条件下测验偏差侦查方法的统计检验力

当参照组和目标组的能力分布存在差异时,SIBTEST和CSIBTEST的检验力有下降趋势;反过来,新方法在能力分布存在差异时表现相当好.而项目偏差类型、信度估计、样本量对各种方法的检验力影响较小.当样本量为1 000时,信度估计wh与其他信度估计在各方法正确拒绝虚无假设的比率上有所差异,并且当样本量增大为3 000时,这种差异仍存在.

SIBTEST对于DIF-A类型的偏差侦查表现较差,这主要是因为该方法主要针对单向偏差检验而设计,SIBTEST对DIF-B和DIF-AB偏差类型均有较好的识别能力.CSIBTEST正确识别DIF-A偏差类型比DIF-B和DIF-AB的检验力更高,当样本量为3 000时,新方法对3种偏差类型的正确拒绝虚无假设的比率均值高达95%.

3 结论与讨论

考虑在测验偏差检验方法SIBTEST和CSIBTEST方法中主要使用克隆巴赫α信度系数,本文将其他信度估计应用于SIBTEST和CSIBTEST方法中,并检验了信度估计对测验偏差检验的影响.研究结果显示,不同信度的估计对测验偏差检验的影响较小.同时注意到测验信度具有群体依赖性,对CSIBTEST方法将参照组和目标组按匹配分数划分为2类子样本,并分别进行测验信度估计,将其应用于真分数估计,从而提出了改进的CSIBTEST.研究结果表明:在参照组和目标组能力分布存在差异时,改进的CSIBTEST表现出相当优良的统计检验力.

虽然改进的CSIBTEST可以校正参照组和目标组能力分布的差异,并且表现出相当优良的统计检验力,但是新方法会以较高概率将没有偏差试题判为存在偏差.从犯2类错误的风险来看,人们对高风险考试的公平性关注度较高.因此,误将有偏差的试题视为无偏差,显然比误将无偏差的试题视为有偏差的风险更高.从实际应用来看,可以充分发挥多种测验偏差检验方法的优势,新方法或者多种方法均将测验中某题判断为存在偏差试题,应该高度怀疑此题存在偏差.对于统计检验方法怀疑的存在偏差试题及其偏差量可反馈给专家以做进一步判断.