APP下载

k系列指数、g2、错同率的抄袭识别效能比较研究*

2015-02-25甘媛源,余嘉元

心理学探新 2015年5期



k系列指数、g2、错同率的抄袭识别效能比较研究*

甘媛源1,2,余嘉元2

(1.江苏省教育评估院,南京 210024;2.南京师范大学心理学系,南京 210097)

摘要:采用蒙特卡洛模拟的方法进行k系列指数、g2、错同率的抄袭识别效能比较实验,探讨影响五种抄袭统计量抄袭识别效能的因素。结果表明:(1)在被试样本量、项目数、被抄者的能力水平、抄袭率四个因素中,抄袭率对抄袭识别效能的影响最大,被抄者的能力水平、项目数次之,被试样本量的影响最小;(2)在上述因素相当的情况下,g2的抄袭识别经验I型错误率远高于α 水平,抄袭识别率也最高,k1、k2的经验I型错误率远低于α 水平,抄袭识别率较高,错同率的经验I型错误率略高于α 水平,抄袭识别率较低,k*′的经验I型错误率几乎均为0,抄袭识别率最低;(3)在被怀疑的被抄者已确定的情况下,k1、k2的抄袭识别效能最高,是较理想的抄袭统计量;(4)在同等条件下,当被怀疑的被抄者和抄袭者均未确定时,五种抄袭统计量的抄袭识别效能较被怀疑的被抄者已确定的情形均大幅下降;(5)在缺乏被怀疑者信息的情况下,需设定更为保守的指标临界值,以降低误判风险。

关键词:k系列指数;g2;错同率;经验I型错误率;抄袭识别率

1引言

从古至今,考试和作弊就像一对孪生兄弟一样形影不离,在古代的科考中,最为常见的作弊手段是夹带、贿赂主考官及请人代考,随着社会的不断进步,各种高科技作弊工具不断涌现,作弊现象就更加泛滥。作弊现象的存在不仅降低了考试的信效度,破坏了考试的公平、公正性,而且制约了考试评估、选拔功能的正常发挥,因此,它引起了考生、家长、教育机构、考试中心、政府部门的广泛关注。在众多的作弊方式中,抄袭是最难以识别的一种作弊方式,它是指一个考生从另一个考生那里得到部分试题答案或全部试题答案的行为,最终呈现为两份试卷作答反应的雷同。

从20世纪20年代开始,国外研究者陆续构建了一些用于考试抄袭识别的统计量,如:ESA(Bay,1995)、Bm(Bay,1995)、g2(Frary,1997)、k(Holland,1996;Belov,2010)、s2(Sotaridona,2006)、ω(Wollack,2004;van der Linden,2009)、kappa(Sotaridona,2006)等,有的统计量还在实际考试情景中得以应用,如:k指数在SAT中的应用(Lewis,1998)、ω指数在MPRE中的应用等(Wollack,2003)。但在国内,查处考试作弊的方式多为考场监测,对试后抄袭甄别方法的探究非常有限:韩丹等对国外学者构建的抄袭统计量的综述并对其中的一些指标进行了模拟实验研究(韩丹,2009),刘景玉对g2、ω进行的抄袭识别效能比较模拟实验(刘景玉,2008),胡艳对转换二项式、kappa进行了抄袭识别效能比较研究(胡艳,2009),关丹丹等对kappa的抄袭识别能力进行了验证(关丹丹,2009),张颖等结合医师资格考试数据,对错同率的抄袭识别效能进行了初步探讨(张颖,2002;甘媛源,2012)。由此可见,国内关于抄袭统计量的探究才刚刚起步,模拟研究的实验条件单一、零散,没有与国内考试实际相结合,本文的主要目的在于设计系统的实验比较k系列指数、g2及错同率的抄袭识别效能,之所以选择这五种抄袭统计量是基于以下考虑:(1)在国外,k已经被用于实际考试的抄袭甄别,然而,无论Holland的研究还是韩丹的研究,都没有明确提出计算k所涉及的参数b的方法(Holland,1996;韩丹,2009);(2)Sotaridona认为k1、k2较k的抄袭识别效能更高(Sotaridona,2002),韩丹的研究也支持这一结论(韩丹,2009),然而他们的研究设计都建立在已知被怀疑范围的抄袭者和被抄者基础上,但在国内一些高利害考试中会出现大规模的集团作弊,这样的作弊方式可能使得被怀疑的被抄者和抄袭者均不确定,而这一点可能会对它们的抄袭识别性能产生影响;(3)在以往的比较实验研究中,常将ω作为一种“好”的统计量,用于评估其他甄别方法的优劣,然而,ω是建立在项目反应理论基础上的,在国内的适用范围有限,而g2识别抄袭的基本思路与ω相同,它既是基于经典测量理论的方法,又是同时考虑错同(两考生做出相同错误反应的数目)和对同(两考生做出相同正确反应的数目)的方法(甘媛源,2012);(4)错同率是唯一已经在国内的考试实际中得以应用的方法。因此,研究尝试结合国内考试实际设计实验条件,对这五个抄袭统计量进行比较,探讨影响其抄袭识别效能的因素,以期推进我国心理测量学的发展。

2研究方法与过程

2.1五种抄袭统计量简介

2.1.1抄袭统计量的统计原理

抄袭统计量的基本原理是在假设没有抄袭的条件下建立被试反应概率的模型,在此基础上可以得到被试间存在相似回答模式的概率,进而发现异常的相似回答模式,存在这一模式的被试就被认为是可能的抄袭者。

任何两个独立的被试都存在一些相同的作答反应,例如,被试选择相同的正确答案是非常普遍的,相应地,任何两个被试也有可能选择相同的错误答案,因为那些具有良好区分度的多项选择题一般都会设置一些诱惑性强的错误选项来吸引能力较低的被试,让他们趋于选择这一错误选项,因此,两个独立的被试选择了相同的错误选项是正常的。但是,某些类型的一致回答却是异常的,例如,能力很低的被试不可能连续正确回答出非常难的项目,这就是所谓的异常相似反应模式。当然,一些偶然因素也可能造成这种异常相似反应模式,但如果这种异常模式很多,就具有了统计学意义。抄袭统计量就是基于以上假定提出来的,因此,所有的抄袭统计量的计算依据都是被怀疑抄袭者和被抄者得分模式的相似概率。

2.1.2k系列指数

在k指数的计算中,首先将具有相同错误答案数目的被试分成一组,所有被试就被分为R组,第r组(r=1,2,…R)中的被试记为j(j=1,2,…Jr),也就是说,在第r组中的Jr个被试有相同的错误项目数,将含有被怀疑抄袭者(c)的被试组定义为第c′组,用Jc′表示第c′组中所包含的被试人数,因此,rj表示在r组中的被试j,Uirj为在r组中的被试j对项目i的反应,设ws为被抄者(s)的错误项目数,对于每一个被试rj就有一个指示变量Airj,当第r组中的被试j对项目i的反应与s对项目i的反应相同时,Airj=1,否则,Airj=0,设Mrj为被试rj与s错误答案匹配的数目,因此,Mrj=ΣAirj,因为在计算k指数时指出是哪一个被试所对应的与抄袭来源的错误答案匹配数目是不必要的,以下将Mrj简记为M,用二项分布近似的估计M的分布,数学表达式如(1),

(1)

其中,ws为s错误回答的数目,mc′c为c与s做出相同错误反应的数目,Pc′是第c′组中的被试与s做出相同错误反应的平均数目在s做错的项目数中所占比例。所以,k即是在偶然因素条件下的错误答案匹配比mc′c大的概率。当k值较小时,c抄袭s的可能性较大。在求k的过程中,Holland建议用Qc′的分段线性回归来估计Pc′,用数学表达式如(2),

(2)

其中,Qc′表示c的错误反应数占总项目数的比率,b恒大于零并随考试类型的变化而随之变化,但在Holland的研究中并没有明确提出参数b的求取方法,在研究中,先将Qc′和Pc′的经验值代入式(2)求对应的b值,然后取这些值中的最大者作为调节变量b的值,由于该方法有别于Holland通过画图进行估计的方式,因此通过这一方法求得的k另记为k*′。

实际上,k1、 k2主要在Pc′估计方法方面进行了改进,它们分别通过一次线性回归和二次回归来估计Pc′;并通过R2和RSE来评价回归方程的有效性。

2.1.3g2

g2指数是s和c作出相同反应的数目(hcs)的标准化,因此,该抄袭指标的计算分三步:(1)求E(hcs),(2)求σhcs2,(3)其标准化。具体计算过程如下:

(1)在计算期望时,假设s的作答反应Us固定,随后确定c与s选择了相同答案的概率Pc(uis),hcs的期望即为在考试所有项目n上的匹配概率之和,其数学表达式如(3),

(3)

(2)因为被试对项目的回答只有正确和错误两种,所以被试间的项目答案匹配服从二项分布,那么,s与c做出相同反应的数目的方差如(4),

(4)

(3)将hcs标准化即为g2的值,其数学表达式如(5),

(5)

一般地,g2近似服从均值为0,标准差为1的标准正态分布,因此,其值可用标准正态分布来进行显著性检验,其值越大,c从s处抄袭答案的可能性就越大。

2.1.4错同率

错同率是指c与s都答错并且选择相同错误答案的项目数占s答错项目数的比例,它基于经验分布,其临界值需要根据每个样本分布来定。这一指标是抄袭统计量中算法最简单、操作最容易的一种方法,张颖的研究也证明,错同率可以作为一种有效的抄袭识别统计量在实际考试情景中加以应用,但是,正是由于该指标的计算过于简单,并没有考虑到被试间的能力水平差异,也没有用到除c和s外的被试样本信息,可能会在一定程度上影响它的抄袭识别效能。

2.2实验设计

采用模拟实验比较k系列、g2及错同率在已知被怀疑范围的c、s和c、s均不确定的情况下的抄袭识别性能,实验考察的因素有7个:测验长度、样本量大小、被抄袭者的能力水平、抄袭者的抄袭率、理论I型错误率、抄袭统计量及被怀疑对象是否确定。实验包括两部分(1)实验一至实验五对应具备被怀疑对象确定的情况;(2)实验六对应被怀疑对象不确定的情况,具体设计如下:

实验一:测验长度对k系列、g2及错同率的抄袭识别性能的影响,在具备被怀疑对象信息的情况下,将样本量、被抄袭者的能力水平、抄袭者的抄袭率、理论I型错误率分别固定为500人、60百分等级、30%、0.01,考察测验长度对五种抄袭统计量的抄袭识别性能的影响。测验项目数分别取:40(短)、80(中)、120(长)。

实验二:样本量对k系列、g2及错同率的抄袭识别性能的影响,在具备被抄袭对象信息的情况下,将测验长度、被抄者的能力水平、抄袭者的抄袭率、理论I型错误率分别固定为80题、60百分等级、30%、0.01,考察样本量对五种抄袭统计量的抄袭识别性能的影响。测验人数分别取:200(少)、500(中)、1000(多)。

实验三:被抄者的能力水平对k系列、g2及错同率的抄袭识别性能的影响,将测验长度、样本量、抄袭者的抄袭率、理论I型错误率分别固定为80题、500人、30%、0.01,考察被抄者的能力水平对五种抄袭统计量的抄袭识别性能的影响。被抄袭者的能力水平分别取:60百分等级(低)、90百分等级(高)。

实验四:抄袭者的抄袭率对k系列、g2及错同率的抄袭识别性能的影响。将测验长度、样本量、被抄袭者的能力水平、理论I型错误率分别固定为80题、500人、60百分等级、0.01,考察抄袭率对五种抄袭统计量的抄袭识别性能的影响。抄袭率分别取:10%(低)、30%(中)、50%(高)。

实验五:在不同的α水平下,k系列、g2及错同率的抄袭识别性能。将测验长度、样本量、被抄袭者的能力水平、抄袭者的抄袭率分别固定为80题、500人、60百分等级、30%,考察五种抄袭统计量在不同理论I型错误率下的抄袭识别性能。理论I型错误率由大到小分别取:0.01、0.008、0.006、0.004、0.002。

实验六:为了考察五种抄袭统计量在被怀疑对象不确定情况下的可行性,本实验设样本量为500人、项目数为80题、被抄者的能力水平为60百分等级,计算在不同的理论I型错误率下,不同抄袭率下五种抄袭统计量的抄袭识别性能,并与被怀疑范围确定情况下的识别性能作比较。

2.3实验方法

(1)采用Montecarlo模拟数据方法生成模拟数据。测验长度分别为40、80、120,样本量分别为200、500、1000,共6种实验条件。用称名反应模型(nominalresponsemodel,NRM)生成被试模拟反应矩阵。实验中,测验采用四选一多项选择题,相应地,每个项目分别生成4个区分度和难度,其区分度服从以0为均值,1为标准差的对数正态分布,难度服从标准正态分布,被试的能力水平也服从标准正态分布。每种实验条件重复模拟100次。

(2)按照被试的能力水平排序,确定被抄者s(随机选取90百分等级和60百分等级的被试),每一个数据文件对应唯一的被抄者。

(3)在能力水平低于s的被试中随机抽取5%的被试作为模拟抄袭者c。c在抄袭项目上的反应通过如下步骤取得:从全部项目中随机选取10%、30%、50%的项目,将c在这些项目上的反应替换为s的反应。

(4)区分度值最大的选项即为项目的正确答案,将被试的反应与正确反应进行对比取得被试的得分矩阵,计算每个被试的正确及错误反应数目,并根据被试错误反应数目进行分组,把错误数相同的被试分在同一组。

(5)在被怀疑对象确定的条件下,s不参与计算,实验目的在于通过比较其他被试与s的反应矩阵找出抄袭者;在被怀疑对象不确定的条件下,s参与计算,实验目的在于通过被试间的两两比较找出抄袭者。

(6)各抄袭统计量的抄袭性能用经验I型错误率(I)和识别率(P)来衡量,I型错误率即为被抄袭统计量误判为抄袭者的被试在被试样本量中所占比例,抄袭识别率即为被抄袭统计量识别出的抄袭者在抄袭者中所占比例。为降低随机误差,I、P均取100次实验的均值。

3研究结果

3.1被怀疑的被抄者确定

3.1.1实验一至实验四研究结果

表1 测验长度对五种抄袭统计量的抄袭识别性能的影响(α=0.01)

表2 样本量对五种抄袭统计量的抄袭识别性能的影响(α=0.01)

表3 被抄者的能力水平(百分等级)对五种抄袭统计量的抄袭识别性能的影响(α=0.01)

表4 抄袭率对五种抄袭统计量的抄袭识别性能的影响(α=0.01)

3.1.2实验五研究结果

图1 经验I型错误率与抄袭识别率(500人、80题、60百分等级、抄袭30%)

3.2被怀疑的被抄者与抄袭者均未确定(实验六)

表5 被怀疑的被抄者是否确定对五种抄袭统计量的抄袭识别性能的影响(α=0.01)

表6 在无前期信息条件下,五种抄袭统计量的临界值(经验I型错误率设为0.01)

4结果讨论

4.1被怀疑的被抄者已确定

4.1.1被试样本、项目数、被抄者能力水平、抄袭率对抄袭识别效能的影响

表1表明,在被抄者的能力水平、抄袭者的抄袭率固定的情况下,随着项目数的增加,无论是k系列指数、g2还是错同率的抄袭识别率均不断提高,经验I型错误率变化不显著;表2表明,在项目数、被抄者的能力水平及抄袭者的抄袭率固定的情况下,随着被试样本量的增加,五种抄袭统计量的抄袭识别率均不断提高,经验I型错误率略微降低;表3表明,在项目数、被试样本、抄袭者的抄袭率固定的情况下,随着被抄者能力水平的提高,五种抄袭统计量的抄袭识别率均不断降低,经验I型错误率不断提高;表4表明,在项目数、被试样本、被抄者的能力水平固定的情况下,随着抄袭者抄袭率的提高,五种抄袭统计量的抄袭识别率均不断提高,经验I型错误率不断降低。比较发现,抄袭率是对抄袭效能影响最大的因素,被抄者的能力水平、项目数次之,被试样本量对抄袭统计量的抄袭效能影响最小。

4.1.2k系列指数、g2及错同率的抄袭识别效能比较

表1至表4的研究结果还表明,(1)从经验I型错误率来看,g2的经验I型错误率是α水平的4倍以上,错同率在除项目数最大(120个项目)、抄袭率最高(50%)的情况下,其经验I型错误率均略高于α水平,k系列指数的经验I型错误率均低于α水平,其中,k*′的经验I型错误率几乎全为0,这表明,用k*′进行抄袭识别的准确性最高,几乎不存在将未抄袭者误判为抄袭者的情况;k1、k2也能将误判率控制在α水平以下;用错同率进行抄袭识别的误判率与α水平基本相当;只有g2的经验I型错误率数倍于α水平,使得其抄袭识别的准确性降低,存在将被试误判为抄袭者的高风险,因此,在将g2作为抄袭识别指标时,应设置更为严格的α水平,选取更大的指标临界值,以降低其将被试误判为抄袭者的风险。(2)从抄袭识别率来看,在同等条件下,g2的抄袭识别率最高,k2次之,k1略低于k2,错同率第四,k*′最低。由于g2是这些抄袭统计量中唯一既考虑被试间的错误答案匹配又考虑正确答案匹配的指标,能获得更多被试间匹配的信息,因此,它更易于将抄袭者从被试样本中甄别出来;前已述及,k系列指数的区别仅在于二项分布的参数P的求取方法的差异,k*′用分段线性函数求P,而分段线性函数的调节变量b选取了通过经验P、Q求得的b值中的最大者,b越大,参数P越大,k*′的值越大,在临界值不变的条件下,就越容易出现漏判抄袭者的情况,因此,k*′的抄袭识别率较低;k1、k2分别用线性函数和二次函数取代分段线性函数,通过分析两回归方程的R2和RSE可知,两回归方程均有效,相对而言,二次回归模型拟合更优,因此,k1、k2较k*′更不易出现漏判,相应地,k2的抄袭识别率略高于k1;错同率的计算相对简单,也没有将被试按能力进行分组,可能会漏掉一些有用的信息,其抄袭识别率也较低。

4.1.3α水平对抄袭识别效能的影响

前已述及,经验I型错误率是指将未抄袭者误判为抄袭者的比例,因此,经验I型错误率不高于α水平即表示该抄袭统计量能很好地控制I型错误,在抄袭者甄别中趋于保守估计,这也使得其抄袭识别率将会下降。图1A和图1B分别表示在被试样本为500、项目数为80、被抄者的能力水平为60百分等级、抄袭率为30%情况下,各个抄袭统计量的经验I型错误率和抄袭识别率,在图1A中的分界线表示α水平和经验I型错误率相等,可将五种抄袭统计量的经验I型错误率连线与之比较,由图可知,k系列指数的经验I型错误率连线均在分界线之下,表明k系列指数将被试判定为抄袭者的标准很好,据此作出的被试抄袭判定非常谨慎;而错同率和g2的经验I型错误率连线均在分界线之上,相对而言,g2对应连线向上远离分界线更多,表明g2在抄袭者甄别中趋于放松估计,其将被试判定为抄袭的标准较低,由于把未抄袭被试误判为抄袭者对个体发展将产生非常严重的后果,因此,如前所述,在采用g2进行抄袭甄别时应设定更严格的α水平以降低其经验I型错误率。图1B直观地显示了五种抄袭统计量的抄袭识别率高低:g2的抄袭识别率最高,k1、k2的抄袭识别率也较高,错同率和k*′的抄袭识别率较低,综合考虑经验I型错误率和抄袭识别率这两个反映抄袭识别效能的指标可知,k1、k2是较为理想的抄袭统计量。

4.2被怀疑的被抄者与抄袭者均未确定

4.2.1被怀疑的被抄者是否确定对抄袭识别效能的影响

表5表明,在同等条件(500人,80题,60百分等级,抄袭30%,α=0.01)下,当被怀疑的被抄者与抄袭者均未确定时,五种抄袭统计量的经验I型错误率和抄袭识别率均大幅提高,由此可知,将抄袭识别建立在已知被怀疑范围的被抄者和抄袭者基础上是非常重要的,据此做出的抄袭判定才具有较高的准确性,若只能在被试样本中进行两两比较,而无法确定被怀疑的被抄者与抄袭者,五种抄袭统计量的抄袭识别效能均下降,据此将未抄袭被试误判为抄袭者的风险很大,因此,在这种情况下,五种抄袭统计量都需设置更严格的α水平,调整指标临界值,以降低误判率,提高抄袭判定的准确性和严谨性。

4.2.2五种抄袭统计量的临界值

表6列出了在被试样本为500、项目数为80、被试能力水平为60百分等级、抄袭率为30%条件下,将抄袭识别的经验I型错误率设定在0.01左右时,各抄袭统计量的临界值,由表6可知,当将误判率设定为0.01时,k系列指数的临界值均缩小到小数点后第六位,其抄袭识别率均在0.3~0.4之间;错同率的临界值为0.5842,抄袭识别率最低,g2的临界值为5.3,其抄袭识别率最高,达到了0.8以上。当然,当被试样本、项目数、被试能力水平、抄袭率发生变化时,这些抄袭统计量的临界值也会随之变化,因此,针对跨区域的高科技团伙作弊,需参照真实的被试作答数据规模,设定更为保守的临界值,以达到不误判每一个考生的目的。

5研究结论

采用蒙特卡洛模拟的方法进行了k系列指数、g2、错同率的抄袭识别效能比较实验研究。结果表明:(1)在被试样本量、项目数、被抄者的能力水平、抄袭率四个因素中,抄袭率对抄袭识别效能的影响最大,被抄者的能力水平、项目数次之,被试样本量的影响最小;(2)在上述因素相当的情况下,g2的抄袭识别经验I型错误率远高于α水平,抄袭识别率也最高,k1、k2的经验I型错误率远低于α水平,抄袭识别率较高,错同率的经验I型错误率略高于α水平,抄袭识别率较低,k*′的经验I型错误率几乎均为0,抄袭识别率最低;(3)在被怀疑的被抄者已确定的情况下,k1、k2的抄袭识别效能最高,是较理想的抄袭统计量;(4)在同等条件下,当被怀疑的被抄者和抄袭者均未确定时,五种抄袭统计量的抄袭识别效能较被怀疑的被抄者已确定的情形均大幅下降;(5)在缺乏被怀疑者信息的情况下,需设定更为保守的指标临界值,以降低误判风险。

当然研究是采用蒙特卡洛模拟的方法进行的比较实验,实际考试的数据可能更加复杂,因此,结合真实考试数据对各个抄袭统计量的抄袭识别效能进行比较是未来研究的方向;同时,限于篇幅,研究只讨论了k系列指数、g2及错同率的考试抄袭识别效能,对于s系列指数、kappa、个人拟合指数、人工神经网络等抄袭统计量的抄袭识别效能均未涉及,这些也有待于更进一步的探讨。

参考文献

甘媛源,田金亭,余嘉元.(2012).兼顾两种匹配的抄袭统计量研究评述.心理学探新,32(1),86-90.

甘媛源,余嘉元,张颖,等.(2012).K系列指数在执业医师资格考试抄袭识别中的应用.中国卫生事业管理,10,760-761.

关丹丹,孙晓敏.(2009).考试抄袭识别的统计方法—kappa统计量.中国考试,11,8-13.

韩丹.(2009).考试抄袭识别的心理测量学研究.硕士论文.辽宁师范大学.

胡艳.(2009).查作答抄袭的两种新指标的比较研究.硕士论文.江西师范大学.

刘景玉,肖立宏.(2008).甄别多项选择题考试中答案抄袭的不同方法的比较.考试研究,4(3),90-101.

张颖,赵世明,等.(2002).多选题雷同的判定标准研究.考试研究,9,15-17.

Bay,L.G.(1995).Detectionofcheatingonmultiple-choicetestsexaminations.Annual Meeting of the American Educational Research Association.

Belov,I.D.(2010).Armstrong R D.Automatic detection of answer copying via kullback-leibler divergence and k-index.AppliedPsychologicalMeasurement,34(6),379-392.

Frary,R.B.(1997).Comparison of two indices of answer copying and development of a spliced index.EducationalandPsychologicalMeasurement,57(1),20-32.

Holland,P.W.(1996).Assessingunusualagreementbetweentheincorrectanswersoftwoexamineesusingthekindex:Statisticaltheoryandempiricalsupport.Princeton,NJ:Education Testing Service.

Lewis,C.,& Thayer,D.T.(1998).Thepowerofthekindextodetect.Princeton,NJ:Education Testing Service.

Sotaridona,L.S.,& Meijer,R.R.(2002).Statistical properties of k-index for detecting answer copying.JournalofEducationalMeasurement,39,115-132.

Sotaridona,L.S.,& Van der Linden,W.J.(2006).Detecting answer copying when the regular response process follows a known response model.AppliedPsychologicalMeasurement,31(3),283-304.

Sotaridona,L.S.,Van der Linden,W.J.,& Meijer,R.R.(2006).Detecting answer copying using the kappa statistic.AppliedPsychologicalMeasurement,30,412-431.

van der Linden,W.J.(2009).A bivariate lognormal response-time model for the detection of collusion between test takers.JournalofEducationalandBehavioralStatistics,34(3),378-394.

Wollack,J.A.(2003).Comparison of answer copying indices with real data.MeasurementinEducation,40,189-205.

Wollack,J.A.(2004).Detecting answer copying on high-stakes tests.TheBarExaminer,73,35-45.

Comparision of Series ofk-index,g2-index,and

False Same Rate of Answer Copying

Gan Yuanyuan1,2,Yu Jiayuan2

(1.Jiangsu Agency for Educational Evaluation,Nanjing 210024;

2.Psychology Department,Nanjing Normal University,Nanjing 210097)

Abstract:In order to compare the power of answer copying detection of the answer copying statistics such as series of k-index,g2-index,and false same rate,the comparison experiment was carried out under various copying conditions,sample size,test length,source’s ability,and copier’s detection rate.Which one was the most influencing factor of their answer copying detection power and which one was the best answer-copying statistics were investigated.The results indicated the following:(1)among sample size,test length,source’s ability,and copier’s detection rate,the copier’s detection rate was the most influential factor of their answer-copying detection power,test length and source’s ability were the second ones,and sample size was the least one.(2)With the same sample size,test length,source’s ability,and copier’s detection rate,the empirical type I error rate of g2-index was above the nominal α level,and the detection rate of it was the highest;k1-index and k2-index were able to hold the empirical type I error rates below the nominal α level,and their detection rates were the second higher;the empirical type I error rate of k*′-index was close to 0,and its detection rate was the lowest;the empirical type I error rate of false same rate was slightly above the nominal α level,and its detection rate was the second lower.(3)k1-index and k2-index were the best answer-copying statistics when the source under suspicion was determined,because their powers of answer copying detection were the highest.(4)With the same sample size,test length,source’s ability,and copier’s detection rate,the powers of answer copying detection of series of k-index,g2-index,and false same rate were sharp decreased when the source and copier under suspicion were undetermined.(5)In order to reduce misjudgment risk,the conservative critical value of the answer-copying statistics would be determined when the examinees under suspicion were undetermined.

Key words:series of k-index;g2-index;false same rate;empirical type I error rate;detection rate

中图分类号:B841.2

文献标识码:A

文章编号:1003-5184(2015)05-0464-07

基金项目:*国家社会科学基金“十一五”规划课题(BBA080050)。