APP下载

计算机辅助口试评分稳定性历时研究
——以PRETCO口试为例

2021-04-30杨志强李志芳董曼霞

外国语文 2021年2期
关键词:分数段口试评分标准

杨志强 李志芳 董曼霞

(1.重庆科技学院 外国语学院,重庆 401331/广东外语外贸大学 外国语言学及应用语言学研究中心,广东 广州 510420;2.陆军军医大学 基础医学院外语教研室,重庆 400038;3.四川外国语大学 商务英语学院,重庆 400031)

0 引言

外语口语能力是外语水平的直接表现。随着英语口语越来越受到重视,参加口试的考生逐年增多,人工实考及评分已经无法满足操作需求。近20年来,计算机技术和测试理论的不断发展及融合,突显了计算机辅助考试的优势,如信度高、节约费用、考试时间灵活、便于组织等(曾用强, 2011)。因此,该技术已广泛应用于大规模考试实践中(金力,2011),包括TOFEL机考、CET口试、TEM口试以及高等学校英语应用能力口语考试(Practical English Test for College-Oral,简称PRETCO口试)等。PRETCO口试是由国家高等学校英语应用能力考试委员会于2005年开始实施的口语考试,该考试是以人机对话方式进行的计算机辅助考试(刘鸿章 等, 2010)。由于计算机辅助口试自动评分技术还不成熟,目前仍采用人工评分。人工主观评分容易出现误差,所以有必要对评分的信度进行研究(Myford et al., 2004)。此外,评分员的评分可能随着时间的进展发生变化(Myford et al., 2004),而且评分的稳定性直接关系评分的质量、评分员的遴选,以及考试的信度、效度和公平性等(赵海燕 等, 2018),因此,对评分员的稳定性进行研究具有重要的实际意义。虽然近年来有关口语测试评分信度展开的研究日益增多(何莲珍等, 2008;刘建达, 2010;Attali, 2016;Kang et al., 2019)但这些研究都只对单次的评分作了分析,没有对评分的稳定性进行历时研究。为此,本文拟基于PRETCO口试连续五次的评分结果,调查评分员评分的稳定性,以期为PRETCO口试的评分提供一些启示,同时为其他高风险计算机辅助口试,如CET口试、TEM口试的评分或评分培训提供一些参考。

1 文献回顾

国外有关口语测试的研究起步早,覆盖广,如口语测试的构念(Luoma, 2004)、口语测试的效度验证(Knoch et al. 2018)、口试的任务(Frost et al., 2020)、口试评分标准(Fulcher, 1996; Khabbazbashi et al., 2020)、受试的特征(Nakatsuhara, 2011)、评分培训及评分员对考生口试表现的影响(Kang et al, 2019)、口试的评分效度研究(Lumley et al., 1995;Elder et al., 2005;Attali, 2016),等等。其中,有关口试评分的研究占多数。虽然评分员的评分是动态变化的(Myford et al., 2004),但大部分研究只对单次的评分进行了分析。目前,仅有个别文献采用现代测试方法,比如基于项目反应理论的多层面Rasch模型,对口试评分进行了历时分析(Lumley et al., 1995;Bonk et al., 2003;Kim, 2015),然而这些研究的结果存在差异。Lumley 等(1995)分析了四名评分员三次职业英语口试(Speaking subtest of Occupational English Test)的评分结果,发现评分员评分的严厉度随着时间发生了变化,且宽严度变化的趋势不尽相同;Bonk等(2003)基于对某校本英语口试两轮评分结果的分析,发现评分员的严厉度差异较大,而且不稳定,评分员的内部一致性随着其评分经验的积累不断加强;Kim(2015)通过采用定性的研究方法,对比了新、中、老口试评分员的三次评分行为,发现三组评分员历次的评分能力存在差异,新评分员改进较慢,中评分员通过不断培训得以不断改进,老评分员则相对较为稳定。

虽然国内有文献对口语测试的评分进行了研究(何莲珍 等, 2008;刘建达, 2010),但这些研究同样只对评分员某次的评分进行分析。截至目前,国内尚无文献从历时的角度探讨口试评分的稳定性。因此,本文将以此为出发点,基于多层面Rasch模型和Myford等(2009)写作评分漂移研究的框架,从评分员严厉度、准确度以及集中趋势三个方面对PRETCO口试的评分稳定性进行分析与研究。其中,评分员严厉度是指评分的宽严度,评分员准确度是指相对于其他评分员评分均衡性,集中趋势是指评分员高频率使用中间分数段(Myford et al., 2004)。

2 研究方法

2.1评分员及阅卷量

由于本研究中PRETCO口试阅卷点每次评阅的数量不统一,评分员的数量不定,一般在10--20人之间,评分员分别来自15所不同的高校。本研究所选取的五次PRETCO口试阅卷结果共涉及到6525份,其中第一次为1493份,第二次为1356份,第三次为1351份,第四次为870份,第五次为1455份,参加阅卷任务的评分员共45名。每位考生的口语由两名评分员进行评分,因此总阅卷数为13050份。本研究评分员R0、R1和R2连续参加了五次阅卷任务,评分员R4、R5和R6连续参加了前四次阅卷任务,其具体信息见表1:

表1 评员基本情况

2.2 PRETCO口试及其评分标准

RRETCO口语考试形式为人机对话,主要由朗读、问答、翻译(汉译英)以及口头陈述四部分任务组成,整个考试过程约为20分钟(《高等学校英语应用能力考试大纲》修订组, 2016)。每次PRETCO口试会采用2--4套平行试题,每项任务总分为4分,采用七级记分制(0,1,2,2.5,3,3.5,4),为方便计算,本研究将其转换为1,2,3,4,5,6,7七个等级。“朗读”主要从语音、语调以及流利程度三方面进行评分(见表2);“问答”“翻译”和“陈述”主要从内容、表达、语言三方面进行评分(见表3)。两位评分员分别独立对考生四项任务的表现进行评分,然后再根据每个任务的得分算出口试总分。如果两者评分出现等级差异,由第三位高级评分员(评分组长)进行仲裁,重新进行整体评分。

表2 朗读任务评分标准

表3 陈述评分标准

注:(1)由于FACETS要求使用整数数据,所以本文将所有原始分数换算成相应的七个等级(1,2,3,4,5,6,7);(2)囿于篇幅,而且考虑到问答、翻译和陈述都是从内容、表达、语言三方面进行评分,故只列出其中一种评分标准

2.3 数据分析依据

本研究基于多层面Rasch模型,采用FACETS软件(版本3.71.3)(Linacre, 2013)对历次PRETCO口试评分结果进行分析。模型包括四个层面,考生能力、评分员、口试的四项任务以及评分次序。鉴于PRETCO 四项任务具体的评分标准不一致,所以本研究采用多层面Rasch模型中分部记分模型(Partial Credit Model)(Bonk et al.,2003)。此外,以往研究忽略了数据链接(connectivity)的重要性(Wind et al.,2018)而探究评分员历时评分的稳定性需要链接(link)历次评分的数据。本研究中评分员R0五次评分的各项指标,比如严厉度和加权均方拟合度都在合理的范围,所以选用该评分员的总体评分作为链接数据,以观察另外五位评分员(R1、R2、R3、R4和R5)评分的稳定性。同时,本研究借鉴Myford和Wolfe(2009)对于评分员写作评分漂移研究的框架,从评分员严厉度、准确度以及集中趋势三个方面对PRETCO口试的评分稳定性进行历时分析与研究。

首先,对于严厉度的稳定性,传统方法是采用分离模型和交互模型计算各个时间段的严厉度logit值,然后进行显著性检验(Myford et al., 2009)。然而,由于交互模型存在混合测量误差(Dobria, 2011),所以本研究未采用该方法计算评分员严厉度稳定性的偏差,而是将评分员在每次评分中视作不同的评分员,可以根据评分员的logit值直接观察评分员严厉度的变化。其次,关于评分员评分准确度的历时变化,可以基于评分员的点二列相关系数(rSR-ROR,即Point-biserial Correlation或 Point Measure)进行判断(Myford et al., 2004)。检验评分员准确度的变化趋势需要根据公式(一)将相关系数转化为Fisher’s Z值,然后再通过Z检验(公式二)来判断评分员评分准确度的稳定性是否具有统计意义上的显著性(Myford et al., 2009)。

公式(二)

最后,关于集中趋势的稳定性,历次评分阈值(Threshold)的标准差可以用作判断集中趋势稳定性的参数。所谓阈值是指相邻分数段概率曲线的交叉值(Bond et al., 2015)。本研究基于Rasch的混合模型(Hybrid Model 2)(Myford et al., 2004),通过计算单个评分员每次评分中对各项任务评分标准的使用情况,然后根据评分员每次评分阈值的标准差来判断其评分集中趋势的波动情况。分数段之间阈值离散程度越大,表明评分越集中。本研究在评分结束后对评分员进行了半结构式访谈,主要问题为“你是如何阅朗读/问答/翻译/陈述任务的?”“你认为你历次的评分是否稳定?”“哪些因素可能会影响评分的稳定性?”等。研究者对访谈录了音并转写为文字,最后根据Given(2008)的归纳法对访谈内容进行分析和归纳。

3 研究结果

文章从评分员的严厉度、准确度和集中趋势三个方面报告评分员历次评分的稳定性。

3.1 评分员严厉度的稳定性

为了探讨评分员严厉度的稳定性,本研究分别将评分员R0的评分作为链接数据,以观察另外五位评分员的评分表现。通过FACETS的运算,五次评分总体评分严厉度logit的均值为0.41,标准差为0.43logits。评分员R2在第四次出现了明显的偏差,logit值为0.53,而第五次的logit值为-0.41(见图1),相差0.94logits,大于两个标准差。其次,评分员R3第一次和第二次评分的偏差较大,分别为0.55logits和1.06logits,相差0.51logits,大于一个标准差。

图1 评分员评分严厉度的稳定性对比(logit)

评分员R1、R4和R5评分的严厉度较为稳定,波动较小,严厉度最高值和最低值之差分别为0.27logits、0.38logits和0.36logits,均小于1个标准差(S.D.=0.43logits)。

3.2 评分员准确度的稳定性

表4中rSR-ROR为评分员每次评分的点二列相关系数值,ZSR-RORc,SR-RORb为检验评分员准确度稳定性的Z值。rSR-ROR可以判断评分员的评分与其他评分员评分的一致性,如果评分员rSR-ROR的值越大,则表示该评分员的一致性越好,不存在随机性(Myford et al., 2004; 刘建达 2010)。

表4 评分员准确度稳定性相关数据统计

由表4可知,评分员五次评分的rSR-ROR值位于0.59-0.81之间,评分员历次评分中和其他评分员一致性较好,但所有ZSR-RORc,SR-RORb值中,大于1.96或小于-1.96的次数为五次,其中评分员R3评分的准确性波动不明显,Z值均小于1.96或大于-1.96(p<0.05);评分员R1、R4和R5各出现一次显著性的波动(Z值分别为4.04、11.68和2.93,p<0.05);评分员R2出现两次波动,第三次评分准确性明显高于第一次,而第四次评分又明显低于第一次(Z值分别为6.52和-8.18, p<0.05。由此可以看出,所有评分员历次评分的准确性均不稳定,其中四位评分员出现了五次明显的波动,仅占评分员阅卷总次数的22.7%。

3.3 评分员集中趋势的稳定性

相邻阈值的差一般要求大于1.0 logit,但不超过5.0 logits (Linacre, 2002)。由表5可见,大多数评分员评分阈值的差位于1.0-5.0 logits 之间,阈值的标准差位于2.1-4.0logits之间。历次PRETCO口试的总体评分较为稳定,多数评分员总体不存在明显的集中趋势。然而,评分员R5第一次评分没有使用分数段1和分数段7,而且分数段3、4、5的使用率达到90%,因此该评分员第一次的评分较为集中;评分员R3历次评分中分数段3、4、5之间的阈值差较小,均小于1.0 logit;评分员R2第二次、第三次和第五次评分中分数段5、6、7之间的阈值差较小,同样小于1.0 logit。这两位评分员可能对上述几个分数段难以把握或理解出现偏差。

表5 评分员四项任务总体阅卷量(%)及阈值(logits)

通过对单项任务的分析可知,评分员阅读任务历次评分中阈值的标准差位于3.9-8.6logits之间(见表6),明显高于其四项任务总体评分阈值的标准差。以评分员R1为例,其朗读任务历次评分的阈值标准差分别为6.8、5.3、8.6、7.4和5.4 (logits)。评分员R1、R2、R4和R5的历次评分都过多地使用了分数段4和分数段5,评分员R3则过多地使用了分数段5和分数段6,比例多数超过70%,评分员R3第三次的使用频率甚至达到90%。由此可见,评分员在阅读任务的历次评分中都存在明显的集中趋势。

表6 评分员朗读任务阅卷量及阈值

对于评分员其他任务的历次评分,问答任务都不存在集中现象。翻译和陈述任务历次评分中,个别评分员偶尔会出现集中趋势现象,比如评分员R1在第一次的陈述评分中出现了集中趋势。需要指出的是,评分员在五次翻译和陈述评分中,分数段7的使用率非常低,平均每次的使用率为0.13次和0.33次。

4 讨论

4.1 评分员严厉度稳定性

数据显示多数评分员评分严厉度的总体趋于稳定,评分员历次评分中宽严度变化的趋势却不尽相同,这与Lumley等(1995)的研究发现相似。评分员评分严厉度总体波动不大,原因可能是:(1)评分员不断熟悉评分标准,比如评分员在每次评分前都接受培训并认真学习评分标准;(2)评分员评分时结合了教学和评分经验,比如评分员R1根据考生的语音、语调、断句和流利度推断考生的口语水平。但数据同样显示,评分员R2和R3分别在第四次和第二次评分中出现了明显的波动,这与Kim(2015)的研究结果不一致,即使是有经验的评分员,其评分也可能会出现波动。虽然评分员R2阅卷经验丰富,而且每次都认真接受评分培训,但依然在第四次出现了明显的偏差。通过对评分员R2的访谈得知,该评分员的历次评分都严格按照评分标准进行阅卷,不应该存在明显的波动。为了究其原因,研究者同时对比了相邻两次考试的评分结果(第四次和第五次)。第四次评分的总量较少,当时考试只使用了两套试题,评分员R2只评阅了第一套试题的考生,其余评分员所阅考生均使用了两套试题。通过对两套试题的分析得知,其难度存在显著差异,比如第一套试题朗读任务的易读度为76.5,明显比第二套(易读度为65.6)(1)*根据Flesh易读度参考量表,易读度值越高,篇章难度越低。*简单,所以试题难度不同可能会影响评分员评分的稳定性。对于评分员R3,其评分的严厉度也出现了较为明显的波动。通过访谈得知,该评分员第二次阅卷时除了正常教学和承担一定的行政工作外,还要准备博士研究生的考试,当时阅卷出现波动可能和压力大、身心疲惫有关。由此可见,“平行试题”中某些题型可能存在难度差异,影响评分员评分的严厉度。评分员评分时的身心状态也会影响评分结果。

4.2 评分员准确度稳定性

评分员单次评分和其他评分员的一致性较好,但历时来看,五位评分员的准确度都不太稳定,其中四位评分员共出现五次明显的波动。评分员R2出现两次显著的波动,评分员R1、R4和R5分别出现一次显著的波动。原因可能来自两方面,首先评分员阅卷队伍不稳定性。虽然每次阅卷员的数量为10—20名左右,但参加五次评分的评分员只有三名,即评分员R0、R1和R2,连续参加四次评分的评分员也只有三名,即评分员R3、R4和R5。出于公平性和实际情况的考量,阅卷员来自不同的高校,而且每次可能会有个别新评分员加入评分队伍。由于评分员评分的准确度涉及和其他评分员评分的一致性,故评分员队伍不稳定可能会导致评分员准确度出现波动;其次,评分的准确度的稳定性可能和考生的水平相关。由于每次报考PRETCO口试的学校和学生存在变化,不同批次考生的口语水平会存在一定的差异,从一定程度上可能会影响评分员评分的稳定性。

4.3 评分员集中趋势稳定性

评分员历次的总体评分不存在明显的集中趋势,但评分员R5第一次评分的集中趋势较为明显,分数段3、4、5的使用次数占其评分总数的90%。该评分员可能第一次参加PRETCO口试评分,对评分标准的把握不准确,四项任务均没有使用分数段1和分数段7。由此可见,新评分员随着评分经验的积累,其评分会逐渐改进(Kim, 2015)。虽然历次总体评分的集中趋势不明显,但所有评分员朗读任务的历次评分却均呈现明显的集中趋势,主要集中在分数段4、5、6。一方面,原因可能是朗读任务的评分标准存在问题。Linacre(2002)指出,如果某分数段的使用频率低于10次,那么该分数段需要修改或者与相邻分数段合并。另一方面,评分员评分时可能结合了评分标准以外的参数,比如教学或阅卷经验。以评分员R1为例,该评分员在评阅朗读任务时会根据考生能否读准较难词汇(比如单词circumstances)来判断其朗读水平是否属于高分数段。问答任务历次的评分都不存在集中趋势,这可能和该题型的计分方式有关,问答任务的答案相对“封闭”(《高等学校英语应用能力考试大纲》修订组, 2016),只需计算考生答对的数量即可,该题型没有翻译或陈述任务“开放”。翻译和陈述任务对分数段7的使用频率非常低,这可能和评分员对该分数段描述语的理解偏差有关(杨志强 等, 2016)。通过访谈得知,由于分数段7为最高分数段,象征各项任务的最高水平,评分员认为考生的回答需要接近完美才能获得该分数,因此评分员在翻译和陈述任务的评分中对该分数的使用较少。

5 结语

本文采用定量为主,访谈为辅的方法对PRETCO口试连续五次的评分进行分析,探讨了评分员的严厉度、评分准确度以及集中趋势三个方面的稳定性及其背后的原因。结果发现:多数评分员历次总体评分的严厉度比较稳定,其中一位评分员某次评分的严厉度波动明显;所有评分员历次评分的准确度均不稳定,但显著波动的次数占比不高;评分员历次总体评分不存在明显的集中趋势,虽然新评分员第一次的总体评分较为集中,但随着该评分员评分经验的不断积累,其评分质量逐渐改进;评分员个别口试任务,比如“朗读”任务的历次评分均呈现集中趋势,且朗读、翻译和陈述三项任务个别分数段使用次数过少,比如陈述任务分数段7,这些评分标准本身可能存在问题,需要改进。基于此,本研究对计算机辅助口试以及PRETCO口试的评分及其改进提出一些参考性的建议。

(1)使用有经验的评分员并保持评分员队伍的稳定性。无论是计算机辅助口试还是PRETCO口试,其评分都应尽量使用有教学经验和评分经验的评分员,他们能够结合多方面因素进行综合评分,以保证评分的内部一致性。此外,应保持评分员队伍相对稳定,以增强评分的外部一致性,提高历次评分的信度和稳定性。(2)加强对评分员的培训。如果是新评分员,应充分利用评分培训加强其对评分标准和所评考生总体水平的把握,同时增强新老评分员之间的交流,帮助新评分员改进评分质量。即使有经验的评分员,也有可能出现评分偏差。每次阅卷前,无论是经验丰富的评分员还是新评分员,都需要认真接受培训。另外,在阅卷过程中可以组织阅卷员结合考生的答题情况和评分标准进行讨论,从而加强阅卷员对评分标准的理解。(3)提高口试试题的效度。通过对PRETCO口试题目的分析可以看出,试题的难度可能不一致。为了确保历次考试的公平性,需要对平行试题进行质量分析,比如计算朗读任务的易读度,或者通过专家判断以及试测,降低其他口试任务难度的差异。(4)改进评分标准中描述语的质量。评分标准是考试构念的体现,评分标准描述语须简单、明了, 没有歧义(曾用强, 2011)。本研究发现,历次评分中朗读任务第一个分数段、翻译和陈述任务第七个分数段的使用频次极低。鉴于现实评分的需要,不能简单将这些分数段和相邻的分数段合并。因此,有必要对这些分数段的描述语进行改写,以确保评分员理解的准确性和一致性,防止出现理解偏差(杨志强 等, 2016)。

猜你喜欢

分数段口试评分标准
基于DOPS评分表细化体格检查评分标准的应用研究*
2021年对口升学部分专业类考生分数段及院校投档线
贵州省体育高考100米跑新评分标准制定研究
2019年对口升学部分专业类考生分数段及院校投档线
我省将于7月25日前公布高考成绩及录取分数线
2018年对口升学部分专业类考生分数段及院校投档线
永远的格纹
初高中英语作文评分标准初探
一本:制高点争夺之战
BEC加试:口试成了成败关键