评分人培训的研究现状及展望
2014-11-28徐鹰曾用强
徐鹰 曾用强
评分人培训的研究现状及展望
徐鹰 曾用强
评分人培训是保证做事测试分数信、效度的重要方法,一直是国际语言测试界关注的重点。本文首先从理论框架、培训方法和培训效果等方面对评分人培训研究的现状进行了回顾,然后指出了当前研究中的两个问题:培训过程及内容不清楚,培训产生作用的机制不明确。最后,文章就下一步的研究进行了展望,希望能引起我国语言测试工作者对评分人培训的重视。
做事测试;评分人培训;培训效果
1 引言
在语言测试“交际转向”(McNamara,1996;Bachman,2000)的大背景下,做事测试日益受到人们的重视。然而,由于做事测试的评分涉及评分人的主观判断,容易产生各种类型的评分人差异(如严厉度、集中趋势、光环效应等),因此人们常采用评分人培训对评分人效应进行控制,以保证考试分数的信、效度。尽管测试界普遍认为应该重视评分人培训研究(Shohamy et al.,1992;Alderson et al.,1995;Bachman 和 Palmer,1996;McNamara,1996;Weir,2005),然而迄今为止对评分人培训的系统研究并不多。正如Weigle(1998)所说,关于评分人培训的很多问题还不够清楚,例如培训中到底发生了什么?培训是如何产生作用的?这些问题都值得深入探讨。因此,本文将对评分人培训的理念、方法和效果进行梳理,分析当前研究中存在的不足,并对下一步的研究方向进行展望,以期引起国内测试研究者对评分人培训的关注。
2 不同理论视阈下的评分人培训
Knoch(2009a:19)对其参加DELNA 考试评分人培训的经历进行了简要描述。由于该考试采用的分析性评分标准中包含不少模糊描述语,如文体风格要求“a student uses cohesive devices appropri⁃ately”,因此评分人普遍感到无从下手,只能依赖个人的整体印象。而当评分人在一起相互讨论范文分数的时候,尽管不少评分人(甚至包括培训负责教师)都对范文分数存在异议,但由于缺少分数解释,只能无奈地接受。Knoch的经历反映了当前评分人培训所面临的问题,其根本原因在于不同理论框架对评分人培训的认识不同。
2.1 心理测量学视阈下的评分人培训
语言测试研究传统是实证主义研究范式,采用心理测量学的方法(何莲珍、李航,2011)。评分人培训的传统思路遵循经典测试理论,认为评分人的给分差异是一种可以消除的测量误差。培训的作用在于最大化评分人间信度,从而尽可能消除评分人之间的差异。这种理念受到不少测试专家的批评(如 Huot,1990;Shohamy,1995;Hamp-Lyons,2007),他们认为评分人的个体差异是客观事实,一味追求分数一致性终将危害考试效度,其结果必然促使评分人倾向于关注考生表现的表层特征(如书写、卷面等)。这种情况类似于经典测试理论中的抵消悖论(Linacre,1996)。
随着以Rasch模型为代表的项目反应理论的崛起(McNamara和Knoch,2012),人们对评分人培训的认识也变得更为深刻。McNamara(1996:127)认为培训消除评分人差异既不可行,也不可取。培训的真正目的在于增强评分人的内在一致性从而能对评分人行为进行统计建模。不同评分人具有稳定特征的差异是一种生活事实,这种差异可以通过某种方式进行分数调整。同时,McNamara也对培训提出了七个研究问题:(1)在哪些方面评分人存在差异?(2)能否确定不同评分人类型?(3)培训在多大程度上可以影响不同类型评分人?(4)多大培训量才合适?(5)评分人特征是否随时间变化?(6)如果培训能改变评分人特征的话,那么这种效果能维持多久?(7)多久培训人需要重新接受培训?
2.2 解释学视阈下的评分人培训
Moss(1994)认为我们可以从解释学和心理测量学双重路径对考生表现进行辩证分析。解释学对人类行为持整体性观点,从局部入手来理解全局,通过不断对新证据的验证(解释循环)达到对整体的连贯解读。心理测量学则关注分数的准确性(信度),对分数所表征的意义(效度)相对不那么关心。而分数的效度恰恰是解释学的研究核心,因此两者可以有机结合从而提高培训的质量。Huot(1993:211)对传统培训过分注重提高评分人间信度的做法提出了批评,“...rater training...often force raters to ignore their own experiences and expertise when interacting with and judging student writing,thus sacrificing a‘true reading’of a text for a‘reliable’one”。McNamara(1996:127)从解释学的角度引用日本电影《罗生门》的情节也对此进行了批驳:四个不同的目击者对同一事件的描述尽管各不相同,但都貌似真实。人类行为中充斥了大量这种场景:不存在绝对正确的判断。因此,人们在判断考生能力时必须考虑不同评分人的共性和差异。因此,评分人培训不仅应关注以分数为代表的评分结果,也应关注分数所代表的意义和评分人的给分过程。
3 评分人培训的基本内容
Weir(2005:190)认为,培训是一个旨在训练评分人前后一致地使用评分标准的系统过程,包括对培训环境、培训类型、培训监控、分数监控以及评分反馈等各种因素的考虑。
3.1 培训目的
人们普遍认为评分人培训的目的在于帮助评分人熟悉测试内容并掌握评分标准。通过培训,评分人能够对所测量的构念、考生行为的不同等级、各等级所对应的评分标准和描述语、评分标准种类以及任务难度等达成共识,但实际上评分人往往在严格培训之后还存在差异(Elbow和Yancey,1994;Lumle 和 McNamara,1995;Kondo-Brown,2002;O’Sullivan 和Rignall,2007)。Lumley(2005:63)明确指出,评分的根本矛盾在于不同人在不同语境下写的不同文本要用同一个标准化的量表来评价,因此只有通过培训才可以建构评分共同体,实现不同评分人对文本的共同解读。从社会认知视角看,培训旨在提高评分人的评分技能(评分人在一段时间内保持高水平评分质量的能力)。培训属于影响评分过程的外部环境因素,能够影响到评分人对文本意象的评估。培训的核心目标应该要强化评分人作为评分社区成员的集体意识,并促使评分人将自己的工作经验、培训经历同评分行为真正融合。
3.2 培训方法
3.2.1评分人培训的传统做法
Bachman和Palmer(1996:222)详细描述了传统培训的六步骤:(1)评分人共同阅读并讨论评分标准;(2)评分人共同研究事先由专家评阅的考生表现样本,并讨论专家分数;(3)评分人对另外一组样本评分,并讨论各自给分同专家给分的区别;(4)评分人继续对新的一组样本评分并讨论;(5)每位评分人独立对同一组样本评分,检查给分一致性和时间;(6)选拔评分可靠且高效的评分人。在此基础上,Weigle(2002:130)和 Luoma(2004:177)分别对写作和口语考试评分培训的内容和方法进行了详细描述。此外,Lumley(2002)认为,培训不是一劳永逸的。在每一次评分周期之前,必须对评分人进行重新培训。
新技术的广泛使用对评分人培训的内容和方法带来了巨大改变,其中最突出的是计算机网络技术和MFRM统计方法。
3.2.2基于计算机网络的评分人培训
随着计算机网络信息技术不断成熟,传统纸笔形式的评分人培训也逐渐过渡为基于网络的评分人培训。在线评分人培训具有以下显著优点:一是培训材料获取灵活方便,二是评分人可自主监控其评分表现并随时调整。以Elder和Knoch为代表的澳大利亚和新西兰的测试学者们对DELNA考试的评分人在线培训方法进行了深入研究。图1简单介绍了DELNA考试在线评分人培训系统(Elder et al.,2007:44)。评分培训采用附有给分评语的25篇标准范文,培训系统完全模拟面对面培训情景。首先,评分人输入账号和密码登入系统,系统主页指向四种不同的学术英语写作提示的pdf文件。然后,评分人选择某个写作提示,系统相应出现评分表、评分标准以及评分人培训指令。接着,评分人依次对随机出现的25篇作文给分。在每篇作文给完分后,系统将评分人给分同标准分对比,同时将结果显示在给分界面底部。评分人可以看到自己给分和标准分的差异。最后,评分人可以对给分差异在系统上写下评语,也可以阅读专家对标准分的给分评语。
广西与越南陆海相通,居于中国—东盟的地理中心,在我国面向东盟的经贸合作格局中享有极为明显的区位优势与非常重要的战略意义。与广西一河之隔的越南则是东盟经济发展潜力巨大的重要成员国,极有可能成为21世纪全球新的制造中心。根据商务部的相关统计,广西检验检疫局签发往越南的中国—东盟自贸区优惠原产地证书在全国检验检疫系统中居首位。
图1 DELNA考试在线评分人培训系统
Elder et al.(2007)对评分人对在线培训方法的反应进行了研究,前、后测的MFRM结果表明评分人评分信度、内部一致性略有提高,偏误数量略有减少,问卷结果显示大部分评分人对这种培训方法持肯定态度。Knoch et al.(2007)从严厉度、内在一致性、集中趋势、光环效应以及显著偏误等方面详细对比了传统面对面培训和在线培训的效果,结果显示两种方法都能有效降低评分人效应,面对面培训对减少严厉度差异更有效,而在线培训对减少光环效应更有效;由于面对面培训结合了个性化反馈,对评分人减少各种偏差更有效。此外,问卷和访谈结果发现培训效果同评分人对培训方式的态度存在一定程度相关。
3.2.3基于MFRM分析的个性化反馈信息
个性化反馈是培训中常用的一种手段,其目的在于帮助评分人诊断自己的评分行为,从而提高评分人的准确性。由于MFRM能够从严厉度、一致性、偏差等多角度对评分人个体的评分行为进行参数估算,因此在语言测试研究中得以广泛使用,MFRM分析结果也常作为反馈信息提供给评分人。针对以MFRM结果为反馈信息的实证研究主要包括以下几项。
Wigglesworth(1993)对澳大利亚的ACCESS 考试的口语评分人提供了MFRM偏差分析结果,结果发现评分人能有效吸收反馈信息,但是由于个性化反馈和培训同时进行,因此难以确定评分人评分质量提高的原因。Lunt et al.(1994)复制了 Wiggles⁃worth的研究并增加了一个对照组,结果发现实验组的给分偏差略好于对照组。Hoskens和Wilson(2001)对美国GSE考试的作文评分人提供基于MFRM结果的反馈,结果发现评分人实验组和对照组在评分质量上没有明显差异。Elder et al.(2005)的研究发现对反馈信息(包括严厉度、一致性和偏差)持肯定态度的评分人更容易在评分过程中吸收反馈的内容。O’Sullivan 和 Rignall(2007)在对IELTS作文评分人培训时提供了MFRM偏差分析结果,但是没有发现实验组评分人的差异有显著降低,尽管这些评分人对反馈持肯定态度。因此,他们认为一次性反馈信息作用不明显,今后的研究需要在一段时间内研究系统性提供反馈信息的作用。Knoch(2011)对OET考试的19位口语和写作评分人提供了基于MFRM结果的反馈,发现提供反馈信息不会对评分人的评分质量产生显著差异,且口语评分人和写作评分人在吸收反馈内容上没有显著差异。
以上实证研究对个性化反馈效果得出了不一致的结论,其原因可能在于以下几个方面:首先,研究方法上大都没有采用严格的实验控制,且大部分研究只提供一次性反馈,很难观察到评分人的变化。由于评分人内化反馈信息是一个反复尝试的过程,因而一次性反馈作用有限。其次,反馈内容局限于作为评分终端产品的分数,而对评分人的认知过程没有研究,没有像DELNA在线培训系统一样给出标准分数的理据,从而影响了反馈效果。
3.3 培训效果
语言测试界对评分人培训的效果持有两个基本观点。
第一,培训具有一定的效果,其作用在于调和由于评分人背景产生的差异,并最终调整评分人期望,从而减少乃至消除评分人差异。如果没有培训,评分信度和效度将无法得到保证。不少实证研究(Sweedler-Brown,1993;Song和 Caruso,1996)都发现培训过的二语写作教师和英语专业教师在作文评分上存在差异,他们对内容、修辞特征和语言等维度的重视程度不同。Weigle(1994,1998)对培训效果进行了系统研究,发现培训能使评分人对评分标准的理解更清晰、能修正评分人期望、能帮助评分人给出可预测的分数。Weigle(1999)用定量定性结合的方法研究了培训对评分人和考题交互的效果,发现培训能消除新手和老手在不同考题上的严厉度差异。McNamara(1996)对几项关于培训效果的实证研究(Shohamy et al.,1992;McIntyre,1993;Weigle,1994;Lumley和McNamara,1995)进行了归纳,认为培训能提高评分人自我一致性,减少随机误差;其次,培训无法消除评分人的严厉度差异,因此,有必要对不同严厉度的评分人进行分数调整,常用的手段包括采用双人评分以及用MFRM进行评分人分数调整等。同时,由于存在评分人特征的时间漂移现象(Congdon和McQueen,2000),因此有必要定期培训并标定评分人特征。
4 当前研究的不足
上述分析表明目前评分人培训研究重点在于确定培训效果,对下面两个问题认识不够。首先,培训过程及内容不清楚。众多文献对培训过程的介绍笼统且模糊,很少有文献公开描述具体某个考试评分培训的过程。人们仿佛认为培训的流程是一种不言自明的事实。培训的各方面交代不清,如培训人(谁来组织培训?)、培训内容(培训内容是什么?评分策略要不要培训?)、培训方法(有没有安排评分人讨论?有没有提供反馈?不同方法产生的效果是否不同?)和培训时间(一次培训还是反复培训?)等问题。这些问题是对McNamara(1996)提出的七个培训问题的进一步思考,需要基于评分人行为研究的成果才能回答。
其次,不同培训手段产生作用的机制仍不明确。众多研究都关注培训能否提高评分质量以及评分产生什么效果,但是很少有研究探讨产生这种效果的机制和原因。这个现象体现了大部分文献只报告培训结果、忽略培训过程的特点,到目前为止只有Weigle(1994)利用有声思维对评分人的思维过程变化进行了研究。以培训常用手段之一的反馈为例,当前研究主要讨论不同方式和内容的反馈是否能有效提高评分质量。然而,评分人如何理解、内化和使用不同形式的反馈内容的研究仍然欠缺。在反馈信息内容上,绝大多数现有研究都采用MFRM统计分析结果(如严厉度、一致性和偏差)。鉴于MFRM软件的专业性,评分人如何处理这种反馈信息值得进一步探讨。结合现有的评分人研究的基础,我们可以提出如下问题:不同类型评分人在内化基于MFRM反馈信息上是否存在差异?这种差异是否又会影响培训效果?除了常用的MFRM结果,反馈内容还可以包括哪些信息?不同评分人对不同反馈信息处理上是否存在差异?
5 未来研究方向
通过以上对培训研究现状的分析,我们认为下一步的研究应注意以下四个方面的内容:
(1)评分人培训研究应该以评分人行为研究为基础,强调心理测量学和解释学视角的对立和统一。传统培训理念以心理测量学为基础,认为评分人差异本质是一个信度问题,评分人给分同标准分的差异说明评分人没有掌握好评分标准。而解释学则认为评分人差异是一个效度问题,评分人差异是对所测构念深刻认识的必备条件。从本质上而言,评分不仅是一个信度问题,也是一个效度问题(Bejar,2012;Crisp,2012;Myford,2012),涉及评分人对所测构念的理解是否一致。要保证考试分数的信、效度,培训的指导原则就必然要综合两种理论视角。理论框架的变化也就决定了培训重点应从只关注分数转变为分数和评分过程并重,尤其应关注评分人行为的变化,重点应讨论通过培训新手是否能够掌握老手所常用的评分策略(Cum⁃ming et al.,2002)。
(2)在研究方法上应该采用定性和定量结合的混合方法,强调不同方法的互补,提高研究的信度和效度。在定量分析上,由于MFRM能够将多个面(如考生、评分人、任务、评分标准)在同一洛基量尺上进行分析,已经成为研究评分人行为的主流,其中偏颇分析(bias analysis)功能在评分人培训得到了广泛运用。在定性分析上,由于在培训中对评分人决策分析必然要理解评分人的思维过程,应采用有声思维(Ericsson和Simon,1984)为代表的质性研究方法。尽管有声思维面临真实性(veridicality)和反应性(reactivity)两方面的批评(Barkaoui,2011),但语言测试界主流观点还是认为有声思维数据是可信和有效的,其中Wolfe(1997)观点最为激进,认为有声思维数据能表征实际评分过程,可以考虑作为培训手段和选拔评分人的标准。此外,其他定性分析方法也应加以充分利用,如反思性报告和小组访谈(Milanovic et al.,1996)、概念图法(concept mapping)(Papajohn,2002)、write aloud(Baker,2012)以及受激回忆(Gass和Mackey,2000)等。
(3)培训内容应体现个体差异,注意行为驱动(自下而上)培训模式和图式驱动(自上而下)培训模式(Eckes,2008)的差别,对不同考试、不同评分标准以及不同类型的评分人应采用个性化培训模式。大量实证研究发现评分人的评分风格和决策类型具有多样化特征,但是目前各类考试的培训基本上采用统一的模式,没有照顾不同类型评分人的需求,因此有必要研究多大程度上培训对不同类型评分人产生了影响,以及产生这种影响的原因。此外,不同类型评分标准对于培训效果的影响值得深入研究。评分标准本身就能对评分人行为进行标准化(Shaw和Weir,2007),是评分的必要组成,不同类型的评分标准对评分人培训的效果也必然不同。Weigle(2002)、Weir(2005)明确提出分析性量表比整体性量表更有助于提高培训效果。而Knoch(2009b)则认为,基于实验数据开发的评分量表比基于直觉式开发的量表更有效,在培训中可以考虑采用基于实验数据开发的评分量表。这些论断仍需实证研究加以验证。
(4)鉴于计算机辅助评卷已经成为不少大规模高风险考试(如高考、大学英语四、六级考试、英语专业四、八级考试等)的主要阅卷方式,有必要深入研究网阅环境下的评分人培训和传统纸笔培训模式的异同。除上文介绍的DELNA考试在线评分人培训系统外,国外两大测试机构已经推出了带有评分人培训功能的网上评阅系统:如ETS的OSN系统(在线评分网络)和UCLES的ESM系统(电子文本评分系统)。评阅方式的改变必将为评分人培训带来新的研究话题,因此如何结合大规模评分数据改进评分人培训效果、建立有效的评分反馈机制值得深入探讨。
[1]Alderson,C.,Clapham,C.&Wall,D.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.
[2]Bachman,L.F.Modern language testing at the turn of the century:Assuring that what we count counts[J].Language testing,2000,17(1):1-42.
[3]Bachman,L.F.&A.S.Palmer.Language Testing in Practice[M].Oxford University Press,1996.
[4]Baker,B.A.Individual differences in rater decision-making style:An exploratory mixed-methods study[J].Language Assessment Quarterly,2012,9:225-248.
[5]Barkaoui,K.Think-aloud protocols in research on essay rating:An empirical study of their veridicality and reactivity[J].Language Testing,2011,28(1):51-75.
[6]Bejar,I.I.Rater cognition:Implications for validity[J].Educational Measurement:Issues and Practice,2012,31(3):2-9.
[7]Crisp,V.An investigation of rater cognition in the assessment of projects[J].Educational Measurement:Issues and Practice,2012,31(3):10-20.
[8]Congdon,P.J.&J.McQueen.The stability of rater severity in Large-scale assessment programs[J].Journal of Educational Mea⁃surement,2000,37(2):163-178.
[9]Cumming,A.,R.Kantor and D.E.Powers.Decision making while rating ESL/EFL writing tasks:A descriptive framework[J].The Modern Language Journal,2002,86(1):67-96.
[10]D?rnyei,Z.Individual differences in second language acquisition[J].Aila Review,2006,19(1):42-68.
[11]Eckes,T.Rater types in writing performance assessments:A clas⁃sification approach to rater variability[J].Language Testing,2008,25(2):155-185.
[12]Eckes,T.Operational rater types in writing assessment:Linking rater cognition to rater behavior[J].Language Assessment Quarter⁃ly,2012,9(3):270-292.
[13]Elbow,P.&K.B.Yancey.On the nature of holistic scoring:An in⁃quiry composed on email[J].Assessing Writing,1994,1(1):91-107.
[14]Elder,C.,U.Knoch,G.Barkhuizen&J.Von Randow.Individual feedback to enhance ratertraining:Does it work?[J].Language As⁃sessment Quarterly,2005,2(3):175-196.
[15]Elder,C.,G.Barkhuizen,U.Knoch&J.von Randow.Evaluating rater responses to an online training program for L2 writing assess⁃ment[J].Language Testing,2007,24(1):37-64.
[16]Ericsson,K.A.&H.A.Simon.Protocol Analysis[M].MIT press,1984.
[17]Gass,S.M.&A.Mackey.Stimulated Recall Methodology in Sec⁃ond Language Research[M].Routledge,2000.
[18]Hamp-Lyons,L.Worrying about rating[J].Assessing Writing,2007,12(1):1-9.
[19]Hoskens,M.&M.Wilson.Real-Time feedback on rater drift in Constructed-Response items:Anexample from the Golden State Examination[J].Journal of Educational Measurement,2001,38(2):121-145.
[20]Huot,B.The literature of direct writing assessment:Major con⁃cerns and prevailing trends[J].Review of Educational Research,1990,60(2):237-263.
[21]Huot,B.The influence of holistic scoring procedures on reading and rating student essays[A].In M.M.Williamson&B.A.Huot(eds).Validating Holistic Scoring for Writing Assessment:Theoreti⁃cal and Empirical Foundations[C].Cresskill,NJ:Hampton Press,Inc.,1993.
[22]Knoch,U.Diagnostic Writing Assessment:The Development and Validation of a Rating Scale[M].Peter Lang Pub Incorporated,2009a.
[23]Knoch,U.Diagnostic assessment of writing:A comparison of two rating scales[J].Language Testing,2009b,26(2):275-304.
[24]Knoch,U.Investigating the effectiveness of individualized feed⁃back to rating behavior:A longitudinal study[J].Language Test⁃ing,2011,28(2):179-200.
[25]Knoch,U.,J.Read&J.von Randow.Re-training writing raters online:How does it compare with face-to-face training?[J].As⁃sessing Writing,2007,12(1):26-43.
[26]Kondo-Brown,K.A FACETS analysis of rater bias in measuring Japanese second language writing performance[J].Language Test⁃ing,2002,19(1):3-31.
[27]Linacre,J.M.True-score reliability or Rasch statistical validity[J].Rasch Measurement Transactions,1996,9(4):455.
[28]Lumley,T.Assessment criteria in a large-scale writing test:What do they really mean to the raters?[J].Language Testing,2002,19(3):246-276.
[29]Lumley,T.Assessing Second Language Writing[M].Peter Lang,2005.
[30]Lumley,T.&T.F.McNamara.Rater characteristics and rater bias:Implications for training[J].Language Testing,1995,12(1):54-71.
[31]Luoma,S.Assessing Speaking[M].Ernst Klett Sprachen,2004.
[32]Lunt,H.,Morton,J.&Wigglesworth,G.Rater behaviour in perfor⁃mance testing:Evaluating the effect of bias feedback[P].Paper presented at 19th Annual Congress of the Applied Linguistics As⁃sociation of Australia,Melbourne,1994.
[33]McIntyre,P.The Importance and Effectiveness of Moderation Training on the Reliability of Teacher Assessments of ESL Writ⁃ing Samples[D].Unpublished MA thesis,University of Mel⁃bourne,1993.
[34]McNamara,T.F.Measuring Second Language Performance[M].Longman London,1996.
[35]McNamara,T.F.&U.Knoch.The Rasch wars:The emergence of Rasch measurement in language testing[J].Language Testing,2012,29(4):555-576.
[36]Milanovic,M.,N.Saville&S.Shuhong.A study of the decisionmaking behaviour of composition markers[A].In Milanovic,M.&Saville,N.(eds).Performance Testing,Cognition and Assessment[C].Cambridge:UCLES/Cambridge University Press,1996.
[37]Moss,P.A.Can there be validity without reliability?[J].Educa⁃tional researcher,1994,1(1):109-128.
[38]Myford,C.M.Rater cognition research:Some possible directions for the future[J].Educational Measurement:Issues and Practice,2012,31(3):48-49.
[39]O'Sullivan,B.&M.Rignall.Assessing the value of bias analysis feedback to raters for the IELTS Writing Module[A].In L.Taylor&P.Falvey(eds).IELTS Collected Papers:Research in Speaking and Writing Assessment[C].Cambridge:Cambridge University Press,2007.
[40]Papajohn,D.Concept mapping for rater training[J].TESOL Quar⁃terly,2002,36(2):219-233.
[41]Sakyi,A.A.Validation of holistic scoring for ESL writing assess⁃ment:How raters evaluate composition[A].In A.J.Kunnan(ed.).Fairness and Validation in Language Assessment:Selected Papers from the 19th Language Testing Research Colloquium,Orlando,Florida[C].Cambridge:Cambridge University Press,2000.
[42]Shaw,S.D.&C.J.Weir.Examining Writing:Research and Prac⁃tice in Assessing Second Language Writing[M].Cambridge Uni⁃versity Press,2007.
[43]Shohamy,E.Performance assessment in language testing[J].An⁃nual review of applied linguistics,1995,15:188-211.
[44]Shohamy,E.,C.M.Gordon and R.Kraemer.The effect of raters'background and training on the reliability of direct writing tests[J].The Modern Language Journal,1992,76(1):27-33.
[45]Smith,D.Rater judgments in the direct assessment of competen⁃cy-based second language writing ability[J].Studies in immigrant English language assessment,2000,1:159-189.
[46]Song,B.&I.Caruso.Do English and ESL faculty differ in evaluat⁃ing the essays of native English-speaking and ESL students?[J].Journal of Second Language Writing,1996,5(2):163-182.
[47]Sweedler-Brown,C.O.ESL essay evaluation:The influence of sen⁃tence-level and rhetorical features[J].Journal of Second Lan⁃guage Writing,1993,2(1):3-17.
[48]Vaughan,C.Holistic assessment:What goes on in the rater's mind[A].In Liz Hamp-Lyons(ed.).Assessing Second Language Writing in Academic Contexts[C].Ablex Publishing Corporation,1991.
[49]Weigle,S.C.Effects of training on raters of ESL compositions[J].Language Testing,1994,11(2):197-223.
[50]Weigle,S.C.Using FACETS to model rater training effects[J].Language Testing,1998,15(2):263-287.
[51]Weigle,S.C.Investigating rater/prompt interactions in writing as⁃sessment:Quantitative and qualitative approaches[J].Assessing Writing,1999,6(2):145-178.
[52]Weigle,S.C.Assessing Writing[M].Ernst Klett Sprachen,2002.
[53]Weir,C.J.Language Testing and Validation[M].Palgrave Mac⁃millan Houndmills,Basingstoke,2005.
[54]Wigglesworth,G.Exploring bias analysis as a tool for improving rater consistency in assessing oral interaction[J].Language Test⁃ing,1993,10(3):305-319.
[55]Wolfe,E.W.The relationship between essay reading style and scoring proficiency in a psychometric scoring system[J].Assess⁃ing Writing,1997,4(1):83-106.
[56]何莲珍,李航.语言测试的主要研究范式及其发展趋势[J].浙江大学学报(人文社会科学版),2011(10):31-39.
Rater Training in Language Assessment:Present and Future
XU Ying and ZENG Yongqiang
Rater training is generally viewed as a crucial method to ensure reliability and validity of the given score in the performance assessment,which has attracted public attention from a number of researchers in the international language testing circle.This article first reviews rater training studies in term of theoretical framework,training methods and training effects.Then it points out two under-researched issues:the vagueness of content and procedure of rater training,and the unknown nature of rater training mechanism.Finally,suggestions for future research are discussed.It is hoped that rater training will receive more attention from researchers at home.
Performance Assessment;Rater Training;Training Effects
G405
A
1005-8427(2014)02-0010-9
徐 鹰,男,华南理工大学外国语学院,讲师,博士(广州 510641)
曾用强,男,广东外语艺术职业学院,院长,博士,教授(广州 510641)