建立整体评分法和主要特点评分法相结合的作文评估标准：基于评分员行为研究

2013-03-26周玲

大学英语(学术版) 2013年1期

周玲

（武汉大学外语学院，湖北武汉430072）

作文测试是一种直接测试法。但是其评估过程中因种种原因产生的偏差，却又使它饱受诟病。自1961年Diederich(1961)等人的写作评估信度测量实验以来，写作评估的评分员信度一直是一个研究的热点。虽然因为实验对象的不同，作文命题方式、难度等等的不同，有些研究结果不尽相同，但是也取得了一些共识。对评分员的评分行为的研究发现，评分员对评分标准的不同解读和操作会产生偏差。整体评分法仅给出每一分数段的样本，缺乏具体的标准描述会产生不同的评分行为；从整体评分行为中因子分析析出主要考察项目并进行具体描绘，运用分析性评分法，不同的评分员却又给予不同的项目不同的权重；虽然评分员培训可以减少这种偏差，但是写作任务的不同难度，所要求的不同文体，却又使整齐划一的评分标准无法普适。面对新的问题，我们在写作教学和评估中应如何将写作相关理论和研究结果整合，从而更好地为教学和评估服务呢？本文将从评分员行为研究结果出发，尝试性地提出一些建议，希望对写作教学和评估有所帮助。

一、评分员评分行为研究

评分员的评分行为一直引起研究者的兴趣。从甫一开始还没有具体的评估标准开始，到制定明确的评估标准。有了评估标准后，评分员的具体操作行为还是缺乏一致性。

1961年，Diederich观察53名评分员的相关系数仅为.31，在进一步对评分员进行因子分析后，他将评分员的关注点概括为5个因素，即思想(idea),形式（form）,风格(flavour),写作规范(mechanics),以及措辞(wording)。他指出，不同的评分员一贯地关注作文的不同方面，并提出对这些因素作进一步考察，以提供评分一致性。评分标准的制定本身就是一件很困难的事，但是，即便评分标准已经选取，问题却又变成了“评分员是否总是能够遵循这些评分标准”(Charney1984：74)。

对比有经验的评分员和新手评分员在评分标准的具体运用，就会发现这种差异。Cumming(1990：38)在对有经验的和新手评分员进行对比后指出，新手评分员“倾向于依据技能元素或评分量表中的少数元素对作文进行评估”，有经验的和新手评分员的区别在于“两者控制评分行为的策略，以及他们给予内容，句法，修辞结构等特定方面的不同关注”。有经验的评分员在评分决策行为中体现了比较强的一致性，也具有整合评分量表各项目的能力，但即便如此“对他们给予高分的作文（相较给予低分的作文），他们往往更广泛地关注修辞、思想（相比语言）”，而“ESL/EFL评分员更广泛地关注语言，而不是全面关注修辞和思想，EMT（English-mothertongue）评分员则在作文的主要特点项目之间有更好地均衡”（Cummingetal.2002：67）。McNamara(1990:61)的研究则发现，在评分过程中，语法项对于分数的差异具有最强的解释性。Eckes（2008）借助多刻面Rasch分析模型，同样表明，评分员给予评分标准各项目的权重存在显著差异，并且在评分中体现出来。依据评分员显著不同的评分行为，Eckes将评分员分为六种类型。其中四种类型的命名是根据评分员对评分标准中某一项目给予了突出的重视，这四种类型是：句法至上型（syntaxtype）,语法正确至上型（correctnesstype）,结构至上型（structuretype），语言流利至上型（fluencytype）.另外两种类型根据评分员对评分标准中某一项目的忽视或特别不重视而命名，分别为忽视语言流利型（non-fluencytype）,忽视论证型（non-argumentationtype）.

无论是质的还是量的分析，研究结果都表明，评分员的评分行为存在差异。而集中关注评估标准中某一和几项标准的倾向无论是在新手评分员还是有经验的评分员中都存在。

在国内，类似的研究也得出了相同的结论。比如，王秉金等（1995）认为，四级评分标准没有详细规定内容、语言、结构等方面所占总分的具体比例，这样由于评分者的侧重点不同(有人侧重内容，有人侧重语言，有人侧重组织结构)，,造成打分的主观性和随意性很大。

邹申通过问卷调查发现，在作文评分的主要依据上,“两位新评分员表示只采用一项作为自己的主要评分依据,只有一位表示要使用二项以上的参照依据。相比之下,所有的老评分员都表示要使用一项以上的参照依据。”“新老评分员在评阅方式上仍存在明显不同。老评分员能较自觉地按照评分标准的要求阅卷而新评分员则仍然潜意识地使用着各自的评阅标准”（邹申 2002：5）。研究者也借助Rasch模型进行量化分析。比如罗娟等（2008）通过概化系数和可靠性系数解释信度结构。数据结果表明，写作评分对语言表达的评分精度最高，对写作内容、文章结构、词汇运用的评分精度较高，对书写规范的评分精度最低。说明语言仍然是评估的重点，而对书写规范的关注不够，或者说是对评分量表中的此项写作能力的界定有不同理解和观点。

基于对评分标准的不同把握而产生的评分误差，在不同专业背景的评分员之间同样存在。

Brown(1995)对业内人士和语言教师对专业用途英语测试的评估行为做了研究。研究发现，语言教师对语法、词汇的正确与否的重视胜过业内人士。业内人士更注重意义的传达。对于语言教师来说，语言能力和可理解性是分离的，对业内人士来说，却是一体的。对于任务的完成情况，业内人士显然更严厉。语言教师因缺少真实语境下任务完成情况的实际感知，常常慎于给出高分或低分，而业内人士却不同，常常根据任务的完成情况给出高分和低分。

Elder(2001)同样将参加某一专门用途英语水平测试的评分员评分行为作为研究对象。在教师人员的英语水平测试中，专业课程教师（比如数学）和ESL教师作为评分员对应试人员的英语水平的测试评定出现了分歧。ESL教师关注更多的是语法、词法和应试者的课堂陈述的内在连贯性以及专业语汇的发音；而专业教师却关注被试对课程内容的概念化。这种不同的导向导致了他们最后对相同应试者给出不同的分数。

同时，也有研究表明，即使在总体评分上专业人士和语言教师表现出了一致性，他们在评分量表各具体项目上的评定却出现了分歧。

二、评分员不同评分行为产生的原因

评分员不同评分行为，从以上的研究中可以看出来，与评分员的阅卷经验、从业经验、专业背景，以及评分标准的制定都有关系。而它导致的是人们对作文测试作为直接测试的信度的质疑。

这恰恰是由作文测试作为行为测试的特点所引起的。“好的写作是一个复杂的概念，因学科不同而不同”（BrockmanE.etal.2010:42）。人们对于什么是一篇好的作文，写出一篇好的作文需要哪些能力，因为自己的阅卷经验、从业经验、专业背景等而有不同的认知。而作为读者“存在审视某一作文的多角度和多方式”（Broad 2000:217），这直接影响了评分量表的制定和把握。所以，评分员培训也好，评分量表的制定也好，首先要以“什么是一篇好的作文”这一问题的共识为出发点。

其次，作文的写作和阅读都是一个认知过程，所以写作者也好，读者也好，都会受到“注意力资源有限”的制约。Skehan(1998,2003)的有限注意力能力模型的一个基本假设是，注意力资源是有限的，增加任务的难度，多元素的处理会减少可资利用的总的注意力能力。当达到极限后，任务处理者就会优先处理意义而不是语言形式。而且，对行为某一方面的关注将意味着其它维度的关注度减少，从而妨碍其它方面任务的处理。

在作者，对于不同的写作任务，因为有着语篇知识等等不同的认知要求，当一定的注意力资源分配去管理语篇知识时，很可能他们所体现的语言驾驭能力要比其他熟悉的语篇文体要差。RuthL＆amp;MurphyS(1984：419)就指出，从历时的角度看，作文分数低有时并不意味着退步。因为这可能意味着写作者随着水平的提高，和写作任务有了更深层次的交互，随着作者对不同形式语篇的认知学习，可能对于相同的作文要求，他们会构建一个从修辞角度讲比以往更加复杂的任务，虽然他们可能还不会完全驾驭。而这却使得他们的尝试从某些层面上将可能还逊于以前的表现。

而对于评分员，经验的积累可以一定程度上使评分员整合各评分标准，使评分行为由自觉变为自动，但是正如Cumming(2002：89)所指出的，“尽管有经验的评分员在不同的写作任务的评估中用了基本相似的决策策略，他们可能需要在评估某些特定的写作任务时有专门的评分标准”“在评估应试者在其他写作任务，比如要求使用讲座或对话源材料或涉及到独特语类或人际关系如书信、摘要等写作任务是，他们需要明确的原则来指导他们如何评估”。也就是说，对于不同的语篇和写作任务，我们的关注点应有所区分。才不至于主次不分，找不到重点。

评分员培训可以一定程度上消除这种现象，在分数的解读上运用Rasch模型也可以给予适当的纠误。但是我们也应该从以上两个原因出发来寻求解决的办法。

三、评分员的注意力资源该导向哪里

根据评分员行为的实证研究以及Skehan 的有限注意力理论，评分量表的使用中，不可能涵盖所有的写作能力元素，更不可能给予各项目相同的权重。那么我们该如何有所取舍呢？本文认为，评估标准的建立不仅应该整合进语篇研究方面的成果，而且还要以各种不同文体的语篇层面的特点为依据，以主要特点的形式确定评估的重点，以整体评估加主要特点评估的方式，帮助学习者逐步掌握不同文体语篇的特点，并进而转化为语篇交际能力。

所以首先我们应该确定评分量表的制定和评分员培训中，语言表达能力的权重应该是怎样的。正如评分员不自觉所做的，Cumming(2002：82-83)所观察到的 “对他们给予高分的作文（相较给予低分的作文），他们往往更广泛地关注修辞、思想（相比语言而言）”，我们的注意力资源不自觉的就将有限的资源首先分配给了语言，在注意力资源控制语言有余的情况下，我们将其分配给了语篇层面的其他能力。因此，依据这一认知规律，我们可以尝试对于不同语言水平的学习者，对语言表达能力给予不同的权重。比如，对于提高语言表达能力阶段的学生，我们可以更多使用记叙文体，评估也以语言表达清晰与否作为重要标准；而对于语言表达能力相对强的学生，在促进思辨能力等方面有更多要求。这样可以有效地克服学生作为写作者的注意力资源的有限，使其各分项能力意识增强，水平提高。

但是当学习者语法层面的驾驭能力已经达到一定水平时，如果还停留在单一的语言评估标准上，势必导致语言僵化。我国的四六级考试就见证了学习者的语言水平的进步，因而语言表达的权重也就可以相对减少，以发展“学生创造性的写作和思维能力”(蔡基刚2002:52)。

其次，主要特点作为评估的重点应该如何确定。

我们的评估重点的确定是需要考虑写作任务的特点、难度和所要求的文体等。评分员行为研究中，为什么专业人士和语言教师对同一语言行为有不同的评估？在语篇研究中，为什么不同文体的语篇，学者们发现了不同的语篇超结构？一个共同的原因是评分员所认知的，文本所承载的写作的基本目的不同。为此，Cumming（2002：89）也指出 “我们有可能从体裁特征的视角，为不同的文本类型编写整体性评估的不同量表”，同时Cumming质疑单一的整体性评估量表可以处理评分员所考虑的有关不同文本的所有问题。为此，将主要特点评分法和整体评分法相结合应该是可以尝试的。写作任务的特点、难度和所要求的文体特点是我们确定主要特点时需考虑的。

Cumming(转自游晓晔2008)曾呼吁建立一个可预测性的写作模型。可以根据写作任务、话题和作者的知识来预测写作之难度以及学生写作能力发展的一般阶段。而GrabeW.(转自游晓晔2008)在他提出的写作模型中，就从认知心理学的角度，对写作的基本目的进行了区分，然后对它们按难度高低进行分层：1.写作以控制机械性产出为目的（协调动作，最低的流利性）；2.写作以罗列、填空、重述、改写为目的（非创作，知识表达已知的信息）；3.写作以理解、记忆、做简单的摘要和较复杂的笔记为目的（创作和复述）；4.写作以学习、解决问题、做复杂的摘要和综合信息为目的（创作和转化，根据不同资料进行创作）；5a.写作以批判、劝说、解析为目的（强调某些视角，有选择地、恰当地运用例证）；5b.写作以创造、体验美感、娱乐为目的（以全新的方式进行创作，在修辞的层次上进行创作，打破写作的条条框框进行具有创意的写作）。Grabe对于写作难度的分层是以写作的目的出发的，所以我们可以将它和相关的语篇研究的成果结合，确定写作任务的取舍和写作评估标准的制定。比如，按照难度分层5a的以批判、劝说、解析为目的的写作任务，就应该给予有一定的书写流利性的学习者，这时，语言流利不是评估的重点，而结合语篇知识，文本的观点,论据和论证就应该成为评估的重点。这不仅是考虑到了注意力资源，同时，这一做法对于学习者形成性的学习也是大有裨益的。它可以诊断性地对学习者的这一知识和技能进行评估，从而有助于他的进一步学习。也可以有效克服评分员通常关心的都只是评分量表中某一小部分内容的现象。

我们现在所提倡的综合评分法（portfolioassessment）即建立档案袋，收集学生各文体的作文样本进行评分的方法，也应改变“语言至上的评估标准”（Connor2002:264），我们可以根据要求写作的文本的语篇特点，选取语法、社会语言层面、语篇、策略能力等项目作为主要特点来评估。

四、结束语

作文的评估绝非易事。本文只是从评分标准的制定视角，提出了一点粗浅的看法。而这样的一种整体评估加主要特点的评估模式更适合于在写作课程学习过程中的形成性评估中使用。

Broad,B.（2000）.Pullingyourhairout:crisesofstandardizationincommandwritingassessment[J].Researchinthe TeachingofEnglish35(2).

Brockman,E.,Taylor,M.,Crawford,M.K.＆amp;KrethM.(2010).Helpingstudentscrossthethreshold:implicationsfroma universitywritingassessment[J].EnglishJournal99(3).

Brown,A.(1995).Theeffectofratervariablesinthedevelopmentofanoccupationspecificlanguageperformancetest[J].LanguageTesting12(1).

Charney,D.(1984).Thevalidityofusingholisticscoringtoevaluatewriting:acriticaloverview[J].Researchinthe TeachingofEnglish18(1).

Connor,U.＆amp;Mbaye,A.（2002）.Discourseapproachestowritingassessment[J].AnnualReviewofAppliedLinguistics(22).

Cumming,A.(1990).Expertiseinevaluatingsecondlanguagecompositions[J].LanguageTesting(7).

Cumming,A.,Kantor,R.＆amp;Powers,D.(2002).DecisionmakingwhileratingESL/EFLwritingtasks:adescriptive framework[J].TheModernLanguageJournal86(1).

Diederich,P.B.,French,J.W.＆amp;Carlton,S.T.(1961).Factorsinthejudgmentofwritingability.PrincetonNJ:Educational TestingService.

Eckes,T.(2008).Ratertypesinwritingperformanceassessments:aclassificationapproachtoratervariability[J].Language Testing25(2).

Elder,C.(2001).Assessingthelanguageproficiencyofteachers:arethereanybordercontrols[J].LanguageTesting(18).

McNamara,T.F.(1990).ItemresponsetheoryandthevalidationofanESPtestforhealthprofessionals[J].Language Testing(7).

Ruth,L.＆amp;Murphy,S.(1984).Designingtopicsforwritingassessment:problemsofmeaning[J].CollegeCompositionand Communication35(4).

Skehan,P.(1998).ACognitiveApproachtoLanguageLearning[M].Oxford:OxfordUniversityPress.

SkehanP.(2003).Task-basedinstruction[J].LanguageTeaching(36).

蔡基刚(2002).大学英语四、六级写作要求和评分标准对中国学生写作的影响[J].解放军外国语学院学报(5)。

罗娟，肖云南 (2008).基于多元概化理论的英语写作评分误差分析研究 [J].中国外语(5)。

王秉金，刘建理 (1995).谈英语作文的测评标准 [J].外语与外语教学(4)。

游晓晔(2008).建构一个生态性的EFL写作理论——从中国英语写作教学史谈起[A].王立菲主编.英语写作教学与研究的中国视角——第四届中国英语写作教学与研究国际研讨会论文集[C].北京:外语教学与研究出版社。

邹申(2002).他们如何使用写作评分标准——TEM4新老评分员调查[J].国外外语教学(3)。

猜你喜欢

评分标准语篇量表

基于DOPS评分表细化体格检查评分标准的应用研究*