多层面Rasch模型分析写作测试中评卷者的偏差性＊

2011-10-29贺满足

外语与翻译 2011年1期

关键词：评卷一致性偏差

贺满足

(湖南第一师范学院外语系，湖南长沙 410205)

多层面Rasch模型分析写作测试中评卷者的偏差性＊

贺满足

(湖南第一师范学院外语系，湖南长沙 410205)

运用多层面Rasch模型探讨写作测试中评卷者的评分一致性、严厉程度及与考生的交互作用。发现评卷者在评分过程中严厉程度一致，但评卷者之间有显著差别;评卷者与某些考生之间存在显著的交互作用，但偏差情况各不相同，且交互作用模型也不明确。由此可以看出，评分者是写作测试中的一个重要变量，在高风险的考试中，评分者必须接受严格的培训并且认真参与试评，以便最大程度地保证考试的公平性。

多层面Rasch模型;写作测试;评分者;偏差性

现在的英语写作考试主要采用主观题型，要求考生根据要求完成一定的综合性任务以显示其所学的知识或技能，因而一些专家将其称之为做事测试。Brown＆Hudson认为，基于做事的测试可以采取多种方法，如写作、访谈等。做事测试对心理测量学家、试卷设计者、研究者提出了挑战，要求他们设计出一些情景，从中得到一些证据，以此推断学生的语言能力。做事测试为产出型能力测试，涉及试题(任务)，考生的表现、考生的能力和个人特点，评分量表、测试的能力、评卷者等。这些层面的关系可以用图1所示的模型来表示。

图1 做事测试模型

Rasch模型是一种单参数项目反应理论模型，用来分析多项选择题中试题的难度和考生的能力。多层面Rasch模型则是一种延伸，用来分析主观试题。它可以实现在同一个罗基量表上分析主观测试中考生能力、任务难度、评卷者的严厉度(以logit为单位显示)及评分量表的准确度等层面的表现以及相互间的交互作用，同时还可判断各层面的成员之间是否有显著差异，如评卷人严厉程度的差别等。此外，也可以对每个层面进行Rasch模型拟和分析。很多研究利用这个模型来分析诸如写作和口语等做事测试，如王跃武等研究了网上作文评卷的信度;李清华、孔文利用多层面Rasch模型分析了TEM－4写作新分项式评分标准的评分质量。

本文探讨英语作文测试中评卷者的评分情况。具体而言，回答两个问题:

(1)评分中，评卷者的总体严厉程度如何?

(2)评卷者是否对某些考生过于严厉或宽松?如果是，评卷者/考生是如何交互作用的?

一、研究设计

37个英语专业二年级学生参加试验，从7个班级随机挑选。研究要求学生就要求的题目写一篇200字左右的议论文。为避免因书写问题影响评分，所有的手写稿都一字不改地打印出来，且不含任何个人信息。阅卷者使用的评分量表为Jacobs等人于1981年制定的分析法评分量表，包括内容、词汇、语法、语言组织和技巧(如大小写，标点等)5个层面，每个层面具有相同权重，分1到5五个级别。前测结果表明，该评分标准能够确保评分者评分时前后一致。评卷前4位评卷老师参加了培训以熟悉评分标准和评卷的注意事项，并进行试评;待评卷者充分掌握评分标准后，开始正式评分。

二、结果和讨论

可靠性分析显示，整个评分的Cronbach系数为 .913，表明评卷者之间的评分具有较好的一致性。FACETS分析显示考生的写作能力相差很大:水平最高的考生能力测量值为3.6 logits作用，而水平较低的考生的测量值为－2.1logits。下面主要分析评卷者的严厉程度与及考生之间的交互作用。

(一)评卷者

评卷者的表现可以从严厉程度和评分的内部一致性来分析。FACETS分析显示:四个评卷者的严厉程度相差1.72 logits(－0.64－1.08)，2号评卷者最为严格(1.08 logits)。分隔指数信度(reliability of separation index)为.98，表明评卷者的严厉程度有很大的差异，这种差异是否有显著意义的区别可以通过卡方检验来验证。卡方检验结果显示卡方值为140.9，显著性p=.00，表明评卷者评分的严厉程度有显著意义的差别。这与大多数的研究结果相似。尽管评卷时对评卷者进行了较为系统、全面的培训，但严厉度差异仍然存在。这意味着对评卷人的培训对提高评卷的内部一致性很有帮助，但不一定能很好地缩小评卷者之间的差异。

评卷者之间的差异有多方面的原因。例如，长时间的评卷，评卷者会感到疲倦，注意力不集中;评卷者有自己的偏好，对考生的期望度也不尽相同;对评分标准的理解有时会受自己个人信仰的影响;在分数的把握上会有所不同。因此评卷者之间存在主观上的差异，相同评卷者在不同的时间内也具有不稳定性，在评分的准确性、严厉度等方面，同一评卷者难以在多次评分中保持一致，不同评卷者对于相同被试的评分也难以相同。

评卷者评分的相对一致性可以通过评卷者的拟和统计分析来检验。Infit MnSq为加权的均方拟和统计量，可接受的取值范围介于平均值+2个标准差之间。如果评卷人评卷的一致性很差(表现为很高的拟和值，通常是高于平均值+2个标准差)，那么评卷者就需要重新培训或者予以更换。如果观察值和预测值的差异比模型预测的更小(表现为较低的拟和值)，则表明此评卷者较为宽容，评分中可能没有使用全部的分数段，评分也没能区分出考生之间的差异。那么评卷者要重新参加培训。FACETS分析结果显示，四个评卷者的评分都在可以接受的范围之内(0.71－1.27)，说明评卷者的严厉程度虽然不同，但具有内部一致性，因而评分是可靠的。

同时，此次测量的误差平均值为.11，进一步说明该评分比较准确。

(二)偏差分析:评卷者与考生的交互作用

偏差分析可以找出各个层面之间交互作用的模型。当Z值大于2.0或小于－2.0时(低于－2.0表示评卷者对此考生更宽容;高于2.0表示评卷者对此考生生更严厉)，说明该偏差有显著意义。分析结果显示，140个交互作用组合中，15个有显著偏差，且呈不均匀分布(1号评卷者与1个考生，2号评卷者与7个考生，3号评卷者与5个考生，4号评卷者与2个考生)。同时，评卷者之间的偏差情况不相同(表现为3号评卷者与写作能力最差的4号考生有显著的交互作用，其他3个评卷者与写作能力为中等或以上的考生发生交互作用)，且与考生的交互作用模型不很明确(即这些考生的写作能力差异较大)。这表明，应加强对评卷者评判极端水平作文的培训。同时也说明，由于这类水平的作文数量有限，多层面Rasch模型不能进行多次标定，因而无法准确地测量这类考生的写作能力。

对于显著偏差的原因，需要进一步的定性研究来了解那些作文的深层次特点以及评卷者评分时的思维过程(thinkaloud protocol)。此外，对评卷者更深入的培训以及更详尽的评分说明也能减少这种差异。但Bonk和Ockey指出，不管怎么培训，评分说明如何详尽，只能降低其程度，不能完全消除其差异。

四位评卷者的均方拟和统计值(.1和1.3之间)都在可以接受的范围内(0.6+2×0.5)，且每份试卷由四位评卷者进行评判，因而评卷者严厉度的差异以及对少数考生评分的偏差并不会对整个评分的可信度产生较大的负面影响。

已有的一些研究通过计算α值估计评卷者的内部一致性，没能进一步讨论评卷者的严厉度以及评卷者与考生等层面的交互影响。虽然通过t检验和方差分析也能了解评分者严厉度的差异，但不能显示层面间的交互作用。多层面Rasch模型却能提供这些信息，且能找到一些具体问题。通过多层面分析得知，本次评分中评卷者有较好的前后一致性。然而，评卷者的严厉度还存在显著差异。这一发现和Weigle(1998)的研究结果类似，即培训能够帮助评卷者给出可以预测到的分数(评卷者内在效度)，但不一定能够很好地使不同评卷者给出相同的分数(评卷者间的信度)。因此，在写作测试中，可以采取增加题目数量的办法来提高考试分数的可信度。

三、结语

以上分析表明评卷者的严厉程度有显著差别，且评卷者与某些考生之间存在显著的交互作用，但每个评卷者与考生的交互作用模型不相同且不明确。这说明不同评卷者的严厉程度不相同，同一评卷者的严厉程度也不是一成不变的。这对外语教学和测试有一定的启示作用，即评分者是影响写作测试效度的一个重要变量。在高风险的考试中，如高考和大学英语等级考试，测试的目的是对每一篇文章进行准确评分，那么评分者之间的一致性显得至关重要，因而评分者必须接受严格的培训并且认真参与试评，以便最大程度地保证考试的公平性。

此外，多层面Rasch模型在做事测试非常有用。通过分析评卷者、考生等层面的表现以及两者之间的交互作用，可以帮助了解评卷者的态度以及对评分标准的掌握情况，并及时把这些信息反馈给他们，以保证评分的一致性;对学生层面的分析可以帮助老师了解学生的表现，从而采取相应的措施帮助提高他们的写作能力。总之，多层面Rasch模型能够为外语教学和测试提供许多非常有用的信息，在以后的研究中可以广泛应用。

［1］Bonk W J，Ockey G L.A many－facet Rasch analysis of the second language group oral discussion task［J］.Language Testing，2003，20(1):89－110.

［2］Eckes T.Rater types in writing performance assessments:A classification approach to rater variability［J］.Language Testing.2008，(25):155－185.

［3］McNamara T F.Measuring second language performance［M］.New York:Longman，1996.

［4］刘建达.话语填充测试方法的多层面Rasch模型分析［J］.现代外语，2005，(28):157 －168.

［5］刘建达.做事测试的信度和效度的Rasch模型分析［J］.外语艺术教学研究，2007，(4):3－10.

［6］刘建达，杨满珍.做事测试评卷中的质量控制［J］.外语电化教学，2010，(1):26 －32.

［7］李清华，孔文.TEM－4写作新分项式评分标准的多层面Rasch模型分析［J］.外语电化教学，2010，(1):19－25.

2011－01－14

贺满足(1980－)，女，湖南衡阳人，讲师，硕士。