概化理论下英语翻译测试评分者的信度研究

2020-07-07阎莉

武汉工程职业技术学院学报 2020年2期

阎莉

(武汉工程大学外语学院湖北武汉：430073)

翻译测试是翻译教学中的一个重要环节，也是国内外多种外语水平考试中常用的考试题型。翻译测试是在外语教学和翻译教学中用来评估学生语言能力和翻译能力的重要方法及手段[1]。但翻译作为主观型测试，受试者翻译能力的判断取决于评分者按照评分标准得出的分数，由于评分者之间的差异，评分可能存在不一致性，而评分者的信度是衡量测试质量、保证其公平公正的主要指标[2]。因此，评分者因素已成为可能影响课堂和标准化评估环境中评估翻译的分数有效性和可靠性的因素。

目前，许多学者在翻译测试的构建上已有较为深入的理论思考[3-4]；在测试方法和评分标准、评分量表、评分信度等方面也展开相关研究[5-7]。但是，以概化理论深入挖掘翻译测试的有效性和可靠性的研究鲜有涉及，尤其是评阅人培训背景对英语翻译评估的影响研究较少。

鉴于此，本研究运用概化理论(Generalizability Theory)对两组不同背景评分人进行检验，通过概化(Generalizability，G)和决策(Decision，D)研究，审视不同培训背景评分者对英语翻译测试的可靠性影响。

1 概化理论：翻译评估研究的框架

概化理论是经典测量理论与方差分析技术形成一种现代测量评价的理论。概化理论也是一种统计方法，可以识别得分方差和错误的来源，并估计这些方差成分对评分一致性和准确性的影响[8]。研究人员在ESL/EFL主观性评估中广泛使用了概化理论来检验评分的信度或结构效度[9-10]。概化理论分析问题的基本过程主要包括两部分，即概化(G)研究和决策(D)研究。概化(G)研究按照总差异百分比检查设计中的每个差异成分。例如，在按考生、任务和评分者(p×t×r)的交叉设计中，G研究可以提供以下七个方差成分的信息：考生(p)，任务(t)，评分者(r)，考生和任务的交互作用(p×t)，考生和评分者的交互作用(p×r)，任务和评分者的交互作用(t×r)和评分者、任务和考生之间的交互作用(p×t×r)(即残差，为评分者、任务和考生之间无法解释的系统和非系统错误源)；决策(D)研究是对概化(G)研究所得数据的转换和解释环节，为实验目的提供不同的信度和效度指标。具体来说，D研究表明需要多少项任务和评估者数量才能达到特定的评分可靠性(即分别用于规范参考和标准参考解释的概化系数和可靠性系数)。

在过去的三十年中，概化理论被越来越多地用作指导主观性评估研究的理论框架[9-12]。概化理论为翻译评估研究提供了非常强大的理论框架。因此，本文应用概化理论为指导框架，采用随机交叉设计来探索评分者对英汉翻译评估的影响，对翻译的评分信度进行检验。

2 研究过程

2.1 翻译样本的选择

参加本研究的翻译样本来自湖北某大学非英语专业大二的学生。11名学生都参加过2018年6月的CET-4考试，其中，有9位学生通过了四级考试，有2位学生未通过四级考试。笔者本人为他们的大学英语任课教师，并确认测试的汉译英段落翻译任务均为学生未接触过的试题，征得学生同意后，在2019年6月CET-4考试结束的后两周，分配学生30分钟时间，进行翻译测试，第一次为文化类翻译，第二次为经济类翻译。然后，笔者按照CET-4翻译考试评分标准进行初评，学生的初评分数覆盖了5分档(4-6分)、8分档(7-9分)、11分档(10-12分)和14分档(13-15分)4个分数档。最后这11名学生的22篇翻译由20名不同培训背景评分者进行评分。

2.2 评分者的信息

参与本项研究的评分者来自省属3所不同高校，均为大学英语课程专任教师。20名参与者包括10名受聘于四级评阅中心的评分员和10名在职但无改卷培训经历的老师。大部分的参与者年龄在35至50岁之间，20名参与者包括2名本科教育背景教师,16名硕士教育背景教师和2位博士教育背景教师。

有培训背景的评分员指参加过大学英语考试委员会四级翻译阅卷培训经历的老师。评分员在每次大学英语四级阅卷前，培训组的组长会仔细解读翻译的测评标准，评分员在熟悉标准之后进行网上试评阅卷，评分员先独立完成A组试评，然后网上阅卷系统会给出这个评分员的评分情况和专家的统一评分，以帮助评分员更好地了解熟悉评分细则，掌握评分的依据。通过了A组试评以后，那么评分员再进入B组进行进一步的试评。通过两轮培训后，在阅卷组长和专家们的监控下，达到评阅的标准,才可进入真正的阅卷工作。

而另一组是没有经过正式阅卷培训的老师，但这些英语老师长期在大学英语教学一线工作，且有十年以上的工作经验，多次参与校级大学生英语选拔比赛或省级翻译大赛等相关翻译的评阅工作，对大学英语四级翻译题型及评分规则也十分熟悉。

2.3 研究问题

使用概化理论作为理论框架，研究以下三个问题：

(1)评分者的培训背景对评估翻译分数的显著差异？

(2)翻译测试评分变化贡献的来源是什么？

(3)大学英语翻译测试的成绩可靠性是什么？

2.4 评分程序

因为研究的样本为纸质手写版本，22个翻译样本由笔者去除考生姓名和学号等个人信息后，扫描成电子版本发送给评分者，评分者有20位，其中10位评分者接受了CET-4翻译评分的培训，还有10位评分者没有培训背景。为了研究需要，要求所有评分者严格遵循CET-4翻译标准，具体来说，每位评分者以0-15分的标准对22篇翻译试题进行整体评分。整体评分有四个主要标准，这些标准包括：(1)表达原文意思；(2)用词贴切；(3)行文流畅；(4)没有语言错误。

2.5 数据分析

首先，数据进行描述性静态分析和配对样本t检验。其次，一个随机效应评估人、任务和考生(p×t×r)的G研究和两个评估人交叉考生(p×r)的G研究(一个用于第一篇翻译任务，另一个用于第二篇翻译任务)。从这些概化(G)研究获得的信息用于检查评分变异贡献来源。最后，产生一个影响评估人、任务和考生(p×t×r)决策(D)研究。决策(D)研究获得的结果用于检验评分者评分成绩的可靠性。概化(G)和决策(D)研究均使用计算机程序GENOVA[8,13]。

3 数据结果

表1汇总了11位中国大学生翻译的22篇段落测试的得分统计结果。表1显示，有培训背景的评分者第一篇翻译测试平均分为8.49，第二篇翻译测试平均分为7.98，两篇翻译评分严格控制在8分档(7-9分)，都在及格档位；而没有培训背景的评分者分数分别为10.05和9.44，评阅均分普遍较高，介于及格档(7-9分)和良好档(10-12分)之间。这表明有培训背景的评分者对评分档位的控制较一致，换句话说，有培训背景的评分者比无培训背景的评分者更为严格；另一方面也说明不同背景评分人对高分的规定评分理解有所不同，评分标准存在差异。

表1 两组不同背景评分者的评分结果

3.1 配对样本t检验结果

配对样本t检验结果见表2。表2显示有培训背景的评分者与无培训背景的评分者之间平均得分有显著差异。不同培训背景评分者在评阅两篇翻译的平均得分显著值为0.000(p<0.01)，表明评分者的培训背景以及不同类型的翻译任务确实影响翻译测试的评分。

表2 配对样本t检验测试结果

*相关在1%水平上显著(双尾检验)

3.2 概化理论分析结果

为了更好了解不同培训背景的评估者得分变化贡献来源，本研究进行了考生和评分者(嵌入背景中)混合效应分析。研究了有培训背景评分者和无培训背景评分者随机效果的结果，随后为其提供G(概化)研究(详见表3)。考生和评分者(嵌套在背景中)混合效果G研究中，混合效应得出以下五种变异来源：考生(p)，背景(e)，评分者嵌套在背景(r：e)，考生交叉背景(pe)，考生交叉评估者(嵌套背景中)(pr：e)。表3中的结果表明残差(pr：e)测量得出最大方差分量(占比45.76%)。这是由于随机交叉产生无法解释的系统性和非系统性错误来源。考生(p)产生第二大方差分量，占总方差的32.91%，表明选定的翻译样本在质量上有很大差异。批分者背景(e)和评分者在背景中嵌套(r：e)产生了第三大方差分量(占比14.26%)和第四大方差分量(占比7.05%)，表明翻译分数可能存在很大差异归因于评分者的批阅背景，而且不同培训背景的评分者在评分的严厉程度方面不同。

表3 考生*评分者：培训背景混合效应方差分量的概化(G)结果

考生*评分者(p×r)随机效应产生以下方差分量：考生(p),评估者(r)和考生交叉评估者效应。表4列出了这两项G研究的结果。

表4 考生*评分者(p×r)随机效应方差分量的 G-study结果

对于有无批改培训，考生和评分者随机效应G研究结果，如表4所示，残差产生了最大的方差分量(57.12%)，残差是由于评分者和考生之间相互作用引起的可变性以及其他无法解释的系统性和非系统性的来源错误。结果显示考生(p)产生第二大方差(占比41.57%)。表明翻译样本的质量差异极大。但是，评分者(r)方差分量为总方差的1.31%，表明有培训背景的评分者一致性相当高，翻译测试评分信度好。

如表4所示，无评阅背景评分者的结果显示考生(p)产生最大的方差分量(占比53.58%)，表明翻译的质量差异非常大。残差(由于评分者之间的相互作用以及其他无法解释的系统和非系统的错误来源)产生第二大方差(占比27.75%)。然而，评分人(r)方差分量产生第三大方差分量(18.67%)的总方差。这一结果表明没有培训背景的评分者在测试评分上不太一致，对翻译评分存在较大差异。

3.3 翻译分数可靠性结果

为了检查翻译任务分数的可靠性，分别对有无培训背景的评分者进行了随机效果D研究，结果列于表5。

表5 评分者、任务和考生(p×t×r)设计决策研究概化系数

概化系数大于0.80说明信度优秀。如表5所示，在一般翻译测试中，每位考生只需要完成一道汉译英篇章翻译题，如果一道翻译测试题由一名评分者来评分，有培训背景评分者的可靠性系数为0.659，两名评分者可靠性系数为0.794，接近于0.80的优秀水平；而对于一名有着丰富教学经验但没有培训背景的老师的可靠性系数为0.421远远低于优秀值，且需要增加到6名老师测试的可靠性才能达到优秀。

4 结论

基于以上检验、分析，本研究得到以下结论：

(1)本研究在有培训背景的评分者和经验丰富但没有正式培训背景评分者之间进行分析，研究表明，没有培训背景的评分者评分方面对评分标准把握不一致，有培训背景的评分者对翻译分数档位控制较好，而且不同背景评分者对高分的规定评分理解有所不同，评分标准存在差异。

(2)对于翻译测试得分差异的来源，结果表明，残差产生了最大的方差分量(57.12%)，残差是由于评估者和考生之间相互作用引起的可变性以及其他无法解释的系统性和非系统性的来源错误，表明翻译测试评分差异来源于更多不明原因。考生产生第二大方差，表明翻译样本的质量差异会导致评分的不同。评分者方差分量表明，有无培训背景的评分者对考生得分造成影响。最后，分析结果表明，有培训背景的评分者得分一致性相当高，翻译测试评分信度好，而没有培训背景的评分者在测试评分上不太一致，对翻译评分存在较大差异。

(3)最后在评分者分数的可靠性决策研究结果表明，有培训背景的评分者比没有培训背景评分者更一致且更可靠。

当然本研究仅考察了评分者教育背景对汉译英翻译评估的影响。许多研究表明，多种因素共同影响主观性的评估[14]。对其他因素的忽视可能导致概化理论分析中的大残差方差分量，存在很大的无法解释的变异性。而大的残余效应可以表明隐藏性[8]。后期研究中，我们将进一步明确隐藏方面更大的残差[12]。

总而言之，在真实环境中，教师对学生进行评分通常不会接受正规培训，翻译评分公正性主要靠评估者的经验来兑现。作为主观性考试的翻译，评分标准的科学性、严密性、评分员对标准的一致性尤为重要。因此，在翻译测试前，实施严格的评估培训，使评分者自身和内部的差异最小化，这将有助于提高翻译评分的准确性和一致性。