概化理论在大学英语翻译评分中的应用研究

2021-12-03阎莉张玮向国华

湖北经济学院学报·人文社科版 2021年11期

阎莉张玮向国华

摘要：本研究以概化（G）理论作为分析框架，请12位评分者对11名大学生的汉译英翻译测试进行评分，通过一系列的概化研究和决策研究，以检验翻译测试中的评分信度和构建效度问题。实验结果表明：以汉译英段落翻译进行的测试能较好区分考生的翻译能力;评分人效应明显，而题材效应不明显。同时决策研究的结果表明，适当增加翻译任务和评估者人数能提高翻译测试的信度。

关键词：概化理论;翻译评分;评分信度;构建效度

一、前言

随着中国推进“一带一路”建设和中国文化“走出去”战略，中国承担了更多的国际责任，也对翻译人才提出了更多要求。为顺应国家的需求和英语教育改革趋势，翻译测试研究迫在眉睫。

翻译测试属于测量范畴。但凡测量都有误差，产生测量误差的原因是多种多样的。根据不同的测量误差，测量一般分为以下三大理论，分别是经典测量理论（CTT）、概化理论（GT）和项目反应理论（IRT）。经典理论把测试的得分看成是真分数和误差分数的线性组合，但经典理论中的真分数不能指明哪种误差或在总误差中各种误差的相对大小如何，只能根据主试自己的理解去控制一些因素，针对性不强。项目反应理论将被试特质水平与被试在项目上的行为关联起来并且将其参数化和模型化，是通过统计调整控制误差的方法。若模型成立并且项目参数均已知，则模型在测验中为项目性质调整数据，可生成独立于测验项目性质的特质水平测量。但项目反应理论对被试数、项目数和模型有限制，适合较大规模和大样本的测试。概化理论则是通过改进经典测验理论的数学模型、引进方差分析技术等方法，把分数变异细分为多种来源，为测验决策提供了系统的理论和方法。因此，概化理论是经典测量理论与方差分析技术形成一种现代测量评价的理论[1]。该理论已构成了现代人才测评的理论基石，应用范围涉及心理测试、语言测试、绩效评估、医学测量等多个领域[2-5]。

目前，我国概化理论主要用于高考标准、参照性测验、心理测试、普通话测试、教学评价评分一致性等研究中。学者们也尝试将概化理论用于外语语言测试研究，如概化理论分析写作测试和口语测试[6-8]。研究发现，通过概化理论可以为研究标准化和标准程度化不高的测试提出有效控制和改善测量精度的措施和方法。但以概化理论深入挖掘翻译测试的可靠性和有效性的研究鲜有涉及。

二、概化理论：翻译评估研究的框架

在国外教育與心理评价中，概化理论受到高度重视。美国教育研究会、心理学协会以及国家教育评价委员会联合颁布的《教育和心理评价标准》明确提出，构建观察和教育评价程序的可靠度与效度时，必须参照概化理论[9]。

概化理论（Generalizability Theory）是一种把测量误差作为模型参数来处理的测量理论，也是一种统计方法。该方法可以识别得分方差和错误的来源，并估计这些方差成分对评分一致性和准确性的影响[10]。它将影响测试结果的多侧面（Facet）及其交互影响纳入测试全域（Universe），分析侧面间结构关系与作用模式，如在按考生和任务（p×t）的交叉设计中，某个考生（p）在某道题（t）上的得分受考生全域均分、个人效应、题项效应和残差效应（残差包括学生与试题的交互作用，以及其他不确定误差源）影响。

概化理论分析问题的基本过程主要包括两部分，即概化研究和决策研究。概化研究按照总差异百分比检查设计中的每个差异成分。决策研究是对概化研究所得数据的转换和解释环节，为实验目的提供不同的信度和效度指标。具体来说，决策研究表明需要多少项任务和评估者数量才能达到特定的评分可靠性[11]。概化理论的概化研究和决策研究可以帮助人们针对具体误差来源，提出有效控制和改善测量精度的措施和方法。因此，本文以概化理论为分析框架，开展汉英翻译测试有效性的研究，不仅检验翻译测试评阅的信度和效度问题，而且运用决策研究结果构建提高翻译测试的有效性策略。

三、研究问题和研究过程

（一）翻译样本的选择

翻译能力是译者的语际转换能力，即忠实通顺地传达原作意义的能力。Hatim & M ason（1990）对翻译能力所下的定义——“成功翻译的必要知识”[12]。本研究英语翻译能力测试是依据2017教育部最新版大学英语教学指南对翻译的基本要求，如果考生能借助词典对题材熟悉、结构清晰、语言难度较低的文章进行英汉互译，译文基本准确，无重大的理解和语言表达错误，能有限地运用翻译技巧，那么考生具备一定的翻译能力。于是，笔者选用大学英语四级真题作为翻译测试题，因为英语四级考试的目的就是以中国英语学习者为对象，为大学英语教学提供测评服务一项全国性的英语考试。

参加翻译测试的对象来自湖北省属高校非英语专业大二的学生。11名学生都参加过2019年6月的CET-4考试，其中，有10位学生通过了四级考试，有1位学生未通过四级考试。笔者本人为他们的大学英语任课教师，并确认测试的翻译任务均为学生未接触过的试题，征得学生同意后，分配学生30分钟时间，完成140-160个汉译英段落翻译，第一次为文化类翻译，第二次为经济类翻译。然后，这11名学生的22篇翻译由12名评阅者按照CET-4翻译考试评分标准进行评分，即评阅人从准确、连贯和语言三个方面对翻译进行综合型评判。参加测试研究的12位评分员为有15年及以上教龄的高校专任英语教师，大部分教师曾多次参加过大学英语翻译测试和校级翻译选拔赛的评阅工作。

（二）研究设计

1. 翻译测试中的准确性和有效性依据

当前的翻译测试大都以文本测试为主，评分者依照评分标准作出主观性评估。主观性评估的准确性对其有效性有很大影响，Messick（1989）将有效性描述为“综合评价判断经验证据和根据考试成绩理论基础的程度，支持推理和行动的充分性和适当性”。从这个意义上说，翻译任务的评估通常涉及一个或多个评估者，评估者依据个人经验对任务进行综合评价，判断考生对翻译理论基础的掌握程度。在这种主观性评估背景下，分数会因许多因素而波动，任务和评估者将是影响准确性的两个潜在测量误差源[13-14]。因此，本研究重点考察翻译测试评估的两个因素：任务和评分者。研究采用两面交叉设计p×t×r，其中p是指学生的翻译能力（测量目标），t指翻译不同题材翻译，有2个水平;r指评估者，有12个水平，即12位评分员对11名学生每人二种不同题材的段落翻译进行评定，翻译题材面和评估者面都为随机。然后GENOVA软件测量翻译评分中的评分员效应和题材效应，并对误差构成进行分析研究。

作为评估测量精度的概化理论还提供了一种检验测试结构有效性的方法评估[14]，即研究行为表现评估的结构效度（聚合效度和区别效度）。通过分析测试中得出的每个方差成分的相对大小，来检验构造的有效性[15]。在任务和评分者随机交叉设计中，学生翻译分数的变化即可分为以下七个方差分量：考生（p），任务（t），评分者（r），考生*任务（pxt），考生*评分者（pxr），任务*评分者（txr），考生*任务*评分者（pxtxr）。为了检验考生测量的有效性，每个方差分量都需要单独考虑。由考生引起的变化不构成误差变化，因为考生是衡量的对象，他们的表现会有所不同。因此，考生的方差分量大，测量对象表明聚合效度足够大[16];评估者方差成分以及评估者与其他方差成分（即，任务和评分者）之间的交互作用应较小，以表示区别有效性，因为所有这些方差成分均会导致测量误差[16]。所以任务和评分者之间的交互作用方差成分组成部分可以判断区分度。如果认为翻译能力是一维结构，任务和评分者之间的交互作用方差成分较小，则表明区分度好;但如果测试的能力为多维结构，那么其他变异来源例如考生*评分者（pxr），任务*评分者（txr），考生*任务*评分者（pxtxr）等的组成部分应该很小以支持判别有效性，因为它们可能导致错误，因此无法测量学生的翻译能力[16]。

2. 研究问题

使用概化理论作为框架，以下三个研究问题指导了这项研究：

（1）大学英语汉英翻译任务的分数的得分变异性的来源是什么？

（2）大学英语汉英翻译测试的构造效度（及聚合效度和区别效度）如何？

（3）大学英语汉英翻译任务的成绩可靠性是什么？

3. 数据分析

首先，进行描述性静态分析和配对样本t检验。其次，一个随机效应任务、评估人和考生（pxtxr）的概化研究和两个评估人交叉考生（pxr）的概化研究（一个用于第一篇翻译任务，另一个用于第二篇翻译任务）。从这些概化研究获得的信息用于检查评分变异贡献来源和考生翻译分数的结构效度。最后，产生一个影响评估人、任务和考生（pxtxr）决策研究。决策研究获得的结果用于检验翻译测试成绩的可靠性。概化和决策研究均使用计算机程序GENOVA[15]。

四、研究结果和分析

（一）翻译的得分的差异

表1汇总了由11位中国大学生翻译的22篇翻译的得分的统计结果（即均值和标准差）。结果显示，11名学生翻译能力差异较大。文化类翻译任务中的得分明显高于经济类翻译任务。

（二）配对样本t检验结果

此外，配对样本t检验结果（见表2）显示，除学生6在翻译任务1和任务2得分一致外，文化类型的翻译的得分明显高于经济类翻译得分。此外，如表2显示，三名考生（即考生2、4和6）在文化类翻译任务中的得分明显高于第一篇（p<0.05）。其他学生的翻译分数没有显著差异。这两个翻译任务满分为15分，学生分数覆盖5-12分，说明11名学生的翻译能力有很大差异。

（三）概化研究（Generalizability Studies）

本研究采用了两面交叉设计p×t×r，这种设计可以得到学生翻译能力、篇章类型、评估者三种主效应（p，t，r），四种交互效应（pt，pr，tr，ptr）。各效应的方差成分如表3。

表3结果可以看到，作为测量对象的考生（p）产生了最大的方差分量（2.972），占据总方差的50.24%，表明11个选定的考生，翻译能力差异很大。与评分者相关的（r）和（pr）约占总方差的30%，说明由评估者因素给分数变异带来的误差相当大。而题材类型（t）属于同一题型，只有题目内容的变化，其方差成分（0.244）很小，它仅占分数总变异的4.12%，说明不同题材类型对学生能力测试不会造成很大差别。

表4显示两种不同翻译任务的考生*评分人pxr随机效应概化研究结果。不同题材的翻译段落看作单面交叉设计p×r，本研究所用的两篇不同内容的翻译分别代表了两个单面设计。考生*评分者（pxr）随机效应产生以下方差分量：考生（p），评估者（r）和考生交叉评估者效应（pr）。如表4所示，文化类翻译的结果表明，测量对象人（p）解释了最大的得分差异（占总差异的58.87%），表明这11名大学生差异很大，翻译任务很好的衡量的学生的翻譯能力。残差是由于评估者和考生之间相互作用引起的可变性以及其他无法解释的系统性和非系统性的来源错误占第二大得分方差（占总方差的29.57%）。评分者（r）产生了第三大方差成分（占总方差的17.63%），表明评分者在评估翻译任务方面存在很大差异。

经济类翻译的结果表明，测量对象人（p）解释了最大的得分差异（占总差异50.60%），表明这11名大学生翻译能力差异很大，翻译任务很好的衡量的学生的翻译能力。残差是由于评估者和考生之间相互作用引起的可变性以及其他无法解释的系统性和非系统性的来源错误占第二大得分方差（占总方差的29.57%）。评分者（r）产生了第三大方差成分（占总方差的17.31%），这表明评分者在评估翻译任务方面存在很大差异。

（四）翻译测试的构造效度结果

为了检验翻译测试的构造效度（及聚合效度和区别效度），对随机效应评估人、任务和考生（pxtxr）的方差分析概化研究（参见表3）和两个考生*评分者（p x r）随机效应的概化研究（一个用于第一篇翻译任务，另一个用于第二篇翻译任务）来检查结构的有效性（参见表4）。

如表3所示，作为测试对象的翻译能力解释了总变异的50.24%，这说明用汉译英段落翻译测试考生的翻译能力，聚合效度可以接受。另外，本研究在翻译任务中使用了两个题材的翻译任务，因此学生的翻译能力可以被视为多维结构。较大的值表示足够的区别效度。但是任务、考生*任务和任务*考生*任务的差异占总分差的4.12%、1.21%和11.59%说明区分效度不明显。

如表4所示，文化类翻译比经济类翻译任务的测试对象p分别占总方差的58.87%和50.60%，表明文化类的翻译比经济类的翻译聚合效度高，考生和评分者（pr）的方差分别占占总方差的23.20%和29.57%，这表明第二项经济类的翻译任务更具有区别效度。

（五）决策研究（Decision Studies）

根据概化研究所估计出来的各种方差成分，我们可以考察不同决策研究下概化系数（Generalizability Coefficient，简称G系数）的变化。固定一个面的决策研究不仅增加面的水平能提高测量精度，固定一个面也能改进测量的可靠性。

概化系数大于0.80说明信度优秀。如图5所示，固定一个翻译测试题，如果这一道翻译测试题由一名评估者来评分，概化系数为0.636，两名评估者可靠性为0.762，三名评估者可靠性为0.816，达到0.80的优秀水平;而如果有两道翻译测试题一名评估者来评分，概化系数为0.699，两名评估者可靠性为0.814，达到优秀水平。

五、讨论和结论

基于以上检验、分析。本研究得到以下结论：

首先，考生*评分人*任务的概化研究结果表明，与评分者相关的（r）和（pr）约占总方差的30%，题材类型（t）其方差成分占分数总变异的4.12%，在影响翻译评分的各种因素中，评分者因素产生的误差最大，这一结果跟Huang[17]的发现一致。而题材类型对学生能力测试不会造成很大影响。但相同条件下，经济类翻译测试误差最大，而文化类翻译测试误差较小。

其次，翻译测试的构造效度（聚合效度和区别效度），作为测试对象的翻译能力解释了总变异的50.24%，这说明用汉译英段落翻译测试考生的翻译能力，聚合效度可以接受。但是任务、考生*任务和任务*考生*任务的差异占总分差的4.12%、1.21%和11.59%说明区分效度不明显。本研究在翻译任务中使用了两个不同题材的段落，但都属于同一题型的文本翻译，说明测试中使用同一题型不同题材的文本对翻译测试产生的误差没有影响。相对而言，文化类翻译比经济类翻译任务的测试对象p分别占总方差的58.87%和50.60%，表明文化类的翻译比经济类的翻译聚合效度高，考生和评分者（pr）的方差分别占占总方差的23.20%和29.57%，经济类的翻译任务更具有区别效度。这个结果可能与大学英语强调英语文化重要性有关，在大学英语通识教材中学生接触经济类型的文本比文化类型的文本要少。所以，学生发现文化类翻译比经济类翻译更难。与文化类翻译相比，评估者在经济类的评分一致性也稍差。

最后，翻译测试分数的可靠性决策研究结果表明，增加翻译任务和评估者人数能提高翻译测试的信度。

因此，为了提高翻译测试的有效性，测试机构的主管部门一是要稳定测试评分者队伍，减少评分人员变更;特别是大型测试中，如果条件允许情况下，增加评分员人数，双人评阅;二是在翻译能力测试中，试卷分卷或多卷测试时，翻译篇章类型尽可能统一，尽可能用采用多篇翻译进行测量，才能更好保证测试的公正性。

当然，实验中考生和评分者的行为可能与实际测试条件下的行为有所不同。而且参与者和写作样本的样本量相对较小，可能会限制调查结果对整个翻译评估的概括。在后期研究中，我们将通过定性方法对翻译评估者及评分过程采取进一步研究，来明确影响翻译评分中的隐藏性因素。

参考文献：

[1] 陈社育，余嘉元.经典真分数理论与概化理论信度观评析 [J].心理学动态，2001，（3）：258-263.

[2] Brennan，R.L.Generalizability Theory[M].New York： Springer，2001.

[3] Gebril，A.Score generalizability of academic writing tasks： Does one test method fit it all？[J].Language Testing，2009，29（4）：507-531.

[4] Sawaki，Y.Construct validation of analytic rating scales in speaking assessment： Reporting a score profile and a composite[J].Language Testing，2007，24（3）：355-390.

[5] Huang， J. （2012）. Using generalizability theory to examine the accuracy and validity of large-scale ESL writing[J].Assessing Writing， 17（3）， 123-139.

[6] 赵琪凤.HSK写作测试评分信度考查——基于对新老评分员的个案调查[J].课程与教学论，2010-10：13-19.

[7] 基于概化理论和多层面Rasch模型的计算机化英语听说考试评分研究[J].徐鹰，曾用强.电化教育研究，2015，（3）：89-95.

[8] 孙海洋，韩宝成.概化理论在口语考试设计中的应用研究[J].外语教学，2011，（6）：61-65.

[9] AERA，APA & NCME.Standards for Educational and Psychological Testing[Z].Washington，DC： American Educational Research Association，1999，2014.

[10] Huang， J. （2011）. Generalizability theory as evidence of concerns about fairness in large-scale ESL writing assessments[J]. TESOL Journal， 2（4）， 423-443.

[11] 趙必华.概化理论及其在标准参照测验信度中的应用[J];内蒙古师范大学学报（教育科学版） 2002（5）：21-23.

[12] Hatim，B. & Mason， I Discourse and the Translator [M]. London： Longman， 1990.

[13] Messick S.Validity .In：R. L.inn （Ed.）.Educational Measurement （3rd Edition）[C].New York： Mac-millan，1989.13-104.

[14] Shavelson， R. J.， & Webb， N. M. （1991）. Generalizability theory： A premier[M].Newbury Park， CA： Sage.

[15] Brennan， R. L. （2001）. Statistics for social science and public policy： Generalizability theory[M].New York： Springer-Verlag.

[16] Kraiger， K.， & Teachout， M. S. （1990）. Generalizability theory as construct-related evidence of the validity of performance ratings[J].Human Performance， 3， 19-35.

[17] Huang， J. （2011）. Generalizability theory as evidence of concerns about fairness in large-scale ESL writing assessments[J]. TESOL Journal， 2（4）， 423-443.

湖北经济学院学报·人文社科版

2021年11期

概化理论在大学英语翻译评分中的应用研究

杂志排行

湖北经济学院学报·人文社科版的其它文章