口译比赛评估研究探索<br/>——以I Forum为例*

口译比赛评估研究探索
——以I Forum为例*

2022-01-06邓小文

翻译界 2021年2期

关键词：译员口译主体

邓小文

北京外国语大学

雍洪

西安电子科技大学

1 引言

口译质量评估是口译研究的重要内容，与口译教学和口译能力培养等研究密切相关。但质量标准本身比较模糊（Hartley et al.,2004），只有在特定的情境中才能准确衡量（Bühler, 1986），且无统一、量化标准（Gile,1999）。口译比赛需要精准、客观地考察选手与口译相关的综合素质与能力，具有选拔性、现场性、权威性和观赏性等特点，评估结果受多种主客观因素的影响和制约。本研究通过I Forum 英语口译比赛评估，综合多种数据三角检验，考察不同评估主体的评估特点、差异及与口译能力的关系，为建立合理、有效的口译比赛评估体系提供了有益探索。

2 研究背景

2.1 口译质量评估

口译质量相关研究始于20 世纪70年代，涉及口译研究、口译培训和职业口译三个社会体系（Garzone，2002）。口译质量包含众多层面，如信息内容、语言运用、节奏掌握、场面和气氛控制、语境适应和跨文化知识的调动等（蔡小红，2007）。口译交际活动中参与者，包括客户、讲话人、译员、口译服务使用者或听众和同行，都是口译活动的评估主体，从不同角度评价口译质量（Pöchhäcker，2001）。

衡量学生译员的口译质量，通常根据译语可接受度、表达流畅度、表达和沟通能力、音质等确定可操作的量化标准（Kalina，2005）。许多高校、学者等对学生口译能力都有不同的打分体系，如“口译评分量化表”（陈菁，2003：69），“口译专业考试评分表”（杨承淑，2005：237），“信任评估模式”（胡庚申，1993：108）等。但评估主体单一，以录音录像评估为主，现场评估较少（刘育红等，2014），评估过程、评估细项和所占权重不尽相同，评估手段缺乏有效性且不易操作，容易忽略口译情景的影响，有一定主观性。

2.2 口译比赛评估

口译比赛是选拔优秀口译人才的渠道之一，彰显学生译员的风采，又能增进交流和学习，有助于促进学术交流、学科建设和行业繁荣。口译比赛评估既有教学评估的特点，考察学习过程中语言知识、技能方法和局部错误（蔡小红，2007），也有现场比赛的特点，评估选手的“译员能力”（王斌华，2007），其评估结果受赛题、赛制、评估主体、评分标准和现场气氛等因素的影响和制约。

以“海峡两岸”口译大赛和“中译杯”全国口译大赛为例。首届“海峡口译”大陆决赛的评分标准分为信息传递（60%）和综合表现（40%），前者按信息点密集程度赋予分值，后者分为译语质量、表述技能和其他。“中译杯”的评分标准分为信息内容（60%）、目标语表达（30%）和口译技巧和仪态（10%），涵盖双语能力、言外知识、口译技巧和心理素质等方面（王斌华，2011）。

两大比赛都邀请知名口译专家、教授、用人单位或高级译员等十余人左右担任比赛评委，都将信息列为最重要的评分项，但评估细项权重不一，且都未将观众纳入评估体系。决赛现场基本都座无虚席，不仅有各校的参赛师生，还有许多对口译感兴趣的学生或社会人员。他们对学生译员的表现有直接的现场反应，如掌声、笑声、议论声、甚至惋惜声等，影响现场气氛。如果能将现场观众合理纳入评估体系，评分会更有信度和代表性，因为评估人数较少会影响评估效度（Gile，1999），口译质量评估应当综合考察用户对口译服务的反馈（蔡小红、方凡泉，2003）。

3 研究方法

3.1 研究问题

本研究主要有两个研究问题：谁来评？怎么评？分别涉及评估主体和评价标准，每个问题可以分为若干小问题，详见表1。

表1 研究问题

3.2 I Forum评估设计

I Forum是笔者所在翻译系举办的英汉口译比赛，包含英汉/汉英交传，参与方包括该系相关教师、学生和观众，由教师担任讲话人和评委，学生担任译员和同行。现场口译评估主体有嘉宾评委、同行和观众。嘉宾评委主要是英语或翻译教师，相当于用户。同行是翻译系四年级学生，他们接受了较为系统的口笔译教育，相当于译员同行。观众为对口译感兴趣的学生和其他人士，如翻译系低年级学生、其他专业学生、访问学者等，相当于听众（Pöchhäcker,2001）。

不同的评估主体衡量口译的标准不同，打分权重也应有所差异。嘉宾评委都是笔者所在外语类高校教师，他们有丰富的教学、口笔译实践或相关研究经验，部分负责学校外事活动，有一定口译用人需求，既关心教学效果，也注重口译服务质量，翻译能力最高，所占权重为总分的50%。同行是学生译员的同学，从第二学期起进入翻译系学习，累计接受了10余门翻译课程训练，尤其通过“口译评估：理论与实践”课程掌握了一定的口译评估理论和研究方法，翻译能力居中，所占权重为总分的40%。观众人数较多，但大多数是低年级或其他专业学生，侧重学习、欣赏和借鉴，翻译能力有限，故所占权重为总分的10%。

根据口译用户评价标准（Kurz,2001；Kopczynski,1994；张威、柯飞，2008）、译员同行评价标准（Bühler,1986；Chiaro&Nocella,2004），并借鉴全国英语口译大赛的评估标准（王斌华，2011），考虑不同翻译能力的评估主体对评估标准的不同解读，形成了I Forum 评估体系，设计了嘉宾评估表、同行评估表和观众评估表，分别对应不同评估主体和翻译能力，包含不同的评估细项，每个细项权重不一（详见表2）。

从表2 可见，在I Forum 评估体系中，嘉宾表包含五个评估项：信息、表达、语境、应对和礼仪；同行表包含四个评估细项：信息传递、译语质量、语言表达和译员风度；观众表仅有一个打分和四个主观问题。译员和听众都认为信息内容是最重要的衡量标准，如忠实、连贯、准确和完整等（Kurz，1989；张威，2011；鲍刚，2005），因此嘉宾表和同行表都包括了“信息内容”和“表达”两个细项。口译比赛具有现场性和观赏性，译员的面部表情、眼神交流、肢体语言、仪态、体态都会影响交际效果和主观评价，因此“礼仪”也包括在嘉宾表和同行表中。“语境”和“应对”都属于重要的交传教学内容和考核参数（林郁如，1999），指的是译员能处理两种语言的文化差异，并能灵活应对。本届口译比赛的主题是“文化”，必然涉及较多中英文化差异，可能造成较大的理解或表达障碍，因此设立在嘉宾评估表中。同行属于“同伴评估”，与学生译员能力最相近，关注译语质量，因此将“译语质量”设为评估细项。观众虽然乐于参与，但只有一个简单打分，但包含四个简单问题，分别侧重译语质量、好与不好等主观感受，观众可以选择性回答。

表2 I Forum评估体系

除各项打分外，嘉宾表和同行表都有总体评价栏，方便评分者写下直观感受。译员满分为100分，由三类表得分相加构成。所有打分都采取1-10制，权重分数通过excel设定的计算公式算出。

3.3 研究对象

本文的研究对象是I Forum三类评估主体，即嘉宾教师、同行和观众。嘉宾教师共7位，拥有10年以上翻译或英语教学及相关研究经验。同行包括38 位翻译系四年级学生。观众有44 位，包括翻译系低年级学生，以及其他对口译感兴趣的学生、教师和社会人士等。在比赛开始之前，不同评估主体分别在指定区域入座，方便评估表的统一收发和统计。主持人利用赛前10分钟讲解评估细则，包括细项内容、评估要求、注意事项等，确保评估准确、顺利完成。

I Forum 邀请四位教授就“文化”主题发表15-20分钟演讲，由8位译员（两人一组）为讲话人提供英汉或汉英交传。讲话人和演讲题目提前两周告知译员。每位讲话人讲话过半时，更换组内译员。每个演讲完成后收一次评分表。讲话人、演讲题目、口译方向和译员安排详见表3。

表3 I Forum讲话人、题目和译员安排

3.4 数据收集

所有评分表由若干指定学生统一发放、收集和计算，数据使用PASW Statistics 18.0进行统计分析。此外，笔者还对总体评价内容进行汇总分析，并回访了部分评估主体，访谈内容全部录音并转写。比赛共收集了677份评估表，除去7份无效表格①漏打一个分数或以上，表格视为无效。，有效表格共670份，其中嘉宾表50份，同行表287份，观众表333份。

4 分析结果与讨论

4.1 评估表统计分析

4.1.1 描述性分析

对嘉宾表五个评估细项、同行表四个评估细项、观众表一个打分项的原始打分进行均值和标准差的描述性分析（详见表4），发现嘉宾表各评估项的均值在8.0-8.6 之间，同行表在7.8-8.0 之间，而观众表的均值只有7.42，观众表的标准差（1.18）位于嘉宾（1.1-1.5）和同行（0.9-1.2）之间。分析显示：嘉宾打分偏高，差异最大；其次是同行，差异最小；观众偏低，差异居中。

从表4 可见，嘉宾表中“语境”项的均值最高（M=8.62，SD=1.06），嘉宾普遍认为译员风格符合演讲风格，且能灵活处理文化差异。同行表中“信息传递”项的均值最高（M=8.02，SD=0.93），同行普遍认可译员对信息的处理。嘉宾表和同行表中的“表达”项均值都较低，且标准差都较高（M=8.08，SD=1.41；M=7.81，SD=1.12），说明嘉宾和同行认为译员的语言表述有待提高，且对译员语言运用能力的判断有较大差异。

表4 三类评估表描述性分析

4.1.2 信度分析

按权重计算出嘉宾分、同行分和观众分，进行信度分析后，我们发现克隆信度系数达到0.974，信度很好，三类主体评估体系较可靠（详见表5）。

表5 可靠性统计

4.1.3 差异性分析

根据评估细项权重算出嘉宾分、同行分和观众分，并进行配对样本T检验，发现嘉宾分-同行分、同行分-观众分、嘉宾分-观众分存在显著差异（p＜0.05），打分最高的为嘉宾打分，其次为同行打分，观众打分最低。这也符合前人研究，即不同评估主体，如口译教师与学生，可能导致打分差异（Lee，2008）(详见表6）。

表6 配对样本检验

4.1.4 波动系数分析

为了解三类评估主体对具体每个译员的打分差异，将三类主体分数进行波动系数分析（详见图1）发现，评估主体对4号（RSD=0.072）和6号译员（RSD=0.058）打分差异大。

图1 波动系数

打分波动与译员的现场表现有密切关系。译员4的口译方向是英译汉，负责第二位讲话人的后半部分。相比搭档译员3，译员4的口译时间稍长，超过讲话的一半；麦克风一直朝着译员3，没有调整到合适的位置，影响了信息传递效果；口译风格比较中规中矩，与译员3灵活大胆的风格形成较大反差。但当讲话人用较快语速读幻灯片上的信息时，译员4虽背对着屏幕，无法看到幻灯上的内容，但仍能保持镇定，较准确地译出了讲话人大部分密集信息。译员必须根据现场情况、自身能力、听众期待和雇主要求等因素进行取舍（Grbic，2008），这可能是导致嘉宾、同行和观众打分差异较大的原因。

译员6 负责为第三位讲话人做汉英交传，主题内容是佛教文化。讲话人语速适中，声音清晰，语言优美，娓娓道来佛教中的文化。演讲中出现大量与佛教有关的历史文化术语、习语或谚语等，如“觉悟”“大同世界”“诸恶莫做，诸善奉行”等，有一定难度。而译员6并没有抓住讲话人的思路和逻辑，很多时候一句带过，漏译较多，拘泥于字面，声音小且语速急，无意义填充词多，与观众没有眼神交流，过于严肃的表情与讲话人“聊一聊”式的语言风格相去甚远，这些都影响了口译效果，导致现场一度出现较大的议论声。尽管如此，译员6还是坚持到最后译完。口译质量受制于具体交际语境下相关任务的要求、译员重构语篇的主观努力、口译服务对象的期待满足程度（蔡小红、方凡泉，2003），这些因素导致评估出现较大差异。

4.1.5 回归分析

为了解译员得分与口译能力的关系，赛前对8位选手进行了交传测试，采用CATTI口译二级试题，使用NewClass系统测试录音。成绩由两位口译教学经验在10年以上、口译实践经验丰富的教师共同评定。两位教师评分相关系数分别高达.93和.91,因此采用两人的平均分作为学生的口译能力。

本研究将8 位译员作为研究对象，将根据权重算出的嘉宾分、同行分和观众分作为自变量，译员口译能力作为因变量，进行线性回归分析。分析发现嘉宾分（B=0.536, p＜0.05）和同行分对译员能力有显著性（B=0.386,p＜0.05）（详见表7）。这说明嘉宾和同行能显著预测选手译员的口译能力，嘉宾影响较大，同行影响较小。嘉宾达到了口译比赛中嘉宾评委的要求。同行表现也符合前人研究，即经过一定的训练，学生同行能较为准确地评价自己和同伴的中英双向口译表现（Han，2018）。

表7 模型系数

4.1.6 无权重评估表再分析

为考察评估细项权重设置是否具有统计上的差异，本文将三类评估主体的打分按原始分进行描述性、信度、差异性、波动系数和回归统计分析，发现除回归分析有所不同外①无权重分回归分析发现，只有嘉宾分对选手的口译能力有显著性（B=0.980，p＜0.05）。，其余统计分析结果都趋同。评估细项的权重只影响选手译员总分（不影响排名），这导致观众分无法显著预测选手的口译能力，但并不影响其他统计结果。评估细项的权重在口译评估中本无定规，标准不一，实际上影响有限，因此可以考虑取消评估细项的权重，只使用1-10分的原始分计算总分。

4.2 总体评价栏汇总分析

4.2.1 填写率比较

嘉宾表、同行表和观众表的总体评价填写率比较高，分别为80%、91%和81%①总体评价栏中只要填写了内容就算已填，已填份数除以表格总数即为填写率。（详见表8）。其中，同行填写率达到91%，而且非常重视主观评价。观众表的第四个问题“您对该译员还有哪些其他评价或建议？”其填写率仅为49%，与其他三个问题90%左右的填写率存在较大差距，这说明观众对“其他问题或建议”参与度不高，设立的意义不大。

表8 嘉宾表、同行表和观众表总体评价填写率

4.2.2 嘉宾表与同行表总体评价

本研究将嘉宾表和同行表的总体评价分别归纳、汇总，发现主要有两个相同点。首先，各表的总体评价大多是对译员最深刻印象的主观描述，也有部分口译错误或不当之处的罗列，在一定程度上体现了各评估项的打分情况，使得客观打分，尤其是波动较大的分数有主观解释作为支撑。如某嘉宾表中“仪态得体，语言流畅，应对良好”就是“礼仪”“表达”和“应对”这三个评估项的具体体现，这三项的打分都是10分。某同行表的总体评价中，“眼神交流太少，有摸耳朵的小动作，译语风格偏正式，与讲话人的语言风格偏差大”等，就是“译员风度”和“译语质量”这两个评估项的具体体现，该两项的打分都是6分。其次，嘉宾表和同行表中都有少部分内容是超出各评估项范围的，如嘉宾表中“口译意识好，气场强，素质全面，声音不够大”涉及口译意识和个人特质。同行表中“充分利用幻灯片，麦克风使用习惯不好，有一处笑场”等，涉及口译策略、设备使用和职业素养等。这些都丰富了对选手表现的评价。

嘉宾表和同行表的总体评价也有不同之处。嘉宾表中概括性描述居多，如“译字不译意，准确性有待加强，语速过快，表达较流畅，知识面较广”等，且有不少鼓励性话语，如“表现非常好，心理素质好，迎难而上的精神值得鼓励”等。这与教师不同于学生的身份差异相符合。相比而言，同行的总体评价更丰富、细致和多样（Lee，2017）。同行评价主要有以下三大特点。一是同行评价不吝啬正面的感性鼓励，如有的同行写道，“虽然口译时间较长，但能沉着应对，逻辑依旧清晰，用词贴切，实属难得！！真好！”。二是同行评价详细指出译员的不妥或不足之处，分析其原因，有的甚至还提出解决办法，如“有的地方可以打破中文结构，不要过于贴近字面译，有些可以不用译”等。三是同行评价仁者见仁，智者见智，有矛盾见解也有疑惑之处。如有第二位讲话人用英文介绍教育体系，部分信息密集显示在幻灯片上，语速快且信息量大，而译员背对屏幕无法看到幻灯片，且笔记也没记全，因此只好站起来侧身指向屏幕说“具体内容请看幻灯片”。对此，有的同行认为译员临场应对恰当，勉强达到了沟通效果；也有的认为不恰当，“现场的听众应该是看不懂英文的，所以就算译员让观众看也没用”；还有的提出疑惑，“译员没有记住讲话的内容，而采取了灵活的处理方式，让听众看幻灯片，究竟是否可取？”同行评价体现了同行一定的专业素养和评价能力，虽不能完全达到教师水准，但仍能较准确地评价自己和同行的口译表现（Han，2018），体现了口译质量评价对学生学习的促进作用（蔡小红，2007）。

4.2.3 观众表四个问题汇总

将观众表的四个主观问题汇总和归纳后发现，观众的回答体现出专业与业余共存、对译语质量理解不一、关注点广泛等特点，较好地描绘出“描写的口译质量”（Pöchhäcker，1994：240）。虽然大多数观众的回答都是泛泛的感性描述，但也有少数观众使用了较多专业词汇，如“语音、语和调语速都不错，声音很清晰，音量适中，临场反应也不错，有大量列举时会总结，较难处理的地方就译意思，仪态风度也很好”等。在“欠妥或错误”问题栏中，部分观众罗列的漏译或误译等实例，有些与嘉宾和同行列出的相吻合。这些都显示出部分观众拥有较高的口译素养。

观众对“译语质量”的理解也很丰富，如“语流一般”“偶尔会改口，与讲话人时差太长，但始终很镇定”“质量较高，意思传达得很清楚，声音洪亮、清晰，面部表情也不错，保持微笑”等。这些评价将语言、副语言、身势语都归入评价范围（Poyatos，2002），比单纯依靠声音的录音评估更全面（刘育红等，2014）。口译质量评估不是孤立的，是动态的，与口译能力、口译场景乃至社会文化环境都相关（王斌华，2012）。还有部分观众的评价集中在译员的妆容、指甲、头发、服饰等外表，如“妆画得过浓，显得难以亲近，指甲油过亮，头发放下可能给人感觉更佳，着装不够正式”等，较少深入到信息层面。普通观众对译员的评价常常基于主观感受，标准多来自自己的单语言环境（Kohn&Kalina,1996），因此评价体现出较大差异。

4.2.4 回访分析

赛后，笔者随机访问了两位嘉宾教师、若干同行学生和部分观众，主要了解三个问题：（1）打分的额外因素；（2）填写总评栏的原因；（3）观赛感受。两位嘉宾教师表示，两人都是第一次观看翻译系的口译大赛，认为译员的表现远超自己的预期，译员能面对众多观众和同行应对较高难度的文化专题口译实属不易，打分偏高也算是对译员的鼓励。同行则反映，译员与自己的亲疏关系在一定程度上会影响打分。另外，嘉宾和同行都反映，现场气氛和观众反映会影响自己打分。

同行表示，首先，由于自己经历了四年的系统口译训练和理论熏陶，所以能从更多的角度理性反思译员的表现，有内容可写。其次，通过填写主观评价，同行还能促进自己理清思路，在评价别人的同时，也思考自己应该如何做才能更好。学习者不是被动接受知识，而是自己学习行为的“计划者、评价者、激励者、管理者、组织者、建议者”（Gardner &Miller，2002：14）。最后，同行认为汇总所有嘉宾、同行和观众的意见和建议给译员，使译员能详细、具体地了解自己的表现，对译员大有裨益。评估主体不再限于教师，而是同伴评价、观众评价、自我评价等多方主体参与，充分发挥评价的激励机能，以更好地提升学生的自主学习能力（郭继荣、戴炜栋，2011）。

部分翻译系低年级学生反映，来现场观摩比赛是难得的学习机会，能近距离观摩和欣赏优秀学生译员的素质和能力，激发了学习的动力和热情。有些观众本来只是想观摩，没想到也能参与评估，觉得责任重大，有较强的参与感。

5 结论

本研究考察了I Forum 模拟口译比赛的评估，收集三类评估主体的打分、总体评价和赛后采访数据，通过分析发现嘉宾表、同行表、观众表三表联合的评估体系比较可信，较好地完成了口译现场评估的任务，并充分体现了各类评估主体的特点。三类评估主体在打分上呈现出显著性差异，且都与评估主体本身的特点、译员表现和现场状况等密切相关。嘉宾打分偏高且差异大，能显著预测选手译员的口译能力，总体评价填写率较高，体现出专业、负责、欣赏、关注整体表现等特点，是口译评估的权威和决定力量。同行打分居中，差异最小，在一定条件下能显著预测选手译员的口译能力，总体评价填写率最高，体现出细致、具体、多面、偏重鼓励等特点，是口译评估的有益补充。观众打分最低，差异居中，主观评价填写率较高，评价内容丰富多样，体现出多视角、专业与业余共存、注重学习和参与等特点，能影响其他评估主体的打分，是口译现场评估的重要参与者。

嘉宾表、同行表和观众表对选手成绩的权重设计体现了三类评估主体打分的不同特点和差异，有一定的合理性。嘉宾表和同行表中的评估细项的权重稍微影响选手成绩，但不影响统计结果，可以尝试去掉权重，仅按评估细项的原始分1-10分计算成绩。总体评价栏能有效佐证客观打分，还能提供更详细、全面的译员描述评价，对选手译员的现场表现也勾勒得更丰富、立体和完整。本研究的主要不足在于样本有限（这由口译比赛选手数量决定），且只评估了一个口译方向的现场表现，只涉及会议口译，研究结论有一定的局限性。其他类型的口译比赛的评估主体及权重、评估项设计、评估效度等都值得进一步研究。