大规模语言测试翻译任务内容效度研究
2023-10-24徐鹰邓雅玲
徐鹰 邓雅玲
[摘要] 翻译任务是我国大规模语言测试的重要组成部分,但相关效度研究匮乏。本文基于Bachman和Palmer所提出的任务特征模式,以2017-2021年大学英语四、六级翻译任务为样本,从语篇输入和预期回答两个维度探究该任务的内容效度。研究结果表明,四、六级翻译任务整体内容效度较高,但同时也存在题材分布不均、体裁单一、六级翻译难度偏低以及考试构念表征不充分等问题,以上发现对进一步提高翻译任务质量具有重要参考意义。
[关键词] 大规模语言测试;翻译任务;内容效度;语篇输入;预期回答
[中图分类号] H319[文献标识码] A[文献编号] 1002-2643(2023)03-0026-12
Examining the Content Validity of Translation Task in Large-Scale
Language Tests: A Case of CET
XU Ying1DENG Yaling2
(1. School of Foreign Languages, South China University of Technology, Guangzhou 510641,
China; 2. Longteng School, Shenzhen 518131, China)
Abstract: The translation task is an important part in the large-scale language tests in China, but there is a paucity of empirical research on its validity. Based on the framework of language task characteristics proposed by Bachman and Palmer, this paper aims to examine the content validity of CET-4 and CET-6 translation tasks from both characteristics of the input and characteristics of the expected response by using CET translation tasks from 2017 to 2021 as samples. The results show that the translation tasks of CET have a fairly high degree of content validity. However, there still exist some problems including the uneven distribution of subjects, the lack of genre diversity, the low degree of difficulty of CET-6, and the under-representativeness of the stated construct. The results could be useful for improving the quality of translation tasks in large-scale language tests.
Key words: large-scale language test; translation task; content validity; characteristics of the input; characteristics of the expected response
1.引言
翻译测试作为评估学生翻译实践能力的一种重要方法(吕晓轩,2016),已广泛应用于各类外语考试。但目前对于翻译测试的研究仍然不足,尤其缺乏理论探讨和实证研究(杨冬敏、穆雷,2016:48)。鉴于此,本文拟探究以大学英语四、六级考试(以下简称为四、六级)为代表的大规模语言测试翻译任务内容效度,以期为提高翻译测试质量提供參考。
四、六级是教育部主办、教育部考试中心主持和实施的一项大规模标准化考试。根据《全国大学英语四、六级考试大纲》(2016年修订版)(全国大学英语四、六级考试委员会,2016)(以下简称为《考试大纲》),其考试目的为参照《大学英语教学指南》(教育部高等学校大学外语教学指导委员会,2015)(以下简称为《教学指南》)设定的教学目标对我国大学生英语综合运用能力进行科学的测量,并“为用人单位了解我国大学生英语水平提供参考依据”。自1987年实施以来,四、六级经历了多次改革以顺应我国高等教育的新形势。目前,四、六级笔试包括听力、阅读、翻译、写作四部分。翻译任务为1996年新增,在2006年固定为常设题(康立新,2014:166),考试题型从句子英译汉改为句子汉译英(陆仲飞,2014:72),2013年题型再次调整为段落、语篇汉译英,分值从5%上调至15%,且首次将中国元素融入考试材料(金艳、杨惠中,2018:31),旨在考查学生跨文化交际能力。由此可见,随着我国对高层次翻译人才需求的增加,翻译任务在语言测试中的重要性日渐凸显,但翻译试题质量尚待深入研究。本文将根据《教学指南》和《考试大纲》中对翻译部分的要求,参照Bachman和Palmer(1996)的任务特征模式,考察其内容效度。
2.研究设计
2.1 理论依据
Bachman和Palmer(1996)通过总结关于测试任务的相关文献,提出了任务特征模式,包括测试环境、测试说明、语篇输入、预期回答以及语篇输入和预期回答的关系五个维度。测试环境涵盖考试场地的客观环境、涉及人员以及考试时间。测试说明包括试题结构、试题指令、考试时间分配以及评分方式。语篇输入即材料的呈现和输入的语言:前者指材料呈现方式、使用的语言、长度和速度等特征;后者则包括材料的主题和语言特征,其中语言特征可细分为组织特征(词汇、句法、衔接等)和语用特征(语域、文化指涉等)。预期回答指考生对测试做出的预期反应,包括反应形式和类型等。语篇输入和预期回答的关系包含两者相互影响的程度、相关范围的大小以及是否有直接关系。该模式已广泛用于语言测试开发,是研究考试内容效度的重要理论依据(董杰、冷丽敏,2020:12)。
2.2 研究对象
本研究以2017—2021年共9次四、六级的54篇翻译任务输入材料及其参考译文为样本,其中每个级别翻译材料各27篇。该任务考查形式为段落汉译英,考试时间为30分钟,分值比例为15%。该考试每年举行两次,每个考次备有三套翻译试题平行卷(多题多卷)。
2.3 研究步骤
内容效度指“测试是否考了考试大纲规定的内容”,可通过对试题的覆盖分析进行验证(李筱菊,2001:38)。因此,本文从题材、体裁、难度、翻译速度、题型、考核技能六个方面考查四、六级翻译任务的内容效度。根据《考试大纲》要求,四级翻译参照《教学指南》中翻译能力的基础目标,六级则参照提高目标。在任务难度方面,结合英语“阅读分级指难针”(金檀等,2021)(以下简称为“指难针”)以及《考试大纲》词表对译文词汇和句法难度进行分析,以每个考次三套平行卷的难度平均值衡量该考次难度水平。翻译速度通过计算翻译时长和每个考次每套试卷翻译任务的文本字符数得出。题材、体裁、题型及考核技能则邀请两位语言测试专家(均拥有博士学位和高级职称,具有丰富的四、六级阅卷经验)进行判断;为保证结果的准确性和一致性,他们在熟悉研究内容和标准后,先对54份样本进行独立分析,再对有分歧的部分进行讨论后达成共识性结论。
2.4 分析框架
本研究基于任务特征模式,从语篇输入和预期回答两个维度考查翻译任务内容效度,分析框架见表1。
如表1所示,首先,语篇输入维度主要涉及题材、体裁和难度。在题材方面,《考试大纲》规定翻译“题材熟悉”,“段落的内容涉及中国的文化、历史及社会发展”。此外,《教学指南》提高目标还要求考生能够翻译与所学专业或未来所从事工作岗位相关的文献资料。据此,本文将题材分为“中国文化”“中国历史”“中国社会发展”和“其他”四类。在体裁方面,《考试大纲》指出四、六级命题语料体裁多样,包括记叙性、说明性、议论性文本等。两位专家首先就题材和体裁分类进行讨论,明确分类标准,再分别确定54份输入材料的话题并将其归类,以观察各类题材和体裁在试题中的分布情况。在难度方面,《考试大纲》规定四、六级翻译材料“不含生僻的专业词汇或习语”,语言难度分别为“较低”和“中等”。本研究使用“指难针”检索参考译文中的生词并计算词汇等级。为保证研究的准确性,删除试题中已给出的英文提示词,并在《考试大纲》词表中对超纲词汇进行二次检索,查询是否为派生词、复合词等。同时通过“指难针”计算译文最长句长和句法难度,并结合《中国英语能力等级量表》(中华人民共和国教育部,2018)判断任务难度等级。
其次,预期回答维度主要包括翻译速度、测试题型及考察技能覆盖情况。在翻译速度方面,《考试大纲》要求四、六级考生在半小时内分别翻译长度为140-160和180-200个汉字的段落。通过计算翻译时长和文本字符数,确定翻译速度是否符合要求。翻译时长按翻译任务考试时长计算,即30分钟;文本长度采用Microsoft Office Word字数统计作为计算工具,英文提示词不计算在内。在测试题型方面,根据《考试大纲》中四、六级翻译要求“将汉语段落译为英文”的规定,四、六级翻译题型均为段落汉译英。在考核技能方面,《考试大纲》要求考生能将句子、语篇层面的汉语信息转换成英语,四级考生能运用基本的翻译策略,六级考生能较好地运用翻译策略。但具体策略并未列出,因此本文参考卢敏等(2007:60)提出的英汉互译常用方法和技巧:1)重要的和实质性的内容翻译(人名、地点、时间、专有名词等);2)主要的译词技巧(词类转移法、增词法、重复法、省略法、正反表达法等);3)主要的译句技巧(分句、合句、被动语态、定语从句、长句等);4)习语、成语和俚语的翻译。结合《考试大纲》要求以及四、六级翻译输入材料的特点,笔者对该框架进行了调整,删除未在试题中体现的翻译方法(包括习语、成语和俚语的翻译等)。
3.结果与讨论
3.1 语篇输入维度
语篇输入维度指考试任务输入材料的特征,本文从题材、体裁和难度三方面进行分析。
3.1.1 题材
对输入材料进行分析发现,近五年来四、六级话题均与中国相关(见表2),包括青海湖简介、手机对社会的影响、大兴国际机场简介、汉语的优点和影响等。这些话题多涉及中国传统文化或地理知识、中国社会热点等,为大部分考生所熟悉,符合《考试大纲》要求。但是,考试中未涉及《教学指南》提高目标要求的其他专业文献资料,这可能是因为四、六级属于全国性大规模考试,考生专业领域不同,若考试任务涉及不同领域知识,可能产生考试偏颇,难以保证考试公平性。
此外,四类题材数量分布不均(见图1)。中国文化题材占比最高,共21篇;中国社会发展及其他题材次之,各占15篇;中国历史题材占比最少,仅出现于2017年6月六级考试。综合来看,六级各类题材分布相对平均;四级差距较大,中国文化题材占比超过一半,中国历史题材却并未涉及。值得一提的是,四、六级每个考次的三套平行试题题材相同,保证了平行试题的一致性。
考虑到全球化背景下中国文化“走出去”的需要,四、六级翻译任务将内容集中在与中国相关的题材上,有利于提高学生对中国文化和国情的重视,增强学生的文化自信。但各类题材分布不均,中国历史题材较少,可能会减少考生对该类文本的关注,因此可适当增加。
3.1.2 体裁
经分析发现,本研究所选翻译材料均为说明文,体裁较為单一,缺少记叙性、议论性文本。说明文是一种信息类文本,在大规模考试中,评分员可采用各种评分策略,将信息和语言准确性作为评分的重要标准,有助于提高评分信度和评分效率(徐鹰、叶美琳,2020:48)。但体裁的单一可能会使师生在日常教学中过分重视说明性文本的翻译练习,而忽视其他体裁,产生负面的反拨效应。此外,对不同体裁文本应采取对应的翻译策略,单一体裁的设置既难以全面检测考生的翻译能力,也不利于学生掌握各类翻译策略,因此可增加其他体裁文本。
3.1.3 难度
影响翻译任务难度的因素众多,可大体分为译者因素和非译者因素两类(Meshkati,1988)。此外,也有学者从非译者维度探究翻译难度问题,如Baker(2011)从词汇、语法、语篇和语用四个角度测量翻译难度。由于篇幅限制,本文参考Baker理论框架,仅从非译者维度,采用“指难针”分析参考译文的词汇及句法难度。“指难针”包含三个核心模块:词汇分析、句法分析和难度定级,能够依据《义务教育英语课程标准》《普通高中英语课程标准》《全国大学英语四、六级考试大纲》与《大学英语课程教学要求》中的词表,统计文本的词汇范围以及词频等,标注句长、从属子句与复杂短语等。同时,此工具已与《中国英语能力等级量表》的三级至七级对接,通过对照难度值和“指难针”难度等级报告图(见图2),能够确定文本难度。当然,该软件仅从译文角度测量翻译文本难度,其他难度因素未考虑在内,因此不能作为判断翻译难度的唯一标准,但可作为重要参考。
首先,词汇难度通过分析超纲词和文本词汇等级来确定,其量化指标包括6个词表的覆盖率(中考阶段、高考阶段、大学四级、大学六级、考研阶段和超纲词)。综合“指难针”检测结果以及《考试大纲》词表发现,大部分样本中都存在超纲词,但考生可能不熟悉的部分专业词汇已给出英文提示,如2020年9月四级第三套翻译任务中直接提示“茅台”英文为“Moutai”,同考次六级第三套中“《红楼梦》”也给出译文“Dream of the Red Chamber”。除此类提示词外,其他超纲词难度适中,且每篇所含数量在3个以内(见表2)。对超纲词进行二次检索发现,其中大部分为派生词(如unimaginable)、复合词(如freshwater)或与百科知识相关词汇(如feudal),难度适中,考生可运用翻译策略,结合已有语言或背景知识完成翻译。从语言测试角度看,在大规模语言测试翻译任务中出现个别超纲词具有以下理据:1)在真实翻译场景中,遇到超纲词不可避免,因此在翻译测试中设置此类词具有一定情境真实性;2)PACTE团队提出的多元翻译能力模式(PACTE,2008)将翻译能力分为六类——双语次能力、超语言次能力、翻译知识次能力、工具次能力、策略次能力和心理生理要素。此类超纲词不仅考察了考生运用各种策略解决翻译问题的能力(策略次能力),还考察了考生对文化知识和百科知识的掌握(超语言次能力);3)从命题角度来看,设置少量超纲词能使翻译任务保持一定的难度,有利于提高区分度。从总体词汇难度上看(见图3),四级翻译难度(平均值=4.87,标准差=0.49,最大值=5.67,最小值=4.12)处于高考至四级水平之间;六级翻译难度(平均值=6.02,标准差=0.59,最大值=6.02,最小值=4.31)处于高考至六级水平之间。我们采用独立样本t检验分析四、六级翻译词汇难度是否有显著差异,结果(t=-2.270,df=52,p<0.05,Cohens d=0.62)显示六级翻译词汇难度整体显著高于四级。需要指出的是,尽管不同级别翻译任务的词汇难度整体有显著差异,但少数考次(如2018年6月和2021年6月)差异很小,个别考次甚至出现四、六级词汇难度倒挂(如2017年12月),因此需要在命题时增强对不同级别词汇难度的控制。
其次,句法难度主要参考译文最长句长及句法难度等级,其量化指标包括每个子句中的限定性从属子句数、复杂名词短语数、非限定性动词短语数、平均子句长度和平均句子长度五个指标。在句长方面,四级最长句长基本处于20-32词之间;六级译文最长句长整体高于四级,在18-42词之间,样本间差异较大。在句法难度等级方面(见图4),四级句法难度(平均值=4.11,標准差=0.28,最大值=4.67,最小值=3.81)属于中考至高考等级,难度偏低;六级句法难度(平均值=4.43,标准差=0.42,最大值=5.25,最小值=3.88)基本处于高考至四级等级,难度略高,但仅有3篇接近六级水平(分别为5.97、5.83、5.97)。独立样本t检验结果(t=-2.139,df=41.730,p<0.05,Cohens d=0.60)说明六级翻译句法难度总体显著高于四级翻译。但和词汇难度类似,少数考次(如2017年6月、2018年12月和2020年12月)差异很小,且个别考次出现四、六级句法难度倒挂(如2018年6月),因此在命题时需加强对不同级别句法难度的控制。
3.2 预期回答维度
预期回答特征的研究内容与语篇输入特征相似,但研究主体为考生对任务做出的反应,结合《考试大纲》和翻译任务的特点,本文选取翻译速度、测试题型以及考察技能三方面进行研究。
3.2.1 翻译速度
《考试大纲》规定四、六级翻译任务考试时长均为30分钟。通过Microsoft Office Word计算每篇翻译输入材料字数发现,四级翻译速度为每半小时139-162个汉字(平均值=152.07,标准差=6.75);六级为178-203个汉字(平均值=189.41,标准差=6.58),具体分布情况见图5。因此,四、六级翻译速度基本符合每半小时140-160个汉字和每半小时180-200个汉字的规定,分别仅有3篇和5篇低于或超过该标准,但字数均在3个以内,对翻译速度影响较小。独立样本t检验结果(t=-20.570,df=52,p<0.001,Cohens d=5.60)显示四级翻译速度显著低于六级。综上,四、六级翻译任务速度整体符合《考试大纲》要求。
3.2.2 测试题型
近年来,段落汉译英为四、六级翻译任务的主要题型。与过去的单句翻译相比,“段落翻译能更全面地测试学生的语言交际能力”(陈志杰等,1998:32)。庄起敏(2006:58)也指出,篇章翻译能提高考试效度,更好地反映考生的翻译综合能力,例如语言能力、翻译技巧、文化素养等。汉译英的考查形式则能更好地反映考生的英语交际能力,避免考生因汉语水平或文化素养水平等较低而影响考试成绩。但是,段落翻译存在评分主观性大,覆盖面过窄,试题内容难以检测所学知识和技能等局限性(肖维青,2010:172)。因此,多种题型并存才能保证评分的客观性和一致性(李家春,2013:118)。此外,《教学指南》基础目标明确指出,学生应具备英汉互译的能力。翻译测试的反拨效应可能会致使教师在教学中过分重视汉译英的训练,忽略对学生英译汉能力的培养。不难发现,目前四、六级翻译题型虽符合《考试大纲》要求,但段落翻译具有一定局限性,汉译英题型无法完全满足《教学指南》中对学生英汉互译能力的培养要求,存在考试构念表征不足的问题,建议增加英译汉试题。
3.2.3 考核技能
根据对参考译文的分析,本研究中的54篇四、六级翻译任务考察了多种翻译策略(表3),符合《考试大纲》要求。结合《中国英语能力等级量表》(中华人民共和国教育部,2018)中的笔译能力构念发现,所考察的三类翻译技能体现了:1)双语交际能力,即能否准确识别两种语言之间的异同以实现译文的动态对等;2)笔译策略能力,主要表现在执行策略,即发现翻译问题并采用适当的翻译技巧;3)百科知识,主要体现为重要的和实质性的内容翻译。可见,翻译任务考核内容符合考试构念和《考试大纲》要求。但四、六级翻译任务的评分标准主要包括是否准确传达原文的意思、用词是否准确以及是否存在语言错误等,并未涉及具体的翻译策略。这可能是因为以“忠实”和“通顺”作为判断翻译质量的基础有助于提高评分信度和评分效率(徐鹰、叶美琳,2020:48)。
4.结论
本文以Bachman和Palmer(1996)的任务特征模式为框架,从语篇输入和预期回答两个维度分析了2017—2021年期间四、六级翻译任务的内容效度。研究结果表明该任务具有较高的内容效度,但也存在一些不足。在语篇输入方面:1)文本题材符合《考试大纲》的要求,涉及中国文化、历史和社会发展,但分布不均;2)体裁均为说明文,过于单一;3)难度基本符合《考试大纲》规定,不含难度过高的生词,但存在个别考次六级难度低于四级的情况。在预期回答方面:1)四、六级翻译速度基本处于《考试大纲》要求范围内;2)试题题型按照《考试大纲》规定,为段落英译汉,但《教学指南》提出学生应具备英汉互译能力,因此存在构念表征不足的问题;3)任务考核技能覆盖面广,涉及专有名词、词类转移、被动语态、定语从句等多种翻译技巧,考察了多种翻译能力,符合《考试大纲》的要求。
基于上述分析,为满足大规模考试的需求并发挥考试的正面反拨效应,本文建议:1)增加四、六级翻译文本题材多样性,减少对中国文化和社会发展的倾向性;增加其他体裁,以进一步考查考生的双语交际能力(包括识别各类文本特征,运用衔接和连贯手段实现语言层面转换的能力);2)加强任务难度的控制,适当提高句法难度;3)增加英译汉题型。
本文对四、六级翻译难度和考核策略的研究仅以官方参考译文为研究对象,只对文本进行分析,具有一定局限性,未来可进一步收集其他证据(如考生和评分员的认知和感受)对以四、六级考试为代表的大规模语言测试翻译任务的内容效度进行更深入的研究。
参考文献
[1]Bachman, L. F. & A. S. Palmer. Language Testing in Practice[M]. Oxford: Oxford University Press, 1996.
[2]Baker, M. In Other Words: A Coursebook on Translation (2nd ed)[M]. London: Routledge, 2011.
[3]Meshkati, N. Toward development of a cohesive model of workload[A]. In P.A. Hancock & N. Meshkati (eds.). Human Mental Workload[C]. Amsterdam: North-Holland, 1988. 305-314.
[4]PACTE. First results of a translation competence experiment ‘knowledge of translation and ‘efficacy of the translation process[A]. In J. Kearns (ed.). Translator and Interpreter Training: Issues, Methods and Debates[C]. London: Continuum, 2008. 104-126.
[5]陳志杰, 肖红, 杨默荻. 段落汉译英作为大规模标准化考试题型的可行性[J]. 外语界, 1998, (3): 32-36.
[6]董杰, 冷丽敏. 日语专业四级考试听力理解内容效度验证研究——基于文本材料的语言输入特征[J]. 日语学习与研究, 2020, (3): 11-19.
[7]金檀, 陆小飞, 郭凯, 李百川, 刘丰恺, 邓永超, 吴金城, 陈刚. 英语阅读分级指南[DB/OL]. 2018. https://www.languagedata.net/tester.[2021-08-20]
[8]金艳, 杨惠中. 走中国特色的语言测试道路:大学英语四、六级考试三十年的启示[J]. 外语界, 2018, (2): 29-39.
[9]教育部高等学校大学外语教学指导委员会. 大学英语教学指南[Z]. 北京: 高等教育出版社, 2015.
[10]康立新. 关于大学英语翻译教学的再思考——基于教学大纲的对比分析[J]. 黑龙江高教研究, 2014, (8): 165-167.
[11]李家春. 翻译测试中的能力界定与信度效度评估[J]. 西安外国语大学学报, 2013, (2): 117-121.
[12]李筱菊. 语言测试科学与艺术[M]. 长沙: 湖南教育出版社, 2001.
[13]卢敏, 刘琛, 巩向飞. 全国翻译专业资格(水平)考试英语口译试题命制一致性研究报告[J]. 中国翻译, 2007, (5): 57-61.
[14]陆仲飞. 大学英语需要从“教学翻译”向“翻译教学”过渡——评析“大学英语四、六级考试新题型”中的段落翻译[J]. 上海翻译, 2014, (2): 72-74.
[15]吕晓轩. 翻译能力评分量表的设计与开发[J]. 外语学刊, 2016, (3): 137-140.
[16]全国大学英语四、六级考试委员会. 全国大学英语四、六级考试大纲(2016年修订版)[Z]. 上海: 上海交通大学出版社, 2016.
[17]肖维青. 翻译测试的信度研究[J]. 广西民族大学学报(哲学社会科学版), 2010, (2): 171-174.
[18]徐鹰, 叶美琳. 翻译测试的评分策略研究——基于CET-4翻译任务[J]. 中国考试, 2020, (6): 43-50.
[19]杨冬敏, 穆雷. 翻译测试的学科定位再探讨[J]. 外语教学, 2016, (5): 48-51.
[20]庄起敏. 对翻译作为英语能力测试手段的分析与思考[J]. 外语界, 2006, (3): 55-59.
[21]中华人民共和国教育部. 中国英语能力等级量表[S]. 北京: 高等教育出版社, 2018.
(责任编辑:葛云锋)