从双语平行语料库到翻译记忆库
2012-04-08李毅鹏
李毅鹏
(东莞职业技术学院 应用外语系,广东 东莞 523808)
从双语平行语料库到翻译记忆库
李毅鹏
(东莞职业技术学院 应用外语系,广东 东莞 523808)
双语平行语料库是一种独特的语料库,专门用于研究双语翻译,培养和训练翻译人员,提升翻译教学与实践水平。翻译记忆库最主要存在于计算机辅助翻译系统中,属于一种“简单”的语料库,其原理、结构和作用与双语平行语料库有许多相同之处,将对此进行深入探讨。
双语平行语料库;翻译记忆库;翻译研究
一 引言
语料库与翻译记忆库均属于语言数据库。语料库先于翻译记忆库出现,语料库出现之初主要应用于语言学领域,如词性、句法、语义、二语习得、修辞和辞典编撰等研究。随着语料库规模的扩大以及相关技术的成熟,其他与语言相关的领域也相继运用语料库对一些课题进行研究,如新兴的语料库翻译学就是其中一个典范,语料库为研究翻译显性做出了巨大贡献。语料库,尤其是双语平行语料库,在翻译实践方面的应用潜力也十分巨大。翻译记忆库则是计算机辅助翻译系统的核心和翻译工作站的主要部分,从广义来讲,它属于一种“简单”的双语平行语料库,与普通双语平行语料库在结构和应用等方面都有许多相似之处,在发展过程中,两者相互促进,相互借鉴,互补不足。
二 双语平行语料库
语料是语言的记录,是研究语言和翻译的重要素材。按照一定的语言原则,运用随机抽样方法收集自然出现的连续的语言,运用文本或话语片段建成的具有一定容量的大型电子文本库就是一个语料库。[1]语料库主要分为三类:可比语料库、多语语料库和平行语料库。多语语料库用于研究翻译文本的风格,为研究翻译文本提供有效的参考系数;可比语料库在翻译研究中最具应用潜力,主要用于研究深层次的翻译问题,如翻译规范性等;平行语料库,主要有词语级别、句子级别和段落级别平行语料库,同时它还分为单向平行语料库和双向平行语料库,其主要应用于翻译实践、翻译教学、翻译研究、译员培训、词典编撰和机器翻译等领域,是与翻译领域最接近的一种语料库。
双语平行语料库与其他语料库最大区别在于所收集的语料类型和所涉及的语料处理过程。双语平行语料库收集的都是原语与目的语一一对应的双语语料,包括词词对应,句句对应,段段对应或是篇篇对应,有些平行语料库需要句子长度对应的语料。语料对应程度和翻译质量将直接影响双语平行语料库的质量和建设进程。双语平行语料库除了要对所收集的语料精挑细选,进行格式和标记处理,还需对语料进行最为重要的对齐处理。语料对齐的精准程度关系到整个平行语料库的存亡。
三 翻译记忆库
翻译记忆库是一种用于储存原文与对应译文的语言数据库。[2]翻译记忆库主要存在于计算机辅助翻译系统中,它凭借计算机高速处理能力将待翻译原文与库中每一个原语句子进行匹对分析,然后根据匹配率进行排名,将达到译者要求的匹配率的库中原文的译文瞬间显示给译者参考,协助译员完成翻译工作;在译员对一个新翻译单元(如句子)翻译完毕后,记忆库会自动将刚才完成的译文与原文组成完全匹配对并收录到记忆库中,记忆库规模通过此动作得到不断扩充。
翻译记忆库主要协助译者开展工作, 译者得到达到自己设定的匹配率要求的原文的译文后,可根据实际情况,完全采用译文或略作修改后使用或完全不使用。如果译者选择完全采用匹配率达到100%的已有原文的译文,记忆库将不会修改已有的译文也不会重新收录新的译文;如果译者对已有译文进行修改后再使用,记忆库将对新的原文与译文配对,并收录到记忆库中; 对于记忆库没有提供参考译文的“新原文”,记忆库同样会将翻译后的译文与原文配对并收录到库中。在此过程中,记忆库收录的都是匹配率达100%的精确对齐的语料。
翻译记忆库记录了译者从开始使用记忆库以来翻译过的所有原文和对应的译文,是译者翻译轨迹的最佳见证。无论是翻译工作者个体还是翻译团队,只要他们一直使用已建立的记忆库并没有改变所从事的翻译领域,翻译记忆库对他们的作用将会越来越显现。当记忆库伴随他们工作至一定时间或一定量时,它给翻译工作带来的变化会从量变上升到质变,译者们也会越来越依赖记忆库。
翻译记忆库对译者工作意义重大,但发展却十分缓慢。目前允许共享使用的翻译记忆库几乎没有 ,具有一定规模并得到公认的翻译记忆库还没出现。究其原因,主要有三个:第一,翻译记忆库存储了翻译个人或团队翻译过的所有语料,是他们所有工作经验的积累,他们对此尤其珍惜,将其视为自己无形无价的财产和核心竞争力,不会轻易与他人分享;第二,翻译记忆库记录的是个人或团队的“笔迹”,是他们翻译风格翻译习惯的集中体现,如果开放了使用权,其他译者可修改库里的译文,这是记忆库所有者所不想见到的;第三,翻译记忆库没有对经济发展产生直接影响,而且过于专业,社会对此关注不足,科研部门没有给予其足够的支持,特别是项目支持。
四 双语平行语料库与翻译记忆库
从以上分析不难看出,双语平行语料库主要用于翻译领域或语言学领域,而翻译记忆库一般只用于翻译领域,但从两者所收录的语料、结构和作用角度分析,它们确实存在许多共同之处。
1.语料与结构。
许多专家学者在建设双语平行的语料库的时候,会预留一定时间“顺便”地建立一个与语料库规模相约的翻译记忆库。双语平行语料库被认为是一个升级版的翻译记忆库,两者建立的过程步骤和所使用的工具基本相同,记忆库较语料库简单,建立一个记忆库所需时间大概是建立一个与其相同容量双语平行语料库的二分之一。
语料选择,无论是语料库还是记忆库都必须根据建库目的选择和筛选语料。一般来说,双语平行语料库因应用领域广,其收录的语料也会较为全面;相对而言,翻译记忆库专业性较强,其收录的语料非常具有针对性。但无论怎样,它们所收录的语料都是原语与译语一一对应的,因此它们的语料都属于已译语料,对于没有对应译文的语料,建库者只能将其翻译后再放入库中。两种库对翻译精确都有严格的要求。
语料处理,它是两者的生命线。语料处理的质量决定了两库的存亡。两库收集的粗糙语料都必须经过筛选、分类和格式处理,以方便使用。我们都将所有的语料按重要性和质量进行筛选,并按专业、主题、时间、来源、原语等进行分类,同时将全部语料转化为纯文本格式。
语料对齐,它是语料处理最重要的过程。语料对齐是指通过软件或人工手段,将原语文本中的每个段落或每个句子与译语文本中其对应的段落或句子进行配对。虽然语料分类和格式转换已将初始语料整理得工整有序,但其仍然无法被双语平行语料库和翻译记忆库收录使用,因为语料还没进行双语对齐。在对齐之前需规定对齐的标准,目前公认的是以句为单元的句句对齐。对于对齐工具的选择,一些大型的平行语料库有专属的对齐工具,而翻译记忆库所在的计算机辅助翻译系统中,一般也会附带一套对齐工具。一般来说,只要已对齐语料的格式符合要求,均可被两库收录使用。无论是在建设双语平行语料库还是翻译记忆库过程中,语料对齐都会出现一些共同毛病。在对齐过程中,软件对齐速度远高于人工对齐速度,所以一般以自动对齐为主,人工对齐为辅,但自动对齐结果往往出现一些小毛病。对于这些小错误,可通过使用对齐软件自带的拆分和合并功能解决;对于原文或译文的信息有所缺失、冗余或错译的语言单元,只能由译员重新翻译然后再对齐;而对于出现对齐严重混乱语料,对齐人员需解除所有已配对单元,重新检查原语语料和译语语料中各种标记符。对于原文单元与译文单元长度相差太远的情况,需采用独特的处理方法,如将一个太长的英语句子按照句法结构和语义,适当地拆分为几个小句,或者将几个过短的小句进行合并处理。
在两种库的建设中,语料收集和处理过程大同小异,运用的方法和工具,甚至所遇问题都几乎相同,这是它们的相同之处。在完成语料对齐以后得到的是已完全精确对齐的语料,已可以录入库中使用。对于在建设双语平行语料库过程中,“顺便地”建立起来的翻译记忆库也完成了,建库人员可直接将已经完成对齐处理的语料复制多一份,然后直接导入到一个新建立的空的翻译记忆库当中,导入成功后意味着记忆库已经正式“竣工”可交付使用了,译员可以直接利用此记忆库中收录的双语平行语料进行辅助翻译。
对于翻译记忆库来说,完成了语料对齐就意味着整个建库过程基本完成了,但对于双语平行语料库来说,建库工作还没有结束。为了让语料库在翻译和语言研究领域发挥最大作用,建库人员还会对语料库里所有的语料进行标注。当前语料标注主要有两种方法:词性标注和句法标注。词性标注可使用软件完成,精确度高,基本不需人工干涉;句法标注具有巨大实用价值,可惜目前仍没有精准的句法标注软件,所有句法标注过程必须由人工完成,大部分双语平行语料库的语料都有词性标注。完成了语料的标注后,双语平行语料库建库过程也基本结束,经过测试和评估后,可交付使用。
2.两种库的维护与更新。
随着语言的发展和译者的需要,同时为了保持这两种库的活力和时效性。两种库的负责人均需对库进行周期性的维护和更新。两库的维护过程基本相同,主要是检测使用情况、所涉软件的运行情况,并对用户反映的问题进行处理;而两库的更新则差异较大。双语平行语料库更新主要由于大众语言的发展变化或所处领域发生了一些变化,导致新语料出现和旧语料发生了改变,如技术的优胜劣汰,技术创新等,其更新动作主要是添加和修改。语料库更新需要耗费较多的人力物力,且实际的语言变化和行业发展有一定的时间需要,所以更新频率不宜也不必过于频繁,双语平行语料库更新周期一般为1—2年。翻译记忆库更新主要依赖协同翻译过程。在翻译过程中,记忆库会将产生的所有新语料对一一收录到记忆库中,对于被修改过的译文也会采取替换或覆盖方法收录下来,整个更新过程由软件自动完成。因此,相对于双语平行语料库,记忆库的更新较为简单。
综上所述,从建库到使用,再到维护更新,双语平行语料库与翻译记忆库具有许多相通之处和可借鉴之处,尤其是两者收录的语料类型相似度非常高,相互兼容性强。两者发展过程相互促进,相互依赖。如上文所说,翻译记忆库得到的支持和重视远不如双语平行语料库,但翻译记忆库得到双语平行语料库语料分享后,翻译记忆库已经获得了迅猛发展。在许多双语平行语料库开放使用权限的背景下,已有几个较大的翻译记忆库计划通过一定的手段在互联网上实行共享,以促进翻译行业和相关行业的发展。
[1]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002:33.
[2]Bowker, L.(2002). Computer-aided Translation Technology: A Practical Introduction, Ottawa: University of Ottawa Press.93.
ClassNo.:H315.9DocumentMark:A
(责任编辑:蔡雪岚)
FromaBilingualParallelCorpustoTranslationMemory
Li Yipeng
Bilingual parallel corpora is a special kind of corpora. It specializes bilingual translation study and the translator training and improvement of translation practice. Translation memories mainly exist in computer-aided translation systems. They considered as“simple” Corpora have numerous similarities in principle, structure and role with the bilingual parallel corpora. This paper is devoted to discussing these similarities.
bilingual parallel corpus;translation memory;translation study
李毅鹏,硕士,讲师,东莞职业技术学院。研究方向:语料库翻译学、计算机辅助翻译。
1672-6758(2012)12-0063-2
H315.9
A