基于翻译质量评估的“四书”多译本语料库建设与应用
2021-12-28赵灏
赵灏
摘 要:以儒家经典“四书”的英译为例,对基于语料库的译本评估模式进行探讨,重点分析了“四书”汉英平行语料库的创建,主要包括译本的选择、语料的处理与语料赋码及标注、对同一文化负载词的不同形式进行统一赋码等。该语料库的建设,不仅对于中国典籍外译研究具有重要的学术价值,而且对于中华优秀传统文化的输出也具有重要的实践意义。
关键词:语料库;多译本;“四书”;翻译质量评估
翻译是一种有文本参照的语言交际活动,文本是语言的载体,并构成了翻译研究的先决条件。翻译质量评估是根据一定的翻译目标和翻译理念,在充分占有信息资料的基础上,运用定性与定量分析相结合的科学方法,对翻译活动、翻译过程以及翻译结果与效果进行价值判断的过程[1]。
一、译文评估研究现状
目前,西方学界主要存在着两大类翻译质量评估模式:原则参照模式与参数参照模式。原则参照模式又以可细分为反应原则参照模式[2]、[3]、语篇类型原则参照模式[4]和功能原则参照模式[5]-[9]。其中,反应原则模式是较为常用的模式。该类翻译质量评估模式的特点是,只在翻译质量评估的宏观层面上制定纲领性的原则作为译文评价的标准,而缺乏具体的评估指标。在一定意义上说,这种评估模式是以定性研究为主要特点的。
国内学界对翻译质量评估这一课题也进行了深入探讨。其中,最早关注这一研究领域的是吴新祥、李宏安[10],作者认为,评价译文的基础标准是等值。范守义以模糊数学作为基本视角,引入隶属度的概念,并在这一概念下对译文进行定量分析[11]。辜正坤采用最佳近似值来建构翻译评价模式[12]。侯国金从语用学视角出发研究翻译,提出了在翻译过程中能够运用语用标记这一等效翻译原则来解释翻译现象,并采用量化标准对译文进行质量评估[13]、[14]。司显柱从功能语言学视角来评估翻译模式[15];何三宁则从“关联理论”视角来评估翻译模式[16]、[17]等。
从上面的简要评述可以看出,目前,国内学界明确提出基于语料库的翻译质量评估研究的还比较少见,不过,基于语料库的翻译研究已取得长足的进展。秦洪武对英汉多译本翻译语料库(包含三个子库:源语文本子库、名译子库和对比译本子库)进行了深入探讨,研究发现,“结构容量”对译本流畅度和语言使用准确性都会產生一定影响[18]、[19]。刘泽权利用已建成的《红楼梦》中英文语料库,对《红楼梦》若干英译本中的不同内容进行了比较研究[20]。胡开宝则依据于已建成的莎士比亚戏剧英汉平行语料库,对莎翁戏剧不同译本的翻译进行了探讨[21]。基于语料库的翻译研究不仅可以验证翻译语言共性的存在,探讨具体翻译行为的认知机制,而且可以研究语言接触所导致的语言变化。就此而言,翻译学可以从跨学科的角度来进一步深入挖掘翻译特性,探究存在不同翻译语言特征和翻译风格的原因所在。
二、“四书”英译本的选取
在广泛收集各种“四书”英译本的前提下,本研究平衡采用相关译本,建设多译本汉英平行语料库。“四书”英译本语料库分为《大学》《中庸》《论语》《孟子》四个子语料库。有的译本选自“四书”全译本,如理雅各(James Legge)译本;有的译本则选自单译本,如陈荣捷翻译的《中庸》、赵甄陶翻译的《孟子》等。同时,语料取样力求代表性和可比性,译本采取整本录入方式。
“四书”英译本语料库中的《大学》子库相关信息如表1所示:
从表1可以看出,《大学》英译本选取了成书于19世纪的David Collie译本和James Legge译本;20世纪的辜鸿铭译本、林语堂译本和Charles Muller译本。这些译者的国籍不同,既有英国译者——David Collie和James Legge;也有来自美国的译者——Charles Muller,还有中国译者——辜鸿铭和林语堂。同时,译者的身份也不尽相同,既有学者,也有传教士。
“四书”英译本语料库中的《中庸》子库相关信息如表2所示:
从表2可以看出,《中庸》英译本选取了19世纪英国传教士James Legge的译本,20世纪美国诗人庞德(Ezra Pound)的译本,中国学者辜鸿铭的译本、华人学者陈荣捷的译本以及21世纪美国学者Roger T. Ames & David L. Hall的合译本。
“四书”英译本语料库中的《论语》子库相关信息如表3所示:
从表3可以看出,《论语》英译本选取了19世纪英国传教士James Legge的译本、中国学者辜鸿铭的译本;20世纪的译本选自美国诗人庞德(Ezra Pound)的译本、中国学者黄继忠的译本;21世纪的译本则是选自中国学者许渊冲的译本。作为我国知名的翻译家,许渊冲先生精通英语、法语等语种,在翻译过程中,十分重视读者的感受。他在翻译《论语》时,查阅了大量的典籍,对孔子及其思想进行了详尽的考证和研究。这些扎实的翻译准备体现在译本的前言、译注以及注释和评论中。除此之外,许渊冲还追求译文的音美效果,强调在意美的前提下,努力达到“音美”和“形美”的统一。
“四书”英译本语料库中的《孟子》子库相关信息如表4所示:
从表4可以看出,《孟子》英译本选取了19世纪英国传教士James Legge的译本;20世纪的译本分别选自W.A.C.H.Dobson、刘殿爵、赵甄陶的译本,其中,赵甄陶译本入选了《大中华文库》;21世纪的译本则选自美国学者Irene Bloom的译本。
三、“四书”语料的处理
胡开宝指出:“一般而言,汉英平行语料库的创建步骤主要为:(1)中英文语料的选择与输入;(2)语料的预处理;(3)语料的标注和分词;(4)语料的平行对齐;(5)语料库出版;(6)语料库网上检索。”[21](P19)
目前,“四书”汉英平行语料库已经完成(1)~(4)步骤。由于涉及版权等问题,目前仅用于学术研究,不涉及(5)语料库出版和(6)网上在线检索。
(一)中英文语料的选定与输入
上文主要是选定了“四书”汉英平行语料库中的英译本,即语料库的英文语料。“四书”的汉语原文来自南宋著名理学家朱熹的《四书集注》。作为理学集大成者的朱熹,曾从《礼记》中选取《中庸》《大学》两篇,与《论语》《孟子》合在一起进行注解,并称其为“四书”。“四书”后来遂成为封建社会官定的教科书和科举考试的必读书目,对中国传统社会的文化、思想、学术等产生了深远影响。
确定了“四书”汉英平行语料库的中英文版本后,即着手开始语料的输入工作。“四书”的中文版本和英译译本,如辜鸿铭译本,可以从网上直接下载,并转化为文本文档格式进行存储。有的译本虽然可以从网上下载,如理雅各译本,但只有PDF格式,需要借助ABBYY FineReader软件进行文字识别和转码,再以文本文档格式存储。有的译本因为出版年代较早,没有电子版本,需要把纸质版本扫描为电子版本后,再进行文字识别和转码工作。经过FineReader文字识别后的文档,存在一定的错误。为保证语料的质量,转码后的文本都进行了人工校对,主要检查是否有乱码、拼写错误等现象,以保证文本的纯净度。
(二)语料的预处理
语料的预处理主要包括对语料进行降噪处理、统一语料格式和分存中英文语料。直接从网上下载的“四书”译本语料格式混乱,往往有多余的空格及空行、断行、多余的语言符号以及不必要的图形乱码。这种状况严重影响了语料库的准确度。我们借助文本处理工具和人工校对,统一对语料进行了降噪处理,清除乱码和多余空格、空行等,以保证语料的准确度。
由于“四书”英译本译者国籍不同,成书年代有别,出版机构不一,造成译本文本格式缺乏统一性。同时,译本文内注释的格式也不统一,有的译本采用了文本当页脚注的形式,有的则采用了文本文后注释的形式。这些注释统一作为副文本的主要内容,单独存档。
语料预处理之后,我们将“四书”译本的中英文语料分存。分存的每个文件均以英文命名,以便于文件的查询和加载。文件命名时,注明译本名称和语言载体信息,英文语料还需要标明译者的姓名。比如,《孟子》汉语语料的文件名为:Meng Zi_cn.txt,英文语料文件命名为:Meng Zi_en_zhao.txt,Meng Zi_en_Liu.txt,Meng Zi_en_Legge.txt,Meng Zi_en_Bloom.txt,Meng Zi_en_Dobson.txt。在这些文件名中,“cn”表示“汉语”,“en”表示“英语”;Zhao、Liu、Legge、Bloom和Dobson,分别表示英语语料的译者是赵甄陶、刘殿爵、James Legge、Irene Bloom和W.A.C.H. Dobson。
(三)语料的标注
语料赋码标注是语料库研究中的关键步骤之一。“四书”汉英平行语料库根据研究需要,还为每个译本语料添加了篇头元数据(译本成书时间、译者、国别等),以方便后续研究提取相关信息。
基于语料库的“四书”多译本研究中,重点之一是分析“四书”中文化负载词的译介状况。鉴于同一文化负载词大都有多种英文译词,如果在语料库中检索相关文化负载词,需要多次检索,为了方便统计,我们将同一文化负载词的不同形式予以统一赋码。为实现统一赋码,我们创建了“四书”汉英双语术语库。每条术语包括汉语、汉语拼音、英语译文。如:“仁”的英文表达形式有virtue(s),virtuous,benevolence,benevolent,humane(ness)等,则统一编码为RENH。这样有助于提取各个文化负载词的频率信息,为后续研究奠定良好的基础。
(四)语料的平行处理
“四书”汉英平行语料库采用Paraconc对中英文语料进行平行处理,然后借助语料库分析软件WordSmith6.0进行语料处理。在进行语料库段落对齐之前,首先把源语文本和目标语文本分批导入Paraconc,然后再实现中英文语料的段落对齐,即一个汉语源语文本和多个英语译语文本的段落对齐。段落对齐后,进一步实现英汉语料句级层面的对齐。
运用Paraconc实现段落对齐时,先将“align format”(对齐格式)设定为“start/stop tags”(标记对齐)。Paraconc内设“start/stop tags”和“delimited segment”(定界符对齐),前者支持句与句之间的對齐,后者支持段落之间的对齐。在该语料库对齐工作中,文本对齐的格式设定为“start/stop tags”(标记对齐)。Paraconc对加载语料自动段落对齐。段落对齐之后,选中语料中的“split segment”(分割对齐单位)或“merge with next/previous segment”(向下或向上合并对齐单位),对汉英译本段落对齐后的文本进行拆分或合并处理,并通过手动对齐的方式,实现汉英译本的句级层面的对齐。
需要说明的是,“四书”汉英译本的语料对齐,与其他译本的句段对齐有所不同。由于“四书”译本语料库要涉及到文言文与英文的对齐,这就需要在透彻理解汉语原文的基础上,在对应的句段层级作出选择,这也在一定程度上加大了工作的难度。
四、基于翻译质量评估的“四书”译本研究
在翻译学和跨文化研究视阈下,基于平行语料库的“四书”英译研究势必会涉及到微观和宏观两个层面。就宏观层面而言,要对影响翻译的众多因素(如译者研究、翻译动机、文化态度、赞助人、出版机构、读者群体、文化接触、思维习惯、族群记忆、期待视野等)逐一进行探究。就微观层面而言,必然会涉及儒学核心概念词语的翻译等。我们主要是借助语料库技术,从语言层面对不同译本进行量化分析。具体研究内容如下:
(一)定量分析“四书”译本的语言特征
“四书”不同译本的语言特征分析,主要是集中于词汇和句法层面,具体操作时会运用到各种分析参数。
1.类符/形符比(Type/Token Ratio),即TTR值。
2.词表(Wordlist)。它是语料库索引工具的基本功能之一,是按照类符的频率高低列出的类符表。WordSmith Tools4.0提供的词表功能除了普通的词表之外,还有可按字母顺序随意改变次序的词表,同时也提供了语料库的各种基本统计信息。
3.个性词。受语言规范、地域方言及个人语言风格等因素的影响,译者之间的语言运用特征会有一定差异;在多译本里,会出现某些词语在甲译本中高频使用、而在乙译本中低频甚至零频次使用的情形。我们把这类词汇称为“个性词”。对这些词语的分布和使用情况进行考察,可以揭示译者的翻译策略和语言使用习惯。
4.词串。所谓“词串”,就是连续的词语组合。大多数词串不是完整的句子结构单位,也不是习语或固定表达方式,因此,不能用一个单词来替换整个词串序列[22](P156)。词串统计则是指对预定长度的词语组合在语料库中进行查找,并统计其复现频数。
5.平均句长。英语句子由于受到复合句影响,专业作者的平均句长为20个词左右[23](P64)。那么,译本的句子长度会呈现出怎样一种趋势呢?译者对句子长度的处理是倾向于源语还是游离在源语与译语之间呢?这些问题都有待进一步的实证分析。
(二)译者翻译风格比较
通过对词汇、句子、语篇三个语言层面的分析,可以更好地阐释译者在传承原作风格之外所进行的自我身份构建。译者的身份、经历和学术背景,引导着他们以某种视角来解读作品原文,并深入或浅层地认知、接受原文本的思想观念,这些信息也在一定程度上反映在译本的篇章语言特征中,如个性词的形成和使用频率、平均词长和平均句长的长短程度、特定句式的使用和出现频率等。借助语料库分析手段,能直观地展现译者在自我身份构建的过程中,其语言选择上的特征与偏好。
我们还利用翻译记忆工具Trados Translator’s Workbench中的术语管理工具和计算机辅助翻译工具OmegaT,建立了汉英双语对照的术语表。在翻译实践中,双语术语库和翻译记忆库可以向译者提供动态的术语支持和已有的译文匹配提示,能够使译文的产出更加快捷、准确。
黄立波指出,“语料库可以为描写研究提供大量真实的数据,但语料库提取信息的层级度有限,因此找到合适的切入点是语料库翻译研究的第一步,也就是说在语料库的帮助下,我们可以提取研究所需的信息。”[24]“四书”英译本汉英平行语料库在广泛收集“四书”各种英译本的前提下,充分考虑到各典籍译本的数量不平衡性、译者身份、成书年代、译本流传度等因素,平衡采用相关译本,以确保名家经典译本与普通译本在研究采样中的大致均衡;同时,也兼顾到母语为英语译者及非英语译者译本的选择和平衡采用。从语言层面来看,在基于语料库的译本翻译质量评估中,类符/形符比、词表、个性词、平均句长、关系从句、被动句等,是评估译本质量的重要参数。借助语料分析软件对这些参数进行标注、检索、分析,可以客观描写译本的语言特征,揭示译者的主体风格。需要说明的是,本研究主要是从方法论角度,对基于语料库的译本质量评估进行探讨,而具体的多译本质量评估研究将另文展开。总之,“四书”英译本汉英平行语料库的建设,对于中国古代典籍的外译、中华优秀传统文化的海外传播等,均具有重要意义。
参考文献:
[1]武光军.当代中西翻译质量评估模式的进展、元评估及发展方向[J].外语研究,2007,(4).
[2]Nida,E.A.Toward a Science of Translating[M].Leiden:Brill Academic Publishers,1964.
[3]Carroll,J.B.An experiment in evaluating the quality of translations[J].Mechanical Translation,1966,(9).
[4]Reiss,K.Translation Criticism:The Potentials & Limitations[M].New York:American Bible Society,2000.
[5]House,J.Translation Quality Assessment:A Model Revisited[M].Tübinguen:Gunter Narr,1997.
[6]House,J.Translation quality assessment:Linguistic description versus social evaluation[J].Meta,2001,(2).
[7]Nord,C.Text Analysis in Translation[M].Amsterdam:Rodopi,2006.
[8]Nord,C.Text analysis in translator training[A].In Dollerup,C. & Lindegaard,A.(eds.).Teaching Translation and Interpreting:Training, Talent and Experience[C].Amsterdam:John Benjamins,1992.
[9]Brunette,L.Toward a terminology for translation quality assessment:A comparison of TQA practices[J].The Translator,2000,(2).
[10]吳新祥,李宏安.等值翻译初探[J].外语教学与研究, 1984,(3).
[11]范守义.模糊数学与译文评价[J].中国翻译,1987,(4).
[12]辜正坤.翻译标准多元互补论[A].杨自俭,刘学云. 翻译新论(1983~1992)[C].武汉:湖北教育出版社, 1994.
[13]侯国金.语用标记价值假说与语用标记等效翻译假说[J].外语学刊,2005,(2).
[14]侯国金.语用标记等效值[J].中国翻译,2005,(5).
[15]司显柱.论功能语言学视角的翻译质量评估模式研究[J].外语教学,2004,(4).
[16]何三宁.“关联理论”视角下的翻译质量评估[J].南京师大学报(社会科学版),2010,(1).
[17]何三宁.翻译质量评估在我国译学中的定位[J].湖北大学学报(哲学社会科学版),2008,(6).
[18]秦洪武.英译汉翻译语言的结构容量:基于多译本语料库的研究[J].外国语,2010,(4).
[19]秦洪武.重译评估的语料库方法:Robinson Crusoe的两个中译本[J].燕山大学学报(哲学社会科学版), 2013,(4).
[20]刘泽权.《红楼梦》中英文语料库的创建及应用研究[M].北京:光明日报出版社,2010.
[21]胡开宝.基于语料库的莎士比亚戏剧汉译研究[M].上海:上海交通大学出版社,2015.
[22]朱青菊.基于朗文语料库的高频会话词串功能认知分析[J].湖南科技学院学报,2008,(2).
[23]连淑能.英汉对比研究[M].北京:高等教育出版社, 1993.
[24]黄立波.中国现当代小说汉英平行语料库:研制与应用[J].外语教学,2013,(6).