基于语料的英汉翻译语言风格对比研究<br/>——以《苔丝》三译本为例

基于语料的英汉翻译语言风格对比研究
——以《苔丝》三译本为例

2018-07-25南菁高级中学

外文研究 2018年2期

南菁高级中学

王蓉

一、引言

过去的几十年，人们运用许多理论和实证研究探索语言风格，特别是语言风格的定义以及翻译中的语言风格。理论研究上，Leech & Short (1981)、刘振江 (1990)、刘重德 (1991)、 Baker (2000)、Macro (2004)认为语言风格体现于文本中的语言特征。此外，不少学者如Nida & Taber (1982)、许钧(1993)、郑海凌(2000)探讨了翻译中语言风格的重要性、翻译中语言风格对等以及译者风格。实证研究上，随着计算机技术的发展，涌现出许多基于语料的翻译语言风格研究，如Baker(2000)，王克非、秦洪武(2009)，胡显耀(2007)，徐欣(2010)，刘泽权、陈冬蕾(2010)，黄立波(2014)，黄立波、朱志瑜(2016)，王克非、秦洪武(2015， 2017)等。然而这些研究主要关注的是翻译文本与原创文本的语言风格对比，很少有研究关注译本和原文之间的语言风格对比以及不同译本之间的语言风格对比。因此本研究基于前人的研究，借助自建翻译语料来探索译本和原文，以及译本之间的语言风格对比。基于语料的翻译语言风格研究主要借助于以下研究指标：类形比、高频词、词性分布、词汇密度、平均句长、平均句段长、标点等。

类形比(TTR)指特定语料中类符(type)与形符(token)的比率。类符是语料中不同的词，形符是所有的词。比如在I am an English teacher and I teach English这句话中，在9个形符中有7个类符。类形比能衡量文本中词汇的广度和多样性。较高的类形比意味着文本词汇量广泛，反之则意味着文本使用较有限的词汇量(Baker 2000: 250)。但是，Biberetal.(1999: 53)指出类形比随着文本的长度产生变化：较长的文本有更多重复的词，因此类形比较低。这种情况下要将标准类形比(STTR)考虑在内。标准类形比指的是基于每千字的平均类形比。

词表(Wordlist)是指按照类符的频率高低列出的类符表，也叫词频表。该表也列出所有类符的词频数(frequency)和在总词频数中所占的百分比(王克非、胡显耀 2008)。Laviosa (1998)把高频词定义为频率至少占语料0.1%的词。肖忠华、戴光荣(2010)认同0.1%为高频词的标准，但同时指出高频词也取决于语料的大小。通常词表中前10位、20位、30位的词会作为高频词罗列在语料研究中。

基本上任何语言都包括实义词和功能词。就英语而言，实义词包括名词、实义动词、形容词和副词(Biberetal.1999: 62)；功能词包括限定词、代词、介词、连词、助动词、数词(Biberetal.1999: 69)。就中文而言，实义词包括名词、动词、形容词、数量词；功能词包括副词、代词、介词、连词、助动词和感叹词(胡显耀 2007)。词汇分布指不同词性的数量和比例(Leech & Short 1981)。词汇密度指的是实词占总词数的百分比(Baker 1995: 237)。由于实词是信息的载体，词汇密度的差异可以反映信息量的差异(Biberetal.1999: 62)。

关于标点符号，汉英句子的标记是句号、感叹号和问号。汉英句段的标志除了句子的标记外还有逗号和分号。

二、研究方法

(一)语料收集

本研究以英语小说《苔丝》和张谷若译本(简称张译本)，孙致礼、唐慧心合译本(简称孙译本)，王忠祥、聂珍钊译本(简称王译本)为研究素材。由于时间的有限性，本文随机选取了研究素材中十二章节的片段作为自建翻译语料库。

(二)工具

1) Wordsmith 4.0

Wordsmith 4.0由英国语言学家Mike Scott研发，用来处理和分析数据，功能包括Wordlist、Concord、Viewer & Aligner等。具体说来，Wordlist可以提供文本的类符数、形符数、TTR、高频词，concord可以提供某个词所在的语境，Viewer & Aligner可以根据句法标记建立原文和译本的平行语料。

2) Treetagger

Treetagger由Helmut Schmid研发，用来对英语文本进行词性赋码，赋码集包括名词、动词、形容词、副词、介词、连词等。Treetagger在词性附码上的准确率可达96%～97% (梁茂成等 2010)。

3) ICTCLAS

ICTCLAS是由中国科学院计算技术研究所研发的对中文文本进行词性赋码的软件。经过测试和改善，该软件的分词准确率可达98.13%，词性赋码准确率可达94.63% (肖忠华、戴光荣 2010)。

(三) 数据分析

首先，笔者将收集的语料进行人工检查，分别用Treetagger和ICTCLAS对英汉语料进行词性赋码，并进行检查，将准确率进一步提高。最后采用Wordsmith软件对赋码前后的数据进行统计，同时也借助word、excel进行辅助统计。

(四)研究问题

1) 原文和译文之间的语言风格是否一致？

2) 译文之间的语言风格是否一致？

三、研究结果

(一)类形比

表1 英语原文和三译本间的类形比

如表1所示，各译本的形符数明显高于英语原文。这种文本长度的扩张是源于翻译过程中的显化(黄立波 2007)。具体说来，显化指译者常通过增加补充性词、短语等将原文隐含的信息明晰化或者清除原文模棱两可的信息。各译本的类符数略高于英语原文。此外，就TTR和STTR而言，英语原文高于张译本和王译本，而低于孙译本。我们可以推断张译本和王译本可能没有英语原文的词汇丰富。

三译本间，就形符数而言，张译本最高，孙译本最低。这表明，张译本的显化最为明显。就类符数、TTR、STTR值而言，都是孙译本最高，王译本最低。据以往实证研究，这一系列数据表明，孙译本的词汇量较其他两个译本最大。换言之，孙译本的词汇比其他两个译本丰富。

(二)高频词

本文研究英语原文和三译本前30位高频词。限于篇幅，下页表2中仅罗列了前10位高频词。如表2所示，英语原文的高频词主要为功能词，特别是冠词、代词、介词。定冠词the为英语原文中使用最多的词。前30位高频词中出现了9个代词her、I、it、she、you、he、his、they、which，其中her是用得最多的代词；出现了8个介词，前3位为of、to、in；唯一出现的名词为Tess。汉译本中，前30位高频词以功能词为主，其中代词“她”位列前5高频词，对应英文原文中her、she的高频使用。高频词中“一”“在”“苔丝”等词主要取决于英语原文中a、in、Tess的广泛使用。总之，汉译本中高频词主要对应英语原文高频词。

三译本的高频词有相似点。首先，三译本前10位高频词相同，只是顺序上有些差异。此外，前30位高频词也几乎是功能词，特别是代词。张译本、孙译本、王译本前30位高频词的比例分别为35.13%、 32.82%、 37.05%，相较于汉语原创文本LCMC(N)*LCMC(N)即“兰卡斯特现代汉语语料库小说语料库”(Narrative Prose Section of Lancaster Corpus of Mandarin Chinese)。前30位高频词比例31.89%高出很多。对于同等个数的高频词来说，比例越高表明这些高频词在文本中重复使用得越多。换句话说，译者在进行英汉翻译时，有意或无意地重复使用了较少数量的常用词，使文本独特性减少，文本难度降低，可接受性提高，被称为翻译过程中的简化现象(王克非、胡显耀 2008)。三译本前30位高频词也各有自己的特色。张译本比其他两个译本使用更多的副词，比如“都”“不”的使用。进一步研究显示，张译本倾向于添加副词表示强调和显化，也喜欢用汉语否定方式去翻译英语的肯定表达，如翻译perfect和simple时，张译本用到“无一不备”“不事铺张”。此外，张译本中“把”字使用得最多，常常用“把”字结构来翻译英语的动词短语，如翻译fix eyes on时，张译本用“把眼睛瞅着”，其他两个译本则直接用了“盯着”“望着”。就孙译本而言，代词数量明显低于其他两个译本，特别是“她”“我”“他”这些人称代词。进一步统计显示，孙译本倾向于用人名去翻译英语人称代词，名词“苔丝”的频繁使用正好印证了这一点。王译本中“的”的出现频率明显高于其他两个译本，比孙译本和张译本分别高出300多次和150多次。进一步研究发现，王译本倾向于使用中文“……的”定语结构来翻译英语中的限定成分，例如，翻译一系列形容词spectral、 half-compounded、 aqueous时，王译本用了3个“……的”结构(“半明半暗的、明暗混合的、带着水汽的”)；孙译本用了1个“……的”结构(“一片幽渺凄迷、半明半暗的晓光雾气”)；张译本未用“……的”结构(“一片幽渺﹑凄迷，晓光雾气，氤氲不分”)。

表2 英语原文和三译本前10位高频词

(三)词性分布

上文讨论过，汉译本的形符数都超过原文，呈现显化现象。如下页表3所示，汉译本动词、名词、形容词、副词、代词和数词都超过英语原文。这表明显化主要体现在这些词性上。进一步研究发现，在英汉翻译过程中，除了词性对等外，汉译本中上述词性的增加主要来源于词性转换和词汇添加。如例(1)所示，三译本中的动词如“埋”“刻”“躺”“罩”转换自英语原文中的介词at、in、with、under。孙译本和王译本中还添加了动词“雕成”“用……做成”来阐释Purbeckmarble。此外，英语原文的介词和连词远超过汉译本。研究发现，由于英汉两种语言的差异，在英译汉时，英语介词通常有3种处理方式：转化成汉语动词、转换成汉语连词和省略不译(连淑能 2006: 158)。这就解释了汉译本介词数明显少于原文。由于英汉句法上的差异，英语重形合而汉语重意合，英语多借助连词去连接字词句，而汉语多使用紧缩句、四字结构、重复、对偶、排比等修辞手法来表明句子之间的联系。因此，英语大部分连词会在翻译过程中省略。

(1) At Kingsbere-sub-Greenhill: rows and rows of you in your vaults, with your effigies under Purbeckmarble canopies.

(Hardy 2007: 7)

张译本：埋在绿山下的王陴。那儿的地下拱顶墓室里，你们家的坟一行一行的，坟上面刻着石像，罩着培白玉华盖。

(哈代 1984: 17)

孙译本：埋在青山下的金斯比尔。一排又一排地躺在墓穴里，波倍克大理石雕成的华盖下面，还有他们的雕像呢。

(哈代 2000: 2)

王译本：埋在青山下的金斯比尔，一排一排地埋在你们家族的地下墓室里，在用佩比克大理石做成的华盖下面，还刻有你们祖先的雕像。

(哈代 2006: 5)

张译本中几乎各词性形符数都最高，孙译本几乎各词性形符数都最低。进一步研究显示，张译本倾向于通过添加词汇来使原文信息明晰化或是表示强调。如例(2)所示，张译本增添了6个词，其中“现在”“已往”来强调时间；“心里”用来阐释原文的relief，“教堂”“里”用来使stand up的背景信息更为清楚。孙译本和王译本分别添加了1个词和4个词。就词汇密度而言，张译本为55.77%，孙译本为58.48%，王译本为56.08%。笔者再次比较汉语翻译文本和汉语原创文本，发现三译本的词汇密度均低于汉语原创文本LCMC(N)的词汇密度59.15%。翻译小说的词汇密度较低，或者说，同样长度的翻译小说的实词数量少于非翻译小说，说明从词语总体特征来看，翻译小说存在词语使用的简化特征，即试图通过降低实词所提供的信息量来降低译文的难度，从而提高其可接受性(胡显耀 2007：217)。三译本中，孙译本的词汇密度最高，特别是名词、动词、形容词和数量词的比例。从这个角度看，在同样长度的文本中，孙译本的信息量比其他两个译本多。正如表1所示，孙译本的确用了最少的形符数去翻译同样内容的原文。

(2) But to know that things were in train was an immense relief to Tess notwithstanding, who had well-nigh feared that somebody would stand up and forbid the banns on the ground of her history.

(Hardy 2007: 223)

张译本：苔丝现在知道了一切都妥当齐备，心里就不知轻松了多少；她本来还几乎害过怕，惟恐有人在教堂里站起来，根据她已往的历史，反对她的结婚通告。现在不用怕这一层了。

(哈代 1984: 309)

孙译本：不过，苔丝得知一切都安排妥当，心里不禁如释重负。她本来还有点害怕，担心有人听了结婚公告，会端出她的底细，反对这门婚事。

(哈代 2000: 141)

王译本：既然知道一切已准备就绪，苔丝也就完全放下心来了，本来她就有些害怕有人在教堂里站起来，揭露她过去的历史，反对结婚通告。

(哈代 2006: 256)

表3 英语原文和三译本词性分布

(四)平均句长、平均句段长

如表4所示，汉译本的句数略高于英语原文。由此推断，汉译本基本遵循原文的句法标记，只有细微的变动。汉译本平均句长略高于英语原文，主要取决于汉译本的形符数超过英语原文。三译本中，张译本的平均句长最长，主要取决于该译本的形符数最大；孙译本的平均句长最短，取决于该译本的形符数最低，句数最多。此外，汉译本的句段数明显高于英语原文。这表明在英译汉中，断句策略很常见。笔者进一步统计了标点使用情况，汉译本的逗号使用明显超过了英语原文。原文有774个逗号，张、孙、王译本逗号数分别为1496、1273、1155个。由于英汉差异，英语是“楼房建筑法”，常借助于介词、从属连词、关系代词去构建长句或者从属结构；而汉语是“流水记事法”，采用并列结构、松散句、紧缩句、省略句、流水句、并列形式的复句去构建短句(连淑能 2006: 49)。因此，受汉语影响，译者普遍采用断句去处理英语长句。三译本中，张译本的平均句段长最小，王译本的平均句段长最高。对标点统计发现，张译本的逗号和分号数目均是三译本中最高的。如例(3)所示，在翻译原文的长句时，张译本有4个句段，该译本擅长断句，在英语原文in、as、of的地方断句，因此句段数最短，易于读者阅读。孙译本也在in的地方断句，并加上“这”作为连接。王译本则没有断句，使句子比其他两个译本难处理。秦洪武(2010)指出翻译质量好坏的一个指标是句段长度而不是句子长度；上乘的译本能更好地控制句段数。从这个角度看，张译本略胜一筹。

(3) There was no exaggeration in Marian’s definition of Flintcomb-Ash farm as a starve-acre place.

(Hardy 2007: 308)

张译本：玛琳说棱窟槐这个地方，只是一片穷山，这种形容，一点也不过分。

(哈代 1984: 420)

孙译本：玛丽安把弗林库姆阿什农场说成不毛之地，这并非言过其实。

(哈代 2000: 195)

王译本：玛丽安把这个地方叫作饥饿的土地并没有夸张。

(哈代 2006: 353)

表4 英语原文与三译本平均句长和句段长

四、结语

由于英汉差异，英语原文和汉译本语言风格存在差异。汉译本形符数明显超过英语原文，主要体现在动词、名词、副词、数词上。汉译本倾向于添加实词使原文的信息更加明晰化。英语原文的连词和介词超过汉译本。在英译汉过程中，这些词通常会被省略或进行词性转化。英语原文和汉译本的高频词基本对应。汉译本的平均句长高于英语原文，平均句段长低于英语原文，前者是由于汉译本的形符数明显高于英语原文，后者是由于汉译本的句段数明显高于英语原文。汉译本倾向于在翻译英语长句时用逗号、顿号、分号断句，使句子易于为读者所接受。

三译本的语言风格存在异同。三译本普遍存在显化和简化现象：显化体现在各译本形符数均比原文多；简化体现在译本较之原创文本高频词比例高、词汇密度低；较之英语原文平均句段长较低。不同译本也体现了各自的语言风格。张译本的形符数最大，平均句长最长，平均句段最短，词汇密度最低；孙译本的形符数最小，平均句长最短，类形比、词汇密度最高，高频词重复率最低；王译本的平均句段最长，类形比最低，高频词重复率最高。

基于本研究，本文对翻译研究与教学有以下启示。1)基于语料库的语言风格分析模式中，类形比、高频词、词汇密度、词性分布、平均句长、平均句段长等是量化分析的重要参数。这些参数让研究者能从多个角度研究翻译中的语言风格。较之传统的翻译研究，基于语料库的译本分析为研究译本之间、译本和原文之间的语言风格提供了更加客观和全面的研究平台。2)英汉平行语料库能够让研究者发现英汉之间的差异，比如句式上英语重形合、汉语重意合；用词上，英语更多使用名词、形容词、介词等；汉语更多使用动词、副词等。此外，英汉平行语料库有助于找出译文间的差异，比如译者对原文中词与句式的不同处理方式。具体而言，对于英语的长句，有些译者过多依赖修饰成分前置来铺排句式，降低了句子的可接受度，而另一些译者擅长采用断句策略去缩小译本句段长度，减轻读者的认知负担。因此，英汉平行语料库便于研究者在多译本间筛选出较为上乘的译作。3)教师可以利用该研究指导学生避免可能出现的“翻译腔”，比如说在英译汉中控制译文功能词的使用和句段长度；此外，教师也可以通过例子让学生熟悉翻译中的词性转换。在英译汉中，译文和原文不一定完全达到词性一致，而是要根据实际情况采取多种策略，比如添加、省略、词性转换等。