《红楼梦》杨译本和霍译本的判词语言特征比较：基于语料库视角

2022-09-22余惠兰

四川民族学院学报 2022年4期

余惠兰

(泉州信息工程学院，福建泉州 362000)

作为一部中国经典文学杰作，《红楼梦》的国际传播价值经久不衰，其外文译本多达十几种。而其英译版本，当数杨宪益、霍克斯二位的译本最负盛名。历年来，诸多学者从语用学、术语学、文学翻译批评等视角对二者译本进行比较研究，领略二者各自独特的翻译风采。本文拟基于语料库，以《红楼梦》中的人物判词为原始文本，比较二者译本的英译语言特征，从另一个视角窥探经典译作的可借鉴之处。

一、语料库建库和研究工具

语料库语言学研究语言意义，其研究的主要对象是文本[1]。因此，我们首先从杨宪益和霍克斯的英译本中提取这14首判词的英译文，建成两个微型语料库，分别命名为Corpus of Yang′s Version和Corpus of Hawks′ Version，缩写为CYV和CHV。然后利用英国利物浦大学Mike Scott开发研制、牛津大学出版社出版的单语语料库工具WordSmith5.0，分别统计出两个微型语料库的库容量(size)、类符(token)、形符(type)、类符/形符比(TTR)、单词的频率(frequency)等，再将英译文拷贝到英国兰开斯特语料库建设的在线赋码网站进行词性赋码，便于研究时利用赋码检索，统计出译文用词的词汇密度和词性分布，该赋码网站的网址为http://ucrel-api.lancaster.ac.uk。统计译文用词的词性分布时，我们使用的语料库检索软件是日本早稻田大学科学工程学院科学工程英语教育中心Laurance Anthony博士开发的AntCon.3.2.1w。讨论词频概貌时，我们使用了新西兰学者P. Nation和A. Coxhead设计的软件RANGE。该应用软件Range以词频分析为基础，使用频率较高的版本自带三个底词词表。前两个词表包含出现频率最高的2000词取自于Michael West在1953年编辑出版的《通用英语词表》(A General Service List of English Words)。第三个词表包含的单词取自于Coxhead(2000)的“学术英语词表”(Academic Word List)。

二、数据和数据分析

(一)语料库基础数据

我们利用Word Smith 5.0中的Word List功能，对两个语料库进行了数据统计，摘取了词符、类符/形符比、类符和平均词长等主要数据(见表1)。

表1 两个语料库的基本数据

从表1我们可以看出，在四项基础数据方面，两个译本几乎没有差别。英译这14首判词时，杨译本使用了466个形符，比霍译本多2个；如果我们不重复计算形符数，只统计类符，杨译本比霍译本多出7个。在形符/类符比或形次比方面，杨译本比霍译本高出1.38个百分点。结合现有学者的研究，我们不难发现，两个译本的形符/类符比均高于一般文献的形符/类符比。例如，桂诗春先生自建英语学科语料库，探讨英语语言学的语体时，发现英语语言学学科的形符/类符比为40.64[2]；吕荣等研究许渊冲翻译宋词的语言特征时，发现译文的形符/类符比为49.96，英语本族语原创诗歌的形符/类符比为50.64[3]；高博&陈建生利用语料库，以《诗经》英译本为例，探讨了中国古典诗词译本中的翻译共性，发现《诗经》翻译译本的形符/类符比为42.06，与其对应的参照语料库，即Whitman, Keats, Yeats, Byron等英美著名诗人的英语原创诗歌，它的形符/类符比为47.70[4]；形符/类符比反映的是文本信息的承载量；魏黎研究了《醉翁亭记》的6个英译本，结果显示，它们的形符/类符比分别为52.99、45.50、49.27、52.34、51.69和48.71[5]；理雅各(James Legge)、高本汉(Bernhard Karlgren)、彭马田(Martin Palmer)和杜瑞清先后翻译过我国上古历史文献和部分追述古代事迹的《尚书》，葛厚伟以这四个英译本为基础，利用语料库语言学研究方法，探讨了这些英译本的词汇特征，发现它们的形符/类符比分别为38.5、36.89、38.64和41.88[6]。形符即单词，一个文本中它可以反复计算，出现一次，计为一个形符；而类符指不重复计算的形符数，即不重复计算的形符数，一个文本中重复出现的形符只作一个类符。形符和类符之间的比值，是衡量译者在译文中使用不同单词的比重，反映的是词汇的宽度，即词汇的重复率越低，形符和类符之间的比值越大。换个角度来说，比值越大，说明译者驾驭词汇的能力越强。在平均词长方面，杨译本比霍译本高出0.02。吕荣等基于语料库的研究显示，许渊冲英译宋词时，英译文的平均词长是3.96，与之对比的本族语原创诗歌的平均词长是4.04。理雅各(James Legge)、高本汉(Bernhard Karlgren)、彭马田(Martin Palmer)和杜瑞清等英译版《尚书》，译本的平均词长分别为4.41、4.40、4.30和4.72。英语文本的平均词长大约为4。如果远高于4，就意味着文本的语言比较复杂深奥[7]。上表的数据显示，杨译本的平均词长为4.29，霍译本的平均词长为4.31。由此可见，两个译本的语言均较为复杂，而霍译本略甚。

(二)译文的词汇密度

词汇密度(lexical density)指实词(lexical words/ content words)在研究文本中的比重，常见的词汇密度计算办法是Ure(1971)和Halliday主张的按照实词和总词数的百分比来计算，即研究中所建语料库里实词的形符数与该语料库总形符数之间的百分比。英语中的实词由名词、动词、形容词和副词构成，它们都有信息负载量，能够向读者传递出具体的、有意义的信息，而虚词包括代词、连词、介词、冠词等。两个小型语料库的实词分布和词汇密度(见表2)。

表2 两个译本的词汇密度

在基于语料库的研究中，我们常常将某个词在两个语料库中检索到的频率，参照两个语料库的容量，通过卡方检验进行对比，以此确定两个学习者群体在使用这些单词时是否存在显著差异。从表2我们可以看出，杨译本和霍译本在名词、动词、形容词和副词这四类实词中，尽管使用的频次有细微差异，但卡方检验显示，两个译本的实词分布没有明显差异。只是与霍译本相比，杨译本在名词方面存在少用情况，而在其余三类词均存在超用情况。就词汇密度而言，判词这两个译本的词汇密度相当，但高出类似文本的词汇密度。葛厚伟研究《尚书》的四个译本时，发现它们的词汇密度分别是51.73、55.49、54.53和52.87；杨廷君、张建理的研究发现，中国优秀博士论文英文摘要的词汇密度是53.14，与其对应的母语者博士论文英文摘要的词汇密度是55.74；魏黎研究《醉翁亭记》的六个英译本语言特征，结果显示，它们的词汇密度分别为51.67、55.29、53.28、56.01、55.41和55.08。词汇密度反映了文本信息的承载量。词汇密度越大，实词数量就越多，文本信息量越大，阅读难度相应增加；反之，则越低[8]。上表数据显示，杨译本的词汇密度为61.37，霍译本的词汇密度为60.34，均超过60。可见两个译本的信息承载量大，阅读难度较高，而杨译本更甚。

(三)译文的高频词分析

词频，即单词在某一文本中出现的频率，对语料库研究至关重要。我们建设语料库，开展语言研究，在很大程度上归结于频率间的对比。语料库内部词汇或短语的比较和两个或多个语料间的比较，最终往往以检索到的频率进行比较。而高频词是语料库中出现频率较高的单词。高频词与语体风格密切相关，其在不同语体中频率上的差异可以作为我们判断不同文体的重要标志。通过高频词，我们可以关注语言共性。下面我们通过表3讨论两个译本中的高频词。

表3 两个译本前20位高频词对比

表3是我们利用Wordsmith统计出来的词频和词频比例。分析两个译本各自的20个高频词，我们发现杨霍两位译者在用词习惯方面存在不同程度的区别。具体如下：

两个译本的高频词中同时包括10个单词，说明两位译者用词的倾同性较高。这10个单词是：the, a, and, to, of, in, by, when, must和her；卡方检验显示，两个译本使用这10个词时，没有出现明显的差异；

1.两个译本排在首位的高频词都是定冠词the，杨译本的频率为23，霍译本为21；

2.两个译本这20个高频词的总频次很接近，杨译本合计164次，霍译本合计160次；频次的递减幅度非常接近。杨译本有5个单词的使用频次在13次及以上，而霍译本只有4个单词的出现频率超过13次；两个译本的第20个高频词均只出现3次；

3.两个译本的高频词主要是虚词，虽有名词、动词和形容词，但它们占的比例很小。杨译本的这20个高频词涉及7个词类：动词(be, is和must)、代词(she, her和this)、介词(to, in, of, by, for和from)、形容词(sweet)、名词(spring)、连词(and, but和when)、冠词(the和a)，另外一个单词as跨两个词类：连词(3次)和介词(1次)；霍译本的这20个单词涉及7个词类：介词(of, in, with, by和to)、动词(must, was, shall, born, came)、冠词(the和a)、连词(when和and)、副词(yet)、代词(you, your和her)，另一个单词end，2次用作动词，1次用作名词。从词类数量可以看出，两个译本的高频词中，介词最多。

4.两个译本的这40个高频词均只有1个音节；杨译本这20个单词的平均字母数只有2.95，霍译本的为3.10；

5.在人称代词方面，两个译本的高频词均有人称单词her，但频率差异很大。杨译本使用了21次，而霍译本只使用了5次；但霍译本使用了your(15次)和you(10次)。显然，杨译本采用的是第三人称的视角来叙述人物故事，而霍译本讲述人物的生平故事时采用的是第二人称[9]。上述差异说明两位译者选取了不同的人称视角指代主人公，其情感倾向有所不同。

(四)译文的词频概貌

词是一个具有形式与意义双重特征的语言单位。我们在日常语言交际中，接触的是词的形式，联想的是词的意义。用索绪尔的话说，词的形式是能指，词的意义是所指[10]。词汇的使用绝不仅仅是单个词汇的问题，词汇是与语法、句法相对而言的。我们要使用语言，根据语法规则从大脑提取词汇时，有诸多因素影响我们的提取速度，如词频(frequency)、词汇歧义(lexical ambiguity)、词素结构(morphological complexity)、词汇性(lexicality)。词频是词汇认知中的一个重要变量。提取总量多、频率高的词汇逐渐发展成为自主词汇；提取少、频率低的单词则构成联想词汇。研究表明，高频词认知的阈限低，容易被激活，检索起来快，所需时间短；而低频词的认知阈限高，激活需要更多的时间和信息[11]。那么，《红楼梦》这14首判词英译本所用单词的词频如何呢？我们利用语料库分析工具Range统计了两个译本的单词词级(见表4)。

表4 两个判词英译本的词频概貌

表4中，“词频”一栏的0-1000表示使用频率最高的1000个词族，1001-2000表示使用频率次高的1000个词族，Academic是学术词汇，内含570个词族。从表4可以看出，软件Range统计数据显示，两个译本的形符分别为：杨译本295个，霍译本296个。但这两个译本的形符在词表中的分布有差异。杨译本有形符295个，出现在三个词汇表的数量分别是183(62%)、31(10.50%)和2(0.7%)，三个词汇表中出现的形符共计216个(22.90%)，没有出现在词汇表中的形符为79(27.10%)；而霍译本中，形符为296个，出现在三个词汇表中的数据分别为184(64.8%)、37(13%)和2(0.7%)，三个词汇表中的数据合计为296(79.4%)，没有出现在词汇表中的形符为61(20.6%)。简单地从数据来看，霍译本在三个词表中的单词比杨译本多出6.5个百分点。这样的形符分布有统计学意义上的差异吗？卡法检验结果显示，在形符分布上，三个词表的P值分别为0.289、0.448和0.997，均大于0.05，说明尽管霍译本译文的单词比杨译本的单词稍微简单，但它们在词汇表上的分布没有明显差异。我们使用同样的方法，检测了类符和词族的卡方值，得到的结果与形符一样，两个译本之间差别细小，均没有达到统计学上的差异，即无统计学显著性差异。上表数据显示，杨霍译本所呈现的译作水平相当。

三、结语

翻译是指人或机器将源语文化信息变化为目的语以求信息量相似的思维活动和语际活动[12]。译者从一个既定的框架出发，该框架由原文作者从自己已有的部分原型场景库提取而来。基于该框架，译者首先作为读者根据自己经验和内在知识建立自己的场景，并以非母语讲话者的身份，激活不同于原文作者意图或目标语言讲话者的场景。《红楼梦》英译全译本中，杨宪益先生与其夫人戴乃迭合译的杨译本和牛津大学中文系教授、著名汉学家霍克斯与其女婿闵福德合译的霍译本，是当今世上好评如潮的两个译本。

本文利用语料库语言学研究方法，从形/次比、词汇密度、高频词和词汇概貌等方面对比分析了杨译本和霍译本的语言特征。研究发现，两个译本的形/次比均明显高于《尚书》、宋词等英译文，阅读难度较大；两个译本的词汇密度相当，均超过60。两个译本虽然在动词、形容词、副词、名词这些实词应用方面存在频率上的差异，但这些差异均无统计学上显著性差异特征；译文的高频词分析显示，在20个高频词中，两个译本有10个高频词相同。卡方检验显示，这10个共同用高频词的使用频率没有统计学上的显著差异，但在人称使用方面，杨译本采用了第三人称视角来叙述人物故事，而霍译本讲述人物的生平故事时采用的是第二人称；词频概貌统计结果显示，霍译本的用词比杨译本稍微简单，在三个词表内的百分比高出杨译本6.5个百分点，但没有达到统计学上的差异性。基于语料库的英译文本语言特征比较，数据量化、维度多重、可操作性强，不失为一种具有借鉴意义的研究视角。