APP下载

基于汉法平行语料库的唐诗语言特征研究

2022-11-04李婷婷

名家名作 2022年15期
关键词:唐诗标准差译本

李婷婷

一、引言

唐诗代表了中国古典诗歌的最高成就,是中华文化和世界文化的宝贵财富,体现了中国人民的审美智慧,展现了中国语言文字的魅力。中国古诗词的魅力深深吸引了国外读者。早在18世纪,法国来华传教士杜赫德便在其著作中谈到了中国诗歌。19世纪下半叶至今,法国汉学家对于唐诗的翻译和研究一直从未间断,其中具有代表性的译者有德里文、葛戴密、乔治·雅热等。国内也有很多的翻译家为唐诗的翻译传播做出了巨大贡献,其中代表性的有徐仲年、梁宗岱、程抱一、许渊冲等。仔细阅读各种版本的唐诗法译本,我们可以发现每个译本的用词和句子构成都各不相同,存在着差异。但是如果用传统的翻译研究方法去研究各个译本之间的差异,就会缺少定量分析,其分析结果是很难令人信服的。语料库翻译学的出现,为研究译本的翻译风格指明了一条新的道路。语料库翻译学是以语料库为基础,借助语言学、文学、文化等方面的理论,对双语语料的翻译现象、翻译方法等进行系统分析的一门科学。

迄今为止,国内暂无专家学者运用语料库翻译学的研究方法,将定量分析和定性分析相结合来对唐诗法译本的译者风格进行分析和探讨。因此,本文拟以许渊冲的《精选唐诗与唐画》(法汉对照)和乔治·雅热的《唐诗三百首诗选》(以下简称许译和乔译)为语料,自建小型唐诗中法文平行语料库,运用语料库语言学的研究方法来研究两个译本的语言特征。

二、唐诗平行语料库的创建

(一)语料选择和收集

笔者首先从许渊冲的《精选唐诗与唐画》(法汉对照)中选取了10首诗歌的中法文,然后从乔治·雅热的《唐诗三百首诗选》内找到对应的10首法译本。第一步,通过OCR软件对所有语料进行扫描并转成Word文档,然后进行人工核对。汉语语料有一个,命名为cn-tangshi;法语语料有两个,命名为fr1-tangshi和fr2-tangshi,fr1为前缀文件,代表许渊冲译文,fr2为前缀文件,代表乔治·雅热译文。

(二)语料清洗

语料清洗就是指对文本进行除噪处理,即消除文本的内容问题和格式问题,以获得清洁文本的过程。在对唐诗语料进行降噪处理的过程中,笔者主要以人工校正为主,并辅以MS office Word 2016的内置功能来进行清理。首先,利用MS office Word 2016的法语纠错功能,查找并修改文本中包括乱码在内的单词拼写错误和语法错误等。处理完唐诗语料的文本问题之后,接着,笔者便使用MS office Word 2016的内置功能来解决文本的格式问题。语料清洗工作完成之后,将所有已清洗的文本另存为txt文档,编码格式设置为UTF-8,来方便进行之后的语料分词和标注工作。

(三)语料加工

语料加工,即运用合适软件进行文本分词和标注处理。所谓分词,指将一连串的字符转换成相互分离、容易识别的形符的过程。词性标注是指根据文本中上下文信息,自动标注文本中所有词的词性的过程。研究中,由于汉语和法语文字存在不同的构词特征,所以笔者对法语语料和汉语语料分别进行了加工处理,主要步骤如下。

1.法语语料加工

由于法语属于拼音文字,词与词之间的界限十分明显,因此,我们就不需要对法语文本进行分词处理,只需要进行词性标注,以便于后续进行法语文本的词汇密度统计。对于法语文本的词形标注,笔者主要运用的是Tree tagger软件来进行。该软件标注简单快捷,词性赋码标注符合法语词性划分的标准,准确率极高。

2.汉语语料加工

汉语语料加工主要涉及两个操作:汉语文本的分词和标注处理。在本研究中,笔者使用了国家语委开发的分词软件CorpusWordParser来对唐诗原文进行分词和标注处理。由于诗歌表达结构的特殊性,笔者在使用该软件进行一键分词和标注之后发现了有些地名和人名没有被分词软件识别,造成了“黄/nh 鹤楼/ns 送/v 孟/a浩然/a 之/u 广陵/ns”“故人/n 西辞黄鹤楼/ns”“ 姑/n苏/nhf 城外/nl 寒山寺/ns”中的词形标注出错,如“孟浩然”被分开标注且标记为形容词、“西辞”没有单独标记等问题。

3.语料检索

由于笔者研究的是两个法译本的译者风格,而Paraconc只能实现一对一平行语料的检索,因此笔者使用了由中国传媒大学开发的CUC-Paraconc作为检索软件,来对唐诗的法汉平行语料进行检索和分析。CUCParaconc软件是一款免费共享绿色软件,最多可实现1对16的平行语料检索,这一点恰好弥补了Paraconc的不足。但是CUC-Paraconc对原文和译文的对齐方式要求非常严格,必须完全对齐才能实现检索,因此,语料是否真正实现对齐,通过CUC-Paraconc软件便可以检测出来。以《春望》中“春”字的法译对比分析为例,笔者运用CUC-Paraconc进行了检索:打开软件,点击“一对多平行语料检索”,进入“加载语料及检索参数设置”界面,选择“源文本目录”及“保存目录”,将“选择译本数”设为2,“文本编码”设为“Default”,在“检索和提取”界面的“原文关键词”栏中输入“春”,检测结果正常显示在软件页面中,由此可见平行语料库创建成功。

通过检索结果可知,笔者所收集的语料中共有5条相匹配的句对,其中每一对应单元的最上面是汉语原文,两位译者都在与“春”相关的表述中使用了“printemps”一词,但是采用不同的表达来翻译与“春”相关的字眼或者诗句,让读者直观地看到了不同背景译者的不同处理方式。

三、基于唐诗平行语料库的语言特征研究

胡开宝教授指出,翻译语言特征大致分为翻译语言共性和具体语言对翻译文本的语言特征两大类,具体语言对翻译文本的语言特征主要表现在词汇、句法等层面。本研究中,笔者主要利用WordSmith 6.0软件从词汇和句法两方面对唐诗的两个译本进行语言特征的分析研究。

(一)词汇特征

词汇是语言的最小单位。研究译文的词汇特征有利于人们更好地了解译者的用词特点。译本的词汇特征可以利用语料库分析软件,通过分析文本的类符/形符比、词汇密度、平均词长、词长分布等相关数据得出。

1.类符/形符比

类符/形符比(STTR),是指文本中不同单词或汉字的数量与文本内单词或汉字总数之间的百分比。一般来说,类符/形符比越高,译者的用词就越丰富。

根据相关统计数据,唐诗原文的STTR值为88.48,高于许译本和乔译本,由此可见,唐诗汉语原文的用词丰富。许译本的STTR值为53.68,而乔译本的STTR值为51.42,这说明许译本比乔译本用词更为丰富,从另一个侧面说明乔译本译者使用解释性语言的程度更高。另外,笔者通过对比发现,许译本和乔译本的形符数都明显高于唐诗原文,有趋向显化的特征,即将唐诗文本中隐含的信息以明确的方式解释给读者听,以方便读者感受唐诗原文的意境。

2.平均词长和词长分布

平均词长是指一个文本所有单词的平均长度,这个平均长度反映了文本的整体用词难易度。词长标准差是指文本每个单词与平均词长的差异,它能反映文本单词词长的分布情况。笔者使用WordSmith 6.0软件得到的平均词长和词长标准差结果如表1所示。

表1 平均词长和词长标准差统计表

表1结果显示,乔译本的词长标准差为2.44,大于许译本的2.08,这正好说明乔译本中单词词长差异比较大,说明乔译本中译者所用单词与许译本相比,难度要更大一些。笔者通过WordSmith 6.0软件形成的这两个译本的词长分布情况正好验证了这一点,具体数据见表2。

表2 词长分布情况统计表

续表

通过表2数据我们可以看到,两个译本中使用频率高的词汇均为由2个字母构成的单词,且两个译本90%以上的单词均由1~6个字母组成的单词构成,这说明两个译本译者均考虑了译者的受众群体,倾向于选用较简单的单词去翻译文本,以便读者能更好地理解诗文内容。

同时,统计数据也显示出,乔译本的词长跨度为1个字母到16个字母单词,许译本词长跨度为1个字母单词到10个字母单词。可见,乔译本词长跨度明显大于许译本。文本词长与文本阅读难度成正比,由此可见,许译本用词比乔译本更为简单,从人类认知规律来看,许译本更易于被读者理解,更适合进行诗歌诵读。

(二)句法特征

译文句法特征主要体现在译文的平均句长、平均句段长、各类句式结构的使用频率上。笔者利用Wordsmith6.0软件对平均句长及句长标准差的统计结果如表3所示。

表3 平均句长和句长标准差统计表

1.平均句长

平均句长在一定程度上体现了句法结构的复杂程度,体现了总形符数与句子总数之间的比值关系,平均句长越短,说明译文句子的结构越简单,句子意思越容易理解。由表3数据来看,笔者所选十首唐诗原文,两个译本平均句长明显高于汉语平均句长,这表明,由于中国诗歌以短小精练、意韵深远为特点,单个汉字便能体现出深刻的内涵,需要译者用语言去表达出来,两个译者为了较准确传达出诗歌意义和内涵,均选择显化翻译的方式,通过解释性语言来尽可能地传达诗文意思。与此同时,通过表3数据,笔者还发现许译本的平均句长远低于乔译本的平均句长,许译本是11.31,而乔译本是16.92,由此可见,乔译本句子比许译本句子结构更为复杂。

2.句长标准差

标准差是反映数据分布离散程度的量化形式,句长标准差反映了每个句子长度与文本平均句长的差异。标准差越大,说明文本中句长差异越大。从表3数据可以看出,许译本的句长标准差为5.72,而乔译本则为8.17,显然,乔译本的标准差明显大于许译本,由此可见,乔译本中句子之间长度差异较大,而许译本的句长分布相对平稳。

四、结论

笔者在本文中基于自建的小型平行语料库,利用语料库相关软件对两个不同文化背景的译者的唐诗译文的语言特征进行了分析和研究。通过对两个译本的词汇特征和句法特征的分析可以看出,乔译本的词汇密度大,用词更为丰富,译者以自由体翻译的方式再现了原文诗歌的意境,符合西方人的语言习惯,适合西方人去阅读;而许译本句长标准差明显低于乔译本,句长基本保持一致,采用了意译归化的策略,译者在翻译上更贴近唐诗意境和韵律特点,形式上也显得更加整齐。通过研究我们也发现,仅靠单一的语言特征的定量分析还不足以完全揭示译者风格的差异。因此,在以语料库为基础进行译者风格研究时,还需要结合译者的翻译观、译者所处社会的政治文化等因素,将定性和定量数据相结合,才能全方位了解译者的风格。

猜你喜欢

唐诗标准差译本
用Pro-Kin Line平衡反馈训练仪对早期帕金森病患者进行治疗对其动态平衡功能的影响
唐诗写柳之妙
春夜讲唐诗记
唐诗里的日与月之争
《佛说四人出现世间经》的西夏译本
唐诗赏读
翻译中的“信”与“不信”——以《飘》的两个中文译本为例
对于平均差与标准差的数学关系和应用价值比较研究
医学科技论文中有效数字的确定
谈数据的变化对方差、标准差的影响