《道德经》汉英平行语料库的建设及其应用
2018-02-01张丽娟
张丽娟
摘要:本文以《道德经》两个最具代表性的英译本为例,自建《道德经》汉英平行语料库,介绍语料库的建设过程,包括语料的收集、除噪、切分、标注和对齐,通过语料库软件的检索方法,定量分析两个英译本的类形符比、平均句长,词汇密度等方面的不同,为《道德经》的英译研究提供新的解释和描述视角。
关键词:《道德经》;语料库;创建和应用
随着计算机技术和翻译研究的不断发展和深入,语料库不断应用到翻译的各个方面。这些研究主要分为两类,一是基于语料库的翻译研究,一是翻译语料库的介绍与创建。本文以《道德经》两个最具代表性的英译本为例,自建《道德经》汉英平行语料库,介绍语料库的建设过程,包括语料的收集、除噪、切分、标注和对齐,通过语料库的研究方法,定量分析两个英译本的译者风格,为《道德经》的英译研究提供新的解释和描述视角。
一、《道德经》英译研究综述
老子是道家的创始人,他的思想对中国哲学的发展影响深刻,所著《老子》又称《道德经》,全书五千多字,共81章,前37章卷上为《道经》,后44章卷下为《德经》。它是中国历史上第一步具有完整体系的哲学著作,老子的《道德经》全球发行量和翻译语言的数量都仅次于《圣经》。《道德经》早在公元7世纪唐朝就由玄奘翻译成梵文(张文莉,2017),世传《道德经》英译最早是在1868年由传教士湛约翰翻译的,姚达兑(2017)发现更早的英译手稿在1859年由裨治文翻译,而第一个中国人自己翻译的《老子道德经》是在1936年胡子霖完成的(吴心海,2012),截止2010年《道德经》西译本达到643种,英译本有200种(张文莉,2017)。河南社科院副研究员丁巍(2004)在《老学典籍考:二千五百年来世界老学文献总目》中,将二千五百年来的中外老学典籍文献汇聚成总括性专题书目。《总目》共5编102万字,内收中国语言系2048个文种、东方语言系503个文种、西方语言系618个文种以及老学论文4297篇。《道德经》英译之早,版本之多,研究之众,足见其历史之悠久,影响之深远。《道德经》的历史地位、思想价值和现实意义都值得进一步研究和传承。
《道德经》英译的研究很多,但是通过语料库研究的却不多。笔者以1988年为起点,2018年6月20日为终点,从中国知网学术期刊总库以“《道德经》英译”为关键词进行搜索,结果有180篇,而用语料库进行的研究却只有12篇,其中有4篇是自建语料库,还有2篇是通过语料库分析《道德经》哲学术语翻译和《道德经》译文显化研究。本研究计划收集有代表性的《道德经》汉语源本和英译本,建立更加系统、更加全面、更加专业的语料库,并对这些语料进行标记。接着借助语料库工具对代表性英译本进行对比分析,通过对其主要参数包括形符与类符、词频排列、词长、句长、句数、句型和汉英句对模式进行统计描述,对各译本的语言风格和翻译技巧进行详细的研究。通过译本的对比,找到并总结译文中出现的错误,再加以改进。更好的描述翻译现象,再现翻译过程,揭示翻译规律。
二、《道德经》汉英平行语料库的创建
语料库的创建流程包括:原文和译文版本的选择和语料收集、对收集文本进行清洁处理,经过除噪、校对,然后保存成txt文本,接着对语料进行切分、标注并校对,最后将语料对齐,就可以运用语料库的软件进行语料检索、获取参数、分析数据了。
(一)收集语料
源本和英译本的选择涉及到其典型性,尽量将有代表性的都全面收录。《道德经》的源本版本繁多,仅世传《道德经》就有356种,1973年长沙马王堆汉墓出土的帛书《道德经》也有甲乙两种抄本,1993年湖北荆州郭店楚墓出土的竹简《道德经》是现存最早的版本(陈国华,2002)。《道德经》英译的版本普遍认为有一百三十多种。本研究选取英国汉学家阿瑟·威利和中国作家林语堂翻译的两篇译文。两个译本的译者属于中英两个国籍,且处于不同的时期,所以具有一定的代表性。本研究的原始语料为纸质版,通过OSR扫描识别为图片保存,经过ABBYY Fine Reader将图片转化成txt文本,人工校对后将文本存储为UTF-8编码格式。
(二)语料处理
通過软件EditPlus将文本中的拼写错误、多余的空格和空行、多余的硬回车和软回车、多余的横线处理掉,这里清洁文本不改变文本原来的结构。《道德经》英文部分来自书本,部分来自网站,这些语料都需要进一步处理,对汉语的文本加工包括分词、标注和对齐,对英文译本的处理包括语料整理、标注和对齐。对于中文语料的分词处理,可采用中国科学院计算机技术研究所开发的汉语词法分析软件ICTCLAS3.0进行自动分词处理。但是由于是古汉语,需要人工辅助分词,加以校对,提高准确率。对于英文语料的标记,本项目采用文本编码计划模式(TEI)对篇头和篇章作注,信息标注包括题目、出版社、出版时间、致谢、版本情况、前言、后记、序跋、参考文献等,篇章注包括段落标注、语句标注、语法和语义标注等,并加以适当的评述。软件“文本处理器”可以同时处理成百上千个文件,确保英文文本由半角字符构成,词句之间留有空格,题目和段落之间有回车符。最后本研究使用中国传媒大学自主研发的CUC ParaConc软件,来实现句与句、段与段和篇章与篇章的对齐。
(三)语料切分标注
语料标注分为语言信息标注和非语言信息标注,语言信息标注包括词性标注和语法标注,非语言信息包括作者、译者和出版信息等。研究者也可以根据研究的需要设计标注体系。本研使用软件TreeTaggerMultilingual对英文文本进行词性标注,汉语文本没有词的界限,使用软件CorpusWordParser进行标注的同时进行词的切分。
(四)语料对齐
文本对齐有不同层次的对齐,篇章对齐比较容易,句级对齐则需要加上人工校正。本研究使用TMXmall在线工具将文本对齐,再导出文本就建成了双语平行语料库。
三、《道德经》语料库的应用
本研究利用创建的《道德经》平行语料库对两个有代表性的译本进行基本的统计描述,包括词频、平均句长、类符/形符比、平均词长、词汇密度等。Wordsmith软件统计结果可以看出,威利译本共有9533个字,比林译本多1521个字,说明威利更倾向于意译,解释更多。而林译本的类符/形符比为21%,略高于威利的译本19%,则说明林译本的词汇变化性更大,使用不同的词汇更多,从而阅读难度相差不大。
高频词汇的检索可以了解译文主题信息内容,AntConc软件可以列出两个语料库的高频词汇。威利译本从高到低的前五个高频词为the,is,to,of,and,其中“the”和“of”的词频较高说明句子结构的复杂性,威利译本中达到6.23%。林译本前五个高频词汇the,is,of,and,to,“the”基本相同,“the”的使用达到了7.06%,略高于威利译本,这说明两译本的句子结构复杂程度相当。
词汇密度主要指的是实词所占的比重,词汇密度越大说明实词使用越多,信息密度越大。威利译本词汇密度为57%,远远大于林译本37%的词汇密度,因而阅读难度也比较大。总词数威利译本比林译本多近1500多词,说明威利译本对原文的解释说明较多,显化特征更加明显。
两译本的高频实词占比都超过了60%,如关键词“道”的翻译,林译本倾向于音译翻成“Tao”,出现了71次,而威利译本并未出现“Tao”,威利倾向于意译翻成“way”,这表明林采用了音译的翻译方法,而威利采取了意译的翻译策略。再如“天下”的翻译,林译本翻成“world”,威利译本翻成“empire”,这说明两译本的主题和译者对原文的理解相差较大,这个跟两位译者的背景关联很大,林语堂是中国著名的作家,对中国文化的理解更透彻,而威利是英国有名的汉学家,更多考虑西方读者的接受程度。
四、结语
本研究存在三个难点,第一个难点是源本和译本的选择。《道德经》的源本版本繁多,仅世传《道德经》就有356种,英译本有两百多种,源本和英译本的选择涉及到其典型性,尽量将有代表性的都全面收录。不同历史时期,不同国别,不同性别,不同的社会功能,不同的翻译风格都要照顾到。第二个难点是简体字和繁体字的使用,目前的《道德经》的源本中,二十世纪八十年代以后才开始使用简体字,大部分源本仍然保留着繁体字,在建库的时候最好配上简体字,以方便不熟悉繁体字的读者。第三个难点是古汉语标点的问题。古汉语都不断句,“五四”运动之后才出现了带通行标点符号的古书。这些在以后的研究中都可以进一步改进。
另外,本研究除了建设《道德经》双语平行语料库之外,还将通过语料库分析它的不同译本风格,以后还可以进一步研究译本共性,发现译误,改进译文,总结翻译策略,从而为译员提出典籍翻译的原则,为广大读者提供更好的译本,更好的描述翻译现象,再现翻译过程,揭示翻译规律。
参考文献:
[1]冯晓黎.帛书本《老子》四英译本的三维审视[D].上海外國语大学,2007.
[2]汪定明,李清源.《老子》汉英翻译平行语料库建设[J].上海翻译,2013 (04):60-64.
[3]文军,罗张.《道德经》英译研究在中国[J].上海翻译,2012 (01):19-23.
[4]温军超.华人《道德经》中英平行语料库的构建分析[J].淮北师范大学学报(哲学社会科学版),2017,38 (01):115-119.
[5]辛红娟,高圣兵.追寻老子的踪迹——《道德经》英语译本的历时描述[J].南京农业大学学报(社会科学版),2008 (01):79-84.
[6]严敏芬,闵敏.基于语料库的《道德经》核心哲学术语英译研究[J].南京航空航天大学学报(社会科学版),2013,15 (04):60-65.
[7]Baker,Mona.Corpus linguistics and translation studies:implications and applications[A].In M.Baker,et al(eds.).Textand Technology[C].Amsterdam:Benjamins,1993:233-252.