APP下载

《西游记》汉越平行语料库的创建

2023-12-02刘克强

红河学院学报 2023年6期
关键词:译本西游记语料

刘克强,张 贤

(红河学院国际语言文化学院,云南蒙自 661199)

《西游记》是中国古代神魔小说的代表作,鲁迅先生在《中国小说史略》中精辟地指出,《西游记》“讽刺揶揄则取当时世态,加以铺张描写……作者禀性,‘复善谐剧’,故虽述变幻恍惚之事亦每杂解颐之言,使神魔皆有人情,精魅亦通世故。”[1]诚哉斯言,《西游记》以其深刻的内涵和富于个性的审美特征不仅令无数国人而且令越南读者关注和陶醉。已有的文献表明最迟十八世纪越南人就接触了《西游记》。但据黎亭卿考察,直到1909 年,陈奉瑟(Trn Phong Sc)才率先开始翻译《西游记》[2]。此后的半个世纪里,其他多位译者也开始翻译这部名著。其中瑞亭(Thình)译(以下简称瑞译本),Chu Thin(周天)校订,由河内普通出版社1961 年出版的《西游记》一经出版便受到读者良好反响,该译本是根据作家出版社1957 年排印本翻译的,全书分作八卷:卷一到卷八分别对应原文一至十回,十一至二十二回,二十三至三十四回,三十五至四十八回,四十九至五十八回,五十九至七十回,七十一至八十四回,八十五至一百回。书中附有《吴承恩的思想、生活及其〈西游记〉的来源》《〈西游记〉的思想意义》,《〈西游记〉的艺术成就》《〈西游记〉的评论与研究》四篇文章和插图多幅。据出版者在书前介绍,该译本只删节了不影响小说故事情节的一些文字,所附插图是依据上海人民美术出版社出版的画册拍照的,有关小说及其作者的材料是人民文学出版社提供的,出版者并对此表示感谢[3]。该译本是在越南市场再版和重印数量最多的全译本,目前最新印本是2020 年由河内文学出版社出版。此外,NhSn(如山),Mai Xun Hi(梅春海),Phng Oanh(方莺)合译(以下简称如译本)、由河内文学出版社1982 年到1988年间印刷出版的全译本共8 册,2007 年再版整合为2 册,2015 年再次出版后全译本确定为3 册。另外,坊间还有2003 年信息文化出版社Bi Hnh Cn(裴幸瑾)译本和2019年文学出版社Lan Phn(杜兰芳)译本及其他节译本,但从再版次数、印刷数量和读者评价等方面考量,目前瑞译本和如译本是在越南最受大众欢迎的两个译本。

瑞译本问世距今有60 多年了,国内目前仅有零星的介绍该译本的情况[3,4]。至于其他译本几乎查询不到相应的资料。在越南,瑞译本和如译本多次重印,读者众多,但相应的研究也是凤毛麟角。既然瑞译本和如译本有如此影响,有必要进行相应的系统研究,而基于平行语料库的研究是实现量化研究的重要手段,获得的结论科学。通过建立《西游记》原文及瑞译和如译一对二汉越句对齐平行语料库,对原文中的佛教词汇、道教词汇、成语、俗谚、歇后语、惯用语、格言、淮安方言及江淮方言九个方面进行标注;对译文进行词性标注及汉越词标注,可探索解决以下问题:

(1)汉语典籍中的佛教、道教文化在越南语中是如何体现的?

(2)固定且典型的汉语表达如何移植到越南语的?

(3)汉语方言又是如何得到跨语言重生的?

(4)两个译本间的区别与联系如何?在词汇使用及文体上存在哪些差异?

为回答以上问题,必须创建《西游记》一对二汉越平行语料库,下面从文本电子化、句对齐、标注及检索四个层面介绍该平行语料库的创建过程。

一、文本电子化

文本的电子化是建立语料库的第一步,也是最基本的步骤。电子化过程一般包括扫描、识别、校对三个环节。当然,理想状态是从出版社直接购买电子版本。瑞译本和如译本均未见电子文档,只有纸质书在售卖,因此首先要将纸质文本电子化,转化成计算机可以读取和编辑的文档,常见的操作是用扫描仪将文档扫描成图片,然后利用OCR 软件识别成可编辑的电子文档。这里使用CZUR Scanner软件,其正确率在95%以上,扫描转化后进行校对;至于汉语文本,我们选择质量较好的一个网络文档,拷贝后对着纸质书(《西游记》作家出版社1957 年版,瑞译的底本;如译也以此版为底本)进行逐字校对。事实上,经过反复校对后,往往还存在些许错误,因此,在此后进行对齐工作时,仍须留意语料是否有错误,一旦发现立即改正,目的是将错误降到最少。电子化后,对原文和两个译文进行字词数统计,结果为:《西游记》字数为715,163,瑞译本的总词数为466,061;如译本的总词数为492,979。

二、对齐

“语料间的对齐在平行语料库的建设及应用中都是一个关键步骤”[5]。语料对齐指在两种或多种语言文本的不同语言单位之间建立对应关系,即确定源语文本的哪个语言单位和目标文本的哪个语言单位互为翻译关系[6]。对齐的方式按语言单位从大到小划分,可分为段落、句子、短语和词对齐四种,相应的对齐难度呈递增趋势。段落对齐相对较为容易,其次为常见的句对齐,短语对齐和词对齐目前正在进行研究。对齐的工具可分为在线和线下两种,前者如Tmxmall 在线对齐工具(https://www.tmxmall.com/aligner)、金声语料对齐助手(https://gs-lam.com/aligner)等;后者包括三类:1.软件内嵌的语料对齐模块;2.独立的语料对齐工具;3.编程对齐工具[7]。第1 类如Trados Studio的Align Documents,memoQ 的LiveDocs,Déjà Vu的对齐模块及Transmate 的对齐模块等,第2 类如ABBYY Aligner,LF aligner 和AutoAligner 等。尽管这些线上线下工具可以处理多种语言间的语料对齐(memoQ 甚至可以支持超过150 种语言),自动对齐的准确率和效率都有很大的提升,但结果仍然需要人工校对和干预。对于一对一(一种语言文本对应另一种语言文本)尚且如此,对于一对多(一种语言文本对应另外两种及以上语言的文本,或一种语言文本对应另外语言的两个及以上的文本),软件目前无能为力,只能采用人工手动对齐方式进行。为了帮助人工实现一对多,上海外国语大学语料库研究院胡开宝教授领衔的团队研发了SISU Aligner 2.0.0(可通过http://corpus.shisu.edu.cn/cyylkrj/list.htm 提供的信息下载),可用于双语或多语文本的平行对齐,实现“一对一”“一对二”或“一对多”平行文本的编辑、对齐等。该软件支持汉语、英语、阿拉伯语、法语、泰语、维吾尔语、乌尔都语、西班牙语、匈牙利语、藏文等多个语种的文本处理。对齐后导出的语料格式可兼容ParaConc 等平行语料检索工具。图1 是加载汉语原文、瑞译及如译后的界面(本文以《西游记》第二回内容为例,为节省篇幅,略去原文和两个译文的文字)。

图1 加载原始文本后的界面

从图1 可以发现,加载原始语料后,语料是以段落的形式呈现的。为了实现句子层次的对齐,需要对语料进行句子切分。在汉、英语中,通常将句号、问号及感叹号作为句子结束的标记。因此,按软件的操作说明:使用快捷键 Shift+Ctrl+R,出现 Replace all,红色框内填代表句子结束的标点,如汉语的“。”“!”“?”(一次只填写一个,仅引号内)然后回车,出现 With 界面,with后输入需要换行的标点符号+ (此处的标点符号跟上一步的必须一致),如。 ,然后回车。就可以将汉语的所有句子进行切分;同理,英语语料按“.”“!”“?”切分。得到的结果见图2(“第二回”“悟彻菩提真妙理”及“断魔归本合元神”后分别按下回车键)。

图2 语料句子切分后的界面

切分句子后,根据原文句意,进行对齐,存在原文一句对应译文各一句的是理想的状态,大多数情况下,需要寻找原文与两译文的语意交集,通过句子组合的方式进行处理后才能对齐,如果出现原文没有翻译的部分,则在相应的位置标上;同理,如果译文找不到对应的原文,则在相应的位置标上。图3 是本回对齐后的界面,其中在瑞译中出现“//”符号,是因为其前没有句子标记,以示区别。

图3 语料对齐后的界面

对齐后的语料已经成为平行语料库,可进行检索。但往往根据目的的需要,对语料进行标注,以便通过检索标注后的语料达到研究目的。

三、标注

标注就是对语料库中的原始语料进行加工,把表示语言特征的赋码添加在相应的语言成分上,以便计算机识读。Leech[8]认为,语料库标注可以为语料库带来增值,故建议要大力提倡。标注根据研究的需要可以在语言的各个层次上进行,如语音、语法、句法、语义、语用标注等。标注是研究目的的一种体现形式,根据研究需要,我们对语料的词汇、语法层次进行标注。前者包括汉语语料的佛教词汇、道教词汇、成语、俗谚、歇后语、惯用语、格言、方言(淮安方言及江淮方言)的标注,后者则是对越南语语料的词性及汉越词进行标注。

汉语语料的标注采用机辅人工标注的方式进行,主要使用BFSU Qualitative Coder 软件,该软件是北京外国语大学中国外语与教育研究中心许家金教授设计、贾云龙负责开发的一款绿色共享软件。经过简单的二次开发后,将标注按钮重新设计成为佛教、道教、成语、俗谚、歇后语、惯用语、格言、淮安方言及江淮方言九个。标注时只要选择相应的按钮,选中对应的词汇,就可实现自动标注,非常方便。此外,BFSU Qualitative Coder 还可对标注进行统计和检索,功能相对齐全。

(一)汉语语料标注

根据研究的需要,汉语语料主要是对佛教词汇、道教词汇、成语、俗谚、歇后语、惯用语、格言、淮安方言及江淮方言九个方面进行标注。由于这九个方面有交集部分,如《西游记》第二回中出现“天女散花”这个词汇,既是佛教用语,也是成语。因此分别以独立文件的方式进行,最后生成九个文件,同时也便于检索。

1.佛教词汇标注

《西游记》作为神魔小说,尤其是表现去西天取经的故事题材,其中大量出现了佛教词汇。另一方面,佛教传入中国后注入了大量新词汇,许多佛教专用语在汉语中得到广泛的使用,成为中国传统文化中不可分割的一部分。本研究中所认定的佛教词汇是指已经定型、翻译自佛典中的汉译词汇而不是佛教原典中的梵文词汇,况且那些词汇在《西游记》中并没有出现。据梁晓虹的划分,佛教词汇从构成方式上有如下五种类型:佛教音译词,如袈裟、比丘尼等;佛教意译词,如地狱、智慧等;梵汉合璧词,如菩提树、禅杖等;佛化汉词,如因缘、境界等;最后一类是佛教成语,如一尘不染、不二法门等[9]。本文以丁福保编《佛学大辞典》,文物出版社1984年版[10]及任继愈主编《佛教大辞典》,凤凰出版传媒集团2011 年版[11]中出现的佛教词汇为依据进行标注。共计566 条。标注结果见图4。

图4 佛教词汇标注界面

2.道教词汇标注

道教是发源于中国、由中国人创立的宗教,所以又被称为本土宗教。道教对我国古代政治、经济都发生过深刻的影响,而且对中国传统文化的形成与发展产生过极其重要的影响。虽然唐僧取经是典型的佛教故事,但《西游记》在流传发展的过程中便是糅合了佛教、道教思想而诞生的。可以说是对道教神话体系构建的最完善的作品,其典型的标志就是《西游记》的人物命名、章回篇目、情节演绎、诗词韵文等都使用了许多道教词汇,这些词汇也为小说增添了些许神秘的色彩。本研究中道教词汇的确认主要参考以下两个权威工具书:一是闵智亭、李养正主编,由华夏出版社1994 年出版的《道教大词典》[12];另一个由胡孚琛主编的《中华道教大辞典》,中国社会科学出版社1995 年版[13]。共计标注道教词汇180 条。

3.成语标注

成语是一种习用的固定短语,具有丰富的思想内涵和历史文化背景。体现出意义整体性、结构凝固性和风格典雅性的特征[14]。《西游记》中的成语主要源于以下五种途径:一是神话传说,如开天辟地、炼石补天等;二是古代寓言故事,如打草惊蛇、班门弄斧等;三是典籍,如驷马难追、犬马之劳等;四是宗教,如醍醐灌顶、天花乱坠等;五是语言习俗,如趁火打劫、没精打采等。以刘洁修编著的《成语源流大词典》,江苏教育出版社2003年版[15]及刘万国、侯文富主编的《中华成语辞海》(修订本),吉林大学出版社2009 年版[16]为依据进行标注,共计662 条。其中大部分为四字格,也包含极个别的三字格、六字格及八字格的。

4.俗谚标注

俗谚是俗语与谚语的合称。是群众口语中通俗精炼、含义深刻的固定语句。依据武占坤、马国凡主编的《汉语熟语大辞典》,河北教育出版社1991年版[17]及温端政主编的《俗语大词典》,商务印书馆2015 年版[18]收录的俗语与谚语为参照进行标注,共计269 条。这些俗谚大多是关于生产生活哲理、社会生活事理、为人处世法则及人生智慧等方面的启迪与经验的总结。语言简练生动、文字整齐、和谐押韵、寓意深刻,具有独特的艺术魅力及精神文化价值。

5.歇后语标注

歇后语,又称俏皮话或引注语,是汉语的一种特殊语言形式。它一般由两个部分构成,前半截是形象的比喻或隐喻,像谜语的谜面,后半截是解释、说明,像谜底。在一定的语言环境中,通常说出前半截,“歇”去后半截,就可以领会和猜想出它的本意,所以称之为歇后语。歇后语在形式上的特殊性、构义上的灵活性、意象的虚拟性及风格的谐谑性[19]使得《西游记》语言生动活泼、幽默风趣。歇后语常常使用比喻和谐音的两种修辞手法,据此可将其分成两类:一是喻意歇后语,一是谐音歇后语。依据温端政等著,由上海辞书出版社2004 年出版的《中国歇后语大全》[20]收录的词条进行标注,共计22 例。

6.惯用语标注

惯用语是指口语中短小定型的习用的短语,在形式上大都是以三音节为主,也有三音节以上的。多采用自然、简明、生动、有趣的隐喻方式表义,具有通俗洗练、含蓄幽默的特点。以黄斌宏主编,由商务印书馆国际有限公司2009 年出版的《汉语惯用语词典》[21]收录的词条为依据进行标注,共计39 例,其中三音节有22 例,如弄手脚、装幌子及小家子等。

7.格言标注

格言,古时也称箴言,指规谏劝诫之言,人们引用格言的一个主要目的,在于给人以忠告或规劝,从而提高个人的修养。格言,作为人们行为规范的言简意赅的语句,从句法结构角度说是相对完整、相对独立的句子,可以独立用来表达思想。依据温端政编写,由商务印书馆2016 出版的《新华格言词典》[22]收录的词条进行标注,共计13 条。

8.方言标注

徐朔方[23]详细叙述了《西游记》的成书过程,并论证了该小说是世代累积性集体创作的结果。作为世代累积型小说,吴承恩是最后的编写者,语言中无疑有包括吴承恩家乡的方言。据王毅[24]对《西游记》的方言词汇进行调查的结果看,认为小说是以淮安方言为基础方言进行创作的,并且还包括江淮方言等十几种方言。其中淮安方言区特有词汇120 条,江淮方言区共143 条。前者如素袋、厌钝等,后者如不当人、炮燥等。本文用BFSU Qualitative Coder 中的“淮安”及“江淮”两个标注按钮进行标注。

(二)越南语语料标注

《西游记》瑞译及如译的语料,主要进行两个方面的标注:一是词性标注,一是汉越词标注。

1.词性标注

词性标注又称语法标注,即给语料中的每一个词赋上相应的词性,如名词、动词等。刘克强[25]梳理了越南语词性标注软件的分类,在此基础上介绍了越南语词性标注软件。其中由LHng Phng与法国南锡LORIA 实验室合作开发的vnTagger 的准确率和召回率可达96%,是目前越南语词性标注软件的最好结果,基本可满足研究使用。我们使用vnTagger 4.2.0 版进行词性标注。下面以瑞译《西游记》第二回的部分语料为例来演示标注后的情况。

2.汉越词标注

从上面标注后的语料带“<>”为汉越词,显然此段中含有khoi ch,hnh lang 及ts共两个汉越词。

四、检索

检索是实现研究目的,进行研究的最关键的步骤。经过句对齐的语料和对齐后进行标注后的语料已经是平行语料库,都可以进行检索。根据研究目的,确定检索对象,得到的结果与目的相一致。检索一般由检索软件来进行。平行语料库的检索软件目前使用比较广泛的有ParaConc,CUC_ParaConc,BFSU ParaConc,AntPConc,HyConc 和Wordless 等,其中ParaConc 是商用软件,由新西兰奥克兰大学应用语言学系Michael Barlow 教授开发,可用于对最多可达4 种不同语言的平行语料库进行检索研究。当然,也可用于对同一源语文本的3 种不同译本进行检索研究,功能十分强大,包括“一般检索”“高级检索”及“平行检索”等。其他三款软件属于免费共享软件,功能相对单一。下面选择ParaConc 对《西游记》原文与两个越译本平行语料库进行检索,以格言为例,旨在发现格言的越译情况,结果见图5。

图5 《西游记》格言检索界面

检索结果发现《西游记》中有13 条格言,三个语言框从上到下顺序为原文、如译及瑞译,进一步对比研究会得到十分有意义的结论。

五、结语

本文介绍了《西游记》汉越一本两译平行语料库的创建的思路和做法,讨论了一本多译汉越平行语料库的设计问题,着重描述了文本选择及电子化处理、句对齐、不同层次的语料标注及检索等具体问题,目的是通过机辅对齐软件和标注软件的支持,建立适合个人研究目的平行语料库,以期开展匹配于研究目的翻译研究,特别是促进名著越译的研究。随着研究的深入开展,会进行更多维度、更深层次的标注,期望产生更多有价值的成果。同时,时机成熟时,我们会将这个检索平台移植到线上共享,供更多的研究者使用,从而充分发挥平台的使用价值。

猜你喜欢

译本西游记语料
《佛说四人出现世间经》的西夏译本
西游记
西游记
西游记
翻译中的“信”与“不信”——以《飘》的两个中文译本为例
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
《孙子兵法》俄译本简介