《淮南子》汉英平行语料库建设及应用前景

2021-06-15王翊张瑞娥韩名利

安徽理工大学学报·社会科学版 2021年1期

王翊张瑞娥韩名利

摘要：作为黄老道家的集大成之作，《淮南子》在英语世界的译介与传播是中华典籍外译的重要组成部分，然而学界对其英译研究的关注明显不足，研究方法仍以内省式、定性研究为主，缺乏实证性研究视角。文章基于语料库翻译学范式，以《淮南子》原文、白话译文及现有两个英文全译本建立汉英平行语料库，涉及语料收集、对齐、标注、检索等步骤，并对其应用于相关译学研究进行了展望，以期为《淮南子》英译研究提供新的路径及方法论借鉴。

关键词：《淮南子》;语料库翻译学;平行语料库;建设及应用前景

中图分类号：H319.3文献标识码：A文章编号：1672-1101（2021）01-0084-06

作者简介：王翊（1989-），男，安徽安庆人，讲师，硕士，研究方向：语料库翻译学、翻译理论与实践。

Abstract：AsamasterpieceofHuang-LaoTaoism，thetranslation，introductionanddisseminationofHuainanziintheEnglishworldisanimportantpartofthetranslationofChineseclassics.However，theacademiccircleshavepaidinsufficientattentiontoitsEnglishtranslationresearch，andtheresearchmethodsstillfocusonintrospectiveandqualitativeresearch，andlackempiricalresearchperspectives.Basedontheparadigmofcorpus-basedtranslationstudies，thisresearchestablishesaChinese-Englishparallelcorpuswiththeoriginaltext，modernChineseversionandtwoEnglishtranslationsofHuainanzi，involvingcorpuschoice，textalignment，textannotation，corpusretrievalandtheapplicationprospects，toprovidesomemethodologicalreferenceforthestudyofEnglishtranslationofHuainanzi.

Keywords："Huainanzi";corpus-basedtranslationstudies;parallelcorpus;constructionandapplicationprospects

《淮南子》由淮南王刘安主持编纂，成书于西汉初年，是继《吕氏春秋》之后黄老道家的集大成之作，其篇幅宏大、包罗广巨，融合儒、法、墨、阴阳等诸子百家思想之长，涵盖神话传说、天地之理、人间之事、治国方略等诸多内容。然而相较于其他先秦诸子典籍，《淮南子》在英语世界的译介与传播则更显艰难与滞后[1]，其英译本最早见于1884年《中国评论》（TheChinaRevieworNotesandQueriesontheFarEast）所刊载巴尔福（FredericH.Balfour）的《原道训》译文[2];20世纪以来尤其是第一次世界大战之后，随着西方对道家思想的研究热潮兴起，《淮南子》英文节译本开始陆续出现，其中比较有影响力的有伊万·摩根（IvanMorgan）、本杰明·沃克（BenjaminE.Wallacker）及安乐哲（RogerT.Ames）的译本;然而，其全译本直至2010年方才推出，分别有美国历史学家约翰·梅杰（JohnS.Major）和中国学者翟江月、牟爱鹏两个版本。

近年来国内学者对于《淮南子》的英译研究关注不足，为数不多的研究主要选取特定理论视角进行译文对比，观照其翻译规范及策略选择问题，如陈云会（2015）、李志强（2016）、丁立福（2016）、谭小菊（2019）;对西方汉学的相关研究进行梳理介绍，如陈云会（2016）、孟庆波（2018）;从出版模式、副文本設计等方面探讨《淮南子》的译介传播路径，如杨凯（2016）、丁立福（2019）等。鉴于现有研究仍以传统内省式、定性研究为主，主观性相对较强，本文尝试以《淮南子》原文、白话译文及现有两个英文全译版本为语料，建立“《淮南子》汉英平行语料库”并对其应用于相关研究进行展望，旨在为《淮南子》英译研究提供新的视角及一定的方法论借鉴。

一、语料库翻译学简介

语料库是依据一定采样标准收集的、能够反映某种语言或语言变体在真实语境下使用情况的大规模电子文本集合，是对海量自然语言进行存储、检索、统计分析的资料库[3]。语料库翻译学研究滥觞于MonaBaker（1993）在“CorpusLinguisticsandTanslationStudies：ImplicationsandApplications”一文中对相关研究理论价值、实际意义及具体路径的探讨[4]，并于之后二十多年间不断汲取语料库语言学及描写性译学研究成果，逐渐发展为继“语文学范式”“语言学范式”“文化范式”之后译学研究的又一重大范式转向。

自1995年Baker率其团队建立首个翻译类语料库——TEC（TranslationalEnglishCorpus）并据此展开相关译学研究以来，国内外陆续建立了一批用于翻译研究的语料库，如英国兰卡斯特大学建立的“Babel中英对应语料库”、美国马里兰大学建立的“《圣经》多语平行语料库”、北京外国语大学建设的“中国英汉平行语料库”、上海交通大学建设的“莎士比亚戏剧英汉平行语料库”、燕山大学建设的“《红楼梦》中英文平行语料库”、天津科技大学建设的“《诗经》多译本平行语料库”等。基于语料库的翻译研究涉及语料库建设、翻译规范、翻译语言特点、译者风格等众多领域，如Olohan以“英国国家语料库”和“翻译英语语料库”构成可比语料库，探讨了英语缓和词（moderator）在原创文本和译语文本中的使用频率和搭配的差异[5];胡显耀以语料库为工具和方法对当代汉语翻译小说的翻译规范进行描写分析，并结合哈贝马斯（Habermas）的“交往行为理论”对翻译行为的性质进行了重新阐释[6];周芹芹在系统归纳评述国内外近20年语料库翻译研究基础之上，提出了“MTI学习者翻译语料库”设计思路及研究路径[7];胡开宝在分析译者风格内涵与特征及梳理译者风格研究进展和问题的基础之上，详细论述了语料库应用于译者风格研究的具体路径[8]。

语料库翻译学是对语料库语言学及描写性译学的创造性继承和融合，其以建成的语料库为研究基础，以可靠的双语或翻译语料为研究对象，以数据整理及实证解析为研究手段，将定量和定性方法、自下而上与自上而下的方法相结合，注重进行多层次描写和多视角阐释，是一种对翻译标准、翻译实质及翻译过程进行解析阐释的全新范式，相较于传统的内省式、诱导式研究方法更具客观性、科学性[9]。

二、《淮南子》汉英平行语料库建设

语料库建设历来是语料库研究的重点议题之一，所有围绕语料库进行的研究都始于语料库的构建，语料库中语料的选择、布局对将要开展的研究至关重要[10]。语料库的基本类型按其所涵盖的语言种类及其相互关系可分为单语语料库、双语/多语语料库、平行语料库、可比语料库、原创语/译语语料库等。鉴于应用于翻译研究的语料库需承载至少两种语言并反映其对应转换关系，双语平行语料库与之有着较强的契合度，是本语料库建设所选择的库型，其创建过程主要涉及语料选择、语料对齐、语料标记/标注、语料检索四个方面。

（一）语料选择

《淮南子》原书共计62篇，分为内篇、中篇、外篇三部分，现仅有包括《原道训》、《齐俗训》、《道应训》、《精神训》、《人间训》、《兵略训》在内的21篇内篇存世。原文语言为古代文言文，与现代汉语在词汇特点、句法结构、音韵体系、语法规范等方面大相近庭，因此对其进行英译实际上经历了从古代汉语到现代汉语再到现代英语的过程，即包含语内翻译和语际翻译的一个“二度翻译”的过程[11]。有鉴于此，本语料库建设所选语料除包括《淮南子》原文、《淮南子》英译文之外，还将收录《淮南子》白话译文。

《淮南子》原文自成书至今版本众多，较为著名的有东汉许慎所撰《淮南鸿烈闲诂》、高诱所撰《淮南子注》、北宋苏颂所撰《校淮南子》、明代道家天师张宇初、张宇清所撰道藏版《淮南鸿烈解》等，其中部分版本在流传过程中已经遗失，现存最早版本为清代刘履芬影抄北宋小字本《淮南鸿烈》，1920年上海商务印书馆出版。此外，另有刘文典撰《淮南鸿烈集解》，1923年上海商务印书馆排印本;刘家立撰《淮南内篇集证》，1924年上海中华书局出版;杨树达撰《淮南子证闻》，1953年北京中国科学院排印本;马宗霍撰《淮南旧注参正》，1984年齐鲁书社标点排印出版;刘殿爵撰《淮南子逐字索引》，1992年香港商务印书馆出版;张双棣撰《淮南子校释》，1997年北京大学出版社排印本;陈广忠撰《淮南子》校点，2016年上海古籍出版社出版等。

《淮南子》英语全译本现有两个版本，分别为美国历史学家约翰·梅杰（JohnS.Major）及其翻译团队编撰的“TheHuainanzi：AGuidetotheTheoryandPracticeofGovernmentinEarlyHanChina”，2010年哥倫比亚大学出版社出版;中国学者翟江月、牟爱鹏所撰《淮南子》中英对照版，2010年广西师范大学出版社出版，“大中华文库”收录。

鉴于约翰·梅杰译本以刘殿爵版《淮南子逐字索引》（收录自“先秦两汉古籍逐字索引丛刊”，1992年版）为蓝本比照，故将其收入作为原文语料;翟、牟译文为中英对照版，可直接将中文原文收入，然而此版并未对其所选原文版本进行明确说明，后期有待与作者就此进行沟通核实;翟、牟中英对照版不仅包含了《淮南子》原文，另有翟江月今译白话文版，即意味着白话译文与英译文出自相同译者，在“二度翻译”时有利于对其进行分析描述，故将白话文版一并收入语料库作为平行语料;此外，将以上两个版本英文全译文均收入作为译文语料。

确定所选各版本语料后，即可开展中英双语语料的录入工作。刘殿爵版《淮南子逐字索引》、约翰·梅杰及翟、牟版全译文均可从亚马逊等图书网站获取纸质版，部分文本可从网络获取影印电子版。之后便可利用扫描仪、图片文字转换软件等工具进行文本电子化处理，处理后的电子文本分原文、白话译文、英译文以unicode内码格式存储为txt纯文本文件。在进行文本电子化的过程中难免会生成一些不合规范的文字、标点或段落标记，为保证语料的质量，先使用文本整理软件（TextEditor）进行“文本降噪”，再辅以人工校对。

（二）语料对齐

双语平行语料库的一个显著特征体现在双语文本间所构成的翻译对应关系，在形式上则表现为双语语料按照一定单位粒度对齐。对齐单位可分为篇章、段落、句、词等几个层次，单位粒度越小，所提供的语言信息就越多，应用价值也就越大[12]。出于汉英语言差异及语料库预期用途考量，这里对语料进行句级对齐。现今用于双语平行文本对齐的主流软件有TmxmallAligner、ABBYYAligner、ParaConc、雪人等，以翟、牟版《淮南子》第一卷《原道训》白话文、英译文为例，使用ABBYYAligner进行自动对齐的结果如图1所示：

刘殿爵版《淮南子逐字索引》古汉语原文与约翰·梅杰版英译文以及翟、牟版古汉语原文与英译文也将进行匹配对齐。由于现有的自动对齐软件无法支持古汉语文本，其对齐工作需人工手动进行，最终形成3个双文本对齐文件并以tmx及txt两种格式分别储存。

（三）语料标记/标注

语料收集入库后尚属“生文本”（RawText），无法有效发挥其潜在应用价值，对语料进行标记/标注是语料库开发和增值的重要途径。语料库标记、标注分别指对语料文本外部信息、结构特征的记录及对语料文本内部语言信息的附加注释[13]。根据语料库的基本架构和预期用途，这里对语料进行元信息标记、语法标注、翻译信息标注等处理。

元信息是一种用于描述和解释信息源的结构化信息，在语料库文本中，元信息通常用于提供语料来源、语言产出者、产出年代、语体类型等重要信息[14]。这里使用XML语言对《淮南子》各版本及文本分章节进行简单的层级标注，内容主要包含文本类型、书名/标题、出版社、作者、页码、字数、翻译方向等信息。以翟、牟版第二卷《俶真训》白话文-英译文对齐后的平行文本为例，其元信息标注如图2所示：

语法标注即依据词性对文本进行赋码，是句法等高级标注的基础，已成为语料库广泛采用的基本标注之一[15]。在进行词性赋码前需先对文本进行分词，即进行字符-形符转换，这里使用中科院分词系统（NLPIR）在线工具进行处理，以约翰·梅杰版第二卷“ActivatingTheGenuine”为例，词性赋码后的结果如图3所示：

翻译信息标注是对平行语料库语料进行的深度加工，做法是选择具有鲜明区别性语言特征的双语语料，对其所采用的翻译策略、方法、技巧等进行标注，以体现双语转换过程中所发生的文本操纵情况。目前，关于翻译信息标注的标注原则、标注项目、标记符号等尚未有统一标准，这里尝试采用朱纯深、Po-ChingYip（2010）提出的翻译标注分类法，将翻译信息在宏观上分为信息组织（informationorganization）、信息分布（informationdistribution）、信息明晰（informationexplicitation）、信息表达（informationrepresentation）、信息再现（informationrealization）、信息重构（informationreformulation）、信息及副信息（informationandpara-information）七大类[16]，借鉴熊兵（2015）关于具体翻译方法（TMtranslationmethod）、翻译技巧（TTtranslationtechnique）的标记符号[17]，并添加翻译策略（TStranslationstrategy）标记符号，选定部分有代表性的文本进行标注，部分标记符号如表1所示：

现今学界对于翻译信息标注的研究尚处于初期探索阶段，自然语言处理（NLP）软件亦无法实现自动批量处理，标注工作主要依赖人工手动，是一项长期的系统工程。

（四）语料检索

语料检索是遵循一定检索规则，对语料库数据进行批量提取及模式化呈现，并据此发现及验证语言现象和语言规律的重要途径。语料库检索工具可依据语言种类、检索载体、适用范围大致分为单/双语、基于网络/单机、通用/专用几类[18]，比较常用的软件有AntConc、ParaConc、Concordance、WordsmithTools等，其基本功能包括关键词索引（KWIC）、词表生成（Wordlist）、词频统计（Frequency）、型符/类符统计（types/tokens）、搭配统计（Collocate）等。结合语料库语料性质和各检索软件的特点，这里选择ParaConc作为检索工具，该软件为双语、单机、通用型，对平行语料库兼容度较高，支持利用通配符和正则表达式进行批量检索，并将检索结果以纯文本形式存储。

三、《淮南子》汉英平行语料库应用前景

本语料库包含《淮南子》原文、白话译文及两种英译文，承载英汉两种语言并反映其相互对应关系，属于双语平行语料库，与语言对比及翻译研究有着天然的内在联系[19]，其具体应用主要有以下几个方面：

（一）基于《淮南子》汉英平行语料库的翻译策略及方法研究

翻译策略及方法历来是翻译研究重点关注的议题之一，对于《淮南子》的英译策略方法已有学者进行了一些探究。然而，传统的研究路径多是自上而下式，即在某一特定翻译理论观照下预设一些翻译策略和方法再加以实例佐证，这就较为容易陷入自说自话的境地，且若不能充分举证，又难免有以偏概全之嫌。基于语料库/语料库驱动的翻译策略和方法研究将自上而下和自下而上的方法相结合，以充分、真实的双语语料为基础，对文本字/词数、句数、词/句长、词频、形/类符等数据进行统计分析，依据分析结果对译者所采用的翻译策略及方法进行描述归纳并尝试对其成因做出解释，更具逻辑性、客观性。

（二）基于《淮南子》汉英平行语料库的翻译语言特征研究

语料库翻译学将译语文本视为译入语的翻译语言变体，肯定其在译入语文化中的地位和作用，关注译语本身所具有的特点及独创性。翻译语言特征可分为翻译共性特征和具体语言对翻译语言特征两类，前者主要关注翻译文本中所普遍存在的规律性特征，后者则关注具体语言由于受原语、目的语影响在词汇、句法和篇章层面所体现出的特点。语料库建成后，可借助一些具有可比性的语料库作为参照库，尝试从词汇、句法结构特征、主题词及搭配、语义韵及搭配等方面入手，对《淮南子》两个英文全译本的翻译语言特征进行探究。

（三）基于《淮南子》汉英平行语料库的翻译规范研究

语料库翻译学对于翻译规范的研究承袭自描写性译学，后者将翻译活动视作一种特定的社会行为，而翻译规范则是社会共享价值观念对于此种社会行为的制约[20]，体现为译者在特定时期、特定社会文化环境下所做出的规律性、习惯性选择[21]，这也使得译本往往会呈现出一些具有某种倾向性的语言特征。基于《淮南子》汉英平行语料库，选取一批同时期产生的原创文本作为参照语料，以形/类符比、词性分布、平均句长、语义信息强度等要素为变量考察译本的翻译共性特征，进而对该时期的翻译规范进行假设、证实/伪、重构，并尝试从特定理论视域探索该翻译规范的成因。

四、结语

语料库方法應用于译学研究衍生出了语料库翻译学这一新的研究范式。作为对语言学范式及文化范式的批判性继承，语料库翻译学将对于翻译语言特征及相关翻译事实/现象的考查置于语言学诠释及社会文化因素互动关系研究的双重视域下，以大量真实语料为依据，借助自然语言处理、信息检索等技术手段，系统分析考察翻译现象及其内在规律，其定量、定性相结合的方法增强了相关研究的客观性、科学性。

鉴于目前学界对于《淮南子》英译研究关注不足且定量视角缺乏，本研究拟选取刘殿爵版《淮南子逐字索引》古汉语原文和翟、牟版古汉语原文及现代汉语译文，约翰·梅杰版及翟、牟版英译文为语料构建双语平行语料库，实现了文本的句级对齐、元信息标注及词性赋码，并尝试进行翻译信息标注等深加工处理，语料库建成后预计可用于《淮南子》英译策略及方法研究、翻译语言特征研究、翻译规范研究等译学领域。相较于以往以内省、定性为主的研究，集描写、阐释为一体的语料库方法可以为相关研究提供更为丰富的视角和路径，以期能够为《淮南子》英译及中华典籍外译研究提供一定的方法论借鉴。

参考文献：

[1]丁立福.论中国典籍译介之“门槛”——以《淮南子》英译为例[J].北京社会科学，2019（6）：4-14.

[2]FredericHenryBalfour.ThePrincipleofNature：AChapterfromtheHistoryofGreatLightbyHuai-Nan-Zi，PrinceofKiangLin[J].TheChinaRevieworNotesandQueriesontheFarEast9，1884（9）：281-297.

[3]梁茂成，李文中，许家金.语料库应用教程[M].北京：外语教学与研究出版社，2010.

[4]BakerM.Corpuslinguisticsandtranslationstudies：Implicationsandapplications[M]//BakerM.TextandTechnology：InHonourofJohnSinclair.Amsterdam：JohnBenjamins，1993：233-250.

[5]OlohanM.IntroducingCorporainTranslationStudies[M].LondonandNewYork：Routledge，2004.

[6]胡显耀.当代汉语翻译小说规范的语料库研究[D].华东师范大学博士学位论文，2006.

[7]周芹芹.中国MTI学习者翻译语料庫的建设与研究[J].当代外语研究，2015（2）：56-62+78.

[8]胡开宝，谢丽欣.基于语料库的译者风格研究：内涵与路径[J].中国翻译，2017，38（2）：12-18+128.

[9]胡开宝，朱一凡，李晓倩.语料库翻译学[M].上海：上海交通大学出版社，2018.

[10]SinclairJ.Corpus，Concordance，Collocation[M].Oxford：OxfordUniversityPress，1991.

[11]方梦之.中国译学大辞典[M].上海：上海外语教育出版社，2011.

[12]申文明，黄家裕，刘连芳.平行语料库的相似语句去重算法[J].广西科学院学报，2009，25（4）：248-250+256.

[13]李文中.语料库标记与标注：以中国英语语料库为例[J].外语教学与研究，2012，44（3）：336-345+478.

[14]梁茂成，许家金.双语语料库建设中元信息的添加和段落与句子的两级对齐[J].中国外语，2012，9（6）：37-42+63.

[15]梁茂成.词性赋码语料库的检索与正则表达式的编写[J].中国外语教育，2009，2（2）：65-73+81.

[16]ZhuC，YipP.ClinkNotes：Towardsacorpus-based，machine-aidedprogrammeoftranslationteaching[J].Meta，2010，55（2）：387-408.