《论语》汉德平行语料库的建设
2018-08-21李小龙
摘 要: 近年来平行语料库相关研究受到国内外学者们的重视。汉德平行语料库相关研究相对处于起步阶段,本文以自建《论语》汉德平行语料库为例,叙述了汉德平行语料库的建设步骤、语料对齐,并介绍需使用的软件。
关键词: 汉德平行语料库 语料库建设 《论语》 卫礼贤
1.平行语料库
“平行语料库”是英语术语“parallel corpus”翻译而成,但我国学者对该术语的翻译存在差异。国内使用较多的术语是“平行语料库”,还有“对应语料库”、“平行对应语料库”、“对译语料库”、“并行语料库”和“对照语料库”等表述。本文采用“平行语料库”这一使用较多的术语。
双语平行语料库自20世纪90年代开始研制,在计算机语言学中蓬勃发展,并渗透到其他方面。由于平行语料库既含有源语篇章又含有其平行对应的目的语篇章,因而可用于目的语篇章与源语篇章的对比分析。平行语料库可为实证研究、对比语言学和翻译研究提供研究基础,也可用于双语词库的提取、双语词典的编纂、机器翻译和语言工作领域。
在国外,荷兰、挪威、英国、美国、加拿大等许多国家都建立了涉及不同语种的规模不同的平行语料库。内地及港澳台的不少大学和语言研究中心分别建立了侧重点不同的“英汉双语语料库”。北京外国语大学中国外语教学研究中心还推出了汉英、汉日两个对应库的大型“双语平行语料库”。
国内德语界基于汉德平行语料库的建设和研究几年前已经启动,标志是钱敏汝2011年主持的“中国科学院自动化研究所模式识别国家重点实验室与北京外国语大学联合开展德汉双语语料库研究项目”。目前基于汉德平行语料库在翻译方面做出的研究是笔者的博士论文《基于语料库对<论语>卫礼贤德译本的跨文化研究》,此外,葛囡囡的博士论文《语料库支持下的专利文献德汉翻译探究——一项篇章语用学视角下的研究》也是借助德汉平行语料库对专利文献做出的研究。
在笔者的博士论文研究中,通过自建小型《论语》汉德平行语料库,借助ParaConc软件,将平行语料库的检索和研究方法运用到中国文化特色词语的翻译当中,在汉德平行语料库方面的研究做出了新的尝试和开拓。
2.《论语》汉德平行语料库的创建方法
平行语料库的创建与普通语料库的创建相比,既有相同之处又有特殊之处。平行语料库的准备过程与普通语料库有共同之处,都需将纸质语料扫描、转化和校对或对电子语料筛选整理。与普通语料库不同的是,平行语料库的创建还需要进行双语语料之间的对齐,即将源语篇章与目的语篇章建立起段落或者句子层面(甚至是词语层面)的对应。“语料间的对齐在平行语料库的建设使用中都是一个关键步骤”(McEnery/Xiao/Tono,2006:50)。
2.1建立单语语料库
建立单语语料库是建立平行语料库之前的一个重要步骤,工作量较大,主要涉及篇章的收集、扫描、录入和反复校对。笔者博士论文研究中自建《论语》汉德平行语料库的单语纯篇章语料库包括《论语》中文20篇,卫礼贤的德语文献型翻译20篇,卫礼贤的德语工具型翻译20篇。篇章获取的来源主要有两种:一是电子文稿;二是纸质印刷体。
《论语》中文版本在网上搜集电子文稿,然后以杨伯峻《论语译注》为基础,通过人工校对排除异同。采用杨伯峻的《论语译注》为本语料库中文版本有以下几个考虑:首先,卫礼贤翻译《论语》的参考文献中列出了《四书会解》《宋本十三经注疏》《古经解》《皇清经解》《乡党句解》《困学纪闻》等书籍,但对使用的版本未明确说明,其使用的中文版本在当今学界研究中尚未有明确发现;其次,杨伯峻的《论语译注》在国内外产生过重大影响,“已成为世界上许多大学的文科教材或重要参考书”(杨逢彬,2008:30),而杨伯峻编写这本书的出发点是“帮助一般读者比较容易而正确地读懂论语,并给有志深入研究的人提供若干线索”(杨伯峻,2010:34)。《论语》的版本章节分合本来在“历代版本和各家注本相互间稍有出入”(同上),杨伯峻在斟酌取舍之后在各篇篇名之下,简略说明各重要注解本的异同。综合考虑,笔者认为,杨伯峻的《论语译注》对于当今普通读者的阅读和学习,比朱熹的《四书集注》或者《宋本十三经注疏》等更适宜。
德语的译本采取了Anaconda出版社2007年版本的Konfuzius Gespr?覿che为目的语篇章,该版本以1914年的版本(为卫礼贤翻译出版《论语》的第二版)基础重印。此版本中卫礼贤对汉语源文篇章多同时采取两种翻译方法,即文献型翻译和工具型翻译,两种译本采用不同的字体和字号加以区分。
德语单语语料库的建设具体为:首先用扫描仪将纸质版扫描为PDF格式保存在电脑中,借助OCR识别软件将其转变成可编辑的Word文档,进行人工校对和复查错误,使之成为准确率高的文档之后,通过人工干预将其分为两个文档,一个是文献型翻译篇章,一个是工具型翻译篇章。
在单语语料库的建设过程中,笔者还参考了朱熹《四书集注》的章节划分,也参考了Zweitausendeins出版社出版卫礼贤的Die Lehre des Konfuzius一书中的《论语》部分,该书汉语采用的是上海古籍出版社2004年出版折金良年的《论语译注》;此外,部分参考了外语教学与研究出版社出版的“大中华文库——汉德对照”《论语》一书,该书汉语部分采用杨伯峻的《论语译注》,德语部分是卫礼贤译本中的文献型翻译部分,工具型翻译及注释等并未在该书中出现。
完成中德文篇章的数字化以后将篇章存储为纯文本文档,对于不同语言种类的篇章,格式上也有不同要求:中文文本使用的标点符号为中文全角符号,德文文本使用的标点符号是德文符号,其中德文文本在保存的时候需要用Unicode格式保存,否则德语特殊的字母,?覿、?觟、ü和?覻将无法正常显示。
2.2建立双语平行语料库
在经过数字化加工之后的单语纯篇章语料库基础之上,需要使用软件进一步处理和手工对齐才能建成可以使用的平行语料库。需特别注意的是,为了在ParaConc中搜索中文,需要在中文字符之间插入一个空格,否则将无法检索(在检索时,如果是两个或两个以上中文字,之间需加入空格),可借助Word添加空格的功能在所有字符之間插入一个空格。鉴于汉德两种语言之间的较大差异,尤其《论语》其先秦古汉语本身的语言特点,两种语言句子属性的自动标注是不易实现的。目前还没有程序可以做到高准确率把中国古汉语的典籍篇章与其德语译本自动对齐。所以,要做到句子级别上的精准度,大量手工操作是必不可少的。
德语目的语篇章和中文源语篇章在章节上的差别为:德语版的一个章节对应汉语版的两章节或多章节共有13处,对待这类情况,笔者按照汉语的章节将德语译本的这一部分分成对应的两部分或多个部分,同时将这一部分德语版本中的德语小标题复制粘贴到后面部分之前作为小标题。其后章节编号仍承袭之前的编号不变。这种情况下,添加了16个复制的小标题。
此外,还有3处为汉语版一章节对应德语版的两章节,这种情况,笔者按照汉语的章节将德语译本的两章节合并为一章节,同时将第二章节的德语标题移至第一章节的德语标题处与第一章节的标题合并。其后章节编号仍承袭之前的编号不变。这种情况下,小标题数量并没有变化,只是为对齐而调整了3处位置。
由于汉德语言之间的差异及《论语》本身先秦古汉语的语言特点,对其句子结构属性的划分和界定尚且没有可以借鉴的语言模型套用。鉴于笔者博士论文研究出发点,在参考前人研究的基础之上,结合自建语料库本身的特点,笔者将句号、分号、感叹号、句末的转折号及后接直接引语的冒号或逗号作为划分汉语纯文本最小句子单位的依据,并在此基础上对汉语纯文本中界定的句子逐一进行了手工处理。比照汉语纯文本的句子分级,可以对德语篇章进行手工处理加工,导入Excel中将两个文本完成初步的句级对齐,将两个文本再次以纯文本形式分别保存。完成这一步骤之后,再将手工处理完的汉语纯文本和德语纯文本导入ParaConc软件,借助其对齐功能多次调试之后最终可以使两个文本完成对齐,生成可以使用的平行语料库。不过由于纯文本中会存在手工处理时不易发现的特殊符号和格式错误,因此在对齐过程中软件会在不能识别处中断,多次尝试改进格式错误或者特殊符号后,最终可以完成汉语源语篇章和德语文献型翻译译本两个文本句级层面上的对齐。平行语料库对齐后,在ParaConc软件中显示如下:
平行语料库建设截图1
上述是自建平行语料库中的汉语源语篇章和卫礼贤德语文献型翻译译本的处理方式。考虑到笔者的博士论文研究中工具型翻译译本和源语篇章的关系,对待某些章节,卫礼贤只给出了文献型翻译译本而对应则没有给出工具型翻译译本,或者,为了目的语读者更好地接受理解目的语篇章,考虑德语受众的语言和思维习惯,在一些章节里译者会对句子顺序等进行调整。鉴于笔者的博士论文研究的出发点是重点研究特殊文化词汇的翻译,同时考虑到平行语料研究中的不同检索方式,笔者在研究中对卫礼贤德语工具型翻译译本和汉语源语篇章之间采取了段落间对齐的方式。由于许多汉语源语篇章中许多章节的段落实则为几句话组成,因此采取段落对齐方式之后再进行检索,达到对汉语源语篇章和文献型翻译译本句级对齐方式的一个补充。由于部分章节卫礼贤只采取文献型翻译一种译法而未提供工具型翻译译本,此情况下,笔者在其对应处补充“无”一字,以便源语篇章段落和目的语篇章段落对齐。同时,考虑到《论语》中绝大部分章节均为一个段落,所以对不是一个段落的章节也人工调整为一个段落,以便处理,简化工作。对齐后结果如下:
平行语料库建设截图2
2.3使用软件
笔者对自建平行语料库的检索主要借助ParaConc软件,该软件由新西兰奥克兰大学应用语言学教授Michael Barlow开发研制,借助该软件可以对平行语料庫中源语篇章与目的语篇章进行对应检索,从而使翻译研究更加直观、便捷。关于该软件在笔者博士论文研究中的具体使用,笔者会在下一篇论文中与具体实例结合加以说明。
3.结语
本文详细介绍了笔者博士论文研究创建《论语》汉德平行语料库的方法和过程,并简要介绍了研究中使用的软件,希望对德语界汉德平行语料库的建设及研究提供自己的经验和教训。
参考文献:
[1]黄立波.基于汉英/英汉平行语料库的翻译共性研究[M].上海:复旦大学出版社,2007.
[2]李小龙.基于语料库对《论语》卫礼贤德译本的跨文化研究.北京外国语大学博士论文,2017.
[3]刘泽权.《红楼梦》中英文语料库的创建及应用研究[M].北京:光明日报出版社,2012.
[4]王克非等.双语对应语料库研制与应用[M].北京:外语教学与研究出版社,2004.
[5]杨伯峻.论语译注[M].北京:中华书局,2010.
[6]杨逢彬.《论语(汉德对照)》前言。载:李雪涛(整理).论语(汉德对照)[M].北京:外语教学与研究出版社,2010.
[7]朱熹.四书集注[M].北京:中华书局,1957.
[8]Hunston, Susan. Corpara in Applied Linguistics[M]. Cambridge, 2002.
[9]Konfuzius/van Ess, Hans. Die Lehren des Konfuzius: Die vier konfunianischen Bücher[M]. Frankfurt am Main, 2008.
[10]McEnery, Tony/ Xiao, Richard/ Tono, Yukio. Corpus-based Language Studies: An Advanced Resource Book[M]. London/New York, 2006.
[11]Wilhelm, Richard: Konfuzius Gespr?覿che[M]. K?觟ln, Anaconda, 2007.