APP下载

国内英汉双语平行语料库建构与研究现状及展望

2013-03-27黄立波朱志瑜

当代外语研究 2013年1期
关键词:汉英语料平行

黄立波 朱志瑜

(1 西安外国语大学,西安,710128;1、2香港理工大学,香港)

1.引言

翻译研究领域近二十年的一大进展就是语料库翻译学(也称基于语料库的翻译研究)范式的建立和发展。1998年,萨拉·拉维欧萨(Sara Laviosa)在META(43/4)“语料库翻译研究”专刊中指出,“此专刊有两重目的:一是尝试来界定这一翻译研究新领域的现有地盘;二是通过理论阐述与实证研究相结合,展示语料库研究方法正在发展成为一种连贵、综合、丰富的范式,正在着手于一系列与翻译理论、描写和实践相关的问题探讨”(Laviosa 1998:474)。可见,语料库起初只是作为一种研究途径被引介到翻译研究中,但在短短五年时间①这一研究途径逐步建立和完善了自己的方法论体系,拥有了自己的研究团队,开始发展为一种研究范式。一些有影响的平行语料库,如加拿大议会会议录英法平行语料库(the Canadian Hansard Corpus)、克姆尼茨英-德翻译语料库(Chemnitz E-G Translation Corpus)、德-英文学文本平行语料库(GEPCOLT)、英语-挪威语平行语料库(ENPC)、英语-思大利语双向平行语料库(CEXI)、葡-英双向平行语料库(Compara)相继建成,基于这些语料库的翻译研究成果大量涌现。

1998年,哈尔滨工业大学建成容量3万句对的英汉双语语料库,并进行了词性标注。同期有代表性的英汉平行语料库还包括:北大计算语言学研究所双语语料库、东北大学英汉双语语段库、外研社英汉文学作品语料库、冯友兰《中国哲学史》汉英对照语料库和李约瑟《中国科学技术史》英汉对照语料库、国家语委语言文字所英汉双语语料库、中科院软件所英汉双语语料库和中科院自动化所英汉双语语料库等(参见冯志伟2002:57)。国内平行语料库建设与国外相比,时间上不算太晚,但基于平行语料库的翻译研究起步较晚。据笔者调查,国内最早关于语料库与翻译研究的学术文章是“语料库与翻译研究”一文(廖七一2000)。该文不仅介绍了与翻译研究相关的平行、多语和可比三类语料库以及英国的翻译英语语料库(TEC),而且对语料库在翻译实践、翻译规范、翻译普遍性等研究中的应用做了说明。尽管此文只是一个介绍,却为国内的翻译研究者打开了一条新思路。随后的十多年中,一些有影响英汉平行语料库相继建成,产生出一大批相关的研究成果。通过综述国内近十多年来双语平行语料库的建构及相关研究,并归纳这一方面的得失,可以对此领域未来的发展趋势提出一些有思义的推断和建议。

2.国内平行语料库的建设及应用

国内的双语平行语料库大体可分为通用类和特定领域类两种②,前者是指文学及非文学文本兼收的多文类语料库,可用于多种类型的研究,如北京外国语大学“通用汉英对应语料库”、南京国际关系学院“英汉平行语料库”等;后者则是以某一(类)文本为收录对象,如《红楼梦》平行语料库、法律法规语料库等。

北京外国语大学中国外语教育研究中心王克非主持和研制的北外“通用汉英对应语料库”是目前世界上最大的双语平行语料库,目前容量为3000万字词,并在进一步建设中。此语料库的建库理念是“语言与翻译研究并重”,“可应用于语言研究、翻译研究、教学研究、双语词典研编等”(王克非2004b:73)。该语料库包括翻译文本库、百科语料库、专科语料库和对译语句库四部分,并实现了汉英文本的句级对应,可进行基本语法标注和词、词频、短语、句型、搭配等自动链接式检索,即同一界面英汉语句子实现双向对齐。此外,该语料库中的汉语原文及其对应英语译文和英语原文及其对应汉语译文四类语料可在同一语料库内实现语际对比和语内类比方面的研究。在此语料库基础上的实证研究主要包括翻译单位(如王克非2003)、翻译语言特征/翻译共性(如秦洪武、王克非2004;王克非、胡显耀2008;黄立波2007,2008;王克非、秦洪武2009;王克非、胡显耀2010)、翻译文体(如黄立波2009)、语言与翻译教学(王克非2004a;秦洪武、王克非2007;王克非等2007;王克非、熊文新2009等)等方面的研究。并以此为基础建成约一千万字词的“中英双语在线”(Chinese-English Online,CEO)检索平台(参见http:∥www.fleric.org.cn/ceo/index1.html),供语言和翻译学习者或研究者参考。相关的理论探讨主要是对国外相关研究发现,如翻译共性特征在英汉语翻译语境下的验证,并提出新的研究课题。南京国际关系学院李德俊教授主持研制的“英汉平行语料库”容量为对齐语料2000万词次(以汉语计算),采用句对齐为主、段落对齐为辅的原则,文类主要有散文、小说、时文、政论文、百科知识五大部分,其中英译汉语料占60%,汉译英语料占40%,可用于双语词典编纂、汉英对比研究、翻译教学和实践等领域(李德俊2008:73),但该语料库主要以服务于双语词典编纂为目的。

比较有代表性的特定领域类语料库包括燕山大学刘泽权主持研制的“《红楼梦》中英文平行语料库”、上海交通大学胡开宝主持研制的“莎士比亚戏剧英汉平行语料库”等。这些语料库在建库方法上既有相似之处,又各自具有自己的特色。“《红楼梦》中英文平行语料库”由一个原文及其三种译文构成,容量为约274万字词,以源文本为标准实现了句级对齐,在MMAX标注程序自动标注的基础上,对句子类型、语域、语态、是否包含修辞、习语或谚语作了一定程度的手工标注,并已建成可用于局域网内的网络检索平台(刘泽权等2008)。目前在此基础上的研究包括叙事标记语英译(如刘泽权、田璐2009等)、称谓翻译(如肖家燕、刘泽权2009等);颜色词语义分析(如刘泽权、苗海燕2010)、译者风格(如刘泽权、闫继苗2010;刘泽权等2011)等。该语料库最大的特点是手工标注的介人,使得检索数据可以从形式方面深人到语义、文体等层面。相关的研究成果在一定程度上证明了尽管前期的手工标注贾时贾力,但可以为后续的深人研究提供较大的方便。“莎士比亚戏剧英汉平行语料库”容量为约600万字词,全库由一种原文及其三种译文组成,该语料库在对汉语文本分词的基础上利用CLAWS和ICTCLAS 3.0分别对英、汉文本做了词性标注,并在对话层面,即话轮层面上实现了对齐。在此语料库基础上可以开展英汉文本一对一和一对多的平行检索,考察译者风格、翻译策略和翻译语言特征等方面,具体如汉语翻译文本中的显化(如胡开宝、朱一凡2008;胡开宝、邹颂兵2009)、汉语翻译文本中特殊句式的使用(如胡开宝2009)等。该双语库语料库同时可用来进行莎剧语言研究,并可将语言研究的发现应用于莎剧翻译研究,实现以语言研究促进翻译研究的新时期莎剧翻译的特色。

还有一些可供在线检索的双语平行语料库,如洪化清的在线“红楼梦汉英平行语料库”、绍兴文理学院孙鸿仁主持研制的双语平行语料库系列,具体包括:“中国法律法规汉英平行语料库”、“《毛泽东选集》汉英平行语料库”、“《邓小平文选》汉英平行语料库”、“鲁迅小说汉英平行语料库”、“《红楼梦》汉英平行语料库”等。此外,一些自建的小型平行语料也被应用于基础研究和应用研究中(如叶常青2003;于连江2004;肖维青2005;王正、孙东云2009等),相关的成果大量涌现。

现有的语料库建设主要表现出以下共同特点:第一,句子层面实现对齐,方便了对特定语言转换现象的大规模观察与分析;第二,自动标注与人工标注相结合,使得相关研究得以从形式到语义、语用、文体等方面深人。基于平行语料库的翻译研究主要集中在三个方面:第一,语料库建构技术探索。主要探讨如何运用计算机技术来研制语料库,尤其是对汉语文本的加工、英汉对齐的处理以及手工标注介人等问题;第二,基于语料库的实证研究和理论探讨。以翻译共性为例,相关的实证研究不仅关注单一类比模式(the comparable mode)下目标语中翻译文本与非翻译文本之间的差异,而且也将源文本作为分析和解释翻译文本中特定语言转换现象的一个维度。既有对翻译语言宏观特征的探究,也有对具体语言转换的考察。第三,平行语料库在翻译教学中的应用,具体包括网络检索平台的辅助翻译教学和自建语料库在课堂教学中的运用等。2009年10月由北京外国语大学中国外语教育研究中心和上海交通大学外国语学院联合举办的“全国首届语料库翻译学研讨会”在上海交通大学成功举行。此次会议是对近年来国内语料库翻译学的一次总结性交流,代表了国内语料库翻译学的发展水平。

3.平行语料库研制与开发中存在的问题及对策

综观这些语料库的建设及以此为基础的研究可以发现,十多年的时间,国内平行语料库已经从介绍国外的相关研究,发展到创建自己的语料库,再到对语料库的开发和应用,取得了相当快的进步。但同时,在这一探索过程中也表现出一些问题,具体如下:

第一,语料库建设各自为政,缺乏超大规模、综合性、多用途的国家级平行语料库。

尽管国内现有的双语平行语料库各自已具备一定的规模,但缺乏上亿词容量,覆盖面更宽,应用范围更广的超级语料库(mega-corpus)。重复建设是一个突出的原因,以《红楼梦》汉英平行语料库为例,比较有代表性的至少就有三个。尽管语料库可以为研究提供方便快捷的数据检索服务,但语料库建设本身却是一项贾时、贾力的工作,从对语料的收集(包括扫描、识别、校对等)、预处理,到语料切分、标注、对齐,每一步的工作量都不小,而且需要做到尽可能的细致和精确,以保证后期语料处理和将来检索的准确性。这样一来,每一个具备一定规模、比较完善的语料库的建设周期都不短,重复建设分散了力量,限制了语料库的规模和加工深度。解决此问题的一种办法就是各语料库研制团队之间加强交流与沟通,对现有资源进行整合,实现共享,并制定一定的发展计划,分工合作,共同建设超大规模、综合性、多用途的国家级平行语料库。

第二,语料库的深加工还不够深人。

语料库翻译学发展的一大关键点就是“双语库的研制,它是技术手段,是基础设施,也体现研制者的研究目的,其加工程度影响研究课题的选择”(王克非、黄立波2008:10)。从语料的分类看,目前大多语料库还仅限于文学和非文学两种,一些专门类的语料库规模还比较小。针对于此,在未来的分类中可以对文学和非文学语料作进一步的划分,如文学文本之下可以包括小说、戏剧、散文、诗歌、传记等,非文学文本可以包括新闻、科技、财经、法律、历史、农林、医药等文类(genre)。从标注方面看,对标注技术的研究还不够,现有的语料标注主要以词类标注为主,句法、语义、修辞等方面的标注还要依靠手工来完成。通常,语料库的建设与研究目标密不可分,对语料库的加工标注也是以预期的研究目标为前提的,但大规模、综合性、多用途的平行语料库建设需要预先通盘考虑,标注的信息应当可支持将来的可持续的系统研究。以预期究目标为出发点,根据具体的研究对象设计软件兼容的标注符,然后利用编辑软件进行批量赋码。

第三,从对语料库的应用看,对语料库的研究潜力开发还不够。

通用型双语平行语料库一般包括四类语料:汉语原文及其对应英语译文,和英语原文及其对应汉语译文,可同时应用于英汉语言对比和翻译研究,语际对比和语内类比均可进行。但目前基于平行语料库的语言对比研究还不足,翻译研究也主要以共时的类比研究为主,根据时代、译者、翻译方向等参数研究不多。专科类语料库中的一对多模式,即一个原文对应两个以上译文的模式是其一大特色,不仅可应用于跨语际的语言转换研究,还可进行不同翻译方向上译出与译人文本的类比研究,以及翻译语言与非翻译语言的类比研究等。但目前此类研究主要局限于文学作品领域,对于非文学文本,如政论以及新闻、财经、法律等实用文本的类似考察尚不多见。对语料库潜力的开发应当以语料库翻译研究方法论的不断完善为基础,在英汉语对比研究的支持下发掘新的研究对象,提出新的研究模式,如在超大规模平行语料库的支持下进行翻译语言的历时变化研究、翻译语言与原创语言的历时对比研究、不同时期翻译文本所体现出的翻译规范研究、不同文类翻译策略的对比研究、不同翻译方向的翻译策略对比研究等等。

第四,相关学科之间的沟通与合作不够。

语料库翻译学的发展离不开计算机统计分析手段的支持,反过来语料库翻译研究的深人又为语言统计分析提出了更高的要求。以汉英平行语料库对齐技术为例,国内关于此问题早在90年代初就已有讨论(参见黄俊红等2007:23),但关于此类探讨在很长一段时间内主要是在计算机专业或计算语言学领域,更侧的是重于技术性的讨论。近年来,语料库语言学的发展为语言/翻译研究与计算机技术的结合提供了很好的交流界面,语言研究者和翻译研究者与计算机专业人士的合作不断加强,前者为后者提出了新的研究课题,后者则为前者提供了研究手段的支持。以英汉平行语料库为例,汉语的分词与标注技术使得从词汇或标注层面的自动检索和数据提取成为可能,大规模平行语料库的建立为网络检索平台和翻译软件的发展提供了基础,真正实现了语言学与计算机科学的有机结合。语料库翻译学是计算机技术为媒介的语料库语言学与翻译研究的结合,二者相互促进。

4.平行语料库的前景

Labov认为,“语言学领域内每一次重大的范式转换大都由该学科领域对基本数据看法的改变而引发”(转引自Stubbs 1993:24),这一论断同样适用于翻译研究。正是大规模原文及其对应译文的电子文本库以及相关技术所提供的大规模数据检索与提取为翻译研究提供了新视角。然而,随着计算机技术的发展和语料库建设的进一步完善,更大规模双语平行语料库呈现给翻译研究者的新型数据必将引发新的研究课题。在此背景下,国内的平行语料库建构与研究呈现出如下一些趋势:

首先,超级双语平行语料库建设势在必行。这里所谓“超级平行语料库”不仅指库容上亿字词,而且在文类、时间跨度等方面都要具有一定的代表性。超大规模的双语库总体上可由人文、社会和自然科学的若干个子库构成,各库可分可合。人文类语料又可包括文学、法律、历史、哲学、宗教、艺术等若干次子库;社会科学类语料可包括文化、地理、旅游、考古、心理、经济、政治、管理等若干次子库;自然科学类语料可包括生物、化学、物理、天文、农林、医药等若干次子库。各类语料内部可进行进一步的细分,在时间上也需要有一定的跨度,可进行历时的对比与分析。这样一来,语料库的适用性将更强,既可同时用于各类学术研究和实际应用,也将扩大语料库翻译研究的视野。

第二,语料的加工标注研究将是语料库语言/翻译研究的基础。计算机技术的发展为翻译研究提供了极大的方便。对语料的加工不单单是对计算机软件技术操作,而是建立在一定语言学理论基础上,为一定的翻译研究目标服务。标注的深人程度决定了未来研究的层次,现有的自动标注远不能满足实际研究与应用的需要。近年来,根据研究目标设定的手工标注在一些研究项目中开始应用(如英国兰卡斯特大学语料库文体学项目、燕山大学的《红楼梦》平行语料库项目等),取得了良好的效果。语料库翻译研究并非是一条捷径,它只是为描写研究提供了一个强有力的数据支持。自动标注的深度是有限的,手工标注对于大型平行语料库建设来说尽管不太现实,但借助计算机程序实现的人工赋码可以大大减轻手工标注的工作量,为后期的多重数据提取与分析奠定基础。人工赋码主要有两种途径:第一,以文本为出发点,根据预设的标注符,在文本中找寻不同的语言现象,逐一进行赋码;第二,首先建立研究对象与具体语言项之间的关系,制定具体语言项的词表,对具体语言项按照一定的标准进行分类,给出特定的标注符,然后借助自设程序在文本中进行批量赋码。相比较而言,后者的可操作性更高一些。需要指出的是,这里所说的“手工标注”,并非纯粹思义上的人工操作,而是一定的小软件设计编程为基础的。

第三,软件开发和网络平台的建设。语料库是研究的工具,语料库的建设也需要先进的工具。近年来,国内外开发研制的Paraconc、Antconc、Trados、WordSmith,Claws、中科院的ICTCLAS汉语词法分析系统、雅信CAT 等文本处理与分析或翻译软件,为研究者在标注、对齐、统计等方面提供极大的方便,使研究过程更具直观性,研究结果更具信度与效度。但相比较而言,国内在适用于汉英翻译研究的相关软件开发方面还要落后于其他国家。语料库研究相关软件的研制与开发将依然是今后语料库翻译研究的一个重点。另一方面,语料库建设的最终目的是服务于理论研究与实际应用,大规模、综合性、多用途的国家级平行语料库可同时满足这两方面的需要。就实际应用而言,现有的方式主要是以语料库为后台运行的数据库,建立网络检索平台。数据库的规模与加工深度决定了检索信息的内容与复杂程度。但现有的平台仅能提供词语、搭配、句对等简单检索,利用率不高。随着今后语料标注与加工技术的发展,更加完善的检索平台应该能够提供多重的检索服务。

5.结语

从语料库翻译研究方法被介绍到国内至今已有十多年的时间,国内的相关研究经历了从介绍综述到理论探讨与实证研究的快速发展。平行语料库建设已经具备一定规模,基于品行语料库的语言对比与翻译研究也取得了较为丰硕的成果。语料库语言学的研究成果以及语料库语言学与其他研究领域相结合的成果带给翻译研究的启示必将促使双语平行语料库的进一步完善与发展。但必须注思的是,平行语料库的建构与基于语料库的翻译研究相对而言还是一个比较新的领域,方法论方面还需要进一步完善。

附注:

①通常认为莫娜·贝克(Mona Baker)1993年的“语料库语言学与翻译研究:启示与应用”(Corpus Linguistics and Translation Studies:Implications and Applications)一文奠定了语料库翻译研究新途径的基础,通常被认为是这一新研究范式的宣言书。

②本文仅综述有代表性的书面语英汉/汉英平行语料库。限于篇幅,对口译平行语料库和可用于翻译研究的类比语料库,以及港、澳、台地区的相关情况暂不做讨论。

猜你喜欢

汉英语料平行
向量的平行与垂直
平行
逃离平行世界
基于语料调查的“连……都(也)……”出现的语义背景分析
汉英倍数表达形式比较及其类型学考察
话题链在汉英篇章翻译中的统摄作用
再顶平行进口
《苗防备览》中的湘西语料
汉英文字的幽默修辞功能浅探
国内外语用学实证研究比较:语料类型与收集方法