论语料库方法在对比研究、翻译研究和翻译技术研发中的应用
2014-09-17北京航空航天大学钱多秀
北京航空航天大学 钱多秀
1. 语料库与语料库语言学
语料库(corpus)指语言数据的集合,而语料库语言学(corpus linguistics)以语料库为基础对真实文本中的语言进行观察和分析,结合自然语言中的一些抽象规则,探讨某种语言及双语或多语之间的关系,并根据真实发生的语言现象得出比较可靠的分析结果。顾曰国(2003)认为语料库语言学的研究有两层主要含义。一是利用语料库对语言的某个方面进行研究,即它并不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。前者正是本文关注之处。
在20世纪30年代现代计算机出现之前,语料库研究通常是手工完成。而计算机的出现使得大规模自动化处理语言成为可能。至于是否对语料进行标注,则可以根据研究目的分别对待。比如,Sinclair(1992)认为对语料无需进行过多处理,因为文本本身就能说明问题,但Wallis(2007)却提倡标注,认为这样可以提高语言理解和处理的质量。后者的观点基于以Quirk (1960: 40-61)为首进行的英语用法调查(Survey of English Usage),这项调查是欧洲范围内进行的第一次有关语料的研究。
经历了第一代计算机处理的语料库和第二代电子计算机处理的语料库两个发展阶段后(王建新1998, 1999),进入20世纪80 年代,现代科技的迅猛发展促使语料库及语料库语言学也进入快速发展期,各国家、各语种语料库的库容动辄以百万字词甚至千万字词为计。根据建库目的和功能,语料库的分类多种多样,如单语/双语/多语语料库、双语/多语平行(或类比)语料库、书面文本语料库、口语语料库、历时语料库、共时语料库、动态语料库、静态语料库、各种文体/专业领域的语料库,等等。
在中国,1986年,上海交通大学完成了交通大学科技英语语料库( JDEST)。经过近30年的努力,语料库获得了长足进展,建成了一批可与国际同类语料库相比的专门语料库(如JDEST)、学习者口笔语语料库(如文秋芳等 2009)以及数量众多的各种平行语料库等。
事实上,几乎语言学的各个领域都可以从语言使用的角度进行研究,语料库数据正是所使用语言的样本,它所提供的海量语料使研究者能够系统地对大量的文本语料进行审视,使人们有可能发现一些以前从未发现的语言事实(Sinclair 1991)。因此,语料库作为研究手段可用于语言学研究的诸多领域,如词汇学、语法学、语言教学、文体学、对比语言学、翻译等。目前,语料库语言学的研究话题已经从词汇、语法和词典学扩展到语言教学、二语习得、翻译、自然语言处理、话语分析、认知语言,乃至抽象的理论语言学问题探索等广泛的领域(甄凤超 2010)。这些研究成果,根据所基于的语料库,可以分为单语研究、双语/多语对比研究、翻译研究、机器翻译研究、教学研究等多个类别。
作为一种研究方法,语料库在对比研究、翻译研究和翻译技术研发这三个与其显著相关的领域得到了尤其突出的使用,本文将简要介绍这些应用,分析它们在应用时所体现的共性和个性,并对其未来走势做一定展望。
2. 语料库与对比研究
对比(语言)研究是语言学研究的重要分支(许余龙 1992),但高度抽象是20 世纪语言研究的总特点(顾曰国 2003),需要向具体化靠拢。在语言研究由高度抽象转向语言的实际使用这个过渡中,语料库和语料库语言学起着十分重要的作用,体现为几个方面:一是提供真实语料;二是提供统计数据;三是验证现行的理论;四是构建新的理论(顾曰国 2003)。
对比语言研究与其他语言学学科一样,其研究日益成为基于数据的或数据驱动的,依靠对语料数据的统计来验证假设或揭示语言之间的相似和差异。这些数据从句法、模态、语篇、语法化、语用功能、修辞功能等(参见Marzoetal. 2012)多个维度提供定性研究的证据,说明定量与定性研究之间是一种互补关系。利用语料库方法的语言对比研究取得了丰硕成果,以语言具体层次的比较为主,如词汇(连带语义韵)层面,短语层面,语法层面等,同时辅以个案研究,说明具体问题,陈述研究发现及其在教学应用上的意义。
通过总结概括大量的个案研究,可以进一步深入探讨语言表面背后的原因,如民族思维习惯和文化心态(许文胜、张柏然 2006;McEnery & Xiao 2010),也可以找到它们在其他领域的启发意义,如语言和翻译教学(赵世开 1990;卫乃兴 2006, 2011)等。
但是,语料库语言学有其局限性。语料库数据提供的只是所使用语言的事实例证,它本身无法对数据进行解释和对语料库数据进行推理。这些数据在辅助人们的语言直觉和内省判断的时候,离不开研究者本人的语言直觉和内省(冯志伟 2007: 15)。这也是对20世纪以高度主观抽象为特征的语言学研究的一种重要补充和返璞归真。
3. 语料库与翻译研究
这个领域的研究以Baker(1993)的文章《语料库语言学与翻译研究:启示和应用》为始,各国学者将语料库研究方法迅速推广应用到各自语境下的翻译研究和理论阐述,使语料库翻译研究得到大发展,逐步成为一种连贯、综合和丰富的研究范式,使其成为描述翻译研究中的一种新范式(Laviosa 1998, 2002; 王克非 2006)。
国内的语料库翻译研究起步并不晚。早期的规模较大的双语对应语料库是北京外国语大学开发研制的3000万字/词的“通用汉英对应语料库”。此后,基于语料库的翻译研究一直吸引了国内广大学者的兴趣,研究成果主要集中在翻译语料库的建设及研究,翻译普遍性/共性研究,翻译过程研究和翻译文体研究。
就语料库对翻译研究的贡献,Tymoczko(1998)的观点颇具代表性,她认为,语料库方法是一种强有力的工具,是翻译学保持活力和动力的核心途径。它可以使人们充分认识到翻译转换中所产生的差异,这种差异性经归纳总结后发现的规律还能起到形成规范的作用。
近年来通过大量的实例,基于语料库的翻译研究促使了翻译研究方法从规约式转向描述式,使翻译研究从最初的语言学和对比语言学的角度,发展到后来从社会、政治、文化等多角度来解读译文的内外特点,标志着翻译研究从单纯的描述研究向描述、阐释研究发展。黄忠廉(2009)认为,翻译研究要在理论和实践层面处理和解决跨语言、跨文化交际问题,翻译语料库是译论研究现代化的有效手段,其定量研究可催生译论观点的萌发,可对译论观点证实或证伪。
但对比后可以发现,国内语料库实证研究的范围与国外相比还相对狭窄(刘康龙、穆雷2006)。自Baker(2000)提出用语料库方法研究译者文体以来,国外目前基于语料库的译者文体研究不仅有对译者偏爱的语言模式的研究,还有对构成译者文体的宏观因素的量化分析,如翻译选材、翻译策略、叙事结构、意识形态等等。但国内基于语料库的与文体相关的研究还不是很多,对翻译过程的研究仍显不足(周小玲、蒋坚松 2010)。
4. 语料库与翻译技术研发
一般说来,翻译是一种语言转换成另一种语言的活动,目的是求得源语与译入语的最大限度的对等对应,人工翻译和机器翻译都是如此。机器翻译是按照指定的程序让计算机进行自动化的对比操作,从而自动产生译文(王挺等 1996)。但鉴于机器翻译技术研发至今所遇到的各种困难,全自动高质量的自动翻译系统一直未能实现。目前,机器翻译包含在翻译技术(translation technology)这个更广义的概念里。
翻译技术包括机器翻译技术、计算机辅助翻译技术以及其他各种各样能够在翻译过程中给译者提供帮助的技术手段(Chan 2004: 139)。对于机器翻译的研究和开发而言,早期的基于句法/规则、基于概率、基于知识、基于转换等方法,几十年的实践均未能产生令人满意的自动译文。从20世纪80年代开始,随着计算机辅助翻译概念的普及和翻译记忆(translation memory)处理技术的快速发展,研究者发现,基于统计以及基于例句/语料的途径可以使翻译系统生成的译文更加可靠,后期编辑和处理的工作量大幅减少。而翻译记忆就是双语或多语的平行语料库,该技术能够在翻译过程中通过检索、匹配等手段,给译者提供产出译文的提示,这些提示可以是术语、短语、短句或整句,甚至也可以是段落。因此,语料库,尤其是双语/多语平行语料库在翻译技术研发领域也有了用武之地。
为此目的而建立和使用的语料库一般需要语言学意义上的标注,目前还处在比较基础的层面,如语音、词汇、句法等。
1993年,W. J. Hutchins在第四届机器翻译高峰会议(MT Summit IV)上指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法(冯志伟 2010)。目前,主流的翻译技术就是基于双语/多语平行语料的翻译记忆数据库。
同年,杨惠中(1993)发表了《语料库语言学与机器翻译》一文,表明中国的语料库翻译研究与国外几乎同步。根据杨梅、白楠(2010)的考察,过去20年来语料库在机器翻译中的应用研究主要有三类,即语料库在机器翻译中的应用;利用语料库设计机器翻译系统或翻译数据库,通过自建语料库设计专门用于英语词典翻译出版的动态机器翻译系统或机器辅助翻译系统等;利用语料库消除词的歧义来选择译文或获取等价的翻译单位等机器翻译中的一些具体问题。
基于语料库的机器翻译方法大致有基于统计和基于实例两种,两者都使用语料库作为译文的来源。在基于统计的机器翻译方法中,知识的表示是统计数据,而不是语料库本身;翻译知识的获取是在翻译之前完成,翻译的过程中不再使用语料库;而在基于实例的机器翻译方法中,双语语料库本身就是翻译知识的一种表现形式,翻译知识的获取在翻译之前没有全部完成,在翻译的过程中还要查询并利用语料库(冯志伟 2010)。
5. 共性与个性
“语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。”这是1996 年Jenny Thomas等人在UsingCorporaforLanguageResearch:StudiesinHonourofGeoffreyLeech一书中的开场白(黄昌宁、李娟子 2002: 1)。根据笔者对中国知网(CNKI)的检索,在中国语境下的情况大致如此。笔者发现,仅2013年一年,在CSSCI级别期刊上发表的论文中,篇名中含“语料库”的就有75篇,大部分主题均与语言各角度的研究有关,探讨了语料库作为一种方法在各个领域的应用,以微观层面居多。
Granger(2003)也曾指出,语料库方法尤其适用于对比语言研究和翻译研究。现在,随着语料库尤其是多语语料库的创建和应用,对比研究、翻译研究、翻译技术研发之间的关系日益密切。它们的共同之处在于都是处理两种或两种以上的语言。无论在理论或在应用层面, 它们都对两种或多种语言之间的异同问题感兴趣,甚至可以说,它们都是专门处理语言异同问题的学科,主要表现为三者都使用相似或相同的双语或多语语料库从事研究或开发,语料创建和使用时也遇到并处理大致相似的问题。
比如,大多数语料库翻译研究跟对比研究关系密切,集中研究译文与原文的词法和句法的特征差异,如译文所体现出的明晰化、简略化、标准化等普遍性。有代表性的研究(参见陈伟 2007)涉及到了类比构词现象、名词化现象、词语多样性、词频分析、类型/标记比、平均句长和叙事结构特点、搭配规律和语义韵、男女译者的风格差异、语义场和文化信息差异等。这些统计数据不仅能帮助定量分析,也对定性研究者在分析社会、文化、意识形态等背后因素时,带来诸多惊喜。
在翻译技术的研发方面,基于语料库的翻译系统具有明显优势,它结合最新的人工智能技术,可以实现翻译质量、数量和速度的大幅度提高。但是,由于尚有理论问题和技术难题未能解决,也缺乏综合性人才,比较理想的基于语料库的成熟翻译系统在短期之内恐难以实现(李亮 2004)。
近年来,三者在对语料库的使用和借鉴中所体现出来的共性尤为突出,这些语料库的类型有双语、多语、平行或类比(可比)。一方面,在机器翻译中,平行语料库所搜集的数据能为翻译模式提供训练材料,也能为计算语言学的相关问题提供数据,如多语语法推理和自动词典生成等。另一方面,翻译研究的学者利用语料来对翻译过程进行实证研究,包括翻译策略或翻译文本的特定属性。对职业译者而言,多语语料库给译者提供参考性资料,帮助译者快速找到所需信息。而语料库在对比研究中,可以为研究设想及发现提供实证数据,同时还能发现之前未被关注的跨语言差异。
由此可见,它们有着共同的基础和性质,有互补作用,最终目的都是为了跨文化和跨语言的交际。如果能将三者结合得更为紧密,使之互动性更强,将有可能帮助翻译技术研发突破目前的瓶颈,即语义理解和确定翻译对等单位等方面的问题,促进技术工具的进一步改善。
但不容置疑,由于对比研究、翻译研究和翻译技术研发都有着各自独特之处,有着各自不同的出发点和关注点,因此在使用语料库作为研究方法方面,三个领域之间的交流不够。例如,对比研究和翻译技术研发都使用平行语料库,但翻译方向、翻译属性、翻译策略这些因素都没有得到考虑。尤其是翻译关键技术的研发,基本不考虑文本类型或者语域因素(巢文涵 2008)。同时,在对比语言研究和翻译研究中,通常只使用多语语料库最基本的标注加工和查询功能,不太重视这些功能对翻译技术研发的潜在价值。因此,三者之间又有一定程度的疏离。
6. 前景与结论
通过上述语料库在三个领域中应用的简要说明,可以看出语料库方法为相关研究提供了数据来源、方法问题、分析工具、分析步骤等,对提高研究结论的可靠性和客观性都有巨大的作用。
对于语料库及语料库语言学的前景,特别是在本世纪的发展方向(参见张政 2010: 81),Svartvik(1992)就曾预言,计算机将运行更快,体积更小,价格更低;语料库将规模更大,质量更好,利用率更高。McEnery(1993)则认为语料库语言学今后的发展将主要受语料库规模、类型、国际关注和计算机发展等四方面因素的影响。而丁信善(1998)则认为,语料库语言学的发展方向将主要体现在三个方面:基础语料库更加发展,包括各种介质的语料库(口语、书面、多媒体视听资料),语料标注将超越目前的基本层次(语音、词汇、句法等),会出现立体式标注(含语义和语用),语料分析工具的功能将会更加复杂和全面,满足各种研究的具体需要。
尽管语料库仍然在研究方法、研究广度和深度等方面有一定局限性(胡开宝 2011),但上述各领域内越来越多的研究者意识到语料库的优势和价值,在自己的研究领域(如心理语言学、社会语言学等)中不断使用各种类型的语料库来丰富研究手段,进行“三角验证”(梁茂成 2012)。这种实证研究趋势的持续发展将会使基于语料库的研究成为语言及其相关研究的主流范式。
近30年来, 语料库和语料库语言学飞速发展,但在与翻译技术研发方面,仍明显需进一步发展,需要建立大型双语或多语数据库,尤其是面向专业领域的平行对齐语料库,以使目前广泛使用的计算机辅助翻译技术能够在特定领域实现自动化处理,在处理过程中对人的依赖程度进一步降低,最终实现翻译全过程的计算机化(张政 2006: 163-188;钱多秀 2011: 297-300)。
通过梳理语料库及语料库语言学的发展,可以发现,目前语料库研究在类型、应用范围、本体论和相关软件等方面都发生了显著变化(秦洪武、王克非 2006;何中清、彭宣维 2011;彭宣维等 2012)。未来的语料库语言学将更多以温和的经验主义和实证主义为指导(梁茂成 2012),为各种相关研究提供方法。按照目前的发展态势,可以预见,语料库容量将会更大,类型更加多样化,语料库方法将会与其他语言相关的理论研究、应用(教学)研究和技术开发进一步融合,并将有更多、更激动人心的发现和应用。
Baker, M. 1993. Corpus linguistics and translation studies: Implications and applications[A]. M. Baker (ed.).TextandTechnology:InHonourofJohnSinclair[C]. Amsterdam: John Benjamins. 233-250.
Baker, M. 2000. Towards a methodology for investigating the style of a literary translator[J].Target(12): 241-266.
Chan, S. W. 2004.ADictionaryofTranslationTechnology[K]. Hong Kong: The Chinese University of Hong Kong Press.
Granger, S. 2003. The corpus approach: A common way forward for contrastive linguistics and translation studies[A]. S. Grangeretal. (eds.).Corpus-basedApproachestoContrastiveLinguisticsandTranslationStudies[C]. Amsterdam/New York: Rodopi. 17-29.
Laviosa, S. 1998. The corpus-based approach: A new paradigm in translation studies [J].Meta43 (4): 474-479.
Laviosa, S. 2002.Corpus-basedTranslationStudies:Theory,FindingsandApplications[M]. Amsterdam: Rodopi.
Marzo, S.etal. 2012.CorpusStudiesinContrastiveLinguistics [M]. Amsterdam/Philadelphia: Benjamins Publishing House.
McEnery, T. & A. Wilson. 2013. Corpora and Translation: Uses and Future Prospects(1993) [OL]. [07-01]. http: //dilbilim.info/yukseklisans/Corpus%20Based/Corpora%20and%20Translation.pdf.
McEnery, T. & R. Xiao. 2010.Corpus-BasedContrastiveStudiesofEnglishandChinese[M]. (Routledge Advances in Corpus Linguistics). London/New York: Routledge.
Quirk, R. 1960. Towards a description of English usage [J].TransactionsofthePhilologicalSociety59(1): 40-61.
Sinclair, J. 1991.Corpus,ConcordanceandCollocation[M]. Oxford: Oxford University Press.
Sinclair, J. 1992. The automatic analysis of corpora [A]. J. Svartvik (ed.).DirectionsinCorpusLinguistics(ProceedingsofNobelSymposium82) [C]. Berlin/New York: Mouton de Gruyter. 379-397.
Svartvik, J. 1992. Corpus linguistics comes of agen [A]. J. Svartvik (ed.).DirectionsinCorpusLinguistics[C]. Berlin/New York: Mouton de Gruyter. 7-12.
Tymoczko, M. 1998. Computerized corpora and the feature oftranslation studies [J].Meta43 (4): 652-660.
Wallis, S. 2007. Annotation, retrieval and experimentation [A]. A. Meurman-Solin & A. A. Nurmi (eds.).AnnotatingVariationandChange[C]. Helsinki: Varieng University of Helsinki. http://www.helsinki.fi/varieng/series/volumes/01/wallis/.
陈 伟. 2007. 翻译英语语料库与基于翻译英语语料库的描述性翻译研究[J]. 外国语(1): 67-73.
巢文涵. 2008. 基于双语语料库的机器翻译关键技术研究[D]. 博士学位论文. 国防科学技术大学.
丁信善. 1998. 语料库语言学的发展及研究现状[J]. 当代语言学(5): 5-13.
冯志伟. 2007. 《应用语言学中的语料库》导读[M]. 北京: 世界图书出版公司.
冯志伟. 2010. 基于语料库的机器翻译系统[J]. 术语标准化与信息技术(1): 28-35.
顾曰国. 2003. 语料库语言学的发展[N]. 中国社会科学院院报. 03-04.
何中清, 彭宣维. 2011. 英语语料库研究综述: 回顾、现状与展望[J]. 外语教学(1): 6-10.
胡开宝. 2011. 语料库翻译学概论[M]. 上海:上海交通大学出版社.
黄昌宁, 李娟子. 2002. 语料库语言学[M]. 北京: 商务印书馆.
黄忠廉. 2009. 翻译研究——翻译语料库: 深化译论研究的有效工具[J]. 外语学刊(1): 101.
李 亮. 2004. 基于语料库的机器翻译[J]. 上海科技翻译(2): 59-62.
梁茂成. 2012. 语料库语言学研究的两种范式: 渊源、分歧及前景[J]. 外语教学与研究(3): 323-335.
刘康龙,穆 雷. 2006. 语料库语言学与翻译研究[J]. 中国翻译(1): 59-64.
彭宣维等. 2012. 汉英对应评价意义语料库[J]. 外语电化教学(5): 3-10.
钱多秀. 2011. 计算机辅助翻译[M]. 北京:外语教学与研究出版社.
秦洪武,王克非. 2006. 《基于语料库的语言对比和翻译研究》评介[J]. 外语电化教学(6): 75-78.
王建新. 1998. 语料库语言学发展史上的几个重要阶段[J]. 外语教学与研究(4): 53-59.
王建新. 1999. 我国在语料库语言学研究方面的部分进展(概述) [J]. 外语与外语教学(3): 18-20, 57.
王克非. 2006. 语料库翻译学——新研究范式[J]. 中国外语(3): 8-9.
王 挺等. 1996. 语料库和机器翻译[J]. 计算机科学(2): 52-55.
卫乃兴. 2006. 基于语料库学生英语中的语义韵对比研究[J]. 外语学刊(5): 50-54.
卫乃兴. 2011. 基于语料库的对比短语学研究[J]. 外国语(4): 32-42.
文秋芳等. 2009. 中国学生英语口笔语语料库1.0(修订版) [M]. 北京: 外语教学与研究出版社.
许文胜,张柏然. 2006. 基于英汉名著语料库的因果关系连词对比研究[J]. 外语教学与研究(4): 292-296.
许余龙. 1992. 对比语言学概论[M]. 上海: 上海外语教育出版社.
杨惠中. 1993. 语料库语言学与机器翻译[J]. 上海交通大学学报(社会科学版) (1): 98-111.
杨 梅,白 楠. 2010. 国内语料库翻译研究现状调查——基于国内学术期刊的数据分析(1993-2009)[J]. 中国翻译(6): 46-50.
张 政. 2006. 计算机翻译研究[M]. 北京: 清华大学出版社.
张 政. 2010. 计算语言学与机器翻译导论[M]. 北京: 外语教学与研究出版社.
赵世开. 1990. 对比语言学研究的发展和展望[J]. 世界汉语教学(3): 145-147.
甄凤超. 2010. 语料库语言学在中国的成长与发展[J]. 当代外语研究(3): 36-41.
周小玲,蒋坚松. 2010. 近十年国外基于语料库的译者文体研究的发展(2000-2009) [J]. 外语与外语教学 (3): 54-58.