论语料库对日语翻译硕士(MTI)人才培养的重要意义
2015-05-30杨本明
杨本明
摘 要:日语翻译硕士是一门新兴学科,语料库在日语翻译教学过程中的作用日益凸显。特别是在翻译教材编写、日汉互译、语法教学方面,语料库发挥着越来越重要的作用。本文对国内外语料库建设的现状进行了综述,阐述了日语翻译语料库语料采集方法,分析了语料库在日语翻译硕士(MTI)人才培养方面的重要意义。
关键词:语料库 日文小说 检索软件★基金项目:本论文属于2015年上海市高校青年教师培养资助计划项目(ZZslg15042),2015年沪江基金人文社科项目“日语翻译硕士(MTI)人才培养模式创新研究”项目(15HJSK-YB24),上海理工大学博士启动基金项目研究成果
一、语料库概述
语料库顾名思义就是指语言材料的数据库。语料库在计算机产生之前就已经存在。语料库在日语中叫做コーパス,属于外来语。在广词苑中对コーパス是这样定义的:“言語を分析する際の対象となる資料集。文字で記された資料や録音された言語資料の集合体”,在英语中写作“corpus”。综上所述,可将语料库定义为:语料库(Corpus),就是指在随机采样的基础上收集的有代表性的真实语言材料的集合,是语言运用的样本。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。
语料库分类方法众多,划分方法不同,语料库的叫法也不一样。语料库只是一种比较笼统的叫法,根据时间来划分,可以分为共时性语料库和通时性语料库;根据语言素材,可以分为书面语语料库和口语语料库;根据赋码与否,可以分为赋码语料库和未赋码语料库等。
二、国内外日语语料库的建设现状
近年来,随着计算机储存技术和检索技术的不断发展,国内外日语语料库的建设取得了长足的发展。日本国立国语研究所、上海外国语大学、北京外国语大学等科研机构和高校的教师都从不同的角度做出了有益的探索和努力。
(一)日本日语语料库的建设
1948年成立的国语国立研究所和1956年成立的计量国语学会在大量科研经费的支持下,从20世纪90年代以来开始着手建立大规模的日语语料库。日本的许多科研机构在20世纪60年代就进行日语语料库的探索和建设,但是コーパス(语料库)一词引入日语还是近几年的事情。2003年,时任明海大学副教授的投野由纪夫在日本国家电视台NHK的『100語でスタート!英会話』(英语会话100句)节目中创造了一个名为コーパス君的角色,该节目持续三年的时间。加之NHK电视台受众比较多,所以语料库一词逐渐得以广泛使用。
目前,日本比较有影响力的语料库主要有以下几种。
首先,最为知名的要数国立国语研究所「現代日本語書き言葉均衡コーパス」。该语料库由日本国立国语研究所主持,项目启动于2006年,项目截止日期为2011年,计划用5年的时间,建成规模为1亿词的日语语料库。主要收录近三十年来最新的书面日语,收录的范围包括书籍、杂志、报纸、政府公文和网络素材。该语料库主要由下图三个部分构成。第一部分是出版数据(书籍、杂志、报纸)。2001年—2005年出版的书籍、报刊、杂志,规模为3500万字,语料长度1000字和上限为10000字的章节。第二部分是图书馆数据(书籍)。主要是1986年—2005年出版的图书馆藏书,规模为3000万字,语料长度1000字和上限为10000字的章节。第三部分是其他数据(白皮书、法律、教科书、议程、畅销书、网络素材)。主要是1976年—2005年期间从政府白皮书、法律、教科书、议程、畅销书、网络素材上整理的各种素材,规模为3500万字,语料长度1000字和上限为10000字的章节。
截至2010年3月,该语料库已经达到3600万字的规模,其中书籍2500万字,政府白皮书500万字,过去三十年国会会议记录500万字,2005年出版的教科书100万字,雅虎网站100万字。目前国立国语研究所把该语料库的一部分提供给全球的日语学习者和研究人员试用。
其次是「太陽コーパス」。太阳语料库是国立国语研究所开发的以20世纪初期的著名刊物《太阳》的语料素材为基础建设的语料库。收录的语料包括1895年12册,1901年、1909年、1917年、1925年各12册,1928年2册,共62册期刊的全部内容,规模为1500万字。但是该语料库的缺点是,语料相对比较旧,大多是近一百年前的语言,很难适应现代日语学习者的需要。
最后比较知名的是青空文库语料库。青空文库是日本的志愿者组织将著作权已经消失的文学作品搜集后,在互联网上所建立的数位图书馆。日本著作权法规定,著作人死后五十年著作权将消失。所以青空文库目前搜集的作品以明治至昭和初期居多。1997年2月,青空文库在几个志愿者的组织下开始着手建设,得到几家日本财团的支持后,青空文库的规模不断扩大,目前是全世界最大的免费日语电子图书馆。日本一些知名作家的作品几乎都可以在该语料库中搜索到。该语料库目前提供zip、ebk、html三种文件格式。编码方式采用Shift—JIS编码。比如日本著名的殿堂级作家夏目漱石的《我是猫》在语料库中可以直接阅读。
(二)中国日语语料库的建设
国内日语语料库的建设起步比较晚,进入20世纪90年代,国内的一些大专院校才开始关注运用计算机技术辅助日语教学和研究,日语语料库的建设也仅仅是停留在理论阶段,并未真正在实践中进行操作。日语语料库建设缓慢主要有三个方面的原因:第一,受特定时期国家政策和教育方针的影响,俄语、英语的教学和研究一直是国内外语教育的重头戏,日语教学和研究起步晚,发展缓慢。第二,计算机技术的发展速度也制约着日语语料库的建设,直到20世纪90年代末期才提出了计算机日语语料库建设,在此之前,主要靠卡片记录、人工检索的方式来进行日语研究。第三,由于著作权和经费等方面的原因,建设规模比较大,并且可以公开语料库资源供全国日语学习者使用的公益性日语语料库,在著作权法上面还存在短期难以克服的问题。
在日语语料库建设方面,北京外国语大学大学日本学研究中心和上海外国语大学的一些专家走在了前列,在90年代末期就开始准备计算机语料库的构建。北京日本学研究中心徐一平教授负责建设的《中日对译语料库》、上海外国语大学毛文伟副教授承担的《中国日语学习者语料库》的建设与研究,在规模和质量上填补了国内的空白。
北京外国语大学北京日本学研究中心徐一平教授主持的国家社会科学基金项目《中日对译语料库的研制与应用研究》,于1999年立项,2003年7月结项,最后成果为《中日对译语料库》(CDROM)和《中日对译语料库的研制与应用研究论文集》。《中日对译语料库》(CDROM),共收入中日双语各种文本语料2013万余字。在语料的收集上,考虑到语言研究和自然语言处理研究应用的实际需要,在注重规模和原文、译文质量的同时,还充分考虑到各种体裁、年代语料的平衡,经过对原文文本和译文文本的调查和筛选,最终收入了中日文各类文章原文文本和译文文本共80余篇。其中不但收录了中日对译文章中最常见的小说文本,还包括了如诗歌、散文、传记、政论、法律法规、政府工作报告等各种体裁的语料文本,其跨越的时代也涉及了近现代的各个时期,从而充分保证了语料的实用效果。但是比较遗憾的是该语料库CD版高达700多元的售价让很多普通的日语学习和研究者望而却步,所以并未得到广泛推广。
上海外国语大学日语语料库建设也走在全国的前列,特别是《中国日语学习者语料库》的建设开创了日语学习者语料库建设的先河,对国内其他高校日语语料库的建设具有很大的启发和指导意义。并且在此语料库的支持下,也产生了许多的科研成果。目前该语料库已经达到7000万的规模,语料涵盖了各个时期的小说、散文、报纸等各种题材。
国内外其他高校日语语料库的建设,虽然也有所建树,但是如前所述受到资金和版权的限制,发展并不是特别迅速。
三、语料库在日语翻译硕士(MTI)人才培养方面的重要意义
自2006年教育部开始试办翻译本科专业学位以来,截至2014年,已有152所高校获准试办翻译本科专业学位、206所高校获准试办翻译硕士专业。纵观近年来国内外学术界对日语翻译硕士(MTI)人才培养模式的探索,尚未发现比较系统的研究。在翻译学硕士(MA)和翻译硕士专业学位(MTI)培养的异同、MTI课程体系建设、MTI翻译教学理论和实践建构等范畴有少量文献,呈现出三个清晰的研究范式。
研究范式Ⅰ是在日语翻译硕士人才培养方案的逻辑框架内,反思翻译学硕士(MA)和翻译硕士专业学位(MTI)这两种不同性质翻译教育的区别,试图探讨两者之间培养目标和培养模式的差异。日本学者塚本庆一的《中日同传口译人才培养策略探析》是其中具有代表性的文献,宋协毅的《汉日日汉同声传译》一书系统地探讨了日语MTI课程设置和同声传译人才培养的策略和方法。上海外国语大学高翻学院的探索和实践为国内的翻译教学提供了不少有益的参考。
研究范式Ⅱ是从课程设置的视角探讨翻译学硕士(MA)和翻译硕士专业学位(MTI)课程设置的不同。穆雷认为学术型翻译(MA)研究生和专业型研究生(MTI)培养可以通过课程设置区分,形成两种不同的人才培养模式。东华大学钱晓波认为日语翻译硕士专业学位(MTI)人才培养应该从课程设置方面突出“专业型”的特点,应将法律、医疗、机械、金融等技术翻译纳入专业课程建设体系。北京第二外国语学院、大连大学在日语同声传译课程设置方面积累了丰富的经验。
研究范式Ⅲ是从日汉翻译教学理论和实践的角度出发,探讨了日汉翻译教学的性质和人才培养的目标。小松达也在《口译者的翻译技巧》一书中以大量的翻译实践为例系统介绍了口译的技巧和口译人员培养的方法。华东师范大学高宁、杜勤的《新编汉日教程》详细地阐述了翻译教学的基本方法和对译者主体性地位的思考,丰富了日汉翻译教学的理论。
随着上海“四个中心”建设进程的加快和“自贸区”大战略的提出,市场对高层次、应用型、专业化高级翻译人才的需求急剧上升。据商务部统计显示,截至2014年12月底,上海累计引进外资项目7.63万个,合同外资2741.1亿美元,仅日企就有8000多家,高级翻译人才供需不足的矛盾日益凸显。目前全国仅35所高校招收日语MTI,日语翻译硕士人才培养尚处于探索阶段,如何运用有效的科技手段,不断改进教学方法和提高教学效率是一个很值得探讨的问题。特别是随着大数据时代的来临,语料库建设在日语翻译硕士(MTI)人才培养方面的意义逐渐显现出来。
首先,语料库在翻译教材编写上的应用。语料库在精读教材、泛读教材、语法教材、会话教材、翻译教材、口译教材、日汉互译教材的编写过程中,发挥着巨大的辅助作用。毛文伟认为:“本族语语料库还可以为教材编写提供真实例句,避免自编例句的生硬甚至谬误。但是与选择课文素材相同,我们需要对所获例句进行筛选和改写,防止内容的艰涩干扰学习者对于知识点的顺利习得。同时,还须重视语境的再现,尽可能地保证例句提供的语义韵和语境等信息准确、完整。”早期的外语教材,主要是直接引用国外的原版教材或高校一线教师编写的教材,在特定的历史条件下,这些外语教材为我国培养外语人才做出了很大的贡献。但是随着信息技术的快速发展,教材的更新速度明显落后于社会的发展。全球化下各种文化的交融,新的词汇不断涌现。为此,利用语料库对新出现的词汇和常用词汇进行词频统计,把出现频率较高的词汇编入教材中,提高了外语教材的时效性和科学性。并且作为教材的补充,可以利用语料库编写一些语法练习册和词汇练习册。根据上海市中高级口译考试大纲,先选好语法条目或重点词汇,在语料库,把这些要重点练习的语法或词汇进行检索,挑选出有代表性的句子。对这些句子的长短进行适当的调整,编成练习册,可以有效提高学习效率。
其次,语料库在语法教学上的重要意义。语法的学习是外语教学中不可回避的问题。如何把使用频率比较高的语法条目融入课堂教学中,是每位日语教师都不得不考虑的问题。但是例句的编写往往存在很大的问题。依靠日语教师自身所掌握的语言功底来编写,不仅对教师的语言功底提出严格的要求,而且需要花费大量的精力。并且由于教师本身对语言把握程度的不同,很容易造成教学内容的参差不齐,甚至有时会交给学生错误的内容。有些句子虽然从语法上来说是正确的,但是日本人并不是这样表达。通过语料库来检索重要的语法条目,根据检索结果,对检索的句子进行适当的调整,可以避免人为因素造成的错误。
再次,翻译课程是日语翻译硕士(MTI)人才培养中的核心课程,语料库在翻译教学中具有极其重要的辅助作用。黎土旺指出:“语料库丰富的双语平行文本资源能够提供关于某一语言结构在不同语境下的大量译例。这不仅方便教师备课和学习者查阅资料从而节省大量的时间,而且通过对这些真实语境下的译例进行归纳和总结,消除了传统翻译课堂教学中译例单一、缺乏真实性等弊端,能让学习者第一时间领会到不同的译者对于同一词汇、同一句型结构和同一语篇模式的不同的翻译技巧,还可以让学习者比较同一结构或类似结构在不同体裁的文本中的翻译技巧,从而达到举一反三的功效。”目前应用于翻译领域的语料库主要指平行语料库,平行语料库中对应的双语文本可以为“机器翻译”提供真实的语言事实,从而帮助改进机器翻译系统,同时还可以作为翻译人员的翻译参考工具,提高翻译质量。特别值得一提的是双语平行语料库,对于外语教学具有很重要的辅助作用。在语料库的支持下,既可以进行日汉双语的互译,还可以根据译文进行还原翻译。由于中文和日文的语料都是名家名篇,所以将翻译过的内容同参考译文进行对比,可以弥补不足,有助于提高翻译者的翻译水平。
四、结语
随着上海自贸区和“四个中心”建设的不断推进,语言服务类产业发展迅猛,市场对高层次翻译人才的需求与日俱增。根据美国著名咨询公司卡门森斯的调查显示,2011年全球外包语言服务市场产值为314.38亿美元,每年以7.41%的速度递增,预计2016年将达到389.6亿美元。中国翻译协会2012年的调查数据显示,2010年我国语言服务业的年产值为1250亿元人民币,2011年为1576亿元人民币,增长比例为26%,预计2015年语言服务企业年产值将超过2600亿元人民币。上海外商企业投资累计7万多家,仅日本企业就有8000多家,常住外国人高达17万人,翻译人才缺口巨大。外语类口译、笔译人才的职业化道路日益凸显,培养服务国家战略和区域经济与社会发展的高层次职业化的语言服务人才势在必行。
随着电子信息技术的不断进步和网络信息日新月异的发展,在日语学习方面,人们获取第一手日语文本资料和视听材料的手段越来越丰富,途径也越来越广。但是数据信息浩如烟海,外文图书汗牛充栋。如何从如此丰富的信息当中选取合适、有用和有效的信息成为当务之急。通过日语语料库的建设,选择科学性较高的语料,通过信息化技术来研究语言的规律性现象,可为高校的语法教学、词汇研究和翻译理论建设提供技术支持,特别是抽取一些有代表性的日语文学作品,通过现代计算机技术和检索技术来辅助教学和研究,不但可以节省大量的人力和物力,而且可以提高翻译教学素材的科学性,日语语料库的建设和强大功能在今后的日语翻译人才(MTI)培养过程中必将受到越来越多的关注。
参考文献
[1] 曹大峰.汉语平行语料库与翻译研究[J].外语教学与研究,2006.
[2] 毛文伟.论语料库在外语教材编纂中的作用[J].日语教学与研究,2013(6):56.
[3] 冯志伟.语料库语言学与计算语言学研究丛书[M].北京:世界图书出版公司,2008.
[4] 徐一平.双语对应语料库研制与应用[M].北京:外语教学与研究出版社,2004.
[5] 石川慎一郎,等.言語研究のための統計入門[M].日本:くろしお出版,2010.
[6] 黎土旺.语料库与翻译教学[J].中国科技翻译,2007(3):48.