浅谈本科翻译专业口译语料库的构建

2015-03-20陈拔萃

渭南师范学院学报 2015年16期

关键词：口译语料语料库

陈拔萃

(岭南师范学院外国语学院，广东湛江524048)

【外语教学与语言文化研究】

浅谈本科翻译专业口译语料库的构建

陈拔萃

(岭南师范学院外国语学院，广东湛江524048)

作为有效整合计算机技术与口译教学与研究的形式之一，口译语料库的建设目前在国内得到初步的发展。本科院校翻译专业建设面向学生的口译语料库能对口译教学、口译研究和口译实践起到促进作用。文章探讨了建设本科翻译专业口译语料库的必要性和可操作性，对建库的主要框架和步骤作出规划。最后，对本科翻译专业口译语料库的使用潜力做出了分析。

翻译专业；口译；语料库

一、为何要建立本科翻译专业口译语料库

(一) 口译语料库

在语言学研究中，语料库(corpus)指的是“应用计算机技术，按照一定的语言学原则，根据特定的语言研究目的，大规模收集并贮存在计算机中的真实语料，这些语料经过一定程度的标注，便于检索，可用于描述研究和实证研究”[1]9。自20世纪90年代以来，语料库得到了较快速的发展，例如平行/双语语料库、口语和笔头语语料库、学习者语料库等的相继建立，使得语料库在语言描写和语言分析中的作用和优势越来越显著。事实上，语料库语言学的兴起是20世纪以来语言学领域的重大变革之一，在研究对象的真实性、研究方法的系统性、研究结果的可复制和可验证性等方面有着其他语言研究范式所不可比拟的巨大优势，正在成为“语言学研究的主流趋势”[2]7。

(二)建立本科翻译专业口译语料库的必要性

目前，在本科院校翻译专业中还鲜有面向学生的口译语料库。建立此库，我们认为至少基于以下三方面的考虑：

1.口译教学的辅助工具

口译教学目前在全国方兴未艾。自2006年教育部批准全国三所院校(复旦大学、广东外语外贸大学、河北师范大学)试办翻译本科专业学位以来，截至2014年，全国共有152所高校获教育部批准，试办翻译本科专业学位，岭南师范学院正是其中一所。随着社会对口译人才需求的进一步增加，许多高校都在准备开设或已经开设口译课。几年来，全国范围内的口译教学与培训取得了很大进步，但同时在口译教学实践中依然呈现出一系列急需解决的研究课题，即如何科学有效地编写口译教学大纲、完善口译课程体系和教学方法等等。

2.口译研究的坚实基础

相比口译教学而言，口译研究在很多高校还处于初始阶段。以岭南师范学院为例，在翻译系教师公开发表的关于口译研究的论文中，往往是基于个人教学或实践经验的反思和总结，或是对理论的比较和评析，而缺乏系统的描写性研究。然而一门学科的创立和发展需要一个“描写”(description)的基础[3]，一般口译教师所做研究中还缺乏系统获取描写型数据和采用科学有效分析方法进行研究的成果。而建立口译语料库正是希望弥补这一缺陷，为下一步进行口译理论的研究采集可靠的数据打下坚实的基础。

3.口译实践的理想平台

目前国内外针对外语学习开发的软件平台早已显示出强大的市场生命力。但据公开资料显示，针对口译学习者的口译训练软件的研发，国内目前尚处于初始阶段。而目前翻译本科学生参加口译实践活动的机会日益增多，如各类展览会、交易会等等，如果现场语料加以转写收集进入语料库，将会成为口译课堂教学中自主学习实施的理想平台。学生口译语料库不仅方便口译学习者进行自我练习，也可以使合作式学习成为可能。此外，通过口译语料库,学生可以更加客观清晰地认识自己口译中的失误现象，使口译教学更加有效率和具有针对性。

二、国内外口译语料库建设研究现状

目前，整体来看，国外在口译语料库的建设方面要远远走在我国前面。普遍认为，国外关于口译语料库的讨论和建设起步于20世纪90年代末，随着相应技术手段的发展和成熟，口译语料库陆续被建立并且发展壮大。其中两个最典型的例子为由意大利博洛罗尼亚大学研究人员Bendazzoli等开发的“欧洲议会口译语料库”(European Parliament Interpreting Corpus, 简称EPIC)，以及日本名古屋大学设计开发的面向“自动口译”研究的英日双语的同声传译语料库(简称CIAIR)。EPIC主要依托于大规模现场口译语料库的诞生，是对欧洲议会同声传译材料的汇集与撰写，是一个包含英语、意大利语、西班牙语的多语平行语料库。另外，国外还有其他针对专门类别场景的在建口译语料库，例如国际健康会议、新闻发布会等。

在国内，据网络或公开发表的论文显示，目前已经建立的大型和口译相关的语料库有“中国大学生英汉汉英口笔译语料库”(Parallel Corpus of Chinese EFL Learners，简称PACCEL)。它由北京外国语大学文秋芳教授等建立，收录了英语专业高年级(三、四年级)学生的口笔译翻译测试语料，设计总规模为150万字词，实际收录210万字词。PACCEL有两个子库：口译平行语料库(PACCEL-S)和笔译平行语料库(PACCEL-W)。其中，口译部分约50万字词[4]4。该语料库所选语料为全国统一考试专业八级TEM8，其测试标准科学、客观，且通过考试获取语料质量较高，也较容易收集，使得该语料库在代表性方面有突出的优势，方便了研究者开展多项基于本语料库的研究。它的建成可以“帮助研究者了解中国学生学习英语的过程，对教学、研究、测试、培训以及教材编写、网络远程教育都有重要意义”[5]。

另一个在国内建成并具一定规模的语料库是“汉英会议口译语料库”(Chinese-English Conference Interpreting Corpus，简称CECIC)，由上海交通大学开发，是以国内外新闻发布会口译活动为对象设计的平行语料库。目前容量约为54万字，主要包括三个子库，其中汉英口译语料库与口译相关。该库目前主要用作探索汉英会议口译中的翻译共性及其语言特征，并有了初步的研究成果[6]。

广东外语外贸大学王斌华等人通过收集14年(1998—2011年)的中国总理“两会”记者会汉英交替传译语料并进行转写，创建了“中国总理‘两会’记者会汉英交替传译语料库”(the Corpus of Chinese-English Interpreting for Premier Press Conference, 简称CEIPPC)。该双语平行语料库共计10万多字[7]。

不可否认的是，从Miriam Shlesinger[8]1998年首次提出开展基于语料库的口译研究到如今不到20年的时间，口译语料库的建设及相关研究取得了阶段性的成果，带来了一种新的口译研究模式，大大拓展了口译研究的视野。但同时口译语料库的建设也面临着问题和挑战。例如，语料收集难度较大，真实场景的口译语料更是难以有效收集。又如语料的文字转写、标注及过程比较繁杂，而且目前并没有对副语言(如口译活动中的停顿、支吾等)有很好的标注，从而导致对其研究不够，语料库的代表性和开放性都受到限制[6]。

值得注意的是，除了某些由大学院校或研究机构所建立的大型口译语料库外，在国外如欧美一些国家亦有研究者专门为某个研究目的，如研究交传和同传中对人名的处理、研究同声传译中的纠正机制语料库等[5]自行设计建立小型口译语料库，并对其公开。这些语料库针对性强，通常有很强的目的性，但容量较小。虽说应用范围和影响力肯定不及大型口译语料库，但由于其不是采用传统口译研究中经验总结式的思辨、内省方法，而是运用语料和实验的方法，可以说开辟了口译研究的新天地，值得借鉴。然而在国内，目前通过公开途径还未能找到小型的与口译教学有关的或者面向学生的口译语料库，在这方面，建立以学校为单位的本科翻译专业口译语料库无疑是一次有意义的尝试。

三、如何建立本科翻译专业口译语料库

(一)总体规划

参考了国内外在口译语料库建设方面的经验，鉴于翻译本科专业的实际情况，可以在两年内建立一个学生口译语料库，比较合适的设置是三个子库，分别为学生课堂练习语料库、学生期末考试语料库、学生课外实践语料库，均为双语平行语料库。

本语料库的性质属于翻译语料库。这是因为口译是一种特殊的翻译活动，涉及源语与译语的口头表达和转换。同时，根据语料的对应层次，也属于对应语料库的一种[9]6-7。

本语料库的语料来源主要是课堂录音、期末考试学生的录音，以及学生口译实践中的录音。

本语料库的语料内容主要按照专题进行分类，可分为经济口译、政治口译、旅游口译等。

本语料库的方向分别有汉—英、英—汉两大类。

本语料库的对象为翻译专业本科学生，初步考虑年级为大三和大四。这主要基于一般国内高校学生的英语基础和口译课程的设置来考虑。

语料收集的工作方式和应用场合：基于学生水平、语料收集和研究目的等因素的考虑，在口译工作方式方面，本语料库以交替传译为主；根据口译的应用场合，主要以联络口译、陪同口译和社区口译为主。

(二)建库步骤

借鉴国内外主要口译语料库的经验，结合各校实际情况，设计主要步骤如下：

1.收集语料

如果收集口译课堂和期末考试的语料，则使用学校口译实验室或者语言实验室相关设备和软件，对口译训练过程和学生的口译进行录音。这类材料一方面可以用于学生自主进行课后口译学习，一方面还可用作教师口译教学研究的真实素材。如果是在口译实践现场，应注意的是，须在活动组织方、讲者、译员等都允许的前提下，方可进行录音或者录影。由于本研究主要对象为交替传译，在录音上属于单声道，相对比较简单，现有的设备可完全覆盖。但如果可以把录音过程设法转为录影过程，视频的信息可为日后的研究提供更为重要的分析材料。

2.语料的数字化

通过现有设备所获取的音频或视频材料，一般需要用软件进行处理，才可成为计算机可读取或分析的音视频材料。口译材料的数字化通常由声音编辑软件实现，例如：Cooledit-Pro 2.0，格式为.wav；采样速率为32 k；声道为单声道；采样分别率达到8 Bit。在语料收集阶段需要尽可能收集到好的音质的音视频，这样才可以为研究副语言特征，如停顿、犹豫等提供可能性。[6]

3.语料的文字转写

由于所采集语料多为音频或者视频模式，因此需要进行文字转写。虽然在技术层面上，可以利用某些软件包进行语言识别，但目前此类技术还不完全成熟，结果并不可靠。因此，只适合用来获得初稿。文字转写的大部分工作还是要依靠人工完成，并且在转写完成后还需要反复精听，进行核对。在理想的状态下，转写时除了要求写出文字以外，还需要注意对副语言(如停顿、支吾等) 的标注，但如何对副语言进行标注，是下一步在研究中探讨的难点[10]。

4.文本标注

在转写完成以后，下一步是对文字材料进行标注，为以后的分析语料打下基础。参考王斌华、叶亮[3]对口译教学语料库的语料标注参数的分类，结合学生实际情况，本语料库的标注参数拟分为六个类别：(1)按口译主题，分为政治、经济、社会等；(2)按口译场合，分为新闻发布会现场口译、导游口译、商务谈判口译等；(3)按专业难度，可分为专业化、一般化、大众化三个级别；(4)按语速，可分为快、中、慢三个等级；(5)时长及字数(具体语篇具体分析)。

5．语料入库及检索统计

接着前面几个步骤，下一步是把语料导入平行语料库软件，从而进行检索统计分析。本口译语料库拟采用国内比较通行也比较多借鉴经验的ParaConc。经过对文本的处理后，将汉语和英语文本分批导入，点击平行文本对齐，即可建成平行语料库。在建成以后，既可以对所标注的信息进行检索和统计，也可以批量提取相关语料。

四、本科翻译专业口译语料库建成的使用潜力

该语料库建立的使用潜力主要在于对本科翻译专业口译教学与研究的新突破。近年来，随着全国翻译专业的蓬勃发展，地区院校的口译教学与研究亦呈现兴旺发展的势头。然而在多数院校里，口译教学教师之间仅仅是停留在“经验传授”的阶段，并没有一个“口译教学资源库”，也没有将现有口译教学资源进行很好的整合。口译语料库建成以后，在口译教学实际操作中，可以把该语料库的音频或视频作为口译现场模拟材料，或者把某些译得好的口译片段作为范本，从而使学生通过比较，提高对自己口译质量和存在问题的认识。其次，基于本库，学生可以在其中选取来自于真实场景的语料作为口译自主练习材料，教师也可以直接运用其中的某些录音或通过音频剪辑软件(如cooledit)对语料进行切分加工，或调整语速，使其符合学生的实际口译学习水平。

在研究方面，目前口译研究多数基于经验总结、主观内省，或是对翻译理论的比较和评析。此类研究往往缺乏口译研究本该有的“生态效度”(ecological validity)[11]48。另外，鉴于目前大多数口译研究几乎都是例证或者以某几个学生的语料为研究对象，而科学研究中的假设和求证均需要规模较大的有效数据才可得出具有普遍意义的研究结论，而这正是目前口译研究所缺乏的。要改变以上的情况，必须要在研究视角和方法上有新的突破，才会使口译研究再上一个台阶。目前国内外都比较认可的突破口是，建立高校翻译专业学生口译语料库。对学生现场口译的真实语料进行系统描写，再采用科学认可的方法进行转写入库，探究具有院校特色的学生的口译现象以及寻找内在的规律和存在问题，以此作为逐步建构口译研究理论的基础。

[1] 王克非.语料库翻译学探讨[M].上海:上海交通大学出版社,2012.

[2] 张威.口译语料库的建设与应用——理论、方法与实践[M].北京:北京语言大学出版社,2013.

[3] 王斌华,叶亮.面向教学的口译语料库建设:理论与实践[J].外语界,2009，(2):23-32.

[4] 文秋芳,王金铨.全国大学生英汉汉英口笔译语料库[M].北京:外语教学与研究出版社,2008.

[5] 李靖,李德超.基于语料库的口译研究:回顾与展望[J].中国外语(中英文版)，2010，(3):100-111.

[6] 胡开宝,陶庆.汉英会议口译语料库的创建与应用研究[J].中国翻译,2010，(5):49-56.

[7] 王斌华.语料库口译研究——口译产品研究方法的突破[J].中国外语(中英文版),2012，(3):94-100.

[8] M.Shlesinger.Corpus-based Interpreting Studies as an Offshoot of Corpus Translation Studies[J].Translator’Journal,1998,43(4)：486-493.

[9] 王克非.双语对应语料库研制与应用[M].北京:外语教学与研究出版社,2004.

[10] 邹兵,王斌华.口译语料库中副语言信息的转写及标注:现状、问题与方法[J].山东外语教学,2014,(4):17-23.

[11] Pöchhacker F. Introducing interpreting studies[M]. London,New York:Routledge，2009.

【责任编辑贺晴】

On the Construction of Interpreting Corpus for Undergraduate Translation Majors

CHEN Ba-cui

(School of Foreign Languages, Lingnan Normal University, Zhanjiang 524048, China)

Constructing a corpus for translation students is an effective way to integrate information technology into interpretation teaching and research. An interpreting corpus for undergraduate translation majors can benefit not only interpretation teaching, but also interpretation research and practice. This paper attempts to investigate the necessity as well as some practical issues of constructing an interpreting corpus, and lay out the frame and some essential procedures. It is hoped the construction of this corpus will have a great potential for practical use.

translation major; interpretation; corpus

2015-03-02

岭南师范学院科研计划项目：岭南师范学院翻译专业口译语料库建设——翻译本科专业人才培养模式创新实验区之口译研究(QW1408)

陈拔萃(1986—)，女，广东信宜人，岭南师范学院外国语学院教师，文学硕士，主要从事口译研究。

H315

1009-5128(2015)16-0071-04