本科翻译专业口译语料库建设设想——以岭南师范学院为例<br/>

本科翻译专业口译语料库建设设想——以岭南师范学院为例

2015-08-15陈拔萃

山东农业工程学院学报 2015年4期

陈拔萃

（岭南师范学院外国语学院翻译系，广东湛江524048）

一、为何要建立本专业的口译语料库

1. 口译语料库

在语言学研究中，语料库（corpus）指的是“应用计算机技术，按照一定的语言学原则，根据特定的语言研究目的而大规模收集并贮存在计算机中的真实语料，这些语料经过一定程度的标注，便于检索，可用于描述研究和实证研究”[1]。自20 世纪90 年代以来，语料库得到了明显的发展，各种平行/双语语料库、口语和笔头语语料库、学习者语料库等的相继建立，使得语料库在语言描写和语言分析中的作用和优势越来越显著。事实上，语料库语言学的兴起是20 世纪以来语言学领域的重大变革之一，在研究对象的真实性，研究方法的系统性，研究结果的可复制和可验证性等方面有着其他语言研究范式所不可比拟的巨大优势，正在成为“语言学研究的主流趋势”[2]。

2. 建立翻译系口译语料库的必要性

目前，在岭南师范学院翻译系还没有面向学生的口译语料库。建立此库，我们认为至少基于以下三方面的考虑：

（1）口译教学的辅助工具

口译教学目前在我校方兴未艾。我校从2004 年开设英语专业（翻译方向），2012 年获教育部批准开设本科翻译专业。几年来，我校的口译教学与培训取得了骄人的战绩，例如本校学生曾获得第五届广东省大学生“蓝鸽杯”英语口译大赛三等奖、广东省翻译大赛口译三等奖等。尽管如此，在口译教学实践中依然呈现出一系列急需解决的研究课题，如何科学有效地设置适合本校的口译教学大纲、完善口译课程体系和教学方法等等。

（2）口译研究的坚实基础

相比起口译教学而言，我校翻译系的口译研究还处于初始阶段。据不完全统计，在翻译系教师公开发表的关于口译研究论文中，往往是基于个人教学或实践经验的反思和总结，或是对理论的比较和评析，而暂时缺乏系统的描写性研究。然而一门科学学科的创立和发展需要一个“描写”（description）的基础[3]，而在本系口译教师所做研究中目前尚缺乏系统获取描写型数据，并采用科学有效分析方法进行研究的成果。而建立口译语料库正是可望弥补这一缺陷，为下一步进行口译理论的研究采集可靠的数据，打下坚实的基础。

（3）口译实践的理想平台

目前国内外针对外语学习开发的软件平台早已显示出强大的市场生命力。但据公开资料显示，针对口译学习者的口译训练软件的研发，国内目前尚处于初始阶段。而目前我院学生参加口译实践活动的机会日益增多，如2014 中国国际水产博览会、2014 中国海洋经济博览会、各届广交会等等，如果现场语料加以转写收集进入语料库，将会成为口译课堂教学中自主学习实施的理想平台。学生口译语料库不仅方便口译学习者进行自我练习，也可以使合作式学习成为可能。此外，通过口译语料库, 学生可以更加客观清晰地认识自己口译中的失误现象，使其口译教学更加有效率和更加具有针对性。

二、如何建立本专业的口译语料库

1. 总体规划

参考了国内外在口译语料库建设方面的经验，鉴于我校的实际情况，拟在岭南师范学院翻译系建立一个学生口译语料库，计划在两年内建成三个子库，分别为：学生课堂练习语料库、学生期末考试语料库、学生课外实践语料库，均为双语平行语料库。初步计划两年内转写语料十万字。

本语料库的性质属于翻译语料库。这是因为口译是一种特殊的翻译活动，涉及源语与译语的口头表达和转换。同时，根据语料的对应层次，也属于对应语料库的一种[4]6-7。

本语料库的语料来源主要是课堂录音、期末考试学生的录音，以及学生口译实践中的录音。

本语料库的语料内容主要按照专题来进行分类，可分为经济口译、政治口译、旅游口译等等。

本语料库的方向分别有汉-英、英-汉两大类。

本语料库的对象为翻译专业本科学生，初步考虑年级为大三和大四。这主要基于学生的英语基础和口译课程的设置来考虑。

语料收集的工作方式和应用场合：基于学生水平、语料收集和研究目的等因素的考虑，在口译工作方式方面，本语料库以交替传译为主；根据口译的应用场合，主要以联络口译、随同口译和社区口译为主。

2. 建库步骤

根据对国内外主要口译语料库的经验借鉴，结合本口译语料库的实际情况，主要步骤如下：

（1）收集语料（录音/影）

如果收集口译课堂和期末考试的语料，则使用我校同声传译实训室相关设备和软件，对口译训练过程和学生的口译进行录音。这类材料一方面可以用于学生自主进行课后口译学习，一方面还可用作本校口译教学研究的真实素材。如果是在口译实践现场，应注意的是，需获取多方许可，如活动组织方、讲者和译者等，方可进行录音或者录影。由于本研究主要对象为交替传译，在录音上属于单声道，相对比较简单，现有的设备可完全覆盖。但如果可以把录音过程设法转为录影过程，视频的信息可为日后的研究提供更为重要的分析材料。

（2）语料的数字化（使用软件）

通过现有设备所获取的录音/影材料，有些需要通过一定的软件处理，才能成为计算机可读取或分析的音视频材料。口译材料的数字化通常由声音编辑软件实现，例如：Cooledit-Pro 2.0，格式为.wav；采样速率为32k；声道为单声道；采样分别率达到8 Bit。在语料收集阶段需要尽可能收集到好的音质的音视频，这样才可以为研究副语言特征，如停顿、犹豫等提供可能性[5]。

（3）语料的文字转写

由于所采集语料多为音频或者视频模式，因此需要进行文字转写。虽然在技术层面上，可以利用某些软件包进行语言识别，例如Dragon Naturally Speaking 及IBM Via Voice 等，但目前此类技术还不完全成熟，结果并不可靠。因此，只适合用来获得初稿。文字转写大部分工作还是要依靠人工完成，并且在转写完成后还需要反复精听，进行核对。在理想的状态下，转写时除了要求写出文字以外，还需要注意对副语言（如停顿、支吾等）的标注，但如何对副语言进行标注，是下一步值得在研究中探讨的难点[6]。

（4）文本标注

在转写完成以后，下一步是对文字材料进行标注，为以后的分析语料打下基础。参考王斌华、叶亮[3]对口译教学语料库的语料标注参数的分类，结合学生实际情况，本语料库的标注参数拟分为五个类别：1）按口译主题来分，分为政治、经济、社会等；2）按口译场合来分，分为新闻发布会现场口译、导游口译、商务谈判口译等； 3）按专业难度来分，可分为专业化、一般化、大众化三个级别；4）按语速来分，可分为快、中、慢三个等级；5）时长及字数（具体语篇具体分析）。

（5）语料入库及检索统计

在完成了前面几个步骤以后，就可以把语料导入平行语料库软件，以便进行下一步的检索统计分析。本研究拟采用国内比较通行也比较多借鉴经验的ParaConc。经过对文本的处理，将汉语和英语文本分批导入，点击平行文本对齐，即可建成平行语料库。在建成以后，既可以对所标注的信息进行检索和统计，也可以批量提取相关语料。

三、本口译语料库建成的使用潜力

本口译语料库建成的使用潜力主要在于对本专业口译教学与研究的新突破。近年来，随着全国翻译专业的蓬勃发展，地区院校的口译教学与研究亦呈现兴旺发展的势头。然而多年以来，我院口译教学教师之间仅仅是停留在“经验传授”的阶段，并没有一个“口译教学资源库”，也没有将现有口译教学资源进行很好的整合。本语料库建成以后，在口译教学实际操作中，可以把该语料库的音频或视频作为口译现场模拟材料，或者把某些译得好的口译片段作为模范，从而使学生通过比较，提高对自己口译质量和存在问题的认识。其次，基于本库，学生可以在其中选取来自于真实场景的语料作为口译自主练习材料，教师也可以直接运用其中的某些录音或通过音频剪辑软件（如cooledit）对语料进行切分加工，或调整语速，使其符合学生的实际口译学习水平。

在研究方面，我院口译研究多数基于经验总结、主观内省，或是对翻译理论的比较和评析。而此类研究往往缺乏口译研究本该有的 “生态效度”（ecological validity）[7]。另外，鉴于目前我院的口译研究几乎都是例证或者以某几个学生的语料为研究对象，而科学研究中的假设和求证均需要规模较大的有效的数据。因此，目前我校的口译研究目前难以得出具有普遍性意义的研究结论。

而要改变以上的状况，必须要在研究视角和方法上有新的突破，才会使我院口译研究有更好的发展，更上一台阶，为我院翻译硕士的申请打下良好的基础。而一个具有良好前景的目前国内国外都比较认可的突破口便是，建立属于我系的学生口译语料库。对学生现场口译的真实语料进行系统描写，再采用科学认可的方法进行转写入库，探究具有我院特色的学生的口译现象以及寻找内在的规律和存在问题，以此为逐步建构口译研究的基础理论的基础。

[1] 王克非.语料库翻译学探讨[M].上海:上海交通大学出版社,2012.

[2] 张威. 口译语料库的建设与应用——理论、方法与实践[M].北京:北京语言大学出版社,2013.

[3] 王斌华,叶亮.面向教学的口译语料库建设:理论与实践[J].外语界,2009(2):23-32.

[4] 王克非等.双语对应语料库研制与应用[M]. 北京:外语教学与研究出版社,2004.

[5] 胡开宝,陶庆.汉英会议口译语料库的创建与应用研究[J].中国翻译,2010(5):49-56.

[6] 邹兵,王斌华.口译语料库中副语言信息的转写及标注:现状、问题与方法[J].山东外语教学,2014(4):17-23.

[7] Pchhacker, F. Introducing interpreting studies [M]. London/New York:Routledge.