数据驱动下的口译学习者语料库建设构想*

2016-03-19伍彦安徽新华学院外国语学院安徽合肥230000

高教学刊 2016年17期

关键词：口译语料语料库

伍彦（安徽新华学院外国语学院，安徽合肥 230000）

数据驱动下的口译学习者语料库建设构想*

伍彦
（安徽新华学院外国语学院，安徽合肥 230000）

本研究提出建设一个基于数据驱动学习理论的口译学习者语料库，旨在推进口译教学现代化，为口译研究提供数据，并通过数据驱动的学习模式，为社会培养更多优秀口译人才。

数据驱动；口译；语料库

一、概述

“大数据”时代，数据已成为滚滚洪流，影响着全球经济社会各个领域。随着数据提取、存储、搜索、共享、分析、处理技术的不断提高，大数据与高等教育的结合逐渐成为教育发展的必然趋势。数据驱动学习（Data-driving Learning），作为一种新的教学工具和技术，最早由Tim Johns于上世纪九十年代提出，主要思想是指引学生基于语料库数据观察、概括和归纳语言使用现象。

从教学形式上，数据驱动学习逆转了“规则第一、实践第二”的演绎式教学方法，强调学生自己探索并归纳规则。从教学内容上，数据驱动学习跳出了课本数据的窠臼，提供给学生的语言数据具有容量大、种类多、速度快、价值高四大特征。

二、数据驱动学习与口译语料库的发展

（一）数据驱动学习的国内外发展现状

近十几年，国内外学者从不同角度对数据驱动学习的应用进行了研究。Johns［1］进一步提出了数据驱动学习所面临的技术、语言、教学法等挑战，探讨了在21世纪如何使数据库更加符合学习者需求，并将数据驱动学习与互惠式学习以及互联网的应用结合起来。Gilquin&Granger［2］总结了数据驱动学习的三大优势，包括使课堂更真实，有修正功能，使学习过程更具激励性和趣味性。

中国学者也积极将数据驱动学习运用到课堂实践。俞燕明［3］对数据驱动词汇教学进行了探索，发现该模式能有效提高学生词汇水平，对培养学生自主学习和研究性思维有一定促进作用。李德超、王克非［4］利用数据驱动学习辅助旅游翻译教学课堂实践，认为该学习模式能促进旅游翻译教学理念的转变，教学形式的多样化，并引导学生获得“自主学习”的乐趣。

（二）口译语料库的国内外发展现状

目前世界上规模最大的口译语料库是日本名古屋大学设计开发的英、日双语的同传语料库，采编口译录音材料共182小时，转写材料约1百万字。在建的有英语、意大利语、西班牙语的多语平行语料库“欧洲议会口译语料库（EPIC）”，汇集并转写欧洲议会同传的材料，由意大利博洛尼亚大学开发，目前容量为18万字。此外还有用于译员教学和培训的语料库，例如欧盟口译司开发的Speech Repository等。

国内的口译语料库研究起步于2007年以后，目前已初具规模的口译语料库是由上海交通大学研究开发的“汉英会议口译语料库（CECIC）”。该语料库是以国内外新闻发布会口译活动为对象的平行语料库，包括汉英口译语料库、英语原语语料库、汉语原语语料库三个子库，目前容量约为54万字。此外还有一些民间发起的口译合作平台，例如Speechpool、Chinese Speech Bank等。

三、数据驱动下的口译学习者语料库建设构想

结合口译教学实践，构建一个数据驱动下的口译学习者语料库，具有教学价值和科研意义。一方面，语料库的构建要求在口译训练中对学习者进行录音或录像，作为口译监控的一种有效方式，有助于学生在通用交传阶段完成口译任务和口译能力的提高。同时，基于该语料库的数据驱动学习使学生能够通过关键词检索，找到相关话题和演讲，并使用语料库中的音频和视频进行口译练习或进行同辈反馈，节约了上网搜索练习素材的时间，并提供了同辈之间相互学习、教师提供指导反馈的平台。另一方面，口译学习者语料库具有学术价值。口译学习者语料库可以为副语言研究、口译策略研究等话题提供研究数据，此外，建立口译学习者语料库，对比考察口译学员和职业口译员在口译策略、口译质量等方面的差异，能够全面显示口译学习与实践对口译技能发展的影响，对口译教学和培训有明显而实际的启示意义及应用价值［5］。

结合欧盟口译司Speech Repository的语料库模型，参照数据驱动语言学习的提出问题（Identify），材料分类（Classify）和归纳总结（Generalize）三阶段，本口译学习者语料库的具体操作模式如下：

根据我国大学本科英语专业大三大四学生的实际水平和需要，本语料库拟将涵盖记忆练习、笔记练习和口译应试能力练习三个训练重点。

记忆练习的音视频长度设计在1-2分钟，话题难度为简单，术语频次低，对话题来源不做要求。以一学期16周计算，记忆练习主要安排在课程的1-3周，主要目的在于锻炼学生的注意力、分析能力和短时记忆。相应的，学生按照上述要求，每人每周有针对性地准备1篇中文演讲和1篇英文演讲，课下自行录音或录像，经教师审核后，上传到数据库平台。课上，教师可使用该语料指导学生进行交互练习，即一个学生听另一个学生的演讲进行源语复述（中-中，英-英）或者翻译练习（中-英，英-中）。练习结束后，教师和同辈可对具体学生的口译表现进行反馈，分析该演讲的逻辑结构和记忆要点。

笔记练习的音视频长度设计在5-8分钟，话题难度根据学生水平可分级为入门级、中级和高级，术语频次按级增加，话题要求涵盖口译工作的主要领域，文本内容可以自拟，也可以参照网上的资料进行改写。同样以一学期16周计算，笔记练习主要安排在4-16周，旨在锻炼学生的口译笔记系统、分析提炼能力和篇章表达能力。类似的，学生按照上述要求，每人每周有针对性地准备1篇中文演讲和1篇英文演讲，课下自行录音或录像，经教师审核后，上传到数据库平台。课上，教师每周从语料库中选取1篇中文演讲和1篇英文演讲，指导学生进行课堂练习，主要训练并考察学生笔记系统的建立、有笔记交传的译出质量以及相关百科知识。课下，学生进行小组练习，通过关键词搜索功能调用语料库的音视频，轮流练习并进行相互反馈。

口译应试能力练习的音视频长度设计在5分钟左右，材料来源于CATTI三级和二级的真题。材料由教师收集整理，制作成音频或视频，上传至数据库平台。该材料的训练侧重于应试训练，主要安排在14-16周以及假期，旨在让学生接触真实的考试题型和考察话题，通过练习了解CATTI证书考试的形式和内容，从而可以查缺补漏，进行针对性练习。

针对上述数据类型和用户层次，本数据库初步定位于交替传译训练用途，语种为英语和汉语，语料难度分为入门、中等和高级，语料类型为演讲，话题囊括会议致辞、人物访谈、信息科技、体育健康、环境保护、经济、社会、外交、国情等口译工作的常见方面。教师组建工作坊，对收集到的每一篇语料进行编号，定义检索关键词，并对口译中的原语和译语文本进行转写，完成词性附码、标注等工作。在语料库界面开发方面，由计算机编程人员开发针对上述数据并能够实现在线检索功能的人机交互界面，实现语种、难度、领域选择和关键词、编号搜索等功能。

数据库初步建立后，首先在个别高校进行教师、学生用户公测，完善数据结构和检索程序，扩充数据库语料容量、种类和适用范围，以期为更多口译学习者提供便利，发挥更大的价值。此外，还可以建立一套基于本数据库语料的数据驱动口译学习方案，把数据运用到课堂实践，让学生真正成为数据的贡献者、使用者和受益者。

四、结束语

建设一个数据驱动下的口译学习者语料库是运用新技术促进口译教学和科研发展的重要途径。比起传统的教材编写，数据库的建立能够为口译学习者和研究者提供容量更大、种类更多、速度更快、价值更高的练习和研究素材。此外，依托数据库平台，口译学习从课内延伸到课外，在搜集语料、录制语料、使用语料进行练习和接受反馈的过程中，学生的信息筛选能力、口语表达能力和口译技巧得到潜移默化的锻炼。同时，通过积极参与本语料库的建设，并将其与口译学习结合起来，学生将成为该数据驱动学习模式中最积极的因子和最大的受益方。

当然，语料库的建设需要大量精力和时间投入。从语料库的容量建设上来看，绝非短短几年，凭借一届或几届口译学习者的贡献就可以达到预期规模。此外，在技术层面上需要外语专业和信息技术等专业的合作，具体难点包括质量监控、程序编写、语料标注、信息处理和互联网平台搭建等。从长远来看，建设这样一个数据驱动下的口译学习者语料库，收集与口译学习相关的语料，搭建一个口译练习反馈的平台，具有较大的教育意义和应用价值。同时，数据库的不断更新和推广能够为高校口译教学和科研提供最新的素材和数据，让口译培训行业跟上“大数据”时代的步伐，为社会贡献更多高水平的口译人才。

［1］Johns，Tim.Data-driven Learning:the Perpetual Challenge ［C］.Language and Computers，2000：107-117.

［2］Gilquin，G.，Granger，S.How Can Data-driven Learning be Us ed in Language Teaching［C］.The Routledge Handbook of Corp us Linguistics，2010：359-370.

［3］俞燕明.数据驱动词汇教学-基于计算机和语料库的研究性教学探索［J］.外语电化教学，2009（3）：58-62.

［4］李德超，王克非.基于双语旅游语料库的DDL翻译教学［J］.外语电化教学，2011（1）：20-26.

［5］张威.近十年来口译语料库研究现状及发展趋势［J］.浙江大学学报（人文社会科学版），2012（2）：201.

This study proposes to construct a Chinese-English corpus for interpreting learners based on Datadriven Learning theory.The corpus is aimed at pushing forward the modernization of interpreting training，providing data for interpreting researchers and cultivating more capable interpreting professionals for the society.

data-driven learning；interpreting；corpus

G642

2096-000X（2016）17-0131-02

安徽新华学院校级科研项目（编号：2016rw015）

伍彦（1989，09-），女，汉族，安徽潜山，硕士，助教，研究方向：口译理论与实践。