APP下载

“一带一路”背景下多模态、多语种建筑工程平行语料库的创建与应用

2020-01-10张夙艳

开封文化艺术职业学院学报 2020年6期
关键词:多语种口译语料

张夙艳 丁 玫

(山东建筑大学 外国语学院,山东 济南 250100)

多模态语料库是指视频、音频、图像、文字语料等多种信息进行集成整合,使用者运用计算机通过多模态方法对其进行加工、检索、应用的大型语料集合[1]。平行语料库是由原文文本及其平行对应的译文文本构成的双语或多语语料库,其双语对应程度可有词级、句级和段级几种,是机辅(器)翻译的核心要素。当前,我国多模态语料库的研究与建设正处在发展阶段,顾曰国教授已于2013年建立起包含三个子库(话语活动库、幼儿成人库、网上良师库)的“SCCSD”多模态语料库;2014年,中国社会科学院与北京外国语大学联手建立了中国多语言多模态语料库暨大数据研究中心,旨在全面推动我国多模态语料库的研创与发展;上海交通大学的刘剑自2014年起就开始建设多模态口译平行语料库,利用跨平台多媒体标注软件ELAN对音频、视频语料进行切分、多层次标注、分析、建档与检索,实现了原文、译文与对应音频和视频的同步呈现[2]。但目前,国内还没有具有一定影响力的多模态、多语种的建筑工程平行语料库,仅有少部分小型建筑工程英汉双语平行语料库,建库目的是尝试实现建筑英语词汇的在线索引、数据共享、检索、查询、下载等服务,所需语料库技术主要涉及对齐、术语标注、检索与提取[3-4]。这些小型建筑工程语料库提供的应用远远无法满足日益发展的建筑行业语言服务、教学实践及学术研究的需求。当前,积极建设多模态、多语种的建筑工程平行语料库,开发研究多模态、多语种的语料信息加工处理技术成为当务之急[5]。

一、创建多模态、多语种建筑工程平行语料库的步骤

(一)语料库语料的采集、录入与存储

大规模多模态、多语种建筑工程平行语料库语料的采集要遵守权威性原则,无论是图文材料,还是音频、视频材料,都要从国家级的权威出版物或者官方网站上通过随机抽取的办法获取。不同语料的录入采用不同的方式:对于图文资料,主要采用手动录入(电脑键盘敲击)和光电扫描录入(OCR技术)两种方式;对于音频、视频语料和图像,则采用Elan、Python等多模态语料处理软件进行转写、切分、标注等。语料录入完成后,还需要进行校对,以便控制语料质量。另外,文本语料的添加、录入还可以借助计算机辅助翻译生成的翻译记忆库。当前,翻译记忆技术的提高及翻译记忆库的发展为平行语料库提供了大量素材及技术支持,主要体现在质和量两个方面。在质的方面,随着译者对记忆库提供的语料的编辑、翻译水平不断提高,记忆库中语料的匹配度也越来越高,平行语料库的语料质量得到保障;在量的方面,翻译记忆库的动态扩充使得库中的语料源源不断。此外,当前大多数翻译软件的记忆系统都内置了翻译记忆、术语管理、文本对齐、机器翻译、自动匹配、项目管理等功能,省去了之前人工去噪、对齐、检索等多项工作。这些都对双语平行语料库的创建起到了推进作用。多模态语料的存储需要根据描述语料属性的元数据信息分门别类地进行存储。

(二)语料对齐处理

这里的语料对齐主要是指文字语料的对齐。平行语料库需要对不同语种的语料进行句级对齐处理,目前比较常见的对齐工具包括Paraconc、Bilingual-sentence-aligner、CTK(Champollion Tool Kit)、Vanille Aligner、Hunalign、Tmxmall Aligner等,可根据建库要求和用途选择合适的工具。

(三)多模态语料加工

多模态语料加工涉及文字、音频、视频以及动、静态图像等多符号语料的标注和处理,常用的多模态语料加工工具有Elan、Python、Anvil等。针对某些加工效果的要求,还需要研发新的软件与加工工具。

(四)建筑工程平行语料库的日常检索与维护管理

平行语料库文字类检索工具包括WordSmith Tools、Paraconc、Multiconcord等,多模态类语料检索工具包括Elan、Python等。日常检索可实现的功能包括术语表生成、词频统计、关键词索引、全文索引、搭配词提取、语料比较等。语料库建成后,后期的更新、维护与管理包括确保新语料的及时补录、维持库中语料类别的平衡比例、对新语料进行加工处理、确保语料检索的准确性与速度等。

二、多模态、多语种建筑工程平行语料库创建与应用的难点

(一)多模态语料库技术的研发与应用

现阶段对多模态语料进行加工的软件主要有Anvil、Elan、Python等。比如,上海交通大学刘剑建设的多模态口译平行语料库,就是利用跨平台多媒体标注软件ELAN对音频、视频语料进行切分、多层次标注、分析、建档与检索,实现了原文、译文与对应音视频的同步呈现。但是,针对不同研究目的与应用需求,仍需要研究开发具有更多功能的处理软件,以便更好地进行语料加工与处理。

(二)多语种建筑工程语料库加工技术

多语种语料库加工技术需要通晓多种语言的研究人员,而且建筑工程平行语料库的建设还需要具有建筑知识的专业人才,这极大制约了该类语料库的建设与应用。同时,因为当前开发的大多数加工软件只兼容英语和汉语文本,这也加大了该类语料库建设与应用的难度。因此,在数据库建设初始阶段,可以先全力进行英汉双语建筑工程平行语料库的创建,待英汉平行语料库创建经验成熟后,再推广到多语种建筑工程平行语料库的建设和应用研究上。

三、创建多模态、多语种建筑平行语料库的意义

在“一带一路”建设大规模推进的当下,中国与沿线国家的建筑工程合作项目不断增多,以大型多模态、多语种建筑工程平行语料库为基础提供的研究成果必将为更多海外工程的顺利推进提供高效服务,具有重要的现实意义和极高的应用价值。

(一)有利于提升建筑工程类项目语言服务的质量与效率

多语种平行语料库是机辅(器)翻译的基础,建立大规模、多语种的平行语料库,为和多个国家合作项目的语言服务提供了保障,同时也有力促进了了语言服务工作的质量与效率。

(二)有利于建筑工程语言体系的建设和建筑工程数据分析

多模态、多语种语料库和术语库的建成对建筑类文献保存、信息查询、学术研究、技术咨询、对外合作等具有重要的现实意义。同时,多模态、多语种建筑平行语料库还可为建筑工程双语词典编纂,特别是可视化、多模态双语词典的实现提供可能。多模态、多语种建筑工程平行语料库的创建将弥补国内建筑类双语平行语料库建设的不足,其技术开发与利用不仅将极大扩展我国语料库研究规模,而且将有力推动国家建筑事业的信息化建设与发展。

(三)建筑工程语料库是培养高层次建筑人才的宝贵资源和重要平台

一个高质量的建筑工程语料库存有大量的语料和教学资源,不仅对建筑工程专业教学有巨大的推动作用,而且对建筑工程翻译教学与实践起着重要的支撑作用。对于建筑工程专业教学,多模态语料库不仅是教材编写的源泉,而且可为其提供专业术语、专业图片、专业视频的检索与提取。特别是建筑方向的口译教学,利用多模态语料库,教师能创设虚拟的仿真口译实训实验室,让口译学习者感受到来自口译现场的挑战,体会在紧张、有压力的氛围下进行口译工作,从而获得更好的口译训练效果。

猜你喜欢

多语种口译语料
青岛市多语种应急语言服务现状与需求调查研究
语联世界,言通天下
藏语称谓在多语种史料中的行用路径与语义演变
基于归一化点向互信息的低资源平行语料过滤方法*
美国法庭口译制度研究及启示——以夏威夷州法庭口译为例
濒危语言与汉语平行语料库动态构建技术研究
对中国口译近25年来的研究综述
略论笔译与口译的区别
国内外语用学实证研究比较:语料类型与收集方法
论心理认知与口译记忆