民航英汉平行翻译语料库建设路径与应用研究
2021-03-07陈华妮王迪
陈华妮,王迪
(中国民用航空飞行学院,四川广汉 618307)
在国家“一带一路”的政策背景下,为响应中华文化“走出去”以及国家语言能力建设号召,国内各大高校相继大力开展信息时代语言服务人才培养模式研究,探索新型语言服务人才培养的特色道路。同时,大数据和语言技术的飞速发展也给高校外语专业语言服务人才的培养理念和培养方式上的调整带来了前所未有的机遇[1-3]。
语料库语言学作为最具活力、 发展最为迅速的语言学领域之一,越来越多地被应用于语言学各分支的研究中。随着翻译技术的普及,越来越多的学者和译者投入到语料库的研究和实践中。语料库建设、研究和实践也日益成为外语专业学科发展的重点方向之一。
语料库研究是外国语言学及应用语言学专业学科人才需掌握的必不可少技能。与此同时,翻译专业在学科建设上也对语料提出了明确要求。在2010年5月7日,国务院学位委员会下发《关于开展新增硕士专业学位授权点审核工作的通知》(学位〔2010〕20号),其附件1~15《翻译硕士专业学位授权点基本条件》中“教学条件”中明确规定:“申请设立笔译方向的,须拥有专用笔译实验室及供笔译教学使用的翻译软件或资料库”[4-6]。
近年来,在全球化的浪潮下,我国民航飞速发展,我国民航业国际交流也与日俱增,极大地刺激了民航翻译的需求。平行翻译语料库可以对民航翻译研究和实践提供很好的翻译实例和量化数据。该研究针对民航英汉平行双语翻译语料库进行了总体设计,建成了小型民航英汉平行翻译语料库。该研究旨在通过加强民航英汉平行翻译语料库建设从而促进我国民航翻译研究和实践的进一步发展。
1 研究内容与意义
该研究的主要研究内容为民航英汉平行翻译语料库的建立和术语库的建设。该研究建成了2 个小型民航英汉平行翻译语料库和1 个民航翻译术语库。该研究的意义主要有以下3 个方面。
1.1 教学方面
为学院一线翻译教师提供更多教学案例,摆脱以前基于经验的教学模式,教授学生掌握预翻译、项目术语准备、术语统一、语料信息检索、协同翻译等当下翻译流程的关键环节,使学生所学与将来工作无缝对接,提高学生的竞争力[7-9]。
为MTI 以及BTI 学生提供一个检索平台,学生可随时查找民航翻译实例,便于定期回顾,查漏补缺,形成一套翻译自主学习平台。
1.2 实践方面
在进行民航的翻译实践时,帮助译者快速查找相关译文表达,提高翻译工作效率及准确率。
1.3 科研方面
基于该语料库建设可进一步开展各项研究,为学校在翻译教学与研究方面提供更丰富的研究素材和工具。利用平行语料检索技术,研究人员可以获取丰富的双语句对表达,通过对比,进一步发现语言特点[10-13]。
2 语料库建立路径
《民航英汉平行翻译语料库建立与研究》研究工作主要分为以下几个阶段。
第一阶段:语料库相关资料搜集。
通过互联网以及数字图书馆,收集并整理与平行翻译语料库相关的文献。通过互联网以及数字图书馆,搜集各类民航英汉双语语料数据。
第二阶段:语料库建设总体规划。
在文献研究的基础上,完成民航英汉平行双语语料库建设的总体设计方案。
第三阶段:英汉双语语料加工。
获取双语语料数据后,完成语料加工工作,如语料提取、语料降噪等。民航英汉平行双语语料库建设时语料加工采用的部分技术方法包括以下几点。
(1)语料提取:将搜集的PDF 双语语料转成可编辑的Word 文档。主要方法如下:首先,将PDF 中的文字复制粘贴到Word 文档中。其次,对于无法复制粘贴的文字采用多种方法进行处理,如使用Adobe Acrobat Pro DC 进行转换;使用福昕高级PDF编辑器进行转换; 使用ABBY Finereader 进行OCR识别转换;使用在线网站进行转换,如https://www.cleverpdf.com/等;使用Tmxmall 的工具箱进行转换;使用手机OCR 识别APP,如搜狗输入法文字识别、OCR扫描王等进行转换;使用WPS 进行转换等[14-18]。
(2)语料清洗:对Word 格式语料进行预处理。主要工作包括: 将Word 文档中所有的软回车替换成硬回车;处理Word 文档中的句子断句异常;自动编号(序号)换成文字编号;将文档中的红色代码批量选中并删除;批量替换删除<>中的代码;去除多余空格和“-”;处理表格识别混乱;识别混乱的图文框和图表;处理上下标无法识别;处理页眉、页脚、页码和目录混乱;提取中英文文档中的中文/英文[19]。
(3)语料分类:根据文本的类型将语料进行分类,以建成不同类型的民航英汉平行翻译语料库。
第四阶段:英汉双语语料对齐及术语库建设。
使用在线对齐工具Tmxmall Aligner 进行语料对齐。使用Tmxmall Aligner 将长段落原文译文自动拆分为多句,借助在线对齐工具实现一对多、多对多智能对齐并以tmx 格式导出[20-23]。
将导出的tmx 格式文件导入语帆术语宝,完成术语提取及术语库建设。主要的建库方法为:使用云帆术语宝提取术语提取词频为1 的术语,并逐一验证,删除重复部分,保留一词多译;提取词频为2 的术语,并逐一验证,删除重复部分,保留一词多译;以tbx 以及Excel 格式导出,按字母顺序排序; 在YICAT 平台创建术语库,并将导出的tbx 格式文件导入新建的术语库,完成术语库创建[24-27]。
第五阶段:英汉双语对齐语料入库。
将对齐的语料分类导入YICAT 平台记忆库,建成2 个民航英汉平行翻译语料库。用户选择检索模式,在检索框中输入关键词并选择检索范围,即可进行检索。
3 研究成果及创新
该研究的主要成果为:建成A330/A340 飞行机组操作手册语平行翻译语料库和DA42 NG 飞机飞行手册平行翻译语料库; 建成DA42 NG 飞机飞行手册术语库。该研究主要在以下两个方面体现了创新性。
第一,国内外平行翻译语料库研究多涉及英语和欧洲语言,涉及汉语的英汉/汉英平行翻译语料库研究十分有限,这与汉语作为世界上大语种的地位极不相称,与当前翻译研究的需要也不相适应。该语料库的建设是英汉/汉英平行翻译语料库建设的有利补充。
第二,现有的平行翻译语料库多以一般性文本题材为主,很少有针对某一文类的专门用途英语的平行语料库。民航英汉平行翻译语料库属于英汉专门用途英语平行语料库,它的设计和建立是平行翻译语料库研究领域的一个有利补充。
4 语料库应用
首先,该平行翻译语料库收集真实的翻译语言,民航翻译人员能通过翻译语料库查找到更多的翻译实例。因此,该语料库能很好地促进民航翻译实践。
其次,该平行翻译语料库的建立提供了基于双语对齐语料的检索平台,促进了民航翻译研究和实践。民航翻译人员和研究人员可进行多方面检索,有助于翻译规范和翻译理论的验证。
最后,该平行翻译语料库的建立为机型手册翻译任务提供支持。2020年,该平行翻译语料库为DA42、SR20、M2 等民航机型手册翻译任务的顺利完成提供了有力支持。
5 结语
建设英汉平行双语语料库为语料库研究和翻译实践服务已经成为新时代语言研究者必不可少的重要组成部分。通过语料库管理语料,可在检索语料时增强针对性,提高准确率和效率;在翻译实践时,参考利用已建成的语料库,可以避免重复性劳动,提升翻译效率。该研究通过民航英汉平行翻译语料库的建立,为基于语料库的民航翻译实践和研究提供了借鉴和帮助。民航翻译研究人员应进一步建设大型民航英汉平行翻译语料库,进一步提高检索语料的针对性和准确率,促进民航翻译质量的提升以及民航翻译研究的发展。