邮政英汉平行语料库的建设与应用研究
2020-11-20孟凡军董国栋赵荣改
孟凡军 董国栋 赵荣改
(石家庄邮电职业技术学院,石家庄 050024)
引言
专门用途语言是指用于特定学术或实践领域,如法律、自然科学、技术、工程、商务、旅游等领域的语言变体,通常都围绕某一专业主题(黄立波,2016)。邮政英语属于邮政领域英语。语料库方法对专门用途英语的研究以及应用提供了便利的途径。邮政英汉平行语料库的创建,将对邮政类英语的研究及应用起到重要作用,
1 邮政英汉平行语料库建设及应用的意义
“邮政英汉平行语料库” 旨在服务邮政行业的英汉双语专门用途语料库,其建设对邮政领域的机辅翻译、邮政翻译教学和培训、邮政英汉双语词典的编纂以及自然语言处理研究提供丰富语料,能够大幅度提高邮政翻译和教学的工作效率,有效规范邮政翻译和教学用语,其研究有很大的价值和意义。
1.1 对中国邮政国际化发展的意义
邮政英汉平行语料库的建设是对接中国邮政国际化发展的现实需要。全球化的快速推进,尤其 “一带一路” 建设,为邮政行业的发展提供重大机遇。中国邮政集团作为央企在物流快递、金融保险、文化传媒等领域具有广阔发展空间,而推进以上领域国际化发展的关键在于语言互通。邮政英汉平行语料库强调语料的规范性和应用性,通过搜集和筛选邮政英语语料,进而赋码、建库以应用于邮政教学的教学、培训和翻译之中,提升员工国际化业务能力,有效推动中国邮政国际化发展。
1.2 对规范邮政行业英语术语的意义
邮政英汉平行语料库的建设是规范邮政行业英语术语的现实需要。目前,市面上关于邮政英语方面的书籍和电子资源并不多,邮政行业英语也没有统一的规范,邮政英语的学习范围也仅限于我校的在校学生,这一现状,对于集团国际化人才的培养以及集团国际化的发展是不利的。鉴于此,该语料库的建设与应用,有利于推动邮政英语行业化、标准化、国际化发展,提高员工工作效率和国际化业务能力,从而推动中国邮政国际化发展。
1.3 对集团官网英文版翻译的意义
官方网站是公开团体主办方体现其意志想法,团体信息公开,并具有权威、公开性质的一种网站。中国邮政官网具有树立企业品牌形象、提升企业信誉、品牌推广功能、产品展示功能、传播企业文化、发布资讯、扩展销售渠道等功能,集团官网英文版是用英语向全世界展示中国邮政,所以其翻译显得尤为重要,该库的建成对于中国邮政官网英文翻译有以下几点功能:(1) 提高翻译的精准度;(2) 提高翻译的效率;(3)提供更多维度材料,服务官网翻译。因此,该项目能对集团官网翻译起到很大的支撑作用。
1.4 对邮政英语教学的意义
邮政英汉平行语料库的研制是促进邮政专业英语教学的现实需要。本语料库为教授邮政英语的教师提供大量真实的教学材料,为语料库驱动下的邮政英语教学提供真实且多样化的资源。此外,本语料库收录的大量动态丰富的资源,有利于邮政英汉双语词典的编纂,对教学和培训支撑工作起到巨大作用。
2 邮政英汉平行语料库建设
2.1 总体框架
邮政英汉平行语料库是专门用途语料库,研制与加工并重、邮政用语研究与翻译研究并重是该语料库的主要特征。同时,该语料库兼顾笔译和文本、兼顾共时和历时研究,力求设计科学,分类合理。
2.2 邮政英汉平行语料库的研制
研制工作主要涉及语料库设计、语料收集与加工、语料库检索工具的设计、语料库在线检索四个部分。
2.2.1 语料库设计
就语料库的构架设计而言,为了兼顾语言研究和自然语言处理等语言工程的不同需要,并考虑到对一般语言和专门用途语言的研究需要,语料库一般分为通用型的平衡语料库和专用型的特定语域的专门语料库。本语料库设计初衷为专门用途语料库,但兼具平衡语料库的功能。
2.2.2 语料收集与加工
邮政英汉平行语料库在建库的过程中,考虑到邮政领域和其他领域息息相关,并且在翻译邮政领域相关资料文件时,会涉及到大量的经济、政治、科技等术语,故在语料收集时,还收集了经济、政治等相关领域术语,该双语平行语料库初建规模约为100万字/ 词以上,书面语料为主,笔译语料为辅。主要语料来源于公开出版的邮政英语系列教材、公开发行的邮政行业相关文件、政府部门公开发行的英汉双语材料等。如《邮政英语Ⅰ》《邮政英语Ⅱ》《邮政英语Ⅲ》《邮政英语Ⅳ》《万国邮联公约细则》等邮政行业英语相关语料;《政府工作报告》《十九大双语报告》等政治相关语料;《博鳌亚洲论坛2019年年会开幕式上的主旨演讲》等经济相关语料,此外还有《2013年函件细则+ 包裹细则-EN(p1-226)》《2013年函件细则最后议定书-CN》以及某集团官网翻译语料等初始语料。
语料的加工就是对原始语料即生语料进行标注,利用语料库相关功能及词性标注软件等将各种表示语言特征的赋码标注在对应的语言成分上(吴丽华,2019)。本语料库主要利用人工标注以及标注软件对语料进行加工。统计时文本格式要求为Excel 格式,而不是word 或者其他格式,这样便于后期分类整理。语料库文本的命名及语料库文本中列的分布原则:1. 尽量简短,统一格式命名;2. 语料库文本中列的分布尽量全面,涵盖所需的搜索条件。该研究将Excel 分为汉语(词语)、英文(词语)、英文原句、中文原句、句子出处、类别、任务完成人等7列。
2.2.3 语料库检索工具的设计
检索工具在设计时,将综合利用应用和数据库等技术,应用使用springmvc+springboot+mybatis,后台实现语言是JAVA,前台实现语言是html+js,数据库用使用mysql。拟将元信息输入后,用户根据自己需求进行搜索,实现词汇、语句的检索,并呈现出词汇、语句的出处。
2.2.4 语料库在线检索
经过前期大量语料的收集、分析与处理,语料库的建设进入最后阶段。根据之前的设计,开发了PEC邮政英汉平行语料库系统(如图1),将语库分为翻译查询、词条信息、例句信息、词条出处、导入词条信息五个模块,其中 “导入词条信息” 模块的主要功能是能实现语料库的动态更新。本系统点击链接http://clc.qxkj-cn.com/pec/wordInfo 就可以实现搜索功能。
图1 PEC 邮政英汉平行语料库系统
3 邮政英汉平行语料库的应用
3.1 应用于中国邮政国际化发展
“一带一路” 是党中央应对全球形势深刻变化,统筹国内国际大局做出的重大部署。“一带一路” 倡议以共商、共建、共享为理念,不仅推动了沿线60多个国家和地区的经贸往来合作,还带动了这些国家和地区的深入交流与合作,这给中国邮政业务的发展带来了巨大机遇。一带一路沿线国家在进行交流合作时,英语是通用语之一,该库是英汉平行语料库,就意味着中国邮政在专业领域语言可通过该库分享给其他国家,扩大中国邮政影响力,推动中国邮政在国际合作、邮政物流服务基础设施建设、人文交流等方面国际化发展。
3.2 应用于集团官网翻译
该库的建成能提高翻译的精准度、效率,并且为翻译提供多维度的动态资源。
3.3 应用于教学、培训
语料库具有文本电子化、学习直观化、分析多元化、结论科学化、成果有机化等优势。该库的建成有利于邮政类英语教材编纂、邮政英语教学以及邮政员工英语语言培训。