APP下载

小型桂林旅游英汉双语平行语料库的创建和应用

2021-11-22蒋娜王禹丁

现代英语 2021年17期
关键词:语料语料库平行

蒋娜 王禹丁

(1.南宁理工学院,广西 桂林 541000;2.广西民族大学,广西 南宁 530000)

一、引言

中华人民共和国国务院在2016年12月印发了有关旅游业发展的规划,强调未来五年我国旅游业的发展方向和目标,其中强化国际影响力是目标之一。开展国际旅游合作,给入境游客提供便利,使入境旅游持续增长。作为国际知名的旅游景区,桂林地区旅游业发展速度逐渐提升,每年的旅游人数显著增加,但是在发展过程中旅游语料库的建设还有待完善。旅游语料库属于专门用途语料库,是旅游领域的大量真实语言文本的集合。目前,我国国内的旅游语料库已有建设,但数量不多,且集中在英语单学科语料库,本研究将实现英汉双语和信息化的研究融合。桂林旅游语料库的创建可用于辅助桂林旅游外宣资料的翻译和翻译教学。

二、国内外研究现状

平行语料库的研究始于20世纪90年代,与国外相比,我国的平行语料库建设时间较晚。在国外建设的过程中,其大规模的平行语料库有一百多个,且包含10多个欧洲语种,借助平行语料库,能够有效提升其英语语料库的使用质量。国外研究者在语料库的研究中,主要结合地区发展实际情况,发挥语料库的应用作用和优势。在国外发展过程中,以旅游文本为语料的专门语料库主要有三个,分别是芬兰萨翁林纳翻译研究学院英语教师Michael Wilkinson构建的相关英语旅游文本语料库,包含多至670,000的词汇。同时,一些英国国家的研究生在英语旅游文本语料库的研究中,对相关词汇进行有效收集,以期更好地应用其中的词汇内容提升工作水平。该语料库主要收集了酒店、餐馆和旅行社的宣传资料和政府旅游部门的介绍;日本大学(Nihon University)Kiyomi等人于2006年研制的“京都旅游语料库”(Kyoto Tourism Corpus)共885篇,平均每篇47个词,收集的内容均为日本京都市旅游介绍的文本。这三个旅游语料库都属于小规模语料库,容量不超过100万词。

在国内发展过程中,我国已经构建平行语料库,而且还有一些汉语英语平行的语料库或者英语汉语文学作品语料库。通过相关语料库的应用,能够提升我国对语料库研究的水平和效率。在语料库的研究和应用中,主要借鉴国外语料库研究的优势和特征,根据国家和地区发展实际需要,构建完善的语料库体系,从而将相关语料库内容更好地应用在实际工作中,提升各项工作开展水平和效率,尽可能地为将来旅游行业发展和建设提供保障,发挥语料库的优势和作用。就旅游文本而言,我国中科院研制了旅游咨询口语对话语料库和旅馆预订口语对话语料库。

总的来说,我国的语料库起步较晚,主要参照国外相关语料库的模式进行建立。同时,在已经建成的语料库中,主要以英语学习为主,发挥英语学习的作用。

语料库的发展从最初的词的一般分析,如词频统计功能,逐步扩展到词的语法属性标等功能。除此之外,汉语语料库的建设中存在缺乏技术支撑的问题,而且很多国外研发的成熟软件并不能识别汉字,而在已经建成的语料库资源中,涉及的单语语料库较多,双语语料库较少。因此,近20年来,人们开始将语料库用于翻译研究,主要构建了以下三类语料库:第一种是译文语料库,第二种是类比语料库,第三种是双语对应语料库。在这三种语料库的应用中,通常是以文学文本为主,或者收纳百科文本为特色,根据地区特点专门研制和开发的双语语料库则存在不足。

三、桂林旅游英汉双语平行语料库的创建

基于前面的研究背景,研究者决定创建桂林旅游英汉双语平行语料库。该语料库的创建和其他双语语料库的创建过程相似,大致需要经过以下几个过程:语料采集、语料整理、术语切分和提取、语料加工与标注和语料对齐。与其他双语语料库相比,桂林旅游英汉双语平行语料库具有地域性和针对性的特点。

(一)语料收集

语料收集是语料库建立的第一步。桂林旅游景区众多,市内有七星公园、象鼻山、叠彩山、芦笛岩等景区,郊区以阳朔为代表,有大榕树、蝴蝶泉、兴坪和九马画山等景点。桂林旅游英汉双语平行语料库的语料来源众多,格式多样,在语料选取时需考虑其内容的科学性和语料的代表性。首先,对语料的来源进行严格筛选,搜集的语料选用官方的双语报告、景点宣传材料、景区公示语、影视媒体剧本或字幕等。语料有纸质的出版物、宣传册,也有电子书或者网页下载的资料。其次,将收集的语料按照不同的来源存入相应的文件夹,分类整理,例如,景区景点、网络和政府文件等,也可以按景点归类整理。文件结尾处标明语料出处、作者及时间等信息。最后,为增加语料的有效性和可靠性,本语料库还收集了国家标准委、教育部、国家语委发布的《公共服务领域英文译写规范》中关于旅游的部分。

(二)语料整理

语料收集后,需要对语料进行处理。针对不同形式的语料采取不同的方式进行处理,最终将语料变成电子文本形式供建库使用。纸质的书籍需要转变OCR,然后让其成为可检索的电子版。同时,影视媒体字幕运用技术方法对其中的字幕进行提取,从而转化成为能够应用的电子版文本。在PDF格式文档运用转化软件转换生成纯文本的过程中,可以为其资源的应用提供保障。印刷文本需要运用软件扫描,通过格式化的转化,让其成为纯文本格式。在用于语料库的文本中,都需要经过处理后保存为纯文本格式。所有用于建库的文档经处理后保存为纯文本格式。对于非中英文对应的文本,可使用雪人CAT软件对双语语料和术语进行对齐处理。所有收集的语料使用文本格式处理软件对相关内容进行降噪处理,并对多余的空格、空行进行剔除,还会删除一些无关的语言符号、图形图像等,得出清洁文本。然后检查语料中的拼写和语法错误等。

(三)语料加工与标注

完成术语提取后,还应对语料做适当深加工,使平行语料库更好地发挥其作用。语料深加工的技术和方法主要有自动分词、词性标注、句法分析、语义标注以及相关加工中的自动校对和一致性检验技术。对语料篇头信息的标注可以采用标准通用标记语言(SGML)进行,标注语料样本的属性如语体、领域及作者等信息。对语篇的标注包括词性标注、句法分析和语义标注等。针对具体研究问题,还可以对语料进行词性标注自动校对和一致性检验、句法库一致性检验等深加工处理。经过深度加工和标注的语料,以便使用各种检索软件统计语言数据并加以分析。

(四)语料对齐

语料对齐是指在平行语料库中原文和译文的相同语言单位之间建立对应关系的过程。平行语料库中的双语语料在使用双语检索软件统计分析之前,需要通过对齐处理的方式,将双语语料的对齐分为段落对齐、句子对齐等,还包含短语对齐、词语对齐等。为实现句子对齐目的,研究者将对平行语料库中的双语语料,使用雪人CAT软件自带对齐工具进行句子对齐处理。为提高对齐的准确性,经过雪人CAT软件进行自动对齐后,再进行人工检查和校对。雪人CAT软件可以对一篇双语文章或者中英文分开的两篇文章进行句子对齐,大大提高了对齐效率。

四、桂林英汉双语平行语料库的应用

旅游双语文本经过整理就构成了英汉平行语料库所需的语料。启动雪人CAT软件,载入所需语料文本,便可使用自己构建的桂林旅游英汉双语平行语料库。在进行旅游外宣资料的翻译时,通过关键词检索,可以检索到语料库中大量的英汉对照语言实例。借助旅游双语平行语料库,能快速地检索,有效对比待翻译材料和语料库本中相关常用表达方式,增强桂林旅游资料翻译的水平,提高桂林旅游环境建设水平。

桂林旅游双语平行语料库也可用于翻译教学和实践。桂林旅游双语平行语料库中的大量翻译语料,能为学生提供真实翻译材料,帮助学生补充相关背景知识,有利于学生借鉴翻译句式、提升翻译技巧和培养翻译意识。此外,利用平行语料库中提取的英汉双语术语,还可以开展有关术语翻译研究的工作,或者制作术语库和记忆库,加强计算机辅助翻译实践与研究工作以及编纂术语词典。

五、结语

桂林旅游英汉双语平行语料库的构建是在《“十三五”旅游业发展规划》大背景下提出的。借助语料库,既能进行旅游外宣资料的翻译、旅游公示语建设等,有助于提高桂林旅游资料翻译的质量,又能应用于翻译教学和实践,辅助学生提升翻译意识和能力。由于课题组时间有限,所以在语料库的研究中还存在问题,如语料库规模偏小、翻译标注程度有限等问题。语料规模的问题可以通过后期增加、不断扩展来解决,语料的标注也可以不断完善,提高其应用价值。

猜你喜欢

语料语料库平行
探求线面平行中平行关系的寻找方法
向量的平行与垂直
平行
海量标注语料库智能构建系统的设计与实现
基于语料库的清末民初日源外来词汉化研究
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
平行板电容器的两类动态分析
运用语料库辅助高中英语写作
语料库与译者培养探索