APP下载

粤港澳大湾区文化遗产汉英多模态语料库的构建初探

2021-11-25刘文欣梁晓欣黄雪莹陈健乐黄梓深

科技信息·学术版 2021年28期
关键词:多模态粤港澳大湾区语料库

刘文欣 梁晓欣 黄雪莹 陈健乐 黄梓深

摘要:随着粤港澳大湾区建设的不断推进,粤港澳大湾区的文化遗产作为联结湾区各地的重要桥梁,也是在国内外传扬岭南文化的重要载体。因此,加强粤港澳大湾区文化遗产的语言建设,培养面向世界的语言服务人才是重要的一环。以此为背景,本文探讨了粤港澳大湾区文化遗产多模态语料库的重要性、构建方法以及其对于培养粤港澳大湾区语言服务者的意义。

关键词:粤港澳大湾区;多模态;语料库;语言服务者

一、前言

粤港澳大湾区是中国文化遗产的重要聚集地,文化遗产展览和人文活动丰富。在粤港澳大湾区快速发展以及文化交流日趋增多的背景下,根据《粤港澳大湾区发展规划纲要》的要求,各界将联合开展大湾区文化保护、发展等工作,“弘扬以粤剧、龙舟、武术、醒狮等为代表的岭南文化,彰显独特文化魅力”、“增强大湾区文化软实力”、“发挥大湾区中西文化长期交汇共存等综合优势,促进中华文化与其他文化的交流合作”,需要越来越多的语言工作者参与到粤港澳大湾区文化遗产的传承中。随着文化传播的数字化进程,以中英双语文本材料结合多模态的语料库建设将为传播粤港澳文化遗产提供全新的途径。

二、多模态语料库的发展

“语料库”(Corpus)是指语料的集合或者语料的仓库,英文词Corpus来源于拉丁文,为Body的意思,有“全集”的含义。语料库是样本的集合,作为专业术语的语料库指的是为某一个或多个应用而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具有一定规模的语料的集合 (何婷婷,2003)。

Mona Baker[1]对语料库翻译研究理论做出很大贡献,她曾对语料库翻译研究的理论构想提出过一系列极有价值的主张。在初期语料库翻译研究的发展中,Mona Baker指出了语料库翻译研究的三个基本方面:(1)语料库翻译研究同以目标语为导向的研究方法之间的联系;(2)语料库翻译研究所使用的独特方法;(3)这一方法在研究翻译的语言学性质的方面中具有的潜力[2]。Mona Baker[1]认为语料库翻译的最终目的在于探索翻译语言中规律性存在的原因和驱动因素,而这些原因和驱动因素可能与原文在目标语文化中的地位相关。

在国内,基于专门用途的语料库的起步相对较晚,但发展迅速。国内近年来建成了一些专门用途语料库,如上海交通大学的莎士比亚戏剧英汉平行语料库、燕山大学的《红楼梦》译本平行语料库、绍兴文理学院的鲁迅小说汉英平行语料库等。但是这些语料库因为是专门性的,所以语料来源单一,规模比较小。此外,双语平行语料库的建设近10年来也取得了重大进展,已有多个英汉、汉英双语平行语料库建成。如北京大学计算语言学研究所的汉英平行语料库(5万多句对)及其所承担的863项目所建的英汉平行语料库(20万句对)、哈尔滨工业大学的英汉双语语料库(40—50万句对)。但是这些语料库都有一个共同之处,即建库的目的主要是自然语言处理而非语言学研究,因此所获得的句子通常都是脱离语境和顺序杂乱的句子,英译汉与汉译英的语料夹杂,使用者不易于识别翻译方向[3]。

为了能够更好的开发语料库的功能,补充语言传达的信息,近年,越来越多的人注意到多模态语料库的发展。多模态语料库(Multimodal Corpus)指的是把文字、音频和静态、动态图像语料一样进行转写、处理和标注,使用者进行检索、统计等操作的数据库。相对于纯文本的语料库,多模态语料库具有可实现语境化、言语活动信息丰富、语料可信度高、语料来源容易确认等优点[4]。

当今现有的多模态语料多为某一领域的小型语料库,在研制更多的小型专用语料库同时应发展大中型通用语料库[5]。我们在引进国外现成的多模态语料库的同时,要在吸收国外建设经验的基础上,去建设和开发有各个地方特色的多模态语料库,注重语料库建设的设计和规划、语料的采集、加工及转化、语料库管理系统建设的规范化,促进语料库资源共享,提高语料库的使用效率,避免重复建设带来的资源浪费。

语料库规模的建设还受到资金、版权、人力、技术等因素的限制。主要双语库对专门类型的文本都有一定程度的收录,但是在数量上还是远远不能满足现阶段各专门用途类的研究需求,语料的文类对研究结果也有一定的影响。

目前国内语料库翻译学研究成果虽然较多,但是在研究粤港澳大湾区文化遗产汉英语料库这一领域还比较少人研究,而且鲜有整合的语料资源供语言工作者使用。基于语料库的研究正日益受到学界的关注,作为新兴语料库研究领域,为填补这一空白,粤港澳大湾区文化遗产汉英语料库项目旨在为语言工作者提供翔实可靠的汉英平行语料以及相关图片等副文本信息。

三、粤港澳大湾区多模态语料库的建设与用途

粤港澳大湾区文化遗产汉英语料库的构建,旨在为研究粤港澳大湾区文化遗产此领域的相关学者提供正确的汉英互译的参考信息,传承中华优秀文化,推动中国文化走向世界。主要内容:本项目主要针对的是对粤港澳大湾区内的文化遗产信息的收集、整合与翻译。本语料库将收录了丰富的双语文化遗产资源,其中,资源的收录将分别来自权威文化遗产双语网站,还有相关的纸质书报,以及粤港澳大湾区内博物馆的双语导览。

本语料库为自建语料库,建设过程主要包括语料库平台搭建和语料采集与加工两大部分。其中,平台搭建的步骤包括门户网站的建立,搜索引擎嵌入,模块划分和 XML信息标注过程。在语料采集与加工过程中,团队将首先搜集粤港澳大湾区关于文化遗产的权威汉英平行语料以及相关资源,采用 OCR 等、文字编辑器等工具进行纯文本提取,并通过文本对齐工具进行汉英语料对齐,形成平行语料 XML 文件。在 XML汉英平行语料载入平台之后,还将为平行文本补充相应的粤港澳大湾区文化遗产的图片及其它副文本,形成完整的语料库。

在语料选取上,本语料库基于顾曰国[7]提出的语料库选取的三个特点,充分考虑其语料代表性,应用价值及研究价值及语料质量。就语料代表性而言,本语料库所选取的所有语料紧贴粤港澳大湾区文化遗产内容,包含文化遗产项目介绍文本,宣传文本及相关技术文本。就应用价值及研究价值而言,本语料库所选取的汉英平行语料及多模态材料结合的形式可为广大语言学习者、语言服务者及文化爱好者提供大量的文本与副文本,帮助他们在提高双语能力的同时加深对文化的理解;语言研究者以及文化研究者可以使用該语料库中的平行语料及进行汉英双语语言研究、翻译研究、多模态研究以及大湾区地区文化研究。就语料质量而言,本语料库所收集的所有语料来自真实的汉英文本,例如博物馆展品简介、民俗文化馆介绍、大湾区文化双语新闻等等。为了保证汉英平行语料的关联性,所有文本在语料清理的过程中,无法对齐为平行语料的部分被删除,尽可能的保持了汉英语料的对应,所选择的多模态内容与平行语料相关联,与平行语料互为补充,并导入语料库。语料库生成之后,用户可以在搜索栏键入关键词信息,得到汉英对应双语表达、相关语境及相关图片、音频、视频材料。例如,在搜索栏中键入“陈家祠”可得到对应包含该关键词的汉英平行文本以及相应的图片信息:

中文文本:陈家祠是在广州的一座祠堂。

英文文本:Chen Clan Academy is an academic temple in Guangzhou.

又如,在搜索栏中键入“醒狮”,其搜索结果为:

中文文本:该皮肤形象也成为了“南海醒狮非遗推广大使”。

英文文本:At the same time,the skin image has become the "Nanhai Awakening Lion Intangible Cultural Heritage Promotion Ambassador".

通过关键词搜索,可以得到,“陈家祠”对应的英文译文为“Chen Clan Academy”,“南海醒狮”的相关英文译文为“Nanhai Awakening Lion”。同时,用户可了解中英文所使用的语境以及简单介绍或相关新闻。此外,图片信息展示了陈家祠的外观以及南海醒狮的场景,使用户对陈家祠、南海醒狮有更直观的了解。而嵌入的链接,则链接到到陈家祠、南海醒狮的相关中英文介绍,形成强大的信息互联,打破传统语料库单一的语言信息模式。

四、结束语

多模态语料库以其多维度、多功能的特性,为语言工作者提供更为全面的体验。而随着粤港澳大湾区文化传播与跨文化传播的日益频繁,粤港澳大湾区文化遗产汉英多模态语料库的构建及探索的实践意义更为凸显。粤港澳大湾区文化遗产汉英语料库为外语人才提供丰富的汉英双语学习资料,充分利用好其优势,积极探索其在跨文化交际能力培养中的应用价值,为大湾区历史传承工作培养后备人才,从而更好地应对全球化发展。

参考文献:

[1]Baker,Mona. "Corpus-based translation studies:The challenges that lie ahead." Benjamins Translation Library 18 (1996):175-186.

[2]刘敬国,陶友兰.语料库翻译研究的历史与进展——兼评《语料库翻译研究:理论、发现和应用》[J].外国语(上海外国语大学学报),2006(02):66-71.

[3]王克非.中国英汉平行语料库的设计与研制[J].中国外语,2012,9(06):23-27

[4]黄伟.多模态汉语中介语语料库建设刍议[J].国际汉语教学研究,2015(03):60-66.

[5]梁燕玲.多模态语料库建设与外语教学——现状与前瞻[J].昭通学院学报,2016,38(03):114-117+121.

[6]顾曰国.北京地区现场即席话语语料库的取样与代表性问题[R]//中国社会科學院世界经济研究中心.全球化与21世纪.北京:社会科学文献出版社,2002:484-500

基金来源:广东白云学院2020 年度大学生创新创业训练计划项目“粤港澳大湾区文化遗产汉英语料库(202010822137)”资助。

作者简介:

刘文欣(1999,12—),女,汉族,广东广州人,本科学历,广东白云学院,英语专业教育。

黄雪莹(1999,6—),女,汉族,广东广州人,本科学历,广东白云学院,英语专业商务。

梁晓欣(1999,11—),女,汉族,广东江门人,本科学历,广东白云学院,英语专业教育。

陈健乐(1995,12—),女,汉族,广东深圳人,本科学历,广东白云学院,英语专业翻译。

黄梓深 (1997,3—),男,汉族,广东河源人,本科在读,广东白云学院,英语专业翻译。

猜你喜欢

多模态粤港澳大湾区语料库
基于语料库翻译学的广告翻译平行语料库问题研究
运用语料库辅助高中英语写作
“粤港澳大湾区”,即将崛起的世界级城市群
“粤港澳大湾区”,即将崛起的世界级城市群
网络环境下大学英语多模态交互式阅读教学模式研究
多模态理论视角下大学英语课堂的构建
新媒体环境下多模态商务英语课堂教师角色定位
语料库与译者培养探索