皖西红色文化双语语料库的构建及应用
2022-03-20于淑芳
于淑芳
(皖西学院 外国语学院,安徽 六安 237012)
皖西革命老区有着艰苦卓绝的革命历程和厚重的红色文化资源。皖西红色文化即是皖西地区文化发展的精华,是皖西人民在长期革命斗争中形成的革命传统及其载体[1]。习近平总书记在2016年也提出“要讲好党的故事、革命的故事、根据地的故事、英雄和烈士的故事”,鼓励我们讲好红色故事,发挥传承红色精神的接力棒作用。长期以来,皖西红色文化资源通常是零散的单个语种的个案研究或质性研究,语料库研究视角缺乏,量化研究和实证性研究相对薄弱,一定程度上影响了皖西本土丰富的红色文化资源和红色革命精神的外宣和传播。因此,皖西红色文化的讲述和红色精神的传承急需以一种系统、全面的,双语的形式体现出来。皖西红色文化双语语料库的构建就是对皖西红色文化遗产进行全面挖掘和整理的最佳方式来更好地弘扬和宣传皖西红色文化,扩大皖西红色文化的海内外影响力。
一、皖西红色文化双语语料库构建的研究背景
平行/对应语料库(parallel corpora)是由原文文本及其平行对应的译文文本构成的双语/多语语料库,其对齐程度分为词级、句级、段级和篇级几种。双语平行语料库建设是同计算机技术相结合而兴起的,为语言研究、翻译研究、外语教学等提供了平台,具有广阔的前景。构建新型国际关系、人类命运共同体的今天,双语平行语料库的建立成为了解世界信息、延展对外交流、获取全球资源的重要手段之一。
从索绪尔开始,语料库的研制和应用就成为了方法和工具最具有标志性意义的进步。世界上第一个初步的平行语料库是距今20多年的Candian Hansard Corps。目前,平行语料库大多集中在欧洲,主要涉及欧洲语言、文本类型、以欧共体/欧盟等机构的文件为主[2](P4)。
国内在近十年来双语平行语料库发展也较为迅速。国内语料库主要从两个类型展开,(非)文学文本和某一特定类型的类文本。比如以文学为题材的燕山大学的《红楼梦》译本平行语料库、上海交通大学的莎士比亚戏剧英汉平行语料库等,或以特定类型为题材的台湾辅仁大学的范本财经英日汉平行语料库等。由王克非教授主持编纂的容量为3000万字且“可应用于语言研究、翻译研究、教学研究、双语词典编等”领域的通用汉英对应语料库是目前世界上最大的双语平行语料库[3]。
毛军社和寇静认为,在当今时代发展的背景下,红色文化通过英语这一媒介来进行传承和传播是大势所趋。如此一来,国家的文化软实力不仅得到提升,大学生的历史责任感和社会使命感也得到增强[4]。王惠和朱纯深也曾指出,很久以来,通常都是文学语料库被用来作为双语平行语料库的主要核心,为某一个具体地域或者某一个具体主题专门建立双语平行语料库却不多[5]。王亚东阐述了红色文化与语料库语言学有机结合成就了英汉红色文化语料库。他对红色文化语料的收集、英汉红色文化平行语料库的建设和应用以及红色文化语料的翻译几个方面都提出自己独到见地[6]。
我国目前已经建有一些汉英平行语料库,但是以皖西红色文化作为主题的具有地方特色平行语料库还处在空白阶段。皖西红色文化资源翻译具有本土化的特点,它通过皖西红色文化双语范本、政府网站、官媒报道、领导人语录等媒介涵盖了能积极反映出皖西当地红色文化的语言、文化、历史和现状。因此,建立红色文化资源双语语料库在推动皖西红色文化传承中的媒质作用具有现实意义和积极意义。由于其不同于一般自然资源和人文资源翻译,为了规范红色文化资源英译,可以在借鉴现有红色旅游汉英平行语料库的基础上,构建和应用皖西红色汉英双语平行语料库。
二、CEPCOWC语料库的构建
皖西红色文化资源汉英平行语料库(Chinese-English Parallel Corpus of West Anhui’s Revolutionary Culture)简称CEPCOWC。建库目的是对皖西红色文化资源做出科学规范的相关研究。
(一)CEPCOWC语料库设计原则
该语料库是可用于皖西红色革命精神研究及皖西红色文化资源宣传的汉英平行语料库。该库由多个子库组成,初步计划收录原始语料约三万字,库容五万字的语料库(革命遗址、纪念性建筑类、红色革命人物故事和红色革命文学等代表性语料的集合)。语料分类为英汉(2/3)和汉英(1/3)双语双向。该库应能为相关领域的皖西地区外宣语料库的建设做一些理论上的探讨和实践上的尝试,为皖西红色精神研究提供一个可共享的数据平台。
(二)CEPCOWC语料的采集、输入和“除燥”
根据皖西红色文化资源的文化特色和多样性,语料库的主题栏目规划初步分为革命遗迹类、纪念性建筑类、红色革命人物故事和红色革命文学四大类以及若干个子类,涵盖了红色文化的大多数资料,具体分类见表1。
表1 皖西红色文化汉英平行语料库主题栏目
利用科学的语料采集方法,把采集到的双语语料书面语料实现电子化,不仅仅符合真实、随机的原则,而且又相对对应和完整,具有典型和代表性。
皖西红色资源内容多样、形式丰富、感染力强,所以调查小组根据不同的需求,一方面下沉到社区、工厂、单位、农村稻田、纪念馆、烈士陵园等地方进行教育、宣传、实地体验和咨询观摩等方式收集语料。这些随机采集到的都属于非公开发行的语料。收集到的语料还得经过核实、验证、校对等方式最终形成可靠真实的资料录入成为最终语料。另一方面从正规发行物(已有的书籍、知网、音频、视频,包括六安市政府官方网站等)中收集有关皖西红色文化相关的材料,从中英文双语版本中提取所需资料。对于收集到的纸质版本,通常通过扫描的方式获得图片格式或者PDF版,更科学地使用“CS”全能王提取所需文字实现电子化文本,然后根据语料的来源、年代、题材、篇名、作者、译者等元素设计成多维原信息标签,以词语或句子为单位以对齐的方式。比如英文和中文(英文为原文,中文为译文)对齐,形成英汉对照的 word 文件,然后分别单独保存为TXT文档,方便后期加工和处理。单独保存的TXT文档,都属于生语料,也就是没有经过加工的语料。因为语料中含有多余空格、标点符号错误、连字符等,所以要对生语料进行加工。CEPCOWC采用Word文档中“查找和替换”功能进行“除燥”和“清洗”,即利用软件辅助人工对语料中的错误进行清洗和除噪(data cleaning),然后再复核进行人工检验。没有问题的情况下,把“除燥”和“清洗”后的文本按照统一格式命名和储存。
(三)CEPCOWC的语料对齐和调整
语料对齐指在两种或多种语言文本的不同语言单位之间建立对应关系,即确定源语文本的哪个语言单位和目标文本的哪个语言单位互为翻译关系。语料对齐的单位包括篇章、段落、句子、词块或词汇[7]。由于篇章内容容易对齐,而词汇英汉表达不同,对齐有点难度,所以重点就是句子的对齐。因此CEPCOWC语料库以源文本为基础,句子单位为基本,对整个语料库内容做句子层次的对齐。市场上有很多语料对齐的免费软件,如Tmxmall在线对齐、WinAlign、ABBYY Aligner、雪人对齐、ParaConc等软件。这里采用ABBYY Aligner0.2在线对齐软件,因为它功能最简单高效,数据存储与交换可以方便快捷得进行,数据读取及利用检索和机器翻译系统则更加直接。如图1。
(四)CEPCOWC语料的抽样检测
图1 皖西红色文化汉英平行语料库语料对齐
李德俊和曹军提出既科学又省力的检测语料可信度的是提等距抽样和分层抽样。他们提到分层抽样是将总体各单位按照一定的标志划分为若干个层(类),然后从各层中抽取所需样本数的方法。而等距抽样是将总体各单位顺序排列后,首先按随机原则,抽取第一个样本单位作为起点,然后再每隔相等的距离来随机抽取其他样本单位的方法[8]。例如,皖西红色文化资源可以分为历史遗迹类、纪念性建筑类、红色革命人物故事和红色革命文学四大类,并且这些类别下属分别有更具体的分类。因此在进行语料库设计检测抽样的时候,首先就要考虑的是分层抽样。以抽选间隔为例,在建立皖西红色文化双语小型语料库过程中,从收集到的某一类型的语料某一年当中(共365天)的所有文章中选择含有“革命”字样的15篇,即N=365,n=10,抽选间隔为:K=N/n=37天。即每隔37天抽出相对应含有“革命”字样的样本来进行抽样检测。最后,通过对10个样本的分析,语料库的整体质量即可大概率确定,从而及时修订相关译文。
(五)CEPCOWC语料的分词和标注
语料的分词和标注是对CEPCOWC语料的再精细加工方式之一。因为所有的语料文本都要放在语料库中操作,所以所有的词都要断开。英文已经基本成词,而中文是连续的,因此分词主要用在汉语文本中。冯丽君指出汉语就是将连续书写的汉字按照有意义的词单元进行切分,以利于后期的检索[9]。“标注”指专门对文本进行特别解释性语言标记的方法,以便于计算机的识读,是建设和实现语料库思想和原则的基本路线之一。语料库的基本构架和语料形态就是由它决定的并且会直接影响使用者对语料库的操作熟练程度[10](P37-51)。这里中文分词与标注直接用国家语委提供的语料库在线分词和标注功能网站。英文则用Free Claws web tagger-Lancaster University提供的软件进行英文自动分词和标注。双语语料的分词和标注全部完成后,人工再审校它们的正确性,没有出入的情况下,复制文本,放在“TXT”里面。如图2、图3所示。
三、CEPCOWC语料库的应用
双语语料库源库的建立,一方面加强全民红色精神集体感化教育,满足人民对中国共产党和社会主义的心灵渴望和精神追求。另一方面提供真实有据的双语语料资源,有利于弘扬革命精神、传承红色基因,扩大皖西红色文化在全国乃至全世界的影响力。
(一)在本土高校实践教学的应用
在英语教学应用方面,双语语料库是原始文本和对应文本的句与句之间的严格对称,因此在收集语料过程中,方便检索发现原始译本的失误现象,纠正偏差来提高原始文本和翻译对应文本的吻合度,为本土高校英语翻译、口语、写作等实践教学工作提供丰富规范的语料资源。比如:“红色文化”一词的翻译,大多数公开媒体都翻译成“Red Culture”。事实上,国外的“red”通常代表了“危险”“残暴”“流血”等含义,而中国的“红色文化”则意味着“广大人民群众在中国共产党领导下,在实现中华民族的解放与自由的历史进程中和新中国社会主义三大改造时期,整合、重组、吸收、优化古今中外的先进文化成果基础上,以马克思列宁主义的科学理论为指导而生成的革命文化”[11]。因此,“红色文化”翻译成“Revolutionary Culture”更为妥当,源文本和译本黏合度和关联性更加紧密。
图2 皖西红色文化汉英平行语料库汉语分词和标注
图3 皖西红色文化汉英平行语料库英语分词和标注
(二)在传播皖西红色文化方面的应用
CEPCOWC语料库利用皖西红色文化双语语料库为各个阶层提供了进行社会主义核心价值观的爱国主义、集体主义、舍生取义的英雄主义的教育的翔实资源。一方面,提高本土高校思想政治教育的站位高度和红色革命精神的传承度,另一方面,充分体现皖西红色文化的科学性、时代性、民族性、大众性和创新性,有利于提高皖西革命老区的知名度,增强社会各界对于皖西红色文化的宣传、保护和利用的意识,有效地开发和利用具有传承精神的红色文化财富。而且CEPCOWC语料库的应用不仅将弘扬“自由、民主、爱国、平等”的社会主义核心价值观,营造“不忘初心、锐意进取”的红色文化氛围,强化积极健康向上的正能量对全社会的集体感化作用,而且有利于发挥皖西红色文化的凝聚力和吸引力从而激发广大群众对皖西红色文化的认同感和自豪感,继承和发扬优秀的革命传统和精神信仰。更重要的是,CEPCOWC语料库的应用将在皖西地方政府实施红色文化强市的战略基础上树立皖西红色文化对外宣传的新形象。
(三)在学科交叉方面的应用
语料库不仅是一门交叉学科而且它的学科交叉、结合、融汇作为新的教学研究范式在世界范围内得到大力提倡。语料库由语言材料组成,最初目的也是始于语言研究,而且它还融合了历史、计算机技术、机器翻译、机辅翻译的学科的交叉。这是一个推动以语料库技术应用为基础的跨学科研究新领域,从更新更广角的维度展开皖西红色文化跨学科背景的研究。CEPCOWC语料库在学科群协同效应的背景下,发扬和传承发展皖西红色精神、传播弘扬皖西红色文化方面做出贡献,进而促成皖西红色精神的站位能聚焦到国家层面,真正达到取之于民用之于民的效果。
四、结语
皖西红色双语汉英平行语料库的建设,不仅可以实现跨学科研究和应用,而且有助于皖西地区红色资源统筹谋划、加强整合、深入挖掘红色文化遗产内涵、 做好红色文化传承,使得皖西地方红色文化得到强化保护和可持续开发利用。这是对皖西红色双语文本进行客观的数据分析的一种创新性尝试。它旨在填补前期皖西红色文化双语语料库空白,增强皖西红色文化研究的效度和信度,深化研究的深度和广度,实现地方红色文化走出国门的愿望。