应急语言服务汉英双语语料库的构建及其应用研究
2022-03-18贾春巍
■贾春巍
(长春大学旅游学院外国语学院,吉林 长春 130607)
一、语料库的国内外研究现状与问题
语料库来自拉丁词corpus,意为“汇总”。认为语料库一般用来指“电子形式的可以进行自动或者半自动分析的文本”。在国外,MonaBaker是第一个倡导将语料库应用于探索翻译现象的学者。20世纪90年代初,世界上第一个双语库在加拿大建成。双语库应用于语言和翻译研究,在国外起步较早。经过20年左右的发展,国外建立了一批有代表性的双语平行语料库,其中有建于20世纪90年代初的加拿大议会会议录英-法平行语料库,它被认为是世界上第一个双语平行语料库;始于1993年的克姆尼茨英-德语料库;英语-瑞典语双向平行语料库等双语语料库;建于2004年的欧洲议会口译语料库,以口译素材为主。日本自2006年开始研发应急语言支援系统,2014年起开始构建多语种平行语料库,但语种极为有限[1-2]。
我国语料库的研究始于20世纪70年代末并在逐步发展。我国第一个英语语料库是1986年由上海交通大学建成的科技英语语料库;北京大学计算语言学研究所建设的双语语料库;1998年哈尔滨工业大学建成了有三万词条的英汉双语语料库;与翻译结合起来研究的语料库有北京外国语大学中国外语教育研究中心所建立的通用汉英对比语料库[3-5];王克非主持的中英双语在线;厦门大学卢伟建立的英汉双语对应语料库、燕山大学建立的《红楼梦》英文语料库、胡开宝和邹颂兵建立的莎士比亚汉译语料库、董娜建立的研究林语堂作品的语料库等。
就目前语料库建设的情况来看,语料库的研究应用已经非常广泛,将语料库与翻译相结合的教学研究也积累了不少成果,但大多数语料库的建设都是用来进行某种语言现象的研究,针对突发事件的应急语料库的建设还极其薄弱,有关应急语言的英汉双语语料库建设也几乎没有。在当下疫情肆虐的特殊时代背景下,建设应急语言汉英双语语料库,助力应急外语人才培养已经成为时代的呼声。
二、创建应急语言汉英双语语料库的必要性和可行性
随着2020年WHO宣布本次疫情构成“全球大流行”,全球新冠肺炎确诊病例数一直在快速攀升。在此全球疫情背景下,中国一直坚持两条战线作战,即持续国内防疫和努力防范外部输入。在此背景下,对外应急服务人才短缺和应急外语服务中英文表述不准确的问题愈发凸显,这也揭示了应急语言服务汉英双语语料库的建设刻不容缓。
创建应急语言汉英双语语料库具有方向性。党的十九届四中全会明确要求要“推进数字化建设”。语料库的建设充分响应了“数字社会建设”和“数据共享”的号召。
创建应急语言汉英双语语料库具有可行性。随着互联网的高速发展,网络技术不断突破。目前国内外已开展了互联网疾病监测系统及其语料库的构建研究,这些成功的经验,也为应急外语服务语料库的建设提供了可行性方案。
创建应急语言汉英双语语料库具有稀缺性。目前,针对突发事件的应急语言的语料库建设极其薄弱。在国内,应急语言服务概念刚被提出,上海大学虽构建有突发事件语料库但2015年后停止更新,且语料仅为汉语新闻。构建应急语言汉英双语语料库,能够填补目前国内在相关领域的研究空白。
三、应急语言汉英双语语料库的构建
(一)应急语言汉英双语语料库的设计与语料的采集和分类
语料库选取汉语和英语作为源语言与目标语言的语料语种。语料素材的应急场景选为“疫情防控”。语料来源主要是政府官网、《中国日报》(China Daily)、《柳叶刀》(Lancet)、《自然》(Nature)和《科学》(Science)等知名期刊等。语料素材应包含尽可能多的题材类型。考虑到语料库建设的实用性、专业性、指导性和便捷性,语料重点选取与抗疫相关的新闻报道、学术研究报告、政策法规、公示导览等多个题材类型。
将“应急语言汉英双语平行语料库”进行主题分类,每种题材采取抽样形式进行文本分析。提取有关医学专有名词、政策举措、临床表现、日常防护、治疗方案和社会生活等相关词汇,同时设有中药专栏,囊括一些常见的中医的主题英文表达,以有效地宣传“中国抗疫模式”和中国传统中医的价值。
(二)应急语言汉英双语语料的文字识别与校对
在语料采集的过程中,由于搜集的材料包括网页版内容、纸质文档和图片等多种形式的资料,而选取入库的语料需要是电子文件,因此,选择入库的材料必须先经过电脑录入和整理,即进行文本的数字化转换。先将纸质版的文本进行扫描,生成图片或者PDF格式,再利用OCR文字识别软件进行文字识别。文字识别后生成的Word文档需要转换成TXT文本,这就是初期的“生语料”。生语料中可能存在着很多错误,比如标点符号错误、个别数字字母识别的错误、乱码、空格换行错误等,需要对其进行非常详细的校对工作;另外,页眉、页脚、页码、注释等不符合建库规范的格式和内容也需要进行降噪处理。语料库作为学生学习和参考的重要资源,必须保证其规范性和准确性。为了增强语料的时效性,需要在收集的文本上标注其来源及时间信息。
(三)应急语言汉英双语语料的对齐和调整
平行语料库的构建中最重要的一个环节就是语料的对齐加工。语料的对齐包括词块、句子、段落和篇章。本语料库的建设主要是以词块和句子为对齐单位。语料对齐工作极其繁琐复杂,因此,对齐工具是专门用来创建双语平行语料库的利器。可供选择的国外对齐工具有ABBYY Aligner、SDL Trados Studio、memoQ、Déjà Vu 和Wordfast,国内也有很多对齐工具软件可供使用,例如雪人 CAT、Transmate和 Tmxmall等。
SDL Trados是市场占有率比较高的一款计算机辅助软件。因此,本语料库选择使用WinAlign来进行文件对齐。创建WinAlign项目,设置源语言和目标语言,根据实际需求选择原文和译文的断句规则,选择合适的文件类型,将校对好的源语文件和目标语文件上传到WinAlign项目里,进行文件匹配,之后需要人工审核匹配结果,修正匹配错误的句段,同时将需要合并、分割和编辑的句段进行人工处理。句段匹配检查、编辑无误后,即可以导出匹配结果TMX文件。
四、应急语言汉英双语语料库的主要应用
(一)应急语言汉英双语语料库在翻译语言教学中的应用
翻译教学离不开双语语料库。王克非指出所谓双语对应语料库辅助翻译教学,是指借助大规模原文及其对应译文的电子文本,辅以计算机统计手段的翻译教学模式,该模式旨在从翻译产品入手,通过观摩、对比、分析、借鉴的方式发挥学生的主观能动性[6-8],培养学生的翻译意识,再评估他人译作和自我实践的基础上提高学生的翻译技能。Bernardidni指出,将双语语料库应用于翻译教学中,有助于学生形成一种翻译反射和反应。Zanettin也例证了双语对应语料库有助于提高学生对原文的理解及翻译能力。王克非、王海霞的一项基于语料库的翻译自主学习实验也表明双语语料库能激发学生的学习兴趣。因此,双语语料库可以有效地辅助翻译教学,这一点是毫无疑问的[9]。
翻译活动包括词汇的选择、搭配、句式结构、语义等多个层面。普通外语专业学生日常所学内容与流行病调查这样专业性极强的工作是对接不上的,比如在病情描述、医学词汇、应急处理等主题词汇表达方面,精准翻译难度较大。此时,学生们就可以通过应急语言汉英双语语料库这样专业的搜索平台进行更准确的翻译活动,避免造词创词的情况出现,与此同时还可以分析和观察医疗词汇的搭配和语义韵等,通过分析归纳更好地把握特定应急领域文本的语言特征,非常有利于应急领域文本翻译语言特征的教学。
TimJones曾指出,在课堂教学中使用语料库索引技术对英语专业教学有很大的帮助。基于“数据驱动学习”教学模式,在翻译理论与实践课程的教学过程中,教师一方面可以指导学生学习语料库的检索,这是翻译人才必备的专业技能;另一方面,也可以带领学生参与到语料库的建设中来。将学生分成小组并根据主题进行任务分配。在整个语料库的构建过程中,学生参与话题语料的整理和后期的语料校对,可以加深学生对抗疫汉英对应文本的认知度和敏感度。其次,在此活动中,学生成为了教学活动的主体,学生主动进行对语料的观察、对比和分析,激发了学生主动思考的意识,促进了学生的自主性和探索性学习,也加强了小组合作学习;同时在进行汉英两种语言的语料对比过程中,感受中国抗疫力量与理念,既培养了学生的翻译者素养,也增强了学生传播中国声音的责任感和使命感,实现了课程思政与专业课的同向同行。
(二)应急语言汉英双语语料库在翻译语言特征研究中的应用
具体语言对翻译语言特征的研究主要包括翻译语言词汇特征、句法特征和搭配特征等。基于应急语言汉英双语语料库,对比分析翻译英语和原创英语的对应词块的词汇特征,由此发现英译文本中使用的简单词汇更多。通过句法特征分析,对比翻译英语和原创英语语料平均句长和句法结构,发现翻译英文文本的语句长度要较短一些,并且简单句的使用更加频繁。
通过对语料库语料的对比分析,发现China Daily里翻译英文文章的单词选词难度和句子的复杂程度较原创英文语料要低。
(三)应急语言汉英双语语料库在翻译实践研究中的应用
在翻译实证研究过程中,双语平行语料库的作用极其强大。利用平行语料库,基于对翻译实例的分析,来确定源于词汇的目的语的对应词。鉴于语料囊括的专业领域里的实例多和具有较强的时效性的优点,应用双语平行语料库特别适合对具体对应词的翻译进行研究。构建一个经过对齐的汉英双语平行语料库来发现应急语言领域内的一系列语言相等的翻译对应项,主要是从词汇和短语对比入手,可以充分地进行语言对比研究。现阶段语料库已经抽样整理了China Daily的108篇文章,包括临床表现15篇,社会生活15篇,政策举措20篇,医学研究52篇和中医治疗6篇等,总计54169字,提取出540个医疗专有英汉双语词汇和短语表达,应急语言双语平行语料库能够实现汉英平行词块的动态语境共现,通过检索能更准确地找到专业医疗术语和短语表达,尤其是医疗机构、疾病名称和病毒名称等[10]。
五、应急语言汉英双语语料库创建的意义
应急语言汉英双语语料库的创建服务于时代需求。在当下全球新冠肺炎疫情大背景下,应急外语服务成为重要的语言桥梁,建设一个应急汉英双语语料库势在必行。
应急语言汉英双语语料库的创建服务于国家和地方应急外语翻译需求。首先,语料库具有较强的数据处理优势,可以为翻译服务工作提供源语素材[11],为应急公告发布和宣传翻译提供平台支持。通过术语和表达的搜索,可以大大地提升应急翻译文案的处理效率,并且确保了应急语言翻译的准确性,另外助力了应急事件的多场景应用。其次,应急语言翻译语料库为机器翻译提供了专业的语料素材,可以提高应急类文本的机器翻译质量。
应急语言汉英双语语料库的创建服务于应急外语人才培养需求。以应急双语语料库为素材,基于语料库语言学和语料库翻译学,基于数据分析提取有高针对性的紧急词汇和高频词汇,科学编写应急外语人才训练素材和教材,提高人才培养效度。提高高校外语专业学生的应急英语语言技能,将视角从培养学生语言技能过渡到应用技能,对非外语工作人员展开必要的应急外语教育或提供应急外语手册以备所需,为国家培养和储备应急外语服务人才[12]。
应急语言汉英双语语料库的构建既满足了当下疫情背景下对应急语言服务的迫切需求,又填补了国内应急汉英双语语料库缺失的空白,为科学研究、学科建设和人才培养都提供了有价值的实践平台。
六、结语
构建疫情背景下的应急语言汉英双语语料库是应急外语服务多语种语料库的重要组成部分,也助力推进了国家语言应急体制的建设。通过应急语言汉英双语语料库的研发和创建,可以为基于语料库的翻译研究及语言对比提供语料基础,具有很强的理论意义,同时还可以在术语提取、机器翻译和翻译教学等方面实现其应用价值,还能助力突发事件应急管理,充分实现语言的服务功能,为提升全球公共应急管理能力提供强有力的支撑。
当然,构建应急外语服务双语语料库所面临的巨大困难和挑战也是不容忽视的,例如“平台支持”“技术保障”“语料处理”“信息更新”等,这也预示着一个丰富的语料库的建设不是一蹴而就的,而是需要持久性和不断地与时俱进。应急外语服务平行语料库的建设应该立足当下、聚焦需求,国内外互助,只有这样才能更好地面对时代发展提出的迫切要求,面对现实需要发出的时代召唤。