APP下载

小型商务文本英汉平行语料库的建设与应用

2023-01-02陈少琛

科教导刊·电子版 2022年28期
关键词:分词语料平行

陈少琛

(宁波工程学院外国语学院,浙江 宁波 315211)

0 引言

语料库语言学的兴起为翻译研究提供了一个新的视角和方法,推动了翻译相关的语料库建设,为翻译学开启了新的研究范式。Baker[1]在1993年阐述了语料库在译学研究中的作用,为语料库翻译学研究开辟了新的天地。通过语料库的方法,可对源语文本和翻译语料进行统计、比较和分析,以研究翻译语言特征、译者风格和翻译规范,因此,语料库翻译学成为译学研究的重要领域[2]。在各类语料库中,与翻译关系最为紧密的莫过于双语平行语料库。双语平行语料库被广泛应用于语言研究、翻译研究、外语教学和跨语言信息检索,可为翻译教学和研究提供可靠的翻译实例和量化数据[3]。国内研发了多个通用双语平行语料库,包括中国科学院汉英平行语料库、南京大学双语词典研究中心英汉双语平行语料库、清华大学中英平行语料库、北京外国语大学双语平行语料库等,其在语言学研究和自然信息处理中的作用愈发重要[4]。

但是,目前的英汉平行语料库多为通用语料库,针对性不强,且大多无法公开访问,难以满足特定领域的翻译教学和研究需求。因此,笔者特构建小型商务文本英汉平行语料库,以满足商务领域翻译资源建设、翻译理论和技巧学习、翻译实践应用等需求,可为商务文本的语言特征对比、文体风格分析和翻译研究提供可靠的数据,为学生的学习和实践提供真实的语料。

1 语料库的建设

1.1 语料库的设计

本语料库建设的目的是服务商务翻译的教学和研究,因此在语料构成方面依照商务文本的类型设定,分成几大类:公司介绍、产品推介、贸易单证、企业年报、招股章程、行业报告、经济政策、商业新闻等。每一大类的语料规模尽量均衡,并兼顾英汉和汉英两种方向,其中英汉约占1/3,汉英约占2/3。

语料选取把握三个原则:真实性、相关性和高质量。本语料库大部分语料都是在商务场景中被实际运用的语料,来源主要为企业网站、政府网站、经济论坛、新闻网站、权威教材等,确保语料的真实性。语料的选取严格依照语料库的内容分类进行采样,每个大类确保一定的语料数量,保证语料内容与商务主题高度相关。此外,为了确保译文的质量,在语料采集时严格控制语料来源,仅选择权威网站或教材的双语材料,比如,企业材料选择大型跨国企业或在境外上市的中国公司的官网资源,从其中文网站和英文网站上获取对应的双语语料,新闻语料从提供双语文本的网站获取,如China Daily、Financial Times等。

所有语料实现源语和目的语文本句级对齐,并进行分词和词性标注,便于考察文本特征、分析源语文本和目的语文本之间对应关系、探讨翻译策略和方法,以满足教学和研究的需要。

1.2 语料的加工

1.2.1 语料的采集

语料的采集分成三种类型:网页抓取、文档下载和纸质教材。网页语料主要从目标站点抓取,保存为TXT文件。以文档形式存在的语料从相关网站下载,多为PDF格式,使用PDF编辑器转换为Word格式保存。纸质教材通过扫描,保存为图片格式,然后通过图文识别软件识别文字,导出保存为TXT文件。

1.2.2 语料的清洗

使用EmEditor对文本进行降噪处理,利用正则表达式和查找、替换的功能,去除多余的空行、回车、字符和其他不利于后期处理的干扰信息,添加必要的标记符号,编辑后的文本统一保存为TXT文件,编码为utf-8格式。

1.2.3 语料的对齐

语料的对齐使用ABBYY Aligner进行英汉双语的自动对齐,再辅以人工校对和调整,依照原文句子对齐,进行适当的切分或合并。所有语料实现句级对齐,导出TMX格式文件和双语对照的Word文件,TMX文件保存用于翻译记忆库,Word文件进一步转换成TXT文件,原文和译文分成两个文档,文件名相同,英文文档文件名后添加“.EN”,中文文档添加“.CN”。

1.2.4 语料的标注

为了实现中文文本的检索和统计,需要先进行分词和词性标注。中文的分词和词性标注使用NLPIR-Parser系统(ICTCLAS分词系统)[5],该系统分词的准确率较高。利用该分词系统,完成对中文文本的分词和词性赋码。英文文本的词性标注采用TreeTagger软件。软件标注词性后,进行人工检查和调整。

1.3 语料的检索

语料的检索主要使用ParaConc和WordSmith。Para-Conc主要利用其平行文本的检索功能,对某些字符匹配的对应翻译进行检索,利用热词搜索功能,对字符常用的对应译词进行统计,利用词频统计功能,对不同文本的词频进行统计和比较。WordSmith主要用于:统计语料的形符、类符、平均句长和词长等数据,以分析语料的语言特征;进行某些词汇的检索,统计词频,制作关键词词表。

2 语料库的主要应用

目前本语料库的规模约为100万字词,涵盖八大商务主题,所有对齐语料各有三个版本,即tmx格式版本、未标注词性版本和完成分词和词性标注版本,可满足不同的需求。

2.1 商务文本的语言特征和文体分析

不同类型的商务文本有着不同的语言特征和文体风格,这对翻译策略和方法的选择有着重要的意义,在商务翻译教学中,需要提高学生的文体意识,确保译文符合文体风格方面的要求。因此,可以利用本平行语料库,对不同类别的商务文本进行类符/形符比、词汇密度、平均句长、高频词等方面进行统计和比较,以分析各类文本的语言特征,从而归纳总结特定文本类型的文体风格,并可对原创文本和翻译文本进行语言特征的对比,以考察翻译文本特有的语言特征。

2.2 特定词汇的运用和转换

通过语料检索,可以考察源语文本和翻译文本在词汇层面的对应关系,统计特定词汇的使用情况,包括词频、词语搭配、语义韵等,加深学生对特定词汇使用的认识。还可以通过获取具体的翻译数据,统计特定词汇对应的常用译词,结合译词所在句子的上下文,分析翻译中词义选择的考量因素,总结词义选择的方法。

2.3 翻译策略和方法的分析

翻译策略和方法的教学是商务翻译教学的重点,在教学中可以利用本英汉平行语料库,对特定商务术语、文化词汇和修辞性表达的检索,获得大量的翻译实例,结合例子,分析针对某些特定的表达,译文中做出了哪些调整,采用何种翻译策略和方法,分析其背后的原因,总结翻译策略和方法使用的原则,以此提高学生的翻译能力。

2.4 商务翻译实践练习的辅助

完成句级对齐的语料可以作为学生进行翻译实践练习的辅助材料,为学生的练习提供术语和翻译实例参考。可结合Trados、Wordfast等机辅翻译软件,导入双语对齐的语料,一方面可制作成术语表,规范术语的使用,另一方面导入记忆库,辅助学生的翻译过程,为学生掌握基础的翻译技术提供语料的支撑。

3 结语

商务翻译是应用翻译的重要组成部分,商务翻译的研究和教学需要跟上时代的发展。商务英汉平行语料库的建设,可为商务翻译研究提供真实的语言数据,对商务翻译的语言特征进行充分的描述,揭示商务文本的文体特征和翻译规律。利用语料库的资源,可以改进商务翻译教学的模式,为现有的教学内容提供有效的补充,改变传统基于教材的学习方式,融入语料库手段,培养学生利用语言数据和语料库技术的能力,以探索语言差异和语言转换的规律。希望通过本语料库的建设,帮助实现翻译研究、翻译教学和实践的有机结合,为商务翻译的研究和教学贡献一份力量。

猜你喜欢

分词语料平行
向量的平行与垂直
平行
逃离平行世界
分词在英语教学中的妙用
基于语料调查的“连……都(也)……”出现的语义背景分析
再顶平行进口
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
论英语不定式和-ing分词的语义传承