基于语料库的政治话语英汉词汇对比研究
2022-05-07邓倩
邓倩
摘要:本文通过分析中国日报网发布的习近平建党百年的讲话,运用语料库和计量的方法分析其词汇的词频、词长、词汇密度以及型例比使用特征。研究表明,源语料型例比(8.92)、词汇密度(30.95%)均低于译语料的型例比(11.63)、词汇密度(52.96%),源语料的词汇丰富程度较低;词频和词长分布分析发现两个语料中排名前10的高频词有部分英汉对应的词语出现,表明其主题比较集中;源语料的平均词长1.45,译语料的平均词长3.58,表明源语料的文本难度相对较低而译语料的长词较多,文本较复杂。笔者认为翻译策略的差异以及受众不同可能会产生这些词汇特征。
关键词:语料库;计量;词汇特征;建党百年
1.引言
2021年是我们党成立百年的日子,对我国有着重大的历史意义。词汇不仅要传达其表层含义更要让受众领会到其更深层次的含义。有着不同文化背景的读者对文本有着大不相同的理解,如果只是简单的词与词相互对应,则会出现不同程度的误解,这种现象在政治话语中尤为突出。
在已有的词汇研究中,国内学者进行了相应的词汇研究主要从以下两方面进行:一是教学词汇方面的研究(夏静 2021);二是文学作品中的词汇研究(曾江江 2020)。还有少部分从新闻语篇以及法律语篇等着手。从已有的研究来看部分学者基于语料库分析政治话语;部分学者通过分析译本的用词风格来探讨其差异;只有少部分学者基于语料库并使用计量语言学的相关计量指标如型例比、词长等,还有相关计量软件等对政治话语的词汇系统进行分析。因此,本文选取习近平总书记在今年七月一号《在庆祝中国共产党成立100周年大会上的讲话》为研究语料,英汉两个版本的语料均从中国日报网下载并自建平行语料库;为便于区分,汉语版本的语料料库称为源语料,英语版本的语料称为译语料;源语料共有7321个词语,译语料共有5574个词。2021年正值建党一百周年的伟大时间点,分析构架最高领导人的重要讲话具有一定的现实意义,能够让读者充分了解国家领导人对人民、对青年、对国家、对社会的殷切希望和美好愿景;在应用方面,本文通过自建平行语料库,运用计量语言学的相关计量指标如平均词长、词频来分析语料中词长特征;通过型例比、词汇密度来分析文本的丰富程度以及可读性等;通过高频词分析文本在使用词性方面的差异对文本中的词汇进行计量研究,为政治话语的词汇系统分析提供了可行路径。本文通过自建平行语料库,运用计量的方法和软件对习近平同志在建党百年大会中的讲话对其中英词汇进行定性和定量的分析,旨在回答以下问题:一是源语料和译语料各自的词汇特征是什么?二是通过对比,分析产生该结果的原因是什么?
2.研究方法和计量指标
计量语言学是以语言文本为研究对象,以定量方法为主,但注重定性和定量的方法结合,在研究中使用多种计量指标对文本属性进行量化统计是计量语言学和传统语言学研究的显著区别之一(韦爱云 2019)。下文将详细介绍分析语料的相关研究方法以及计量指标。
2.1计量指标
2.1.1型例比
型例比(Type-token ratio)是语料库语言学最常用的术语,也是计量语言学最常用语言文本计量指标之一。这个比率与文本作者使用语言词语熟练程度有关。其中型即词型,指的是一个文本中不重复的词的数量;例即词例,指的是一个文本中词的总数,反映文本的长度规模(韦爱云 2019)。其计算公式为型例比=型符/例符。
2.1.2词长和词频
在研究词汇的基本属性中最常见的则是词频和词长。词长是指某个词汇的长度,比如某个单词是单音节词汇它的词长就相对较短;而如果一个单词是三音节词汇它的词长则较长,因此这一特征在一定程度上表明了文本的难易程度、文本的文体风格以及可读性。词频则是指某个单词在该语料中出现的次数,它也在一定程度上体现利润该文本的文本风格。
2.1.3词汇密度
词汇密度是某个特定文本中出现的实义词数量与全文总词汇的比例。当文本中出现的实义词较多则表明该文本的词汇密度较大。在英语中,一个单词可以蕴含多种语义即即可当名词也可作动词等,因此当文本中出现多种实义词类,文本的复杂度和难度则相对较高,因此该文本则包含了更多的内容,带给读者相对大的难度,并且对读者阅读理解能力有一定的要求。
2.2研究方法
文章采用定性和定量的方法,以2021年七月一號习近平总书记在中国共产党建立一百周年大会上的讲话的英汉版本自建平行语料库,使用相关软件如词性标注软件Tree tagger,检索软件Antconc以及文本计量指标的分析工具QUITA。首先,在中国日报网下载习近平总书记建党百年讲话的中英文版本,转存为文本文件。其次,使用软件Tree tagger等软件对中英文版本进行词性标注。然后利用语言分析软件对语料进行分析如词汇密度、词频、平均词长等并探讨讲话中英汉版本的词汇特征。
3.英汉语料词汇特征
以下内容将从型例比,词长等方面对创建的语料库从探讨讲话中英汉语料的词汇特征,进而对比分析他们之前存在的差异以及原因。
3.1词汇密度
测量词汇密度常见的方式有两种,一是语料库语言学中常用的型例比,但这种方法也有一定的缺陷,因为它的统计结果不能很好地反映该文本最根本的特征。表3-1是通过文本计量软件QUITA统计的两个语料库中型符数、例符数以及型例比。
从表3-1可以看出,源语料的型符数为775,译语料的型符数为1262;源语料的例符数为8685,译语料的例符数为10854;源语料的型例比为8.92,低于译语料的型例比11.63,通过以上数据基本可以清晰译语料中的词汇比源语料中的词汇更加丰富且重复词汇较少,源语料词汇变化相对少一些并且译语料的文本明显扩大,由此反映出译语料的阅读难度比源语料的阅读难度高。第二种方式是二是根据词汇密度词来衡量语篇的信息量大小和文本难度。本文统计了动词、形容词等实义词的词频从而更加全面的分析两个语料库的词汇特征。
由图表可知源语料中四类实词的词频均低于译语料中的相应词频;但源语料的总字词数明显高于译语料的总字词数;译语料的词汇密度明显高于源语料的词汇密度。前文提到文本密度与文本的语言风格、阅读难度有关,因此该结果表明译语料的文本难度相对较大,文中的用词也相对比较复杂。以上两个表格呈现的结果,笔者认为有以下两个原因,一是汉英语言的差异以及不同的译者使用了不同的翻译方法。如例(1)中包含了名词(中国等)、动词(需要等)、形容词(新的);而在例(2)中不仅出现了名词、动词、形容词,还出现了介词(in)和限定词(a)。
(1)中国迫切需要新的思想运动、革命力量。(源文)
(2)China was in urgent need of new ideas and a new revolutionary forces.(译文)
二是源语料的受众是全国人民,其内容应该通俗易懂,并且整篇文章从“两个一百年”奋斗目标交汇的历史方位出发,深刻表达了庆祝建党100周年的主题主线;而且“七一”重要讲话的语言凸显真理真事真情,通过排比句凸显力量,对仗结构贯穿全篇,感叹句多达五十个,每一处排比、对仗、感叹都让人内心深处形成强烈思想共振、情感共鸣。而译语料的受众则多数为外国友人,其用语也应符合英语遣词造句的规则。在源语料中出现了很多中国特色的词汇如“小康社会”等,这些特色词汇是专属于中国的,在国外是找不到相应的词汇来表达,因此译者就要针对这类词根据中国相关政策法规做出最通俗易懂的解释,所以就需要用更多的词汇,因此出现译语料实词数量多于源语料实词也是情有可原的。前文提到由于该讲话的行文结构重复使用了排比句等句式,从而达到振奋人心的效果,而在翻译过程中,英语多省略和抽象,而汉语倾向于重复和具体。在并列结构中英语常常省略重复的词语如例(3)中三次重复使用“这是”和“伟大光荣”,而例(4)中将重复部分省略,而在其后面用三个介词短语表示其对象,显得更加精炼。
(3)这是中华民族的伟大光荣!这是中国人民的伟大光荣!这是中国共产党的伟大光荣!(源文)
(4)This is a great and glorious accomplishment for...(译文)
3.2词频
一般来说,功能词的数量在很大程度上反映文本的规范程度与可读程度。词频在语料库中可以有效地反映文章的主题,通过软件检索高频词,选取排名前十的高频词进行分析解读。
结果显示,源语料的高频词为“的(221)、中国(116)、人民(69)、伟大(53)、和(53)、共产党(48)、中华民族(44)、了(41)、是(38)、新(37)”;译语料的高频词为“the(456)、and(311)、of(209)、to(149)、Party(98)、in(96)、a(91)、Chinese(86)、people(81)、China(53)”,(注:括号的熟悉为词汇出现的频次)。两个语料中的高频词都包含“中国China”“人民people”“我们we”“党Party”“伟大great”“和and”“为for”“在in”,表明两个语料的主题十分集中都是以“人民、党、中国”为主旋律。由表可知连接词在译语料中出现的次数极高,这也验证了英语语言的结果是重形合,如果没有相应的连接词连接,该文本则就像一盘散沙没有条理性;中文中一句可出现多个动词并不需要多个连接进行连接,而英语不行,一个句子中只能出现一个动词。从词性来看,源语料中的高频词主要为名词,如中国、伟大、人民等词和动词如坚持、发展、实现;而译语料中的高频词主要为功能词以及名词等,而且相同意义的内容用不同语种表达出来时,所使用的高频词汇也不相同。并且在译语料中词频排名前五中有四个属于功能词;在英语文本中,冯庆华(2008)认为the和of的使用频率可以反映文本的语体正式程度,当这两个词在文本中出现的频率不高,则说明文本的语言体裁不那么正式,反之亦然。party一词出现频率排名第五,也再次说明此次主题与中国共产党建立一百周年的伟大事件相契合。高频词中人称词如“we、我们”都属于第一人称,说明习近平总书记是站在全国人民、代表我们伟大的中国共产党讲话,因此更加具有感召力。除此之外,译语料中的高频动词is出现了37词,用一般现在时来客观地陈述中国乃至中国共产党的光辉历史,也从侧面表明在此次重要讲话中的事件都是真实存在的,表明在建党前后以及现在中国的繁荣富强的状态都是一直存在的,尽管一路走来出现过大大小小的问题,但中国共产党都是客观对待并对自己的问题进行批评与自我批评。
3.3词长
文本中使用的词汇长度对文本的理解难度有一定的影响。而平均词长则是文本中不重复词的数量的平均长度,如果文本中平均词长越长就说明文本中长词比较多,就如中文中两个相同意思的词语,但一个是两个字一个是四个字则四个字的词语可读性更难。源语料和译语料的平均词长数据如表3-4所示。
从表3-4看出,译语料的平均词长明显高于源语料的平均词长,与型例比的结果相一致。数据表明源语料的可读性高于译语料的可读性。该现象的产生也有一部分归因于英语可以通过词性的不同来變换使用单词,因此译语料的型符数远远高于源语料的型符数。
4.总结
本文基于真实的语料,采用语料库驱动的计量语言学研究方法,选取习近平总书记在2021年7月1号建立中国共产一百周年大会上的讲话的中英文版本为研究语料,对其进行定量和定性分析,从词汇层面研究建党百年大会上的讲话中的英汉词汇特征,并分析其原因。研究表明,在词汇丰富程度方面,本文通过对比源语料和译语料的型例比和词汇密度来进行分析:源语料的型例比为8.92,译语料的型例比为11.63,源语料的型例比明显低于译语料的型例比;继而统计了语料库中的实义词的出现次数讨论其词汇密度。笔者认为有以下原因:一是汉英语言的差异和译者在汉译英过程中使用的翻译策不同;观察得出,源语料中出现大量排比句、感叹句等,其目的是为了引起共鸣,让人内心深处形成强烈的思想共振,因此会出现相当多的重复,而在英语翻译策略中,相同的句式或词汇都会选择省略;二是此次讲话的受众不同,源语料的受众是全国人民各个阶层、不同年龄段的人们,其内容应该通俗易懂,而阅读译语料的大部分是外国人,大量具有中国特色的词汇在英文中无明确的对应词,译者需要用受众能懂的语言进行分析解读,因此源语料的型例比和词汇密度均低于译语料的词汇密度。在词长词频方面,译语料的平均词长明显高于源语料的平均词长,存在的原因可能为汉语的词语可以翻译为英语中同义但不同词性的词;通过分析,两个语料库的高频词中都出现了部分相互对应的中英词,表明其主题集中度高。对国家领导人在重大时间点的讲话进行分析有利于帮助读者解读,为政治话语的词汇研究提供新思路。
参考文献
[1] 冯庆华. 母语文化下的译者风格[M]. 上海: 上海外语教育出版社, 2008.
[2] 韦爱云. 壮语词汇系统的计量研究[D]. 浙江大学, 2019.
[3] 夏静. 基于语料库的英语教材词汇研究[D]. 天津师范大学, 2021.
[4] 曾江江. 基于语料库的《浮生六记》英译本词汇特征研究[D]. 华侨大学, 2020.