基于语料库的《中国人权事业的进展》白皮书英译本文体特征分析
2018-11-01司俊龙
司俊龙
(郑州大学 外语学院,河南 郑州 450001)
《中国人权事业的进展》白皮书主要阐述了中国人权事业在各方面的政策及取得的成就,为社会大众和国际社会了解我国人权事业发展状况以及发展成果提供了途径。白皮书属于一种政治文体,“政治意义的创造必须依赖于文体”。诚如黄立波[1]49-95所言,文体(Style)的本质含义是说话或作文表现出的规律性特征,汉语常称之为“文体”。其实汉语中的“文体”可指“文章的风格或结构、体裁”“字体”“文雅有节的体态”,甚至作为“文娱体育”的简称。由此可见,英文“Style”与汉语中“文体”并非完全一一对应的关系。当今对于文体学的研究,学界主要接受的两种观点是:一是写作者或说话者独特的语言选择;二是对规范或常规语言用法的偏离。从以上两种观点中,可以看出文体是说话者或写作者对于语言的规律性选择的结果。专家和学者对于文体学的研究分类也不相同,如徐有志和秦秀白等学者把文体学分为“普通文体学”和“文学文体学”;胡壮麟[2]1-10和刘世生等把文体学分为三类,即:“理论文体学”“普通文体学”和“文学文体学”。本研究属于普通文体学的研究,即通过对具有文体意义的语言特征进行分析,揭示语言运用的表达效果和功能。
文体学的方法论基础是语言科学[3]98-106,文体学就是运用语言学的方法研究语言形式的文体作用的学科,如对研究对象进行语音、语项(Graphology)、词汇、句子以及语篇层面上的研究。因此,语言学为文体学分析提供了系统的理论框架和科学的方法[4]4。近年来,语料库语言学的兴起为语言学的研究提供了一种科学的研究方法,为文体学理解和文学作品的解释提供了新的视角。随着大数据时代的到来,基于计算机储存大量数据的语料库语言学在语言研究中发挥着越来越重要的作用。语言学界早期对文体学的研究主要依赖于研究者的直觉作用。梁茂成[5]3指出语料库语言学立足于大量的语言数据,对语料库进行系统而且穷尽的观察和概括,其结论对语言理论建设具有重要作用。伴随着科技发展,语料库方法和实验方法应用于文体学研究,使其成为定量和定性相结合的一门实证科学[6]278-286。语料库语言学和文体学的研究对象都是语言的使用特征,两者同样都关注语言的形式及意义,这就决定了两者结合的合理性和必要性。运用语料库的研究方法对作品文体特征进行研究,出于不同的研究目的,语料库在文体学中的研究主要体现在对作家风格研究和作品主题的语言表现形式研究。对作品文体风格可以从不同的方面进行研究,如词性分布特征、句法特点、词频、主题词、搭配词等,从不同的方面进行研究可以使读者了解文本的内容、特征、主题思想表达等方面的情况。运用语料库的研究方法对文本进行定量分析,改变了以往对文体学的研究仅仅从作者直觉进行分析的缺陷。因此,本研究基于自建语料库,从文体学的角度对《中国人权事业的发展》白皮书进行研究,可以让读者更好地了解白皮书文体特征,同时也为文体学的研究提供了一个新的视角。
一、语料选取和主要分析工具及方法
本研究以中华人民共和国国务院新闻办公室网站[7]2013年和2014年《中国人权事业的进展》白皮书英文全文为分析文本,运用文本整理器对文本进行清洁,去除多余空格、乱码等影响因子以提高研究结果的可信度,最终得到的自建语料库包括30 018个形符、4 006个类符。本研究主要使用的语料库分析工具有Treetagger,Range,AntConc 3.2.3,Readability Analyzer 1.0等。
在对《中国人权事业的进展》白皮书文体风格进行分析时,引入参照CLOB语料库。CLOB语料库属于布朗家族语料库的一部分,是由北京外国语大学中国外语教育研究中心许家金和梁茂成教授组织国内107所高校近150位教师及研究生于2012年建成的[8]42-47,包括小说、学术、通用和新闻四个部分,并包含1 023 466词次,其中通用语料库部分字库容量为421 163词次。本研究以CLOB语料库家族中的通用语料库下的文学部分作为参照语料库[9]36-38,对比分析白皮书在词汇、句法以及语篇层面的文体特征。
二、《中国人权事业的进展》白皮书英译文文体分析
(一)词汇方面
1.形符类符比
形符(Token)的概念类似于我们所说的“词”,它是一个语言单位,在所选择的文本中有多少词,就意味着该语料库中包含了相应数量的形符。需要注意的是,类似于It’s, don’t等这样的词语在语料库中要对缩略词进行切分,使其分成两个成分,即成为两个形符。类符(Types)是一个统计量,是指语料库文本中任何一个独特的词形(Word form),在语料库文本中重复出现的形符只能记作一个类符[5]9。
文本中词汇密度(Lexical density)常用的测量方法是类符/形符之比。由此公式得到《中国人权事业的进展》白皮书中类符/形符(TTR)=4 006/30 018* 100%=13.35%;参照语料库中类符/形符为:19 568/240 628=8.13%。在词汇密度方面《中国人权事业的进展》白皮书英译文中的词汇密度比较高,这说明白皮书中的词汇涉及社会生活多个方面,用词丰富。
Range分析工具包括了三级词汇表,一级和二级词汇表来源于《通用英语词表》,由Michael West所编著;第三级词表是“学术英语词表”。梁茂成等[5]138指出,类符的三级及词表外词汇是可靠的难度判断标准。运用Range工具分析得出,白皮书中类符的第三级词表和词表外词汇所占百分比为53.40%,说明研究文本词汇有一定难度。
2.《中国人权事业的进展》白皮书英译文词汇密度分析
词汇密度的测量可以反映出文本的信息量和正式与非正式。词汇密度大,说明用词丰富且用于比较正式的场合;密度小,说明词汇量小且多用于非正式的场合。运用实词与总词数的比值可以衡量文本信息量,即它是词汇丰富程度多样性的一个指标。英语中实词主要包括名词、动词、形容词、副词;虚词主要包括介词、代词、连词和冠词[10]51。运用Treetagger对文本中的词语进行词性标注,利用AntConc 3.2.3运用正则表达式,对词性标注后的文本进行词类检索统计得表1。
表1 《中国人权事业的进展》白皮书英译文词汇密度表
从表1中可以看出,在《中国人权事业的进展》白皮书英译文中的实词词类按数量排序是名词>形容词>动词>副词,这表明在《中国人权事业的进展》白皮书英译文中名词和形容词出现的频次偏高,特别是专有名词出现较多,如:TheSupremePeople’sCourt,TheMinistryofCivilAffairsandChinaDisabledPersons’Federation,the18thCPCNationalCongress,theChinesePeople’sPoliticalConsultativeConference(CPPCC),TheStandingCommitteeoftheNationalPeople’sCongress(NPC)等等,同时文本中“名词化”现象明显。名词化能使句子精炼,包含的信息更加丰富。白皮书中有大量的名词化现象,如:Theconstructionofcoresocialistvalues,ecosystem preservation,theassessmentofenvironmentalimpacts,themeasurementofassimilativecapacitiesofmajorriversandlakes,theprotectionoftheenvironment等等。文本中名词化的选用与文本的语体有不可分割的联系。Halliday[11]72认为书面语之所以出现名词化倾向,是因为书面语在呈现现实世界的经验和现象时把它们作为物体来看待, 因而多使用名词[12]3-7。这也符合《中国人权事业的进展》白皮书这种官方文件的特点。形容词使用丰富也是白皮书中其语言使用的一大特点。英语中的形容词在句子中多做修饰成分,这也进一步说明了白皮书中句子结构中的修饰成分较多,句法结构复杂,句子所包含的信息量丰富。
3.《中国人权事业的进展》白皮书英译文词频统计
在语料库语言学中,词表指的就是词频表(frequency list),但它并不仅仅是单纯的单词列表。词频统计是语料库语言学中常见的词语统计方式,从词表中观察词频可以看到语言使用的显著特征。运用语料库分析软件AntConc 3.2.3对《中国人权事业的进展》白皮书英译文进行词频统计得表2。
表2 《中国人权事业的进展》白皮书英译文词频统计表
通过高频词统计的方法可以观察,《中国人权事业的进展》白皮书英译文中虚词仍是排在前几位。词汇可以反映出文本的语义表征,构成整个文本的内容,故文中的实词可以反映出文本的主要内容。为了观察白皮书中的核心内容,笔者运用AntConc 3.2.3对词频表中的虚词进行停用,检索得到自建语料库中排名前20位的高频实词,得到高频实词表(见表3)。从中可以看出白皮书中的核心内容包括China,Million,People,Yuan,Rural,Go-vernment,Ethnic,Disabled等各方面的内容,表明中国政府充分尊重和保障人权,在人权事业上从地区、人口、种族等方面做出了全面努力,并且通过政府在人权事业方面的不断努力,中国在人权事业的各个方面都取得了很大的进步,中国人民也从中受益。
表3 停用功能词后的词表统计结果
从表3停用功能词后的词表可知,主题性较为显著的主题词有“China”“People”“Government”“Rights”等。运用AntConc 3.2.3中词图(Concordance plot)分析可以得出这些主题词在白皮书中的分布状况。见图1、图2、图3、图4。
图1 “China”分布状况
图2 “Government”分布状况
图3 “People”分布状况
图4 “Rights”分布状况
由词图可以看出,因为白皮书主要介绍的是中国在人权事业方面取得的各项成就,中国政府以人为本,高度重视人权,所以China, Government,People和Rights这些词语在白皮书中都有着广泛分布。
(二)句子层面
1.平均句长
从文体学的角度对文本进行分析,不仅涉及对语篇中词汇的解读,也有对其句子层面的研究。语篇中的平均句子长度是语篇的一大特征,不同风格的语篇类型所拥有的句子长短不一样。平均句长是指文本中句子的平均长度,常常用来描述一个文本的句法复杂程度。《中国人权事业的进展》白皮书英译文中平均句长22.10,进一步说明了白皮书英文全文文体非常正式。另外,英语注重“形合”、注意句子形式的完整性,这表明白皮书英文全文符合英语的表达方式,更易于外国读者接受和理解。如:InFebruary2014,theStateCouncilissuedOpinionsonEstablishingaUnifiedBasicPensionInsuranceSystemforRuralandNon-workingUrbanResidents,whichintegratesthenewsocialendowmentinsurancesystemforruralresidentswiththesocialendowmentinsurancesystemfornon-workingurbanresidents,andbuildaunifiedbasicpensioninsurancesystemforbothruralandnon-workingurbanresidentsnationwide. 该例句式句法结构十分复杂,既出现了由which引导的非限制性定语从句,又出现了由and连接起来的并列复合句。因此,读者阅读白皮书应当有一定的英语语法知识。
2.被动语态的使用
笔者在运用语料库工具对文本进行检索时,发现译本中使用了大量的被动语态结构。被动语态具有较强的人际功能, 它是人际意义的一种体现形式[13]22-26。人际功能表达了话语发出者与接收者的一种互动,从而使读者更好地理解话语。首先,被动结构的使用可以使语言表达更加简洁,如:Thesubsistenceallowancesystemhas been further improved;Thesocialsecuritysystemfordisabledpersonsis being further improved.译者在这两句中使用了被动结构,并且省略了by+ 动作的发出者,因为读者清楚动作的发出者应该是the government, 省略这种显而易见的表达,可使文本更加清晰凝练。其次,被动结构的使用也可以强调叙述的客观性,如:It was also decidedthatpersonswhowerereceivingreeducationthroughlaborasprescribedbylawshould be released and exemptedfromtheirremainingterms.在句中无灵主语“it”和被动结构be+动词过去分词的使用,表明这种规定是由法律支撑的,表达了作者的客观态度,这更容易让读者信服和接受。再次,被动结构的使用可以使语言表达连贯,语气加强,如:Withsocialandeconomicdevelopment,themeansofrealizingfreedomofspeechhas been diversifieddaybyday,thepublic’sinformationneedshave been better satisfied,thespaceoffreedomofspeechhas been increasingly expanded,andthepeople’srightstofreedomofspeechhave steadily developed. 句中用了4个have/has been+动词过去分词的对偶结构,使得句子结构均衡,意义相关,语气加强,从而使语言表达更加鲜明深刻。最后,被动结构的使用可以表达对动作承受者的一种礼貌和尊重,如:Thematerialandculturalneedsofthepeoplehave been better satisfied,andtheChinesepeople’srighttodevelopmenthas been better guaranteed. 句中have/has+been+动词过去分词结构的运用,让“人民的物质和文化需求,人民的发展权利”成为信息的出发点,没有显示动作的发出者“we/ the government”,这样突出了动作承受者的地位,表达了对动作承受者的一种礼貌和尊重。
(三)语篇层面
运用语料库分析工具Readability Analyzer1.0对文本的难易度进行测量,可以更好地把握文本的被接受程度。该语料库文本分析工具,是由中国外语研究中心许家金博士和贾云龙先生所开发的,可以对文本的难易度做出分析,其中reading ease score和text difficulty是难易度评价的指标。文本的难易程度决定了文本的可读性,词长、句长、类符形符比、词形变化等因素,都会对文本的可读性造成影响。由文本易读性对照表可以发现,文本的阅读难易度可以分为不同的等级,并且Text difficulty=100—Reading ease score。运用Readability Analyzer1.0对文本分析得出白皮书的Read Ease score为21.90,Text Difficulty为78.10,分别对应表中的Readability Level为Very difficult(见表4)和fairly difficult(见表5)。运用Readability Analyzer1.0语料库工具,对白皮书英译本易读性的研究结果进一步表明,《中国人权事业的进展》白皮书英文全文词汇使用丰富,句法结构较为复杂,若想理解白皮书英文全文内容,读者需要有一定的词汇和句法知识储备。
表4 易读性解析表 易读系数可读性等级0-29Very difficult30-49Difficult50-59Fairly difficult60-69Standard70-79Fairly easy80-89Easy90-100Very easy表5 文本难度对照表 文本难度可读性等级90-100Very difficult80-89Difficult70-79Fairly difficult60-69Standard50-59Fairly easy30-49Easy0-29Very easy
三、结语
本文运用语料库语言学的研究方法,从文体学的视角对《中国人权事业的进展》白皮书英译文进行量化分析,对白皮书英译本的词汇、句法以及语篇层面进行深入研究。结果发现,《中国人权事业的进展》白皮书词汇使用比较丰富,且文中出现大量专有名词;译文句法结构也比较复杂,多用复合句;为了使语言表达更加正式,白皮书英译文本中多使用长句;为了传达简洁客观的信息,加强语气,表现对承受者的一种礼貌态度,文中多使用被动结构;译文语言名词化现象突出,句子修饰成分较多,阅读有一定的困难,所以要有一定的相关词汇和语法知识储备。语料库语言学的研究方法为文本分析提供了一个利用定量方法寻找文学作品语言使用规则的框架,为研究作家语言使用特点和作品主题表达方式提供了可靠的量化依据,推进了文本文体特征研究的科学性和实证性[6]278-286。