APP下载

基于语料库的《追风筝的人》的文体特征研究

2022-04-07王子炫

文化创新比较研究 2022年5期
关键词:追风筝的人物化语料库

王子炫

(广西大学,广西南宁 530004)

《追风筝的人》[1]是美籍阿富汗作家卡勒德·胡赛尼的第一部长篇小说,一经出版便广受好评。该书是获得法国《ELLE》读者票选的年度最佳小说,卡勒德·胡塞尼也凭借这部作品获得了2006年的联合国人道主义奖。整本书以其深刻的主题思想和细腻的写作手法吸引着不同民族、国家的读者,令人印象深刻。“语料库现在一般是指存放在计算机里的大量语言材料和定位检索管理软件的组合。”语料库语言学自20 世纪60年代开始发展,迄今已有近60年的历史。“文体是个人或集体在谈话或写作中运用语言的方式。”[2]“文体学源自古代亚里士多德的修辞论,是一门结合文学和语言学的交叉学科,是运用语言学的理论去阐释文学内容和写作风格的一门学科。”[3]文体学这一古老的学科同语料库语言学相结合产生的语料库文体学,“是近年来随着语料库语言学的发展新生的一个研究途径,旨在借助语料库工具,以实证的手段对各类文本的文体特征进行定量描写和定性分析”[4]。基于语料库的分析方法在文学文体学中的应用,为研究文学文本提供了一种新的视角和理论依据,有利于提高解读文学作品的客观性与准确度。该文将运用语料库的研究方法,结合语言学理论和文学理论,对《追风筝的人》进行定量、定性分析,探讨该小说在词汇层面的文体特征。笔者将从数据统计与词汇分布层面展开具体分析,并试图解释这些文体特征背后产生的原因。

1 研究方法

1.1 数据收集

该文将《追风筝的人》 英文原版作为自建语料库,简称为“风筝语料库”,其文本为纯文本。该自建语料库共有9 028 个类符和107 850 个形符。美国当代英语语料库 (Corpus of Contemporary American English, COCA)是美国最新当代英语语料库,也是当今世界上最大的英语平衡语料库。该文将从COCA 小说语料库中随机抽取2001—2008年等量的纯文学小说作为参照语料库,其中文本均为纯文本。该参照语料库有11 583 个类符和123 206 个形符。以COCA 小说语料库作为参照语料库的合理性在于:该语料库在文本类型、时间范围和文本词汇总数方面与风筝语料库有着极大的相似性。

该文主要运用AntConc3.4.3 和WordSmith6 作为语料库检索工具,运用卡方检验作为检验工具,以协助探究《追风筝的人》在词汇层面的文体特征。其中卡方检验是用途非常广的一种假设检验方法,在该文中将用于检测词项在两个语料库中出现频数的差异。显著性水平(significance level)大于5%则说明无明显差异,显著性水平小于5%则说明有明显差异。

1.2 数据处理过程

该文将在数据统计方面比较两个语料库在词汇密度、平均词长和动词名物化现象上的异同,在词汇分布层面比较二者最高频率词和关键词的差异。

首先,在数据统计方面,该文将运用Word-Smith6 软件得出类符/形符比和标准化类符/形符比值,用以解说两个语料库中的词汇密度与词汇使用情况。WordSmith6 软件还将用于分析平均词长。此外该文将运用AntConc3.4.3 软件分析两个语料库中的动词名物化现象,分析-ment、-ness、-tion/-sion(包括其复数形式)3 种最常用的名词后缀,并使用卡方检验检测两个语料库中的动词名物化现象是否具有显著性差异。

其次,在词汇分布层面,该文将运用AntConc 3.4.3 软件中Word List 功能和Keyword List 功能,分析两个语料库前100 位最高频率词的异同以及《追风筝的人》中关键词的特性。

2 研究结果与讨论

2.1 数据统计分析

2.1.1 词汇密度

对词汇的研究有助于我们了解文本的特定风格。在对词汇密度展开分析前,有必要阐明形符和类符两个概念。形符(token)是一个语言单位,它在文本中指词元化之前的单词总数。类符(type)指不重复计算的形符数。类符/形符比(type-token ration,TTR,即形次比)是衡量文本中词汇密度的常用方法,它能反映出文本中词汇的丰富程度。但贝克指出,“当所比较的文本长度不同时,类符/形符比值可能因为类符聚集的均匀程度不同而受到影响,所以在相关研究中一般使用更为可靠的标准化类符/形符比(standardized TTR)衡量语料库文本的词汇变化。”运用WordSmith6 软件中的Word List 功能即可得出两个语料库的标准化类符/形符比,其结果如下。

就类符/形符比而言,风筝语料库(8.37) 小于COCA 语料库(9.40),在标准化类符/形符比中,风筝语料库(44.93)大于COCA 语料库(43.06)。由于两个语料库在文本长度上并非完全一致,因此该文采取标准化类符/形符比作为衡量标准。贝克指出,“类符/形符比值的高低与写作者词汇使用的丰富程度和多样性成正比”[5]。因此,风筝语料库的标准化类符/形符比高于COCA 语料库,显示出在相同文字数量的情况下,风筝语料库的词汇使用相对更加丰富多样,词汇密度相对较高。这一结果其实在预料之中。《追风筝的人》讲述的是阿富汗两个小男孩关于背叛与救赎的故事。小说故事情节,以及深受作者卡勒德·胡塞尼阿富汗文化背景影响的写作风格,使这一部小说在语言使用上呈现出独特的异域风情,故而在用词方面也显示出丰富多样的特性。

2.1.2 平均词长

词长是词汇分析的一个重要手段,也是影响文本可读性的一个重要因素。平均词长也是最为实用的一种衡量参数,它是类符的平均长度。WordSmith6中的Word List 功能将用于分析平均词长,其结果显示风筝语料库中的平均词长(4.16)只略短于COCA语料库的平均词长(4.17),两个语料库的平均词长都在4~5 词之间,二者没有明显差异。《追风筝的人》中平均词长,一方面是受作者希望提高故事易读性的影响[6]。《追风筝的人》是一部以背叛与救赎为主题的成长类型小说,小说侧重对故事的叙述、情节的推动,为读者清晰地呈现主人公的内心成长过程与救赎之旅中的探险,因此可读性对《追风筝的人》这部小说而言十分重要。文本中使用的单词越短越简单,语言就越简单易懂。因此适中的平均词长是作者期望达到的阅读效果所致。另一方面《追风筝的人》中平均词长是受作者经历的影响。作者卡勒德·胡塞尼是美籍阿富汗作家,青年时期便移民美国,在美国的长期居住使卡勒德的英语水平越来越美国本土化,因而《追风筝的人》在平均词长方面与同时期的美国小说并没有显著差异。

2.1.3 动词名物化现象

动词名物化是指与动词相关的名词,即从动词形态上派生出来的名词。该部分将用AntConc3.4.3软件研究以-ment、-ness、-tion/-sion(包括其复数形式)3 种最常用的后缀结尾的动词名物化情况。操作步骤如下。

第一步,使用表达式“w+ments?”,即可把所有以“-ment”和“-ments”结尾的词检索出来。第二步,将所检索的索引行导出并进行检验,去除其中并非由动词加后缀变来的名词和以“-ment”结尾的非名词,提高研究准确性。第三步,再次运行AntConc3.4.3 软件,重复第一步操作,最终得出所需数据。其他后缀在两个语料库中的情况以上述相同的方法检索。

提取最终数据后,该文将运用卡方检验检测两个语料库的动词名物化现象是否存在显著性差异,显著性水平以5%为标准。检验结果如下,其中数据栏中“Corpus 1”代表风筝语料库,“Corpus 2”代表COCA 语料库。P 值中出现的星号(*)代表显著性水平,星号越多表示显著性水平越高(见图1)。

图1 动词名物化卡方检验

首先需要明确的是,大多数名物化是用来反映概括的状态、过程,或个人品质与情感,其中大多数是不可数名词。就读者而言,一般小说读者注重故事情节,因此小说也会注重对状态和过程的描述。两个语料库中动词名物化出现的不低的频数,就说明了文本作者对描述概括的状态、过程的重视,以迎合读者需要。《追风筝的人》中运用大量抽象名词来描绘人物性格与状态,成功地把读者对人物外在特征的关注转移到其言行举止上,从而实现了解人物内心世界的目的,使读者感同身受。

其次,从上图提供的数据可知,虽然两个语料库中都存在着不少的动词名物化,但由于名物化总数的P 值小于5%,因此两个语料库在名物化使用上存在显著差异,风筝语料库的动词名物化频数总数(328)小于COCA 语料库(563),风筝语料库在动词名物化使用上存在使用不足的情况。就具体数据而言,除-ness(es)以外,风筝语料库各后缀的动词名物化频数都小于COCA 语料库,-ness(es)在风筝语料库中出现过多使用的情况,而-ment(s)和-tion(s)sion(s)则使用不足。

2.2 词汇分布

为了更深入地研究小说《追风筝的人》在词汇层面所具有的特征,有必要对文本中的最高频率词与关键词进行分析。该部分将用AntConc3.4.3 软件中的Word List 功能截取风筝语料库与COCA 语料库中前30 位的最高频率词,并用Keyword List 功能抽取风筝语料库中排名前30 的位关键词,用以分析两个语料库在词汇分布层面的异同,探究《追风筝的人》所独具的特征(见图2)。

图2 各语料库中前30 位高频词

通过观察两个语料库中前30 位的最高频率词,可以发现在两个语料库中排在前面的高频词大多数都是功能词,或者说是表达语法意义的虚词。比如,限定词(“the”“a”)、介词(“to”“of”,“in”“on”)、代词(“he”“you”“that”“it”)、连词(“and”“or”)与一些基础动词(“be”“have”)。这一现象传达的是一个基本的语言事实,即语言最基本的功能在于传达信息。这是两个语料库在高频词使用上的相似之处。

而两个语料库之间的差异,首先,体现在人称代词的使用情况上。结合图2 与表1 可知,在风筝语料库中,“I”排在第二位(4 178 次),相对于COCA 语料库(2 525 次)而言有过多使用的情况,说明采用第一人称视角的写作手法是《追风筝的人》的一大语言特色。这样的叙事手法增加了小说的真实性,提高读者的代入感,从而引起读者共鸣,为小说增添了无限的感染力。其次,在风筝语料库中,与男性有关的代词出现频率较高,如 “he”(1 781 次)、“his”(1 492次)、“him”(679 次),这三个代词也是排在前30 位的关键词。而与女性有关的代词均未在风筝语料库前30 位的最高频率词与前30 位关键词之列。相比之下,在COCA 语料库中,男性与女性的相关代词在频率上相对均衡。出现这样的数据,是受《追风筝的人》故事主题影响所致,故事讲述的是关于两个男孩之间的故事,因此男性的相关代词占了很大比例。

表1 风筝语料库前30 位关键词

结合表1 可知,两个语料库之间的差异,还体现在风筝语料库所具有的阿富汗地域文化词汇上。《追风筝的人》中人物取名颇具阿富汗民族特色,如“Hassan” “Sohrab” “Soraya” “Khan” “Amir” “Farid”“Assef”“Rahim”。前30 位关键词中,地点名词如“Kabul”“Afghanistan”“Afghan” 都与阿富 汗 相 关。“jan”“agha”作为阿富汗特色的称谓也在文中反复出现。这些都表达了作者浓厚的民族情结,是小说作者的阿富汗文化背景的影响所致。

3 结语

该文在数据统计方面比较风筝语料库和COCA语料库在词汇密度、 平均词长和动词名物化现象上的异同,在词汇分布层面比较二者最高频率词和关键词的差异。研究结果如下。

在数据统计方面,《追风筝的人》 的词汇使用相对更加丰富多样,词汇密度相对较高。在平均词长层面,《追风筝的人》 与同时期美国其他小说没有明显区别。在动词名物化层面,虽然两个语料库中都存在大量动词名物化,但在具体使用上《追风筝的人》与同时期美国其他小说存在显著差异。在词汇分布层面,两个语料库前30 位高频词中都存在大量功能词,这是二者的共性。《追风筝的人》的特性一方面体现在第一人称与男性的相关代词的使用情况上,另一方面体现在阿富汗地域文化词汇的使用上。研究发现,这些特性与小说作者卡勒德·胡塞尼的美籍阿富汗身份有关,受他的生活经历与阿富汗文化背景影响,由作者写作风格、小说故事情节与作者期望达到的阅读效果决定。这些特性使读者在领会阿富汗异国风情的同时,又不至于过于“陌生化”,因此提升并保留了小说的趣味性与可读性。基于语料库的研究方法为研究《追风筝的人》增添了多样性,通过该文研究,笔者希望为研究文学作品提供新的视角和研究方法。

猜你喜欢

追风筝的人物化语料库
身体消费、超现实欲望与内爆都市:《金钱——绝命书》中的物化书写
高炉混合喷吹煤粉的物化性能研究
基于语料库的清末民初日源外来词汉化研究
基于核磁共振技术探讨有机硅电解质物化特性
运用语料库辅助高中英语写作
在Oracle数据库中实现物化视图
《追风筝的人》:一本畅销书的十年
《追风筝的人》的心灵疗治与救赎反思
评《追风筝的人》中哈桑的悲剧人生
论《追风筝的人》中的友情与救赎