基于语料库的《格列佛游记》文本词汇特征分析
2013-12-03姜文东
姜文东,任 娟
(中国科学院研究生院 外语系,北京 100049)
一、引言
语料库语言学是20世纪中后期兴起的一门语言研究科学,在近年来获得了快速的发展。由于语料库本身具有容量大、语料真实、检索快捷准确等独特的优势,其在许多领域获得了应用。
传统文学文本分析,容易受到主观因素影响,并且许多语言事实用传统方法难以观察到。而使用语料库分析文本更加客观精确,我们可将文学文本整理后作为语料进行分析。
我国之前基于语料库的文本分析多是通过语料库软件对相关文本的翻译进行研究,对多个译本进行对比分析,例如徐欣的《基于多译本语料库的译文对比研究——对<傲慢与偏见>三译本的对比分析》。而将语料库用于文学文本本身分析的研究实例还相对较少,且这些研究多从文本总体特征、情节检索、人物刻画等方面分析,如任培红《基于语料库的<呼啸山庄>检索分析》。
本文采用语料库的方法,使用Wordsmith和Antconc软件,对小说《格列佛游记》的文本进行检索分析。通过词长、词汇密度、主题词几个方面分析该小说的词汇特征。
二、利用语料库软件对格列佛游记进行分析
Gulliver's Travels《格列佛游记》是Jonathan Swift(乔纳森·斯威夫特)于1726年出版的一部杰出的游记体讽刺小说。为了方便检索,笔者将小说的四个部分分别放到四个文本文件中,分别命名为1,2,3,4,使用 WordSmith软件和Antconc软件进行检索。WordSmith软件是由英国利物浦大学Mike Scott设计,牛津大学出版社出版的付费软件,Antconc软件是日本早稻田大学Laurence Anthony博士编写的免费软件。两款软件均被广泛应用于语料库的检索分析。
1.小说词长
“词长是决定文本难易程度的一个重要指标。由2-5个字母组成的词看作是小词或常见词,这些词在整个语料库中的比例越高,近似地反映出该语料库中的语料使用的小词或常见词越多,文章就越浅显。单词越短小,文本越易理解,难度越低,文本的正式程度就越低;反之,单词越长,文本越不易理解,难度越大,文本越正式。“(杨秀珍等,2010)
下文两个图表是通过运行wordsmith软件并汇总数据得出的。可以看出,文本中2-5个字母的“小词”比例最大,其中2个字母的词数量最多。软件运行结果还得出文本的平均词长(mean word length)是4个字母。这两点都表明小说词长较短,整体语言较为简单。而我们知道,《格列佛游记》文中虽另有深意,却是以是儿童读物形式面世,语言比然简单,和笔者所得结论契合。
图表一
2.词汇密度
词汇密度可以反应小说用词多样性,类符/形符比(type-token ratio,TTR)常用来计算文本的词汇密度。但文本越大,形符量越大,类符量却不会等量增加。“常用的补救方法是使用标准化类符/形符比(standardized typetoken ratio)来计算词汇密度。”(梁茂成等,2010)
通过运行wordsmith软件,我们可以得出小说文本的类符、形符及标准化类符形符比。如下图:
“形符(token)类似于我们日常所说的‘词’(梁茂成等,2010),总形符数是原料库容量的最常用的测量单位。”小说总形符数为176371,可看出小说总词汇量不大,篇幅并不算长,属于短篇小说。
“类符(type)作为一个统计量,指语料库文本中任何一个独特的词性。换言之,在一个文本中,重复出现的形符只能看做一个类符。”小说的总类符数(types)为8057。
小说文本的标准化类符/形符比(standardized typetoken ratio),即文本每1000词的类符/形符比为43.6。可以看出作者使用的词汇变化并不大,用词不算丰富。
3.主题词
“在单篇或多篇文本中具有超高复现率的词称做主题词,可以发现某一给定文类或主题文本的词语特征。”(梁茂成等,2010)本文以兰卡斯特大学、奥斯陆大学、卑尔根大学共同创建的LOB语料库做为对比语料库。使用Antconc中的Keyword List功能,可以得出《格列佛游记》的主题词表。结果显示,排名前三位的主题词均为表示第一人称单数的代词,这是因为小说是主人公以第一人称视角叙述的。
图表五
这些主题词大体可分为四类,分别反映了作品不同的主题信息。
(1)表航海的相关词语:island,sea,ship,captain,表明小说主人公在小说中的活动与航海密切相关。
(2)表王公贵族的词语:majesty,emperor,king,court,queen ,honour,prince,kingdom,palace,表示在主人公的经历中,先后遇到了国王王后公主等皇室成员,且这些人在他的经历中扮演了重要角色。
(3)本文中出现的独特专有名词:glumdalclitch,yahoos,blefuscu,houyhnhnms,这些专有名词有的是地名,有的是物种名。
(4)其他具有分析价值的词语:master,reader,feet等。Master在文中出现多次,从索引行中可以看出是主人的意思,通过查看索引行,我们可以得知,主人公在小说中成为了俘虏,经历了不同的主人。Reader出现的频率也很高,多为my dear reader,这是因为小说是以第一人称叙述,与前文I,my,me出现频率高同理。而feet在文中出现的比较多的是英尺的意思,小说中主人公去了“大人国”“小人国”,文中有许多地方提及尺寸。
结合原文,可以发现以上主题词分析结果和原文内容吻合。
三、结语
本文作者使用语料库软件,对《格列佛游记》文本从词长、词汇密度、主题词三个角度进行了分析,既从统计分析角度对该文本有了更深入的剖析,又从另一个角度印证了使用语料库分析文学文本词汇特征的可行性。
使用语料库分析文学文本,可以减少研究者主观因素对研究结果的影响,使研究结论更有依据,更加精确可信。除了研究者进行研究,在文学教学过程中,也可以引入语料库软件,采用本文使用的分析步骤,帮助学生理解文章。
语料库语言学属于应用语言学的分支,将其用于文学文本的分析,给予我们启示:在今后的研究中,更多利用跨学科的方法和工具,会为学科研究带来新体验和新发展。
[1]Douglas Biber,Susan Conrad,Randi Reppen,Corpus Linguistics[M].Foreign Language Teaching and Research Press,2000.
[2]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.
[3]杨慧中.语料库语言学导论[M].上海:上海外语教育出版社,2004.
[4]卢卫中,夏云.语料库文体学:文学文体学研究的新途径[J].外国语,2010(1).
[5]任培红.基于语料库的《呼啸山庄》检索分析[J].沈阳大学学报,2008(4).
[6]徐欣.基于多译本语料库的译文对比研究——对《傲慢与偏见》三译本的对比分析[J].外国语,2010(2).
[7]杨秀珍,续娜,刘美瑜.基于语料库的《暮光之城》系列小说词汇特点初探[J].长春理工大学学报(社会科学版),2010(3).