基于语料库的文学作品方法探究
2014-07-25文/李英华
文/李英华
摘 要:语料库语言学对于语言研究有着重要意义。其研究范围可以拓展到文学研究领域。通过对文学文本进行语料库分析,可以得到更为客观理性的数据,对文学作品的人物刻画、主题思想、情节脉络有更为深入的研究。通过对美国著名小说《乱世佳人》的小说文本进行语料库分析,可以对小说研究提供更为翔实、细致的数据。
关键词:《乱世佳人》;语料库;文学
近年来,语料库语言学取得了长足的发展。语料库研究被应用于教学法、文体学、测试学等多个方面,取得了显著成效。语料库语言学的研究范围同样可以拓展到文学文本的研究。通过对文学文本的语料库研究,可以得到更为客观的数据,从而为文艺批评作出新的贡献。
一、文本总体统计特征和分析
《乱世佳人》是美国女作家玛格丽特·米歇尔的经典作品,描述了美国南北战争的历史背景下南方种植园主生活发生的翻天覆地的改变。学界对该小说的研究主要基于对小说的感性认识。而通过语料库对小说进行探究,可以加强对小说的理性分析,更好地进行小说研究。下文将通过语料库工具对小说的基本要素进行研究。在研究中,需要进行分析的重要因素包括:字节数、类符形符比、形符数、类符数、标准化类符形符比、句子数、平均句长等研究对象的字节数。
对小说《乱世佳人》用Wordsmith工具进行的统计,语篇中形符数为434 028个词,类符数为16 863个词。句子数为28 400个句子。高于平均形符数和句子数。标准形符类符比为42.75,考虑到BNC语料库的标准形符类符比为42.66。因此可以看出,该文本词汇中等,该文本是一个较长的文本,句子的句长为15.0,小于平均句长16.66,说明句子长度比很多简单文本的句长要小,本小说的句子较为简单。如果我们把一个字母的词、两个字母的词、三个字母的词、四个字母的词相加,就可以知道小于四个字母的词为284614个词,而这个文本的形符数为434 028个词,这样词汇的35%都是多于四个字母的词,接近于平均值,即多于四个词汇比例为38%,该数据说明该文本词汇难度中等。
二、主题和情节检索与分析
通过语料库软件生成作品的词表,可以判断在文本中各词的出现频率。对词表的分析,可以使我们把握文本的基本信息。但如果要依据重要性确定基本信息,就需要选择关键词(key words)来确定。判断某个词是否是语料中较为重要的词,不仅要看该词在语料中的出现频率,也要看该词在参照语料库中的出现频率。例如,不定冠词a在某一长度为2000词的语料中出现了100次,出现频率达到了5%,但不定冠词a却不能成为这一语料的关键词。其原因是在任意语料中,定冠词的出现频率都是非常高的。因此,我们需要选择比被检索语料篇幅更长的参照语料库按照关键值(keyness value)生成关键词词表,再根据关键词表确定文本最重要的信息。通过观察关键词词表中排在较前位置的关键词,可以得到该文本的最关键信息。
文本中关键值最高的是小说的女主人公Scarlett,因此可以判定小说的主要内容就是围绕女主人公的人生经历开展的,Scarlett是小说最重要的女主人公。主题词表中出现较多的人名为Rhett和Melanie,这说明这两个人物也是小说中的主要人物。表中Tara关键值也很高,说明小说发生的地点和背景以及土地庄园对于南方人的重要意义。另外,Yankee这个明显带有美国南方对北方的蔑称一词关键值同样很高,说明了小说的写作角度是以美国南方人的角度出发的。描写了对美国北部人的敌意和蔑视。
Wordsmith工具对于了解文学作品的基本概况具有非常强大的功能。它有独特的词图(plot)功能,可以分析得到文本中词语出现的基本概况和脉络。对文本的故事情节可以有较好的把握。
通过语料库分析,可以看出小说的女主人公Scarlett出现在小说的全文中,且密度较大,说明小说的情节都是围绕她展开的。再看小说中,《乱世佳人》这部小说以南北战争为背景描写了女主人公斯嘉丽的成长历程。斯嘉丽的少女时代,战争经历,战后重建的艰苦努力成为小说的主线。因此,我们可以分析出斯嘉丽是小说最重要的人物和第一女主人公。小说的男主人公Rhett小说开头部分分布较少,在高潮和结尾部分分布很多,在小说开始,Rhett在女主人公斯嘉丽心中一直是一个反面人物,女主人公一直心有他属。但随着小说的层层推进,Rhett对女主人公的关爱,两人感情的纠缠使得Rhett的出现频率越来越高。而Rhett对与小说的情节走向也越来越重要,逐步取代了阿希礼成为了小说最关键的男性。
作者简介:李英华,女,西安医学院英语系,助教,毕业于中国科学院研究生院,硕士学历,研究方向:英语语言学。
编辑 谢尾合
endprint