基于《傲慢与偏见》词汇特征的语料库构建与分析
2015-04-02赵京博
赵京博
(山西大同大学煤炭工程学院,山西大同 037003)
基于《傲慢与偏见》词汇特征的语料库构建与分析
赵京博
(山西大同大学煤炭工程学院,山西大同 037003)
从20世纪80年代开始,语料库语言学作为语言学主要的研究方法,通过检索取样统计分析来进行语言研究的研究,其工具主要有Concordance、Word Smith、BNC Baby等。参照BNC Baby(Literature)语料库,构建了《傲慢与偏见》的对比语料库,从词汇特征方面入手阐释作品,以揭示其鲜明的女性主义特征,希望为文学批评开创一个崭新的研究视角。
语料库;词汇特征;语言研究;文学批评
简·奥斯汀是一个具有深远影响的作家,20世纪的文学评论家及文学史家广泛对其赞誉,称其为“真正伟人的英国小说家”。《傲慢与偏见》(Pride and Prejudice)是简·奥斯汀的第一部作品,它一改文学上小说的感伤情节和矫揉的创作风气,通过伊丽莎白对婚姻问题独立见解的描写,刻画分析了夏绿蒂和柯林斯的婚姻状态,体现了作者简·奥斯汀对于婚姻的个人理想,描述了当时英国社会的现象。上世纪80年代产生的语料库语言学,是新兴的交叉学科。其发展是基于信息技术的快速发展对语言、人文学科的渗透,借用概率统计方法对语言数据作量化分析,研究语言规律。通过语料库判别文学词汇的特征与优势,为文学批评做出新的解读。对于研究文学词汇出现的相关频率都可以通过语料库检索的结果分析来完成。本文以《傲慢与偏见》为例,分析作者的写作风格以及作品的词汇信息特征。
一、词汇信息提取
(一)信息提取工具与方法 词汇信息就其裁体分类而言,可以将其分为文学艺术、新闻传播、口语表达和学术研究等四种,尤其是在学术研究和口语表达方面,将BNC Baby作为本族英语语料库,对于相关语言运用和词汇特征的研究有着极其重要的借鉴意义。将《傲慢与偏见》文本作如下处理,在语料库除将题目、日期、作者和正文等部分做出保留以外,删除其他冗余的信息,如出版信息、各种原因导致的错乱码等无用信息,在众多的英语语料库中选择英语本源语料库BNC Baby(Literature)(下文简称 BNC Baby)语料库。
(二)信息数据提取 借助索引工具从语料库提取数据,它经常表现为同词表生成工具、主题词分析工具或两者结合构成复合工具,三种工具的功能或使用价值常常集成在一起。在该环节,本文以Mike Scow所研制的Wordsmith Tools 5.0软件为基本语料库,把相关对比与参照语料库进行区别处理,从而得出文笔分析结果。此外,运用TreeTagger2自动词性赋码器对相关文本予以词性赋码,接着以 Antcone3.2.1文本检索软件对 Regex(正则表达式)进行词类提取,从而实现对《傲慢与偏见》词汇特征信息的提取后进行相关分析。
正则表达式(Regular Expreesion,即Regex。)是非常强大的文本处理语言,对语料库的编辑、分析能力是有极大的作用的,例如对文本的查询、替换、检索和定位等。正则表达式主要用于对文本描述、匹配。近年来,在语料库语言学中被大量用于文本的检索。在使用自动词性赋码器TreeTagger2对文本进行词性赋码之后,Antcone3.2.1通过正则表达式所提取词类可以分层进行,揭示其用词、词频、情节描写以及文本的思想内涵等,以满足对《傲慢与偏见》语料库对女性主义主题和文学批评提供针对性的统计和分析。
二、结果评述
(一)词长分析 研究词长分析,首先需对平均词长概念予以明确。所谓平均词长,指的是在相关语料库构建中所取语料库单词所囊括字母的平均数,词长与平均词长关系呈正相关,就是说平均词长越多,与之相关的文本长词就会越多,对于整个文本的阅读系数而言,就会越高。
利用Word List对《傲慢与偏见》做出的词长统计,显示平均词长为4.38,比照语料库的平均词长4.41,可见《傲慢与偏见》的平均词长较短,表明其词汇较为简练,通俗易懂。
(二)词频分析 在词频分析环节,首先对《傲慢与偏见》文本及BNC Baby语料库运用Wordsmith5.0载入,然后通过该软件所自带的Word List功能对所有载入信息的词频信息进行全方位分析。词频信息主要分为形符(tokens)和类符(types)两大类。
形符(tokens)是指相邻空格之间的连续字符串,特定文本的形符数量即该文本的长度,文本的全部词汇的数量,就是形符的全部数量。Word List程序对《傲慢与偏见》的形符进行统计,结果是总形符数为 251,119个;BNC Baby总形符数是 1,032,369个,两个语料库的形符容量差极大。
类符(types)是指语料库的文本中任一独特的词形(word form)。具体在词频统计中,相同形符通常被称作类符,文本的类符数是指该文本各种词形的数量。《傲慢与偏见》类符统计结果为6,303,BNC Baby的类符数为36,182。类符与形符的比值(TTR)是衡量文本中词汇密度的常用方法。《傲慢与偏见》的类符/形符比为 2.51,BNC Baby的类符/形符比为3.51。鉴于两语料库相关容量的参差悬殊,而同时相关文本功能词导致的词汇密度分布也不合理,所以在计算词汇密度的过程中,采用标准化类符/形符比。
标准化类符/形符比(STTR),是依据标准化类符、形符比基数来计算平均类符和形符之比率,体现了文本词汇的多变性和多样化。比较、参照语料库的STTR值分别是:《傲慢与偏见》是28.05,BNC Baby是45.22。由此可以看出《傲慢与偏见》用词状况更简练、通俗。这与简·奥斯汀的创作背景有密切联系,尽管《傲慢与偏见》的题材较为狭窄,故事情节和内容比较平淡,但作家善于用简单通俗的语言来塑造丰富的人物形象。无论是正面人物伊丽莎白、达西,还是贬低、挖苦的形象柯林斯,都以自然刻画的真实呈现特征赋予人物形象极强的感染力,就其用词技巧与创作手法而言,可谓踏雪无痕,入骨三分,体现了作者强大的语言功底与思想境界。
(三)词类分析 词类分析首先要了解词性,即:衡量某一作品或者作家创作风格标尺的特殊的语法分析单位,然后采用Treetagger2对语料库文本进行区别性词性赋码,在赋码分析完成之后运用Antconc3.2.1 的相关 Concordance 功能对语料库所载词类信息进行检索分析。
据检索分析统计,《傲慢与偏见》与BNC Baby中各词类所占比例分别如下:动词占19.3%和13.68%;形容词 6.84%和 6.69%;名词占 20.27%和23.31%;感叹词占 0.25% 和 0.06%。以上结果显示,《傲慢与偏见》动词使用分布较多,由于副词对动词的修饰关系,随之导致了副词的使用也是偏多的,这源于作品对刻画人物动作、形态的情节比较多。大量使用动词,使场景描述更加形象生动;为了人物和场景的形象描绘更加富有感染力大量使用形容词;相比较而言,名词使用大体和参照语料库持平。对比分析发现《傲慢与偏见》中感叹词的使用很多,在创建的文本中比例约为BNC Baby的4倍还多,这是由于作品中语言口语化的影响所致。表明作家善于使用风趣幽默以及充满个性特征的语言技巧来展现小说中人物的个性特征和情感。
(四)关键词分析 关键词是文献学中指特定文本或文本集合中与其参照语料库相比,高频率出现的词汇。以语料库为工具的语言分析来看,关键词分析是研究文本内容以及文本语言特征相互间差异的重要手段。本文借助Wordsmith Tools软件为工具,利用其Key Words的功能,在BNC Baby语料库为参照进行分析。
参照语料库发现:小说《傲慢与偏见》文本中的主题词依次为:HER,I,SHE,YOU,ELIZABETH,DARCY,MRS等,这些词汇的高频的使用,提供了研究作品的一些重要的信息。
作为主题词“HER”的出现频率位列第一,而“she”的使用频率也是很高的,这是小说的女性视角和主体意识造成的。小说主要通过五个妙龄少女的婚姻和爱情故事,表达作品的女性主义特征比较显著。作者对女性自省与自强的情感倾注,渴望女性话语权利伸张,表达其心声;第二个频率高的是“I”,映射出在男性话语霸权背景。另外,“I”的高频出现,而“me”却没有大量出现,说明在这部小说中的人物对话是存在较多篇幅的。“her”、“she”和“I”的大量出现,表明这部小说的特色是一个女性话题为主的作品,而且其语言上肯定有许多口语化的色彩。两个名字“ELIZABETH”和“DARCY”的大量出现,其词频之高,充分说明了故事情节的刻画主要是围绕这两位男女主角展开的。主题词“MRS”出现频率也比较高,体现了小说《傲慢与偏见》主要是围绕青年男女的婚姻和爱情问题叙述,刻意塑造女性人物。
三、结论
借用语料库软件对《傲慢与偏见》的进行分析,结果显示小说通篇用词通俗、浅易,词汇使用方面多具女性主义色彩。副词、动词、形容词等多词性的普遍出现,用意刻画的生活场面、人物言行,显得人物形象生动;另外这些词类的应用,对小说特定环境的营造是具有极大作用的。作品中叹词呈现高频率,彰显了小说的口语表达特征,通过口语化的描写方式,生动刻画了小说的社会环境和鲜活的人物形象。作家对人物生活化语言的描写,其人物形象的创造显现出个体鲜明的性格,高频出现的女性主义立场词汇,更加丰富了“女性主义”的思想。文中其将女主人公作为小说的主要刻画对象,更站在女性的角度审视问题,小说的故事情节绝大多数也是围绕女性话题进行的,对主人公伊丽莎白的描绘尤甚,她机智敏捷,有胆有识,目光远大,自尊心很强,并且勤于思考问题。达西两次向伊丽莎白求婚,然而获得的态度却根本不同,这样的故事构思和情节营造,其实是反映了女性对人格平等与独立的追求、以及平等意识的觉醒,伊丽莎白的典型形象正基于此显出重要的进步意义,这也正是作品中女性主义的集中反映。
通过对《傲慢与偏见》的语料库词汇特征的统计、分析,为文学批评开创了新的领域和思路。虽然不能像从文学文本的直接赏析来获得审美,但其为人们认识作品提供了方法和工具。借助先进的电子信息技术,可为认识、研究文学作品提供新的途径和视角,以可量化、图表形式表达等为研究分析文学作品,提高科学、理性认识文学作品的语言内涵,更深更广地推进文学作品的研究具有重要的意义。
[1]周艳丽,张发祥.《德伯家的苔丝》的语料库检索分析[J].河南科技大学学报(社会科学版),2008(04):62-64.
[2]贺亚男.基于语料库的文学语篇分析——以《外婆的日用家当》为例[J].内江师范学院学报,2009(05):75-78.
[3]王 雁.《傲慢与偏见》的语料库检索分析[J].江苏教育学院学报(社会科学版),2007(02):75-78.
[4]卫乃兴等编著.语料库语言学导论[M].上海:上海外语教育出版社,2002.
[5]武月明.简·奥斯汀新解——从最新版《傲慢与偏见》电影谈起[J].外国文学动态,2009(06):41-43.
[6](英)奥斯汀(J.Austen)著,刘丽译.傲慢与偏见[M].北京:语文出版社,1998.
Corpus Building and Analysis Based on Lexical Characteristics of“Pride and Prejudice”
ZHAO Jing-bo
(School of Coal Engineering,Shanxi Datong University,Datong Shanxi,037003)
Corpus Linguistics is a research method emerged in the 1980s,which studies mainly through the retrieval,sampling,statistics and analysis.Its tools are mainly Concordance,Word Smith,BNC Baby and so on.Therefore in reference to BNC Baby(Literature)corpus,we build a “Pride and Prejudice”Corpus,explain aspects of lexical features to reveal its distinctive features feminism,and create a new research perspective for Literary criticism.
corpus;lexical features;lexical analysis Literary;criticism
H313.1
A
1674-0882(2015)05-0086-03
2015-06-25
赵京博(1981-)女,山西大同人,硕士,助教,研究方向:英语语言学及语篇研究。
〔责任编辑 冯喜梅〕