基于语料库的词汇特征分析——以《爱玛》为例<br/>

基于语料库的词汇特征分析——以《爱玛》为例

2013-02-08张绵

安徽文学·下半月 2013年4期

张绵

语料库语言学兴起于20世纪80年代，是一门新兴学科，它致力于文本的检索、取样、分析以及统计，可以为文本，尤其是具有情节性的文学文本的分析提供重要的理论依据。[1]简·奥斯汀是英国历史上重要的女性小说家，在英国小说的发展史上具有承上启下的作用。长篇小说《爱玛》创作于1815年，是其艺术思想上最为成熟的一部，属于女性主义文学文本范畴。女性主义这一思想流派出现于19世纪70年代，恰为简·奥斯汀生活的时代，这一思想批判男性中心论，赞美女性本质。本文拟采用语料库语言学方法，从词频、词长、主题词、词类分析等角度，研究和揭示《爱玛》女性主义的词汇特征，为英国女性主义小说群体词汇特征研究提供更为科学、客观的数据支撑。

一、语料库建构与数据提取

（一）语料库建构

语料库的建构主要包括：文本收集、文本整理和清洁以及文本的标注等。[2]对比语料库《爱玛》由从网站下载的《爱玛》电子文档建立，[3]在文本处理中，删除所有冗余信息，只保留题目、作者、日期和正文。本文采用FLOB语料库（Freiburg-LOB Corpus of British Eng1ish）作为参照语料库，FLOB语料库为LOB语料库的更新，收录了20世纪90年代英国英语语料，是英语本族语语料库。

（二）数据提取

本研究使用由英国利物浦大学Mike Scott研制的语料库文本分析软件Wordsmith Too1s5.0，对参照语料库和对比语料库分别进行处理和分析。同时使用自动词性赋码器TreeTagger2对《爱玛》文本进行词性赋码的简单操作。之后使用由日本早稻田大学Laurence Anthony编写的文本检索软件Antconc3.2.1，用正则表达式提取不同词类，以分析《爱玛》文本的词类信息。

二、语料库词汇分析

（一）词频分析

运行Wordsmith5.0，分别载入《爱玛》和FLOB语料库，利用软件中WordList功能，分析《爱玛》和FLOB语料库的词频信息：

形符（tokens）是一个语言单位，文本有多少个词，就有多少个形符。总形符数是语料库容量的最常用的测量单位。统计结果显示：《爱玛》总形符数为164085、FLOB总形符数为1235264，因此这两个语料库从容量上来说相差近7.5倍。

类符（types）是一个统计单位，指不重复计算的形符数。一个文本的类符数就是该文本不同词形的数量。[4]统计结果显示：《爱玛》和FLOB的类符数分别为7456和 45543。

类符/形符比（TTR）常用来衡量文本中词汇密度。词汇密度在一定程度上反映了文本的某种本质特征，即用词的多样性。[5]统计结果显示：《爱玛》的类符/形符比为4.55，而FLOB的类符/形符比为4.53。但因两库容量相差悬殊，功能词等的存在使得得出的文本词汇密度显得很不合理，故采用标准化类符/形符比来计算词汇密度。

标准化类符/形符比（STTR）是将所得到的若干个类符/形符比进行均值处理，最终得到的数值。这两个语料库的STTR值分别为：《爱玛》为39.75、FLOB为39.03。由以上数据我们了解到《爱玛》的词汇使用更加灵活，词汇量更为丰富。而这与简·奥斯汀的写作背景有关，由于终生居住在乡村小镇，接触到的是中小地主、牧师等人物以及他们恬静、舒适的生活环境，因此她的作品里没有重大的社会矛盾。主要是描绘她在狭小生活圈子里所熟悉的中产阶级的家庭生活，相比于同时代其他作家关注实事变化、大气蓬勃的写作风格，她总是以女性特有的细致入微的观察力和活泼风趣的文字真实地描绘她周围世界的小天地，具有观察细致、人物刻画惟妙惟肖、评论尖刻等艺术特色。[6]而这也正是她的作品《爱玛》词汇密度大、词汇量丰富的原因。

（二）词长分析

平均词长（mean word 1ength）是指语料库中单词所包含字母的平均数。一般而言，平均词长越长，文本越深奥复杂；词长越短，文本越浅显易懂。

WordList统计结果显示：《爱玛》语料库的平均词长为4.27，而参照语料库的平均词长为4.37。《爱玛》较多使用生活口语和简易词汇，是因为《爱玛》多为生活场景的描写、人物行为动作的刻画或人物心理的描绘，当然这与简·奥斯汀朴素无华、通俗易懂、形象生动的写作风格不无关系。

（三）主题词分析

在文学作品分析中，主题词的确立可以帮助人们更加直观地了解文学作品中的基本信息和主要情节。[7]在语料库分析中，在单篇或多篇文本中具有超高复现频率的词称作为主题词。本研究利用Wordsmith Too1s软件中的KeyWords功能，以FLOB语料库作为参照语料库，提取主题表如表一所示。

表一《爱玛》和FLOB语料库主题词分析结果

从表一可以看出：《爱玛》中排在前10位的关键词依次为：I，EMMA，HER，SHE，MR，YOU，VERY，MIRS，MISS，NOT，这些词汇可以反映出作品的一些基本信息：

首先，关键词I出现频率最高，反映了简·奥斯汀在男权社会中，对于女性自强与自省的关注，渴望拥有自己的话语权，发出自己的心声。EMMA频率次之，是因为Emma为小说主人公。再次，关键词HER高频出现，是由于通篇采用第三人称全知全能的叙事视角，借助爱玛的眼睛来观察海波里发生的一切，当然女性视角使小说更具有女性特征。此外MR一词频率较高则是因为小说主要是围绕青年男女的爱情与婚姻问题展开的。（四）词类分析

词类，作为一种特殊的语法分析单位，通常被认为是衡量某一文学作家或作品风格的重要依据。[7]关于词类信息分析，首先使用Treetagger2针对对比语料库和参照语料库分别进行自动词性赋码处理，然后使用Antconc3.2.1的Concordance功能，运用正则表达式分别检索两个语料库各种词类的信息。

统计数据显示，两个语料库在词类构成上基本相同，区别主要在以下几点：（1）《爱玛》中名词比重为20.27%，FLOB中名词比重为23.31%，由于《爱玛》使用并不大，直接导致形容词和冠词的使用也不多；（2）《爱玛》中动词比重为19.30%，FLOB中动词比重为13.68%，可见《爱玛》动词量较大，同样导致副词使用偏多，这是因为小说多以描述为主，刻画人物动作形态，大量动词的使用，使场景描述更加形象生动。（3）《爱玛》中形容词比重为6.84%，FLOB中形容词比重为6.69%，二者基本持平。（4）《爱玛》同FLOB相比，最明显的区别在于《爱玛》中有大量的感叹词。《爱玛》中感叹词比重为0.25%，FLOB中感叹词比重则只有0.06%，《爱玛》中感叹词在文本中的比例大约是FLOB中的4倍之多，这主要是由于大量生活现实场景的描写，大量人物对话的出现，使文章写作语言偏于口语化。同样，根据检索结果，我们发现这些感叹词多为女性用语，女性感叹词的大量使用使读者感受到强烈的女性气息，这也是《爱玛》成为女性文学代表作品的原因。

三、结论

总体而言，《爱玛》语篇用词浅显，丰富多变，通俗易懂，且词汇多为女性词汇。通过语料库分析，我们得到小说的几个特点：（1）作品反映了“女性主义”的主题思想，不仅以女性主人公作为小说叙述的对象，以女性视角看待问题，而且所有的故事也都是围绕女性展开的；（2）作者擅长采用第三人称全知全能的叙事视角，借助女性的客观视角表达主观感受；（3）动词、副词的大量使用使得生活场景、人物动作的刻画形象生动；（4）叹词的大量使用显示口语语体特征。

以上结果显示，基于语料库的文学词汇特征分析具有独特的优势，为文学批评开辟一种独特的视角。因为，无论是文学词汇特征分析、情节构建、人物刻画，还是写作特征，在语料库检索分析中都能一目了然。

[1]宋建威,牛慧霞.《肖申克的救赎》语料库检索分析[J].作家杂志，2011(5):160-161.

[2]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.

[3]http://www.gutenberg.org/ebooks/search.

[4]周琨,张荣梅.从语料库文体学的视角看培根Essays的文体特征 [J].通化师范学院学报,2011(32):59-60.

[5]杨秀珍,续娜,刘美瑜.基于语料库的《暮光之城》系列小说词汇特点初探[J].长春理工大学学报,2010(2):71-73.

[6]Jane Austen.Emma[M].北京:外语教学与研究出版社,1992.

[7]高博.语料库语言学视角下的文学批评——《以〈红字〉为个案》[J].重庆工商大学学报,2012(29):129-134.