APP下载

莫言散文《卖白菜》《会唱歌的墙》主题词分析

2016-05-14郑文

魅力中国 2016年6期
关键词:主题词莫言

郑文

【摘 要】本文采用中文信息处理的方法,以莫言散文《卖白菜》《会唱歌的墙》中的文本内容为研究对象,使用词性标注工具MyTxtSegTag软件对其文本进行词性切分标注,并使用Python编写程序对切分好的每个词进行词频统计,最终根据得出的数据进行主题词分析总结。

【关键词】中文信息处理;莫言;卖白菜;会唱歌的墙;主题词

莫言是第一位获得诺贝尔文学奖的中国本土作家、第一位获得诺贝尔文学奖的华人作家,是中国文学界迄今为止获得的最高奖项。他自1980年代以一系列乡土作品崛起,充满着“怀乡”以及“怨乡”的复杂情感,被归类为“寻根文学”作家。据不完全统计,莫言的作品目前至少已经被翻译成40种语言。自莫言获诺贝尔文学奖后,“莫言热”成为大家茶余饭后纷纷讨论的话题,对于莫言写作方方面面的研究层出不穷,但从语言学角度,尤其是计算语言学角度研究的文章并不多见。

现在,很多研究者通过计算机辅助的方法对作家作品的语言风格、文体特征、思想主旨等方面进行研究,计算机技术与文学两个领域的结合也成为当今跨领域交叉学科研究的一个重要方向。通过计算机辅助的方法对文学作品的高频词与主题词进行研究对于把握文学相关方面的研究有重大帮助。研究语料内容、语料风格的重要手段之一就是主题词研究。语料中语言规律能通过高频词与主题词反映出来。我们通常认为,文本的主题越明确或一致性越高,其词语运用趋势就越集中,反之词语的差异性就越强。文本分析软件可以计算某词或词组在观察文本中的频数、观察文本的总频数、该词或词组在参照语料库中的频数、参照语料库的总频数等四方面数据来计算关键值。我们通常认为高频词、主题词与文本的主题相关性密不可分。如果该词关键性高,则其与文本的主题就越相关。

本文以此为切入点,选取莫言散文《卖白菜》《会唱歌的墙》为研究对象进行处理。在具体的中文信息处理系统中,常把对词汇的研究成果用复杂特征集的形式表示出来,从而提高系统的处理能力。词汇的复杂特征表示,要求我们对每一个具体的词的词汇知识做详尽的描述,由于本人能力有限,本文在此仅对两篇文章中的主题词进行分析研究,并得出相关结论。

一、对文本进行的处理

(一)使用词性标注工具MyTxtSegTag软件对其文本进行词性切分标注,并大致上进行了人工校对。虽然机器标注存在一定错误,人工校对也不能完全解决,但基本可保证90%以上的正确率。当然,本次词性标注虽然也处理了标点符号,但本文只针对词进行探讨。

(二)使用Python编写程序对切分好的每个词遍历,进行词频统计。经过词频统计,本次最终确定文本分别为2597个词与4641个词,并得到每个词重复出现的次数、词性出现的次数等相关数据。

二、基本理据和文本分析

一般来说,文本或文本群的主题限制性越强或一致性越高,其词语运用就越呈现出集中趋势,反之词语的变异性就越强。《卖白菜》与《会唱歌的墙》两篇散文中名词所占比重都最大,分别为20.18%与26.65%,在此以名词为对象做以下分析:

(一)文章中词汇运用及分布与文章的主题密切相关,某一主题具有独特的词汇群,这些词在语料库中具有超常的重复率,说明作者对某一主题的表达在词汇选择方面具有很高的一致性。《卖白菜》文章主题较为明确,即母亲带我卖白菜的经过。在语料的名词中,“母亲”一词出现频率最多,为55次,占总名词词频的2.13%,“白菜”一词次之,出现34次,占总名词词频的1.32%,而其他名词出现的频率较低,因而基本可以确定文章的主题词为“母亲”或“白菜”。这两词恰好与文章主题相符。文章段落摘录如下:

母亲靠近我,掀起衣襟,擦去了我脸上的泪水。我把脸伏在母亲的胸前,委屈地抽噎着。我感到母亲用粗糙的大手抚摸着我的头,我嗅到了她衣襟上那股揉烂了的白菜叶子的气味。从夏到秋、从秋到冬,在一年的三个季节里,我和母亲把这104棵白菜从娇嫩的芽苗,侍弄成饱满的大白菜,我们撒种、间苗、除草、捉虫、施肥、浇水、收获、晾晒……每一片叶子上都留下了我们的手印……但母亲却把它们一棵棵地卖掉了……我不由得大哭起来,一边哭着,还一边表示着对母亲的不满。母亲猛地把我从她胸前推开,声音昂扬起来,眼睛里闪烁着恼怒的光芒,说:“我还没死呢,哭什么?”然后她掀起衣襟,擦擦自己的眼睛,大声地说:“还不快去!”

从该段可以看出,“母亲”“白菜”出现频率居多。

(二)自由文章由于主题比较分散,词汇选择范围大,自由度高,在语料的总体特征上比有明确主题的文章的词汇量大,重复率低。 《会唱歌的墙》主题较不明确,作者写了家乡的很多事物,但没有哪个事物是最主要的。从语料统计来看,语料词汇量较大,出现最多的名词为“池塘”,出现34次,占总名词词频的0.73%,“人”次之,出现34次,占总名词词频的0.54%。这两个数据已经很低了,其他名词则更低。而主题词应在语料中具有超常频率,这两次显然不符合条件。因而该散文主题词不明确。文章段落摘录如下:

沿着这条奇树镶边的黄土大道东行三里,便出了村庄。向东南方向似乎是无限地延伸着的原野扑面而来。景观的突变使人往往精神一振。黄土的大道已经留在身后,脚下的道路不知何时已经变成了黑色的土路,狭窄,弯曲,爬向东南,望不到尽头。人至此总是禁不住回头。回头时你看到了村子中央那完全中国化了的天主教堂上那高高的十字架上蹲着的乌鸦变成了一个模糊的黑点,融在夕阳的余晖或是清晨的乳白色炊烟里。也许你回头时正巧是钟声苍凉,从钟楼上溢出,感动着你的心。

黄土大道上树影婆娑,如果是秋天,也许能看到落叶的奇观:没有一丝风,无数金黄的叶片纷纷落地,叶片相撞,索索有声,在街上穿行的鸡犬,仓皇逃窜,仿佛怕被打破头颅。

由该段可知,文章为散文,以描述性语言为主,主题不明确。

(三)文章主题对词汇的选择具有较大的限制性,主题越具体,限制越大,主题词汇的重复率也就越高。通过这两篇语料的数据对比,词汇重复率高的文章主题也非常明确,而词汇重复率很低的文章主题也是不明确的。

三、本次工作以后可以进行的相关工作

本文只是选取莫言的两篇散文一万多字进行分析,而要更进一步地研究莫言写作的语言特点或主题词汇的话,需要拿一个具有同一主题的语料库(该语料库作为观察语料库)与另外一个较大的语料库进行比较,就能把观察语料库中的频率超常的词语群提取出来,生成一个主题词表,这样才能更充分地得到结论。

若要进一步进行研究,首先是计算出每个单独文本的主题词表,所谓主题词就是在所研究的语料库中频率超常的词语。基本此表统计能够提供一个语料库文本的词语频率分布信息,却难以说明词语在语境中的用法和词语之间的关系;索引分析能够提供语境中的关键词在短语和句子层面或同现语篇的用法和词语关系;而主题词统计能够提供语篇层面词语的分布与文本主题的关系以及词语之间的关系。仅对某一单篇文本统计出的词表,只能为观察该文本中的词语分布提供依据,如能通过计算,提取该文本中围绕为本主题所使用的词语群,则可以进一步观察作者在表达某一主题时所使用的语汇。如果表达某一主题要求相应的独特的词语群,那么在该文本中,这些词语出现的频率应远远超出其他主题文本中的频率。通过对比两种不同的文本,应能提取出某一文本中具有超常频率的词语群,而该词语群即可被看做该文本的主题词表。

参考文献:

[1]冯志伟.自然语言的计算机处理.上海外语教育出版社.1996

[2]林杏光.词汇语义和计算语言学.语文出版社1999.

[3]梁茂成,李文中,许家金.语料库应用教程.外语教学与研究出版社.2010

[4]卫乃兴,李文中,濮建忠.语料库应用研究.上海外语教育出版社.2005

猜你喜欢

主题词莫言
过去的年
父亲让莫言比别人矮半头
父亲让莫言比别人矮半头
父亲让莫言比别人矮半头
视佐词导
主题词:青春
一点儿都不“丑”
莫言与鸟叔的关系
取消公文主题词的真正原因是什么?
公文主题词消失的原因浅析