APP下载

聚类分析方法在文学作品风格比较中的应用

2018-03-27时季

文教资料 2017年33期

时季

摘 要: 本文从毕飞宇和苏童两人的作品中分别选取了四本影响力比较大的小说组建成语料库来作为本次实验的语料来源,选取出50多个可量化统计且具有稳定性的语言特征,进行聚类分析,发现,若以语气词(啊、吗、呀等)、标点符号(逗号、句号、分号、问号、感叹号等)和实词词类(名词、动词、形容词、副词等)这些语言特征为基础的话得到的结果比较好,说明这些语言特征在区别毕飞宇和苏童的小说时具有区别性作用。

关键词: 计算风格学 文本风格 聚类分析 SPSS

1.引言

计算风格学是使用统计、计算的方法来对特定文学作品风格进行精密的比较研究是一门学科,是一门交叉型学科,是数理语言学的一个分支,涉及到语言学、计算机、数理学等多个学科。其理论基础为认为文本的语言特征表现了作者个人在写作活动中的言语特征,是作者个人风格不自觉的深刻反映[1],并且这些特征又可以在一定程度上通过数量特征来进行刻画,关于这一点,有学者进行了实验验证[2]。因此,相较于传统的内省式的研究文学作品风格的方法,计算风格學的方法具有独特的优势,比如对已得出的定性结论的正确性进行验证,为已有的定性结论提供数据支撑,这样,不仅能够弥补传统的文学作品风格研究方法客观性不足的问题,而且能够使研究结论从模糊的定性判断走向了准确的数量展示,增加研究结论的科学性。因此,目前国内外已经有很多学者开始使用这样新的研究方法对文学作品的风格进行研究。

因为计算风格学的方法是通过量化文本中的语言结构单位来刻画、研究语体、作品或作家的风格,所以,最重要的地方在于提取出能代表或区分不同风格的语言特征,并且这些特征一定是可被量化统计且能够稳定出现的。目前,已经提出、证实能够代表作家作品风格的、能够稳定出现的可量化统计语言特征主要是从词汇、句子、段落、语法、语义等五个方面来进行提取的,其中从词汇和句子两个层面来提取语言特征的情况最多,这主要是因为现在中文自动分词、词性标注、命名实体标注等技术相对来说比较成熟。同时,受限于现在语义标注技术的不成熟,计算风格分析中关于语义方面的语言特征的选取、分析目前还很少,同样的,在篇章层面进行计算风格分析的情况也很少。

关于计算风格学的研究方法,经历了从简单地统计某些特定语言结构单位的出现频率,到引入t检验、卡方检验等假设检验统计量,再到使用典型相关分析、主成分分析、因子分析等多元统计方法的发展历程,目前最前沿的研究方法是利用机器学习领域中的文本聚类和文本分类模型来实现计算机基于作品风格的自动文本区分[3]。因此,聚类分析是目前文本风格研究中一种比较新颖、重要的研究方法。聚类分析是一种无监督的机器学习方法,所谓无监督的机器学习方法即无需预先对文本进行人工标注,也不需要训练过程,而是将文本之间的距离作为衡量之间相似度的标准,最终将文本集合分组成多个类或簇,使得同一个类中的文本具有较高的相似度,而不同类之间的文本内容差异较大。而本文将采用聚类的方法对毕飞宇和苏童两位作家小说的语言风格进行比较研究。

从毕飞宇和苏童方面来看,这两位作家都是国内当代有分量的江苏籍男性作家,且两人年龄相近,在创作主题方面都比较关注女性的命运。在他们的作品中,既有先锋文学的创作,又有新写实的描摹,既有对历史的思考,又有对当下生活的关注。但是,目前对毕飞宇、苏童小说的风格研究大多属于“文艺风格学”,关注点主要放在作品思想情感、意象、艺术性等方面。本文将使用聚类分析的方法来对两位作家的语言风格进行比较研究。

2.实验

2.1语料选择

本文选取毕飞宇与苏童各自最具有代表性的四部小说建立语料库,分别为毕飞宇的《玉米》、《推拿》、《青衣》、《平原》,共约53万字和苏童的《妻妾成群》、《米》、《黄雀记》、《河岸》,共约58万字。然后,对毕飞宇和苏童各自的语料进行自动分析、词性标注处理和人工校对。因为语料库的质量直接关系到最后实验结果的准确性,因此该部分任务很重要。

表1 毕飞宇、苏童所选文本字数统计

2.2语言特征的选择

在前面引言中提到过,在使用计算风格学的方法对文学作品的风格进行比较分析时,无论采用何种具体的实验方法,都需要先进行语言特征的提取。语言特征的提取是真个实验最基础也是最重要的部分。在提取语言特征时,词汇层面包括词长分布、词长变化程度、词类的使用情况(实词、虚词)、高频词的使用、词语使用上的差异、词频统计、词性标记、词的位置、词序、单现词、N元属性等,句子层面的语言特征包括句子的平均长度、标点符号比、句类分布、句式分布和句型分布等。本文主要是从字符、词汇、句子等方面进行了语言特征的提取、统计,最后共提取到50多个语言特征,涵盖实词词类、虚词、高频词、句长等多个方面。但是,并不是所有的语言特征都具有区别性作用,因此,在进行聚类分析时,经过多次的实验,最终发现语气词、标点符号和实词词类这三个语言特征在区分毕飞宇和苏童两人小说的风格特征时具有区别性作用。

2.3聚类分析

聚类分析能够基于数据自身的信息来对数据进行分类,在计算风格学的研究中经常使用,能够表现不同的作品之间的相似性的大小从而可以对不同风格的作品之间的差异进行比较分析。通过文本聚类,可以清楚地反映出不同类的文本在所选特征项上的总体差异。本文使用的统计分析软件SPSS(20.0版)中的聚类分析功能来对毕飞宇、苏童两位作家的作品的风格差异进行分析。在SPSS中,聚类分析主要包括层次聚类法,非层次聚类法和两步聚类法,其中非层次聚类主要是k-means聚类,在本次实验中使用的是层次聚类法。

层次聚类的方法首先要确定距离的基本定义和距离计算方式,相关的计算方式在SPSS中有多达30余种,其中比较常用的有欧式距离、欧式平方距离、Pearson相关性等,本文中使用的是Pearson相关性。根据运算的方向,层次聚类法可以被分为合并法和分解法两大类,这两类方法的运算原理相同,只是方向相反而已,在SPSS中提供的是合并法,其具体过程为首先,将各聚类单位各自作为一类(n类),按照定义的距离计算方式计算各数据点之间的距离,形成一个距离阵。其次,将距离最近的两个单位并为一个类别,形成n-1个类别,再计算新产生的类别和其他各类别之间的距离或者相似度,形成新的距离阵。如果类别个数大于1,则继续重复这一步骤,直到所有的数据都被合并为一个类别为止[4]。

2.3.1分析时具体过程

首先是数据录入,将之前统计得到的语言特征分别录入进SPSS中,为后续的分析做准备。数据录入之后,如果数据取值存在较大差异,那么需要对数据进行标准化处理,其中k-means聚类需要事先手工进行数据的标准化处理,而层次聚类法则不需要,建立好的数据如图1、图2所示。然后,根据SPSS中各种聚类方法的操作步骤对选取的语言特征进行聚类分析。

在这个例子中选取的是语气相关语言特征的使用频次,因此选择的有两位作家作品中的能表示语气的标点符号和语气词,但是由于在进行聚类分析的时候不能出现字符串,所以文本名称和语言特征都用数字进行了代替。1-4分别是毕飞宇的《玉米》、《推拿》、《青衣》、《平原》,5-8分别是苏童的《妻妾成群》、《米》、《黄雀记》、《河岸》。每列所表示的含义在变量视图中的标签列可得到清楚的展现。因为本文中选用的是层次聚类的方法,所以只在数据录入后没有进行标准化处理。

其次,根据SPSS中層次聚类方法的步骤方法进行操作,得出聚类分析的结果。并选择树状图来进行结果呈现,这是因为树状图的可读性最强,通过它,可以直观地考察整个聚类过程和结果。在进行操作时,距离的计算方式为Pearson相关性而不是欧氏距离或平方欧氏距离,这主要是因为就本次实验而言,较于欧氏距离或平方欧氏距离,使用Pearson相关性得出的结果更合理,效果更好,即Pearson相关性更好用。这可能是因为聚类分析本质上是一种统计描述方法,没有过多的统计理论的支持,也没有统计检验对聚类结果的正确性“负责”,仅仅是按照所定义的距离将数据进行归类而已。因此,从应用的角度讲,针对某个特定问题很难得出一个完全确定,并且也能够得到理论完全支持的结论,更多的时候,我们是在根据聚类结果在问题中的“有用性”来判断模型效果的好坏。

层次聚类分析的步骤为“分析”——“分类”——“系统聚类”,然后,将要分析的变量选入“变量”列表框,将“聚类”选项组切换为“变量”单选按钮。注意距离的计算方式选为“Pearson相关性”,结果的展示方式选为“树状图”。

2.3.2结果及分析

①基于语气相关语言特征的层次聚类

语气是在进行文本风格分析时经常会考虑到的一个方面,不同作家在其作品中会体现出各自独特的语气特点,有的作家语气平缓,有的作家语气强烈,这些语气都会在文本中得到展现。而在计算风格学中,我们可以通过一系列不同的语言特征对作品中体现出来的作家的语气特点进行量化的统计展示,例如在本次实验中使用的语言特征为句号、感叹号、问号和一些感叹词,“吗”“啊”“呀”等。对语气相关语言特征的层次聚类的结果如图3所示。

图3的纵坐标为两位作家的八篇代表作品,其中毕飞宇的是前四部,苏童的是后四部,横坐标是不同类之间的距离,例如1和3(即《玉米》和《青衣》)之间的距离为0-5之间,1,3,2,4这一类和5,6,7,8这一类之间的距离为25。通过这个树状图可以很清楚的看到就语气相关语言特征来看,毕飞宇和苏童的作品文本风格差异很大,很明显,毕飞宇的作品与苏童的作品各成一类,据此,可进行两人作品的文本风格方面的分类。而这,也与已有的关于苏童和毕飞宇的研究结论相符。在以往的研究中一般认为苏童作品语气比较强烈,抒情性表述较多,而毕飞宇的作品在叙事时语气比较平稳,语气表达不如苏童强烈。此外,在这个树状图上,也可以看出来聚类的过程。除了图3的树状图之外,在SPSS中,也会自动输出一个显示聚类过程的图表,如图4所示,在这个图表中可以看出来这次聚类一个进行了7次,每次的结果是怎样的。

②基于标点符号语言特征的层次聚类

标点符号是句子组织结构的一个重要表现,同时标点符号的停顿含义使得它成为构成文本节奏的重要因素,因此,标点符号成研究文本风格时的一个重要的特征。在国内的文本风格研究中,也经常使用标点符号来分析作者的风格。在本实验中,针对毕飞宇和苏童的作品选取了11种标点符号,分别是顿号、分号、句号、问号、感叹号、双引号、单引号、破折号、省略号和冒号,将这11种标点符号在两个作家的文本中出现的频次录入SPSS中进行层次聚类,聚类结果如图5所示。

图5是使用层次聚类法得到的聚类结果的树状图,与图3一样,纵轴仍然表示的是八部小说,横轴表示的是不同类之间的距离。从图5可以看出来毕飞宇和苏童的作品在标点符号这个语言特征上具有很大的区别性,也就是说毕、苏二人在标点符号的使用习惯上差别很大,这两类之间的距离达到最高值,25,而二人各自的小说是聚为一类的,相似性很大。将这一结论对应到二人的作品当中,我们发现苏童在作品中会经常省略双引号,其中省略双引号又集中在直接引语方面。苏童被称为是“先锋派作家”,在先锋派作家中,在直接引用时省略双引号的并非苏童一人。这种省略了引号的直接话语句在西方被称为“自由直接引语”,它是叙述干预最轻、叙述距离最近的一种形式,能使读者直接接触到人物的“原话”,因此“自由直接引语”常常与意识流、内心独白联系到一起,所以读完苏童的小说,可以直接感受到人物的性格。在毕飞宇的作品中,在直接引用时省略双引号的数量则大大减少。此外,基于标点符号的层次聚类和基于语气相关语言特征的层次聚类的聚类顺序不同。

③基于实词词类的层次聚类

在一个语料库内,每类实词出现的频次也是在进行文本风格研究时经常使用的一个语言特征,在本次实验中,主要选择了毕飞宇和苏童作品中的名词、动词、形容词、数词、量词、代词、副词、介词、助词、连词、方位词等11类词进行统计,统计他们各自出现的频率,然后进行层次聚类,其结果如图6所示:

根据图6可以看出在实词使用这个方面,毕飞宇和苏童均自成一类,内部具有很高的相似性,但两者之间的差距很大,相似性低。根据之前词类频次的统计结果可以看出来苏童的作品使用实词的频次要高于毕飞宇,实词是用来表达意义的,具有很强的传递信息的能力[5],因此,我们可以说,苏童的小说以意义表达为主,信息性强。

3.小结

本文借助统计分析软件SPSS对毕飞宇和苏童的小说文本风格比较进行了聚类分析,结果显著,即聚类分析能够清楚的显示在某一语言特征上几部作品之间是否有差异,差异有多大。在本文的实验中,是以毕飞宇和苏童两位作家的部分作品为语料资源,通过对这些语料资源的简单的统计分析,提取出可用的语言特征,再进行下一步的文本聚类。文中展示了语气相关的语言特征、标点符号以及实词词类等语言特征的层次聚类分析,使用SPSS中的树状图输出结果,清楚的显示了在这三个语言特征上,毕飞宇和苏童的作品之间的差异很大(距离大,相似性低),两位作家的作品内部各自聚合,聚为一类,说明就这三个语言特征而言,两位作家的内部相似性较大,即都很稳定,变化不大。但是,这并不代表作家不同,其作品就一定不能聚为一类,一定是同一作家的作品聚为一类。

不足之处:在本文中使用的均为層次聚类法,不涉及非层次聚类法中的k-means聚类,且在文中并为解释为什么选择这三个特征而不是其他的语言特征来进行聚类,这是因为使用k-means聚类或其他的语言特征,聚类结果不理想,效果不好,例如在使用k-means聚类进行实验时出现了一个作家的作品没有聚在一起而是和另外一个作家的作品聚为一类,即毕飞宇的第一部、第三部作品与苏童的第一、二部作品聚为一类,剩下的聚为一类。原因可能是多方面的,一是可能因为毕飞宇和苏童两人的确拥有很多相同之处,二是可能因为聚类分析自身的缺陷,即只能根据聚类结果在问题中的“有用性”来判断模型效果的好坏。这就暴露了在风格分析中使用聚类分析的一个不足,即需要不断尝试才能知道到底哪个特征使用哪种聚类方法能够获得更好的效果。

参考文献:

[1]刘颖,肖天久.金庸与古龙小说计量风格学研究[J].清华大学学报(哲学社会科学版),2014,5(29).

[2]Harald Baayen,Hans van Halteren,Anneke Neijt,Fiona Tweedie. An experiment in authorship attribution[J].Journees internationales dAnalyse statistique des Donnees Textuelles,2002,6es.

[3]贺湘情,刘颖,基于文本聚类的语言韵律和节奏风格特征挖掘[J].中文信息学报,2014,11(6).

[4]张文彤,董伟.SPSS统计分析高级教程(第二版)[M].北京:高等教育出版社,20113.

[5]刘颖,肖天久.《红楼梦》计量风格学研究[J].红楼梦学刊,2014.