APP下载

基于数理统计的《红楼梦》前80回与后40回相关性的多指标综合分析

2017-02-17中国石油大学华东理学院杨粟森赵映诚

电子世界 2017年2期
关键词:介词副词红楼梦

中国石油大学(华东)理学院 杨粟森 彭 旭 赵映诚

基于数理统计的《红楼梦》前80回与后40回相关性的多指标综合分析

中国石油大学(华东)理学院 杨粟森 彭 旭 赵映诚

一直以来,红楼梦的作者是否唯一是一个很受争议的问题。本文在数理统计的基础上对《红楼梦》的前80回与后40回以及把前80回分成两个40回的相关性作了比较分析。先利用U检验分别从多个指标进行相关性分析,判断结果不尽相同。然后利用多指标综合的层次分析法把多个指标的计算结果结合起来判断。统计结果表明:《红楼梦》的前80回和后40回相关性弱,前80回的两组相关性很强,因此,可以确定前80回和后40回非同一人所写。

相关性;U检验;p-值;多指标;层次分析模型

0.引言

《红楼梦》是我国四大名著之首,对于其作者是否唯一也有争论,把统计学的定量分析方法引入红学研究是很自然的。

华裔学者陈炳藻教授在美国威斯康星大学召开的“首届国际《红楼梦》研讨会”上曾发表了通过统计学方法算出相关用词的相关程度,发现前80回与后40回均为曹雪芹一人所作。我国华东师范大学陈大康教授得出了迥异的结论,它将红楼梦分成3组,通过分析各组之间用词句式,做出推论:后40回非曹雪芹所作(但含有少量残稿)。复旦大学李贤平[1]先生在《复旦学报》 上发表了论文《〈红楼梦〉 成书新说》主要使用了模式识别和探索性数据分析的方法, 从《红楼梦》 中抽取了47个虚字, 统计其在各回中的使用频率, 在此基础上用统计学方法探索各回写作风格的接近程度, 并用聚类方法对120回进行了分析。提出了新观点:《红楼梦》前80回是曹雪芹根据《石头记》增删而成;而后40回则是曹家亲友搜集整理原稿加工补写而成。东南大学韦博成[2]通过运用各回合对于情景的关注程度,分析前80回和后40回合的不同。2009年张运良[3]等利用句类分析结合近邻算法的文本分类方法对《红楼梦》作者问题进行了研究,文章提取《红楼梦》中的各种句类作为特征,并且将回分为3组,每组40回,选择2组作为训练集,另一组作为测试集,进行了两组实验,从实验结果得出前80回与后40回为不同作者所写的结论。

一个作者的笔风或一篇文章的文笔特征是多因素综合的结果。比如,词的用法,句子的长短,人物称谓,以及作者所处的社会背景等等。单纯从某一方面考虑难免会走向片面。考虑到在确定作者是否唯一时,这些因素往往难以量化。本文从介词、副词、颜色、人名、情绪词五种能够很大程度上反映作者写作风格的指标出发,对它们分别进行前八十回和后四十回的相关性分析判断,由于计算出来的结果不尽相同,根据一些指标所判断出来的相关性为相关,而另外一些则判断出来无关,所以我们利用p-值和层次分析法[4]将五种指标的判断结果综合起来,从而得出《红楼梦》前80回和后40回相关性不强的分析结果。并使用同样方法在对前80回进行相关性分析判断,发现前八十回相关性很强,这就证明了检验方法的科学性。

1.五种指标的数据收集

对《红楼梦》一百二十回的每一回的介词(以、为、与、于)、副词(很、颇、十分、都)、颜色(红、黄、蓝、绿)、人名(宝玉、宝钗、黛玉、袭人)、情绪词(哭、笑、喜、悲)出现频数的进行统计。(表2.1)

表2.1 介词、副词、颜色、人名、情绪词统计数据

2.U检验模型的建立和分析实现

2.1 U检验模型的理论

根据数理统计[5]上,对于总体分布未知时的样本,当样本数足够大时,仍有:

其中,Xa为X的平均值,Ya为Y的平均值,n1为X的元素个数,n2为Y的元素数,s1^2、s2^2为X和Y的方差。

2.2 《红楼梦》前八十回和后四十回、前八十回的两个四十回的U检验分析

将前八十回的数据设为X1,后四十回的数据设为Y1;前八十回中的前四十回的数据设为X2,前八十回中的后四十回的数据设为Y2。针对这五种指标因素分别利用U检验进行均值差的显著性检验:H0: u1=u2;H1:u1≠u2。

分别对五种因素进行五次显著性检验,根据式3-1得到五组u值和p值。结果见表3.1。

表3.1 五种因素显著性检验

3.基于层次分析法的多指标综合

3.1 建立递阶层次结构

将判断红楼梦的作者是否唯一这个问题分解为三个层次,最上层为目标层,即作者是否唯一,最下层为方案层,有两种选择,有相关和无关,中间为准则层,有介词、副词、颜色、人名、情绪等五个准则。各层间的联系用相连的直线表示。

图4.1 红楼梦的作者是否唯一的层次结构图

3.2 构造准则层对目标层的比较判断矩阵(正互反矩阵)

对各指标之间进行两两对比之后,根据各指标对相关性影响程度,按1—9尺度排定各评价指标的相对比重,依次构造出介词、副词、颜色、人名和情绪的判断矩阵A。

A=[1,3,1/3,4,1/4;1/3,1,1/4,4,1/5;3,4,1,8,1/2;1/4,1/4,1/8,1,1/9;4, 5,2,9,1];

其中,A=(aij)n×n,aij>0,aji=1/aij,用Ci(i=1,2,3,4,5)依次表示介词、副词、颜色、人名、情绪等五个准则。aij表示Ci和Cj对于目标的重要性之比。

3.3 计算权向量并做一致性检验

对于给出的A可以计算出,λ= 5.203,归一化的特征向量为=(0.141,0.0823,0.2967,0.03390,0.4461)T,由于成对比较阵通常不是一致阵,需要进行一致性检验。一致性指标:

当n=5时,随机一致性指标RI=1.12,最后计算一致性指标CI与随机一致性指标RI之比,即:CR=CI/RI=0.045<0.1,因此可以认为A的不一致程度在容许范围之内,可用其特征向量作为权向量。即权向量为:

ω=(0.141,0.0823,0.2967,0.03390,0.4461)T

记作:ω(2)=(ω1(2),ω2(2),…ω5(2))

3.4 构造方案层对准则层的比较判断矩阵

前面已经得到了第二层(准则层)对第1层(目标层)的的权向量,接下来要构造第3层对第2层的每一准则的成对比较阵。设相关和无关权重的比值为bij,通过计算每个因素相关性得到的P值,将P值与显著性水平α=0.05比较。P值大于α的因素的bij>1,并且P值越大,bij越大;P值小于α的因素的bij<1,并且P值越小,bij越小;构造第三层对第二层的每一个准则的成对比较阵。

3.4.1 前八十回和后四十回的成对比较阵

构造前八十回和后四十回的成对比较阵:

B1=[1,1/9;9,1];

B2=[1,1/8;8,1];

B3=[1,1/5;5,1];

B4=[1,9;1/9,1];B5=[1,1/9;9,1];

由第3层的成对比较阵:

Bk(k=1,2,3,4,5)和Ck(k=1,2,3,4,5)

计算出权向量ω(31):

ω(31)=[0.1,0.11,0.17,0.9,0.1;0.9,0.89,0.83,0.1,0.9];

并且通过一致性检验。

3.4.2 前八十回中的前四十回和后四十回的成对比较阵

C1=[1,9;1/9,1]; C2=[1,9;1/9,1];

C3=[1,1/9;9,1]; C4=[1,1/6;6,1];

C5=[1,9;1/9,1];

由第3层的成对比较阵:

Ck(k=1,2,3,4,5)

计算出权向量ω(32):

ω(32)=[0.9,0.9,0.1,0.14,0.9;0.1,0.1,0.9,0.86,0.1];

并且通过一致性检验。

3.5 计算组合权向量

接下来,由各准则对目标的权向量ω(2)和各方案对每一准则的权向量ω(3k) (k=1,2),计算两个方案对目标的权向量,称为组合权向量,记作ω(4)。对于方案P1,它在准则层的权重用ω(3k)的第一个分量表示,对于方案P2,它在准则层的权重用ω(3k)的第二个分量表示。而5个准则对于目标的权重用权向量ω(2)表示。即:

ω(4)=ω(2)* ω(3k)T。

3.5.1 前八十回和后四十回的组合权向量

前八十回和后四十回:

ω(4)=ω(2)*ω(31)T=[0.148,0.852]

即P1在目标层的组合权重为0.148,同P2在目标的组合权重为0.852,发现方案一的权重小于方案二的权重。所以,可得到前八十回和后四十回无关。

3.5.2 前八十回中的前四十回和后四十回的组合权向量

前八十回中的前四十回和后四十回:

ω(4)=ω(2)*ω(32)T=[0.637,0.363]

即P1在目标层的组合权重为0.637,P2在目标的组合权重为0.363,发现方案一的权重大于方案二的权重。所以,可得到前八十回的两个四十回是相关的。

4.结语

由以上的讨论,可以得出《红楼梦》的前八十回和后四十回无关,并使用前八十回中的两个四十回来证明了算法的科学性。因此从这个角度看,《红楼梦》可能不是同一个人所做。对于《红楼梦》的作者是否唯一这一问题,由于影响文章风格的因素有很多,在作判断和决策时,这些因素的重要性、影响力往往难以量化。经过查阅资料知,层次分析法是一个非常有效的处理方法。本文就是考虑了介词、副词、颜色、人名、情绪这几个指标,利用层次分析法把这五个指标分别计算的结果综合起来得出《红楼梦》的作者不是同一个人所做的结论。

[1]李贤平.《红楼梦》成书新说[J].复旦学报(社会科学版), 1987(5):3-16.

[2]韦博成.《红楼梦》前80回与后40回某些文风差异的统计分析(两个独立二项总体等价性检验的一个应用)[J].应用概率统计,2009,25(4):441-448.

[3]张运良,朱礼军,乔晓东,等.基于句类特征的作者写作风格分类研究[J].计算机工程与应用,2009,45(22):129-131.

[4]姜启源,谢金星,叶俊.数学模型[M].高等教育出版社,2011:249.

[5]李荣华,丁永臻,陈晓林.概率论和数理统计[M].中国石油大学出版社,2014:11.

杨粟森,现就读于中国石油大学(华东)理学院信息与计算科学专业。

彭旭,现就读于中国石油大学(华东)理学院信息与计算科学专业。

赵映诚,现就读于中国石油大学(华东)理学院信息与计算科学专业。

猜你喜欢

介词副词红楼梦
介词和介词短语
副词“好容易”及其词汇化成因
韩国语副词“더”与汉语副词“更”“再”的对应
论《红楼梦》中的赌博之风
从《红楼梦》看养生
《〈红楼梦〉写作之美》序
别样解读《红楼梦》
介词不能这样用
副词和副词词组
看图填写介词