APP下载

《平凡的世界》人物关系网络分析

2022-06-23何进荣马乐荣

计算机与现代化 2022年6期
关键词:网络分析平凡的世界可视化

王 君,何进荣,马乐荣

(延安大学数学与计算机科学学院,陕西 延安 716000)

0 引 言

路遥先生是中国当代著名作家。路遥小说多为描绘陕北农村生活,代表作有《平凡的世界》《人生》等,曾荣获1988年茅盾文学奖。《平凡的世界》全书共3部,是一部百万字全景式展现了当时生活的小说。描述了20世纪70年代到80年代的陕北生活,作品以孙少平和孙少安两兄弟为主人公,描绘了各自生活中遇到的挫折与努力、奋斗与坚持和爱情的波折、兄弟2人相关的生活以及大多数普通人的形象[1]。《平凡的世界》是一部中国城乡互动视角下社会整体演进史[2],书中所描写的人物、时代特色和表现出的思想内容、情感符合当时的时代背景,成为当时大众读者的畅销书,该书获得茅盾文学奖, 不仅标志着获得社会主流价值的认同, 也由此被代表着国家的主流文化建构为经典[3]。

随着信息化不断发展,小说特别是文学作品这类作品被电子化,为研究和应用提供了极大的方便[4-5]。并且人们可以用新的视角理解作品中的人物关系,预测人物关系走向,分析人物的重要性。相比于全文阅读作品《平凡的世界》,借助网络科学能挖掘出其中更多细节及深层结构[6],更加全面客观地理解故事[7-8]。人物关系可视化可以更加直观地理解作品中人物之间的联系以及人物朋友间的联系,使用复杂网络技术分析《平凡的世界》中人物角色的重要性,可以抽取出有意义的内容。

1 相关工作分析

近年来,社会关系网络逐渐成为跨学科研究的重点[6],目前文学作品人物关系网络分析的主要方法是利用自然语言处理角色问题,使用文本挖掘构建人物关系矩阵和采用数字人文中的社会网络分析方法,构建不同作品的社交网络,大多文献都表明社交网络具有小世界性。

赵京胜等[9]用复杂网络技术和自然语言处理抽取和分析了文学作品《三国演义》中的社会网络,利用中文文本处理工具、Web查询和背景知识选取最终的角色,构建角色章回矩阵、章回共现矩阵和全文共现矩阵来确定角色的权重值,对抽取的社会网络分析了角色频率分布、中心性、凝聚子群。结果表明角色分布有小世界性、有限幂律分布、多面性和多元性。刘海燕等[10]采用自然语言处理技术和基于复杂网络技术,提取小说人物,构建人物共现关系网络,分析此网络的结构特性,采用条件随机场来处理小说人物识别和指代消解,对菲茨杰拉的4部小说进行人物关系网络构建,用复杂网络理论分析方法得到网络的统计测度。

唐毅等[11]使用文本挖掘构建人物关系矩阵,用社会网络方法研究了《水浒传》中108个主要人物的社会网络,首先对文本按照句号进行划分,再制作水浒108将的人名词典,统计其中任意2人共同出现的次数来构建人物关系网络,分析了网络结构特征,分析得到网络中存在5个次级网路。陈蕾等[12]使用数据挖掘中雪球算法,实现了《红楼梦》中人物关系对之间的定位,挖掘小说中频繁出现的任务对间的等级,建立了有向加权网络。

魏会洋等[13]采用数字人文研究方法讨论了长篇小说《白鹿原》在文学阅读研究中的适用性问题,选取《白鹿原》小说中影响较大的12位人物构建人物共现矩阵,将分析过程与小说《白衣女人》和《三国演义》进行比较分析,并总结了社会网络分析在文学作品分析中的适用性和局限性。赵薇[14]借助数字人文中社会网络分析方法,对《大波》三部曲中的人物关系和社会网络进行了可视化和适用性分析,通过以半人工的手法提取对话角色、计算人物关系权重,使用R语言计算网络的特征值,使用Gephi软件绘制网络图,计算了网络的中心性从中发现关键人物。

楼锴毅等[15]对小说中的社交网络进行聚类分析,构建社交网络步骤为:人物角色标记,角色指代消除,人物关系识别和关系网络表示,对于网络的构建使用基于人物共现的方法。选取了4位不同作家的65篇小说,采用K-means算法进行聚类,k值设为4,采用准确率、召回率与F1值进行评测。朱海澎等[16]以《白鹿原》剧本为语料创建角色词典,识别人物关系,采取边列表的格式存储网络。在人物关系网络上分析了节点中心性和小世界性质。除此之外基于预料的方法[17-18]都取得了不错的效果。

本文是对作品《平凡的世界》的初次探索,主要集中在对第一部的分析,使用软件可视化人物关系网络,可以更直观地理解路遥先生写作时表达的人物之间的联系,分析人物的重要性,用模块化进行聚类分析。

2 人物关系网络构建

2.1 数据集简介

本文对《平凡的世界》第一部构建社交网络,《平凡的世界》作品电子版下载地址为:http://pingfandeshijie.janpn.com/。本文使用复杂网络分析方法和NetworkX软件包对其中的人物关系进行分析,首先根据网上查询初步构建人物角色文件,再通过对小说的阅读情况对人物角色文件进行修正。按照章节分析人物之间的共现关系,作品中的人物代表网络中的节点。网络中的边可以表示角色之间的亲情、爱情、挚友等关系,每章中人物的共现关系作为边,边上权重值表示所有章中出现过的同现关系。路遥作品《平凡的世界》包含的章数、节点和边如表1所示。

表1 五本文学作品的章节数、节点和连边

2.2 人物关系抽取方法

图也叫网络,表示为G=(V,E),其中V表示图中的节点集合,E表示图中边的集合,全值网络中用W表示各联系边的权重集合[19]。本文使用Python语言进行人物关系的抽取。共分为2步,第1步用本文构建好的作品中人物作为语料库,对每一章进行匹配检索和选取,如果2个人物同时出现在一章中,认为他们存在关系,以此假设为根据,获取每一章的人物关系即人物对。第2步如果其他章节中也存在这种关系,边上的权重就进行增加,权重值越大2个人的关系也越亲密。

2.3 数据分析目标

本文构建一个无向加权的社交网络,对于本文的数据集,首先使用Gehpi软件进行可视化,用复杂网络技术和NetworkX软件分析计算网络指标,包括度分布、群聚系数、平均路径长度、稀疏性、网络直径、介数和相关性,其中度分布、群聚系数和平均路径长度是复杂网络中重要的网络指标。

2.3.1 可视化

Gephi是基于JVM的复杂网络分析软件,可进行数据可视化,分析网络指标,可以用来做数据分析、链路分析、社交网络分析等。

使用NetworkX软件包来计算网络的拓扑结构统计性质,包括度分布、聚集系数、最短路径、网络直径、平均路径长度、介数、相关性、稀疏性。

2.3.2 网络指标

度分布定义为将网络中节点的度值从小到大排列,统计度值为k的节点占整个网络节点数的比例p(k):

p(k)=Nk/N

(1)

其中Nk表示度为k的节点数目,N表示网络中的节点总数。

对于集聚系数,定义为:节点i的ki个邻居之间实际存在边数Ei和总的可能的边数之比,计算每个节点的集聚系数和网络中所有节点的平均聚集系数公式为:

(2)

平均路径长度计算公式为:

(3)

其中d(s,t)是节点s到节点t的距离,n是图G的节点数。

网络的相关性本文使用皮尔逊相关系数来进行判断,取出网络中的所有连边,计算每条连边2个端点的度值,并将其按从大到小排序,得到度小序列和度大序列,最后计算它们的皮尔逊相关系数。

网络稀疏性计算公式为:

(4)

其中L表示网络中实际存在的边数,N表示网络中的节点数。

最短路径值为2个节点所有路径中长度最短的路径。

网络直径是指网络中任意2个节点距离的最大值。

介数:反映了节点或边在整个网络的作用和影响力,分为点介数和边介数。点介数指的是最短路径中经过该节点的路径的数目占最短路径总数的比例。边介数是最短路径经过该边路径的数目占最短路径总数的比例。

2.3.3 聚类分析

聚类是用个体的相似性作为“距离”的度量标准,节点间相互距离较小的归为一类,可以反映不同个体之间的差异性和共同性[20]。本文使用Louvain模块化算法[21],该算法能够发现最优的社团分组,在时间和效果上都能得到比较好的结果。

2.3.4 链接预测

在链接预测中,本文随机删除20%的边,对于删除的边本文计算Jaccard’s Coefficient系数,节点u、vJoccard’s Coefficient系数被定义为:

(5)

Adamic-Adar Score分数定义为:

(6)

Preferential Attachment的定义是:

Γ(u)·Γ(v)

(7)

其中Γ(u)表示节点u的邻居节点。

3 实验结果

3.1 网络可视化

人物关系网络可视化可以更加直观、便捷地看到作品中描述的人物及人物间的联系,使用Gehpi软件进行可视化,节点的度与节点的大小相关,节点度值越大节点面积越大,可视化结果如图1所示。

图1 《平凡的世界》文学作品人物关系可视化

从图1中可以看出,《平凡的世界》里人物孙少平、孙少安、田福堂、田润叶、孙玉厚等节点大的节点对应在作品中出现的次数较多,也是作品中的主要人物。原作品中描述的主要任务和其他许多人物都存在联系,在可视化图上可以看到,主要人物节点的连边数较多。

3.2 网络指标计算

3.2.1 度分布

本文计算每个节点的度值,在人物关系网络中,度值越大的节点在作品中往往越重要,绘制《平凡的世界》社交网络度分布直方图如图2所示。

图2 《平凡的世界》度分布

《平凡的世界》社交网络度分布直方图横轴表示度值,纵轴表示度值数的节点个数。图中度值为24、26、27的节点有4个。最大度数是34,最小度数是2。度值较大的节点田福堂的度为34,孙少安的度为33,孙少平的度为30,田福军、田福高和田润叶度值为27,田晓霞度值为24,反映了这几个人物节点所连接的边数较多,在作品中的位置也比较重要。

3.2.2 集聚系数

表2列出了部分节点的集聚系数。

表2 《平凡的世界》的部分聚集系数

聚集系数反映了一个点的邻接点相互连接的程度,在社交网络中可以是一个人朋友之间相互认识的程度。社交网络中各个人物之间倾向形成密度较高的群体,与任意2个节点随机连边相比,社交网络的集聚系数更高。表中孙少安等人的聚集系数较高,表明他们朋友之间相互认识的程度越高。实验计算得到的结果均保留小数点后4位。

3.2.3 部分网络指标结果

网络的平均度、平均聚集系数、网络直径、平均路径长度、相关性、稀疏性如表3所示(结果保留4位小数)。

表3 网络指标计算结果

由表3可知相关性都为负,表示网络之间呈现异配情况,网络中的稀疏性约为0.5706,本文认为网络都较为稠密,由于平均路径长度比较小,网络的群聚系数又较大,因此《平凡的世界》的人物关系网络具有小世界网络的特征[22]。

3.2.4 最短路径

本文计算了每个节点到其他节点的最短路径,结果倾向于2个人物节点直接相连,其中王满银与李向前的最短路径为:王满银-田福堂-李向前,贺凤英与武惠良的最短路径为:贺凤英-田晓霞-武惠良。

3.2.5 介数

表4列出了部分节点的点介数值。

表4 点介数

从表4可知,孙少安、田润叶、田晓霞、孙少平、田福军的点介数排在前面,孙少安的点介数最高为0.0445,说明在作品中有不可替代的作用。

3.3 聚类分析

为了使结果更加清晰,在最小生成树上进行聚类分析,《平凡的世界》聚类可视化如图3所示。

图3 《平凡的世界》Louvain模块化社团分组可视化

从图3中可以得到总共分了3个社区,分别是孙少安、田福堂、孙少安妻子贺秀莲等人的一个社区;李登云、田福军等人的一个社区;孙少平、田晓霞等人的一个社区。原作品孙少平、孙少安是一家人,后来因为兄弟各自结婚有分开住,但也生活在一起,这里将2个人各自分为一个社区是合理的。

3.4 链接预测

链接预测是根据已知的网络结构信息,预测网络中2个节点产生连边的概率,链接预测可以对用户未来是否存在关系进行分析,解决的是节点间的相似性问题[23]。链接预测得分情况如表5所示(结果保留4位小数)。

表5 链接预测的曲线下面积(AUC)评分

4 结束语

随着互联网和复杂网络技术不断发展,可以通过复杂网络技术对文学作品进行分析。本文研究了路遥先生的长篇文学作品《平凡的世界》,使用复杂网络分析方法和NetworkX软件包构建了该作品的人物关系网络,通过分析可以更加直观地理解作品中的人物关系和人物的重要性,有助于人们理解小说中的人物关系。计算人物关系网络的网络指标判断出其与社交网络的相似程度,通过对网络指标结果分析,发现该网络符合小世界特性,网络有稀疏性等特性。从文学角度来看,对章回体小说可以运用本文方法进行分析,得到很多有意义的数据,该方法也为文学作品分析提供了重要的分析手段。

猜你喜欢

网络分析平凡的世界可视化
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
基于交通运输业的股票因果网络分析
基于ISM模型的EPC项目风险网络分析
思维可视化
低轨卫星互联网融合5G信息网络分析与应用
认知重评和表达抑制情绪调节策略的脑网络分析:来自EEG和ERP的证据*
“融评”:党媒评论的可视化创新
铁骨柔情——论《平凡的世界》中孙少平的形象
《平凡的世界》之魅力评析