APP下载

金庸小说中主角复杂爱情模式的识别与分析

2019-05-24李志宇张树森赵晓磊

中文信息学报 2019年4期
关键词:幂律金庸爱情

张 旋,梁 循,李志宇,张树森,赵晓磊

(中国人民大学 信息学院,北京 100872)

0 引言

长篇小说由于其人物丰富多彩、剧情跌宕起伏,一直深受人民群众的喜爱。近年来,随着互联网技术的发展,越来越多的人开始参与小说的写作并发表到线上。如何利用计算机处理这些缤纷繁杂、良莠不齐的作品,提取出人物关系,无论是实现作品对读者的个性化推荐,还是搭建出版社判断图书质量的决策支持系统,都是一个关键的命题。

金庸武侠系列作为中文长文本小说的杰出代表,其语言特征主要包括: 篇幅庞大、人物数量丰富、人物关系复杂(噪声大)、情节时间空间跨度大等特征,这些特征也是当前多数中文长文本小说关系抽取模型所面临的共同难题。金庸小说的情节与人物关系的发展往往具有时间序列特征,这进一步增加了当前模型分析处理的难度。

在金庸的武侠小说中,往往主角的爱情线会占据及其重要的地位,因此,对主角复杂爱情模式的识别与分析,实质上也需要抽取与识别和主角发生恋爱关系的其他人物。通常,由于中文语料在处理过程中还涉及到分词、多义词消歧、指代消解等技术难点,故关系抽取的研究大多集中于英文语料,对中文语料的研究相对较少。在关系分析框架中,实体的抽取是基本前提,但是金庸小说没有自身的语料库,因此所有的角色标注均需要手工完成。然而由于众多的人物角色以及不同别称(外号、代号、昵称等)的存在,比如,《射雕英雄传》中的郭靖就具有靖哥哥、靖儿、郭兄弟、郭大哥、郭巨兄等五种不同的称呼,这也使得指代消解工作更加繁琐。

本文以金庸先生的14部中长篇小说作为数据集,通过搭建小说中人物节点的社会网络,并根据小说文本的特征,提出了一种简化的小说社会网络模型,并通过提出噪音节点的识别方法,构建了一个更为通用的分析框架。接下来,我们通过设计一个基于小说社会网络人物节点之间的接近中心度的亲密度计算模型,以及判断小说社会网络人物节点之间关系的身份判别模型,并以此为基础完成了用于识别金庸武侠小说主角的复杂爱情模式的综合模型。

1 相关工作

目前,针对中文长文本处理的相关研究,主要是围绕于文本的词语分布、风格计算和文本分割以及指标抽取等方面展开,较少涉及文本的内容以及人物关系。如马创新[1]等以先秦8部经典文献为观察语料,发现了这些文献中词语的离散分布和集中分布。然后,构建出8部文献之间的相似度矩阵,验证了语言风格差异不仅体现在常用词上,也和常用词的使用词频有关这一现象。肖天久[2]等以金庸与古龙的小说作为语料,使用主成分分析和文本分类的方法对八种特征从总体上进行了比较,揭示了金庸与古龙小说风格存在的差异。Dalenoskam[3]以22部荷兰语和英文小说为语料库,研究发现文学文本中不同的名字对文学风格有很大影响;Waugh[4]等将级联相关算法(Cascade-Correlation Algorithm)应用于最小网络的建设,在考虑数据冗余的前提下,发现了计算文体学中一些极大规模的变量,可以通过有限数量的训练示例而不诉诸大型网络得以解决。石晶[5]等提出了基于概率潜在语义分析(Probability Latent Semantic Analysis,PLSA)模型和基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型的文本分割方法,通过实验发现基于PLSA模型的方法结果的随机性较大,而基于LDA模型的方法分割的准确度有明显提高。

在有关中文长文本小说的指代消解、命名实体识别的相关研究工作中,一种常见的做法是在对语料库进行标注的基础上,建立姓名、字号和称谓的分类和标注系统[6]。对于难以标记的中文人称代词,罗云飞[7]等提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略进行指代消解的方法,取得了一定的效果。另一种常见的做法是结合语义利用马尔科夫链进行联合学习推导[8]。

总体来看,目前关系抽取的研究大多集中于英文语料,基于中文语料[9]的研究相对较少。比较有代表性的有陈宇[10]等提出的一种利用DBN(Deep Belief Nets)模型进行基于特征的实体关系抽取方法,获得了比SVM(Support Vector Machine)和反向传播网络更好的效果。此外,目前比较成熟的基于英语语料的研究工作包括有Cafarella[11]等提出的TextRunner系统。该模型利用启发式规则自动构建语料库然后训练模型识别关系三元组。文本挖掘也是抽取和识别关系的一种重要方法[12]。Lin[13]等用卷积神经网络(Convolutional Neural Network,CNN)来嵌入句子的语义,提出了一个句子层面的关系抽取模型,并且实验证明了该模型在弱监督条件下[14]的有效性。Li[15]等则构建了一个增量联合框架[16],通过高效的集束搜索和结构感知机实现了实体和关系的提取,并且通过实验表明该框架的性能远远好于现存的端到端系统。

2 主角复杂爱情模式的识别

2.1 武侠小说社会网络的构建

社会网络可以由节点和边构成的关系图表示,记为G=(V,E)。其中,V为图中的节点集合,E为节点之间相互联系的边的集合[17]。为了识别金庸武侠小说中主人公的复杂爱情模式,本文的研究思路是对每本金庸著作中的主要人物构建社会网络,每个主要人物可以视作一个节点,人物之间的关系则可以视作对应节点的连边,与某一节点相连的节点总数便称为该节点的度,我们根据节点之间在同一段落的共现次数给予度相应的权重。对于某个具体的节点vi,它与其他节点vj的关系可以用带权重的度eij表示,其中eij在本文中的具体权重为节点vi和vj在同一段落中的共现频数[18]。图1所示左图是小说《射雕英雄传》的社会网络结构图,右图为局部放大图。从图1中可以看到中心度[19]较高的节点,如郭靖、黄蓉、杨康等均为小说中的重要人物,而且人物之间的关系越紧密,对应节点之间的边越粗。

本文认为两个角色在小说同一段中共现的次数eij(以下简称共现次数),即带权重的度能够较好地反映两个角色之间的亲密程度,可以作为判别两个角色之间的亲密度的重要标准。当然,eij的大小也会受vi和vj在小说中出现次数的多少所影响,一个明显的例子是在《射雕英雄传》中,同样是非常恩爱的恋侣,郭靖和黄蓉的共现次数高达6 743,而陆冠英和程瑶迦的共现次数仅有523。

因此,仅凭借带权重的度eij的指标来判断角色之间的关系程度不够完善,因为主角在小说中出现的次数相较配角高很多,这也使得与主角相联系的边的权值eij也会更大。为了使得角色之间的关系衡量不受角色本身出现次数的影响,我们对权值eij做归一化处理,进而提出了衡量亲密度的重要性函数Pij,如式(1)所示。

即对于节点vi、vj,用vi和vj的亲密度在vj和除自身外所有节点的亲密度之和中的占比衡量vi在vj的社会网络中的重要程度。众所周知,不考虑感情色彩的话,人物之间的亲密度关系主要有父子、母子、师徒、恋侣(包括夫妻)、暗恋、仇敌等,因此,亲密度函数Pij也可以作为识别金庸武侠小说中围绕主人公的复杂情感关系的重要指标。

图1 《射雕英雄传》社会网络关系

2.2 提取小说主要人物

金庸小说,尤其是金庸长篇小说,涉及的人物十分繁多。现有的金庸小说人物姓名词典总括了金庸14部小说中的所有人物姓名,共有1 362人。我们依据该词典可以实现计算机对金庸小说人物的自动识别,在此基础上,利用手工建立的指代消解词典实现不同人物的称呼的统一化。我们将由计算机识别出的每部小说中出现频数最多,即中心度最高的节点作为主角。金庸14部武侠小说中,由计算机识别出的角色总数及主角出现频数如表1所示。需要注意的是,此表中各小说的角色总数,可能比对金庸的文学研究中所总结出的角色总数略多,原因在于此表的数据是由计算机识别得出,即只要某个角色同时存在于人物姓名词典和小说中,就会被识别出。一个典型的例子是,华筝是《射雕英雄传》中和主角郭靖的娃娃亲,在《神雕侠侣》里黄蓉想起往事时有提到,计算机也会自动识别,但现在文学研究中一般不把华筝视为《神雕侠侣》里的人物。

表1 金庸小说中角色分布情况表

在小说中,很多非常次要的人物也许只和主角产生过一定的关联,那么在他的关系网络中,主角的占比是非常高的,这很容易让模型误判为他和主角有相当的亲密的关系。因此,在小说社会网络中剪除这些噪声干扰对识别主人公的感情关系模式十分重要。如图2所示为《射雕英雄传》中人物分布柱形图。每个柱形代表一个人物的频数(为了图片清晰,横轴只显示了部分人物的名字),从图中可以看出各角色出现频数近似服从幂律分布,即除了主角及少部分重要角色有较高的频数外,部分角色的出现频数都比较接近,都处于中等水平,同时绝大部分的角色的频数都十分低,与主角相比,几乎可以忽略。

图2 《射雕英雄传》中人物分布情况

本文参考Alstott[20]等提出的验证幂律分布的方法对金庸14部武侠小说进行拟合实验。幂律拟合的参数结果如表2所示。其中x、alpha、sigma分别为幂律分布p(x)∝x-α的底数和指数以及拟合的标准差,xmin为拟合时x的最小取值。

表2 金庸小说中角色分布幂律拟合参数表

续表

结合Perkins[21]等指出有限网络上的随机游走的路径分布不止幂律分布一种,还存在着有限拉伸指数的路径分布的原则。我们同时对金庸14部小说用指数和拉伸指数拟合和幂律拟合做对比,不同拟合结果的对比结果如表3所示。R为两个候选分布的对数似然比,如果R为正,则数据更有可能在前一个分布中。如果R为负,则数据更有可能在后二个分布中,且R的绝对值越大,数据在相应分布中的可能性就越大。表3中R1指的是幂律拟合和指数拟合的对数似然比。R2指的是幂律拟合和拉伸指数的对数似然比,二者均是幂律拟合在前,另一种分布在后。不难看出幂律拟合是明显优于指数拟合的,且幂律拟合和拉伸指数拟合的效果较为接近。但是,整体来看依然优于拉伸指数拟合。

表3 幂律拟合与指数、拉伸指数拟合对比表

图3是以《射雕英雄传》为例作出的幂律拟合图。可见,幂律拟合的效果最优。结合表3的拟合结果参数对比,即有足够证据说明金庸小说的人物节点分布是呈现幂律分布规律。

图3 《射雕英雄传》人物分布拟合图

本文将14部金庸小说中人物出现的词频降序排列,所对应的序列号称为该人物的词秩。以词频的对数为因变量,词秩为自变量,分别做线性回归,回归的拟合优度均较高,且回归通过了P检验,同时残差也符合正态性检验,结果示例如图4所示。

图4 《射雕英雄传》人物词频—词秩线性回归图

基于小说中人物节点分布的幂律分布规律及人物节点词频—词秩指数分布规律,我们提出了提取小说社会网络中的主要节点,删除噪音节点的新模型。

由小说中人物节点的幂律分布规律和词频—词秩指数分布规律,如式(2)所示。

而由词秩和词频的关系,如式(3)所示。

比较式(4)和式(5),得到式(6):

令NTIFn=1,则有式(7):

其中,TF*为重要节点和噪音节点的词频临界值,k为人物节点线性系数。记TR为词秩,TFn为词秩为n的节点出现的词频数,NTIFn为同词频节点数。当NTIFn=1时,说明此时处于同一词频TF*的节点有两个。从这个节点开始,作者刻画的节点人物开始趋同,即作者已无足够的耐心去刻画边缘节点人物,词频小于TF*的节点人物均为不重要的节点,可以视为噪声干扰删去。由此,我们完成了剔除小说社会网络中次要节点,重组新的基于主要人物节点的小说社会网络的工作。

2.3 小说人物关系的识别

众所周知,武侠小说中,人物之间的关系主要有父母子女、师徒、爱情(包括恋爱、暗恋)、仇敌等。本文将传统的贝叶斯决策理论应用于识别小说社会网络中人物节点之间的关系[22]。即假设武侠小说中的关系的集合为W,a、b为小说中任意两个角色,他们之间的关系用wi表示,其中a≠b,wi∈W。则可以得到以下两个推论:

推论1若a、b同时出现的概率为P(ab),某种关系wi出现的概率为P(wi)。则a、b的关系为wi的概率,如式(8)所示。

具体的做法是基于人工标注建立关系的标志语词典,在小说社会网络中以关系wi的标志语出现频率作为概率P(wi)的模糊估计,同时以角色a、b共同出现的频率作为概率P(ab)的模糊估计。其中,关系标志语词典的建立主要基于NTUSD情感词典。在其表示正向情感的词典中人工挑出与亲情、爱情等相关的词汇,在其表示负向情感的词典中人工挑出与仇敌关系相关的词汇,结合金庸小说文本语言特征,构建了表示亲情关系、师徒关系、爱情关系和仇敌关系的四类标志语词典其中每种关系的标志语分别为1 365个、896个、1 420个和933个。

2.4 小说人物复杂爱情模式的识别

在小说人物关系识别的基础上,本文选择了其中围绕主角的且识别为爱情关系的人物节点,组成小说爱情社会网络,进一步分析金庸武侠中主角的复杂爱情模式。爱情模式复杂之处在于,其所面临的具体情况包罗万象。从爱情的双方行为出发,有单恋(暗恋)、恋爱(双方互相喜欢彼此)、多角恋;从爱情的时间点出发,则有从一而终的爱情、半路出家的爱情;从爱情的表现形式来看,则有青年情侣、中年夫妻、老年夫妻等,这些在小说中的表现形式和描写手法都各有差异,也会对计算机识别爱情模式造成困扰。

本文对主角复杂爱情模式的识别实质上是一个人物关系识别的问题,即在小说社会网络中识别出与主角产生恋爱关系的人物,这里的恋爱关系包括单恋和多角恋的情况。为了更简洁地说明问题,给出如下定义:

定义1定义集合V*为小说爱情社会网络中所有人物角色节点v的集合,集合E为小说中所有人物恋爱关系e的集合。

利用亲密度函数(1),不难看出,若γ为角色之间的单向情感强度,如式(9)所示。

同时为了更好地描述主角与人物之间的单恋和恋爱关系。基于此,本文给出如下定义:

推论4若Гab和Гba在存在时,且同时存在 Гtia或 Гtib,则a、b、t1、t2、…、ti-2为i人复杂爱情模式。

推论5若Гab和Гba同时存在,则称角色a,b互相喜欢,他们之间存在恋爱模式。

推论6若存在Гca或Гcb,且Гab和Гba同时存在,则a、b、c之间是典型的三人复杂爱情模式,其中c为暗恋者。

推论7若存在Гda或Гdb,且Гca或Гcb,Гab和Гba同时存在,则a、b、c、d为典型的四人复杂爱情模式。

依据以上推论,本文便可以较好地识别出与主角存在爱情关系的人物角色中,不同人物对主角的喜爱程度以及主角对他们的喜爱程度,由此可以构建识别和分析小说中主角复杂爱情模式的综合模型。

3 实验结果及分析

在本文实验中,我们依据金庸小说人物姓名词典,将同时存在于该词典和每部小说中的人物识别出作为小说社会网络的节点,并在简化小说社会网络中先利用小说人物的关系判别模型识别出存在爱情关系的人物节点。然后,利用人物节点之间的亲密度函数和推论3分析出围绕主角的人物节点的单恋模型。再通过推论4得出人物之间的多人复杂爱情模式,即在社会网络图中由主角出发的单恋模型和指向主角的单恋模型。

3.1 实验数据及评价指标

本文的实验数据为金庸的14部小说(“飞雪连天射白鹿,笑书神侠倚碧鸳”)均来自金庸网。金庸网是国内著名的金庸研究数据库,内含金庸的所有长、中、短篇小说、以及各小说中人物及其关系等数据,可以作为本文识别结果正确与否的对照标准。对于语料的加工,我们的主要做法是将附在小说后面与小说内容无关的文学评论内容加以去除,同时把每本小说的章节、段落划分格式统一,并将他们转化成纯文本文件格式方便处理。实验所用的金庸14部小说中长篇小说有12部,中篇小说2部。篇幅最长的为《天龙八部》和《鹿鼎记》,均为370万字节左右,最短的为《鸳鸯刀》,约为10万字节。14部小说共2 500多万字节,包含人物1 362人,平均每部小说约有180万字节,包含97人。

本文对实验结果的评价指标主要有精确率和召回率以及F1-Score,精确率在本文中的定义为“模型识别出的处于围绕主角的复杂爱情模式的人物节点数与识别出的总人物节点数的比率,即查准率”,召回率在本文中的定义为“模型识别出的处于围绕主角的复杂爱情模式中的人物节点数与所有处于围绕主角的复杂爱情模式的人物节点数的比率,即查全率”。F1-Score则为精确率和召回率的调和平均数。

为了更好地评估模型识别结果的有效性,本文参考了目前研究金庸小说人物关系中较为权威的倪匡先生的著作《金庸笔下的的男女》,以及部分涉及金庸小说人物关系的文学评论研究中提及的人物爱情关系作为识别准确与否的对照标准。目前,文学评论研究认为的金庸小说中与主角具有复杂爱情关系的人物如表4所示。

表4 主角复杂爱情模式人物对照表

续表

3.2 实验过程及分析

3.2.1 中心节点的识别及简化

在本文的实验中,我们对于小说社会网络的中心节点,即小说主角的识别是依赖于社会网络中人物节点度的,取节点度最高的节点作为主角。在对小说社会网络简化的实验中,我们根据模型(2),完成了对金庸14部武侠小说的次要节点删除工作,实验结果如表5所示。根据表5,对比计算机识别出的14部小说主人公与现有文学评论研究认为的这些小说的主人公,可以发现二者之间差距不大。因此,我们认为将节点度最高的人物角色当作小说主人公的方法是可行的。图5所示的左图是《射雕英雄传》中精简后的社会网络节点分布图,右图是局部放大图。通过对比小说社会网络精简前后的节点总数,可以发现利用模型(8)可以有效剪除边缘人物,简化小说社会网络,有效去除对小说社会网络研究中的噪声干扰,并在一定程度上克服了长篇小说人物数量多、关系复杂的处理难点。

图5 简化后的《射雕英雄传》社会网络关系图

表5 金庸小说主角识别及社会网络精简前后对比表

续表

在本文对主角复杂爱情模式的识别的实验中,我们分别选用“亲密度函数”模型和增加了贝叶斯关系识别的综合模型以识别围绕主角的复杂爱情模式,结果如表6所示,其中粗体为识别正确的人物,斜体为识别错误的人物。可见,亲密度函数模型识别出的都是小说中与主角关系较近的人物节点。例如,《雪山飞狐》中识别出的三个人(胡夫人、苗人凤、平阿四)分别是主人公胡一刀的妻子、对手和其儿子的养父,均是小说中与其关系密切的人物。如图6所示,其中横轴1~14的数字分别代表《飞狐外传》《雪山飞狐》《连城诀》《天龙八部》《射雕英雄传》《白马啸西风》《鹿鼎记》《笑傲江湖》《书剑恩仇录》《神雕侠侣》《倚天屠龙记》《碧血剑》《鸳鸯刀》,综合模型识别结果明显优于亲密度函数识别结果。其中,在识别的精确率上综合模型的表现远远好于亲密度模型,而在识别的召回率上二者平分秋色。其很大的原因在于综合模型的识别结果是在关系模型的基础上,再衡量他们与主角的亲密度所识别得到的,自然能够排除一些与主角亲密度很高且是非恋爱关系的人物节点,比如,父母、师父之类的节点。我们注意到单从召回率而言, 亲密度模型与综合模型没有太大差异,而且识别的完整性都较高,这也在一定程度上反映了金庸武侠在剧情设计上的一个特点,主角的爱情关系占主角的亲密关系的很大一部分。此外,观察综合模型在各部小说识别结果的精确率与召回率,我们发现综合模型的准确率已经达到较高水平,而召回率则在不同小说中参差不齐。即在某几篇小说中,综合模型没有识别出与主角产生恋爱关系的所有人物节点,一个典型的例子是,《神雕侠侣》中的公孙绿萼作为深爱主角杨过的代表,为杨过而死,然而综合模型并未识别出该人物。我们认为这是小说情节的时间序列特征导致的,部分与主角存在恋爱关系的人物节点只在书中的部分章节中出现,从而导致基于全文分析的综合模型的失效。为此,本文在综合模型的基础上引入了变尺度窗口的方法,从而提高识别结果的召回率。

表6 亲密度模型与综合模型识别结果对比表

图6 两种模型精确率和召回率对比图

3.2.2 基于变尺度窗口的复杂爱情模式的识别

在基于变尺度窗口的复杂爱情模式识别实验中,我们将小说文本根据章节均分为几个部分。即按照文本长度的二分之一、三分之一等设置窗口依次做实验,以此来确定最佳的窗口长度,使得识别结果的精确率和召回率均达到较高水平。实验结果如图7所示,横轴的1、2、3、4、5分别代表窗口长度为全文、全文的二分之一、三分之一、四分之一、五分之一,可以看出随着窗口长度的逐渐减小,识别的完整性,即召回率在不断上升,而识别的精确率则在不断下降。值得注意的是,在窗口长度为全文(即没有加窗口)到全文的三分之一的区间内,精确率只有略微的下降,而此后的窗口长度缩小为全文的四分之一和五分之一时,精确率才出现明显的下降,召回率则与之相反。

图7 综合模型识别的精确率和召回率随窗口长度变化图

我们认为随着窗口长度的不断减小,即模型的识别范围从全文到局部章节时,那些隐藏在某些局部章节中的人物节点与主角的接近中心性会得到放大,随之带来的是只在部分章节中出现的,并与主角存在复杂爱情模式的节点也能被识别出来。例如,《神雕侠侣》中的公孙绿萼,在窗口长度设为全书的三分之一时,便被模型识别出与主角存在单恋模式,这与其在全书中出现的章节长度也是吻合的。当然,由于有些节点只在某些章节出现,且只与主角等少数几个人存在关联,随着窗口长度的缩小,这些人由于和在局部主角过高的亲密度也会被模型误认为是主角恋爱关系中的一员。典型的例子是在窗口长度缩小为全书的五分之一后,《倚天屠龙记》中主角张无忌学医的师父也被识别成了与主角单恋模式。总之,随着窗口长度的不断小,模型识别的召回率会不断上升并逐渐趋于稳定,而精确率则会一开始比较平稳,在某一个阈值之后开始比较快速的下降。经过本文实验,我们发现对于金庸的武侠小说,将窗口取为全书的三分之一的长度是比较适宜的,此时的精确率和召回率都在较高水平。将窗口长度取为三分之一的识别结果如表7所示,其中第二列为参考了文学评论研究得出的金庸原著中与主角存在复杂爱情关系的所有人物;第三列为已识别人物,识别正确的人物用黑体表示,识别错误的人物用斜体表示。根据以上二者结合第四列和第五列,不难计算出识别结果的召回率与准确率。容易看出,模型未能识别出的与主角存在复杂爱情模式的情况,仅有《鹿鼎记》中的苏荃和曾柔以及《神雕侠侣》中的洪凌波,识别错误的仅有《神雕侠侣》中的李莫愁以及《碧血剑》中的安大娘,很好地验证了综合模型的有效性和准确性。我们认为,对于未能识别出的人物节点,大概率是由于其在书中节点度较低,例如,《鹿鼎记》中的曾柔甚至被当作噪音节点删除了。而识别错误的人物节点都是和与主角存在恋爱关系的节点较为接近的或者与主角较为接近。《神雕侠侣》中的李莫愁的两个徒弟均暗恋主角杨过,其四人均共同出现在小说很长一段篇幅中。而《碧血剑》中的安大娘则是主角袁承志童年时青梅竹马的玩伴,且长大后也有一些情愫,只是目前官方不认为这二人存在恋爱关系。

表7 窗口长度为全文三分之一的综合模型识别结果

续表

此外,为了说明模型的鲁棒性,我们对古龙具有代表性的7部作品: 《楚留香传奇》《多情剑客无情剑》《武林外史》《萧十一郎》《天涯·明月·刀》《三少爷的剑》《陆小凤传奇》进行了辅助实验,实验结果的综合模型精确率为83.3%。其中《多情剑客无情剑》《三少爷的剑》和《萧十一郎》中与主人公有恋爱关系人物均被正确识别出,一定程度上证明了模型的适应性。而模型识别精确率略低于金庸小说,我们认为较大原因是由于二者写作风格差异所致。古龙往往将主角设定为多情浪子,在书中与很多次要人物都产生了一定的爱情纠葛。比如《陆小凤传奇》中,主角陆小凤与只出现在部分章节的妓女和厨女均会有爱情关系,这些我们的模型未能识别出来。这也是我们下一步工作重点之一,即融入写作风格的小说人物爱情关系的识别。

4 结论

本文将复杂网络的分析方法应用于中长篇小说的人物关系识别任务中。研究中我们发现金庸武侠小说的社会网络中人物节点呈现出典型的幂律分布规律,并基于此构建了一种简化小说社会网络的通用模型。通过提出判断小说社会网络人物节点之间接近中心度的亲密度函数以及小说社会网络人物节点之间关系的身份判别模型,构建了用于识别金庸武侠小说主角的复杂情感模式的综合模型。实验结果表明,简化的小说社会网络模型对剔除噪音节点干扰十分有效,综合模型在识别主角的复杂爱情模式时准确率也达到了较高水平。同时,由于本文的模型对文本长度、人物关系复杂度和情节的时间序列特征均具备较好的鲁棒性,因此对其他长文本小说的关系抽取与识别均有一定借鉴意义。

另外,本文提出的复杂爱情模式识别框架可以支持一些实际应用系统的研发。例如,判断小说精彩性和小说内容个性化推荐的图书决策支持系统等。

猜你喜欢

幂律金庸爱情
《甜蜜蜜》:触碰爱情的生存之歌
不谈爱情很幸福
大数据时代下幂律分布在医学领域中的应用价值
基于幂律分布的房地产泡沫破裂风险预警研究
为金庸因一错字查证道歉叫好
谁是金庸小说第一情圣
金庸的财富江湖
幂律流底泥的质量输移和流场
在热爱的事情上冒险
爱情来了