基于共现和关联挖掘的人物关系图构建过程
2019-05-24李娇曹晖李倩
李娇 曹晖 李倩
摘 要:共现分析就是利用共同出现的关键词来反映两者之间的亲疏程度。文章研究的是按段分词来提取关键词的词频。两个关键词在同一段中出现的次数越多,它们之间的联系越密切,与反映的主题内容越密切。通过给出的关键词挖掘出频繁项集,然后发现它们之间存在的关联规则。
关键词:共现分析;词频;频繁项集;关联规则
1 研究现状
1.1 国外研究现状
共现分析在国外已经相当成熟了,最初是由法国文献计量学家提出来的[1],发展至今差不多有50年了。起初主要应用于文献计量、图书情报学等领域,随着共现分析的发展成熟,20世纪90年代,共现分析应用的范围越来越细化,参与的学科越来越多,成果也越来越突出[1]。
1.2 国内研究现状
相较于外国,国内起步比较晚,共现分析发展的分界点在2007年,在此之前共词的文献量较少,2007年之后得到了蓬勃发展[1],尤其是在情报学领域,如《情报杂志》《情报科学》和《图书情报工作》这些期刊。
2 研究对象、目的和意义
2.1 研究对象
本文选取的研究对象可以是任意一本小说,从网络上下载电子版,将文本中所有的人名摘取下来,做成自定义词典,以备后来分词时使用。选取的小说人物越多越好,因为人物众多,关系错综复杂,对于喜欢的读者来说,通读全文耗时较长,所以用计算机的方式分析全文,找到人物间的关联。通过共现分析研究文章中人物与人物之间的联系,进一步地挖掘出不同人物的社交圈。
2.2 研究目的和意义
使用共现的方法得出的人物关系图可以帮助读者理清著作中的复杂人物关联,更好地阅读和理解作品;用共现分析方法研究人物关系,由可视化软件呈现出的人物关系图更加直观,它抛开人们的主观判断,以数据的大小为分析依据来说明人物之间的亲密程度。
3 使用的工具和方法及构建过程
3.1 使用的工具和方法
在这里,笔者选用的编程语言是python语言,python语言简单,可移植性强,没有框架。使用的中文分词工具是jieba分词,jieba的分词功能强大而且好用。用到的方法有共词分析、聚类分析和关联规则。在进行聚类分析时可以使用SPSS绘制图谱,在最后图形可视化用到了可视化软件Gephi。
3.2 人物关系图的构建过程
对于共现分析的分析流程,这些步骤并非固定的,可根据研究對象和目标有选择地省略或重复[2]。基于共现人物关系图谱流程如图1所示。
如果有两个关键词出现在整个文本的某一段落中,说明这两个关键词之间有联系,可能关系比较密切,也可能关系较其他关键词疏远一点,所以,可以按照图1的流程最终绘制出人物关系图,最后,对数据的分析结果进行合理的可视化表达。
3.2.1 确定高频词
将小说中所有人物放在文本文档中保存,从这些关键词中确定高频词,主要是根据自己的经验进行选取,具有一定的主观性[3]。
3.2.2 设计共词矩阵
对关键词的共词频率进行统计,设计共词矩阵。对于所有的关键词进行两两组合并排序,最后所有的数据合并到一起,并去掉单个数据。在设计共词矩阵的时候,可以选择使用Excel构建共词矩阵。Excel作为统计学软件,具有这个功能。将上一步得到的高频词对复制到Excel中,使用Excel中的数据透视表功能即可获得共词矩阵。Excel表有个优点,就是可以手动添加,使得出的数据更精确[4]。
3.2.3 共词聚类分析法
对共词矩阵进行处理,揭示共词信息。聚类分析分为Q型观测值聚类和R型变量聚类。R型变量聚类主要是对相关系数进行的聚类。聚类分析时可以选择统计学软件SPSS,将Excel中得到的共词矩阵导入SPSS中。对变量进行标准化以求得相似程度,利用Ochiai系数将共词矩阵转化为相关矩阵,利用Ochiai系数求出该矩阵的相关系数,相关系数越大的变量相似性越高。根据置信度c将相关关键词归为一类。c的值越大,相关关键词越多。R型聚类按层进行聚类,将相关关键词进行聚类,最后再把整个分类绘制成一张关系图,用关系图把所有的关键词间的亲疏关系表示出来[5]。
3.2.4 关键词间的距离计算
另一种方法根据距离求得变量间的相似性,关键词间的距离越小越具有相似性。在计算name1与name2之间的词距的时候,可以选用欧氏距离计算公式,二维空间的计算公式如下:,|X|=。其中,ρ为点(x2,y2)与点(x1,y1)之间的欧氏距离;|X|为点(x2,y2)到原点的欧氏距离。即对人物关系图中的节点中心度的研究,从人物关系图中研究单个节点在人物图中的位置,找到节点中心度,研究他们的共现强度以及跟整个文本的密切度。
4 图谱绘制
使用可视化软件Gephi绘制人物关系图谱。将统计出来的关键词词频导入可视化软件Gephi中,进行可视化绘图,图可以放大或者缩小。假设我们想要了解这部作品中图的节点特征向量中心度,找到这部作品中最关键的话题人物,围绕着谁展开的故事情节。其次,可以将图中节点以节点大小来排序,以分清全体人物的主次,与主题内容联系的亲疏远近程度。再者,对图进行归类分割,用过滤工具将值相同的节点或者边用不同的颜色标出来,为了分辨出同样词频的关键词哪个是哪个,不致混淆。改变斥力强度来改变边的长短,选中显示标签即可。最后预览,将图进行美化和修改,再将图可视化的结果输出[6]。
5 关联分析法
关联规则即关键词A的出现对于关键词B的出现的影响,从而发现两者之间有趣的关系。支持度和置信度是评价关联规则的标准[7]。
对于关联规则挖掘使用的方法如图2所示。
以一个包含A与B两个关键词的二项集为例,可以通过公式求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度门槛值时,则{A,B}称为高频项目组。最小支持度是自己给定的。本论文研究计算频繁3项集(name1,name2,name3)的支持度,以此来找到大于等于最小支持度的高频项目组。
置信度的公式求解,以频繁二项集{A,B}为例,置信度confidence(A=>B)=p(B|A)。通过这个公式计算频繁项集的置信度。本论文通过计算频繁3项集的支持度和置信度,是否满足最小支持度和最小置信度,来判定它们之间是否具有关联规则[8]。
将所有的关键词放入数据库中,使用先验算法第一次扫描数据,产生候选项集,每个关键词都是候选项集,对每个出现的关键词进行计数。设定最小支持度阈值,确定频繁一项集,假设频繁1项集的集合为C1。再次扫描数据库,为了挖掘出频繁2项集,将频繁1项集的集合C1进行连接,得到频繁2项集的集合C2,计算频繁2项集的支持度,并与最小支持度比较,将没有候选的关键词从集合C2中删除,剩下的都是符合的。同样的,第3次扫描数据库,将频繁2项集的集合进行连接,然后剪枝,得到频繁3项集。
得到的频繁3项集可以产生很多关联规则,但只有满足最小置信度阈值的才是强关联规则,由它们直接产生强关联规则[9]。
6 结语
共现分析在中国起步较晚,应用于文学作品构建人物关系图更是晚很多年。本论文研究的构建小说或者剧本的人物关系图,将共现与数据挖掘中的关联规则相结合,不仅构建人物关系图,也通过数据挖掘中的关联规则挖掘出了频繁项集是否满足关联规则[10]。
共现分析在各个领域已经有了很好的发展,希望自己能从这个领域中收获一些知识,也希望自己在学的时候能够发现一些别人还没发现的东西,为学术界作一些贡献。
將关联规则应用于剧本人物中是一个不错的主意,发现人物间的频繁项集,找到一些有趣的关联规则。
[参考文献]
[1]李颖,贾二鹏,马力.国内外共词分析研究综述[J].新世纪图书馆,2012(1):23-27.
[2]王红.国内外共词分析法的研究现状[J].农业图书情报学刊,2015(1):51-54.
[3]傅柱,王曰芬.共词分析中术语收集阶段的若干问题研究[J].情报学报,2016(7):704-713.
[4]CHOI J,YI S,LEE K C.Analysis of keyword networks in MIS researchand implications for predicting knowledge evolution[J].Information & Management,2011(8):371-381.
[5]叶鹰,张力,赵星,等.用共关键词网络揭示领域知识结构的实验研究[J].情报学报,2012(12):1245-1251.
[6]肖伟,魏庆琦.学术论文共词分析系统的设计与实现[J].情报理论与实践,2009(3):102-105.
[7]魏瑞斌.国内知识图谱研究的可视化分析[J].图书情报工作,2011(8):126-130.
[8]ZHU W, GUAN J.A bibliometric study of service innovation research: based on complex network analysis[M].Springer-Verlag New York,2013.
[9]BHATTACHARYA S,KRETSCHMER H,MEYER M.Characterizing intellectualspaces between science and technology[J].Scientometrics,2003(2):369-390.
[10]马费成,望俊成,陈金霞,等.我国数字信息资源研究的热点领域:共词分析透视[J].情报理论与实践,2007(4):438-443.