基于Prefuse和社会网络算法的信息检索学科合作网络研究
2012-04-29唐蓓夏秋菊
唐蓓 夏秋菊
摘 要:通过构建基于Prefuse的知识图谱系统框架,在此框架基础上采用社会网络算法构建信息检索学科合作网络知识图谱并进行了分析。发现信息检索研究人员在高产、高被引和高合作群体中不存在很强的一致性。合著网络中形成以Zhang, L、Sprink, A和Schacter, DL为中心的最大规模科研群体,以Tulving, E和Cabeza, R为代表的凝聚力最强的合作群体。
关键词:Prefuse 社会网络 知识图谱 信息检索 合作网络
中图分类号: G254.9文献标识码: A 文章编号: 1003-6938(2012)05-0079-06
近年来,随着多种知识图谱分析工具的出现,一些研究者利用知识图谱软件(主要是CiteSpaceⅡ)对信息检索学科进行了分析,如Rorissa A和Yuan X(2011)在2000~2009年数据的基础上用CiteSpaceⅡ对信息检索学科进行知识图谱构建和学科分析[1];国内同样有学者利用该软件对信息检索的子领域进行分析,但这些研究存在数据源时间跨度短、在一定程度上依赖于知识图谱软件的功能,而且未对信息检索学科合作网络进行分析研究。通过上述考虑,本文尝试一种新的知识图谱框架,基于该框架通过社会网络算法构建信息检索合作网络并进行解读,以便为国内外从事信息检索研究的有关学者提供参考借鉴。
1 基于Prefuse的知识图谱系统设计
2005年,Heer J、Card SK、Landay JA三人共同撰文提出了Prefuse的信息可视化框架[2]。Prefuse为数据建模、数据可视化以及用户交互提供了丰富的软件库,可以支持表格、图和树显示,还具有支持动态显示、动态查询等功能。Prefuse基于传统的MVC架构进行开发,其可视化时需要经过如下处理过程[3]:
(1)抽象数据(Abstract Data)。Prefuse对数据进行可视化的首要步骤是获取数据,并为数据提供了指定的接口和程序,可以显示表、图和多种树形结构。本文主要使用XML格式的数据,通过把数据转化成XML格式,如DOITrees、GraphML、TreeML格式,完成抽象数据的处理过程。
(2)数据过滤(Filtering)。主要是将抽象数据进行提取、转化,使其适用于显示。首先选取要进行可视化的一系列元素,如一个图形或显示在散点图上的重点区域。然后形成一些可视化的属性(称为VisualItems),如源数据中显示的文字、数字,显示时的坐标点、颜色、大小等等。然后通过Action提供为上层组件。
(3)数据渲染(Rendering)。即图形绘制的过程,可视化元素(VisualItems)通过渲染器(Renderers)绘制到屏幕上,其中用到上面形成的组件如颜色、位置、大小等等。Prefuse实现了一些基本渲染器,通过渲染器工厂RenderFactory进行管理。
(4)交互显示(Interactive Display)。功能由Display组件完成,用于显示ItemRegistry中注册的组件。可视化交互功能通过ControlListener接口实现,主要是提供对鼠标、键盘的监听功能。
本文通过对数据的预处理、数据抽取、矩阵形成,进行聚类或社会网络以后,把生成结果转化成Prefuse可支持的TreeML、GraphML格式,借助Prefuse可视化框架,完成聚类显示、社会网络显示的功能。
2 信息检索学科分析的知识图谱构建
2.1 数据源获取
本研究数据来源于Web of Science的SCI-EXPANDED、SSCI、A&HCI、CPCI-S、CPCI-SSH数据库,用“Information Retriev*”作主题检索,检索时间选择20世纪50年代至今(截止至2011年11月25日),词形还原打开,得到的检索结果共计46561条记录。以此作为构建信息检索学科知识图谱的数据集,以下简称为“数据集”。
2.2 数据处理
(1)提取作者数据。在原数据库中,通过数据表paper的“authors”字段,可以获得每篇文献的作者数据,在作者字段中,为方便去重和区别不同作者,每个作者姓名以数据集中提供的全名进行表示,当文献是合作文献时,作者之间以分号进行分隔。选择paper的“authors”字段的所有数据,通过编程对获取的每个作者条目进行切分,从而得到所有作者数据。
(2)构建合作者对应关系。建立表author_author,其中包括两个字段“firstauthor”和“secondauthor”。通过处理,共得到548,182条作者与作者对应数据。在构建“作者——作者”对应表时,第一作者与第二作者及其他作者不分权重,即所有作者的重要程度相同。构建作者与作者对应关系表时,通过对步骤一获得的每一条合作者数据进行遍历,得到作者与作者对应关系。
(3)生成合作者数据。对表author_author中的数据,根据“firstauthor”字段进行分组合并,对“secondauthor”进行合并,合并过程中剔除重复元素,“secondauthor”对应数据以分号进行连接,同时统计出每个作者的合作次数,然后将合作者数据插入表coauthor中。
处理完成后,共得到96,778个作者的合作者信息,其中与其他作者合作频次最高的为Bryant, Stephen H.,合作频次为245。与其他作者合作频次达到200次以上的作者共22人(见表1)。
2.3 合作者网络构建
由于本文的研究重点是确定合作者中的团体和其研究内容,所以文中采用无向无权网络,构建过程如下:
(1)定义社会网络数据结构。合作者网络的定义包括节点、边和社会网络三个部分。节点包括aid和aname两个字段,为网络中最基本的构成元素,由类Node表示;边由节点和与该节点关联度为1的节点的集合构成,其中与该节点关联的节点数即为该节点的度,由类Edges表示;社会网络由节点的集合和边的集合两部分构成,其中社会网络还可以获取子网络,由类SocialNetwork表示(见图1)。
(2)构建合作者网络。合作者网络的构建根据数据库中的合作者表coauthor和作者文献产量表author_paper进行构建,合作者网络的节点基于合作者的合作频次和每一位作者的文献产量进行选择,然后根据其合作情况提取边信息。在coauthor表格中有96,778条合作者信息,表author_paper中存储有数据集中所有作者的文献产量信息,共100,985条。
由于本文的研究目的是提取代表性的合作者社团及其研究方向,所以在合作者数据中作者提取了合作频次超过53的前300条合作数据;另一方面,为了减少网络复杂度高从而导致信息表征的不足的影响,仅提取文献产量在10以上的作者,共407位高产作者。
以上步骤具体由类SocialNetworking完成(UML结构见图2)。通过合作者网络构建,共得到142个节点和71条边。
(3)获取合作者群体。在得到的合作者网络中,每个子网络代表一个合作群体,通过获取子网络,可以得到合作者网络中最大合作群体以及其他合作群体。通过对各群体中的节点数、各节点的度、以及作者、作者发表的文献特征进行提取,可以获得各个合作群体的研究重点、研究特征等特性。
本文对合作群体的获取,通过社团结构搜索算法进行,算法具体在SocialNetworking类的getSubNetWorkNodes方法完成,经过对合作者网络的合作群体进行搜索,共得到21个合作群体,节点数最多的合作群体包括45个节点,节点数为22的群体有1个,节点数为11的群体有2个,节点数为5的群体有2个(见表2)。
[子网节点数\&45\&22\&11\&5\&4\&3\&2\&\&子网数\&1\&1\&2\&2\&2\&9\&4\&共计21个\&][表2 合作群体数及相应节点数]
2.4 知识图谱生成
对社会网络的可视化基于GraphML文件和Prefuse可视化框架进行。首先需要把上一步生成的合作者网络转化为进行可视化的GraphML文件,然后通过Prefuse框架提供的可视化接口,对GraphML进行读取、渲染以及最后的展示。详细流程为:
(1)生成可视化表征文件。采用GraphML进行图形描述。GraphML格式最初由GML转化而来,符合XML语言规范。通过编程将得到的合作者网络数据进行转化,转化为GraphML格式的文档(结构见图3)。
(2)知识图谱显示。生成代表类别的GraphML文件以后,就可以通过Prefuse所提供的可视化组件进行图谱显示了,完成信息检索合作者网络的知识图谱绘制。
从整个合作者网络图(见图4)可以看出整个网络图可以分为不同的子图,对其中各个子图的节点分布并不均衡,最大的子图有45个节点(见图5),位于图中央,依次是有22个节点的子图(见图6),最小的子图仅仅2个节点,位于整个图的边缘。
3 信息检索合作网络知识图谱的解读
3.1 整体合作网络特性分析
其中,fj表示合著者人数为j的论文数;N表示论文总数,k表示合著者人数的最大值。
经过统计,在得到的46,561条数据中合著文献数达到38,506条,占文献总数的82.70%,所以合著率为82.70%。其中合著人数最多的文献有54个作者,合作者人数分别为2人、3人和4人的文献数及所占合著文献比例如表3所示,这三种情况共占合著文献的79.13%。通过计算得到其合作指数CI为2.99,说明篇均作者2.99人。
3.2 最大子网络分析
针对合著网络中的节点最多的两个子网络进行具体分析,包括节点的度分析和子网络中的合著子群分析。
通过编程统计,得到两个子网络中每个节点的度,表4显示了节点数为45和22的子网络中度数较高的前10为作者。
图7中以径向图形式显示了节点数为45和22的合著网络子图,结合表4,可以从图中直观的看到以Zhang, L、Sprink, A和Schacter, DL为中心,组成了网络中规模较大的科研群体。节点数为22的子图中形成了整个网络中节点数最多、边最为密集的凝聚子群,在这个凝聚子群中,节点度数最少的是Kohler, S和Markowitsch, HJ,度值为3,Tulving, E和Cabeza, R节点度值最大为9,共有10个节点,平均节点数为6.2,该凝聚子群是信息检索领域凝聚力最强的合作群体,是信息检索研究的重要科研群体。
[节点数为45的子网络\&节点数为22的子网络\&节点姓名\&节点度\&节点姓名\&节点度\&Zhang, L\&8\&Cabeza, R\&9\&Spink, A\&8\&Tulving, E\&9\&Zhang, Y\&6\&Houle, S\&9\&Huang, HL\&6\&McIntosh, AR\&8\&Li, J\&5\&Schacter, DL\&7\&Ma, WY\&5\&Craik, FIM\&6\&Zhang, J\&4\&MOSCOVITCH, M\&5\&Liu, Y\&4\&Nyberg, L\&5\&Chen, J\&4\&Nilsson, LG\&5\&Zhang, HJ\&3\&Rugg, MD\&4\&][表4 节点数为45和22的子网络
中度数较高的前10为作者]
3.3 合作网络研究者分析
评价科学家在网络中的地位及其影响力通常有:发表文献数、文献被引次数、度值、中间中介数等指标。本文选用发表论文数、作者被引次数和节点度值三个指标。 表5显示了发表论文数、作者被引次数和作者节点度值较高的研究人员,通过表格可以看出,Sprink A发表论文数和网络中的节点度值都位于前列,Tulving E的作者被引次数和节点度位于前列,其他的28位研究人员并不存在同时在高产、高被引和高合作群体同时出现的情况,所以通过表格可以反映出信息检索研究人员在高产、高被引和高合作群体中不存在很强的一致性。
[作者\&产出\&作者\&被引次数\&作者\&节点度数\&Chen, HC\&60\&Salton G\&4145\&Cabeza, R\&9\&Spink, A\&54\&Tulving E\&1494\&Tulving, E\&9\&Zhang, J\&42\&Baezayates R\&1084\&Houle, S\&9\&Crestani, F\&39\&Belkin NJ\&1054\&Zhang, L\&8\&Schacter, DL\&38\&Vanrijsbergen CJ\&965\&Spink, A\&8\&Del Bimbo, A\&36\&Deerwester S\&767\&McIntosh, AR\&8\&Jarvelin, K\&35\&Robertson SE\&717\&Schacter, DL\&7\&Snasel, Vaclav\&35\&Squire LR\&633\&Zhang, Y\&6\&Zhang, HJ\&33\&Porter MF\&569\&Huang, HL\&6\&Rugg, MD\&32\&Anderson JR\&558\&Craik, FIM\&6\&][表5 发表论文数、作者被引次数和节点度值统计表]
4 结语
本文主要对信息检索领域的合作网络进行知识图谱构建和解析。通过数据预处理提取构建合作者网络的合著数据,然后通过社会网络算法构建合作网络,再通过编程将网络转化为GraphML格式的文件,提供给Prefuse可视化接口进行知识图谱显示,完成合作网络的知识图谱构建。在此过程中自行实现社会网络算法,实现合作者网络的提取。借助构建知识图谱和数据统计,对信息检索的合作网络进行分析,分析了合作网络的整体特性、最大的两个合作者网络、凝聚性最强的合作网络,然后对信息检索的合作网络研究者与高产作者和高被引作者进行了综合分析。
参考文献:
[1]Rorissa A, Yuan X. Visualizing and Mapping the Intellectual Structure of Information Retrieval[J]. Information Processing and Management, 2011,(48):120-135.
[2]Heer J,Card SK, Landay JA. Prefuse: A Tookit for Interactive Information Visualization[C].CHI,Portland, 2005:
421-430.
[3]Chu H. Research in Image Indexing and Retrieval as Reflected in the Literature[J]. JASIST, 2001, 52(12):1011-1018.
[4]刘鹏.科研合作复杂网络模型的研究[D].广州:暨南大学信息科学技术学院数学系, 2011.
[5]Suyeon Kim, Euiho Suh, Hyunseok Hwang. Building the knowledge map:an industrial case study[J].Journal of
Knowledge Management,2003,7(2):34-45.
[6]Ding Y, Yan E, Frazho A etc. PageRank for Ranking Authors in Co-citation Networks[J].Journal of the American Society for Information Science and Technology,2009, 60(11):2229-2243.
[7]林莉. 科研论文合著网络结构与合作关系研究[D].长春:吉林大学社会医学与卫生事业管理, 2010.
[8]李亮,朱庆华. 社会网络分析方法在合著分析中的实证研究[J]. 情报科学,2008,26(4): 549-554.
[9]张英杰,冷伏海. Twitter类网站微信息组织及用户关系网络研究[J].图书情报工作,2010,54(16):116-119.
[10]Hsinchun Chen[EB/OL].[2012-03-20].http://en.wikip
edia.org/ wiki/Hsinchun_Chen.
[11]王知津等. 十五年来我国网络信息检索研究述评[J]. 情报科学,2004,22(4):385-389.
[12]王智红等.近十年来我国网络信息检索研究主题分析[J].情报杂志,2009,28(7):1-6.
作者简介:唐蓓(1979-),女,硕士,上海工程技术大学图书馆馆员,研究方向:信息可视化;夏秋菊(1985-),女,硕士,上海工程技术大学图书馆助理馆员,研究方向:知识管理。