APP下载

计算机科学领域作者合作网络及其分析

2010-11-02丁德武须文波

池州学院学报 2010年6期
关键词:介数度值论文

李 慧,丁德武,须文波

(1.江南大学 a.财务处;b.信息工程学院 江苏 无锡 214122;2.池州学院 数学计算科学系,安徽 池州247000)

计算机科学领域作者合作网络及其分析

李 慧1a,丁德武1b,2,须文波1b

(1.江南大学 a.财务处;b.信息工程学院 江苏 无锡 214122;2.池州学院 数学计算科学系,安徽 池州247000)

对作者合作网络的实证分析是当前情报学等领域的一个热点问题。本文运用复杂网络方法研究了计算机科学领域的作者合作网络。对2005年1月至2008年12月间一计算机杂志上的论文作者进行了统计。分析了一些重要的网络统计参数,对各年作者合作网络的最大连通子网络进行了比较分析,并结合采用多种中心化分析指标对最大连通子网络进行了中心化分析。

复杂网络;作者合作网络;小世界;无尺度;中心化

1 引言

自Watts与Strogatz在《Nature》杂志上发表的小世界(small-world)网络模型和Barabasi与Albert在《Science》上发表的无尺度(scale-free)网络模型问世以来,这两项开创性的成果引导了复杂网络理论的迅猛发展。该理论将自然界中的复杂系统抽象成节点和连线(有向或无向)组成的网络[1]。大量研究表明,现实世界中的各种复杂网络,如各种生物网络、计算机网络、WWW、社会关系网络、引文网络、合作网络等等,都是小世界或无尺度类型的网络[1-5]。

一般而言,在作者合作网络中,人们是把论文的作者抽象成节点,若两个作者合作发表论文则为这两个节点间增加连线。近年来,对于作者合作网络的研究引起了情报学等相关领域科研人员的极大兴趣,应用复杂网络理论对多种作者合作网络进行实证分析成为一个研究热点,国内外均作了大量的工作[4,6-8]。

本文以复杂网络理论为基础,对2005年1月至2008年12月间一计算机杂志上发表的所有论文进行了分析,对各年的作者合作以及4年间作者合作所形成的几个网络进行了初步研究。分析表明几个作者合作网络均是由许多子网络组成的非连通网络,但是网络统计参数具有明显的小世界和无尺度网络特性。通过度值和介数对各年作者合作网络的最大连通子网络 (它们仍具备小世界特性)进行了比较分析。最后,结合采用了多种中心化指标[9]分析了整个作者合作网络的最大连通子网络。

2 数据来源

根据期刊编辑部主页上的信息,我们统计了自2005年1月至2008年12月期间的所有论文,并按照论文的作者间合作关系建立了作者合作网络数据库。其中,每一位作者都用网络图中的一个节点表示(同一个姓名用同一个节点),不同作者间只要有共同署名的论文就把代表他们的节点之间用一条连线连接起来。若某作者是独立发表论文,并且未与他人合作发表论文,则将代表他的孤立节点忽略不计。另外,本文研究中不考虑两位作者合作的论文数量,以及合作者在论文中的署名顺序。此外,还建立了2005-2008年间的完整作者合作网络(ALL),并提取了该网络的最大连通子网络(GSC)。表1给出了它们的基本统计数据。

表1 作者合作网络的统计数据

图1 作者合作网络中最大连通子网络的拓扑结构节点表示作者,连线表示他们之间的合作

3 小世界性质

进一步的数据分析表明,这些作者合作网络均是非连通的网络,有许多相互独立的子网络组成。这里,各个子网络间相互独立,没有任何连线,而各个子网络内部节点之间全连通的。显然,对于这种网络,采用常规方法来分析其全局结构特征(如平均路径长度和网络直径等)是行不通的。本文我们计算了所有可达节点间的平均路径长度和网络直径,结果见表2。可见尽管网络规模较大,但是网络的可达节点间的平均路径长度和网络直径均很小,因此这些网络是一种特殊的小世界网络。

表2 作者合作网络的平均途径长度和网络直径

4 无标度性质

为了分析作者合作网络的度分布,我们首先统计了各网络中各节点的连接度(即每个节点的连线数量),发现单年份网络中有许多节点的连接度很小(大多数集中在5以下),只有少量节点的连接度较大(如,4年内节点数大于20的共5人)。整个4年间网络(ALL)及其最大子网络(GSC)也具备类似的特征:大多数较小集中在8以下,只有少量节点的连接度较大(如,大于50的仅1人)。然后,根据这些信息,绘制出了各作者合作网络的度分布loglog图(见图1-2),得到的网络连接度分布符合幂律分布,表明这些网络均具有比较明显的无尺度特性,是无尺度网络。

图2 2005-2008年作者合作网络节点度分布与节点度值关系的Log-Log图

图3 作者合作网络及其最大连通子网络节点度分布与节点度值关系的Log-Log图

5 最大子网络

在复杂网络中,一般可以通过节点的度值和介数,来说明该节点在网络中的影响力。节点的度值定义为该节点的连线数目,而节点的介数定义为网络中所有的最短路径中经过该节点的路径数量。

由于我们研究的作者合作网络是非连通的网络,下面我们将分析各作者合作网络中规模最大的子网络(网络内节点数目最多),计算了每年最大子网络内各节点的平均途径长度、网络直径、最大度值和最大介数等,来说明科研人员的作者合作关系。结果见表3,从表中也可以看出这些子网络均是典型的小世界网络。

表3 各作者合作网络中最大连通子网络的统计数据

2005年规模最大的连通子网络中包含了5个节点(其拓扑结构见图4)。从图中可以看出该网络主要有4个研究团队组成,网络中度值和介数都比较大的节点应该是各研究团队的带头人,如张玉清(度值17,介数979)。这几个团队主要通过几个度值不高但介数比较大的节点连接在一起(主要是梁力、刘勇和周鹏这三个科研人员)。

图4 2005年作者合作网络中最大连通子网络的拓扑结构

2006年规模最大的连通子网络中包含了31个节点(其拓扑结构见图5)。从图中可以看出该网络的连接主要与南凯、毕业、阎保平、史忠科这几个科研人员相连,因此2006年规模最大的子网络也大致包括了4个团队。不过与2005年的4个研究团队相比较,2006这4个团队的结合非常紧密,团队带头人也是直接相连的,团队人员之间相互影响更大,合作更强。

图5 2006年作者合作网络中最大连通子网络的拓扑结构

2007年规模最大的连通子网络中包含了53个节点(其拓扑图结构见图6)。从图中可以看出该网络与2006年的规模最大的子网络非常相似,即几个团队带头人之间也是直接相连的(如,李志蜀、殷锋、陈崚、刘宗田、王莉等),团队的结合也非常紧密。不同之处在于还有一个团队通过一个度值不高但介数比较大的节点(陈娟,度值3,介数420)与他们连接在一起(即2005年规模最大的子网络内的团队合作方式)。也就是说,2007年的这个子网络内的科研团队间综合了带头人直接相连和通过关键科研人员相连这两种方式,因而其人员地域分布可能较广,对新知识的传播发展具有较大的优势。

图6 2007年作者合作网络中最大连通子网络的拓扑结构

2008年规模最大的连通子网络中包含了32个节点。该网络中度最大的节点的度值为12,该节点同时具有子网中的最大介数240。从图中可以看出该网络与2006年规模最大的子网络几乎是一样的,主要通过团队带头人的直接相连,这几个团队的结合非常紧密。

图7 2008年作者合作网络中最大连通子网络的拓扑结构

6 中心化分析

复杂网络的中心化有助于发现复杂网络中的重要节点,因而具有重要的应用价值。而中心化指标是用来对网络进行中心化分析的参数,典型的中心化指标包括上述的度值和介数,此外还有诸如紧密度(closeness,可用于反映节点是否在网络的核心部分)等众多分析指标[9-10]。

图8给出了一个简单的示例来反映上述度值、介数和紧密度这三种中心化指标,示例表明这些参数的结合使用更有助于发现复杂网络中的重要节点。因而,我们采用多种中心化指标分析了作者合作网络的最大连通子网络[9]。首先由不同的中心化指标计算确定了约占总作者1%的中心作者(前30个),随后依据作者在不同中心化指标中是最中心作者(即前30)的数量确定了前11个关键作者,结果见表5。

图8 一个简单的示例网络的度、介数和紧密度中心化分析

表4 本文所使用的中心化分析指标

表5 依照作者在不同中心化指标中是中心作者的数量确定的前11个关键作者

7 结语

对作者合作网络进行实证分析是当前情报学等相关领域的一个热点问题。本文研究了一计算机杂志4年间(2005-2008)发表的论文的作者间的合作关系网络,建立了几个作者合作网络并分析了它们的一些结构特点。研究发现建立的几个作者合作网络中的所有可达节点间的平均途径长度很小,度分布统计符合幂律分布,表明这几个作者合作网络均是一种特殊类型的小世界和无尺度网络。对各年作者合作网络的最大连通子网络,从度值和介数两方面进行了分析,讨论了其合作方式。并介绍了多种复杂网络中心化分析指标,对最大连通子网络进行了中心化分析。

[1]Wang X F,Chen G R.Complex networks:small-world,scale-free and beyond[J].IEEE Circuits and SystemsMagazine,2003,3(1):6-20.

[2]王林,戴冠中.Internet拓扑结构的静态概率模型研究[J].西北工业大学学报,2005,23(3):341-346.

[3]赵静,俞鸿,骆建华,等.应用复杂网络理论研究代谢网络的进展[J].科学通报,2006,51:1241-1248.

[4]王福生,杨洪勇.《情报学报》作者科研合作网络及其分析[J].情报学报,2007,26(5):659-663.

[5]丁德武,刘丽,陈守文,等.苏云金芽胞杆菌代谢网络的重构与结构分析[J].华中农业大学学报,2008,27(5):606-610.

[6]Borner K,Dallasta L,KeW M,et al.Studying the emerging global brain:analyzing and visualizing the impact of co-authorship teams[J].Complexity,2005,10(4):57-67.

[7]Ramasco J J,Morris S A.Social inertia in collaboration networks[J].Phys Rev E,2006,73:16-122.

[8]徐玲,胡海波,汪小帆.一个中国科学家合作网的实证分析[J].复杂系统与复杂性科学,2009,6(1):20-28.

[9]丁德武,刘涛,陆克中.复杂网络的中心化及其在代谢网络中的应用[J].计算机与应用化学,2008,25(12):1508-1510.

[10]王林,张婧婧.复杂网络的中心化[J].复杂系统与复杂性科学,2006,3(1):13-20.

Writer Collaboration Network in the Field of Computer Science and Its Analysis

Li Hui1,Deng Dewu1b,2,Xu Wenbo1b
(1.a.Financial Department,b.School of Computer Science and Technology,Jiangnan University,Wuxi,Jiangsu 214036;2.Department of Mathematics and Computer Science,Chizhou College,Chizhou,Anhui 247000)

An empirical analysis of Writer collaboration networks is a hot issue in information science field.The paper studies the computer scientist collaboration network based on complex network analysis method,and constructs author collaboration networks with the papers published on a computer journal from January,2005 to December,2008,and analyzes some important network proprieties,the biggest connected sub-networks of every year's author collaboration network.And also discusses the centers in the giant strong component(GSC)of the whole collaboration network based on kinds of centrality methods.

Complex Networks;Writer Collaboration Network;Small World;Scale Free;Centrality

TP339

A

1674-1102(2010)06-0011-04

2010-09-28

安徽省教育厅自然科学研究项目(KJ2010B133)。

李慧(1984-),女,江苏连云港人,江南大学财务处助理工程师,硕士,研究方向为计算机应用技术。

[责任编辑:曹怀火]

猜你喜欢

介数度值论文
探讨公路项目路基连续压实质量检测技术
无线传输中短码长喷泉码的度分布优化算法*
微博网络较大度值用户特征分析
基于电气介数的电力系统脆弱线路辨识
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登
树形网络的平均介数*
基于电流介数的电力系统脆弱性评估
基于电气介数的继电保护定值在线校核