APP下载

基于Pajek的科研领域合作关系网络特征分析*

2016-07-27谢丽斌吴德志

图书馆 2016年7期
关键词:可视化矩阵节点

谢丽斌 董 颖 吴德志

(哈尔滨师范大学图书馆 哈尔滨 150025)



·实证研究·

基于Pajek的科研领域合作关系网络特征分析*

谢丽斌董颖吴德志

(哈尔滨师范大学图书馆哈尔滨150025)

〔摘要〕科研领域合作关系网络的研究在我国主要以科研人员之间的合著网络类型为主,文章以作者合作关系网络为例,探索关系网络特征和分布规律,包括节点度、中心度、合作关系强度。通过某“985”高校的科研人员的合著网络的案例分析,最后发现科研领域合作关系网络符合幂律分布。

〔关键词〕合著网络关系网络Pajek

〔引用本文格式〕谢丽斌, 董颖, 吴德志.基于Pajek的科研领域合作关系网络特征分析[J].图书馆,2016(7):62-65

1 引言

随着大数据环境下计算机技术、互联网技术以及通讯技术的发展,科学研究领域的学术交流呈现全球化发展趋势,尤其是跨机构、跨地区以及跨国的科研合作行为已成为目前科学研究活动的主流趋势,科研合作行为在科学研究过程中越来越重要,一流科研成果的产生往往需要各学科、各机构、各个国家科研人员的协同协作完成。研究者也越来越多的关注科研人员、科研机构甚至国家和学科之间的合作关系网络以及演化趋势的研究,并且通过给出一定的模型和评价指标来分析这些合作关系。随着社会网络分析理论和方法的提出,利用定量分析工作对各种社会关系进行研究及可视化成为各类型关系研究的焦点。科学研究领域的合作关系类型和概念及可视化研究也随之出现,最早有关科研领域合作关系网络研究的是Kretschmer,H,其在1997年提出合著网络概念(Coauthorship Network),对研究人员发表文献成果的合作关系进行分析和研究。

Newman在2001年系统地给出了科研领域合作网络的定义:科研合作网络是指网络中的人通过与其他人相识,形成了一些子集,通过加入线(或边)来表示这种相识的关系,网络中的一组点(或顶点)可以表示人或人的集合[1]。通过对科研网络的研究,关于科研合作网络的定义也在不断被拓宽。狭义的科研合作网络就是研究作者之间合著关系的网络。而从广义上说,科研合作网络可以定义为研究者之间、机构之间、国家之间、学科之间通过科研合作形成的关系网络。

2 科研合作网络特性和主要参数

科研合作网络,即合著网络,是一种典型衡量科学家之间交往的社会关系网络,是由研究个人、研究团体或研究机构以及他们之间存在的各种关系所组成[2]。分析科研合作网络的关系,需要了解网络本身的特性,通过这些特性可以更好的分析实际情况中的优势和不足,为改进整个科研合作网络提出建议,促进学科领域科研合作的发展。根据已有文献的调研,科研合作网络主要有小世界,无标度和分布遵循幂律三个特性。

2.1主要特性

2.1.1小世界特性

许多社会关系网络都具有“小世界特性”,包括个人社会交往、互联网在线交流与互动、在线课堂与互动等关系网络。一个网络中如果网络平均节点度固定,平均路径长度的值随着网络规模大小以对数的速度或慢于对数的速度增长,那么称此网络具有“小世界特性”。孟微在《我国情报学科研合著网络研究及其特征参数分析》一文中对情报学学科领域研究者之间的合著网络进行了研究并得出我国情报学科研合著网络具有小世界特性[3]。

2.1.2无标度特性

无标度指的是关系网络中节点的度分布符合幂律分布,由于这类网络节点的连接没有明显的特征长度,所以称为无标度网络。2002年,Barabási等构建了数学和神经科学领域的作者合作网络,对作者数量和累计发文量进行分析,还通过对节点度、平均最短距离、离散度、聚类系数等指标分析,指出作者合作网络是一种无标度网络,网络的演化呈单偏好机制。[4]。

2.1.3遵循幂律

幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。有研究表明,现实和在线虚拟的关系网络的节点度分布都遵循幂律分布P(k)~k-r,且r的值往往介于2到3之间,幂函数在双对数坐标系下是一条下降的直线,具有无标度特性[5]。本论文通过实证研究发现以某个科研工作者出发构建的合作关系网络符合幂律。

2.2科研合作网络中的主要参数

2.2.1节点度和中心性

关系网络的度是指与某一节点相关联的链接数量,包括入度和出度。入度指的是直接指向该节点的点数总和;出度指该节点所直接指向的其他点的总数。节点度通常被用于衡量节点的中心性。科研合作关系网络中一个节点的度可以定义为与某一科研人员对应的节点相连的节点的数目,一个节点的度越大意味着与该节点相对应的科研主体合作所发表的研究成果的数量越多,拥有更多的合作者,该科研主体在关系网络中的地位越重要[6]。网络中节点的中心性反映了该节点对应的个体在实际网络中所处的地位以及权力影响[7]。中心度,包括介数中心度和接近度中心度等。节点的介数描述了网络中经过某节点的最短路径的数量,同节点的度值一样,也是节点的中心性的标准测度之一。流经节点的信息量越大,该节点介数的数值就越大。因此,介数可以用来度量某一节点对信息的负载和传递的能力,介数值高的点对于网络中信息的传输起着至关重要的作用[8]。接近度这一指标主要用来描述网络中的节点通过网络到达其他节点的难易程度,也是节点中心性的标准测度之一,反映了节点通过网络对其他节点的一种间接影响力。度、介数和接近度都是测度节点中心性的指标,共同决定某个节点在网络中的重要性,这种重要性体现在这一节点对网络中的信息的负载和传递作用如何,是否具有快速传递、接收信息的能力[9]。

2.2.2网络密度

网络密度(Density)是指在此网络中实际存在的链接数与可能存在的链接的比例。网络密度描述了网络中各节点之间联系的紧密程度[10],在实际的网络中,一个人用于维持某些关系的能力和时间是有限的,当付出的代价越来越大而回报逐渐减少时,他会停止发展新的关系,对于大型网络来说更是如此[11]。关系紧密的团体合作行为越多,信息疏通越容易,团体的绩效越好。

2.2.3最短路径和聚类系数

合著网络中任意两个节点之间距离的最大值称为合著网络的直径,可以衡量个人在传递信息过程中需要多长时间才能传到。信息传递距离越长,失真程度越多,信息传输效率越低[12]。

合著网络中连接节点i和节点j的最短路径是指使得节点i到节点j所经过的边数最少,如果考虑到加权合著网络,则指使得这条路径所经过的个边的权值之和最小。最短路径表明两个作者之间新的信息、知识传播的最快速度。最短路径越长,意味着知识在两个作者之间传递速度越慢,知识获取速率越低[13]。聚类系数描述的是网络中与同一节点相连的两个节点也相连的可能性[14]。

3 科研合作网络构建流程

科研合作网络的处理与分析流程包括数据处理与字段提取、建立分析矩阵、以及可视化三个步骤。

3.1字段提取

数据处理的首要工作是提取需要分析的字段。在科研合作网络分析中,多选择作者、机构和年份作为分析字段。CNKI和Web of Science等主要数据源提供了基本的数据导出功能,但根据合作网络分析工具支持功能的功能不同,有时需要在进行合作网络分析之前进行预先的数据处理,提取所需要的字段。

3.2建立分析矩阵

建立分析矩阵需要将提取出的有用字段,以矩阵的形式进行表示,不考虑加权可以建立二值分析矩阵,考虑加权则需建立多值矩阵,在科研合作网络中,用一定的方法对点权和边权加以界定,可以更准确的判断节点的重要性,分析整个网络中存在的关系。建立分析矩阵可以利用相关软件分析数据之间的关系,找出有用的节点和节点之间的联系,便于输入到可视化工具中实现整个网络关系的呈现。

3.3网络可视化与分析

随着可视化技术的发展,将网络可视化已经成为分析科研合作网络的重要手段。通过对合作网络中节点以及节点间的关系进行可视化建模,将科研合作网络数据以图形化方式展示出来,不仅可以科学高效地协助用户清晰地认识合作网络的内部结构,同时也有助于挖掘隐藏在网络内部的有价值信息。目前已开发出多款社会网络可视化软件,如Ucinet,Pajek,Citespace等都能用于科研合作网络的可视分析。

4 关系网络特征实例研究

4.1案例数据检索与统计

以某“985”大学Q教授为研究对象,通过检索、数据处理、可视化和数据分析等进行关系网络特征的分析。通过Web of Science平台检索Q教授的资料,具体检索方式如表1所示,Q教授文献成果基本统计见表2。

表1 检索策略

表2 Q教授基本信息

4.2生成矩阵

下载Q教授所发表文献的数据信息,通过提取数据中的作者字段,统计每篇的作者数量和署名次序,得到作者的点值矩阵,共计212个作者,即212个节点。论文利用Pajek工具进行关系网络的可视化和网络特征的分析。

Pajek最早由Vladimir.Batagelj和Andrej.Mrvar应用Delphi语言于1996年共同开发的一款用于分析大型复杂网络的软件[15],与Ucinet等关系网络分析工具相比,Pajek能快速地处理更多的节点和链接数量,更支持海量数据的分析。Pajek在网络图模型的基础上支持六种数据类型分析,包括Networks、Partitions、Vectors、Permutations、Cluster和Hierarchy,为分析复杂网络的节点、聚类、分层等提供了一个便捷的平台。本文在关系网络分析中主要用到Pajek的Networks、Vectors和Partitions三种分析功能,其中Vectors用于生成节点加权矩阵,Partitions用于生成子网络,Networks用于生成加权网络。在Pajek中,点值矩阵和边值矩阵是要分别输入到不同的模块,矩阵的形式也有区别。点值矩阵需要输入到Pajek中的Partition模块。将点值矩阵输入后,输入节点数目相同的边值矩阵,可形成一个简单的社会网络可视化结果。点值矩阵主要是用来定义网络中节点的大小,点值越大,节点越大,便于直观的找到网络中的重要节点。

4.3基于WOS数据库的合作网络

将点值矩阵和边值矩阵,输入到Pajek软件中实现网络的可视化。打开Pajek,在Network窗口中输入格式为.net的边值数据文件,在Vectors窗口输入格式为.vec的点值数据文件。在主菜单执行Options—Read—Write命令,得到阈值的设定窗口,设置阈值为0时,则在这个网络图当中,边值为0的连线不显示。作为被广泛使用的社交网络分析软件,Pajek本身具有比较好的绘图功能,在Networks模块中输入网络边值矩阵,在Vectors模块输入网络的点值矩阵,通过执行“Draw—Draw—Vectors”命令,结合点值矩阵绘制网络图像。输入数据文件后,在软件的File窗口显示软件识别的连线为1018条,节点数目为212个。本文只选择显示节点间关系比较强的边,即对边值的最大值进行界定来删除掉网络中边值较低的边,本文选择只显示边值大于3的边,实际意义为两个作者之间合作次数大于三次才在图像中显示出来。实现这一操作的命令是:Net—Transform—Remove—Lines with Value—lower than—4,经过执行这一条命令,可以使网络中边值小于4的边不显示,得到图1。

图1 Q教授的合作关系网络

图1中,红色的圆圈代表节点,即作者,圆圈越大,节点的度值越高,说明与该节点作者发表论文的作者数量越多,该节点影响力越高。节点之间的连线代表两个作者共同发表论文的数量,连线越粗,其共同发表论文的数量越多。节点大小可以直接得到在网络中的重要节点和关系,且可以看出重要的关系也基本都来源于点值较高的节点之间的关系。根据节点度的结果,分析网络的度分布,将以上数据输入到Excel中进行分析。将点的度值进行幂函数拟合,在散点图中增加趋势线,可以得到图2。

图2 网络点度的分布

执行Info—Network—Gerneral命令,可以在File的输入窗口得出平均点度Average Degree为6.1,这一数值表示该网络中的节点平均与网络中至少6个节点之间有合作关系。执行Net—Paths between 2 vertices—distribution of distances—From All vertices命令,可以在File的输入窗口得出该网络的平均路径长度为1.85,表示在该网络中,两个节点之间建立关系平均需要经过1.85步;网络的聚类系数可以通过执行Net—Vector—Clustering Coefficients—CC1操作得到,通过File窗口可以看出该网络的聚类系数较大,Watts-Strongatz聚类系数和传递性网络聚类系数分别为0.84和0.16,表示该网络比较成熟,网络中节点间资源的相互流通较好。

5 结语

从90年代的合著网络概念被提出,到2000年科研合作网络概念出现,科研领域合作关系的研究已从单一的作者视角过渡到多类型的科研主体,包括人、机构和国家,甚至知识主题,而且分析科研合作网络的学科应用领域越来越多。从近几年的论文的发表数量上来看,科研合作网络的相关文献一直在迅速增长,已经成为近几年的研究热点,各个学科领域都运用一些社会网络的分析方法和科学知识图谱的相关软件来展开研究。本论文从科研工作者出发构建其合著网络,通过Pajek进行实证研究和网络可视化发现该科研合作网络符合幂律分布规律,并还进一步对网络节点的度值建立分析矩阵并可视化显示,能够对合作网络中的重要节点进行展示。同时利用加权矩阵对合作关系通过合作次数建立加权矩阵,并对重要关系进行提取。下一步希望通过多个案例对科研领域的合作关系网络的特征进行多次验证。尤其不同学科的科研合作网络特征由于作者合著习惯的差异会有所不同,网络规模及网络特征需区别对待。

(来稿时间:2016年2月)

参考文献:

1. NEWMAN M E J.The structure of scientific collaboration network[J].PNAS, 2001, 1(98):404-409

2.吴彤.复杂网络研究及其意义[J].哲学研究,2004(8):58-63

3.汪小帆,李翔,陈关荣.复杂网络理论及其应用[M].北京:清华大学出版社, 2006:9-11

4.吴金闪,狄增如.从统计物理学看复杂网络研究[J].物理学进展,2004(1):18-46

5.孟微,庞景安.我国情报学科研合著网络特性与集团结构分析[J].理论与探索,2009, 32(9):14-18

6.张继洋,李宁.科学合著网络研究进展分析[J].综述与综评,2012, 35(4):124-128

7.孟微,庞景安.我国情报学科研合著网络研究及其特征参数分析[J].情报理论与实践,2009(8)

8. GOM EZ D,GONZALEZ-ARANGEENA E, MANUEL C,et al.Centrality and power in social network:a game theoretic approach[J].Mathematical Social Sciences, 2003(46):27-54

9. HOLME P.Congestion and centrality in traffic flow on complex networks[J].Advances in Complex Systems,2003(6)

10. CRUCITTI P,LATORA V,PORTA S.Centrality measures in urban networks[J]. Phys.Rev.E,2006, 73(3)

11. NEWMAN M E J.The structure and function of complex networks[J].SIAM Review, 2003(45):167-256

12. 吕海洋,冯玉强.合著网络中的角色分析[J].情报理论与实践,2010(1):96-99

13. KARAMON J,MATSUO Y,YAMAMOTO H,et al.Generating Social Network Features for Link-based Classification[S]. LNAI4702, 2007:127-139

[14] NEWMAN M E J,WATTSD J.Renormalization group analysis of the small-world network model[J].Phys.Lett.A, 1999,263(4/6):341-346

15. 孟瑞丽.基于复杂网络的江苏船舶产业集群研究[D].镇江:江苏科技大学硕士论文,2012

〔分类号〕G350

〔作者简介〕谢丽斌(1963-),女,学士,哈尔滨师范大学图书馆馆员,发表论文10余篇,研究方向:信息资源管理;董颖(1960-),女,硕士,哈尔滨师范大学图书馆研究馆员,发表论文40余篇,研究方向:数字图书馆;吴德志(1964-)男,学士,哈尔滨师范大学图书馆馆员,发表论文10余篇,研究方向:情报信息服务研究。

*本文系国家社会科学基金项目“数字图书馆动态组合学科服务模式研究”(课题编号:14BTQ017)、教育部人文社会科学研究规划基金项目“团体导向的数字图书馆评价研究机制”(课题编号:12YJA870003)、黑龙江省高校图工委研究课题 “基于Living library高校图书馆学科化知识服务创新研究”(课题编号:2013-B-057)研究成果之一。

Analysis of Scientifc Collaboration Network Based on Pajek

Xie LibinDong YingWu Dezhi
( Library of Harbin Normal University )

〔Abstract〕Coathorship is a mainly type of scientifc network, which is discussed in this study, including network characteristics and distribution pattern, such as degree, centrality and link strength. Finally, the example testify that the network applies to power law.

〔Keywords〕CoauthorshipRelationship networkPajek

猜你喜欢

可视化矩阵节点
基于CiteSpace的足三里穴研究可视化分析
CM节点控制在船舶上的应用
思维可视化
基于AutoCAD的门窗节点图快速构建
基于CGAL和OpenGL的海底地形三维可视化
概念格的一种并行构造算法
“融评”:党媒评论的可视化创新
初等行变换与初等列变换并用求逆矩阵
抓住人才培养的关键节点
矩阵