基于SNA国内知识图谱领域科研合作关系研究
2012-04-29高晶利
高晶利
〔摘 要〕本文首先介绍了社会网络分析方法,并采用该方法分别从“中心性分析”、“凝聚子群分析”、以及“核心——边缘结构分析”3个角度,对CNKI上的知识图谱领域的合著网络进行了实证研究。通过分析,指出了合著网络中高产核心作者,发现了合著网络中的联系凝聚子群,评价了学者在合著网络中的地位。
〔关键词〕社会网络分析;知识图谱;合著网络;可视化
DOI:10.3969/j.issn.1008-0821.2012.01.024
〔中图分类号〕G303 〔文献标识码〕A 〔文章编号〕1008-0821(2012)01-0102-05
Analysis on Author Cooperation Relationship of Mapping
Knowledge Research in China Based on SNAGao Jingli
(School of Management,Tianjin Normal University,Tianjin 300387,China)
〔Abstract〕This paper firstly introduced the method of Social Network Analysis and investigated coauthorship network in domestic Mapping Knowledge research by selecting coauthors of the Journal of CNKI using Social Network Analysis from the angle of centrality analysis,subgroup analysis and core-periphery analysis.It indicated the researchers in the coauthor network,discovered several subgroups with close links between their members and distinguished key authors in the network.
〔Key words〕social network analysis;mapping knowledge domains;co-authorship network;visualization
随着科学的发展,学科专业化程度的提高,合作将成为科研者交流的主流范式。日趋频繁的科研合作,反映在学术论文中,则表现为合著现象越来越多,合著规模亦越来越大。研究者之间通过合作发表论文,就形成了一个合著网络,该网络能够比较真实地反映科研者之间的合作关系。
社会网络指的是行动者及他们之间关系的集合,也可以说,一个社会网络是由多个点(社会行动者)和各点之间的连线(行动者之间的关系)组成的集合[1]。研究合著现象,其本质就是研究作者之间的关系,社会网络分析方法正是以研究关系见长的方法。社会网络分析方法(Social Network Analysis,简称SNA)可以借助可视化工具Netdraw构建出展现分析主体之间的错综复杂关系的网络结构图[2]。将SNA应用于文献计量学研究,可以通过“中心性分析”、“凝聚子群分析”、“核心——边缘分析”,可以找出核心作者和联系紧密的小团体并评价作者在整个网络中的地位。
本文正是基于以上的研究角度,运用社会网络分析软件对国内知识图谱领域的科研合作关系网络进行深层次的分析,探析我国知识图谱研究领域的“核心作者”、联系紧密的“凝聚子群”以及合著网络中的“核心——边缘人物”。以期为知识图谱领域的科研交流和学科发展提供一些启示。
1 研究方法
1.1 研究对象
本研究以CNKI中国学术期刊网络出版总库作为数据来源。用软件NoteExpress2在线检索CNKI数据库,以“主题”为检索字段,用“知识图谱”作为检索词,检索CNKI数据库中从1979-2011年期间的论文。本次最后数据更新时间为2011年10月20日。共检索出相关文献226个,除去非论文文献,得到221篇论文。以年为单位统计论文数量,绘制成发文量变化趋势图,见图1。
图1 知识图谱论文年度发文量变化趋势
从图1中可以看出,从2005年才开始出现有关知识图谱的论文。2005-2011年(截止2011年10月20日)这6年期间发文量是呈直线上升的趋势,发文量变化趋势线略呈现“J”型,也就是说,所发表论文的数量基本上是符合文献增长的初始阶段的“指数增长规律”即“普赖斯曲线”的。对上述收集到的221篇论文的作者进行相关的Excel统计分析、作者编号、发文量排序最后形成如下表所示的作者发文量分布表,见
(篇)1刘则渊3115廖胜姣52许振亮1716栾春娟53侯海燕1517沈洪洲44姜春林1218许丽敏45陈 悦1119秦长江46赵蓉英920李江波47宗乾进821杜维滨48葛 莉722侯剑华49汤建民723王贤文410王 琪624陈立新411陈兰杰625尹丽春412梁永霞6………13袁勤俭5269赫尔顿114赵玉鹏5
2012年1月第32卷第1期基于SNA国内知识图谱领域科研合作关系研究Jan.,2012Vol.32 No.1在本次研究中,将每篇论文的作者看成是一个数据样本,构建合著网络时,用“1”表示两位作者之间存在合著关系,用“0”表示两位作者之间不存在合著关系[3]。本研究将作者共同署名发表论文的就视为他们之间存在合作关系,对全部的221个样本数据关系进行累计统计,最后形成了一份总计269位作者的合著关系矩阵,见表2。
表2 合著者关系矩阵
刘则渊许振亮侯海燕姜春林陈 悦赵蓉英宗乾进葛 莉汤建民…刘则渊189295许振亮81334侯海燕933232姜春林2222陈 悦93321赵蓉英宗乾进1葛 莉54212汤建民3
1.2 研究角度
本文主要是从“中心性分析”、“凝聚子群分析”、“核心——边缘结构分析”这3个角度对构建的合著网络进行分析。
1.2.1 中心性分析
中心性是测量一个行动者在整个关系网络中的重要程度的关键指标。中心度可以分为3种形式:点度中心度(Degree centrality)、中间中心度(Betweenness centrality)和接近中心度(Closeness centrality)。
(1)点度中心度
点度中心度是用来测量一个点在网络中的占据的核心程度的指标。在一个网络中,如果一个行动者与很多其他行动者之间存在直接联系,那么该行动者就居于中心地位,在该网络中拥有较大的“权力”。网络中的点度中心度,可以用网络中与其直接联系的点的数目来测量。点度中心度分为绝对点度中心度和相对点度中心度。绝对点度中心度是与该点直接相连的点的个数,后者是前者的标准化形式。
(2)中间中心度
中间中心度测量的是一个点在多大程度上位于图中其他点的“中间”。在一个网络中,如果一个行动者处于许多其他两点之间的路径上,可以认为该行动者居于重要地位,因为他具有控制其他两个行动者之间的交往的能力。
(3)接近中心度
接近中心度研究的是行动者在多大程度上不受其他行动者的控制的能力[4]。在一个网络中,如果一个点通过比较短的路径与许多其他点相连,我们就说该点具有较高的接近中心性。因为接近中心性计算的节点与其他点的距离,距离越短,表明该点越容易到达其他点,因此接近中心性越小的节点在网络中越处于核心地位。
本次研究对合著网络进行中心性分析的目的是分析各个节点(即各个作者)的中心性,以了解他们在合著网络中所处的地位。
1.2.2 凝聚子群分析
在社会网络分析中,进行凝聚子群分析有多种方法,如建立在“互惠性”基础上的派系分析;建立在“可达性和直径”基础上的n-派系分析和n-宗派分析;建立在“点度数”基础上的k-从分析和k-核分析;建立在“子群内外关系”基础上的成分分析、块模型分析以及Lambda集合分析。
(1)派系分析
所谓派系又叫小团体或凝聚子群,是指在社会网络中联系紧密的成员的集合,凝聚子群内部成员联系的紧密程度远大于成员与其他子群之间的联系。在社会网络分子中,派系分析就是研究一个社会网络中存在多少个这样的小团体。
(2)凝聚子群密度
凝聚子群密度用于测量派系林立的程度。凝聚子群的密度是子群密度与整个网络的密度之比,它的取值范围为[-1,+1]。该值越接近-1,表明子群体之间的外部关系越少,关系主要发生在群体之内,意味着派系林立程度越大;该值越接近1,表明关系越趋向于发生在群体之外,意味着派系林立的程度越小;该值越接近0,表明派系内外关系数量相差不多,关系越趋向于随机分布,看不出派系林立的情形[1]。
1.2.3 核心——边缘结构分析
核心——边缘结构分析根据网络中节点之间联系的紧密程度,将网络中的节点分为两个区域,核心区域和边缘区域。处于核心区域的节点在网络中占有比较重要的地位。核心——边缘结构分析(core-periphery)的目的是研究社会网络中哪些节点处于核心地位,哪些节点处于边缘地位。核心作者分析一直是文献计量学的重要研究内容,而社会网络分析方法中的核心——边缘结构分析可以对网络的“位置”结构进行量化分析,区分出网络的核心与边缘,因此,可以借助核心——边缘结构分析方法来分析在合著网络中哪些作者处于核心地位,哪些作者处于非核心地位。
1.3 研究工具
社会网络分析软件有很多,在本次研究中的数据分析是通过UCINET6.0软件来完成的。UCINET是由社会网络分析领域的知名学者Borgatti、Everett和Freeman合作开发的。它是一个用来处理社会网络数据的软件包,是科研者比较常用的一款社会网络分析软件,它能读取多种不同形式的数据,如文本文件和Excel文件。它能处理的网络节点是32 767个[5]。但从实际情况来看,当节点个数超过5 000时,一些程序的运行就会变得很慢。UCINET6.0还集成了一个社会网绘图软件NetDraw[6]。NetDraw可以用可视化的方式将整个网络结构形象的用关系图表示出来。
2 研究结果分析
在UCINET中,可以使用Netdraw实现对整个合作关系网络结构的可视化,绘制出合作关系网络的结构图,见图2。图2 知识图谱作者合作关系网注:本文旨在说明社会网络分析法在作者合作网络的应用,故用数字代替研究人员的姓名
图2中每一个节点的大小表示该作者发文量多少,节点越大表示该作者发表论文越多;线条的粗细表示每一个合作对之间的合作次数,线条越粗,表示两个作者之间合作的次数越多,其中同属于大连理工大学21世纪发展研究中心WISE Lab的1(刘则渊)和3(侯海燕)以及1(刘则渊)和5(陈悦)连线最粗,这两对作者合作发表论文均为9篇,合作关系比较紧密。从图中可以看出,整个关系网络结构式比较松散的,很少有较大的网络,经统计发现有13%的学者在网络图是孤立点,即独著发表论文,19%的学者是两两合著,仅有22%的学者之间是有存在大范围合作。这样松散的合作关系网络,不利于学科之间的知识共享和信息交流。
2.1 中心性分析
2.1.1 点度中心性
在UCINET中,点度中心性分析的菜单路径为Network>Centrality>Degree。以下是分析的结果,见表3。
在上述结果中,第一列(Degree)是绝对中心度,第二列(NrmDegree)是相对中心度。这个结果是针对合著者之间关系的有向图来计算的[7]。从结果中可以看出,点度中心度最高的是刘则渊,其绝对点度中心度是26。根据点度中心度的定义,表明其与网络中其他26个节点有直接联系,即刘则渊与网络中的26位作者有过77人次的合作关系。绝对中心度的最低值是0,说明该作者没有和其他人合著发表过论文。
2.1.2 中间中心性
在UCINET中,中间中心性分析的菜单路径是Network>Centrality>Betweenness>Nodes。以分析的结果,见表4。
从分析结果中可以看出,中间中心度最高的是刘则渊,其次是许振亮、姜春林等人。这些作者的中间中心性比较高,说明他们掌握了比较多的研究资源,具有较高的控制资源的能力。同时,有一些作者的接近中心性为0,说明这些作者几乎不具备控制资源的能力。统计所有 作者的中间中心度,发现有228位作者的中间中心度为0,占全部作者总数的84.7%,这个比 例是十分高的。同时,中间中心度比较高的作者较少。这也表明大多数作者并不具有控制资 源的能力,只有很少的作者具有比较高的控制资源的能力。表4 中间中心性分析结果
nBetweenness刘则渊750.4202.097许振亮443.0381.238姜春林389.1831.088侯海燕371.2551.038陈 悦197.2370.551胡志刚168.0000.470栾春娟131.8130.368赵蓉英125.0000.349………李亚敬0.0000.000
2.1.3 接近中心性
本文构建的合著网络不是一个完全相连图形,因此不能直接计算其接近中心性,必须先进行成分分析。通过对本文合著网络进行成分分析,发现网络中最大的成分包含60个行动者,下面是该成分进行接近中心性分析的结果,见表5。表5 接近中心性分析结果
nCloseness刘则渊98.00060.204侯海燕109.00054.128陈 悦118.00050.000许振亮121.00048.760许丽敏124.00047.581袁勤俭125.00047.200栾春娟126.00046.825姜春林128.00046.094………余新丽0.0000.000
前已述及,接近中心性越小的节点在网络中处于核心地位。从结果中可以看出,刘则渊的接中心度最小,说明他能以最短的路径到达其他节点,在网络中处于比较核心的地位。由于该接近中性计算是针对网络中最大的成分进行分析的,因此其结果和前面的中间中心性分析的结果表现出比较大的差异。
接近中心性和中间中心分析指数都比较高的作者是与他人有多次合作并且发表论文数量较多的学者。比如,刘则渊他的中间中心性位于第一位,在接近中心性分析果中位于第一位,其发表的论文数量也位于第一位。同时,他的点度中心度也是最高的,说明与他有合著关系的作者也是最多的。
2.2 凝聚子群分析
2.2.1 派系分析
在UCINET中,派系分析的菜单路径为Network>Subgroups>Cliques。
分析结果显示,当“最少成员数”为3时共存在66个派系,派系之间存在大量的共享成员,当“最少成员数”为4时共存在35个派系。对派系成员进行整个最后共得到13个派系,分析结果见表6。表6 派
2.2.2 凝聚子群密度
在UCINET中,凝聚子群密度分析的菜单路径为Network>Cohesion>E-I index。通过分析,发现该网络的凝聚子群密度非常显著,达到了-0.818。前已述及,E-I指数的值越向-1靠近,表明关系越趋向于发生在群体之内,意味着派系林立的程度越小。研究结果表明,本文合著网络的中派系林立的程度非常小,小团体内部的学者之间联系紧密。在信息分享和科研合作方面交往频繁,而处于子群外部的成员则不能得到足够的信息和科研合作机会。从某种程度上来说,这种情况不利于学科总体的发展。
2.3 核心——边缘结构分析
在UCINET中,核心——边缘结构分析的菜单路径为Network>Core/Periphery>Categorical。
分析结果显示,刘则渊、许振亮、侯海燕、姜春林、陈悦、葛莉、梁永霞、侯剑华、王贤文、尹丽春、庞杰这11位处于核心位置, 其余258位处于边缘位置。在文献计量学中,根据普赖斯定律,即“高产作者中一位最低产的作者发表的论文数量,等于最高产作者所发表论文数的平方根的0.749倍”[8]。在本文的合著者群中,最高发文量为31,计算出“核心作者”的发文数量应该在4.17以上,因此,可以定义发表论文数量在5篇以上的作者为“核心作者”统计发现,共有16位“核心作者”。核心-边缘结构分析的结果将11位学者置于核心位置,这就说明剩下5名学者符合“普赖斯定律”下的“高产核心作者”,但是,他们与其他学者之间的联系甚少,在核心-边缘结构分析的结果就没能置于核心位置。
对这11位核心作者中有8位作者来自大连理工大学21世纪发展研究中心WISE Lab。说明该团队在知识图谱领域的科研能力是比较强的。核心作者在一个单位集中的现象了也体现出了学术界的马太效应,即“穷则愈穷,富则愈富”。越是高产作者,越是权威作者就有可能获得比别人更多的机会,在学术上的体现就是,高产权威的作者的论文的被引频率比较高,而且比较容易在核心期刊上发表论文,以及比较容易获得国家项目等等。
3 结 论
合著分析一直是情报学研究的重要课题,本文采用社会网络分析方法分别从中心性、凝聚子群和核心——边缘结构3个角度进行合著网络分析,为合著分析的研究提供了一个全新的视角。
中心性分析结果表明,点度中心性分析区分出了我国知识图谱领域的高产核心作者,中间中心性分析发现在该领域只有很少的作者具有比较高的控制资源的能力。接近中心性分析有密切联系的“子群”是比较少的,说明从整体来看,本文合著网络节点之间的合作联系并不紧密,很多作者都没有和其他作者建立直接联系。凝聚子群分析结果表明,合著网络的中派系林立的程度非常大,处于子群内部的学者之间联系紧密,在信息分享和科研合作方面交往频繁,而处于子群外部的成员则不能得到足够的信息和科研合作机会。这种信息交流的模式不利于学科总体发展。核心——边缘分析结果表明,高产核心作者分布比较集中于大连理工大学21世纪发展研究中心WISE Lab,表明该学校在知识图谱方面的科研是走在学术界的前列。高产核心作者的形成也是马太效应作用的结果。
通过本文的分析,区分出了我国知识图谱领域的权威核心作者,为后续学者的研究提供了关键的切入点,同时,也指出了现在我国知识图谱领域合著研究存在的一些现象,如合著范围和强度较少等问题,希望可以为我国知识图谱领域的学科发展、知识交流提供一定指引。
参考文献
[1]刘军.整体网分析讲义——UCINET软件应用[M].上海人民出版社,2009:105-106,134.
[2]刘则渊,尹丽春.国际科学学主题共词网络的可视化研究[J].情报学报,2006,(5):634-640.
[3]邱均平,李佳靓.基于社会网络分析的作者合作网络对比研究——以《情报学报》、《JASIST》和《光子学报》为例[J].情报杂志,2010,29(11):1-5.
[4]李亮,朱庆华.社会网络分析方法在合著分析中的实证研究[J].情报科学,2008,26(4):549-555.
[5]Freeman L C.Centrality in social networks:Conceptual clarification.Social Networks,1979,(6):215-239.
[6]Borgatti S P,Everett M G,and Freeman L C.Ucinet for Windows:Software for Social Network Analysis[M].Harvard,MA:Analytic Technologies,2002:1-25.
[7]张秀梅,吴巍.科研合作网络的可视化及其在文献检索服务中的应用[J].情报学报,2006,25(1):9-15.
[8]马费成,等.信息资源管理[M].武汉:武汉大学出版社,2006:72,85.