合著网络评价指标与文献计量学评价指标相关性研究
2016-03-23,
,
现实世界中普遍存在着相互联系,用网络的视角考察自然界和社会以及人类思维的方法已经被越来越多的专业认可[1]。通过网络描述客观世界起源于1736年德国数学家欧拉(Eular)使用图论解决哥尼斯堡七桥问题[2]。随着社会的发展,人们发现自然界和社会活动中存在着越来越多的网络现象,如果要了解世界,就应该用联系的视角来看世界,用网络的方法来分析世界[3]。合作研究是促进科研进步的巨大动力,已成为当今科学研究的重要趋势,因此在科学研究领域也逐步形成了一种复杂的信息网络——科学合作网络。
1 理论背景
科学合作网络是指通过科学文献相互联系和影响,来研究某一领域内的科学家之间合作情况的知识网络[4]。科研人员的合著论文和科研者本身构成了“科学合作网络”,其中节点代表科研人员,连接节点的边代表合著的论文[5]。作者在网络中的位置和论文影响力可以通过作者合著网络评价指标(点度中心度、中间中心度、接近中心度和特征向量中心度)来体现[6]。本文通过研究科研合著网络评价指标与文献计量学评价指标之间的相关性,来探索作者合著网络结构与特征,以此发现作者合著网络节点重要性指标的具体评价意义。
点度中心度是评价节点的指标,由节点的度数(所拥有的连线数量)来反映。一个节点的点度越高,可调用的信息资源就越多,信息资源通达它的速度也就越快,这个节点的中心度也就越高。点度中心度是反映整个网络的中心化程度的指标,是指把现有网络的实际点度变异值,除以相同规模的网络可能出现的最大点度变异值,所得到的比值[7]。
中间中心度是指网络中所有节点之间的最短途径中,经过该节点的最短途径所占的比例,使用中间中心度可以准确找到网络中对信息流通起关键枢纽作用的节点。对于一个网络来说,可以用中间中心势来评价网络中心化程度,就是把该网络实际中间中心度变异值,除以相同规模的网络可能出现的最大中间中心度变异值,所得到的比值[8]。
接近中心度是指其他节点数除以该顶点与其他节点的距离之和,反映了节点在网络中居于中心的程度。对于一个网络可以用接近中心势来评价网络的接近度,就是把现有网络的实际接近中心度变异值,除以相同规模可能出现的最大接近中心度变异值,所得到的比值[9]。
节点特征向量中心度就是节点与具有高特征向量中心度的节点相连的程度。一个网络的特征向量中心势,就是把它的实际特征向量中心度变异值,除以相同规模的网络可能出现的最大特征向量中心度变异值,所得到的比值[10]。
2 数据来源与数据处理
2.1 数据来源
本研究采用定量分析法,分别选取2014年JCR收录的医学、化学、物理学三大领域影响因子最高的顶尖期刊为数据样本。其中医学领域期刊是New England Journal of Medicine,Lancet和JAMA-Journal of the American Medical Association;化学领域期刊是Chemical Reviews,Chemical Society Reviews和nature Chemistry;物理领域期刊是Nature Materials,Nature Photonics和advanced Materials。检索2012-2015年上述三大领域的期刊,检索时间为2012-01-01至2015-08-27,文献类型限定为“article” “review”“proceedings paper”[11],分别获得3 201条、2 713条、3 687条数据。
2.2 数据处理
2.2.1 基础数据处理
BICOMB是由中国医科大学医学情报学教研室的崔雷教授及其团队研发的书目分析软件。该软件能够准确地提取文献书目信息,具有文献计量分析、共现矩阵生成功能,所生成的矩阵可以进一步应用于聚类分析和社会网络分析等[12]。本研究是利用BICOMB 2.01从原始数据中准确提取作者字段并归类存储、统计和生成作者共现矩阵。
2.2.2 构建作者合著网、计算网络节点属性指标
UCINET 是目前最普遍的社会网络分析软件,它能处理32 767个网络节点,可进行中心性分析、子群分析、角色分析和基于置换的统计分析等[13]。本利用UCINET 6.186,导入作者共现矩阵数据,绘制出作者合著网络,并计算三个领域合著网络各个节点的点度中心度、中间中心度、接近中心度和特征向量中心度。
2.2.3 统计学处理
采用SPSS 19.0版本统计软件导入分析数据,对数据进行常态检定后,选择Spearman秩相关分析,以P<0.01时为差异具有统计学意义。
3 结果
3.1 医学领域作者合著情况
3.1.1 医学文献计量学统计分析
医学领域期刊共发文3 201篇,涉及35 032位作者,篇均有10.94名作者,其中3 062篇文献由两个及以上作者合作完成,合著率高达95.66%。
本研究中,作者发文量是指作者独著和合著论文的总量,论文被引频次是指作者参与所有论文的被引频次之和。医学领域发文量最多的作者是Murray, Christopher J. L和Bhutta, Zulfiqar A,均参与发表论文24篇;其次是Loscalzo, Joseph,发表论文21篇。论文被引频次最高的作者是Murray, Christopher J.L,论文被引高达7 310次;其次是Lopez, Alan D和Naghavi, Mohsen,分别被引7 087次和6 549次。作者发文量、论文被引频次情况详见表1和表2。
表1 作者发文量统计
表2 作者被引频次
3.1.2 医学合著网络图谱
医学领域作者数量庞大。为更好地分析合著网络中作者之间的联系得到清晰的图谱,绘制了发文3篇及以上的2 178位作者的合著图谱(图1)。
医学领域合著网络图谱中节点点度中心度最大为2467,最小为0,整个图的点度中心势为3.3%;节点中间中心度最大为131935.938,最小为0,图的中间中心势为5.46%;图谱中节点接近中心度最大为473 9329,最小为27 9398,因为本图为非连通图,故无法计算图的接近中心势;节点特征向量中心度最大为13.455,最小为0,图的特征向量中心势为12.21%。
图1 医学合著网络图谱
3.1.3 医学网络评价与文献计量学评价指标的相关性
通过BICOMB统计医学领域作者发文量和论文被引情况,运用UCINET Network—centrality分别计算作者合著网络各个节点的点度中心度、中间中心度、接近中心度和特征向量中心度,利用SPSS19.0软件分析2 178位作者合著网络评价指标与作者发文量、论文被引频次之间的相关性,结果见表3。
表3 医学网络评价指标与文献计量学评价指标的相关性
注:*N=2178;**相关性在0.01水平上显著(双尾)
由表3可知,点度中心度、中间中心度、接近中心度和特征向量中心度与发文量之间的Spearman相关系数分别为0.376, 0.44,-0.289, 0.284,显著性P值均小于0.01,按以P<0.01时为差异具有统计学意义,认为4个网络指标与发文量具有相关性。其中点度中心度、中间中心度和特征向量中心度与发文量呈正相关关系,接近中心度与发文量呈负相关关系。中间中心度与发文量的相关系数较大,说明这两者之间的相关性更为显著。
点度中心度、中间中心度、接近中心度和特征向量中心度与被引频次之间的Spearman相关系数分别为0.56, 0.241,-0.404, 0.402,显著性P值均小于0.01,按以P<0.01时为差异具有统计学意义,认为4个网络指标与被引频次具有相关性。其中点度中心度、中间中心度和特征向量中心度与被引频次呈正相关关系,接近中心度与被引频次呈负相关关系。点度中心度与被引频次的相关系数最大,说明点度中心度的大小更能反映作者论文被引频次的高低。
3.2 化学领域作者合著情况
3.2.1 医学文献计量学统计分析
化学领域的3种期刊共发文2 713篇文献,涉及8 971位作者,篇均3.3名作者,其中2 527篇文献(93.14%)由2个及以上作者合作完成;发文量最多的是Yoon, Juyoung,共参与发表论文12篇;其次是Kim, Jong Seung和Zhang, Hua,发表论文10篇和8篇;作者论文被引频次最高的是Zhang, Hua,论文被引频次高达2 363次,其次是Zhou, Hong-Cai和Li, Jian-Rong,被引1 731次和1 706次,详见表4、表5。
表4 作者发文量统计
表5 作者被引频次统计
3.2.2 化学合著网络图谱
化学领域3种期刊发文2 713篇,共涉及8 971位作者,其中出现频次在2次及以上的作者有1 226位。运用UCINET绘制出1 226位作者的合著网络图谱,具体见图2。
化学领域合著网络中节点点度中心度最大为38,最小为0,整个图的点度中心势为0.55%;节点中间中心度最大为62542.176,最小为0,图的中间中心势为8.22%;节点接近中心度最大为150 0625,最小为72 7181,因为本图为非连通图,故无法计算图的接近中心势;节点特征向量中心度最大为77.393,最小为0,图的特征向量中心势为79.08%。
图2 化学合著网络图谱
3.2.3 化学网络评价与文献计量学评价指标相关性
利用SPSS19.0计算出化学领域1 226位合著网络中点度中心度、中间中心度、接近中心度和特征向量中心度与作者发文量、被引频次的相关性,结果见表6。
表6 化学网络评价指标与文献计量学评价指标的相关性
注:*N=1226;**相关性在0.01水平上显著(双尾)
由表6可知,点度中心度、中间中心度、接近中心度和特征向量中心度与发文量、被引频次之间显著性P值均小于0.01,按以P<0.01时为差异具有统计学意义,认为4个网络指标与发文量,被引频次之间具有相关性。其中点度中心度、中间中心度和特征向量中心度与发文量、被引频次之间Spearman相关系数均大于0,故这3个网络评价指标与文献计量学评价指标呈正相关关系;而接近中心度与文献计量学的相关系数为负数,这两大指标之间呈负相关关系。另外,中间中心度与发文量的相关系数为0.405,为相关系数最高值,故说明二者间的相关性最为显著。作者在合著网络中的中间中心度越高,在一定程度上反映了作者的发文量越高;点度中心度与被引频次的相关系数最高为0.230,说明点度中心度与作者被引频次最相关。
3.3 物理领域作者合著情况
3.3.1 物理文献计量学统计分析
物理学领域3种期刊共发文3 687篇文献,涉及18 368位作者,篇均4.98名作者,其中3 645篇文献(占98.86%)是由两个及以上作者合作完成,发文量最多的作者是Wang Zhong Lin,共参与发表论文48篇;其次是Jiang Lei和Bazan, Guillermo C,分别发表论文43篇和29篇;作者论文被引频次最高的是Yang Yang,论文被引频次高达3 603次;其次是Li Gang和You Jingbi,被引频次是2 587次和2 007次,具体见表7和表8。
3.3.2 物理合著网络图谱
运用UCINET绘制物理领域出现频次在3次及以上的1845位作者的合著网络图谱(图3)。物理领域作者合著网络中节点点度中心度最大为242,最小为0,整个图的点度中心势为0.75%;节点中间中心度最大为74543.086,最小为0,图的中间中心势为4.26%;节点接近中心度最大为340 0336,最小为98 364,因为本图为非连通图,故无法计算图的接近中心势;节点特征向量中心度最大为85.482,最小为0,图的特征向量中心势为86.65%。
表7 作者发文量
表8 作者被引频次
图3 物理合著网络图谱
3.3.3 物理网络评价与文献计量学评价指标相关性
利用SPSS计算出化学领域1845位作者发文量、论文被引频次与点度中心度、中间中心度、接近中心度和特征向量中心度的相关性,结果见表9。
表9 物理网络评价指标与文献计量学评价指标相关性
注:*N=1845;**相关性在0.01水平上显著(双尾)
由表9可知,点度中心度、中间中心度、接近中心度和特征向量中心度与发文量、被引频次之间的显著性P值均小于0.01,按以P<0.01时为差异具有统计学意义,认为4个网络指标与两个文献计量学指标具有相关性。其中点度中心度、中间中心度和特征向量中心度与发文量、被引频次呈正相关关系;接近中心度与发文量、被引频次呈负相关关系。中间中心度与发文量的相关系数较其他指标相关系数大,说明这两者之间的相关性更为显著,合著网络中作者中间中心度越高,反映了作者的发文量越多。点度中心度与被引频次的相关系数最大,说明点度中心度的大小更能直观的反映作者论文被引频次的高低,在一定程度上反映了作者点度中心度越高,其发表的论文被引频次也会越高。
4 结论
本文选取医学、化学和物理影响力最高的期刊数据为研究样本作横向对比,相对于《作者合著网络节点重要性评价指标的属性研究》[14]一文研究学科覆盖面更加广泛,研究结果更具客观性和普适性。通过相关性分析得出三大领域的研究结果与《作者合著网络节点重要性评价指标的属性研究》一文研究具有一致性,即合著网络中的点度中心度、中间中心度和特征向量中心度三个指标与作者发文量、论文被引频次呈正相关关系,接近中心度与其呈负相关关系。另外,本文结果还发现中间中心度与作者发文量相关性最为显著,点度中心度与论文被引频次最相关。同时本研究认为将合著网络评价指标与文献计量学评价指标结合起来使用,可以更全面地评价作者的重要性。
根据本研究的阶段性结果,认为在合著网络中作者中间中心度越高,则作者发文量越多。这种结果的出现是因为作者中间中心度越高。在合著网络中表现为该作者处于越多作者交往的最短路径之上,这就增加了与其他作者合作的机会,故其发文量也相应会越高。作者点度中心度越高,则作者论文被引频次越高,这一结果的出现是因为作者点度中心度越高,在合著网络中表现为与该作者节点直接相连的邻居作者数目越多,也就是合作者越多,发文量也会越多,文章被引频次的机率越高,累积被引频次也随之增高。
另外,接近中心度值较高的作者,其发文量和文章被引频次偏低。因为接近中心度值是指节点到网络中所有其他节点的最短路径之和,反映了节点在网络中居于中心的程度,即作者接近中心度值越低,则到达其他所有作者的距离越短,代表其接近中心性越高,越处于合著网络中心位置,那么与其他作者越容易发生合作,故该作者的发文量会越高,论文被引率也越高。
本研究得出,作者发文量、被引频次与合著网络等各项评价指标具有不同程度的相关性,说明使用相应的合著网络指标来评价作者的重要性具有一定的可行性。同时文献计量学与合著网络指标在评价内容上各有特点,其中发文量主要通过文献数量来衡量,体现的是作者科研产出的能力;被引频次属于引文分析指标,衡量的是文献质量和文献影响力。但是自引、引用偏见、错误引用等因素会影响被引频次结果,单纯依靠传统的计量学方法并不能全面评价作者的科研能力。合著网络评价指标主要用于衡量作者在整个领域的影响力,不仅与发文量、被引频次有关,还与作者的合作广度、合作对象的影响力以及作者在网络中的位置等因素有关。因此,两大指标评价体系既相关又相异,说明两种方法可以互相补充、互相结合,为作者影响力评价方法提出了一种新的研究角度,使得作者重要性评价方法更加全面客观,同时为以后深入探究科研人才的重要性评价提供参考。