APP下载

科研合作网络中心性与学术影响力
——以Science(2000-2018)为样本*

2020-04-24郝治翰王蒲生

图书馆论坛 2020年4期
关键词:影响力学者学术

郝治翰,陈 阳,王蒲生

0 导言

在以扩展人类知识疆域为制度性目标的科学界[1],学术影响力被普遍地理解为科研成果被借鉴的情况[2-3]。科学计量学家和科研管理机构通常将被引量及其衍生指标作为学术影响力的评价指标[2]。学术影响力对学者至关重要[3]。科研合作是科学活动中由多人共同完成同一研究课题的知识生产方式。它通常以多人共同署名发表成果为标志。由于科研项目的高度复杂性和综合性,学者通过跨领域的交叉整合和跨区域的组织协作,通过频频互动交流、共享设备资源,进而提高知识生产效率。科研合作与学术影响力的关系,相应地也成为科学计量学研究的热门领域。本文的目的就是通过引入当前流行的社会网络分析方法,使用相关性分析和OLS回归分析方法,研究学者在科研合作网络的中心性与其学术影响力之间的关系,辨明学者在科研合作网络的中心性对其学术表现的影响。

1 科研合作网络研究综述

1990 年代以来,网络理论及其分析方法在社会科学研究中的地位与日俱增[4]。在Web of Knowledge数据库里,以“社会网络”为主题的研究成果在过去20年间翻了近四番。不少境外学者对科研合作网络结构及其与知识产出的关系表现出较高的研究热情。这些研究最初致力于描述特定学科领域中科研合作网络的密度和凝聚性等宏观特征[5-8],其后逐渐转向微观层面,侧重考察个体在合作网络中的结构属性对科学知识生产[9]、科研资源交换[10]以及工作绩效[8,11-16]的影响。科学家在合作网络中的位置构成其“结构性社会资本”[10](structural social capital),后者在认知和社会关系层面制约或促进着科学家的研究,进而对其学术影响力施加作用。采取微观进路的研究者往往选取某特定研究领域,以学者为网络节点、以中心性表征学者在合作网络中的位置,致力于揭示个体在网络中位置的优越性对其知识产出绩效的影响。已有研究表明,在化学[15]、图书馆与情报科学[12,14]、信息管理[10-11]、科学计量学领域[8],科学家的合作网络中心性同其产出指标显著相关。换言之,学者拥有的合作者越多,就越可能收获良好的绩效评价。

对科研网络的考察不能脱离学科情境,研究结论或因学科样本差异而大相径庭[17]。针对这一问题,Bordons等[16]选取统计学、药剂学和纳米科学,分别作为理论学科、实验学科和新兴学科的代表,通过分析3个学科内西班牙科学家之间的合作网络,发现不同学科的数据分析结果并无明显差异:除了连接强度变量对实验学科的影响只略微显著于理论学科,其他结构变量在不同学科样本中的差异与理论假设均不相符。

相对而言,境内学者的相关研究尚显迟滞,以描述特定研究领域科研合作网络的宏观、中观特征为主。比如,陈悦等学者对中国创新管理研究合作网络[18],栾春娟等对数字信息传输专利的发明者合作网络[19]的实证分析,以及张利华和闫明对管理科学领域科研合作网络结构特征的描述[20]等,深入的微观研究仍付阙如。

在以科研合作为对象的网络分析中,合作网络通常以研究者预先选定的学术论文为数据来源,以样本论文的作者为节点,以是否共同署名论文为连结依据。虽然该模型在已有研究中应用广泛,仍有学者质疑其有效性。以学者为节点的科研合作网络模型的局限主要体现在其易受样本论文作者数量极端值的干扰。论文作者数量的方差与极差越大,学者节点模型测量个体结构属性的信度便越差①。Gaskó等学者进而提出以学术论文为节点,以是否存在共同作者为连结依据的新型网络模型作为学者节点模型的补充[21]。相比之下,论文节点模型长于刻画大方差、多学科合作网络结构,并能更为可靠地测量其中个体结构属性;短板则是效度相对较弱,其以学术论文为节点,只将学者体现在连边关系中,无法直接测量个体结构属性,与科学计量学通常的研究目的存在一定偏差。尺有所短,寸有所长,本文兼用以上2种网络模型分别检验研究假设。为避免混淆,下文把以学者为节点的科研合作网络模型统称为学者节点合作模型,把以学术论文为节点的网络模型统称为论文节点合作模型。

既往研究取得了一定进展,依然存在有待完善之处。学者在科研合作网络中的结构属性与其学术影响力的关系仍未厘清,既往实证研究结论甚至相互抵牾。有研究显示,因处于学术交流合作网络的枢纽,占据中介位置的科学家在学术影响力上优势明显,而一味扩大合作网络带来的收益并不显著[10,14]。另有实证研究得出完全相反的结论,声称网络中介位置徒具其表,不会对科研产出产生直接影响;与更多的学者合作则收效显著[11,15-16]。

本文认为,以往研究主要存在两点局限,见表1。第一,样本规模与分析方法方面,样本规模在3,000以上的研究未作回归分析[12,14],仅凭相关性分析结果得出结论;采用回归分析者[10-11,13,15-16],样本量却又欠缺说服力,网络结点数n 多位于100~300[10,13,15],最大值不过 2,609[16];有的研究在计算中心性时没有作规范化处理[8,12]。第二,样本有效性不足。已有研究虽致力于整体揭示科研合作网络结构属性与学术影响力的关系,却大都选取某一特定学科期刊[8,10-14]或某国特定学科[16-17]的合作数据作为样本来源,其样本数据不足以代表科研合作的整体情况。

表1 现有相关研究概况一览

本文主要通过以下方面拓展、改善已有研究:(1)梳理社会网络分析的主要个体结构位置指标,总结、完善各项指标的规范化计算方式;(2)尝试以学者节点合作模型为基础,引入论文节点合作模型[21],同时采用相关性分析和回归分析检验所有假设;(3)大幅度提升样本规模,将两种网络模型的结点量分别增至 16,051 和 14,913;(4)选取Science期刊上近19年的论文及其作者为样本,提高样本代表性。

2 分析方法和研究假设

2.1 网络模型构建

社会网络分析以(N,g)表示网络模型,N={1,...,n}代表全体样本节点的集合;g代表n×n网络关系矩阵,表示网络模型全部n个节点彼此的连结关系;gij代表节点i与另一节点j的连结关系[22]39-42。根据gij的不同取值规则,可将网络模型分为一般模型和加权模型。一般模型gij取0或1,0代表节点i与j不相连结,1代表节点i与j相连。在加权网络中,gij可为0或任意正数,0仍代表i与j 无连结,非0 数值代表i 与j 之间的连结强度[22]52-54。一般网络模型长于刻画网络结构,但无法测量连结强弱;加权网络模型与之相反,能直观地反映连结强弱,却可能因极端权重值干扰而降低描述网络结构的准确性[23]。本文旨在探索科研合作网络结构属性与学术影响力的关系,未考虑合作关系强度的影响,依一般网络模型规格构建学者节点合作模型和论文节点合作模型[21]。

2.2 自变量:中心性

“中心性”(centrality)是网络分析的重要指标,用于测量个体节点在网络结构中所处位置的重要程度[22]61-69。虽然Bavelas早在20世纪50年代初就提出了测量节点结构中心性的设想和需求,但学术共同体对中心性的涵义和计算方式争议较大,竟长期无法形成共识[14,24-25]。直到1978年,Freeman 通过梳理既往研究,厘清3 种截然不同的中心性概念,并提出相应的计算方法,分别是程度中心性(degree centrality)、紧密中心性(closeness centrality)和中介中心性(betweenness centrality)。其后,3种中心性成为微观网络分析最常用的指标[21]。

2.2.1 程度中心性

程度中心性是最直观的中心性指标,表示某节点在网络中直接连结的充分水平[22]62-63。节点的程度(degree)即与其直接连结的节点数量。在节点总数为n的网络中,节点的程度最大值为n-1,任一节点i程度中心性的规范化数学表达式为:

节点的程度值越高,与其直接连结的节点数量就越大,便越可能在更大规模、更高频率的资源和信息流动中取得收益。在学者节点科研合作网络下,程度值高的科学家拥有众多合作者,可能收获更为理想的产出:一方面,与诸多学者交流思想、共享设备,对开拓理论视野、提升研究质量应有裨益;另一方面,在学术共同体内广泛合作势必提升知名度、增益结构性社会资本,其成果更可能得到同行关注与支持,进而赚取更多引用。在论文节点网络模型中,节点程度中心性强,意味着其作者既较为高产且拥有数量可观的合作者,同样应有更好的绩效收益。因此,提出假设如下:

H1a:学者在学者节点合作网络中的程度中心性与其学术影响力为正向影响关系。

H1b:学术论文在论文节点合作网络中的程度中心性与其学术影响力为正向影响关系。

2.2.2 紧密中心性

紧密中心性表示某节点与其他节点的接近程度[22]64。与仅考虑节点直接连结情况的程度中心性不同,紧密中心性关注个体在网络全局中的地位,通常以节点与其他任一节点距离的倒数衡量。在节点规模为n的网络中,l(i,j)表示节点i与j间最短路径上的节点数量,节点i紧密中心性的规范化数学表达式为:

节点的紧密中心性越强,就越靠近网络全局的中心,也便越可能高效地取得资源。科研合作网络情境下,紧密中心性强的科学家更容易与网络中的其他学者建立联系与合作,从网络中获取知识和资源支持,并因此收获高质量学术成果。论文节点网络模型中,紧密中心性强的论文节点更容易得到学术共同体的关注。因此,提出假设如下:

H2a:学者在学者节点合作网络中的紧密中心性与其学术影响力为正向影响关系。

H2b:学术论文在论文节点合作网络中的紧密中心性与其学术影响力为正向影响关系。

2.2.3 中介中心性

中介中心性表示某节点对连结其他节点的重要程度[22]64-65。gi(kj)表示任意两节点k和j间最短路径中经过节点i的数量,g(kj)表示网络中任两节点最短路径的总数,以比率gi(kj)/g(kj)表示节点i媒介能力的强弱。为排除网络规模效应的影响,在此基础上除以节点总数n两两组合的最大可能数(n-1)(n-2)/2。节点i中介中心性的规范化数学表达式为:

节点的中介中心性越强,网络中信息传播和资源交换的有效运转对其依赖程度就越大,对其他节点的信息获取和资源占有施加影响[23]。既往研究多从行动者的潜在权力角度挖掘意义,通常认为中介性强的个体有能力影响流动速率,甚至改变传播内容,从而更有效地服务自身利益。学者节点合作网络情境下,中介中心性突出的科学家处境优越,更可能吸引优秀学者与之合作,进而收获理想产出。论文节点网络模型中,中介中心性强的论文在知识传播中地位突出,其作者亦是媒介力较强者,更可能得到较多引用。因此,提出假设如下:

H3a:学者在学者节点合作网络中的中介中心性与其学术影响力为正向影响关系。

H3b:学术论文在论文节点合作网络中的中介中心性与其学术影响力为正向影响关系。

2.3 因变量:被引量

学术引证是学者借鉴既往成果的正式体现,被引量因此成为学术影响力评估的重要指标。本研究以被引量代表学术影响力。在学者节点合作网络中,学者的学术影响力由其在样本中发表论文的被引量之和表示。在论文节点合作网络中,论文的学术影响力由其被引量表示。既往研究部分采用被引量衍生指标表示科研产出,如篇均被引量、h指数和g指数等。如上衍生指标虽能较合理地反映个体综合科研产出,但因与本研究设计不相符合而未被采用:篇均被引量完全不考虑发表数量,更适合用以评估研究质量,且受学科领域影响较大[2];h指数和g指数则与前者相反,在以Science为样本期刊的研究中,二者几乎仅能体现发表数量。

2.4 控制变量:发表时长

本研究样本时间跨度大,为排除时间因素的影响[2],特将发表时长设置为回归分析的控制变量。在以论文为节点的合作网络中,控制变量即论文发表时长,计算方式为2018与论文i的发表年份之差。在学者节点合作网络中,控制变量为学者i在样本中所有论文发表时长的平均值。本文将时间控制变量纳入回归分析自变量组,以此剥离发表时长对被引量的影响,更纯粹地探究被引量与网络指标的关系。研究框架如图1所示。

图1 研究框架

3 数据描述

3.1 样本选取

本研究样本选取主要出于以下考量:

(1)样本期刊的选取。作为一项以当代自然科学领域科研合作网络为对象的研究,样本期刊应在科学界有充足的影响力,其内容应能覆盖自然科学的主要领域。已有分析表明,Science期刊的影响力和综合性在全球自然科学刊物中首屈一指[26]。因此,本文选取Science作为样本期刊。

(2)样本起始时间。自然科学论文存在显著的“老化效应”(ageing effect),一般在见刊后6~10年左右,因内容过时而不再被同行引证[27-28]。高被引论文和高被引期刊论文的引证寿命长于一般论文,其中有不少在见刊12~20年后仍处于被引活跃状态[29]。本研究样本属于高被引期刊论文,所设定的起始时间宜将样本中首篇论文见刊日,与被引数据提取日的时间差控制在20年内。

(3)样本截止时间。学术论文自见刊到被同行发现、再到收获首项引证之间需经历一段时间,这也被文献计量学家冠以“时滞效应”[2,10](time lag effect)。由于“时滞”的存在,以评估学术影响力为目的的研究宜规避新近刊出的论文。研究显示,自然科学论文刊出后1年内的被引数据对文献计量分析尤为重要[28]。本研究样本截止时间为样本中最新论文预留1年左右的被引积累期。

(4)样本时间跨度。一方面,由于“老化效应”和“时滞效应”,过长的时间跨度会对实证分析产生不利影响;另一方面,在Science期刊载文量有限的条件下,只有延长数据收集的时间跨度,才能确保充足的样本规模。由于本研究于2019 年5 月底完成被引数据提取,为兼顾两方面因素,最终将提取样本数据的起始时间定为2000年1月7日,将截止时间定为2018年6月1日。

3.2 数据来源与说明

本研究以统计软件R为数据分析以及网络可视化工具,所需数据取自Web of Science核心合集数据库。数据库显示,Science于样本期间内刊载的类型标识为“article”的文献计有14,914 篇。本文提取全部 14,914 篇论文的标题、被引量、作者姓名、所属机构、发表日期等信息,其中1篇文献因信息不全被排除。样本库共有 14,913 篇论文,694,666 组两两合作,107,493名作者,其中16,051名作者在样本中有2篇以上发表物。以此为据,本研究搭建矩阵规模分别为16051×16051、14913×14913 的学者节点合作网络和论文节点合作网络。

3.3 描述性统计

科研合作在Science期刊中十分普遍。图2展示了学者节点合作模型中,程度中心性最强的50名学者的网络图,节点上方标识为学者姓名及中心性排序。即便在主题高度综合性的期刊中,程度中心度强的学者之间也有极为密集的合作。表2描述了论文作者数,以及论文节点网络中程度值的分布情况。作者数量在5人以上的论文占总样本量的55.29%,独著论文仅占比1.88%。在以论文为节点的网络模型中,与其他论文无重合作者的论文共4,210 篇,占比28.23%;70%以上论文节点与1篇以上的其他论文因有共同的作者而连结。如表3所示,样本学者的学术影响力均值高、差异大,普遍较为资深,网络中心性整体水平较高且个体之间波动不大。论文网络中各项指标的统计量也呈现出相似的趋势。

图2 程度中心性最强的50名学者间合作网络图

表2 样本论文作者数和程度值统计表

表3 变量描述性统计表

4 实证检验和结果分析

4.1 相关性分析

表4为Spearman相关性分析结果汇总。结果显示,被引量与除了论文节点论文网络模型下的紧密中心以外的中心性指标呈显著正相关,与H1a、H1b、H2a、H3a 和 H3b 相一致,而与H2b不符。论文节点论文网络模型的紧密中心性与被引量之间显著负相关,我们怀疑这是由于未控制论文发表时长所致。论文发表时长与被引量显著正相关,与3种中心性呈现显著负相关,又尤其与论文网络紧密中心性的负向相关最为显著。为了控制发表时长的影响,本文将其作为控制变量纳入OLS回归分析,再次检验假设。

4.2 回归分析

表5展示了OLS回归结果。回归(1)(2)(3)分别检验了学者节点合作网络模型中,3种中心性对学者被引量的影响,与H1a、H2a和H3a相对应。回归(4)(5)(6)分别检验了论文节点合作网络模型中,3 种中心性对论文被引量的影响,与H1b、H2b、H3b相对应。结果表明,本文提出的6项假设均得到了理想验证。

表4 Spearman相关性分析表

表5 OLS回归分析表

回归(1)检验了学者节点合作网络中,学者程度中心性对其被引量的影响。在控制了发表论文年份的情况下,回归系数为23150.330,说明学者程度中心性每增加0.01,能为其被引量带来231.50330的提升。与之相似,在回归(2)和回归(3)中,紧密中心性和被引量,中介中心性和被引量的回归系数都显著为正。因此,H1a、H2a、H3a在回归分析中得到了较好验证,学者在合作网络中的程度中心性、紧密中心性、中介中心性与其学术影响力为正向影响关系。

回归(4)检验了论文节点合作网络中,论文程度中心性对其被引量的影响。在控制了发表时长的情况下,回归系数为87514.040,论文程度中心性每增加0.01,能为其被引量带来875.14040的提升。回归(5)的分析结果,印证了本文关于Spearman相关性分析结果与H2b不符原因的猜想。在控制论文发表时长的影响之后,紧密中心性与论文被引量的回归系数为12.043,表明在论文节点合作网络中,论文节点的紧密中心性与其被引量为正向影响关系。因此,H1b、H2b、H3b在回归分析中得到了较好验证,学术论文在论文节点合作网络中的3种中心性与其学术影响力为正向影响关系。

回归分析结果(1)(2)(3)的R2比回归(4)(5)(6)大,意味着学者节点科研合作网络模型中回归分析的解释力度,强于以论文为节点的论文节点合作网络模型。这由2种网络模型不同的结构特点导致。论文节点合作网络以论文为节点,中心性指标无法体现论文数量;而学者节点合作网络以作者为网络节点,因变量为学者在样本库中全部论文被引量总和。因体现了学者发表论文的数量,学者节点合作网络模型下回归结果R2更大,拟合度更高。

5 结论与讨论

本研究旨在辨明学者在科研合作网络的中心性对其学术表现的影响。为实现这一目的,收集2000年1月~2018年6月间Science期刊刊载的所有学术论文信息,分别构建学者节点网络模型和论文节点网络。在2种网络模型中开展相关性分析和回归分析、验证研究假设。分析结果有力地支持了本文提出的6个假设,即在2种网络模型下,3种网络中心性与学术影响力均为正向影响关系。

程度中心性与学术影响力为正向影响关系。程度中心性指标描述节点在网络中直接连结的充分水平[22]62-63。学者节点合作网络模型中,程度中心性高的学者拥有更多合作者,更容易通过与诸多学者交流思想和共享资源来提升论文研究质量。同时,拥有更多合作者的成果更可能得到同行关注和合作者支持,进而提高被引量。在论文节点合作网络模型中,程度中心性强的论文节点由于其高产的作者更容易被学术界所熟知。

紧密中心性与学术影响力为正向影响关系。紧密中心性指标描述节点与其他节点的接近程度,在学者合作关系中衡量与其他学者距离远近[22]64。在学者节点合作网络中,紧密中心性越高的学者更容易与网络中的同行建立联系,能够高效地获取学术信息和资源并开展合作,收获高评价的研究成果。而在论文节点网络模型中,紧密中心性强的论文节点可能更容易得到学术共同体的关注。

中介中心性与学术影响力为正向影响关系。中介中心性指标描述某节点对于连结其他节点的重要程度[22]64-65。在学者节点合作网络中,网络中信息传播和资源交换的有效运转对中介中心性越高的学者依赖程度越大,对其他学者的信息获取和资源占有施加影响,因此促进学术影响力提升。在论文节点合作网络模型中,中介中心性强的论文在知识传播媒介中地位突出,更可能得到较多关注和引用。

本文系统回顾了境内外学界关于科研合作网络的研究,梳理了中心性分析的计算方式及其含义,为今后同类型研究提供参考。作为探索性定量研究,本文具有一定的理论贡献。第一,介绍Gaskó等学者提出的以论文为节点的合作网络模型,将之应用于实证分析,以提升结果稳健性[21];并与学者节点合作模型的分析结果比较,丰富了论文节点合作模型的应用研究。第二,基于对庞大样本进行规范化实证分析,验证了学者个体在科研合作网络的中心性对其学术影响力的正向影响,进而厘清二者关系,弥补已有研究的疏漏。

本文仍然存在局限性。首先,本文限于篇幅未将合作关系强度纳入研究范围。学术界关于科研合作网络连结强度、网络封闭程度与学术产出之间的关系尚未达成一致意见,该议题有待进一步研究充实[30-32]。其次,本文没有考虑到作者所属机构、区域对合作网络中心性和学术影响力的影响。最后,虽然Science期刊的影响力和综合性在全球自然科学刊物中具有代表性,还可以扩大选取同位阶综合性科学期刊,进一步扩大样本。

注释

①于此举例说明科学家节点科研合作网络的局限。在Science自2000年1月至2018年6月刊载的论文中,尽管在样本库中占比54.53%的论文合作者数量在6 以下,仍有5.03%的论文合作人数在100以上,最大值为2007年11月刊载的一篇天体物理学论文,由446位研究者共同署名。在科学家节点合作模型中,一位刚入行就参与这项庞大研究的科学新人,其度值与程度中心性可能远远高于绝大多数理论物理学家。

猜你喜欢

影响力学者学术
学者介绍
学者简介
学者介绍
学术是公器,不是公地
学术动态
学术动态
对学术造假重拳出击
天才影响力
黄艳:最深远的影响力
学者介绍