APP下载

科研合作网络中团队成员对创新团队演化的影响:以机器学习领域为例

2022-03-03伟,

关键词:生存期时分参与者

赵 伟, 夏 昊 翔

(大连理工大学 经济管理学院,辽宁 大连 116024)

一、引 言

近几十年来,无论是科学研究还是技术开发,团队和创新群体的作用日益显著。科学正在从“小科学”走向“大科学”。由“孤独的天才”引领重大的科学突破的时代已经过去,当代的热点科学问题,例如转化医学、环境可持续发展、网络学习、灾难应变等,都呈现研究的复杂性,需要成员间通力合作来解决[1-2]。科学研究日益规模化,科研活动已经从分散的、个人的行为逐渐演变成一种跨学科、聚焦型、多人参与的集体协作行为[3]。从结果上看,科研团队正在替代单个科学家,产生有更高影响力的科学研究成果[4]。团队和创新群体在技术攻关中的作用则更为显著,从大规模复杂软件开发到航空航天领域的技术攻关,无不依赖团队和创新群体的集体智慧。正因如此,科技创新团队及创新群体的研究正引起科学学和科技管理学界的广泛关注。在我国推动创新驱动发展的征程中,高水平创新团队和群体的培育和涌现对于提升我国科学技术发展水平有着至关重要的作用。我国依托国家自然科学基金创新研究群体项目等大力培养高水平科技团队和创新群体。但如何更有效地推动高水平的团队和群体的涌现和发展,这依旧是一个值得深入探讨的研究课题。其中,对科技创新团队和群体的组织、运作与演化规律的探究具有基础性的意义。

从上面的简述可以看到,人们对科研团队组织、运作和演化的模式与规律已取得了一定的研究成果,但总体上当前对这一问题的认识还有待进一步深化。特别是,通过实际科研领域数据分析来探索科研团队演化模式和机理的研究还较少。近年来大规模学术知识图谱(Academic Knowledge Graph)的兴起为进一步深入探索科研活动和科学知识发展提供了极大助力。这类大规模知识图谱亦有望对数据驱动的科研团队研究产生推动作用,特别是,借助大规模学术知识图谱可以对科研团队和创新群体的演化模式和机制形成带来深入的认识。

在数据分析方法上,复杂网络分析方法为探索大规模科研文献数据集中科研团队的结构和演化提供了有力工具。从科技文献出发,可以依据作者之间的论文合著关系构造作者合著网络,在作者合著网络的基础上通过作者之间的紧密合作关系来识别科研团队,从而分析团队的结构特点和演化规律。因此,本文基于大规模的学术知识图谱数据,尝试从复杂网络的社区识别和社区演化分析入手,来探索科研团队演化的模式。本文采用改进了网络关系衰退算法的派系过滤法(CPM)进行团队演化识别,对学术知识图谱中机器学习领域的科研网络团队进行分析,从团队成员构成对团队演化影响的角度,分析了影响团队发展的因素,并尝试从团队成员组成的角度对团队消亡进行预测。

二、数据来源和研究方法

1.科研协作网络数据集的选取

本研究数据集选取自上海交通大学Acemap团队发布的学术知识图谱AceKG(https://www.acemap.info/),AceKG描述了大约1.143亿个学术实体,包括61 704 089篇论文、52 498 428位作者、50 233个研究领域、19 843个学术机构、22 744份期刊、1278个会议和3个特别附属机构。总的来说,AceKG包含了31.3亿个关系信息[22]。根据研究需要,本文过滤出机器学习这个经历过关注度爆发性增长的子领域。 本文选取1971 ~2015年时间跨度44年的所有论文、合著作者、写作年份数据,其中包含104 391篇论文,165 186位作者。这一知识图谱的实体的属性具有很大的差异性。例如,当今机器学习领域的论文数量显著地多于这一领域早期(1970~1980年)的论文数量。然而,从这一涵盖面较大的数据集出发可以较为全面地刻画机器学习领域国际上主要科研团队在过去40多年来的形成和演化过程。

2.时分科研合作网络的创建

首先,我们采用“时分科研合作网络”(TSCN)来研究科研团队的演化。时分科研合作网络是在不同时间片下一系列科研合作网络的快照的集合。在每个时间片下都是单独的一个科研合作网络TSCN(V,E)。V代表当前时间片作者的集合,E代表当前时间片作者合作关系的边集合。

科研合作网络中的合作关系在文章发表后会继续存在,随着时间流逝合作关系也会逐渐消失[23]。本文使用合并连续X年合著关系建立时分科研网络的方法,来模拟科研合作网络中合作关系的存续及消失。为了确定X的取值,统计了在机器学习领域中作者再次合作的间隔时间,如图1所示,作者在1年内再次合作的次数最多,随着时间间隔变长统计到再次合作的次数快速递减。在3年内再次合作的时间点曲线出现第一个拐点,因此,本文把X取值定为3,假设3年内没有再次合作的作者间合作关系断裂,之后两人再次合作就认为是开始一段新的合作,作者间隔3年内再次合著占统计次数的84.3%。确定S值后,利用提取的数据集中的文章发表年份信息,以年为单位,合并出1973到2015年间共42个时分科研协作网络。每个时分科研合作网络包括当年和前两年的作者及合著关系。例如2009年的时分科研合作网络由2007年、2008年、2009年的论文合作关系组成,网络演化到2010年时,时分网络变为2008年、2009年、2010年的论文合著关系组成。

图1 两作者再次合作的时间间隔分布曲线

3.时分科研合作网络团队识别方法

网络中的社区识别和社区演化分析方法是研究作者合著网络中科研团队的基础,对此学界已开发了多种方法。例如GraphScope[24]、FacetNet[25]、PioGED[26]等。 Palla等人提出派系过滤法(CPM)[27-28],并利用这一方分析科研合作网络等社会网络中的团队演化[29]。CPM允许团队群重叠,这一方法更有利于分析团队随着时间的演化过程。因此,本文使用CPM方法对每个时分科研合作网络进行团队识别。CPM方法通过找到网络中所有K连通子图,并合并其中相邻子图的方式(共享其中k-1个节点)来达到互通。CPM方法有两个参数K连通子图的K值和权重阈值w。在时分网络建立时,关系衰退关系已经被识别,所以这里不需要再考虑权重阈值w,只需要确定k群簇(k-clique)中的k值。

从常识来看,在团队演化的各个时期成员大概率还会在同一个团队中,所以在选择参数k的取值时,以能保证成员在时分协作网络的各个时期划分在同一个团队中的程度来评估参数准确性。为此本文提出了k取不同值时的网络团队成员偏出量DV(k),用以度量团队成员在团队演化过程中未被连续划分到同一个团队的程度。DV(k)值越低代表团队成员划分到组外的程度越低,所取的k值划分效果越好。团队成员偏出量DV(k)的定义如下:

(1)

其中,G代表演化网络中的团队总数,GV(g)代表团队g中所有成员的偏出量的均值,GV(g)的计算公式如下:

(2)

公式中M代表团队g中所有成员,DLm代表了成员m在团队g演化过程中没有被划分到团队内的时间,NLm代表成员m在团队g内的生存期。我们分别计算了k值为3、4、5时的网络团队成员偏出量及划分的团队数量,如表1所示,k=3时,长周期的成员也有很低的网络团队成员偏出量,同时团队划分粒度更细,可观察的团队生命期更长,所以这里我们取k值为3。

表1 k取不同值时团队的演化分数对比

4.时分科研合作网络中团队的演化

团队演化是网络中连续的时间窗口(时分网络)中一系列事件(变化)相继发生的结果。Palla等人[28]对团队演化形态的划分,本文确定使用7种独立的事件:

(1)团队不变:在连续的两个时分网络中团队的规模不变,部分成员可能离开或加入。

(2)团队收缩:部分成员离开导致团队的规模收缩。团队可能只离开几个成员或者剧烈收缩减少大部分成员。

(3)团队扩张:新成员加入使团队的规模增加。团队的规模可能只增加几个节点,也有整体规模扩张为前一个时间片两到三倍的可能。

(4)团队分裂:当一个团队在下一个时间片分成两个或多个团队时,就认为发生了团队分裂。分裂发生后可能形成两个规模相当的团队,或者分裂为一个“主团队”及远小于原规模的“子团队”。

(5)团队合并:当几个团队在下一个时间片合并为一个团队时认为团队合并。

(6)团队消散:当团队内成员在下一个时间片都离开或者彼此间不再合作,团队即为已经消散。

(7)团队新增:与团队消散相对应,当下一个时间片中的团队没有与之对应的演化前团队时,就认为团队是新增的。

我们采用CPM团队演化法,利用t和t+1时刻时分科研合作网的联合图中的团队分别去匹配t时刻的团队和t+1时刻的团队,识别出不同时期同一个团队的演化过程。

三、“机器学习”领域科研合作网络中的科研团队演化

1.时分科研合作网络中团队规模分布及演化

首先,分析时分科研合作网络每个时间片中网络中团队的规模。分析只需要对机器学习领域的合作网络有整体的了解,所以对整个时分网络,只从1985年开始每隔5年截取一个网络进行对比,团队规模及不同规模下团队数量的对数分布如图2所示。可以看出机器学习领域演化网络中团队规模都近似服从幂律分布,并且随着领域的发展,时分网络中的团队规模和团队数量都在逐步增加。

图2 团队规模及不同规模下团队数量分布图(对数标尺)

2.时分科研合作网络中团队生存期的分析

另外一个感兴趣的研究是机器学习领域中不同生存期团队的分布情况,把不同生存期团队的数量取对数后的结果如图3所示。从图中可以看到不同生存期团队数量在对数坐标系下匀速减少,生存期3年以内的临时团队在网络中共用20 000多个,而生存期14年及以上的长期团队在演化网络中的数量只有个位数。

图3 不同生存期团队的数量分布图

3.不同时期新增团队的生存期比较

在一个不断演化的网络中不同时期形成的团队的生存期是否相同?例如1980年的团队平均生存期与2000年团队的生存期是不是一样?为此统计了各个时期团队的生存期如图4。可以看出团队平均生命期是逐渐增加的,初始的震荡过程认为是数据不足造成的,最后几年的平均生命期下降是因为很多长周期团队还没有结束造成的。

图4 不同时间片下新生成团队平均生存期

四、团队成员对团队演化的影响分析

Palla等人使用CPM方法得出了小团队成员稳定更有利于团队长期存在,大型团队成员不断变化更有利团队的长期存在的结论[28],本文从团队中成员组成的角度,分析小型团队和大型团队的成因及影响团队长期存在的因素。

1.团队成员的分类

本文根据团队成员在团队中生存期的不同,把团队中成员分成3种角色:

(1)短期参与者:短期参与者在团队中的生存期小于等于3年,因为我们以3年为单位合并网络,所以只在短期内合作一篇或多篇文章的参与者会在3年内被识别出来。这类成员可能是在学校完成学业后并没有继续留在学术领域的成员。

(2)持续参与者:持续参与者是在团队创建时就存在,并在消亡始终存在的成员。虽然持续参与者的认定条件比较苛刻,但经过统计发现,96%的团队中存在持续参与者,并且在团队中平均占比达到43.3%,这类成员很可能是团队的核心人物或领导人。

(3)中长期参与者:介于短期参与者与持续参与者之间的成员称为中长期参与者,这类成员也始终投入学术研究,可能是中间加入或者后来离开了这个团队的成员。

2.团队成员对团队规模的影响

团队的规模作为团队的基本属性之一,规模越大的团队成员间可以做更细的分工,产生规模效应、提高生产率。但在团队规模增加的同时成员间沟通成本也会增加,对生产率提高又有着负向的影响。所以,团队应该根据工作的性质,酌情控制团队的规模。本文从生存期5年的团队开始每隔3年生存期截取一次,得到不同规模的团队中成员数量的对比,如图5所示,可以看到不同生存期的团队在规模增加时,短期参与者人数都会迅速增加,中长期参与者数量在生存期长的团队中比在生存期短的团队中所占的比重更大,持续参与者人数在不同生存期的团队中所占的比重几乎不变,甚至在相同生存期的团队中团队规模持续增加参与者人数反而会减少。

图5 团队生存期5年、8年、11年、14年的成员数量统计

由此可以推断出,团队规模增加与团队中持续参与者数量无关,主要是因为短期参与者加入引起的。对于想扩充规模的团队,必须要不断吸纳新成员,并增加团队的生存期使得其中一部分短期成员转变为中长期参与者。

3.团队成员对团队生存期的影响

团队的生存期代表了团队存续的时间。团队的生存期越长,团队中成员的熟悉程度越高、知识的同质化程度也会越高。所以团队的生存期与团队的绩效不一定相关。已有研究表明成员的低流动性与知识保留相关,成员的高流动性与知识的创造和转移相关[30]。显然,工作目标的不同导致团队的生存期长短各有好处。例如研发部门在团队生命期短、人员流动性高的情况下蓬勃发展[31],而在需要知识沉淀的工作下,生命期长的团队会更有优势。

图6比较了不同规模的团队中,成员在不同生存期的团队中的平均数量。观察可得,短期参与者数量与团队的生存期并不相关,中长期参与者数量随着团队生存期增加而成比例增加,但可以认为这是因为随着团队生存期变长中间参与者随之增加的正常现象。比较有趣的是,图中可以发现随着团队生存期增加,团队中持续参与者数量并没有成比例增加,反而出现了数量上的减少。

4.团队中持续参与者数量的统计

我们单独统计了不同生存期的团队中持续参与者数量及所占的比率,结果如图7所示。可以看出随着团队生存期的增加团队中持续参与者数量及在团队中的比率是逐渐下降的。与3年内是团队内短期成员划分标准类似,我们也认为生存期1~3年的团队是短期存在的团队,可以看到对于生存期4、5年这种刚刚超过短期团队的团队,团队内持续参与者占比在50%左右。所以,我们得出团队内持续参与者占比大有助于团队短期内的存在,但是减少团队内持续参与者数量和比率更有利于团队的长期发展。

五、对即将消亡团队的预测

在对团队成员和团队关系相关性调查时,我们发现在团队发展的过程中成员数量会有一个逐渐增加的趋势,而在很多消亡的团队中,都观察到在即将消亡前团队规模呈现下降的趋势。利用团队的这个特性,我们提出了一个团队消亡的预测方法:在时刻T的团队成员规模MST与T-1时刻成员移动的平均规模GMH(T-1)比较,如果成员当前规模小于成员移动平均规模,就预示着团队成员规模处在一个下行趋势中,团队有消亡的风险:

(3)

其中MLt代表t时刻团队的生存期。我们利用该公式,对团队生存期进行预测。因为生存期1至3年的团队,我们认为可能是一次合作随即消亡的团队,我们从生存期为4年的团队开始统计,结果如表2所示。可以看到对生命期为4年的团队的预测查准率是100%,查全率只有5.34%,随着团队生存期的增加,预测时查准率逐渐下降,查全率逐渐提高,生存期为15年的团队查准率为33%,查全率为100%。可以看到在团队生命期短的时候,团队成员数量稳定,出现团队成员得分减少的情况就预示着团队即将消亡,但是团队消亡也可能是其他原因造成的,用这种方式可以检查出团队的消亡,但是不能预测出所有的消亡情况。在团队生存期达到15年时,使用团队成员得分减少的预测方法可以检测出所有的消亡情况,但是达到预警值时团队不一定会消亡,也可能通过团队成员努力促使团队回归正轨。

表2 不同生存期团队消亡预测的查准率和查全率

六、结 论

本文采用改进了网络关系衰退算法的派系过滤法(CPM)对机器学习领域的团队演化路径进行识别,并提出团队在演化过程中的7种事件及团队中成员的3种分类。Palla等[29]的研究显示:小团队成员稳定更有利于团队长期存在,大型团队成员不断变化更有利团队的长期存在。在这些研究基础上,本文进一步分析了团队成员分类对团队规模和团队生存期的影响,经过分析发现短期参与者是影响团队规模的重要因素,规模大的团队是因为有更多的短期参与者的加入,团队中的持续参与者与团队生存期相关,在生存期短的团队中持续参与者数量和占比都要比生存期长的团队更高。科研工作者可以根据工作的性质有目的地选择团队中持续参与者数量及是否要吸纳大量新成员,达到控制团队规模和团队的生存期趋势以更好地为科研工作服务的目的。

本文利用移动平均法实现了一种预测团队消亡的方法,利用文章使用的数据集,在团队生存期较短时可以准确地预测出团队的消亡,在团队生存期较长(大于15年)时可以预测出所有的团队消亡。根据以上发现,科研工作者为了更好地完成研究工作,可以根据工作的性质有目的地选择成员,达到控制团队规模和团队的生存期趋势的目的。本研究亦对科研管理部门管理科研团队和创新群体、促进团队和群体的健康发展具有一定的借鉴意义。

尽管取得以上研究成果,但本文还存在一定的不足。未来作者将进一步针对更大领域跨度的大规模知识图谱对本文所提方法加以检验,探究本文所发现的团队演化模式的普适性。本文的另一项后续工作是利用复杂系统建模与分析的方法探究本文所解释的团队演化模式背后的深层机理。

猜你喜欢

生存期时分参与者
门限秘密分享中高效添加新参与者方案
派对时分
当心,说谎会上瘾!
享受生活的老人活得长
感染性心内膜炎手术治疗的疗效观察
肝癌TACE术后生存期小于1年及大于3年的相关影响因素分析
夜半凄厉的哭泣声
梦醒时分
街头高尔夫
佳节时分