基于社会网络分析的科研机构创新产出研究*
——以人工智能领域为例
2021-01-22高先珂卢涛
■ 高先珂 卢涛
1.中国科学院大学中丹学院 北京 100190
2.中国科学院大学经济与管理学院 北京 100190
0 引言
人工智能已经成为国际竞争的新焦点,中美两国都出台战略性文件来支持人工智能领域的科学研究。例如,2016年10月,《为人工智能的未来做好准备》、《国家人工智能研究和发展战略计划》和《人工智能、自动化与经济报告》三份重要报告由白宫科技政策办公室发布,探讨了美国人工智能的发展现状、应用领域以及潜在的公共政策问题[1]。2017年7月,中国国务院印发了《新一代人工智能发展规划》,明确指出新一代人工智能发展分三步走的战略目标,到2030年使中国人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心[1]。2019年1月,联合国下属的世界知识产权组织(World Intellectual Property Organization,WIPO)公布的人工智能发展趋势研究报告,显示在全球人工智能领域的竞争中,美国和中国处于领先地位[2]。美国在人工智能领域具有一定的优势,中国发展较快,正在努力追赶。
科研机构是开展科学研究的基本单位之一,是国家科技战略布局中进行政策管理和科技投入的主要对象,也是创新生态系统中的重要主体,为创新创业提供创意、创新和技术来源,在国家大力打造“大众创业、万众创新”升级版的战略背景下,国家自然科学基金委设立了“面向双创升级版的区域创新创业生态系统演化与政策保障研究”的面上项目,本文是该项目的部分成果,为厘清科研机构和高校在生态系统中的地位和作用提供了重要参考。科研机构的创新产出水平可以用机构内部科研人员已发表论文的数量和质量两个指标进行衡量[3-4],其创新产出水平与取得政府部门科研资助和获得学术声誉直接相关,与吸引来自世界各地的高水平科研人员以及高素质学生群体间接相关[3,5]。
基于人工智能学术文献开展的科学计量以及合著网络的研究已经取得了不少理论成果[6],但研究大部分集中于国家和国际比较层面,缺少具体机构层面对比分析的实际应用。立足人工智能领域,利用文献计量学的方法对中美两国顶尖研究机构的创新产出水平进行机构层面的对比分析是十分必要的,这有助于理清中美两国人工智能科研机构的创新水平、合作模式和研究的侧重,为科研管理提供科学的决策依据。科研机构内部科研人员本身的客观条件、研究能力和拥有的学术资源以及所处合著网络的位置属性特征都会对自身的创新产出造成影响[7]。本文利用简历挖掘对科研人员的背景信息进行收集,利用社会网络分析方法研究我国科研人员在合作网络中的影响力以及对网络资源的控制能力与创新产出的关系,有助于科研人员发展合作关系,有效地对自身合作网络进行管理并改进创新行为。
1 研究方法
1.1 研究案例
本文选取中国科学院自动化研究所和美国麻省理工学院计算机与人工智能实验室作为研究的案例对象,这两所科研机构都是中美两国在人工智能领域的顶尖科研机构,从成立时间、机构设置、研究领域、科研人员数量等方面具有一定的相似性。
中科院自动化研究所(Chinese Academy of Sciences Institute of Automation, CASIA)成立于1956年。1990年,自动化所以控制科学为基础整合相关研究资源,在国内率先布局并开展了人工智能领域的研究。截至2019年底,研究所设立与组建包括国家重点实验室及研究中心在内的14 个相关研究部门,共有包括科研人员、硕博士生在内1499人,在中国人工智能领域学术机构排名中位列前茅。
美国麻省理工学院计算机与人工智能实验室(MIT Computer Science & Artificial Intelligence Lab, CSAIL)成立于1959年。成立以来,已经从美国政府机构处获得了多个人工智能科学基金项目的资助,以开展人工智能领域的研究。截至2019年底,实验室设立了10 个研究部门,共有包括科技人员、访问学者、硕博士生在内共1288 人,在美国人工智能领域学术机构排名中位居第2[8]。
1.2 社会网络分析法
知识网络和合作网络是社会网络研究与应用的两个重要分支。知识网络是以知识关系的描述为基础构建的网络,节点可以是不同的知识单元,例如,主题词、学科、引文、关键词等。为了反映两所机构的研究热点,本文以论文关键词为节点构建知识网络,并呈现科研机构内部不同研究主题之间的相关关系[9]。
两个或两个以上作者共同发表论文构成了合著关系,论文合作网络是基于论文合著关系构建的网络[10]。为了研究我国机构内部科研人员在合作网络中的影响力以及对网络资源的控制能力与创新产出的关系,本文构建了中科院自动化研究所的论文合作网络,分别用度中心性和结构洞来衡量论文合作网络中节点的影响力和资源控制能力[11-12]。
其中,度中心性(DCi)描述的是节点在网络中的核心程度。表示公式如下:
其中i代表节点,di代表节点的度,N是节点的总数。节点的度中心性越高,节点在网络中的影响力越高。
结构洞则是用来描述网络中部分个体之间的联系存在“空缺”的一种状态。假设A、B、C 三个结点组成一个简单网络,如果网络中三个结点之间均有连接,则网络是封闭的。如果A、B 之间没有连接但都与C 相连,则C所处的位置就为结构洞。存在结构洞的个体对于网络的互联性十分重要,它们会发挥网络信息传递中“桥梁”作用。结构洞可以使用限制度来衡量[11],表示公式如下:
其中,Pij表示节点i与j连接数量与节点i和所有节点连接数量的比值,aij是节点i与节点j之间连接的边的数量。Pik和Pki具有类似的含义。Cij代表了节点对节点j的二元限制度。节点i的总限制度用公式表示为:
若网络中节点i 与另一个节点紧密联系,同时也和其他节点紧密相连,则节点i的限制度很高,此时结构洞不存在或很少。节点的限制度与存在的结构洞数量呈负向相关关系,为避免分析结果中负值的出现,本文采用Si= 2 - Ci来测量节点i的结构洞[13]。
表1 机构论文数据检索式
2 数据来源
本文研究数据为已发表论文的引文数据,来源于科睿唯安公司的WOS(Web of Science)核心数据库。为了得到精确的检索结果,本文对署名单位分别归属于上述两个研究机构的论文发表情况进行了预检索,最终构建的检索式如表1所示。语言限定为英语,文献类型限定为“article(文章)”。中科院自动化研究所于1982年开始招收硕士和博士研究生,与麻省理工学院计算机与人工智能实验室的培养模式具有一定的可比性[8]。因此,数据时间范围选定为1982年至2019年。使用#1 检索式对中科院自动化研究所的论文数据进行检索,得到4216条论文收录记录。使用#2 检索式对麻省理工学院计算机与人工智能实验室的论文数据进行检索,得到3873条记录。每一条论文数据包含标题、关键词、作者、被引次数、发表年份等字段。
3 分析与结果
3.1 创新产出对比
本文选用研究机构内部科研人员已发表论文数量以及论文被引频次来衡量机构创新产出水平,选用篇均作者数衡量创新合作规模。如图1所示,图1(a)代表了篇均作者数,从图中可以看出两个机构的论文合作规模总体都呈现增长态势,2006年两个机构的论文合作规模趋于一致,在之后的年份中科院自动化研究所的论文合作规模以年均3%的增长率缓慢增长,而麻省理工学院计算机与人工智能实验室则以年均104%的增长率高速增长。2006-2019年间中科院自动化研究所的篇均作者数量是5.1,麻省理工学院计算机与人工智能实验室的篇均作者数量是8.5,均高于全领域篇均作者数量平均值4.1[14],这说明2006-2019年间麻省理工学院计算机与人工智能实验室的篇均论文合作规模大于中科院自动化研究所,人工智能领域的篇均论文合作规模高于其他学科。
图1(b)代表了机构的论文发表数量,麻省理工学院计算机与人工智能实验室论文数量一直呈现缓慢上升的趋势。中科院自动研究化所在1982 至1997年间的年均论文数量低于10 篇,在1998年以后论文数量呈现快速增长态势,并于2006年第一次超过麻省理工学院计算机与人工智能实验室。对论文数量的分析中发现,1998年和2006年对于中科院自动化研究所来说是两个关键的时间节点。回顾中国科技发展政策,1997年9月中国共产党第十五次全国代表大会提出了“科教兴国战略”和“可持续发展战略”,1998年6月,国务院成立了国家科技教育领导小组,并且在中科院开展知识创新工程试点工作[15],国家政策和创新试点工程正向地影响了研究所论文发表数量,与1998年后论文数量的快速增长息息相关,这一阶段实现的论文增长属于政策驱动型的[16]。回顾人工智能发展史,2006年Hinton 等人利用深度学习算法在计算机图形学领域取得了极大突破,获得了学界的广泛关注,并迅速成为了机器学习领域的热门研究方向,被称作深度学习的元年[17],此变化与2006年后中科院自动化研究所呈现的论文数量快速增长曲线相符,因此这一阶段的实现的论文增长属于技术创新驱动型的[16]。
为了深入观察2006年后论文数量的增长趋势,本文选用了相对增长率(Relative Growth Rate, RGR)和倍增期(Doubling time, Dt)两个指标作为衡量标准[18]。相对增长率反映了在一定时间范围内发表论文数量的增长情况,倍增期表示发表论文数量增加一倍所需的时间。中科院自动研究化所和麻省理工学院计算机与人工智能实验室的逐年相对增长率和倍增期如表2所示。
图1 1982~2019中科院自动化研究所(CASIA)和麻省理工学院计算机与人工智能实验室(CSAIL)论文数量和篇均作者数
相对增长率(RGR)的计算公式为[18]:
倍增期(Dt)的计算公式为[18]:
其中,N1和N2分别代表在时间t1和时间t2累计论文数量。
从表2中可以看出,两个机构的相对增长率数值均比较稳定,相对增长率数值的不变代表论文发表的数量呈现指数型增长[19],中科院自动化研究所论文数量的相对增长率的数值明显地高于麻省理工学院计算机与人工智能实验室,论文数量的倍增期明显地比麻省理工学院计算机与人工智能实验室要短。这表明未来中科院自动化研究所发表的论文数量也会持续领先于麻省理工学院计算机与人工智能实验室,并且二者发表论文数量的差距会进一步拉大。
被引频次这一指标反映了学术同行对科研人员所发表论文的认可程度,被用来衡量发表论文的质量。图2(a)代表了总被引频次,图2(b)代表了篇均被引频次,由于被引频次存在时间上的滞后性,2015-2019年间的被引频次呈现下降趋势。中科院自动化研究所的年均总被引频次为2039.8,篇均被引频次为19.4,均低于麻省理工学院计算机与人工智能实验室的年均总被引频次7427.2,篇均被引频次76.3。尽管在2006年中科院自动化研究所的发文数量超过麻省理工学院计算机与人工智能实验室,但在之后年份的被引量上并没有呈现出明显的同步增长态势。机构层面的研究结果表明2006年后在人工智能领域我国研究机构论文发表数量高于美国研究机构,但论文质量仍然不及美国研究机构,这一发现与国家层面的研究结论相符[20]。
表2 2006~2019中科院自动化研究所和麻省理工学院计算机与人工智能实验室论文数量增长情况
图2 1982~2019中科院自动化研究所(CASIA)和麻省理工学院计算机与人工智能实验室(CSAIL)论文总被引和篇均被引情况
3.2 知识网络对比
元知识是知识网络中的重要组成部分,而关键词是论文元知识分析中的常用元素。本文对论文数据所包含的关键词字段进行元知识的提取,其中对归属于中科院自动化研究所的论文样本数据进行提取得到6672 个关键词,对归属于麻省理工学院计算机与人工智能实验室的论文样本数据进行提取得到5812 条关键词。为了分析两所机构的研究热点和趋势,本文以关键词为节点,以合著关系为边构建知识网络,并用模块度表现最优的SLM(Smart Local Moving)算法对网络拓扑结构进行聚类[21],利用Vosviewer 软件对两所机构的关键词共现图谱进行可视化。图3是中科院自动化研究所论文关键词共现图谱,图4是麻省理工学院计算机与人工智能实验室论文关键词共现图谱。根据聚类结果划分出了两个机构共同研究的五大领域,#1 逻辑与算法、#2 机器人学、#3图像处理与计算机图形学、#4机器视觉、#5机器学习。机器学习与其他领域的交叉融合很多,因此聚类效果不显著。
为了获得更为精确的比较结果,本文比较了两个机构的关键词词频向量的余弦相似度,相似度定义为[19]:
A和B是机构关键词出现的频次组成的向量,n代表向量的维度,即关键词的数量。首先计算每个关键词出现的频次并以此为基准构成两个机构的关键词频次向量A和B,运用两个向量的乘积除以两个向量大小的乘积得到余弦相似度为0.71。余弦相似度取值范围在0 到1之间,0代表相似度为0%,1代表相似度为100%[19]。因此,从余弦相似度的角度可以认为中科院自动化研究所与麻省理工学院计算机与人工智能实验室的研究方向的相似度为71%,即两个机构的研究方向大致相似。
3.3 合作网络结构和创新产出实证研究分析
3.3.1 模型及变量设置
本文从中科院自动化研究所4216 条论文数据中选定出现频次大于等于5 的作者字段,与中科院自动化研究所内部科研人员的名单进行匹配,筛选得到272 位研究者。随后,对研究者的职称、是否是中科院院士或杰出青年基金获得者、国外学习的时间以及取得博士学位后从事研究工作时间的属性数据进行了收集与匹配,最终得到样本数据。
选取的被解释变量为科研人员的创新生产力以及创新影响力,分别用科研人员发表论文的数量以及被引频次来衡量。解释变量为合作网络的度中心性以及结构洞。科研人员的创新生产力以及创新影响力受到自身研究水平的影响,因此本文选取科研人员的职称、是否为精英型学者、取得博士学位后从事研究的时间[22]、国外学习时间为控制变量。变量说明如表3所示。
图3 2006~2019中科院自动化研究所论文关键词共现图谱
图4 2006~2019麻省理工学院计算机与人工智能实验室论文关键词共现图谱
论文数量和被引频次均属于计数型变量,且样本数据中的均值与方差不等,因此本文采用负二项回归模型检验合作网络结构对创新产出的影响[23]。Rotolo的研究发现度中心性的二次方项与科研人员的创新生产力之间呈现倒U 型的曲线关系[24],因此,本文在模型中加入度中心性的二次项,构建的模型如下:
变量间的描述性统计及相关矩阵如表4所示,从表中可以看出变量之间呈现出显著的正相关关系。
表4 变量描述性统计及相关矩阵
3.3.2 分析及结果
表5呈现了利用stata 软件得到的负二项回归结果。模型(1)的被解释变量是科研人员的创新生产力,解释变量是度中心性,结果表明合作网络中的度中心性对科研人员的创新生产力有显著影响。模型(2)在模型(1)的基础上加入了度中心性的二次方项以及结构洞,结果表明网络中的结构洞对科研人员的创新生产力的影响不显著,度中心性与科研人员的创新生产力之间存在着显著的倒U 型曲线关系。模型(3)的被解释变量是科研人员的创新影响力,解释变量是度中心性,结果表明度中心性对科研人员的创新影响力有显著影响。模型(4)在模型(3)的基础上加入了度中心性的二次方项以及结构洞,结果表明结构洞对科研人员的创新影响力有显著影响,度中心性与科研人员的创新影响力之间也有显著的倒U型曲线关系。
当合作网络中个体的度中心性水平在一定合理范围内时,度中心性的提升表明合作人数的增多,知识的获取渠道能够扩大,这有助于知识传递与知识创造,有利于提高科研人员的创新生产力以及创新影响力。但是当度中心性过度提高时,科研人员会浪费过多的精力维持与其他合作者之间的关系,不利于新知识的产生,反而会负面作用于科研人员的创新生产力以及创新影响力。现有文献在国家层面的研究中发现了度中心性与科研人员的创新生产力之间存在着倒U 型曲线关系[24],本文的研究进一步表明在人工智能领域机构层面的研究中,度中心性与科研人员的创新生产力之间的倒U 型曲线关系也是成立的,同时也发现了度中心性与科研人员的创新影响力之间也存在着倒U型曲线关系。
现有的文献表明结构洞对科研人员的创新生产力有正向促进作用[25],本文的研究发现结构洞对科研人员的创新生产力的影响不显著,但对科研人员的创新影响力有显著的正向促进作用,这是因为个体拥有结构洞的数量越多,表明个体与其他机构成员发生合作关系并建立跨边界连接的可能性越大[26]。网络中拥有多个结构洞的个体比网络中的普通个体更容易访问到网络中非交互部分的非冗余信息源,增加了接触到有价值信息的可能性,因而更容易产出高质量的创新成果。
对其他控制变量的研究发现,科研人员在海外学习的时间,科研人员的职称以及精英型的研究者均对自身的创新生产力以及创新影响力有显著的正向作用,研究者取得博士学位后从事研究的时间对自身的创新生产力以及创新影响力没有显著影响。
4 结论和建议
通过上述研究和分析可以发现:
(1)在人工智能领域,我国中科院自动化研究所与美国麻省理工学院计算机与人工智能实验室的研究实力具备一定的可比性。根据本文的研究,两个研究机构的科研人员规模相近,研究方向相似度为71%。知识网络共现图谱显示两所机构有五个共同研究领域,分别是逻辑与算法、机器人学、图像处理与计算机图形学、机器视觉以及机器学习领域。
(2)中科院自动化研究所在1998年至2006年期间创新产出数量的快速增长得益于科技政策的制定与发展,而2006年至2019年创新产出数量的快速增长是源于技术创新突破。尽管2006年后中科院自动化研究所创新产出的数量持续领先于麻省理工学院计算机与人工智能实验室,但在创新成果被同行的认可程度上以及创新合作规模上仍然不及麻省理工学院计算机与人工智能实验室,机构层面的研究结果与已有文献在国家层面的研究结论一致。
(3)在中科院自动化研究所的合著网络中,度中心性与科研人员的创新生产力以及创新影响力之间存在显著的倒U 型曲线关系,结构洞对科研人员的创新影响力有显著的正向促进作用。科研人员的社会属性,如职称、是否是精英学者均对自身的创新生产力以及创新影响力有显著影响,同时科研人员在海外学习的时间对自身的创新生产力以及创新影响力有显著的正向促进作用,但研究者取得博士学位后从事研究的时间对自身创新生产力以及创新影响力的影响不显著。
基于此,为了更有效地提高自身创新产出水平,科研人员应该有选择地组建或重构自身的合作网络,大多数科研人员需要以更加积极主动的方式与感兴趣的合作对象进行沟通交流,并建立合作联系,这是因为研究时间的长短与科研人员在合作网络中获得的影响力和对资源的控制能力相关性不大,因此研究时间的自然增加并不能保证科研人员可以建立更多的合作联系。少数度中心性比较大且影响力比较高的科研人员则需要降低维系合作联系花费的时间,将更多时间用于创新知识的产出。另外,科研人员不要局限于仅与机构内部人员或熟识人员进行长期合作,应该通过跨机构合作或国际合作的方式建立广泛的连接,跨越多个结构洞并将自己研究领域的想法和技术应用到另一个研究群体面临的问题上,通过综合不同研究群体的想法进行创新,进而增加获取新信息和创新机会的可能性。
表5 负二项回归模型及结果(N=272)
管理机构则应更好地发挥创新管理的辅助支持作用,一方面为内部科研人员提供建立高质量合作联系的机会,如为人员的外出访学提供更多地支持、鼓励人员多参与国际高水平的学术会议等。另外,为内部科研人员跨越结构洞进行科学合作创造有利的条件,在这一方面可以参考麻省理工学院建设人工智能研发生态系统的相关经验,将科研院所与知名企业、初创企业等机构进行联合,生态系统内的参与者在人工智能理论研究和应用转化等方面进行合作。充分发挥生态系统的协同作用,参与者对人工智能的发展变化迅速做出反应,及时调整研究方向,产出创造性的研究成果。