APP下载

城市-大学群高被引论文作者学术产出力分布规律研究
——以人工智能领域为例

2022-11-23张贵兰潘云涛郑楚华王海燕马峥

情报学报 2022年10期
关键词:科研人员一流学术

张贵兰,潘云涛,郑楚华,王海燕,马峥

(中国科学技术信息研究所,北京 100038)

1 引言

随着城市范围内知识经济、高新科技、集约模式的兴起,城市与大学关系日趋密切,两者在互动与合作中休戚与共,相得益彰。大学的发展离不开城市的财力支持和市政保障,城市的发展有赖于大学的智力支持与辐射带动[1]。城市与大学的互动发展中,“一流”大学与“一线”城市具有高度相关性,形成“一流”大学在“一线”城市的局面。城市的经济水平对大学的质量产生了重要影响,当前我国建设“一流”大学和“一流”学科,这些大学主要集中在北京、上海、广州、天津、武汉、南京、西安、成都8所城市。

当前,城市成为高端科学技术创新资源的集聚地和区域高质量发展的主阵地。大学作为城市基础研究的主力军和人才培养的主阵地,是城市创新体系的重要组成部分,是支撑城市发展的重要引擎。同时,城市发展为大学提供了广阔的生存和发展空间,包括人才培养、科学研究等。所以,大学和城市的融合发展构成了科研人员成长发展的外部生态环境,从而进一步影响着科研人员的成长与发展。

因此,我国科技人才在区域选择方面,更倾向于经济发达的一线城市。整体而言相较于其他城市,一线城市的经济发展水平高,科学发展战略布局合理,研发经费投入高,给予人才更多优惠政策和发展空间[2],从而形成了人才流入与经济发展相互促进的良性循环。我国科研人员在机构选择方面,更倾向于科研资源优质的一流科研机构。这类机构为科研人员提供了全面的科研支持,尤其是浓厚的科研氛围、广阔的科研平台以及高潜力的学术职业发展空间。

本研究提出基于城市-大学群研究科研人员学术产出力的分布规律。以人工智能领域的高被引论文作者为例,结合数据挖掘全面获取高被引论文作者的基本信息、工作信息、承担项目数据、论文产出数据和专利产出数据,利用可视化分析、倾向值匹配等方法探究其学术产出能力的分布规律,并进一步分析城市-大学对其学术产出的综合影响;力图通过本研究梳理我国人工智能领域高被引论文作者的分布现状,为城市-大学群的发展和人才培养与管理提供建议。

2 研究进展

目前国内外对科研人员的学术产出力尚未有明确的概念界定。梳理前人针对学者学术产出的研究,相关概念有“科研绩效”“学术影响力”“学术产出力”“学术力”等。这些研究主要针对论文数量及其被引用数据展开。也有部分学者开展关于专利产出的研究。在人工智能领域,技术研究与应用深度融合,单从论文或者专利角度,都无法全面衡量该领域学者的整体学术产出力。基于人工智能领域的特点,本研究的学术产出力是指学者在科研成果方面的综合产出情况,包括论文的产出数量和专利的产出数量。

科研人员的科研产出效率是由学者的主观能动性驱动的,外界“氛围”通过影响主观能动性来加以控制,从而影响其科研创新的产出效率[3]。外界“氛围”主要包括科研环境、评价机制、社会因素等影响科研人员成长发展的客观因素,如宏观政策、社会风气、科技评价制度、团队建设与氛围等。代表性研究是Bland等[4]提出的学术产出分析框架,其认为个人特质是通过特定组织环境影响学术产出的。在现实工作中,物质激励、评价机制、社会价值观等对学者的主观能动性具有调节甚至颠覆性的影响。本课题组前期调研发现,对于科研人员来说,成就激励和精神激励远远超越于金钱等物质激励。因此,宽松良好的科研环境直接影响着科研人员的工作激情,包括组织和资源支持、团队氛围、个人自主权、人际关系等方面。组织创新环境越强烈,科研人员越容易表现出创新行为。自由宽松的、鼓励冒险与试错的创新氛围是进行科研工作所必备的。和谐的团队、研究的自主性以及多维的平台资源都能激发科研人员的创新工作热情。良好的科研生态环境会极大地促进科研人员的学术产出,相反,不良的生态环境会对其成长和发展造成负面影响,进而抑制学术产出。

前人针对学者科研产出的影响因素展开了诸多研究。过去大量对学术产出的研究都比较关注个人层面的因素,包括性别[5]、家庭环境[6]、年龄[6]、职称[6]、行政职务[7]、留学经历[8]、师承关系[9]、国际流动[10]、合作网络[11-12]等。随着组织和环境对科技人才产出的影响逐渐加大,近些年来很多研究都将个人的学术产出放到特定的环境背景下进行分析,包括科研工作环境[13]、评价机制[13]、产业发展[14]、激励机制[14]等。张光磊等[15]提出,在分析高等学校科研工作者的研究成果时,要注意其作为社会一员,若占据更高的社会地位与角色,则可获得更多、更好的社会资本,从而有助于实现自己的科研目标。周霞等[16]在研究中发现,社会资本会提高学者的科研产出数量。合理的激励机制也有利于提高学者整个学术生涯的科研产出力[17]。Fursov等[18]的研究发现,为学者提供更多的交流、合作和成长机会是提高其科研产出力的关键。Kennedy等[19]通过追踪访谈的方式探究了图书馆员高效产出的影响因素,其中,积极的研究环境、机构对研究的支持以及相应的激励措施都有重要的影响。通过前人的研究发现,一流的教学科研设施、充裕的科研基金、优越的物质生活条件和创新的单位文化都是激发科技人才创新能动性的直接影响条件。

由此可见,开放的科研生态系统环境中,科研人员的成长与发展具有一定的自选择性和自组织性,从而呈现一定的分布规律。在前人的研究中,基于城市/区域的科技人才分布研究较多,包括院士[20]、杰青[21]、高层次人才[22]等不同类型的人群。刘先红[23]在研究中发现,北京、上海、江苏、广东是我国科研人员主要的聚集中心。王运红等[24]也指出,高成长性青年科技人才大部分集中在高校和研究机构云集的地区。除城市经济发展水平的影响外,机构的综合学术水平也影响着科研人员的选择与分布。至今还未有学者研究城市与机构的相互影响下,科研人员学术产出力的分布情况,因此本研究探讨城市-大学群视角下科研人员的学术产出力分布规律。

3 数据与方法

3.1 数据来源

随着人工智能(artificial intelligence,AI)理论探索、技术研发和产业化创新应用的不断加速,加快高影响力AI人才培养已经成为中国人工智能发展面临的紧迫需求。为此,中国高校先后成立人工智能教学与研究机构,旨在培养并输出人工智能领域研究型人才。因此,本研究以人工智能领域被Web of Science核心合集收录的2010—2019年中国高被引论文的中国作者(2600名)为样本开展研究。

本研究收集了人工智能领域2010—2019年高被引(被引频次在前10%)论文12947篇,对其作者数据进行提取和消歧,并通过数据挖掘等信息技术从机构官方网站、百度百科等获取学者基础信息;从Web of Science和中国知网抽取学者发表论文的数据;从国家知识产权局专利检索及分析网(Pat‐ent Search and Analysis)和国家科技图书文献中心(National Science and Technology Library,NSTL)抽取学者发明专利的数据;通过科技部、教育部、国家自然科学基金、国家社会科学基金以及地方科技厅和教育厅的官方网站获取学者承担项目的信息。通过学者所在机构、合作关系等信息进行论文数据和专利数据的消歧清洗工作。

3.2 研究方法

本研究基于样本群体的基础数据、论文数据和专利数据等开展高被引论文作者在城市-大学群学术产出力的分布规律研究,包括在不同层次大学的分布规律、在不同层次城市-大学群的分布规律,以及城市-大学群对学术产出力的双重影响三个方面。在本研究中,学术产出力是指科技成果产出的综合情况,包括学者发表的科技论文数量和申请的专利有效数量。具体研究设计如图1所示。本研究采用熵值法计算基于论文数据和专利数据的综合学术产出力,采用拟合分析、可视化分析等统计学方法探究群体学术产出力的分布规律,采用倾向值匹配法分析排除干扰变量后城市-大学群对学术产出力的影响。

图1 技术路线

本研究的自变量为城市-大学群,包括两个维度,一是工作城市,二是工作单位。其中,工作城市根据经济发展水平可以划分为一线城市、新一线城市和其他城市,一线城市和新一线城市根据“第一财经”公布的《2020城市商业魅力排行榜》①https://baike.baidu.com/item/%E6%96%B0%E4%B8%80%E7%BA%BF%E5%9F%8E%E5%B8%82/12703052?fr=aladdin的一线城市名单来确定。工作单位根据大学的综合科研水平分为“双一流”大学②根据2017年教育部、财政部、国家发展改革委联合发布的世界一流大学建设高校名单确定(http://www.gov.cn/xinwen/2017-09/21/con‐tent_5226572.htm)。、“一流”大学和其他。混淆变量包括高被引论文作者的年龄、性别、职称、荣誉、承担项目数5项。因变量为学术产出,包括高被引论文作者的论文产出和专利产出两个部分。利用熵值法确定论文产出和专利产出的权重,计算最终的学术产出分值。

3.2.1 倾向值匹配法

科技人才的科研能力往往都是多种因素综合作用的结果,因素内部有较强的共线性,如学者的年龄和职称、学者的毕业学校和师承关系、学者的留学经历和国际合作网络等。本研究需要考虑排除其他因素对研究结果带来的影响,因此引入倾向值匹配法[25]。

倾向值匹配是一种消除非随机数据的选择偏差的数据处理方法[26]。在本研究中,存在很多其他变量(职称、项目、荣誉等)混淆工作环境和学术产出之间的关系,仅使用回归分析很难直接探索两者之间的“净效果”[27]。因此,本研究建立logistic回归模型,计算所有混淆变量产生的预测个体受到自变量影响的概率(倾向值),通过控制倾向值来遏制选择性误差对研究结论的影响,从而保证结论的可靠性。

本研究的假设是,在一线城市的“双一流”大学工作的科研人员有更高的学术产出。研究对象是在一线城市的“双一流”大学工作的科研人员,这些人员的学术产出是可以被记录和观察的。城市-大学群与学术产出的因果关系可以表示为

其中,T表示因果关系;π表示研究对象中实验组的科研人员的占比,1-π表示对照组的科研人员的占比;w表示研究对象的分组,w=1代表实验组,w=0代表对照组;Y1表示实验组的学术产出数值,Y0表示对照组的学术产出数值;E表示该群组的平均值。

在公式(1)中,可以观察到的结果只有E(Y1|w=1)和E(Y0|w=0),E(Y1|w=0)和E(Y0|w=1)都是不可观察的。为简化公式(1),提出“非混淆假设”,即假设

在此假设下,公示(1)可以简化为

在实际调查中获取的数据很难满足“非混淆假设”。为了满足“非混淆假设”,需要尽可能控制混淆变量,并保证控制w近似地与Y1和Y0保持独立,因此引入倾向值匹配法,将所有的混淆变量通过logistic回归总结成特定的倾向值P。通过控制P值,近似满足“非混淆假设”,即

3.2.2 熵权法

本研究采用客观赋权的熵权法来确定论文和专利产出的权重。

(1)对指标进行标准化处理,

其中,Xij表示第i名高被引论文作者第j项指标的数值;max[Xj]表示该指标序列的最大值,min[Xj]表示该指标序列的最小值;X'ij表示第i名高被引论文作者第j项指标标准化后的数值。

(2)计算指标的信息熵Ej,

(3)计算权重Wj,

在通过熵权法确定高被引论文作者学术产出的计算中,论文权重为0.3,专利权重为0.7。

(4)计算每位学者的综合学术产出分值Si,

4 高被引论文作者学术产出力分布规律

4.1 高校排名与其拥有高被引论文作者数量的关系

本研究根据2010—2019年的SCI论文被引总量对全国高校进行了学术产出排名。结合大学拥有高被引论文作者的数量和所在大学的排名,研究了高被引论文作者在高校的分布情况(图2)。2600名高被引论文作者中,分布在排名前100名高校的有2036人,占总人数的78.31%;分布在排名101~200名高校的有343人,占总人数的13.19%;分布在排名201~400名高校的有176人,占总人数的6.77%;分布在401名及以后高校的学者仅有44人。

图2 高被引论文作者学术产出力在不同排名高校的分布情况

由图2可以看出,高校排名与其拥有高被引论文作者数量满足a=-12.98的幂函数分布规律,拟合系数R2约为0.6。随着高校排名的增加,高被引论文作者数量呈现指数下降的趋势。由此可见,高被引论文作者主要集中在排名靠前的高校中。

4.2 高被引论文作者的学术产出力在城市-大学群中的分布

根据城市的经济水平将城市划分为一线城市、新一线城市和其他城市,根据教育部公布的高校建设名单将高校划分为“双一流”高校(一流建设高校和一流建设学科)、“一流”高校(一流建设学科)和其他高校。不同经济发展水平的城市和不同建设水平的高校构成了不同层次的城市-大学群。

所有城市-大学群中,高被引论文作者的学术产出力整体呈现偏态分布(图3),其学术产出力平均值均低于8。由图3可以明显看出,超过20分的作者数量明显降低。一线城市“双一流”高校高被引论文作者的平均值为7.97,为所有城市-大学群中的最高值;Q1分位点为3.52,Q3分位点为11.14,均高于其他类型的城市-大学群。由此可以看出,在该城市-大学群的学者整体学术产出水平要高于其他城市-大学群。其他城市-其他高校高被引论文作者的平均值为3.96,Q1分位点为1.32,Q3分为点为5.25,均为所有城市-大学群中的最低值。由此可见,在该城市-大学群的学者整体学术水平偏低。

图3 高被引论文作者在不同城市-大学群中的分布

在“双一流”高校中,一线城市的学术产出力平均值为7.97;在其他高校中,一线城市的学术产出力为5.25;两者均高于同类型高校中新一线城市和其他城市的学术产出力。在“一流”高校中,新一线城市的学术产出力为6.42,高于同类型高校中一线城市和其他城市的学术产出力。由此可见,与“双一流”高校和其他高校不同,“一流”高校的高被引论文作者在新一线城市的学术产出力更高。

结合图3和表1可以发现,层次较高的城市-大学群高被引论文作者的学术产出力分布离散程度较高,其论文作者之间学术产出力的差距较大。对比四分位差可以看出,一线城市“双一流”高校论文作者的学术产出力差异性最大,其次是新一线城市的“双一流”高校。层次较高的城市-大学群中,虽然大部分作者的学术产出力集中在6~10,但是不乏有能力相当突出的佼佼者,拉高了整体的学术产出力水平。在层次较低的城市-大学群中,论文作者的学术产出力离散程度不高,主要集中在4~5。在层次较低的城市-大学群中,科研佼佼者相对较少,大部分学者的科研产出能力都比较均衡,没有学术产出力超过30分的论文作者。

表1 不同城市-大学群中高被引论文作者的学术产出力

5 城市-大学群对高被引论文作者学术产出力的影响

影响论文作者学术产出力的因素有很多,包括年龄、职称、荣誉、承担项目数等。为了客观分析城市经济水平和大学建设水平对其学术产出力的影响,本研究采用倾向值匹配法,排斥混淆变量对其学术产出力的影响,从而进一步探究不同层次城市-大学群对高被引论文作者学术产出的影响。

5.1 不同城市-大学群高被引论文作者学术产出差异性分析

为了进一步探究在消除学者自身因素的影响外,城市-大学群对学术产出的影响,通过倾向值匹配法对比分析了一线城市“双一流”高校的高被引论文作者和在非一线城市或非“双一流”高校工作的高被引论文作者的学术产出。倾向值匹配的平衡性检验结果表明(表2),所有协变量都将偏差降低至|10%|以内,且“荣誉”“承担项目数”两个协变量对结果产出的影响不再显著。可以看出,该方法有效降低了协变量对研究结果的干扰。

表2 平衡性检验

模型检验P值为0.000(表3),模型通过了一致性检验。由此可以看出,在排除年龄、性别、荣誉、技术职称、承担项目数等因素对学术产出的影响外,在一线城市“双一流”高校工作的论文作者学术产出远高于其他城市-大学群的论文作者。

表3 logistic回归分析结果

5.2 城市经济水平与大学学术水平对学术产出的双重影响

为了进一步分析城市经济水平和高校建设水平对论文作者学术产出的交叉影响,本研究分别展开了不同城市-大学群论文作者学术产出的对比分析。为了选择具有代表性的城市-大学群进行对比分析,将城市-大学群分为如表4所示的四组,分析结果如表5所示。

表4 城市-大学群分组

实验组与A组、A组与C组、B组与C组的对比分析模型P值均为0.000,具有显著性差异;实验组与B组的对比分析模型P值为0.1222,无显著性差异。一线城市或“双一流”高校的作者的学术产出显著高于既不在一线城市也不在“双一流”高校的作者;一线城市“双一流”高校的作者的学术产出显著高于一线城市非“双一流”高校的作者,但是与非一线城市“双一流”大学的作者无显著性差异。同为一线城市,机构发展对作者的学术产出有显著性影响;同为“双一流”机构,城市发展对作者的学术产出无显著性影响。

相较于城市发展水平的影响,机构发展水平对学者学术产出的影响更大。结合表5可以看出,当城市发展(B组和C组的对比)和大学发展(A组和C组的对比)都相对较低的时候,两者对高被引论文作者的学术产出均有显著性影响。但是当机构发展到较高水平后(实验组与B组),城市发展水平对高被引论文作者学术产出的影响就降低了。相反,即使在发展较好的城市,机构的发展水平对高被引论文作者的学术产出影响依然显著(实验组与A组)。

表5 不同城市-大学群论文作者学术产出对比分析

6 讨论

高被引论文作者主要集中在排名靠前的高校中。高校排名与其拥有高被引论文作者数量满足a为负数的幂函数分布规律。随着高校排名的提升,高被引论文作者数量呈现指数下降的趋势。在中国,人工智能领域人才主要集中在国家重点扶持发展人工智能产业的城市和拥有人工智能专业研究高校较多的城市。工业和信息化部《人工智能产业人才发展报告(2019—2020年版)》中提到,京津冀地区、长三角地区、粤港澳大湾区和川渝地区是人工智能产业人才资源的主要聚焦地,人才需求规模占全国总需求的90.9%,人才供给规模占全国总供给的82.9%[28]。Scott等[29]的研究表明,处于增长中心的高新技术会形成巨大的人才集聚辐射力,从而使社会不同要素之间的作用更加强烈。层次较高的城市-大学群拥有丰富的科研资源和设备,周围聚集着大量的高新技术企业,从而进一步吸引人才集聚,形成人才创新高地。

从作者的学术产出力分布来看,不同城市-大学群的高被引论文作者在学术产出上具有一定的差异性。层次较高的城市-大学群的学术产出力明显高于层次较低的。在相同经济发展水平的城市中,“双一流”高校的学术产出力平均值最高;“双一流”高校作为城市发展重点建设对象,必然会被给予一定的政策扶持和项目资助,这些会助力“双一流”高校更上一个台阶。在“双一流”和其他高校中,一线城市的学术产出力平均值最高;在“一流”高校中,新一线城市的学术产出力最高。由此可见,“一流”高校的高被引论文作者在新一线城市发展最好。我国“双一流”高校主要集中在一线城市,由于城市资源有限,竞争对手过于强大,“一流”高校在一线城市的发展会受到相应限制。相反在新一线城市,城市的经济发展水平较高,“双一流”高校数量不多,城市建设也会更加注重对“一流”高校的扶持,从而更大地激发了其作者的学术产出力。与此同时,随着新一线城市的崛起,优越的引进条件吸引了大量的科研人员[30],根据清华恒大研究院和智联招聘发布的《2020中国城市人才吸引力排名》,杭州、南京、重庆等新一线城市的人才净流入占比呈上升趋势[31]。

层次较高的城市-大学群的高被引论文作者学术产出力离散程度较大。人工智能领域顶尖的高被引论文作者都集中在层次较高的城市-大学群中,在拉高整体学术产出水平的同时,也拉大了群体内部的离散性。在层次较低的城市-大学群,高被引论文作者的整体学术产出力相对较低,且没有特别突出。

进一步分析发现,大学发展水平对学术产出的影响高于城市发展水平。王若宇等[32]在研究中发现,随着高校科研人才的成长,经济因素对高校科研人才的影响作用减弱,但公共服务水平影响作用增强。在城市发达程度较低的情况下,不同城市之间人才科研产出存在明显差异,但是随着城市达到一定发展水平,其差异会逐渐减弱甚至消失。由此可见,经济因素对科技人才的发展或成长的影响呈现先增强后减弱的趋势。在中国,一线城市更具有从事科学研究的优越性,主要是这些城市经济发达,政府提供了更多的政策和项目扶持,不仅给予了科研人员更多研究和成长的机会与平台,还吸引了更多其他城市的优秀人才。张宝生等[33]在研究中也发现,北京、上海、江苏和广东等经济发达省份有充足的人均科研经费保障,对研发人员的基础研究产出有较强的促进作用。城市的自身经济活力是中国人才流动的主要诱因,人才的流入进一步增强了城市的经济活力和持续发展能力[34]。

大学的优质平台会弥补城市经济水平对科研人员学术产出造成的差异性影响。相较于非“双一流”大学,“双一流”大学的科研人员在不同城市间的学术产出差异不明显。“双一流”高校的定位是建设具有世界竞争力的综合性大学,全面提升人才培养水平和创新能力,拥有先进的科研设施和较完善的科研评价体系,注重培养综合性研究人才。在其中任教的学者,其学术水平和创新能力也相对较高,这就是水涨船高的升值效应[35]。无论国家还是地方,都会给予优质的资金项目扶持。因此,即使处于非一线城市,这类人员也会有长足的发展平台和机会;相反,对于非“双一流”高校的科研人员,城市的发展水平对其科研产出的影响就显得很重要。

7 结语

在城市-大学群发展建设过程中,应注意资源合理分配利用,避免马太效应的出现。每个城市的资源是有限的,如何均衡分配到不同层次的大学中是值得思考的。可以看到,“双一流”大学的科研人员,从国家到地方政府都给予了很多扶持;反观普通大学的科研人员,资源较匮乏,不仅加大了内部竞争,还会造成人才流失,甚至出现劣币驱逐良币的现象。

人才是科技创新的主力军,为科技人才提供良好的创新生态环境,发挥科技人才的主观能动性,最大程度激发其创新活力,是每个城市和大学都应该思考的问题。在中国人工智能产业发展中,不同的城市和大学都有其各自的优势与定位,要充分利用自身优势,做好人才管理服务工作,提升人才服务社会化水平;打造跨地区创新合作网络,鼓励一线城市和新一线城市为周边城市的产业发展提供基础设施、资金、人才支持;支持高校、科研院所、社区学院、职业机构等联合打造开放式科研创新平台,发挥不同机构人才的特长,开展产学研协同创新,合力推进关键核心技术攻关。

猜你喜欢

科研人员一流学术
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
科研人员揭示油桃果实表皮不长毛的奥秘
科研人员破译黑猪肉特征风味物质
学术是公器,不是公地
学术动态
学术动态
关注一流学科
我校获批4门省级一流本科课程
“双一流”建设如何推进
对学术造假重拳出击