APP下载

基于STM的科研资助对研究主题影响研究

2022-06-06滕广青吕晶江瑶庹锐彭洁

现代情报 2022年5期

滕广青 吕晶 江瑶 庹锐 彭洁

摘 要:[目的/意义]科研资助是科学研究工作中有效的激励政策,分析与揭示科研资助影响作用,对促进国家科技发展具有重要的积极作用。[方法/过程]基于Web of Science收录的我国计算机与人工智能领域的科研论文,按照有/无科研资助对其进行划分,使用结构主题模型(STM)重点将科研资助对主题内容与主题契合度的影响进行分析。[结果/结论]研究发现,科研资助能够有效促进科技成果数量的增加,科研资助能够影响主题偏好和具体主题内容,科研资助与时间的交互作用会对主题的契合度产生积极的影响。

关键词:科研资助;主题内容;主题偏好;主题契合度;结构主题模型

DOI:10.3969/j.issn.1008-0821.2022.05.006

〔中图分类号〕G250.2 〔文献标识码〕A 〔文章编号〕1008-0821(2022)05-0058-11

Abstract:[Purpose/Significance]Research funding is an effective incentive policy in scientific work.Analyzing and revealing the impact of research funding has an important and positive role in promoting the development of national science and technology.[Method/Process]Based on computer and artificial intelligence papers of China collected in Web of Science,the papers were classified according to whether or not research funding was available.The structured topic model(STM)was used to focus on the impact of research funding on the topical content and topical prevalence.[Result/Conclusion]The results show that research funding can promote the increase in the number of scientific achievements;Research funding can have an impact on the topic preference and topic content;Interaction between research funding and time will have a positive impact on topic prevalence.

Key words:research funding;topic content;topic preference;topic prevalence;structural topic model

科研资助是指为支持科学研究而授予的资金补贴,其不仅仅牵动着科研产出的宏观绩效,更是推动科学研究内容创新的关键一环。随着人类社会进入科学技术高速发展的时代,世界各国政府、学术界均致力于调控科研资助投入的配置,通过推出相应政策、计划来影響和指导科学研究的发展。2018年,欧洲委员会提出了《Horizon Europe》[1]计划,其目标就是希望通过投入精准有效的科研资助,提高科研效率促进科技创新。美国国家科学基金会(NSF)推出的《Building The Future:Investing in Discovery and Innovation-NSF Strategic Plan for Fiscal Years 2018—2022》[2],将科学发现与创新的资助目标定位于通过对基础研究的资助加快科学发现和创新。我国政府近年来对加大科研领域资助与优化资助效果采取了一系列措施,极大地提升了国家综合科技实力。2016年5月,中共中央、国务院印发《国家创新驱动发展战略纲要》[3]明确指出,要多渠道增加科技创新的投入,以及完善突出创新导向的评价制度。2020年9月,习近平[4]主席《在科学家座谈会上的讲话》中进一步指出,要加大基础研究的科研资助,建立健全科学评价体系及激励机制。科研资助作为科学研究过程中的重要组成部分,已成为全球科学发现和创新的主要驱动力之一。2021年3月发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中指出,要加大基础研究财政投入力度,对基础研究探索实行长周期评价,创造有利于基础研究的良好科研生态[5]。在各国政府对科研资助日益重视的同时,科研资助对于科研工作的影响也逐渐受到学术界的关注,国内外学者纷纷致力于科研资助产生的影响的研究。早期的研究工作重点主要集中于科研成果产出数量与成果影响力的视角,近年来随着自然语言处理(NLP)技术的日渐成熟,研究重点逐渐转向更细粒度的科研资助对研究主题的影响。本研究从科研成果文档层面将科研资助对领域研究主题的影响作用进行分析,以期为我国科研资助政策科学制定及实施提供可资借鉴的参考。

1 相关研究综述

科研资助在科学体系中所发挥的重要作用和日益增长的影响,被认为是在科研政策、学术界和申请接受资助的研究者之间进行调解的中介[6]。科研资助对科学活动的影响研究多与科研成果的数量以及质量相关,因此截至目前,从成果产出数量以及成果影响力视角对科研资助效果开展的研究仍然占据主流。Butler L[7]通过获得科技成果产出数量与期刊的被引量对澳大利亚的科研资助的效用开展研究。Aagaard K等[8]将出版物数量与引文数量作为绩效,分析了丹麦的科研资助与出版物绩效之间的关系。事实上,由于近年来科技界对成果质量的关注程度远高于成果数量,因此研究工作越来越偏重于科研资助对成果影响力影响的研究。Mussurakis S[9]通过对比获得资助与未获得资助的出版物的被引情况等因素,进而探究获得资助与没有资助对于成果引用量的影响。Korytkowski P等[10]对波兰科研资助与科研成果数量进行评估,认为科学激励政策有助于实现科学本身至关重要的目标。Shen C C等[11]分析有/无资助条件下论文的研究影响力,研究发现,获得资助的科研成果的影响力要比没有资助的成果的影响力更高。与此同时,相关研究在国内得到广泛开展。宋志红等[12]比较科研人员在“获得科学基金资助”和“未获得科学基金资助”两种情形下的科研产出差异。张诗乐等[13]基于论文产出数量和被引频次对国家自然科学基金资助的效果进行评价。王菲菲等[14]基于对科研资助成果发文量、被引量和h指数等测度,对科技项目资助对论文产出绩效进行探究。截至目前,此类研究虽然取得了丰富的成果,但关注的焦点仍然停留在成果数量、被引数量等外在统计指标。BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A

随着大数据与人工智能技术的发展,传统基于外在特征的分析方法已不再适用于处理高维数据与解决复杂问题,研究人员开始利用新的自然语言处理(NLP)方法从科技文档的层面开展更加细粒度的研究。Shi X等[15]使用LDA主题模型从计算机领域的资助计划和其出版物的样本中提取主题,分析两个语料库中概念之间的滞后性的关系进而探究资助计划与出版物之间的主题关联。Li K等[16]使用RAKE关键词提取方法,分析了NIH研究资助计划和他们资助的出版物之间的关键词匹配率。刘自强等[17]利用LDA主题模型探索基金、论文中研究主题扩散演化的滞后效应。刘博文等[18]使用LDA主题模型对比分析基金项目数据和论文数据探究研究主题前沿。叶文豪等[19]使用Word2Vec模型计算基金标题与论文标题及摘要间的相似度,计算相关性进而证明基金内容与其资助论文在大规模数据分析上存在差异。吕晶等[20]通过基金文档与成果文档主题相似度分析,发现科研资助对科学论文的引导与促进作用更大,且影响作用的持续时间更长。

总体而言,当前科研资助效用研究仍以绩效的定量分析为主导,以对于数量、影响力方面的描述性统计为主,基于文档内容层面的细粒度研究较少。在研究手段上,自然语言处理(NLP)技术已经为很多研究所使用,使用主题建模技术提取和观察研究趋势的可行性已被研究证实[21]。基于此,本研究在现有成果基础上,使用STM(Structural Topic Model)[22]结构主题模型,从文档内容层面识别与分析科研资助对科研主题偏好、主题词分布、主题契合度的影响。

2 基础理论与方法

2.1 STM主题模型

常规的文档主题建模主要采用经典的狄利克雷分布(Latent Dirichlet Allocation,LDA)[23]主题模型。尽管从目前学术界已取得的研究成果来看该模型已经被学术界普遍接受,但相对于本研究力图洞察科研资助对科学研究主题的内容偏好及契合度等研究目标而言仍显不足。本研究工作采用STM(Structural Topic Model)[22]结构主题模型,其基于协变量的主题建模特性更加贴近研究目标,能够借助协变量洞察资助/非资助产生的影响。STM是一种无监督的机器学习方法,用于识别文档中主题分布的模式特征。该模型在基于早期潜在狄利克雷分布(LDA)[23]主题模型的基础上,融入了元数据(协变量)可用于探索文档元数据(协变量)与文档主题分布之间的作用关系。在实际的研究过程中,元数据(协变量)对文档中主题内容(Topical Content)和主题契合度(Topical Prevalence)有一定的影响。主题内容指的是主题中使用的主题词,主题契合度指的是文档与主题的关联程度。因此,解释主题契合度的元数据被称为主题契合协变量,解释主题内容的元数据被称为主题内容协变量。其基本原理如图1所示。

2.2 主题数目计算

主题建模过程中具有挑战的工作是主题数量的确定。主题数量K是一个固定的参数,其影响模型计算过程中的结果。STM主题模型的SearchK函数中能够综合不同指标进而衡量主题数量,具体包括Held-Out(保留文档可能性)、Semantic Coherence(语义一致性)、Residuals(残差)、Lower Bound(下限)等。其中,Held-Out(保留文档可能性)的基本思想是提取一组文档中的部分单词,训练模型使用文档级潜在变量来评估保留部分的概率。Semantic Coherence(语义一致性)即当一个给定主题中最可能出现的单词经常同时出现时,语义连贯性就会最大化,这是与人类对主题质量的判断高度相关的度量[24]。Residuals(残差)计算是对STM数据生成过程中多项式方差的过度分散的测试,如果残差过度分散,则表明设置的主题数量较少,需要更多的主题来吸收一些额外的方差。Lower Bound(下限)表示可以通过近似变化来检查收敛性。保留文档的可能性和語义一致性越高,残差与边界越低,模型性能越好。具体的研究工作中首先设置较大的K值范围,通过得到指标情况来逐渐缩小主题数量的选择区间,并最终确定K值。

3 研究流程

3.1 数据来源与预处理

研究数据依托Web of Science核心合集数据库,获取中国计算机与人工智能领域的论文。检索式为:WC=(“Computer Science,Artificial Intelligence”AND CU=“China”),文章类型选择“Article”,语言为“English”。Web of Science数据库在2008年开始完善文献的资助信息[25],为获得有效的资助信息以及提高研究的准确性,本文选择数据时间区间为:2008—2020年,经过去除空值以及无效数据,共得到52 655篇论文。将获得的数据按照有/无资助信息进行划分,得到具体年发文量情况,如图2所示。

图2中,柱状图表示年发文总量,每个柱形图中的红色与蓝色分别表示未获得资助与获得资助的论文年发文数量。总体来看,图中年发文总量整体呈增长趋势,统计的结束年份与初始年份相差8.9倍以上。时间轴后期该领域的年发文数量迅速增加,且增速加大,可见近几年该领域的相关研究实现快速发展。进一步观察柱状图中资助与非资助的成果分布,获得科研资助的成果数量总体呈逐年递增的态势。图2中的内嵌饼图为未获得资助的论文数量在当年发文总量中占比。根据饼图中的每年非资助论文占当年所有论文的比例可知,除时间轴初始阶段(2008年、2009年),获得科研资助的论文数量占比一直占据当年发文总量的80%以上。总体上看,随着时间的发展,该领域的研究成果数量日渐增加,每年发表的论文中,获得资助的成果数量远高于未获得资助的成果数量。在成果总量持续增长的同时,时间轴后期获得科研资助的成果所占比例总体上高于时间轴初期。由此可见,在中国计算机与人工智能领域,科研资助对于科研产出在数量上具有一定的促进作用。BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A

3.2 主题数量及内容

具体的研究工作中首先将K值(主题数量)设置在(10,20,30,40,50)区间,基于4个指标的运行结果发现K在10~20较为合适,进而针对(10,12,14,16,18,20)区间的主题数量再次进行计算,得到图3所示的不同指标情况。

图3(a)~(d)分别对应保留文档的可能性、残差、语义一致性、下限。根据图3中各个指标的计算结果可以发现,保留文档的可能性(a)在主题数量为14~16区间时值较高且增速减慢;残差(b)和下限(d)在主题数量为14时其值较低,残差值在14个主题时开始趋于稳定;语义一致性(c)在主题数量14以后降低。因此,综合考虑以上结果,研究工作最终确定设置主题数量为14。

为更好把握领域研究内容与演变趋势,研究工作对每一主题所对应的前10个高概率的主题词进行提取,得到结果如表1所示。

由表1可知,中国计算机与人工智能领域(2008—2020)主要研究内容中,topic1、topic2、topic5、topic12分别与信号处理、系统使用评估、网络系统安全、智能决策等研究有关,可将其归纳为应用层面。机器人技术作为人工智能研究下属的一个重要分支,相关研究也得到了一定的发展,通过topic3中“robot”“neural”“network”等主题词呈现机器人技术与神经网络相关研究密切关联。属于理论算法类研究及优化的主题包含topic4、topic8、topic10、topic11,topic4中出现“fuzziness”“control”“system”以及topic10的“fuzziness”“theories”可以看出两个主题分别以模糊控制系统、模糊理论研究为重点内容,通过“algorithm”“optimize”可得知topic8是算法的优化研究,topic11中出现的“sparse”“matrix”“learn”与机器学习有关。topic9主题词“image”“video”“recognition”“detect”等可知,该主题研究内容与图像识别、视频检测等计算机视觉技术有关。topic6、topic7、topic14分别描述聚类、神经网络、分类等研究内容,可将其归纳为机器学习相关研究内容。topic13中出现“semantic”“network”等词汇,可知该主题与语义网的研究相关。

3.3 主题分布趋势

在主题建模过程中,每个主题会以一定的概率分配给不同的文档,一篇文档也可能与多个主题相关。因此研究工作为每个文档分配最高概率的主题,计算不同主题在文档中的分布情况,进而得到研究主题所呈现的发展趋势。为了掌握不同时期的热点研究主题,研究工作按年份对不同主题所占比例进行统计,得到主题分布的时间序列如图4所示。

图4中不同颜色对应不同主题,图中每一颜色扇区的面积(或半径)对应该主题在文档中的比例。观察每个时间窗口中每种颜色扇区相对于其他颜色扇区的面积可以发现,在2008年时间窗口中,topic7(神经网络)研究主题占比例最高,并且在后续的2009年、2010年时间窗口中始终保持该领域最受关注的热点主题地位。从2011年时间窗口开始,topic6(聚类算法)、topic14(分类算法)、topic8(算法优化)等算法类研究主题也跻身于热点主题行列。2012—2015年时间窗口中,topic7(神经网络)、topic6(聚类算法)、topic14(分类算法)、topic8(算法优化)、topic9(计算机视觉)、topic11(机器学习)多个研究主题的排名虽偶有变化,但始终处于该领域热点主题阵营。从2016年时间窗口开始,topic9(计算机视觉)表现出超过其他主题的发展势头,并在2020年时间窗口一骑绝尘地成为远超其他主题的该领域最热门研究主题。

事实上,时间轴早期topic7(神经网络)研究主题的热点地位得益于此前Hinton G E等[26]发表于《Science》杂志一篇关于用神经网络降低数据维度的论文。该论文开辟出一條基于深度神经网络的人工智能道路,但当时并未在具体的实践应用中取得优异的表现。自2012年时间窗口topic9(计算机视觉)研究主题跻身领域热点主题阵营,并在时间轴后期一枝独秀,其主要原因在于2012年Krizhevsky A等[27]构造的“大型深度卷积神经网络”。该卷积神经网络在ImageNet数据集取得了出色的表现,大幅度降低了图像识别的错误率,证实了卷积神经网络在图像识别实践应用中的有效性。Hinton团队从理论到实践的科研进程,映射出该领域热点主题从topic7(神经网络)到topic9(计算机视觉)的迁移过程。同时也表明,重大的颠覆性创新成果能够引领领域的研究热点。

4 研究结果

4.1 科研资助对主题级偏好的影响

STM主题模型的核心优势为其能够估计文档主题与协变量之间的作用。研究以是否获得科研资助为协变量,协方差参数分别为funded(资助)、unfunded(非资助),利用差异化(difference)的方法对不同主题的偏好情况进行计算,得到结果如图5所示。

图5中,左侧主题表示未获得资助的科学研究更倾向的研究主题,而右侧表示获得资助的科研工作更偏好的研究主题。在未获得资助的研究中,主要对topic1(信号处理)、topic2(系统应用)、topic3(机器人)、topic5(网络安全)等研究主题较为专注。而获得资助的研究更倾向于topic4(模糊理论)、topic7(神经网络)、topic8(算法优化)、topic10(模糊系统)、topic11(机器学习)、topic13(语义网)、topic14(分类算法)等主题。其中反差最为鲜明的当属topic2(系统应用)与topic7(神经网络)两个主题。前者在前文图4中始终未取得热点主题的地位,而后者在大部分时间窗口中跻身于热点主题,仅在时间轴后期由于深度神经网络逐渐成熟,从而迁移到计算机视觉这一热点主题。从这个意义上讲,科研资助能够在一定程度上影响领域研究的主题偏好。BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A

4.2 科研资助对主题内容的影响

由STM结构主题模型原理可知,主题的内容会受到内容协变量的影响而有所差异。考虑到同一主题词可能同时隶属于多个主题,为明晰科研资助对不同主题内容的影响,本部分以资助/非资助(funded/unfunded)作为主题内容协变量,分别对14个主题在协变量影响下的高概率主题词进行分析,得到协变量影响下的各个主题内容分布如图6所示。

图6中14个子图呈现不同主题中高概率主题词的分布情况,字号大小反映词频的高低。越靠近子图左侧的主题词代表其越受到科研资助的青睐;越靠近子图右侧的主题词则代表其在非资助科研活动中概率更高;居于中线附近的主题词则为受资助/非资助影响较小的具体内容。图中主题词的分布情况显示,大多数主题的内容(主题词)均在有/无资助(横轴)维度上表现出较好的区分度。以topic1(信号处理)研究主题为例,topic1(信号处理)主题中各主题词分布离散分化,获得资助的研究更加倾向于“fault”“detect”等信号故障检测的内容,而非资助的研究则更加关注“process”“diagnosis”等信号诊断过程的内容。即科研资助对研究主题的具体内容产生较为明显的影响。但也有少量主题在有/无资助维度上并未表现出较好的区分度。以topic2(系统应用)主题为例,“service”“data”“system”等众多主题词聚集在靠近中线的位置,即在位置上更靠近资助与非资助共同关注的区域,表明科研资助与否对这些内容并不产生鲜明的影响。

另一方面,在各个主题的资助与非资助区域,主题词的分布数量也存在一定的差距。以topic3(机器人)为例,明显处于资助区域的主题词(如“learn”“model”“predict”)数量远高于明显处于非资助区域的主题词(如“fault”)數量。显然,即使在一个特定的主题内部,科研资助也会只关注其中部分内容(主题词)。这意味着,即使某一主题获得科研资助,但在具体内容上也不尽相同。有些主题会有更多的内容(主题词)获得科研资助,而有些主题则仅有较少的内容获得科研资助。

上述分析结果表明,内容协变量(资助/非资助)对于大多数研究主题,如topic1(信号处理)等主题的内容分布影响较为明显,主题词分布较为离散分化,资助与非资助的区分度较高;也有少量研究主题,如topic2(系统应用)等主题的内容分布影响并不明显,众多主题词靠近中线附近,资助与非资助的区分度并不鲜明。此外,无论各研究主题内容(主题词)总体分布相对集中还是离散,资助与非资助(协变量)总是能够在一定程度上影响主题中内容的倾向性,一些主题中较多的内容(主题词)获得了科研资助,而同样获得资助的另一些主题中仅有较少的内容(主题词)获得了科研资助。

4.3 科研资助对主题契合度的影响

本研究中,主题契合度指的是文档与主题的关联程度。主题的契合度并不是一成不变的,会受时间等因素的影响发生变化。为进一步探究科研资助对文本主题契合程度是否具有影响,研究工作以科研资助与时间的交互效用作为文档的协变量,计算协变量影响下主题契合度。以时间为横坐标,预期主题比率为纵坐标,得到协变量影响下主题契合度随时间变化的趋势,如图7所示。

图7中,实线表示获得资助时该主题契合度变化趋势,虚线表示未获得资助时该主题契合度变化趋势,点线部分表示95%置信区间。由图7可知,科研资助与时间的交互作用对主题的契合度产生不同程度的影响。总体上看,在有/无资助的情况下,主题契合度随时间推移的变化趋势大致相同。从预期主题比率的层面看,图7(a)topic11(机器学习)、topic4(模糊理论)、topic7(神经网络)、topic8(算法优化)、topic10(模糊系统)、topic12(智能决策)、topic14(分类算法)共50.0%的主题中,获得科研资助的预期主题比率高于未获科研资助的预期主题比率,即这些主题中获得资助的科研成果的主题契合度高于同一时间未获资助的科研成果的主题契合度。与此相反,图7(c)topic1(信号处理)、topic2(系统应用)、topic3(机器人)、topic5(网络安全)占28.6%的主题中,未获得科研资助的预期主题比率高于获得科研资助的预期主题比率,非资助科研成果的主题契合度更高。结合前文图5中主题偏好的结果,不难发现这一结果与非资助偏好的主题相吻合。

此外,图7(b)topic13(语义网)、topic9(计算机视觉)、topic6(聚类算法)占21.4%的主题中,获得科研资助的预期主题比率先抑后扬。在主题契合度持续走高的情况下,topic13(语义网)与topic9(计算机视觉)主题在时间轴前期,未获得资助的预期主题比率同样高于获得资助的主题比率,但在时间轴后期获得资助的预期主题比率增速更高,其值已经超过未获得资助的主题比率。在主题契合度持续走低的情况下,topic6(聚类算法)主题在时间轴前期,未获得资助的预期主题比率高于获得资助的主题比率,但在时间轴后期获得资助的预期主题比率并未与未获得资助的主题比率同幅度下降,反而高于未获得资助的主题比率。

综合上述情况,在时间序列上,50.0%的主题中获得资助的成果文档的预期主题比率持续高于未获得资助的成果文档的主题比率,加上21.4%的主题中获得资助的成果文档的预期主题比率先抑后扬在后期反超未获得资助的成果文档的主题比率的情况,已经表明科研资助对主题契合度具有积极的影响。

5 结论与讨论

研究工作基于2008—2020年我国计算机与人工智能领域被Web of Science核心集收录的研究成果,依据是否获得科研资助对科研成果进行整理,采用STM主题建模方法,从该领域研究的研究内容发展趋势、资助/非资助的主题级偏好、研究主题内容的倾向、以及在时间与科研资助交互作用影响下主题契合度的变化等方面,对科研资助产生的影响进行剖析。综合上述分析结果,研究工作初步得出以下结论:BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A

1)科研資助能够促进科技成果数量的增加。通过图1的统计结果可以发现,该领域的科研成果数量随时间延展呈现增长态势。而在总体成果数量增长的同时,获得科研资助的成果数量远高于未获得科研资助的成果数量,而且时间轴后期获得科研资助的成果数量占比高于时间轴初期。该现象表明,该领域科研成果数量的增加主要由获得科研资助的成果数量增加产生。这一研究结论与当前很多研究持有科研资助促进科研成果产出的结论相契合[7,10],同时也为我国加大科研资助力度的总体方针提供了科学依据。

2)科研资助能够对成果的主题及其内容产生影响。主题级偏好分析显示,科研资助能够在较大程度上影响主题偏好,部分研究主题得到科研资助的青睐(参见图5)。在主题内容方面,仅有少数主题的部分主题词趋近于资助与非资助共同关注的区域,而且几乎所有的主题中总是有一些主题词相对更靠近资助或非资助区域(参见图6)。这一结果表明,无论是主题级层面还是主题内容层面,科研资助都能够在对科研活动产生影响,为通过科研资助调控科技发展战略布局,集中力量攻克重大科学难题指明了路径。

3)科研资助与时间的交互作用会对主题的契合度产生积极的影响。主题契合度的分析结果显示,超过半数以上(50.0%+21.4%)的研究主题在科研资助的加持下,在全时间周期或者时间轴后期的预期主题比率高于未获得科研资助的主题比率(参见图7)。这一结果表明,科研资助对科研主题的契合度具有积极的影响,获得科研资助的研究成果能够更好地聚焦于主题所代表的科学问题,其相关成果对该主题所代表的科学问题具有更大的贡献。这一结果为如何科学合理发挥科研资助在国家科技发展战略中的积极作用提供了可资借鉴的参考依据。

在国家有序推进科技强国发展战略的今天,发现和揭示科研资助对科学研究工作的影响,有助于为科研管理部门制定积极的科研资助政策,高效发挥科研资金的使用效率,集中力量攻克科学难题提供科学依据。研究中也存在一些不足之处,研究中仅选取单一领域的数据开展分析,尚不足以涵盖所有的科学领域。未来的研究工作将纳入更广泛的学科领域,更长的时间周期,开展更深入全面的研究。

参考文献

[1]Europe Commission.Proposal for a Decision of the European Parliament and of the Council on Establishing the Specific Programme Implementing Horizon Europe-The Framework Programme for Research and Innovation[EB/OL].https://ec.europa.eu/commission/sites/beta-political/files/budget-may2018-horizon-europe-decision_en.pdf,2021-05-11.

[2]National Science Foundation.Building the Future:Investing in Discovery and Innovation-NSF Strategic Plan for Fiscal Years(FY)2018—2022[EB/OL].https://www.nsf.gov/pubs/2018/nsf18045/nsf18045.pdf,2021-05-18.

[3]中共中央,国务院.国家创新驱动发展战略纲要[N].人民日报,2016-05-20,(6).

[4]习近平.在科学家座谈会上的讲话[N].人民日报,2020-09-12,(2).

[5]新华社.中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要[EB/OL].http://www.gov.cn/xinwen/2021-03/13/content_5592681.htm,2021-05-18.

[6]Braun D.Who Governs Intermediary Agencies?Principal-agent Relations in Research Policy-making[J].Journal of Public Policy,1993,13(2):135-162.

[7]Butler L.Explaining Australias Increased Share of ISI Publications:The Effects of a Funding Formula Based on Publication Counts[J].Research Policy,2003,32(1):143-155.

[8]Aagaard K,Schneider J W.Research Funding and National Academic Performance:Examination of a Danish Success Story[J].Science & Public Policy,2015,43(4):518-531.

[9]Mussurakis S.Financial Support for Research in Radiology:A Survey of Original Investigations Published in the AJR and Radiology[J].American Journal of Roentgenology,1994,163(4):973-979.

[10]Korytkowski P,Kulczycki E.Examining How Country-level Science Policy Shapes Publication Patterns:The Case of Poland[J].Scientometrics,2019,119(3):1519-1543.BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A

[11]Shen C C,Hu Y H,Lin W C,et al.Research Impact of General and Funded Papers:A Citation Analysis of Two ACM International Conference Proceeding Series[J].Online Information Review,2016,40(4):472-480.

[12]宋志红,郭艳新,李冬梅.科学基金资助提高科研产出了吗?——基于倾向得分分层法的实证研究[J].科学学研究,2016,34(1):116-121,160.

[13]张诗乐,盖双双,刘雪立.国家自然科学基金资助的效果——基于论文产出的文献计量学评价[J].科学学研究,2015,33(4):507-515.

[14]王菲菲,贾晨冉,刘俊婉.科技项目资助对论文产出绩效的作用效率测度研究——以人工智能领域为例[J].科技进步与对策,2019,36(16):26-33.

[15]Shi X,Nallapati R,Leskovec J,et al.Who Leads Whom:Topical Lead-lag Analysis Across Corpora[C]//Proceedings of Neural Information Processing Systems Workshop on Computational Social Science and Wisdom of Crowds.New York:Curran Associates,2010:1-4.

[16]Li K,Erjia Y.Are NIH-funded Publications Fulfilling the Proposed Research?An Examination of Concept-matchedness Between NIH Research Grants and Their Supported Publications[J].Journal of Informetrics,2019,13(1):226-237.

[17]刘自强,许海云,岳丽欣,等.面向研究前沿预测的主题扩散演化滞后效应研究[J].情报学报,2018,37(10):979-988.

[18]刘博文,白如江,周彦廷,等.基金项目数据和论文数据融合视角下科学研究前沿主题识别——以碳纳米管领域为例[J].数据分析与知识发现,2019,3(8):114-122.

[19]叶文豪,王东波,沈思,等.基于孪生网络的基金与受资助论文相关性判别模型构建研究[J].情报学报,2020,39(6):609-618.

[20]吕晶,郭思月,滕广青,等.基金项目对科学研究的关联影响分析[J].数字图书馆论坛,2019,(12):18-27.

[21]Yang H L,Chang T W,Choi Y.Exploring the Research Trend of Smart Factory with Topic Modeling[J].Sustainability,2018,10(8):2779.

[22]Roberts M E,Stewart B M,Tingley D.Stm:An R Package for Structural Topic Models[J].Journal of Statistical Software,2019,91(2):1-40.

[23]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.

[24]Mimno D M,Wallach H M,Talley E M,et al.Optimizing Semantic Coherence in Topic Models[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing.Edinburgh:Association for Computational Linguistics,2011:262-272.

[25]Liu W,Tang L,Hu G.Funding Information in Web of Science:An Updated Overview[J].Scientometrics,2020,122(3):1509-1524.

[26]Hinton G E,Salakhutdinov R R.Reducing the Dimensionality of Data with Neural Networks[J].Science,2006,313(5786):504-507.

[27]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[EB/OL].https://courses.grainger.illinois.edu/ece544na/fa2013/krizhevsky2012.pdf,2021-05-18.

(責任编辑:陈 媛)BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A