APP下载

基于语义加权网络的重点领域科学基金资助态势识别研究

2025-01-04王伟梁继杨建林

现代情报 2025年1期
关键词:科学基金集成电路

摘 要: [目的/ 意义] 科学基金制度是各国(地区)提升科学研究水平的重要方式, 准确识别科学基金的资助方向和资助成效是感知科技发展态势的关键。[方法/ 过程] 为识别科学基金资助态势, 在提出关键短语抽取规则后, 利用语义相似度消除同、近义词的歧义影响, 利用动态滑动窗口和语义相似度构建语义加权的词共现网络, 并基于社团划分方法识别基金主题。在集成电路领域比较1 812项中国国家自然科学基金和2 807项美国国家科学基金的资助主题分布、资助力度变化和资助效果, 该方法能够准确识别基金主题分布和资助成效。[结果/结论] 中国国家自然科学基金和美国国家科学基金均涵盖了集成电路领域的主要研究主题, 在重点资助方向和资助力度上有较大差异; 中国国家自然科学基金资助的论文平均被引频次相对较低, 受资助机构相对单一。

关键词: 科学基金; 资助态势; 社团划分; 词共现网络; 主题分析; 集成电路

DOI:10.3969 / j.issn.1008-0821.2025.01.004

〔中图分类号〕G252. 8 〔文献标识码〕A 〔文章编号〕1008-0821 (2025) 01-0046-14

科学基金聚焦国际研究前沿和国家重大战略需求, 通过调整科技资源的分配方式引领科技发展方向, 促进重点科技领域的原创性和突破性创新, 体现了国家科技战略的总体部署方针, 对识别全球科技创新竞争态势和预判科技创新制高点具有重要意义。尤其是在国际科技竞争和新一轮科技革命的双重驱动下, 亟需明确科学基金的重点资助方向和资助方式, 加强重点科技领域的前瞻性资助部署。科学基金资助态势是基金重点资助方向、资助策略和资助成效的综合表现, 识别基金资助态势能够全面展现国家科学资助重心及其演变过程, 明确未来一段时间内科学研究的主要发展方向, 反映各个国家(地区) 的科技竞争策略, 从而为制定和调整我国的科学基金资助方向提供前瞻性决策支持, 优化提升我国科学基金的资助成效, 以便更好地应对全球科技竞合。

基金资助数据被广泛用来分析科学基金产出评估[1] 、研究前沿主题识别[2] 、跨学科研究模式[3] 以及基金资助特征[4] 。为识别科学基金资助态势, 需要识别科技大国的基金资助主题分布, 明确主要资助方向和资助力度的演变过程, 对比不同国家(地区)的基金资助成效。对基金主题的识别主要是基于基金题名、关键词和摘要开展定性或定量的分析。基金标题的短文本特征使得在主题建模时存在数据稀疏、词语表达抽象和同近义词消歧等问题, 基于词共现网络的分析方法更适合处理短文本, 但存在选词困难和忽视词间结构及语义关系的问题; 基于主题模型的方法更适合长文本分析, 主观设定的主题数量影响主题分析的准确性, 因而有必要针对基金文本特征提出更加准确的主题识别方法。基金资助力度及资助成效亦是分析基金资助态势的重要方面, 需要在主题识别的基础上形成包括资助力度变化和资助成效分析等在内的综合流程, 提高基金资助态势识别的全面性和有效性。为此, 本研究基于多种特征抽取关键短语后, 利用词间位置距离和语义关系构建词共现网络, 提出基于语义加权词共现网络和社团划分的基金主题识别方法, 继而从基金资助规模、基金主题总体分布、资助力度变化、资助论文被引分布及受资助主体等方面呈现中美两国在集成电路领域的基金资助态势, 以期为动态识别科学基金资助态势提供情报流程和方法支撑, 并为我国制定科学基金的资助策略提供前瞻性决策支持。

1 相关研究

科技发展态势感知需要融合情报思维对时空中的科技发展环境、构成要素、要素间关联进行持续监测、认知、分析和呈现, 识别当前发展状态并预判未来可能的发展情景和潜在机会风险[5] 。科学基金作为感知科技发展态势的重要情报来源, 相比论文和专利数据更能表现国家政府层面对科技竞争,尤其是对新兴科技领域的预判方向, 有助于从宏观层面把握重点科技领域的发展需求、战略规划、发展态势和领域前沿趋势[6] 。相关研究以基金主题识别为基础, 对比基金资助的主要方向和资助成效,期望从多个维度呈现出重点科技领域的资助态势。

1. 1 基金主题识别方法

科学基金主题体现了国家科技发展中迫切需要突破的领域, 识别方法主要有基于词共现和基于主题模型的方法。基于词共现的方法是通过词或词组间的共现关系来反映词间的关联强度, 转换成共现矩阵后使用聚类算法聚合隶属同一主题的词, 或是将共现矩阵变换投影在多维尺度空间图、战略坐标图上来表示主题分布[7-8] 。研究主题分布可以通过构建学科内基金的高频关键词共现网络展现[9] , 也可将基金的词共现网络转化为相异矩阵, 利用因子分析、层次聚类方法和多维尺度分析呈现聚类结果[10] , 或是借助软件VOSviewer 的分析功能可视化[11] 。利用基金的词共现网络和学科交叉测度指标测度学科内外部知识的聚合和交叉程度, 以此分析基金资助对交叉研究态势的影响[12] , 基金关键词耦合形成的学科间交叉网络显示出学科交叉度整体增强[13] , 这为跨学科测度提供了有力补充。基于词共现的方法假设共现次数相对较高的词对表示同一主题, 由于基金自标注关键词可能存在标引不准确的现象, 以及同、近义词表达同一概念的歧义干扰, 缺乏上下文环境的单个词被聚类后难以解读聚类结果。受到词的选取、同近义词消歧、确定词间关系和聚类算法选择等环节准确性的影响, 基于词共现的主题识别方法需进一步提升有效性[14] 。

基于主题模型的方法将基金文本集合表示成向量空间, 利用概率统计方法推断主题和词间的隶属分布, 潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)[15]及其衍生算法得到了广泛应用。刘自强等[16]基于LDA 提取基金及其资助论文的主题, 设计了包含主题资助金额、期限、热度、质量和影响力在内的基金资助的科学产出主题综合评估模型。陈挺等[17] 通过LDA 提取基金主题后以t-SNE 算法可视化展示主题分布。Stahlman G R 等[18] 比较了不同主题中基金资助规模和产出结果的差异。王效岳等[19] 利用pLDA 模型提取基金主题后, 从资助时间、资助金额和网络中心性等方面识别前沿主题。基金数据也被用来和科技文献、专利等来源的文本数据一同分析领域主题演化过程, 通过改进的词袋模型提升LDA 模型的主题识别效果[20] 。相关研究在利用LDA 提取基金主题时未充分考虑主题模型的适用性问题, 特别是LDA 对短文本的分析效果较差, 在确定聚类数目时需尽量避免主观选择。由于LDA 忽视原本文档中句子之间、词之间的语义信息, 以及提取出的主题词间关系不明, 导致凝练主题时相对困难, 基于预训练模型的BERTopic 被用于改进基金的主题建模[21] 。

1. 2 基金资助成效分析

在科学基金资助成效方面, 相关研究探讨了科学基金的资助特征、与科学产出间的关系以及影响因素。从SCI 论文中提取基金资助数据比较10 国的基金资助特征发现, 大部分的中国论文受到国家自然科学基金资助, 资助比例远高于其他国家[22] 。在经济学领域发现中国的基金资助率最高, 但基金资助产出有待进一步提升[23] 。国家自然科学基金资助的中英文论文在产出和影响力上存在明显不同,不同学科对中英文论文的投稿兴趣差异明显[24] 。在基金资助与科学研究产出关系的研究中, 有研究表明, 有基金资助的论文相对于没有基金资助的论文被引次数更高[25-26] , 但这一结论并不总是成立的,获得基金资助的人发表了更多论文, 然而论文平均被引次数没有显著变化[27] 。基金资助对高被引论文的初始被引量和长期被引量的作用不同[28] , 青年学者们在基金资助下研究主题越发深入, 越倾向于聚焦某一类研究主题来加强和同领域学者的合作[29] 。在不同领域的实证研究反映了基金资助成效的差异。在人工智能领域美国的政策导向和持续科学基金资助支撑了科学发展[30] ; 在技术创新领域有较高概率获得基金资助的研究者科研产出更高[31] ; 在能源领域国家杰出青年基金的科研工作者在论文数量、论文被引频次和高质量论文数量上均有大幅度提高[32] 。对公共管理领域具有相似科研禀赋的科研工作者而言, 获得国家社会科学基金资助可以提高论文产出绩效[33] 。但在竞争激烈的依托单位、学科和人员类型上增加经费投入可能出现逆向激励作用[34] , 项目经费强度对论文的绩效激励效应较弱[35] 。在基金资助的相关因素研究中, 地区分布差异[36] 、论文的合作者数量[26] 、基金项目承担者的年龄、所属机构、职称、头衔[37] , 以及项目负责人在合作网络中的位置[38] 与基金产出绩效有关。已有研究关注基金资助的影响因素, 以及对科学产出的作用方式, 但由于无法完全控制其他变量的潜在影响, 很难得出基金资助和研究产出间明确的因果关系[39] , 这需要解决基金资助和研究产出之间的内生性问题[40] 。

2 科学基金资助态势识别方法

本研究提出从科学基金主题分布、资助力度演变和资助效果等方面反映科学基金资助态势, 分析流程如图1 所示。为准确识别科学基金主题, 在基金数据集和论文数据集上通过基金名称或基金号与科学论文建立映射关系; 在关键短语抽取环节利用词性、词位置信息、词频信息建立词组抽取规则,计算词间语义相似性后合并同义词, 形成目标关键短语集合; 继而在以动态词共现窗口划分形成的加权词共现网络上划分社团, 以社团内重要标签表示研究主题; 从基金资助方向、资助规模、资助主体和资助效益等维度对比各国(地区)基金资助态势。

猜你喜欢

科学基金集成电路
中国科学基金制的创立及其对传统科研体制的变革
首个原子级量子集成电路诞生
更正
李克强主持召开国家杰出青年科学基金工作座谈会
一种巨胎成型机用过、欠压保护电路
集成电路的ESD防护关键技术分析
人工智能与集成电路的关系探讨
2017年度力学科学处面上项目、青年科学基金和地区科学基金资助情况介绍
自动化学科国家杰出青年科学基金申请人代表性论著期刊影响力分析
从2010—2014年度国家自然科学基金资助情况分析新疆医科大学科研发展