引文视角下的变革性研究早期识别模型构建方法与应用
2024-06-03梁国强宋卢睿侯海燕
梁国强 宋卢睿 侯海燕
关键词: 变革性研究; 引文分析; 诺贝尔奖; 科学突破; 早期识别
DOI:10.3969 / j.issn.1008-0821.2024.06.005
〔中图分类号〕G250 252 〔文献标识码〕A 〔文章编号〕1008-0821 (2024) 06-0059-08
“变革性研究” 是彻底改变人们对现有科学的认知, 创造新范式、新领域、引领新前沿的研究。21 世纪以来, 欧美主要发达国家(地区)大力加强对变革性研究的探索与支持力度, 以继续保持在全球范围内的科技领先优势和国际竞争力。近年来,我国也提高了对变革性研究的重视程度, 在一系列文件中明确指出要切实加大对原创性、引领性、变革性创新研究的支持力度[1-2] 。在此背景下, 尽早发现并识别变革性研究, 对于前瞻部署并抢占国际科技竞争制高点具有重要的战略意义。
但变革性研究的非线性、偶然性和突变性等特征[3-4] , 使其早期识别成为学界面临的重大难题。基于变革性研究在引文广度、强度和速度方面的特征[2] , 本研究以1901—2016 年获得诺贝尔自然科学奖的关键论文为例, 借助机器学习方法, 构建了引文视角下的变革性研究早期识别模型, 并进行应用研究, 为早期识别引领性、前沿性研究成果提供借鉴。
1 文献综述
本研究从变革性研究的概念及本质、典型特征及理论模型、识别方法3 个方面进行综述。
1.1 变革性研究的概念及本质
变革性研究是以美国国家科学基金会为代表的发达国家(地区)科技界与科技政策界, 在科学范式理论基础上, 面对同行评议的保守和固化倾向,力图在科学研究中有更高突破, 以适应经济社会变革外部压力和公众期望的重要理念变化, 是以美国为代表的发达国家(地区)科学研究结构性改革的重要体现。2007 年, 在《NSF 加强支持变革性研究》的报告中[5] , 美国国家科学委员会认为变革性研究是由有潜力彻底改变对现有科学或工程概念的思想驱动, 或能够创造新范式、新领域的研究, 这类研究往往挑战现有的科学认知或能够通往科学的新前沿。美国国家基金委作为资助机构提出了变革性研究的工作定义: 变革性研究是彻底改变对现有科学、工程概念或教育实践的认知, 或能够导致新范式、新科学、新工程产生想法、发现和工具, 它们挑战现有认知并通向新的前沿[5] 。变革性研究的提出引发了美国科技政策界的广泛讨论, 并对欧盟(地区)和我国科技政策产生了重要影响。
TR 的思想源于库恩科学革命的结构理论, 从库恩对范式的定义发现, 范式具有3 个特征: 第一,库恩认为, 范式是得到公认的具体的科学成就, 如著名的科学经典。第二, 潜在的新范式具有新颖性特征。库恩指出, 常规科学的目的不在于事实或理论的新颖性, 当常规科学成功时, 也无新颖性的发现可言。第三, 范式转移就是科学革命。库恩认为,到了科学团体不再回避破坏现有传统的反常时期,就开始了非常规的研究, 最终导致科学共同体做出一系列新的承诺, 建立了一个科学实践的新基础。
变革性研究在本质上属于库恩科学革命的结构中提到的“范式” 的范畴, 二者都具有奠基性的、全新的、反传统的特点, 但库恩所指出的“范式”更倾向于哲学范畴内较为宏观的科学概念, 而本文的变革性研究更倾向于相对微观层面的科学研究成果, 如学术论文、专著、会议报告、专利等, 颗粒度较“范式” 更细。当这些科学研究成果中蕴藏的重大发现或发明能够挑战或颠覆某学科领域的传统研究共识, 并为新的研究领域开辟道路、奠定基础时, 则可将这些成果视为变革性研究。
1.2 变革性研究的典型特征及理论模型
变革性研究的典型特征是各国(地区)政府及研究人员关心的重要问题。对基础研究领域变革性研究的特征, 美国政府认为它具有以下特征: ①由挑战现状和颠覆传统研究范式的想法所驱动; ②会带来对传统科学理解的变革, 甚至是颠覆; ③具有完全不同的研究路径; ④能够引领新的科学前沿,开拓新的领域[5] 。它们经常是由新方法导致的, 因此一部分变革性研究被认为是冒险的, 而且跨学科研究经常导致变革性研究的产生, 但并非全部的跨学科研究都是变革性的。
相关学者关于变革性研究的特征也做了諸多努力。例如, Trevors J T 等[6] 认为, 变革性研究具有新颖性、易引发争议、发现新的和未预见的途径、实现价值、挑战假设等特点。杜建等[3] 认为, 变革性研究或革命性科学源自库恩的科学范式理论, 并认为诺奖成果是变革性研究的代表, 往往容易遭遇延迟承认和低被引, 具有技术属性和跨领域扩散特征。Crockett D 等[8] 认为, 从问题识别方面来讲, 变革性研究的问题是需要长期的、多观点、多学科、多文化交叉的观点来解决的, 需要采用读者友好的方式以及有影响力的工具对研究成果进行扩散。通过文献梳理发现, 对变革性研究特征的描述多采用全新的、前所未有的、学科交叉、破膜研究等方法, 而颠覆性和新颖性特征是被学者提及最多的两个特征。
目前, 对变革性研究的探索尚处于起步阶段。一方面, 理论基础较为薄弱; 另一方面, 针对性的理论模型十分少见。梁国强等[2] 尝试从引文视角下构建了变革性研究的理论模型, 该模型借鉴了科学革命的结构理论和引文分析相关理论, 认为变革性研究以传统知识为基础, 可出现于学科领域的非核心地带, 通过遥远、稀有游离态知识的新颖、巧妙组合促进其生成, 而产生早期可能并不会引发同行的关注, 甚至因其超前性的研究而招致批判, 一旦其优越性展现出来, 就会空前吸引一批坚定的拥护者, 并为后人留下非常多的扫尾工作。
1.3 变革性研究的识别方法
已有研究中关于变革性研究早期识别相关指标设计的探索不多, 基于典型特征或多指标综合的早期识别模型则更少。与本文较相关的研究是陈超美等[9] 、Chen C 等[10] 基于结构上和时间上的特征属性, 以中介中心性和引文突现为基础, 对变革性研究的识别做出了探索, 但该方法的时间窗一般较长,不适于变革性研究的早期识别。另外, 与本文较为相近的早期识别模型构建是Small H 等[11] 的研究,他们采用机器学习方法, 借助Scikit-learn 中的回归模型用以识别学术文献中的“科学发现” (Dis?covery)与“非科学发现” (Non-discovery), 人工标注科学发现词并构建科学发现词库, 从而早期识别生物医学领域的科学发现。
目前, 较为常用的早期识别模型构建方法有趋势外推法、因子分析法、回归分析法、卡尔曼滤波分析法、BP 神经网络法等。模型构建的关键在于赋权, 常用方法有熵值法、主成分分析、因子分析、RSR 秩比、DEA 包络分析及基于机器学习的样本均衡等方法[12] 。熵权法在综合考虑各因素提供信息量的基础上计算综合指标[13] , 该方法作为一种较为流行的客观赋权方法, 广泛应用于除物理学外的系统科学、控制论、经济管理等多学科领域。关于该方法在科学计量学领域的应用价值, 俞立平以JCR2017 年经济学领域期刊为例, 对熵权法、CRIT?IC 法、复相关系数法等6 种客观赋权方法的评价效果进行了比较, 认为熵权法更适于同类指标的评价[14] 。
2 数据来源与特征抽取
2.1 数据来源与预处理
以诺奖论文为例, 获取了公认的变革性研究数据集“Prize-winning Paper Records”[15] , 并基于印第安纳大学购买的WoS 数据库(时间范围: 1900—2016 年), 匹配了诺奖论文的WOS 号及引文等信息, 作为变革性研究数据集。进一步根据1 ∶1 的原则选取了与变革性研究发表在相同年份、相同期刊上的非获奖论文作为对照组。最终, 708 篇论文纳入变革性研究数据集, 596 篇论文纳入对照组, 详见参考文献[2]。
2.2 特征抽取
模型构建的前提是遴选适用的特征指标, 经前期调研, 本文整理了引文视角下常用的特征指标,如表1 和表2 所示。
经特征指标遴选[2] , 最终得到变革性研究典型的引文特征指标, 其中, 参考文献相关特征指标有普赖斯指数、参考文献标准化被引次数和学科交叉度; 施引文献相关特征指标有引文增长率、被引次数和学科组合系数。这些特征指标是引文视角下变革性研究所特有的、最典型的指标, 当学术成果同时满足上述特征时, 其成果很大可能会成为变革性研究。
3模型构建
3.1 模型构建方法
目前, 较常用的模型构建方法有趋势外推法、因子分析法、回归分析法、卡尔曼滤波分析法、BP神经网络法等[13] 。熵权法是一种在综合考虑各因素提供信息量的基础上计算的综合指标, 该方法作为一种较为流行的客观赋权方法, 广泛应用于除物理学外的系统科学、控制论、经济管理等多学科领域。因子分析法是对各特征进行赋权或降维后对新的因子进行赋权的一种经典统计学方法, 而回归分析法也是解决分类预测问题的重要方法。为比较不同模型的早期识别效果, 本研究将借助熵权法、因子分析法、回归分析法分别构建变革性研究的早期识别模型。
3.2 早期识别模型构建
考虑到不同学科论文的扩散特征[19,22,24] , 本研究将论文发表后第3 年作为变革性研究识别的早期阶段。以变革性研究发表后第3 年的数据为例, 将变革性研究数据集整合并打乱顺序合成新数据集后, 随机选择1 000篇纳入训练集, 将剩余99 篇纳入测试集。结果显示, 基于式(1) 构建的早期识别模型测试准确率为80%, 召回率为80%, F 值均为0 8, 且十折交叉验证结果显示模型得分的均值为0.764, 具有较高的稳定性。
基于式(2), 本研究对熵权法下第3 年特征指标的信息熵、信息效用值和权重进行了计算, 结果如表3 所示。
基于式(3), 本研究对变革性研究发表后第3年的数据进行了Barltett 球形度检验, 结果显示,显著性水平小于0.05(p<0.001), 提示适合进行因子分析。经计算, 变革性研究中的6 项指标共提取4 个因子, 旋转后的方差解释率分别是32.076%、18. 756%、16. 738%、16.725%, 旋转后累积方差解释率达84.295%, 提示上述4 个因子对信息的保存度较好, 如表4 所示。
4 模型评估
4.1 案例選取
分别以医学领域、物理学领域、化学领域的“基因靶标” “磁阻效应” 和“富勒烯” 为例, 对上述3 个早期识别模型的效果进行评估。上述3 个领域均有诺奖得主产生: 基因靶标领域2007 年诺贝尔生理学或医学奖得主Capecchi M R 等的关键论文“WOS:A1987K785400017” 发表于1987 年;磁阻效应领域2007 年诺贝尔物理学奖得主Fert A等的关键论文“WOS:A1988Q948900022” 发表于1988 年; 富勒烯领域1996 年诺贝尔化学奖得主Kroto H 等的关键论文“WOS:A1985AUD4200071”发表于1985 年。所有数据均源自印第安纳大学所购买的WoS 数据库核心合集, 分别选择1900—2016 年“基因靶标”(Gene Targeting)、“富勒烯”(Fullerene)、“磁阻效应” (Magnetoresistance)领域的论文(Arti?cles or Review)为数据集, 表6 显示了3 个领域数据的检索主题及结果。
4.2 识别结果验证
表7 显示了不同变革性研究早期识别模型, 在诺奖论文发表后5 年识别出基因靶标、富勒烯和磁阻效应领域诺奖论文历年的排名情况。从“排名”指标看, 基于回归分析构建的变革性研究早期识别模型的识别效果优于其他两种模型, 识别出诺奖论文的排名更为靠前, 且在发表后第3 年即可对诺奖论文进行早期识别; 从“top%” 指标上看, 该模型在发表后第4 年的识别效果优于其他年份。
4.3 早期识别模型的应用
基于回归分析法的变革性研究早期识别模型识别效果最高, 因此, 本研究将该模型应用于2017年分子生物学(Biochemistry & Molecular Biology)、聚合物科学(Polymer Science)和天体物理学(Astro?physics)领域的研究成果, 该模型识别出的变革型研究如表8 所示。
结果显示, 分子生物学领域有3 篇变革性研究, 第一篇由以色列Weizmann 科學研究所和新西兰Utrecht 大学医学中心的Keren-Shaul H 等报道了一种与阿尔茨海默病相关的新型小胶质细胞类型,该文被引525 次; 第二篇由美国埃默里大学医学院的Hayek S S 团队撰写, 发现了预测慢性肾脏病发生和发展的标记物, 该文被引58 次; 第三篇由美国康涅狄格大学Basuli D 团队报道, 发现了卵巢癌在铁代谢中可表现为针对性改变, 为该病的治疗提供了新靶点, 该文被引49 次。聚合物科学领域的3 篇变革性研究中, 第一篇由我国西北大学于游教授团队发表, 报道了一种自愈聚二甲基硅氧烷弹性体, 该文被引48 次; 第二篇为香港城市大学AliciaK A 教授团队发表, 该研究制备了一种能够高效处理印染废水的纳米纤维薄膜, 该文被引100 次; 第三篇由上海海事大学范润华教授团队发表的成果,报道了一种可取代周期性超材料的柔性超复合膜,该文被引235 次。天体物理学领域有2 篇变革性研究, 第一篇由美国加州理工学院Abbott B P 教授团队报道了一种新发现的由两个恒星质量的黑洞合并产生的引力波, 该文被引446 次; 第二篇由美国约翰霍普金斯大学Ali-Haimoud Y 教授团队发表, 探讨了宇宙微波背景辐射在增加原始黑洞方面的限制, 该文被引127 次。
5 讨论与结论
早期识别变革性研究, 前瞻培育和早期扶持前沿性、引领性的基础研究成果, 一直是我国科技部门、基金资助机构的重要议题。已有研究常从颠覆性、新颖性、学科交叉性、价值属性、超前性、争议性和风险性等切入, 但这些特征的描述仅是针对变革性研究某一方面的表现而言的, 且各项描述存在一定的交叉和重叠, 如超前性、风险性和争议性,超前性的研究往往会引发争议, 并伴有不被同行认可的风险。又如学科交叉性、新颖性等, 学科交叉的研究往往导致新颖的成果产生, 而新颖成果也多源于在学科交叉之处的研究, 这些特征间不存在完备正交的关系。而且, 单从某一特征入手, 很难形成对变革性研究的全面认识。
本文将上述特征提炼为变革性研究产生前的参考文献特征和产生后的施引文献特征, 它们分别体现了变革性研究产生前所依赖的知识基础的组合特征和产生后新知识在学科中的扩散特征, 更加全面地刻画了变革性研究的特征。对引文视角下的相关指标进行遴选的基础上, 从广度、强度和速度维度构建了变革性研究的识别模型, 经模型评估最终选择早期识别效果最高的模型作为变革性研究的早期识别模型, 并将该模型应用到2017 年分子生物学、聚合物科学和天体物理学领域, 是早期识别变革性研究的一次尝试, 深化了对变革性研究特征的认识。
变革性研究多源于已有知识的非常规组合, 是随着新知识在科学体系中扩散, 影响逐渐增强并最终战胜传统范式的学术成果, 可体现为学术论文、专著、会议报告、专利等。未来, 本研究将积极整合多源数据集, 借助大数据优势, 吸收和借鉴动态时序网络、网络动力学的一些理念和方法, 深入探究变革性研究的涌现机理和识别手段, 为我国科技部门和基金资助机构早期识别变革性研究, 提高科研投入的有效性和经费贡献率、完善资助机制提供, 促进基础研究领域前沿性、引领性成果的不断产生和涌现提供借鉴。