合成生物学高被引论文替代计量学指标和文献计量学指标与被引频次相关性分析*
2023-12-01潘黎姿龙俊羽欧阳昭连
潘黎姿,龙俊羽,袁 艺,陈 娟,欧阳昭连△
(1.中国医学科学院医学信息研究所,北京 100020; 2.北京大学医学部,北京 100191)
论文被引频次可反映其在研究领域的影响力,是目前用于评判个人研究成果重要的传统指标。期刊引证报告(JCR)影响因子较高的期刊,其论文被引频次可能更高[1],但同一期刊的论文被引频次可能差异较大[2]。随着互联网的快速发展,越来越多的科研成果以电子形式在网络发布,Twitter,YouTube,Facebook,Blog等社交媒体和主流媒体平台逐渐成为传播研究成果的常见工具,加强了研究人员之间及其与社会的联系,且可能影响论文被引频次[3]。PRIEM等[4]提出了以Altmetric(替代计量学)指标来衡量论文基于社交网络的影响力。Altmetric 网站是2011 年由英国人ADIE 开发的一款研究工具,通过提取单篇论文在不同社交网络平台和在线媒体提及的次数,以综合计算论文网络影响力。Altmetric网站提供文章在十二大数据源中的表现数据,包括公共政策文件、博客文章、主流媒体报道、Web of Science 引文数据、在线文献管理软件、同行评审出版平台、学术社交论坛(Research highlights)、社交媒体(Facebook,Twitter,LinkedIn,Google +)等。合成生物学旨在通过挖掘基因功能元件和模块,对底盘细胞代谢调控网络进行基因设计、修改或补充,使活细胞产物满足人类的需求,是生命科学、工程学、信息学等多种学科融合而成的一门新兴学科[5]。本研究中探讨了合成生物学领域高被引论文替代计量学指标和文献计量学指标与被引频次的相关性。现报道如下。
1 资料与方法
1.1 文献检索
采用主题检索方式,在Web of Science 数据库的科学引文索引扩展版(SCIE)核心合集中以摘要、关键词和标题字段检索合成生物学相关论文,检索式为(TS=(″synthetic biolog*″)OR SO =(ACS SYNTHETIC BIOLOGY));在检索结果中选择“article”类型的论文,且对其他字段不作限制。将检索结果按被引频次由高到低排序,以排名前1%的论文作为高被引论文,统计其标题、作者、发表时间、发表期刊和被引频次。检索时间为2023年6月21日,对论文的发表时间不作限定。
1.2 数据获取与预处理
数据获取:通过Web of Science 数据库获取高被引论文被引频次和JCR影响因子作为文献计量学指标。通过Altmetric 网站获取替代计量学指标。1)Altmetric 评分,为Altmetric 网站根据论文在不同公共平台的曝光情况加权计算获得的综合评分,通常用以衡量论文在公共平台的综合表现;2)Twitters,为论文在Twitter 的分享次数;3)Facebook Pages,为论文在Facebook 的分享次数;4)Mendeley,为论文用Mendeley软件保存的次数,该软件可提供一系列文献管理功能,能有效地对文献进行组织、标注和存储管理;5)Patents,为论文被专利引用的次数,专利是指对产品、方法或其改进所提出的新的技术方案,专利申请材料中需对方案进行详细描述,必要的原理阐述部分需引用文章等依据;6)Blogs,为论文被Blog 引用的次数;7)Weibo User,为论文在微博(Weibo)中被引用的次数。各指标数据获取时间与论文检索时间一致。
数据预处理:将所有数据汇总,查看缺失情况,排除缺失比例超20%的指标;其余指标用平均值填补缺失值。数据填补完整后,将所有指标值进行归一化处理,即。其中,i表示上述9个指标中的第i个指标,xi表示指标原值,xi,new表示归一化后的指标值,min(xi)和max(xi)分别表示xi的最小值和最大值。
1.3 数据分析
采用R Studio 软件分析高被引论文的年度发表情况,分别采用多变量、单变量回归模型分析文献计量学指标和替代计量学指标与被引频次的相关性。
2 结果
2.1 高被引论文概况
共获得9 784 篇论文,以被引频次排名前100 的论文为高被引论文,其中有2 篇会议论文(被引频次排名分别为第23 和第54)无法获取替代计量学指标而不纳入,故选取排名为第101和第102的论文递补。
指标数据缺失情况见表1。排除Facebook Pages,Blogs,Weibo User 3 个指标,纳入6 个指标(见表2),其中包括文献计量学指标2 个,替代计量学指标4 个。将缺失数据填补并将所有数据归一化处理后,形成最终的数据集。
表1 指标数据缺失情况(%)Tab.1 Data missing of each indicator(%)
表2 纳入指标的描述性统计Tab.2 Descriptive statistics of included indicators
1999 年至2021 年,高被引论文的发表趋势为先上升后下降,集中发表于2011 年至2015 年(51 篇);2015 年后,发文数量明显下降,可能是由于论文从发表到积累一定量的被引频次需要时间。详见图1。
图1 100篇合成生物学高被引论文年度发表情况Fig.1 Annualpublicationof100highly-citedpapersinsyntheticbiology
2.2 回归模型分析
多变量回归模型:以被引频次为因变量,文献计量学指标和替代计量学指标为自变量,共拟合2个多变量回归模型。模型Ⅰ探究文献计量学指标和替代计量学指标对被引频次的总体影响。由于Altmetric 评分可反映替代计量学指标的综合情况,故仅以Altmetric 评分和JCR 影响因子为自变量。结果显示,Altmetric 评分与被引频次呈显著正相关,JCR 影响因子与被引频次相关性不显著;该模型仅可解释被引频次8.8%的变化。模型Ⅱ探究不同细化指标与被引频次之间的关系,故将Altmetric 评分替换为Twitters,Mendeley,Patents。结果显示,Mendeley 和Patents 与被引频次均呈显著正相关,JCR 影响因子和Twitters 与被引频次相关性不显著;Twitters 的影响力低于Mendeley 和Patents;该模型可解释被引频次92.9%的变化。详见表3(其中95%CI为95%置信区间,表4同)。
表3 多变量回归模型分析结果Tab.3 Results of multivariate regression model analysis
表4 单变量回归模型分析结果Tab.4 Results of univariate regression model analysis
单变量回归模型:对5 个自变量分别进行拟合(见表4)。结果显示,仅Twitters的拟合结果不显著。拟合结果显著的4个模型中,Mendeley和Patents分别解释了被引频次90.0%和85.6%的变化,JCR 影响因子和Altmetric评分仅分别解释了被引频次0.1%和8.6%的变化。
3 讨论
本研究中,多变量回归的2 个模型分析结果显示JCR 影响因子与被引频次无显著相关性,单变量回归模型分析结果显示JCR影响因子与被引频次呈弱相关,提示合成生物学高被引论文的被引频次与期刊的JCR 影响因子相关性弱或无关。这与文献[6 - 7]的研究结果一致。提示高JCR影响因子的期刊对论文被引频次的贡献可能较低,提示学者应专注提高论文水平,而非一味追求高JCR 影响因子。多变量、单变量回归模型分析结果均显示替代计量学指标(Altmetric 评分)与被引频次显著相关,且国内外多位学者用不同的替代计量学指标和统计学方法得出公共平台对论文引用有正向影响的结论[8-12]。提示在互联网高速发展的时代,论文影响力的传统评价体系已发生改变,互联网的及时性可提高论文的传播速度和范围。科研人员在发表科研成果的同时,应充分利用公共社交媒体平台,及时发布最新的研究进展,增加公众和其他学者对研究成果的了解和关注,从而提高论文的被引频次和影响力。
本研究中,Twitters 与被引频次无显著相关性,Mendeley 和Patents 相关性均较高。有研究发现,Twitters对论文被引频次的影响程度在不同学科中不同,其中对普外科[13]、泌尿外科[14]、神经外科[15]学术论文被引频次的影响程度较低,对心血管外科[16]、整形外科[17]、儿科[18]学术论文的影响程度较高。分析原因,心血管外科、整形外科和儿科患者群体大、公众关注度高或主题与日常生活贴近,更易在Twitter平台传播,故Twitters与被引频次相关性高。合成生物学是一门新兴学科,发展历史短,研究内容较前沿,难以受到大众的关注,故在Twitter平台传播效果欠佳。Mendeley 作为一款文献管理软件,其使用者多为专业学者和研究人员;专利申请因具有创新性和新颖性,需紧跟领域最新理论进展来支撑技术创新。故上述两类使用人员更加关注行业前沿,在合成生物学领域表现出与论文被引频次显著的相关性。本研究的不足之处在于,仅对合成生物学领域的高被引论文进行研究,在研究样本的选择上有一定偏倚,故对不同学科及不同引用水平的论文可能产生不同的结论,未来应扩大研究范围,针对更多学科的全范围论文进行建模,同时纳入更多指标,获得更普遍适用的结论。
综上所述,合成生物学高被引论文的被引频次与期刊JCR 影响因子相关性小或无关,替代计量学指标(除Twitters 外)在一定程度上可反映论文的影响力。未来可利用替代计量学指标预测论文的影响力或将其融入现有文献评价系统中,使研究成果影响力的评价方法更符合当代互联网时代的发展趋势。