APP下载

科研人员职业生涯学术论文相似度及其对被引频次的影响分析

2022-08-31张丽华张康宁赵迎光张志强

情报学报 2022年8期
关键词:学术论文计算机科学科研人员

张丽华,张康宁,赵迎光,张志强

(1. 山西财经大学信息学院,太原 030006;2. 北京交通大学图书馆,北京 100044;3. 中国科学院成都文献情报中心,成都 610041;4. 中国科学院大学经济与管理学院图书情报与档案管理系,北京 100190)

1 引 言

在科研人员的职业生涯中,如何不断调整、选择乃至转移最佳研究主题是每个科研人员都非常关注的问题。针对这一问题,学界主要存在两种主张。一种主张认为,科学家的研究兴趣并非一成不变,而是可能发生学科间或跨学科的主题转移。经观察和调研发现,美国的科研人员7~8 年更换一次研究主题[1]。另一种主张认为,研究主题不能随意转移。科研工作不是简单重复劳动,需要高度专注、深度思考与长期积淀[2]。一支青蒿素,诺贝尔奖得主屠呦呦试过380 多种提取方法,又做了191次试验才发现有效成分。

那么,科研人员在职业生涯中是否要转移研究主题?适时转移研究主题还是专注于同一个研究主题更有利于创新?两种主张都有成功的案例。我们关心的研究问题是,在同一个学科内部,科研人员更倾向于坚守还是适时转移研究主题?这两种不同选择对科研人员论文被引频次会有什么样的影响?

针对该问题学界进行了一些有益探索。部分研究表明,研究主题转移有利于提高科研人员论文的被引频次:研究主题变化较大的科研人员与以往相比更可能产生有影响力的成果[3],且研究主题发生转移之后,其发表的论文数量和质量都更高[4];不断探索新的研究主题、有较高研究自由度的科研人员与从事既定任务、审查周期短、可交付成果不可变的研究人员相比,更容易产生高影响力成果[5]。同时,高风险的研究更有可能产生高影响力,获得更大的认可[6]。当然,还有一些研究持有不同观点:Amjad 等[7]发现,持续研究同一主题的科研人员会产生更高的影响力,获得更多的关注;Zeng等[8]的研究表明,科学家的研究主题分布很窄,在科研人员的整个职业生涯中,篇均被引频次指标均与研究主题的转移概率呈负相关,研究主题的转移概率越高,篇均被引频次越低。

已有研究多是从群体层面,选择某一科研人员群体为研究对象,通过设置对照组来对比科研人员研究主题转移与论文被引频次的关系。较少有研究从科研人员个人层面,通过比较其职业生涯初期与末期研究主题的相似程度,探讨研究主题转移对其论文被引频次的影响。因此,本文主要关注以下两个问题:

(1)科研人员职业生涯初期和末期学术论文研究主题是否相似?

(2)科研人员职业生涯中学术论文相似度是否会对其论文被引频次产生影响?

为了回答上述问题,本文以两个学科的科研人员为研究对象,测度不同人员的学术论文相似度、论文被引频次等指标,设置控制变量排除可能的干扰因素,在此基础上通过相关性、负二项回归分析学术论文相似度与论文被引频次的关系,为更深入地了解科研人员个人成长规律并辅助制定科研人员管理与评价政策提供参考。

2 研究设计

2.1 数据集

本文选择Web of Science (WoS) 数据库中的“计算机科学与人工智能”和“商业与经济”作为分析学科,以WC=“Computer Science, Artificial In‐telligence”和WC=“Business & Economics”为检索式,检索两个学科发表时间为1975—2017 年(因涉及3 年引文时间窗问题,故将数据截止日期设为2017 年)、文献类型为Article 的所有论文,检索时间为2021 年1 月5 日,获得计算机科学与人工智能学科的222449 篇论文,以及商业与经济学科的235375 篇论文。

接下来,从两个学科中抽取满足条件的科研人员。抽取标准为:

第 一, 科 研 人 员 拥 有ResearcherID。 Re‐searcherID 是WoS 数据库为科研人员提供的专属身份识别号码,能够有效解决科研人员姓名歧义问题。

第二,科研人员在职业生涯中至少以第一作者身份发表4 篇论文。非第一作者论文将使科研人员在研究团队中处于支持者的角色[9],其研究主题可能更多受论文主要贡献者(如第一作者)的影响,而第一作者论文能够较准确地反映科研人员的研究主题。同时,为了计算不同时期研究主题的相似度,选择科研人员职业生涯最开始和结束时各2 篇论文进行对比,因此,至少以第一作者身份发表4篇论文的科研人员才能纳入本文的数据集。

第三,科研人员职业生涯长度大于2 年且小于等于20 年。职业生涯的长短,对科研人员学术论文相似度有非常重要的影响。职业生涯越短,其论文相似度可能越高;反之,职业生涯越长,科研人员的论文相似度可能越低。为了尽可能消除职业生涯长短对论文相似度的影响,在选择科研人员时,需要去掉职业生涯太长与太短的科研人员。首先,我们剔除职业生涯长度为1 年和2 年的科研人员。胡志刚等[10]在研究期刊作者群的新陈代谢规律时,提出“如果想走科研之路,请先坚持到第二年”[11]的观点。据此我们认为,职业生涯超过2 年的科研人员留在学术界的概率更高,因此,剔除职业生涯长度仅为1 年和2 年的科研人员。其次,我们剔除职业生涯超过20 年的科 研人员。Milojević 等[12]将科研人员职业生涯分为5 种典型形态,其中长期活跃者(从事所在领域研究超过20 年)的比例在不断下降。我们认为,长期活跃者的研究主题在职业生涯中更可能发生变化,为了尽可能消除职业生涯太长对成果相似度的影响,本文将职业生涯超过20年的科研人员剔除掉。

经过筛选,计算机科学与人工智能领域共1788名科研人员、商业与经济领域共958 名科研人员满足上述要求,这些科研人员及其发表的论文信息构成本文的最终数据集。

2.2 指标与方法

2.2.1 学术论文相似度

本文主要关注科研人员个人层面的学术论文相似度,即数据集中每个作者在其职业生涯中研究主题的转移程度,可以使用科研人员在职业生涯初期与末期研究主题的相似程度来衡量。研究主题通常使用以下3 种方式来测度:①使用文献关键词、题名、摘要或者全文进行自然语言分析;②使用主题建模方法;③使用数据库提供的分类号[11]。本文使用第①种方式,并借鉴Jia 等[13]的做法,选取1975—2017 年两个学科满足要求的科研人员职业生涯最开始的两篇和最末的两篇论文,计算这两组论文标题的语义相似度,以此反映科研人员职业生涯中的学术论文相似度。

选择论文标题而非关键词、文摘等常用字段进行相似度分析主要基于以下考虑:①标题是一篇科学论文最重要的组成要素,能够直观揭示论文研究主题。Jamali 等[14]的研究表明,标题与论文的下载次数和被引次数呈正相关关系。②在部分论文关键词缺失、文摘具有较多干扰词的情况下,论文标题是一个不错的选择。

语义相似度计算选择2019 年提出的sentence-BERT(bidirectional encoder representations from trans‐formers)模型(简称SBERT)[15]。SBERT 采用双重或三重BERT 网络结构来获取的句子嵌入,可以更充分地从语义上表征一个句子,使语义越相似的句子在向量空间中的嵌入向量距离越近。在文本的语义相似性任务上,SBERT 已全面超越流行的BERT模型,达到了更高水平。本文选择了all-MiniLML6-v2 的SBERT 预训练模型来进行语义相似度计算,该模型使用超过10 亿对句子进行训练,在英文相似度任务方面表现优异。

2.2.2 论文被引频次

科研人员的研究主题转移服从“海边漫步”(seashore walk)模型[13],可能发生在职业生涯中的任何一个阶段;与此同时,科研人员做出重大创新性成果的巅峰期在其职业生涯中呈随机分布[16]。在计算科研人员论文被引频次指标时,如果仅选择职业生涯最初期与最末期的两篇论文的被引频次代表该名科研人员职业生涯中所有论文被引频次,可能具有很大偶然性。因此,为了更全面地反映科研人员的学术影响力,我们使用其职业生涯中所有论文的平均影响力指标来代表其论文被引频次。

本文选择6 个指标测度科研人员职业生涯的平均影响力,分别是不固定时间窗与固定3 年引文时间窗的总被引次数、篇均被引次数以及领域标准化引用分数(表1)。

表1 论文被引频次指标

下文将以一个虚拟的例子说明论文被引频次指标的计算过程。假设一个学科共有2 名作者au_1 和au_2,共发表了5 篇论文(表2),各指标的计算方法如下。

总被引次数与篇均被引次数指标计算较简单。作者au_1 发表2 篇论文,其总被引次数为10+8=18次。篇均被引次数为18/2=9 次。作者au_2 发表3 篇论文,总被引次数为7+6+4=17 篇,篇均被引次数为

表2 论文被引频次指标计算方法示例

领域标准化引用分数需要同时考虑论文层面与作者层面。从论文层面来看,一篇论文的领域标准化引用分数等于该篇论文的被引用次数除以论文发表当年,同学科、同文献类型的论文被引用次数的平均值e。首先,分别计算每年学科内所有论文被引用次数的平均值。2005 年发表了3 篇论文,e2005=(10+7+4)/3=7;2006 年发表了2 篇论文,e2006=(8+6)/2=7。其次,用每篇论文的被引用次数除以发表当年的e值,5 篇论文的领域标准化引用分数分别等于

从作者层面来看,一名作者的领域标准化引用分数等于他/她发表所有论文的标准化引用分数的平均值。作者au_1 发表2 篇论文,其领域标准化引用分数为同理,作者au_2 发表3 篇论文,领域标准化引用分数为

与此同时,为了消除论文发表时间对被引用次数的影响,本文还计算了每名科研人员3 年引文时间窗的总被引次数(3_YEAR_TCC)、3 年引文时间窗的篇均被引次数(3_YEAR_ACCP) 以及3 年引文时间窗的领域标准化引用分数(3_YEAR_FNCC)。以作者au_1 为例,其总被引次数为6+4=10 次,篇均被引用次数为10/2=5 次。e2005=(6+5+2)/3=作者au_1 的领域标准化引用分数等于

2.2.3 学术论文相似度与论文被引频次关系1)分析方法

在考察学术论文相似度与论文被引频次关系时,本文主要采用两种方式。第一,相关性分析:分别计算学术论文相似度指标与论文被引频次不同指标之间的相关系数,并进行显著性检验,以分析两个变量之间的关系;第二,多元回归分析:除了论文相似度,可能存在其他影响论文被引频次的干扰因素,本文通过控制变量排除干扰因素的影响,使用多元回归模型分析多个变量之间的关系。

2)控制变量

谢娟等[17]证实了影响论文被引频次的因素有作者数、论文篇幅、期刊影响因子、参考文献数、文献类型和作者年龄。本文使用的文献类型均为Arti‐cle,不需要对文献类型进行控制。因此,借鉴谢娟等[17]的研究,我们选择了5 个控制变量:①作者数(Num_of_author)。每篇论文包含的作者数量。②论文篇幅(Pages)。用论文页数表示。③期刊影响因子(IF)。使用一本期刊2010—2020 年期刊影响因子的均值表示。因计算机科学与人工智能领域期刊影响因子缺失值较多,在后续回归分析时删除期刊影响因子这一控制变量。④参考文献数(NR)。⑤作者学术年龄(Age)。作者学术年龄等于其在职业生涯中发表第一篇论文的年份与发表最后一篇论文年份的差值加1。

除作者学术年龄指标外,其余4 个指标作者数、论文篇幅、期刊影响因子、参考文献数的分析对象均为论文而非作者。后续指标需要以作者为单位进行分析,因此,在计算某一位科研人员的某个指标(如作者数)时,等于其发表所有论文某个指标值(如作者数)的平均值。例如,作者A 以第一作者身份发表了4 篇论文,每篇论文的作者数依次为4、3、4、5 人,则作者A 的作者数为(4+3+4+5)/4=4 人。

同时,考虑到5 个控制变量彼此间的极值差距较大,拟对这些变量的指标值进行归一化处理。归一化方法选择最常见的最大最小标准化(min-max normalization)方法。这种方法简单易理解,不改变数据分布,采用的公式为

其中,Y是指标的标准化值;X为指标的原始值;X_max 与X_min 分别对应于指标的最大值和最小值。

3)回归模型

论文被引频次服从偏态分布,负二项回归模型被认为是偏态分布数据的标准回归模型[18]。因此,我们选择负二项回归模型探讨自变量(学术论文相似度)及控制变量(作者数、论文篇幅、期刊影响因子、作者学术年龄、参考文献数)对因变量(论文被引频次)的影响。

为TCC、ACCP 等6 个因变量指标分别构建两个模型。首先,利用5 个控制变量指标构建模型1,对模型1 进行检验,并计算对数似然值log-likeli‐hood1;然后,增加学术论文相似度指标构建模型2,对模型2 进行检验并计算新的对数似然值loglikelihood2。对两个模型进行似然比检验,χ2统计量等于模型1 和模型2 对数似然值差值的2 倍。若χ2≥则拒绝原假设,说明科研人员的学术论文相似度对论文被引频次有影响;反之,则说明没有影响。

进行负二项回归模型时使用python 的statsmod‐els 模块,操作步骤借鉴马萨诸塞大学阿默斯特分校 (University of Massachusetts, Amherst) Sachin Date 的研究:https://timeseriesreasoning.com/contents/negative-binomial-regression-model/。

3 研究结果

3.1 学术论文相似度分析

(1)商业与经济领域科研人员的学术论文相似度分析。

商业与经济领域958 名科研人员的学术论文相似度如图1 所示。从图1 可以看出,商业与经济领域科研人员的学术论文相似度呈现出“中间高、两边低”的分布形态。相似度介于[0.4,0.5)的科研人员数量最多,为255 名,占商业与经济领域所有科研人员的26.6%。相似度小于0.4 或大于等于0.5 的科研人员数量依次减少。如果我们将学术论文相似度小于0.4 定义为科研人员研究主题发生转移,那么商业与经济领域有39.5%的科研人员研究主题发生转移。

图1 商业与经济领域科研人员群体学术论文相似度

(2)计算机科学与人工智能领域科研人员的学术论文相似度分析。

计算机科学与人工智能领域1788 名科研人员群体的学术论文相似度如图2 所示。从图2 可以看出,计算机与人工智能领域科研人员的学术论文相似度同样呈现出“中间高、两边低”的分布形态。相似度介于[0.4,0.5)的科研人员数量最多,为376 名,占计算机科学与人工智能领域科研人员的21.0%。相似度小于0.4 或大于等于0.5 的科研人员数量依次减少。如果我们将学术论文相似度小于0.4 定义为科研人员研究主题发生转移,那么计算机科学与人工智能领域有45.6%的科研人员研究主题发生转移。

图2 计算机科学与人工智能领域科研人员群体学术论文相似度

3.2 学术论文相似度与论文被引频次关系

3.2.1 相关性分析

(1)商业与经济领域科研人员学术论文相似度与论文被引频次相关性分析。

商业与经济领域科研人员学术论文相似度指标(Similarity)与不同的论文被引频次指标相关性分析结果如表3 所示。从表3 可以看出,FNCC 与Sim‐ilarity 相关系数的P值小于0.05,通过了显著性检验,但Pearson 相关系数较小,只有不到0.1,可以认为不相关。其余5 个被引频次指标与Similarity 相关系数的P值均大于0.05,未通过显著性检验。因此,从相关性分析结果来看,商业与经济领域科研人员群体的学术论文相似度与论文被引频次不存在线性相关关系。

表3 商业与经济领域科研人员学术论文相似度与论文被引频次的相关性分析

(2)计算机科学与人工智能领域科研人员学术论文相似度与论文被引频次相关性分析。

计算机科学与人工智能领域科研人员6 个论文被引频次指标与学术论文相似度指标的相关性分析结果如表4 所示。从表4 可以看出,TCC 指标未通过显著性检验,而其余5 个指标虽通过了显著性检验,但Pearson 相关系数值均小于0.2,可以认为不相关,因此,计算机科学与人工智能领域科研人员群体的学术论文相似度与论文被引频次同样不存在线性相关关系。

表4 计算机科学与人工智能领域科研人员学术论文相似度与论文被引频次的相关性分析

3.2.2 回归分析

(1)商业与经济领域科研人员学术论文相似度与论文被引频次负二项回归分析。

商业与经济领域科研人员学术论文相似度与论文被引频次负二项回归分析结果如表5 所示。

从表5 可以发现:

表5 商业与经济领域科研人员群体学术论文相似度与论文被引频次负二项回归分析

第一,商业与经济领域科研人员学术论文相似度未对论文被引频次产生影响。在模型2 中,以

TCC、 ACCP、 FNCC、 3_YEAR_TCC、 3_YEAR_ACCP 和3_YEAR_FNCC 为因变量的回归模型中,自变量Similarity 均未通过显著性检验,即在商业与经济领域,科研人员的学术论文相似度未对其被引用频次产生影响。

第二,不同控制变量对论文被引频次的影响不同。若控制变量能够通过显著性检验,则说明其会对论文被引频次产生影响。①以TCC 和ACCP 为因变量时,IF、NR、Age 通过显著性检验;②以FNCC 为因变量时,IF、NR 通过显著性检验;③以3_YEAR_TCC 和3_YEAR_ACCP 为 因 变 量 时,5 个控制变量均通过显著性检验;④以3_YEAR_FNCC为因变量时,Pages、IF 通过显著性检验。

第三,当因变量为不固定时间窗的论文被引频次指标时,模型2 的拟合度优于模型1。对模型1 和模型2 进行对数似然比检验发现,当论文被引频次用TCC、ACCP 和FNCC 指标衡量时,说明学术论文相似度对论文被引频次产生了影响;当论文被引频次用3_YEAR_TCC 和3_YEAR_ACCP 指标衡量时,相似度未对论文被引频次产生影响;当论文被引频次使用3_YEAR_FNCC 指标衡量时,未得出卡方检验结果,因此,学术论文相似度是否对论文被引频次产生影响未知。

(2)计算机科学与人工智能领域科研人员学术论文相似度与论文被引频次负二项回归分析。

计算机科学与人工智能领域科研人员学术论文相似度与论文被引频次负二项回归分析结果如表6所示。

从表6 可以发现:

表6 计算机科学与人工智能领域科研人员群体学术论文相似度与论文被引频次负二项回归分析

第一,计算机科学与人工智能领域学术论文相似度会对论文被引频次产生影响。这表现在以6 个被引频次指标为因变量的回归模型中,Similarity 指标均通过显著性检验。而在商业与经济领域中,Similarity 指标均未通过显著性检验,这说明学术论文相似度是否会其对被引频次产生影响可能具有学科特异性。

第二,不同控制变量对论文被引频次的影响不同。通过显著性检验可证明该控制变量会对论文被引频次产生影响。①以TCC 为因变量时,NR、Age通过显著性检验。②以ACCP 为因变量时,NR 通过显著性检验。③以FNCC 和3_YEAR_FNCC 为因变量时,Num_of_author、NR 通过显著性检验。④以3_YEAR_TCC 为因变量时,Pages、NR、Age 通过了显著性检验。⑤以3_YEAR_ACCP 为因变量时,4 个控制变量均通过了显著性检验。

第三,模型2 拟合度均优于模型1。对模型1 和模型2 进行对数似然比检验发现,当论文被引频次用6 个指标衡量时,χ2≥21.4;自由度为1 时,临界卡方值说明学术论文相似度对论文被引频次产生了影响。

4 总结与讨论

4.1 总 结

本文旨在探讨科研人员职业生涯学术论文相似度及其对被引频次的影响。选择商业与经济领域958 名科研人员、计算机科学与人工智能领域1788名科研人员为研究对象,使用相关系数和负二项回归模型进行分析,主要结论如下。

(1)在学术论文相似度方面,两个学科科研人员的学术论文相似度呈现出“中间高、两边低”的分布形态,相似度介于[0.4,0.5)的科研人员数量最多。商业与经济领域有39.5%的科研人员研究主题发生转移,而计算机科学与人工智能领域这一比例为45.6%。

(2)在学术论文相似度与论文被引频次的相关性分析方面,商业与经济领域中Similarity 与FNCC相关,计算机科学与人工智能领域中Similarity 与ACCP、FNCC、3_YEAR_TCC、3_YEAR_ACCP 和3_YEAR_FNCC 相关,但相关系数均小于0.2,可以认为两个学科科研人员职业生涯中学术论文相似度与论文被引频次之间不存在线性相关关系。

(3)在学术论文相似度与论文被引频次的回归模型方面,商业与经济领域以TCC、ACCP、FNCC、3_YEAR_TCC、 3_YEAR_ACCP 和3_YEAR_FNCC为因变量的回归模型中,自变量Similarity 均未通过显著性检验,即在商业与经济领域,科研人员的学术论文相似度未对其被引用频次产生影响。计算机科学与人工智能领域以上述6 个被引频次指标为因变量的回归模型中,Similarity 指标均通过显著性检验。说明学术论文相似度是否会对其被引频次产生影响可能具有学科特异性。

(4)在控制变量方面,商业与经济领域影响论文被引频次的控制变量主要是IF。以6 个被引频次指标为因变量构建的回归模型中,IF 均通过显著性检验,且回归系数与其他控制变量相比较大,说明期刊影响因子对论文被引频次的影响较大。计算机科学与人工智能领域影响论文被引频次的控制变量主要是NR。无论论文被引频次使用何种指标测度,NR 均通过显著性检验,且回归系数较大,说明当论文被引频次提高时,论文参考文献数能够较大程度地解释这种提升效应。

4.2 讨 论

(1)科研人员职业生涯中研究主题是否发生了转移?

本文发现,在2~20 年的职业生涯中,研究主题非常相似或非常不相似的科研人员数量都较少,大部分科研人员的研究主题会发生一定程度的转移。那么,科研人员研究主题转移是否有规律可循?Jia等[13]使用“海边漫步”模型来解释科学家的研究兴趣的演化。在这一模型中,“海滩”上有着某一数量的点,某些点上存在一定数量的、多种类型的贝壳,每种类型代表一种研究话题,贝壳数量在各点上的概率分布为P(q),有可能某些点上不存在任何种类的贝壳。科学家随机从“海滩”上选择一个点,然后向左或者向右随机行走,向左和向右的概率均为0.5;他有可能在某些点上经过两次或两次以上;若走到的点上有贝壳,则代表他发表了一篇某种研究话题的论文。科学家每走一步代表过去了一个单位的时间,他所走的总步数等于其科学职业生涯的总时间[11]。

(2)科研人员职业生涯中学术论文相似度是否会影响论文被引频次?

学术论文相似度是否会影响论文被引频次的问题在学界一直存有争议。部分研究证明两者存在正相关关系,研究主题变化较大的科学家更可能产生高影响力的成果[3]。另外一种观点则认为“频繁转移话题在整个职业生涯对科学家的影响力都有损害”[8]。

从本文结论来看,学术论文相似度与论文被引频次之间不存在线性相关关系;根据负二项回归结果,两者关系可能具有学科特异性。计算机科学与人工智能领域科研人员的学术论文相似度会对被引频次产生影响,而商业与经济领域则恰好相反。回归系数可以用来解释论文相似度如何影响论文被引频次,以计算机科学与人工智能领域3_YEAR_AC‐CP 指标为例,学术论文相似度的回归系数为0.7789,即论文相似度每变动1 个单位,平均而言,3_YEAR_ACCP 将 变 动0.7789 个 单位。

学术论文相似度与论文被引频次之间呈现的复杂关系可能是马太效应与论文适应度(fitness)[19]共同作用的结果。职业生涯中从事相似的研究课题有助于提升作者声望,累积起来的作者声望不仅使资深作者的论文被引用可能性是年轻作者的4 倍,而且能使其早期的研究成果产生溢出效应。比如,针对124 名诺贝尔奖获得者的分析表明,一项重要科学发现的公布连带增加了作者以前发表的论文的引用量,即使早期论文与新发现的课题并不一定相关[20]。

与此同时,论文被引频次又受到论文适应度的影响。适应度是指论文获得引用的内在能力的差异,用一组论文的内在属性来表示,如发表渠道、读者规模以及贡献性质(如综述论文和方法论文往往比常规研究论文更易被引用)。如果考虑论文适应度,那么当前引用量相同的两篇论文,适应度高的那篇未来会有更高的概率获得更多的引用。不同的学科领域论文具有不同的适应度。马太效应和论文适应度的协同作用最终导致了论文被引频次呈现不同的形态。

对于论文相似度与论文被引频次背后的作用机理,未来还需进一步探索以得出更具参考价值的结论。

(3)控制变量是否会影响论文被引频次?

不可否认,论文被引频次受多种因素共同作用。其中就包括本文涉及的控制变量:期刊影响因子、作者数、参考文献数、论文篇幅以及作者学术年龄。在商业与经济领域,期刊影响因子对论文被引频次的作用较大,而在计算机科学与人工智能领域,参考文献数对论文被引频次的作用较大。

期刊影响因子在商业与经济领域确实对科研人员职业生涯的论文被引频次起到非常重要的作用。研究表明,声望较高的期刊能够吸引高质量论文,这就意味着高质量论文提交到核心期刊,而较低质量论文提交到二流期刊,核心期刊论文与二流期刊论文相比被引用次数更高[21]。期刊影响因子与论文被引频次之间的天然联系,使得在科研人员评价中,虽然期刊影响因子不适用于评价科研人员个人或单篇论文,却可以用作论文被引频次评价的重要参考。

参考文献数在计算机科学与人工智能领域对科研人员职业生涯的论文被引频次起到较大作用。参考文献数量以及参考文献的其他特征是论文被引频次强有力的预测因子[22]。研究发现,论文的参考文献数量越多,其被引的可能性越大[18]。计算机科学与人工智能领域222449 篇论文的平均参考文献数量为28.8 篇。

科研人员职业生涯中学术论文相似度与论文被引频次关系的研究,可以为科研人员研究主题转移提供一定的参考。当然,本文还存在一些不足:①学术论文相似度局限于学科内,不涉及跨学科性问题。本文采用“先确定学科再确定科研人员”的策略,计算科研人员在学科内部论文的相似度,并未考虑科研人员在其他学科领域发表的论文。②学术论文相似度使用论文标题的语义相似性来度量,这种方法一方面容易受作者选词倾向的影响,比如,选择新词汇以突出论文新颖性,吸引读者、审稿人的关注;另一方面容易受学科词汇演化的影响,学科在发展中会不断出现新术语、新概念。我们会在后续研究中通过关注跨学科科研人员群体、使用更完善的相似度计算方法以弥补以上不足。

猜你喜欢

学术论文计算机科学科研人员
本期主要学术论文英文题目及摘要
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
学术论文征集启示
科研人员揭示油桃果实表皮不长毛的奥秘
学术论文征集启事
科研人员破译黑猪肉特征风味物质
试论计算机科学与技术的现代化运用
探讨计算机科学与技术跨越式发展
新英镑
企业科研人员激励问题及对策研究