APP下载

基于Altmetrics指标识别的研究热点对比分析
——以生物学领域为例

2019-06-06迟培娟陈挺宋秀芳冷伏海

数字图书馆论坛 2019年5期
关键词:科研人员热点次数

迟培娟 陈挺, 宋秀芳 冷伏海

(1.中国科学院文献情报中心,北京 100190;2.中国科学院大学,北京 100049;3.中国科学院科技战略咨询研究院,北京 100190)

当前科技创新演变加剧,交叉融合加速,科技环境愈加复杂。研究热点或研究前沿本质上是指科研共同体高度关注并积极开展研究的领域,从一定程度上代表了学科的研究重点和未来发展方向[1]。对于热点和前沿的识别不仅是科研活动中探明知识基础、发掘前沿趋势的必要手段,也是科技政策制定过程中的重要依据。

从传统的文献计量学角度来看,研究热点的相关论文表现为高发文量和高被引的特点,因此目前的研究主要基于主题词和引用关系来探测研究热点。基于主题词的研究热点识别主要通过词频和主题词共现关系来实现[2-5]。基于引用关系的热点识别主要通过高被引论文的引文耦合[6]和共被引关系[7]来实现。基于主题词的热点识别需要大量的人工清洗和判读,主题词对研究内容的揭示度较低,而且需要相关主题的发文量积累到一定程度才可以识别。基于引用关系的热点识别可以较为准确地发现研究主题,目前常采用共被引和引文耦合方法进行识别。近年来,科睿唯安公司(原称汤森路透)联合中国科学院每年通过ESI高被引论文的共被引分析遴选研究前沿[8]。无论是上述哪一种方法,都需要一定的时间积累发文量或者引用关系,才可以凸显出研究热点,而为了更好地进行战略决策,需要更加快速地识别研究热点。

Altmetrics指标的出现使得快速识别研究热点有了可能。Altmetrics最大的特点是即时性,短时间内就能获得大量关注和讨论[9-10]。目前涉及的Altmetrics计量学指标主要包括4类,即社交媒体平台、文献管理工具、学术服务平台和主流新闻媒体[11]。Altmetrics当前的研究主要集中在Altmetrics指标与传统文献计量学指标的相关性和对比研究[12-15];Altmetrics工具的比较[16-18];Altmetrics指标的应用,如学术评价等[19-20]。基于Altmetrics指标识别研究热点的相关研究尚未全面展开。Eysenbach[14]经过研究发现,高被引论文的Twitter指标在论文发表后30天内就可以积累到较高水平,后续变化不大,这表明该指标有非常好的即时性;赵雅馨等[21]尝试使用Altmetrics指标和词频分析法来探测信息与计算科学领域的研究热点;方志超[22]使用发文数据、引用数据、使用数据和Altmetrics数据,基于共词方法对科学计量学领域热点主题进行了识别,但上述研究没有深入分析采用Altmetrics数据识别的研究热点与采用传统计量学方法识别的热点之间的关系及背后的原因。

由于被引次数是最常使用的传统计量指标,Twitter指标、Mendeley指标等是常见且容易积累的Altmetrics指标,本文希望进一步探讨依据Altmetrics指标遴选的热门论文与高被引论文之间的关系,基于Altmetrics指标识别的研究热点与基于传统高被引论文识别的研究热点之间的关系及产生这些异同的原因,探讨基于Altmetrics指标识别的研究热点是否适合作为前沿趋势探测和科技政策制定的辅助依据。

1 研究方案和分析结果

1.1 研究数据

本文采用Altmetrics.com网站的相关指标,该网站是目前较为成熟的Altmetrics服务平台之一,涉及的评价指标较为丰富,涵盖各类主流指标,主要包括Twitter指标、Mendeley指标、新闻、文章点评、专利引用等信息,上述指标被分别赋予不同的权重,最后合计得出Altmetrics分数[22]。该平台还免费提供API接口,便于大样本数据的抓取。

论文数据采用2013年7月1日—2014年6月30日发表的生物学领域论文。采用这一时间段的数据主要原因有:①Altmetircs.com成立于2011年,较少涉及2011年之前出版的论文,运营2年后其论文数据涵盖范围已经较为广泛,这样可以避免大量目标论文没有分数;②后续研究涉及被引次数指标的对比分析,论文的引用次数需要一定的时间积累。论文发表3~4年后,其被引次数增长趋于稳定。

首先在SCIE数据库中检索指定时间段发表的生物学领域论文并提取被引次数信息,由于本文要探索研究热点,虽然“Review”类的文献被引次数高,但不涉及具体的研究,因此仅保留“Article”“Letter”“Meeting Abstract”这3种类型的论文,共获取到10 002篇论文,并提取其被引次数等信息,其中有8 841篇论文有被引记录,8 529篇有DOI信息;然后,利用其DOI信息到Altmetrics.com网站获取相关指标信息,共有3 940条数据有Altmetrics分数,提取的具体指标包括Altmetrics分数、Twitter指标、Mendeley指标、新闻指标、F1000指标、Wikipedia指标,其中大部分论文均有Twitter指标和Mendeley指标,其他指标空值居多,因此后续研究主要围绕Altmetrics分数、Twitter指标、Mendeley指标和被引次数展开。

1.2 相关性分析

目前已有的Altmetrics指标与被引次数之间的相关性研究是基于某领域的所有论文集合,本研究主要目的是识别研究热点,因此重点分析热门论文的指标相关性。根据二八定律,本文选取Altmetrics分数排名前20%的788篇论文作为热门论文,计算Altmetrics分数、Twitter指标和Mendeley指标与被引次数的相关性,结果如表1所示,与全部论文相比,热门论文的3个指标与被引次数的相关系数均有不同程度的降低。这说明在热门论文中,Altmetrics指标与被引次数的相关性要低于总体论文的相关性。笔者将进一步探讨相关性的降低是否会影响采用Altmetrics指标识别研究热点。

表1 热门论文和所有论文的相关性分析结果

1.3 研究热点分析

分别按照Altmetrics分数和被引次数降序排列论文,各取前10%的论文(394篇论文),合并后去重,发现有92篇论文重复,仅占394篇论文的23%,说明两个指标的前10%论文大部分均不相同,这也预示着Altmetrics平台的热门论文与SCIE平台的高被引论文存在较大差别。笔者希望进一步探索基于Altmetrics指标与被引次数识别的研究热点之间的关系。

由于基于引文耦合关系识别的热点论文簇对研究热点的揭示度要明显好于高频词[23],因此本文采用高影响力论文的引文耦合关系来探测研究热点。依次选取Altmetrics分数、Twitter指标、Mendeley指标和被引次数中排名前10%的高影响力论文各394篇,利用Vosviewer软件的bibliographic coupling功能,对高影响力论文进行引文耦合聚类分析,结果如表2所示。

表2 通过各种指标识别的研究热点对比

基于Altmetrics分数识别的研究热点主要有6个,从子学科领域的分布来看,主要分布在环境科学、进化生物学、动物学和行为学等领域。具体研究包括:温室气体对海洋生态的影响,海参等高价值海洋生物的灭绝,非禽类恐龙的进化模拟,恐龙体重演变,肥胖的影响,肠道益生菌与关节炎的关系等,狗对颜色的敏感性,转基因鲑鱼对其他鱼类的影响等内容。从以上分析可以看出,这些研究主要涉及环保、恐龙、健康、动物行为、转基因等公众话题,十分容易引起公众的关注。

通过比较可以发现,基于Altmetrics分数和Twitter指标识别的研究热点更为接近,均涉及海洋生态环境保护、物种多样性、恐龙进化、医药健康等公众较为关注的话题。基于被引次数识别的研究热点主要反映科研人员的视角,与学术界广泛认可的科技前沿识别结果能够吻合,如基因组编辑技术和癌症免疫治疗均入选Science年度十大科学突破[24]和《2015研究前沿及分析解读》,植物信号转导入选《2015研究前沿及分析解读》[8]。可以看出基于被引次数识别的研究热点更具专业性,往往代表了科技界研究的前沿,与基于Altmetrics分数和Twitter指标识别的热点明显不同。基于Mendeley指标识别的研究热点除了公众关心的海洋生态环境保护、物种多样性、恐龙进化等话题,还涉及一些学术界广泛认可的研究前沿,如CRISPR代表的基因组编辑技术、癌症免疫治疗等遗传学领域研究。

2 分析与讨论

本文基于3种Altmetrics指标和被引次数识别了2013—2014年生物学领域的研究热点,对比不同方法识别的研究热点的异同,下面就结果进行分析讨论。

基于Twitter指标识别的研究热点主要反映公众科普话题。Twitter是美国主要的社交网络及微博服务网站,与其他社交媒体相比,学者更愿意在Twitter上介绍自己或他人的最新研究成果,Twitter也因此成为Altmetrics研究的焦点。已有研究表明,推文多少与被引次数的多少呈现弱相关性[25]。本文的研究结果也进一步佐证了这一结果,广大Twitter用户和研究人员的关注点存在明显差异。Twitter用户以普通民众为主,科研人员只占小部分,因此能引起广大用户兴趣的科普话题容易成为热点。

基于Altmetics分数识别的研究热点与基于Twitter指标识别的研究热点较为相似。Altmetics分数是综合Twitter、新闻、Google+、Facebook等多种数据计算出来的,王睿等[26]对Altmetics分数较高的论文分析后发现,从各底层数据源的数据量来看,Twitter的数据量最多,可以推测Twitter数据对Altmetics分数的影响较大,这可能是二者识别的研究热点相似的原因。同时由于Altmetics分数还涉及其他多种数据,因此二者识别的研究热点还存在一定差异。

基于Mendeley指标识别的研究热点既有公众较为关心的科普主题,也有科研人员关注的研究前沿。这是因为Mendeley是一款被广泛使用的文献管理软件,同时也是一个在线的学术社交网络平台,因此它的使用主体既包括科研人员,也包括科学爱好者和公众。从本文研究的情况来看,基于Mendeley指标识别的研究热点可以部分反映研究前沿,与基于高被引论文识别的研究热点部分相同。

基于被引次数识别的研究热点更加反映科研人员的关注点,这是因为引用行为的主体是科研人员,被科研人员广泛关注和认可的前沿研究更容易成为高被引论文,因此基于高被引论文识别的结果与学术界普遍认可的研究前沿更为相关。

基于上述4种指标识别的研究热点经专业人员判读后,发现基于被引次数识别的研究热点更符合其认知,基于Mendeley指标识别的研究热点部分符合其认知。此前,赵雅馨等[21]通过对信息与计算科学领域的实例研究认为基于Altmetrics指标识别研究热点符合领域专家的预期,这与本文的研究结果不同,这种情况或许是由于不同学科领域的科研人员在网络上的活跃度和活动轨迹不同造成的,因此还需要其他学科领域的进一步分析验证。

3 结语

本文对生物学领域热门论文的主要Altmetrics指标和被引次数的相关性进行了分析,结果发现,与领域所有论文相比,热门论文各指标的相关性均有不同程度的降低。基于Altmetrics分数和Twitter指标识别的研究热点与领域专家认可的高被引论文研究热点差别较大,基于Mendeley指标识别的研究热点可以部分反映高被引论文研究热点,同时涵盖了一定的公众话题。总体来看,基于上述3种Altmetrics指标识别的研究热点并不适合直接用来作为前沿趋势探测和科技政策制定的辅助依据,基于Mendeley指标识别的研究热点可以结合专家评议等方法作为参考。

本文仅采用生物学领域一年内的论文数据进行研究,可能不同学科、不同时段内的数据分析结果会不同,需要更多的实证分析加以验证。由于分析数据中大部分论文均有Twitter指标和Mendeley指标,其他指标空值居多,因此研究主要围绕Altmetrics分数、Twitter指标、Mendeley指标展开,后续研究可以补充一些新闻数据、政策文件数据和更专业的即时网络数据,如Faculty1000、Researchgate、科学网等,以便从不同视角加深对Altmetrics指标的理解,更好地利用Altmetrics指标为科研人员和情报人员提供及时、专业的前沿信息。

猜你喜欢

科研人员热点次数
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
热点
机场航站楼年雷击次数计算
科研人员破译黑猪肉特征风味物质
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
一类无界算子的二次数值域和谱
治疗艾滋病,中国科研人员有了新发现
广东公安科研人员风采
热点
结合热点做演讲