APP下载

科研论文在社交网络中的关注度分析*
——以PLOS生物医学论文为例

2019-05-16田玥贺培凤邰杨芳吴胜男张昆于琦

数字图书馆论坛 2019年4期
关键词:医学论文关注度媒介

田玥 贺培凤 邰杨芳 吴胜男 张昆 于琦

(山西医科大学管理学院,太原 030001)

生物医学论文的扩散,意味着有更多的人获得、认识、理解和受惠于医学知识,有助于大众健康素养的提高和医学知识及时应用于临床工作。研究生物医学论文在网络中的关注度,可以为促进生物医学论文扩散、提升论文扩散效率提供参考依据,拓宽知识扩散渠道,以充分实现生物医学科研成果的价值。传统的研究方法中,生物医学论文的出版、订阅和引证等指标常被用来研究论文的扩散。随着数字学术出版革命的兴起和推进、网络媒体的普及,以及开放获取(Open Access)运动的出现,生物医学论文的扩散渠道呈现多样化趋势,扩散所用平均时间不断缩短[1]。生物医学论文在网络中经电子出版后,通过各类媒介向外扩散,不但丰富了扩散的形式和渠道,也留下了种类繁多、条目细分、数据庞大的网络扩散数据(即Altmetrics数据),这些新的知识传播和扩散媒介以及所产生的扩散数据,为研究生物医学论文的扩散提供新视角、新途径。

目前,不乏关于Altmetrics数据的研究。金贞燕等[2]分析了Altmetrics数据整合工具的现状特点,研究可以帮助学者更好地理解、把握Altmetrics数据的应用。Shu等[3]研究发现相同时间发表于同一期刊的论文,被Twitter转发的论文比未被Twitter转发的论文增加大约30%的被引频次。魏绪秋等[4]基于动态Altmetrics数据对学术论文持续关注度进行研究,证实大部分学术论文社交活跃期相对较早,少部分学术论文社交活跃期相对较晚。Wang等[5]追溯了学术论文在社交媒介中的扩散踪迹,发现科学论文在发表后的很短时间内能够迅速在社交媒体上引起关注,但是关注度的持续时间较短。王真等[6-7]基于38篇生物医学论文的浏览量数据对论文的网络传播特征及规律进行了探讨研究,并对论文在网络媒体中浏览量的累积规律进行了探索。

现有的研究已取得一定的研究成果,可为后续的Altmetrics数据研究提供有益参考。但从上述相关研究的数据量来看,Altmetrics数据的数量级普遍较小,而且所分析的数据基本为横断面静态数据,其研究结论在大样本、持续动态的Altmetrics数据上是否同样适用尚待验证。为此,本研究获取10 903篇论文的面板数据,对论文发表后随时间的关注过程以及论文网络关注度的影响因素进行研究。选取美国科学公共图书馆(Public Library of Science,PLOS)平台7种期刊在2016年12月1日—2017年5月31日发表的论文,使用R语言编写程序,获取每篇论文自发表第2天开始连续200天的ALMs指标。运用自编的Python程序对论文发表后的网络关注过程进行分析,包括论文在不同平台上的扩散趋势、覆盖率变化趋势及单日访问量分析。运用特征分数和尺度(Characteristic Scores and Scales,CSS)及词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)方法对论文在网络中的关注度差异进行探索。借鉴论文被引量的影响因素,结合可能会影响论文在网络关注度的因素,综合考虑后,选取4个因素进行分析,包括论文的研究主题、来源国家/地区、期刊的影响因子和作者的影响力。

1 数据来源与方法

1.1 数据来源

PLOS在网站上提供了一个可以获取论文层面计量指标的资源——ALMs(Article-Level-Metrics),它为每一篇论文提供在线使用、引用、博客、媒体报道、评论活动、社会书签、星级评分、专家推荐等信息[8-10]。PLOS记录了论文在22种传播媒介中的扩散数据,包括Twitter、Facebook、Mendeley、PMC、Citeulike、Crossref、Scopus、Figshare、Counter[11]等媒介。

编程获取2016年12月1日—2017年5月31日发表于PLOS平台7种期刊上的文献数据。自每一篇文献发表后第2天开始,连续200天追踪获取其每天的ALMs数据。数据下载时间为2016年12月1日—2017年12月18日每天21:00~24:00。由于PLOS平台系统原因,1 423篇文献在其发表初期没有发布和更新ALMs数据(见表1),剩余11 666篇文献的ALM数据被完全记录。为避免由于文献类型引起的偏移,本研究选取论文和综述作为分析对象,共计10 903篇。根据PLOS平台的分类标准,将10 903篇论文分为生物医学论文(8 322篇)和非生物医学论文(2 581)两类。表2展示了论文在7种期刊中的分布情况。

表1 发表初期没有发布和更新ALMs数据的论文数量

表2 论文在PLOS期刊上的分布信息表

本研究选择Web of Science数据库,下载8 322篇生物医学论文的题录信息,包含标题、作者和国家等。选择PubMed数据库,获取全部文献的题录信息。数据下载日期为2018年1月31日。其中,将PubMed数据库中2016—2017年的2 412 042篇论文摘要作为主题分析中TF-IDF指标的语料库。

1.2 方法

1.2.1 特征分数和尺度

CSS由Glänzel等[12]于1988年提出,是根据论文被引量大小对论文进行分类的一种方法。本文利用该方法按Counter值将8 322篇生物医学论文分为3类,具体步骤如下。

第一步:计算全部论文Counter值的均值,记为M1;

第二步:将Counter值<M1的论文归为第3类,即低关注度论文;

第三步:对于Counter值≥M1的论文,计算其Counter值均值,记为M2;

第四步:将M1≤Counter值<M2的论文归为第2类,即中关注度论文;

第五步:将Counter值≥M2的论文归为第1类,即高关注度论文。

1.2.2 词频-逆文档频率算法

TF-IDF是一种统计方法,可以用来评估一个词汇对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文运用该算法对论文的标题进行分析,以期获得重要的词代表论文的研究主题。计算公式如下。

2 生物医学论文网络关注过程分析

生物医学论文在不同类型社交媒介上的扩散从不同侧面体现了论文的社会影响力。本文分别选取Twitter、Mendeley、PMC和Counter 4种媒介研究8 322篇生物医学论文在大众社交媒介、学术社交媒介、使用统计类和网络综合使用类上的扩散趋势及效果(见表3)。

表3 PLOS平台ALMs的4种来源媒介信息

Twitter是大众社交媒体的代表,面向学术人员和公众,该平台上的论文主要通过分享、评论、转发等形式传播。Mendeley是学术社交媒体的代表,主要面向学术人员,该平台上的论文主要通过被使用者保存的形式传播。Mohammadi等[13]研究表明,Mendeley值能揭示一些科研论文的隐性影响。PMC是使用统计类指标,该平台上的论文主要通过浏览和下载的形式传播。Counter在测度论文网络在线使用方面具有权威性[14],是指论文在该平台上以被浏览、被下载等形式传播的次数按一定算法计算后得到的指标,是用于综合反映一篇论文在社交网络中的扩散效率指数。

2.1 不同媒介中生物医学论文的扩散趋势分析

8 322篇生物医学论文和2 581篇非生物医学论文在4种媒介上随论文发表天数增加而累计的访问量曲线如图1所示。显然,在Counter、Mendeley、Twitter和PMC 4种媒介上,论文的累计访问量增长呈现出一定的规律性。在Counter、Mendeley和Twitter媒介上,论文发表后迅速受到众多学者和社会大众的关注,随着发表时间的增加,曲线开始呈现趋缓的发展态势。这是因为新发表的论文内容新颖,很快进入学者、社会公众视野;但随着时间的推移,论文的新颖性开始降低,再加上受新发表论文的冲击,访问量增加的幅度开始变小。而在PMC上,由于论文网络出版与数据库收录存在一段时间差,所以,前期的访问量为零,后期医学科研人员根据实际需要检索文献,累计访问量呈持续快速增长。

在Counter、Mendeley、Twitter 3种媒介上,生物医学论文获得的访问量低于非生物医学论文。这说明对于没有医学背景的大众而言,医学论文比较难以理解,影响了生物医学论文的向外扩散,导致生物医学论文获得的访问量低于非生物医学论文。而在媒介PMC上,生物医学论文访问量高于非生物医学论文。这说明,PMC作为生物医学和生命科学期刊文献全文档案为主的数据库,是医学科研人员获取医学知识的首选媒介。

2.2 不同媒介中生物医学论文覆盖率分析

计算生物医学论文在发表后的每天分别被Counter、Mendeley、Twitter和PMC 4种媒介关注的论文数占总论文数的比值,得到发表后不同时间论文在每个平台的覆盖率。如在Mendeley媒介上,论文发表后第3天的覆盖率是15.61%,表明在8 322篇论文中有1 299篇论文被Mendeley保存。图2显示了8 322篇论文发表后200天内在4种平台上的覆盖率随时间的变化趋势。

图1 生物医学论文和非生物医学论文在Counter、Mendeley、PMC和Twitter上的扩散趋势

在Mendeley媒介上,论文的覆盖率呈持续增长的趋势。这是由于Mendeley媒介上集聚的用户以科研人员为主,科研人员可能根据科研需求对论文进行阅读,兴趣比较持久,既关注新发表的论文也关注往期论文。刘晓娟等[15]也证实了Mendeley对论文的关注是一个持续的过程。在Twitter媒介上,论文的覆盖率初期较高,后期基本保持不变。这是由于Twitter是一种大众化的媒体,关注的用户以大众为主,大众关注的是最新发表的论文。Haustein等[16]在2014年的研究中发现,Twitter用户更青睐于提及新发表的文献,而不是往期文献。在Counter媒介上,论文发表后第3天有98.62%的论文被浏览或下载。在PMC上,论文发表后第100天有95.83%的论文被浏览或下载。这说明在网络社交媒体上,论文在短期内得到了较高的关注,这是传统媒体所不能及的。这也提示科研学者,有效地利用现代化网络化的渠道传播新知识,让更多的人受益,让更多的新成果得到应用。

图2 生物医学论文在Counter、Mendeley、Twitter、PMC上的覆盖率随时间的变化趋势

2.3 生物医学论文单日访问量分析

由于PLOS ALMs指标数据首次更新日期为论文发表后第2天(不包含论文发表当天),因此首次更新的数据应该是论文发表后第1天和第2天的累计之和。在处理数据时,我们把首次获取的Counter值平均分配至第1天和第2天。如2016年12月1日发表的论文Do Eliteand Amateur Soccer Players Outperform Non-Athletes on Neuro cognitive Functioning?A Study Among 8-12 Year Old Children,2016年12月3日在PLOS ALMs上获得的首次Counter值是38,则该论文在发表后第1天(12月2日)和第2天(12月3日)的Counter值均为19。

如表4所示,452篇生物医学论文在发表后第1天或第2天单日访问量达到峰值。1/3(2 814篇)的生物医学论文在发表后第3天单日访问量达到峰值。超过一半(57.28%)论文的单日访问量在发表后7天内达到顶峰。可见,论文发表后第3天是论文关注的巅峰期,发表后7天内是论文关注的黄金期。

表4 生物医学论文单日访问量最大时的论文篇数统计表

3 生物医学论文网络关注度差异分析

鉴于生物医学论文关注的巅峰期是发表后的第3天,本研究首先选用Counter第3天的值作为测度数据,运用CSS方法将8 322篇生物医学论文分为3类:高关注度论文,692篇,Counter值≥467;中关注度论文,2 635篇,231≤Counter值<467;低关注度论文,4 995篇,Counter值<231。然后,从研究主题、来源国家/地区、来源期刊和作者影响力4个维度分析不同关注度论文之间的差异,探索论文在社交网络中关注度的影响因素。

3.1 不同关注度论文的研究主题分析

本研究选取论文的摘要作为主题分析的对象。对8 322篇生物医学论文的摘要进行切词、归类、移除停用词、取词干后,计算每个词汇的TF-IDF得分,经反复实验发现TF-IDF>0.3的词汇可以较好地代表论文的主题。分别计算这些词汇在3类论文的摘要中出现的频次(见表5)。

表5 3类生物医学论文中摘要前20个高频词统计表

疫苗(vaccin)、癌症(cancer)、突变(mutat)、细胞(cell)等主题在3类论文中均得到较高的网络关注,表明这些主题是生物医学领域普遍受欢迎的研究主题。一些与病毒相关的主题,如寨卡(zikv)、登革热(denv)和基孔肯雅(chikv)出现在高关注度论文中。zikv病毒可造成大批婴儿脑发育不全,denv病毒感染具有高发病率和高死亡率的特征,chikv病毒可引发以发热、皮疹及关节疼痛为主要特征的急性传染病,相关主题的论文获得了大众的高度关注。基因(gene)、儿童(children)、妇女(women)和眼(eye)这些主题出现在中关注度论文和低关注度论文中。健康(health)仅出现在低关注度论文中。

对比3类论文的研究主题可以发现,除3类论文有共同的研究主题外,与人类健康迫切相关的研究主题得到高的网络关注,较为常规、宽泛的研究主题没有得到高关注度。

3.2 不同关注度论文的来源国家/地区分析

本研究统计了每类论文的来源国家/地区的发文量。国家/地区的发文量根据论文的通信作者所属国家/地区进行计算。如一篇论文有2名通信作者,分别来自中国和美国,那么中国对这篇论文的贡献记50%,美国记50%。本文统计了每类论文中发文量前20的国家。

美国在3类论文中的发文量均排在首位,且在高关注度论文中占比最大,达36.04%。这表明美国的生物医学研究在网络中受欢迎的程度很高,也意味美国在世界医学研究领域中占主导地位。英国、加拿大、巴西、瑞士、苏格兰在高关注度论文中的发文量排名较前,在中关注度和低关注度论文中的排名较后。与此相反,中国、日本、韩国、意大利在高关注度论文中排名较后,在中关注度和低关注度论文中排名较前,表明这些国家发表的生物医学论文在网络中受欢迎的程度不高。

3.3 论文关注度与来源期刊的关系分析

7种期刊的扩散趋势如图3所示。可以看出,PLOS Biology期刊的论文平均获得的访问量最高,PLOS Medicine期刊次之,PLOS Pathogens期刊和PLOS Genetics期刊的论文平均获得的访问量相同。对照表2期刊影响因子可以得出,生物医学论文获得的访问量与所在期刊的影响因子之间存在一定的正相关性,论文在网络中的关注度受所在期刊影响因子的影响,但可以实现局部超越。

图3 生物医学论文在7个期刊上的扩散趋势

3.4 论文关注度与作者影响力的关系分析

本文使用H指数作为作者影响力的测度指标。我们利用Web of Science下载每篇文章作者发表的论文记录,为减少作者同名对检索结果带来的影响,采用“作者姓名+机构名称”的方式实施检索,并对检索记录进行人工筛选。基于筛选后的数据集,计算每位作者的H指数。对于每篇文章,我们选取第一作者和通信作者的H指数(多个通信作者的选取H指数最大的一个),与第3天Counter值做Spearman相关分析,结果为P>0.05,说明论文第一作者和通信作者的H指数与其Counter值均不存在相关性。这反映出大众在网络中传播学术论文时并不关注论文作者是否具有影响力,论文作者的影响力不是论文网络关注度的影响因素。

4 结论

从关注过程看,生物医学论文在Counter、Mendeley、Twitter和PMC 4种媒介上,扩散趋势和覆盖率变化趋势各不相同。因此在扩散论文时,针对不同的媒介,应采取不同的扩散策略。论文发表后第3天是关注的巅峰期,发表后7天内是关注的黄金期。因此要在论文发表初期及时传播论文,使科研成果得到最大限度的扩散。

从关注度差异上看,论文的研究主题、来源国家/地区、来源期刊的影响因子都会影响论文在网络中的关注度,而论文作者的影响力并不会对论文在网络中的关注度产生影响。

(1)论文的研究主题会影响论文在网络中的关注度。研究主题与人类健康迫切相关的论文获得了高的网络关注,如传染性病毒。研究主题较为常规普通的论文网络关注度较低。

(2)与美国、英国等国家相比,我国的生物医学论文获得的关注度较低。这个结果可能是由两个因素造成的。首先,尽管近年来我国的生物医学论文质量有很大的提高,但与美国、英国等发达国家相比还有一定的差距;其次,一些主流社交媒体在我国大陆的使用受限,导致我国的科研人员在社交网上的参与度较低。有研究表明[17],论文的扩散首先是从本机构、本国开始的,之后向外扩散。我国的科研人员在社交网上参与度较低,导致我国的生物医学论文获得较低的网络关注。这提醒我国医学研究人员,要创造条件参与科研网络交流,以促进论文的扩散。

(3)论文所在期刊的影响因子会影响论文在网络中的关注度。论文所在期刊的影响因子与论文获得的网络访问量存在一定的正相关性,但可以实现局部反超。

(4)论文作者的影响力不会影响论文在网络中的关注度。高影响力作者的论文与低影响力作者的论文在网络中的关注度不存在显著差异。这说明,网络社交媒体为论文在网络中的扩散提供了平等机会。

研究展示了生物医学论文网络关注过程,挖掘了生物医学论文网络关注度的影响因素,为生物医学论文获得更多的网络关注度提供指导意见。望研究结果能够帮助医学科研学者有效地提高论文在网络中的扩散。

猜你喜欢

医学论文关注度媒介
医学论文中引言的写法
医学论文中引言的写法
医学论文中引言的写法
医学论文中引言的写法
媒介论争,孰是孰非
书,最优雅的媒介
雄安新区媒体关注度
全国两会媒体关注度
欢迎订阅创新的媒介
暴力老妈