APP下载

基于文献计量学的冠状病毒中外研究现状分析

2020-07-13汪芩州朱维凤

关键词:发文机构研究

张 爽, 汪芩州, 石 锋, 朱维凤

(1.西南交通大学 图书馆,四川 成都 610031;2.成都市龙泉驿区卫生和健康局, 四川 成都 610010;3.四川大学 电子信息学院,四川 成都 610065)

一、引言

2019年底新型冠状病毒(2019 novel coronavirus, 2019-nCoV)引发的危机已成为全球应对的重大公共卫生事件。2020年1月20日,我国国家卫生健康委员会发布1号公告,将新型冠状病毒感染的肺炎纳入《中华人民共和国传染病防治法》规定的乙类传染病,并采取甲类传染病的预防、控制措施〔1〕。2020年2月11日世界卫生组织正式命名新型冠病毒所致疾病为“COVID-19”。截至北京时间6月11日,全球累计确诊新冠肺炎病例730多万例,累计死亡40多万例。超过200个国家和地区发现确诊病例,造成了特别重大的人员伤亡、财产损失和经济社会影响〔2〕。

冠状病毒是一个大型病毒家族,引发了2019新型冠状病毒肺炎(COVID-19)、严重急性呼吸综合征(SARS)和中东呼吸综合征(MERS)等严重疾病和公共卫生安全事件,而新型冠状病毒是以前从未在人体中发现的冠状病毒新毒株〔3〕。中国医学科学院北京协和医科大学建立的全球蝙蝠病毒数据库(DBatVir)显示,全球200多种蝙蝠身上发现的冠状病毒超过500种,冠状病毒对人类健康的潜在威胁巨大〔4~5〕。本文基于文献计量学方法,对冠状病毒中外研究文献信息进行分析,探究中外研究机构和人员对冠状病毒的研究现状、高发文作者和机构构成、合作网络关系以及热点前沿和方向,以为后续开展冠状病毒的科学研究提供参考和借鉴。

二、数据采集和分析方法

1.数据采集

WOS(Web of Science)涵盖了较为全面权威的研究资料,是全球范围内被研究者普遍认可的文献检索系统。本文以WOS数据库为数据来源,以“Coronavir*”为检索词进行主题检索,数据采集时间为2020年2月6日,即数据时间范围为数据库有记录的年份1986年到2020年2月6日,选择WOS核心合集数据库全部数据集。检索得到冠状病毒主题相关文献共12978篇,剔除“correction”“reprint”“abstract”等文献类型,选取类型为“article”“review”“proceeding paper”“book chapter”的文献共计11874篇。

2.分析方法

本文通过编写信息提取程序对WOS核心合集数据库中导出的原始数据进行计算和清洗,将同一字段中关于作者和机构的信息进行拆分并提取,再用Derwent Data Analyzer文本挖掘软件在原始数据中匹配作者与机构之间的对应关系,对机构变体进行人工合并,并清理由拼写简化和同音字造成的信息混乱,形成一套清晰且完善的作者—机构列表,以实现对研究机构、研究人员发文信息的精确统计。此外,通过CiteSpace 5.6.R2(64-bit)软件对全球冠状病毒研究论文进行共现分析并可视化,挖掘研究机构及研究人员之间的合作关系网络,聚类高频关键词分析该领域的主要研究方向,研究关键词的突现和演变规律。

三、结果分析

本研究统计了各个国家、机构和研究人员的发文情况,分析了在发文情况中各国呈现出的差别和变化情况,全球和中国的高发文机构和学者;并用CiteSpace软件构建出研究机构之间的合作网络关系,分析关键词的频率和突现情况,深刻揭示全球范围内冠状病毒主题研究的现状。

(一)发文量表现

1.中外发文量及变化趋势

1937年全球第一例冠状病毒从鸡身上分离出来,1965年第一例人冠状病毒由Tyreell和Bynoe从人类鼻腔中分离出来,该病毒在人类中至少存在500~800年〔6~7〕。图1为1989~2020年2月全球机构和中国机构冠状病毒年发文量统计结果,图1显示,全球机构和中国机构的发文量波动趋势大体可划分为2003年SARS爆发前、2003年SARS爆发后至2012年MERS爆发前以及MERS爆发后三个阶段。在2003年前,全球针对冠状病毒的研究相对较少,每年约100~200篇论文产出。我国开展冠状病毒研究相对较早,WOS核心合集可查询的第一篇论文题为CoronavirusInfectioninChina,该论文收录于1989年国际病毒感染发病机制与控制研讨会论文集,作者为我国军事医学科学院微生物流行病学研究所Zhu, G F。我国在第一阶段期对冠状病毒的相关研究持续度和关注度有限,仅有3篇论文。2003年SARS爆发,全球冠状病毒相关研究论文急剧增多,我国相关论文也爆发式增长,达到顶峰,随着SARS疫情的结束,全球的发文量开始下降,我国也相应降低;直至2012年MERS爆发,冠状病毒研究关注度又开始提升,并保持年均700篇左右的发文量,中国机构对冠状病毒的研究论文稳步缓慢回升,但增长并不突出,随着2019-nCoV疫情的发生,全球和中国的研究论文数量将显著提升。

图1 1989~2020年2月全球和中国冠状病毒年发文量

2.高发文量国家构成

全球有130个国家和地区的机构于1989~2020年2月发表了冠状病毒相关主题的研究成果,其中有22个国家和地区的文献超过100篇,排在前十位的国家分别是:美国、中国、德国、英国、荷兰、加拿大、日本、法国、韩国、沙特阿拉伯,发文量依次为4204篇、2484篇、839篇、722篇、690篇、645篇、564篇、533篇、465篇和364篇。图2为这10个国家年发文量的逐年统计结果,总体来说,美国和中国发文量属于第一梯队,远远高于其他国家。2003年前中国发文量非常低,美国发文量相对平稳;SARS爆发后,中国和美国的发文量均极速增加,中美发文数量基本一致,而后两国发文量开始下降,中国下降幅度较大;2012年MERS爆发,中国和美国的发文数量均再次上升。德国、英国、荷兰、加拿大、日本和韩国的发文量趋势基本与美国一致,但总体论文数量偏低,1990年到2002年期间,发文量一般在年均10篇到20篇之间,2003年开始增加而后下降,2012开始再次增长。沙特阿拉伯受MERS的影响比较明显,2012年前发文量较少,2012年后开始增加。上述分析表明,针对冠状病毒的研究,以疫情爆发、平稳和消退过程,各国研究都有显著研究关注提升到降低的过程。

图2 1989~2020年2月冠状病毒全球前十位国家的年发文量

(二)作者及机构表现

1.高发文量机构

通过对样本文献发文机构进行分析发现,全球有5721个机构进行了冠状病毒的相关研究。表1为全球和中国发文量排前十位的机构,美国和中国的研究机构表现突出。全球前十位的机构中有5个机构属于美国,3个机构属于中国,香港大学和中国科学院在数量上位于全球机构的第一和第二位。在中国排名前十位的机构中,除香港大学和中国科学院外,香港中文大学和中国农业科学院也非常突出。

表1 全球和中国冠状病毒发文量前十位的研究机构 (单位:篇)

2.机构合作关系和中介中心性

Citespace软件中的网络密度是用来衡量网络节点联系程度的重要指标,大于0.5表示网络紧密,节点之间互动频繁〔8〕。对全球机构的发文合作网络进行分析,时间切片设置5年,选取标准Top 50, 得到236个节点,756条连线,网络密度为0.0273,可见冠状病毒研究的全球网络比较松散。图3为全球排名前六位的机构的合作网络关系图(由于加州大学系统为多所大学构成,故本次未显现其总体合作关系),这些机构都拥有较好的国际国内合作关系网络。香港大学国内外合作比较均匀;中国科学院国内合作强度非常高,特别是与清华大学、复旦大学等合作非常紧密,国外与美国杜克大学、新加坡国立大学医学院合作较频繁;荷兰乌德勒支大学与荷兰伊拉斯姆医学中心合作明显,与中国的华中农业大学合作也较多;美国国家过敏和传染病研究所与爱荷华大学、西班牙国家研究委员会、美国卫生科学军队服务大学等机构合作紧密;北卡罗莱纳大学也有庞大的合作网络,其中美国机构占主体,合作最紧密的有华盛顿大学、马里兰大学等机构。

图3 全球高发文量机构强合作关系

中介中心性是测量节点在网络中重要性的一个指标。中介中心性超过0.1的节点为关键节点,在合作网络中具有桥梁的作用,对整个网络的影响力比较大〔9〕。该研究网络中,中介中心性超过0.1的研究机构节点有16个,前十位依次为美国国家过敏和传染病研究所、美国卫生科学军队服务大学、荷兰乌德勒支大学、美国宾夕法尼亚大学、英国农业和食品研究委员会、美国俄亥俄州立大学、荷兰莱顿大学、美国农业部农业工程应用技术研究所、纽约州立大学奥尔巴尼分校、美国南加州大学。

3.高发文量作者

表2和表3统计了全球前十位和中国前二十位冠状病毒发文量作者。香港大学有三位研究人员,荷兰乌德勒支大学有两位研究人员产出位于全球前十位,表现非常突出。以香港大学的袁国勇、胡钊逸、陈国雄为中心已经形成了非常稳定并且成果丰硕的冠状病毒研究团队,在全球范围内以这些高产研究人员为中心也形成了庞大的研究网络,这个网络随着合作的加强正在不断的扩大。在中国,除香港的研究人员外,复旦大学的姜世博、卢露,中国农业科学院哈尔滨兽医研究所的刘胜旺、冯力、韩宗玺和陈建飞,华中农业大学的肖少波、方六荣、王荡等人都形成了各自的研究方向和特色,这三个单位的研究人员在发文数量上较为突出,此外中国科学院武汉病毒所的石正丽等近几年的研究成果也比较丰硕。

表2 全球前十位高发文作者及所属机构

表3 中国前二十位高发文作者及所属机构

(三)高频关键词及演变分析

1.高频关键词

关键词是对研究内容和主题的集中概括,论文利用CiteSpace软件对冠状病毒文献的关键词进行分析,时间切片设置3年,选取标准Top 50, 运用pathfinder进行裁剪,得到167个节点,443条连线,网络密度为0.0123。Modularity(Q值)和silhouette(S值)参数值是聚类效果的指标,本研究中Q值为0.8519(一般认为Q>0.4合理,且Q值越大越适合聚类),聚类非常显著,S值为 0.7727(一般认为S>0.4合理,且S值越大,表示每个聚类中的关键词同质性越强),聚类信度高〔9〕。排名前三十的高频关键词是:coronavirus,infection,virus,acute respiratory syndrome,identification,SARS coronavirus,respiratory syndrome coronavirus,mouse hepatitis virus,protein,SAR,spike protein,replication,expression,sequence,disease,infectious bronchitis virus,antibody,outbreak,monoclonal,murine coronavirus,receptor,pathogenesis,Saudi Arabia,cell,diagnosis,strain,polymerase chain reaction,children,Hong Kong,gene。通过关键词聚类,得到12个冠状病毒研究领域的集群,如表4所示,可以看出,研究聚焦的高频关键词集群主要在禽类、牛、犬、人等冠状病毒、致病细胞因子、病毒的蛋白、严重急呼吸综合征和流感特性、受体结合区、抗SARS药物等方面。

表4 冠状病毒研究领域关键词主要聚类结果

2.关键词突现演变

CiteSpace软件中的Citation Burst指研究对象的突现强度,这种突现反映了研究领域中的新趋势〔10〕。三十年间共出现127个突现关键词,对突现关键词进行分析,如图4所示。在2003年前,冠状病毒的突现关键词主要是核苷酸序列、猪牛鼠等动物的病毒蛋白质、基因序列、病毒颗粒等;2003~2012年间突现较多的关键词是免疫反应、中枢神经系统、SARS、急性呼吸综合症、流行性等,2012年后MERS病毒、受体结合区、中和抗体、疫苗等关键词开始爆发。这表明冠状病毒的研究与疫情的爆发密切相关,早期主要关于动物病毒分子结构的研究较多,随着SARS、MERS的爆发和传播,研究开始向人际传播、流行病学、免疫系统、抗体和疫苗等方面侧重。

(a)2003年前典型突现关键词

(b)2003~2012年间典型突现关键词

(c)2012年后典型突现关键词举例

四、结论

论文基于WOS核心合集数据库,对30年来全球冠状病毒论文信息进行采集和统计,分析了中外国家冠状病毒的发文量、高发文量国家、机构、人员构成,采用Citespce软件对全球研究机构的合作关系、高频关键词及关键词突现演变进行了研究。结论如下:

(1)冠状病毒引发的疾病主要为呼吸类传染性疾病,其研究受疫情爆发的影响较大,在2003年SARS爆发后和2012年MERS爆发后,冠状病毒的研究都有显著的增加,但MERS对我国影响较小,我国的研究关注度相对较小。在冠状病毒发文量方面,中国和美国属于第一梯队,远超其他国家。

(2)冠状病毒高发文量的机构为香港大学、中国科学院、美国加州大学系统、荷兰乌德勒支大学、美国国立卫生研究院等,发文量高的机构都有较好的研究合作网络。我国香港大学、复旦大学、中国农业科学院、广州医科大学、华中农业大学、军事医学院、中国疾病控制预防中心、东北农业大学、中科院等机构的研究人员有较丰富的研究成果和基础。

(3)冠状病毒的研究早期主要关注病毒蛋白质、基因序列、聚合酶、病毒颗粒等,随着SARS,MERS疫情的爆发和传播,向人际传播、流行病学、免疫系统、抗体和疫苗等方面侧重。

(4)前期针对冠状病毒的研究已经形成了一定的国际合作规模和网络,但是全球合作网络相对松散。2019-nCoV已经席卷了全球200多个国家和地区,应加强全球科研合作网络,形成科研的协同研究机制,实现科研成果共享,为共同抗击新型冠状病毒提供技术支持。

猜你喜欢

发文机构研究
七部门联合发文 进一步完善和落实积极生育支持措施
FMS与YBT相关性的实证研究
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究
校园拾趣
爷孙趣事
以牙还牙
一周机构净增(减)仓股前20名
一周机构净增(减)仓股前20名