对相关低氧诱导因子的可视化知识图谱分析※
2022-05-03苏姗姗南星梅芦殿香李占强
陈 举,苏姗姗,南星梅,芦殿香,李占强*
[1.青海大学高原医学研究中心,高原医学教育部重点实验室,青海省高原医学应用基础重点实验室(青海-犹他高原医学联合重点实验室),青海 西宁 810001;2.青海大学生态环境工程学院,青海 西宁 810016;3.西宁海关技术中心,青海省食品安全研究重点实验室,青海 西宁 810003;4.青海大学医学院,青海 西宁 810001]
自1992年Semenza等发现低氧诱导因子(Hypoxia-Inducible Factors,HIF)以来,对HIF的相关研究与报道出现“井喷”式增长,导致HIF研究出现逻辑混乱问题。本课题选用VOS viewer、CiteSpace科学图谱可视化分析软件,对1991年1月至2020年12月有关HIF的文献进行统计与可视化分析,进行发文趋势分析、文献聚类分析、文献来源聚类分析、期刊被引用突现分析、作者国家聚类分析、研究国家突现分析、研究人员合作聚类分析、作者机构聚类分析、关键词聚类分析、文献时序图谱分析,解决HIF研究的混乱问题。
1 材料与方法
1.1 材料
本文所使用的全部数据来源于Web of Science(WOS)核心数据库。采集时间为1991年1月至2020年12月。在WOS数据库中,以“Hypoxia-inducible factors”or“HIF-1”or“HIF-2”为检索词进行主题检索,精炼后共检索出12 152条文献,其中包含期刊论文8 351篇、会议摘要2 880篇。
1.2 方法
使用VOS viewer、CiteSpace软件对WOS核心数据库中有关HIF的文献做可视化知识图谱分析。在VOS Viewer图谱构建过程中,以“CSV”文件标头;文献计算方法选择“binary counting”[1,2];作者发文量参数设置为45,共被引次数参数设置为100,共引源参数设置为500,国家聚类参数设置为5,作者合作网络分析参数设置为10,机构间耦合参数为10,之后针对所分析的类型选择作者、作者机构或关键词等来逐步实现网络共现,以“layout”和“clustering”为功能菜单进行调整,最后以GML文件形式保存[3,4]。
CiteSpace采用lsi聚类算法,利用“Control panel”栏,将“Layout”任务键选在“Visualizations”视图框中点击“Timeline view”后即可得到关键词共现时间线图谱[3,5]。利用Microsoft Excel 2019软件分析文献排行前三的国家自1991年1月起到2020年12月的发文趋势和发文总量随年份变化的趋势。
根据设置参数,对保存的文献信息进行发文趋势分析、文献聚类分析、文献来源聚类分析、期刊被引用突现分析、作者国家聚类分析、研究国家突现分析、研究人员合作聚类分析、作者机构聚类分析、关键词聚类分析、文献时序图谱分析,绘制有关HIF研究进展的知识图谱,并基于软件分析数据、结合人工对信息归纳和整合。
2 结果
2.1 发文趋势分析
对从WOS核心数据库筛选获得的8 897篇文献(研究性论文和综述性文章)做分析,结果如图1。发文量随年份的增加而增加,尤其是自1999年以后发文增长迅速,其中1991年1月至2009年12月内发文持续性增长,2010年1月至2013年12月增长速率相对以前有所减缓,2014年1月至2018年12月发文量保持相对稳定,在最近两年又较快上升并且在2020年达到了最高值(715篇)。分析表明对HIF的关注度不断提升。
图1 1991年1月至2020年12月中、美、日三国及总体发文趋势Figure 1 Publishing trend of China,United States and Japan and overall publishing trend of literature from January 1991 to December 2020
将发文国家按发文数量统计排列后,得到了发文量最多的三个国家按顺序依次是中、美、日。如图1所示,美国和日本发文变化趋势基本一致,不同的是美国在HIF领域研究较早,且发文量一直远高于日本。美国在1993年1月至1999年12月期间的研究较为缓慢,从2000年开始以较快且稳定的速度开始增长,并且2009年达到了发文量最高值(181篇),之后进入相对稳定的阶段,直到2021年开始缓慢下降。中国和其他两国不同的是:起步较晚,1998年有一篇报道,正式开始于2001年,自此发文量稳定增长,于2014年超过美国历史年度最高发文量,尤其是近三年,增长更为迅速达到了目前最大值(431篇)。对以上三国对比分析可得:中国和美国研究积极性较高,尤其进入21世纪以来中国更胜一筹。
2.2 文献聚类分析
文献共被引通过对共被引网络中的聚类及关键节点分析,可以揭示该研究领域的知识结构与知识基础[6]。基于VOS viewer软件分析文献聚类时,参数设置最小引文数量为100,在176 986条信息中271条符合筛选要求。图2里的不同颜色代表不同的研究主题,其中蓝色节点代表与HIF和癌症相关的文章,绿色节点代表单纯阐明HIF功能结构性的文章,黄色节点代表关于HIF和基因层面的研究性文章,红色代表HIF与细胞层面的研究性文章。图中四种颜色聚类中较大的节点:Semenza.gl、Zhang、Wang、Jaakkola、Kealin等人的文章形成共引和被引关系,成为后来研究HIF的主要参考文献,影响力颇高。从图2中的时间进度看,1995年左右文章主题集中在HIF的结构功能性方面,其要早于其他三类文章;2002年左右癌症和相关基因的主题成为热点,其两者基本发生于同一时间段内;细胞研究领域时间跨度较大,2001年后出现相关主题的文章,并且一直延续到现在,然而量远不及其他三个领域,关联程度也较弱,表明其二者关系较为模糊,且该领域发展速度较缓慢。
图2 共引文献聚类图谱Figure 2 Clustering map of co-cited literature
2.3 文献来源聚类分析
文献来源分析能反映出研究HIF期刊的主要阵营,采用文献耦合网络方法追溯文献来源,以显示HIF研究领域高影响力研究机构[7]。最小被引用文章次数设置为500筛选到10 573条条目,符合筛选目标的有136条。据图3分析,可以看出来主要的文章来源于《J BIOL CHEM》《P NATL ACNC SCI USA》《Cancer EAS》《Nature》等核心文献库期刊,这些期刊之间存在相互交叉引用情况,构成了共引和被共引的网络关系,影响力颇高。表1显示,影响力高且发文排名靠前的期刊主要有《JOURNAL OF BIOLOGICAL CHEMISTRY》《PLOS ONE》《BIOCHEMICAL AND BIOPHYSICAL RESEARCH COMMUNICATIONS》《CANCER RESEARCH》等。
表1 TOP 10期刊发文数量Table 1 Number of articles published in top 10 journals
2.4 相关期刊被引用突现分析
突现是指一个变量的值在短期内出现较大变化,通过分析高突现趋势的关键词,可以了解学科中的前沿问题[8]。利用CiteSpace做Burst分析图谱,红线表示关键词突现的开始与结束,“Strength”表示关键词突变强度,强度越高表示影响力越大。图4显示,《SCIENCE》《MOL CELL BIOL》《P NATL ACAD SCI USA》是较早报道HIF的期刊,在1993年至2007年期间《NATUREA》《EMBO J》《GENE DEV》等其他顶级期刊也开始刊发HIF文章,且影响力颇高。近些年来,HIF领域影响力较高的期刊有《SCI REP-UK》《PLOS ONE》《NAT COMMUN》《INT J MOL SCI》等。
图4 数据库中HIF相关期刊被引用的突现分析图Figure 4 Emergent analysis of HIF related journals cited in the database
2.5 作者国家聚类分析
通过作者国家聚类分析可以了解主要从事研究HIF的研究人员分布情况,从而了解该领域受不同国家科研人员的重视程度[9]。利用Vos检索分析时将国家文章最小参数和国家之间最小引用次数均设置为5,得到90条结果,其中52条符合检索条件。图1、5显示,中国和美国是HIF研究的主要国家,其次是日本、韩国、德国、英格兰等国家。从图5可以看出中国和美国起着主干作用,很大程度上影响着其他国家的研究,同时反映出中国和美国学者之间的相互合作关系密切。
图5 共引作者国家分析图Figure 5 Analysis of co-citation nationality
2.6 研究国家突现分析
为了明晰国家之间对HIF研究在固定时间段内的持续热度情况,对排行前十的国家进行突现分析。图6显示中国突现值最大,紧接着是美国、英国等。突现分析显示美国从1991年开始关注HIF,一直持续到了2004年。中国与美国不同的是,2018年至2020年这三年时间里,HIF研究突现值达到了历史最高,表明我国对HIF的研究热度非常高。
图6 国家突现分析图Figure 6 Emergence analysis of countries
2.7 研究人员合作聚类网络分析
通过构建合作网络的方法能揭示从事相关研究的科研人员的分布和与其的合作模式[10]。最小检索研究人员发文数量设置为10篇,得到42 458条结果,其中符合参数要求的为253条。图7中以棕色标注的研究团体为中心团体,最具有代表性的是以Semenza.GL为中心的研究团队。Semenza.GL研究团队于2003年在《Nat Rev Cancer》上发表了针对HIF-1进行癌症治疗的文章,被引用次数多达2 045次,成为HIF在癌症治疗方面最具影响力的文章[11]。图7显示,Glikes.Daniele m等人及其他非癌症层面的研究人员,构成了聚类合作关系。可以看出与棕色癌症节点关系较直接的是湛蓝色节点,Harada.Hiroshi为研究HIF功能的人员。红色节点以细胞层面的研究为主,图7中可以看出中国科学研究者从事HIF细胞层面研究的科研人员明显为多,从各个聚类的连线可以看出,其他领域的研究对于细胞层面的研究有着较大的帮助,各个方面都有涉及,如:粉色节点代表癌细胞的相关研究,黄色节点代表HIF基因和酶层面的研究,橙色节点代表蛋白层面的研究。
图7 科研人员合作聚类网络图Figure 7 Cooperative clustering networks of scientific researchers
2.8 作者机构聚类分析
通过统计分析研究机构合作网络和突现分析图谱,可以知道从事该领域研究的单位和单位的分布情况[7]。用VOS进行构建合作网络图谱时,引文数量最小值设置为10,分析得到5 101条信息,其中有378条符合筛选条件。图8显示,蓝色表示以美国约翰霍普金斯大学为中心开展密切合作。可以看出美国约翰霍普金斯大学颇具影响力,与密歇根大学、华盛顿大学、犹他大学、托马斯杰斐逊大学、哈佛大学为HIF研究的主要研究机构(橙色节点)。这些节点处于图谱的中心位置,节点间关联度较高。
中国从事HIF研究的机构有上海交通大学、南京医科大学、华中科技大学、四川大学、中国医科大学、南方医科大学、台北医科大学、第四军医大学等。图8显示,中国在HIF领域的研究机构多于其他国家,图9突现分析显示,近些年来我国研究机构的发展速度已超过美国。
图8 作者机构聚类网络图Figure 8 Clustering network of author’s institution
图9 文章的机构突现图Figure 9 Emergence of article’s institutions
其他国家从事HIF研究的机构单位:日本有京都大学、东京大学等;韩国有首尔国立大学、釜山大学、忠南大学等;英国有牛津大学、纽伦堡大学、约翰·拉德克利夫医院、伦敦王国学院;瑞士有苏黎世联邦理工学院。
2.9 关键词聚类分析
关键词在文章中具有概括主旨的意义,可以反映文章研究或综述的核心内容,通过“共词分析”,科学地统计分析出WOS核心文献库中关于HIF的研究热点领域[3]。检索时间设置为1991年1月至2020年12月,节点大小反映对该研究领域的影响强弱。图10显示,2010至2012年影响力较高的关键词为gene-express、growth-factor、factor-i、factor-1-alpha、hif-alpha等,关键词分析反映出该时间段内,从事HIF基因表达水平方面的研究和相关因子以及HIF-α方面的研究内容较多,且以这些方面为主体展开其他研究领域的扩展,例如tumor-suppressor protein、transcription factor、tumor angiogenesis。2014至2015年高影响力的关键词有angiogenesis、hif-alpha、hypoxia、activation、cancer、hif-1、hif-1-alpha、cells、apoptosis等,高影响关键词节点数量较之前有所增加,可见研究领域持续加速拓展[12,13,14]。图10显示,血管生成和表达层面的研究依旧是热点,其次较之前发生显著变化的是在缺氧和细胞凋亡及癌症等领域的突现,这些领域交叉研究关系较为密切,而且以之前的研究为支撑成为该时间段内新的热点。2016年至今研究内容更加广泛,但是总体上呈现出分散发展趋势,或许是由于内容较新所以才导致相关性较弱。metastasis和inflammation是目前影响力较强的领域,推测关于肿瘤细胞转移和炎症免疫领域或许是下一步的研究突现内容。
图10 关键词聚类图Figure 10 Clustering networks of keywords
2.10 文献时序图谱分析
通过CiteSpace软件生成HIF关键词聚类Timeline视图,这种分析的好处是可以展示研究领域研究结构随时间变化的发展轨迹,更好地揭示该领域结构的演 化过程[15]。
图11显示,不同聚类随时间呈不同分布,其中在该研究领域共形成了14个聚集体,每个聚集体对应一个相应的研究聚类。从图中可以看出聚类#0中癌症相关治疗是最早出现的热点,从事该领域科学研究的是GL SEMENZA。聚类#0与其他的聚类间有较多的连线表明:聚类#0被其他聚类积极引用,直接影响到后来许多聚类的出现,在该领域有着非常重要的影响;同时该节点从圆心到外侧颜色越来越暖,表明了关于HIF与癌症相关的研究随时间也一直在继续推进中,且不断地影响其他聚类,推动其他相关研究领域的进行,较为突出的是聚类#9有关肿瘤微环境的研究。除此之外,可以看出,在1996至2001年期间,聚类#1和#2也较为突出。
图11 文献共引用Timeline视图Figure 11 Timeline view of literature co citation
另外,聚类#12和聚类#21颜色最暖,说明他们是近些年来受到关注度较大的研究领域,其具代表性的研究方向有细胞层面的细胞周期循环、基因层面的条件性基因敲除,从图2分析结果可以知道以上研究领域的研究主要是中国的学者和机构。在早期,对HIF的研究主要集中在癌症的影响和治疗上,随着研究的深入,发现其不止与癌症有着紧密的联系,在“肿瘤的诱导”“信号转录调控”“酶结构”“影响细胞周期变化”等方面同样有重要作用。
3 讨论
本研究利用CiteSpace、VOS viewer软件对WOS数据库中相关HIF文献绘制可视化图谱,采用文献调查与图形描述及比较的分析方法开展研究,从时间维度上客观展示了HIF相关研究的兴起与发展,共现了每一阶段研究的热点,直观展示了目前相关研究现状与趋势,为HIF的研究提供了详细背景依据,填补了其可视化图谱的空缺。本研究仅供宏观掌握HIF发展的基本情况,实际结果仍然需要紧密结合实验验证。