APP下载

文献计量分析在快速检索文献中的应用
——以土壤氨挥发为例

2021-01-16吴汉卿张宝贵王学霞陈立娟陈延华

中国农学通报 2021年1期

吴汉卿,张宝贵,王学霞,曹 兵,陈立娟,刘 杰,陈延华

(1中国农业大学土地科学与技术学院,北京 100193;2北京市农林科学院植物营养与资源研究所,北京 100097;3北京市缓控释肥料工程技术研究中心,北京 100097;4禹城市农业农村局,山东 禹城 251200)

0 引言

大数据背景下,各研究领域、方向的文献信息浩如烟海,存在大量分散研究,而如何快速精准查找出与研究主题密切相关的关键文献一直困扰着众多科研工作者[1]。以土壤氨(NH3)挥发为例,农业是NH3挥发的主要来源(约占全球总量的50%)[2-3],NH3排放在全球范围内直接或间接地造成诸多负面影响[4-5]。随着粮食需求的不断增长,土壤NH3挥发也相应增加,极大地扰乱了全球地球生物化学NH3循环[6-8]。近年来土壤NH3挥发受到学者广泛关注,成为农学领域研究热点。然而,关于土壤NH3挥发的相关文献过多,涵盖多个方向,如排放来源[3]、影响因素[9]、通量[10]、效应[11]、减排措施[12]等,给科研工作者精准筛选文献和选题增加了难度。

文献计量分析能基于大量文献数据的结构化、可视化分析,得出一段时间内某研究领域、方向或主题的研究现状、热点及发展趋势,具有客观性、定量化、模型化的优势,有助于科研人员准确掌握该研究的动态并精准选题[13]。Web of Science核心合集数据库是一个涵盖了自然科学、工程技术和社会科学等领域且能提供高质量、可信赖的学术信息检索的跨库平台[14],是文献计量分析的重要数据来源。R语言是一种开源的用于统计、计算和图形的语言和环境[15],其中bibliometrix便是一款基于R语言运行环境的科学文献计量软件包[16]。目前文献计量分析主要聚焦于分析研究领域的发展动态,已广泛应用于生态[17-19]、农学[20-23]和环境[24-26]等领域,然而其在快速、精准检索关键文献方面研究尚未见报道。

本研究以土壤NH3挥发为研究主题,基于Web of Science核心合集数据库,应用R语言bibliometrix包进行文献计量分析,通过3次文献检索和计量分析,快速精确地检索出有关土壤NH3挥发的关键文献,探索快速精准检索关键文献的方法,以期为科研工作者提供一定帮助。

1 材料与方法

1.1 数据来源

本研究所有文献数据均检索自Web of Science核心合集数据库[包含引文索引Science Citation Index Expanded(SCI-EXPANDED)、Social Sciences Citations Index(SSCI)、Conference Proceedings Citation Index-Science(CPCI-S)、Conference Proceedings Citation Index-Social Science&Humanities(CPCI-SSH)、Book Citation Index-Science(BKCI-S)和Book Citation Index-Social Sciences&Humanities(BKCI-SSH)数据库,化学索引Current Chemical Reactions(CCREXPANDED)和 Index Chemicus(IC)数据库],检索日期为2019年9月15日,时间跨度为1978—2018年,文献类型与语种不限,获取的文献数据信息包含全记录(作者、题目、来源、年份、摘要、关键词、DOI号、被引频次等信息)和文章引用的参考文献。

1.2 数据处理与统计分析

文献数据处理与统计分析均利用R语言中bibliometrix软件包(Version 2.2.1)进行,bibliometrix软件的应用主要包括对检索的文献信息进行导入,统计分析相关科学文献指数,构建数据矩阵,进行共被引、耦合、合作分析及共词分析和可视化处理[16]。本研究主要应用本地高被引论文分析(top high cited publications)、关键词共现分析(keyword cooccurrences analysis)、关键词共词分析(co-word analysis:the conceptual structure of a field)及高被引论文分析(high cited publications analysis)方法[27]。

关键词共现分析主要是采用Fruchterman-Reinfold布局[28]的关键词共现网络图谱,选取50个最高频的关键词进行可视化[29],进而判断该领域中各研究方向间的关系和研究趋势[16];关键词共词分析主要是在关键词共线网络图谱基础上,以网络映射和聚类的方式利用文献中关键词共现网络来绘制框架的概念结构图,其中主要应用多重对应分析(Multiple Correspondence Analysis,MCA)方法[30]进行聚类,对多元分类数据进行图形和数值分析[31],在共词分析中,高频关键词绘制在二维地图上,根据关键词的相对位置及其沿维度的分布来解释结果,关键词间联系越紧密,其在图中位置就越近[30-32]。高被引论文分析是指对所有文献数据信息进行统计,由于高被引论文被引频次受发表时间影响较大,因此本研究还通过计算年均被引频次来进行高被引论文分析,按照总被引频次及年均被引频次进行排序。

1.3 文献多次检索

本研究中利用文献计量分析结果来精炼文献检索式,进而精确检索关键文献,这一过程需要进行多次文献检索。第一次文献检索时,输入少量关键词(如土壤氨挥发),检索出来的文献数量大,且其中的高被引论文绝大多数与主题词关系不大。因此,继续对第一次检索出的文献信息进行文献计量分析,根据关键词分析结果,增加文献检索式中的关键词进行检索。如此检索数次后,最终精确检索出关键文献,文献与主题的相关性可通过高被引论文和关键词分析进行验证。

2 第一次文献检索

2.1 检索式及文献数量统计

检索式为TS=(soil*AND(NH3OR ammonia)AND(volatili*OR emission*)),共检索出文献3573篇。

2.2 文献计量分析

2.2.1 高被引论文分析 检索出1978—2018年土壤NH3挥发研究领域的Top 10高被引论文如表1所示,仅排在第二[33]、第六[34]、第七[4]和第八[35]位的4 篇高被引论文内容与土壤NH3挥发较为相关,其余6篇高被引论文均只是在正文或摘要中对土壤NH3挥发略有提及。被引频次排在第二位的《Reducing environmental risk by improving N management in intensive Chinese agricultural systems》一文[33],主要是华东太湖地区水稻/旱地小麦和华北平原地区灌溉小麦/旱作玉米集约化生产系统中肥料氮的主要损失途径,其中NH3挥发仅作为氮素的一种损失方式,并非文章核心内容。被引频次第一的《Removal of nutrients in various types of constructed wetlands》,内容着重点为不同类型人工湿地中养分(如氮磷)的去除过程,土壤NH3挥发仅作为氮素转化一个过程被简单描述[36]。排在第三的《Role of nitrifier denitrification in the production of nitrous oxide》主要结论是N2O总产量的30%归因于硝化细菌反硝化,低氧条件加上土壤中的低有机碳含量有利于该途径[37]。排在第四的《Enhanced nitrogen deposition over China》主要研究内容为中国氮沉降加强[38],土壤NH3挥发仅作为活性氮(Reactive N,Nr)的主要损失形式在正文中被简单提及。排名第五[39]和第八[40]的文章主要介绍农田土壤N2O年排放量的计算方法。排在第十位的文章研究新西兰6种草地土壤中氨氧化古细菌和细菌对硝化作用的贡献[41]。这些论文核心内容与土壤NH3挥发关系不大,却作为高被引论文被检索出来。这可能是由于土壤氨挥发作为活性氮损失、土壤氮循环主要过程,对土壤其他氮素转化过程(如通过影响土壤中基质NH4+浓度,进而影响硝化-反硝化、氨氧化过程;通过影响大气NH3浓度,进而对干湿沉降等过程产生显著影响,因此相关文章中略有涉及。

表1 1978—2018年土壤NH3挥发研究领域Top 10高被引论文(第一次检索)

因此,对土壤NH3挥发高被引论文分析可知,单纯从被引频次上并不能精确定位某一特定研究领域/主题的权威、关键文献,因此仍需要对高被引用论文进一步甄别是否与该研究领域完全契合。本研究通过对检索出的3573篇文献及其参考文献进一步做关键词共现分析与共词分析,确定与土壤NH3挥发真正显著相关的有效目标关键词和一些关系不大的关键词,进而对检索式进行完善改进,精确检索出权威、关键论文。

2.2.2 关键词共现分析和共词分析 对检索出的3573篇文献进行关键词共现分析,共计含有5149个网络节点(图1中只显现Top 50关键词节点),圆圈大小代表度值,度值越大代表与它有相互作用关系的节点越多,圆圈的颜色是按照k-核(k-core,表示子图中所有节点都至少连接着k个点,用来评估其在网络位置的中心程度,值越大表示度值越大且越中心)进行划分的聚类结果,红色聚类即为核心地位的关键词群。度中心性(Degree Centrality),在网络分析中刻画节点中心性的最直接度量指标,节点度中心性越高,该节点在网络中就越重要[16]。度中心性Top 10的关键词节点依次为ammonia volatilization(0.359)、soil(0.315)、emissions(0.194)、nitrogen(0.186)、denitrification(0.182)、ammonia(0.177)、nitrous oxide emissions(0.176)、N2O emissions(0.156)、volatilization(0.155)、nitrate(0.149)。虽然大多数关键词与土壤氨挥发联系紧密(如soil、ammonia volatilization等),但结合专业知识发现其中混杂着不少与土壤氨挥发联系不大的关键词,如N2O emissions、greenhouse gas emissions等(图1),这可能是由于土壤N2O、NH3同为气态氮损失的主要途径,在有关土壤N2O排放研究文献中对土壤NH3挥发有所提及。

图1 1978—2018年土壤NH3挥发关键词共现网络图谱(第一次检索)

图2 1978—2018年土壤NH3排放领域共词分析的概念结构图谱(第一次检索)

图2结果表明,Dim1和Dim2分别解释了总变异的37.31%和13.89%,累积解释率达51.20%。不同关键词节点间距离越小越相似,反之差异越大,不同聚类间差异显著。结合图1结果,图2中红色聚类与土壤氨挥发显著相关,因此剔除另外2类聚类中的关键词。通过对图2红色聚类关键词进行分析,发现methane emissions、greenhouse gas emissions、carbon dioxide、nitrous oxide emissions、N2O emissions与剔除关键词聚类较近、与土壤氨挥发核心关键词距离较远,而R-bibliometrix软件自动聚类未能将其彻底分开。针对此现象,结合专业知识发现,methane emissions、greenhouse gas emissions、carbon dioxide、nitrous oxide emissions、N2O emissions主要与温室气体(CH4、N2O和CO2)排放紧密相关,再结合图1结果分析,这一现象可能是由于关于土壤碳氮的气态损失(CH4、N2O和CO2排放)文献中对土壤NH3挥发有所提及,实际上此类文献与土壤NH3挥发联系较少,因此手动予以剔除。

2.3 第一次检索小结

第一次文献检索时,检索关键词(土壤氨挥发)少量简单,而检索出来的文献数量巨大(3573篇),且其中的高被引论文绝大多数与主题词关系不大(表1)。高被引论文分析结果表明,单纯从被引频次上并不能精确、快速地定位某一特定研究领域/主题的权威、关键文献,仍需对高被引用论文进一步甄别是否与该研究领域完全契合。

3 第二次文献检索

3.1 检索式及文献数量统计

在第一次文献检索及研究结果的基础上,剔除第一次发现的关系不大的关键词(详见表2),再次进行文献检索,共检索出文献1506篇。

表2 关键词细化检索

3.2 文献计量分析

3.2.1 高被引论文分析 再次统计出1978—2018年土壤NH3挥发研究领域的Top 10高被引论文(表3),结果表明,此次表3与表1内容差异较大,只有表1中6、7号论文与表3中的1、2号论文一致。通过对表3中Top 10高被引论文进行分析,发现除被引频次排在第二和第四的论文是主要研究土壤氨挥发的,其他高被引论文如表1一样,土壤氨挥发仍非主要研究内容,只是作为活性氮的一种损失途径或方式被简单提及。

3.2.2 关键词共现分析和共词分析 再次对第二次检索出的1506篇文献进行关键词共现分析和共词分析(图3~4),再次剔除掉除红色聚类(土壤氨挥发核心关键词集)外的蓝色、绿色聚类中的关键词。

3.3 第二次检索小结

第二次文献检索时,通过剔除一些与土壤NH3挥发联系不大的关键词进行检索式精炼,检索出来的文献数量为1506篇(与第一次文献检索结果3573篇相比,数量显著下降),然而与主题词紧密相关的Top 10高被引论文数量仍偏低(表3)。

4 第三次文献检索

4.1 检索式及文献数量统计

在前2次文献检索及研究结果的基础上,再次剔除第二次发现的关系不大的关键词(表2),并进行文献检索,共检索出文献160篇。

4.2 文献计量分析

4.2.1 高被引论文分析 再次统计出1978—2018年土壤NH3挥发研究领域的Top 10高被引论文(表4),分析发现Top 10高被引论文均是主要研究土壤氨挥发的,是切题论文,这说明该方法切实可行。

4.2.2 关键词共现分析和共词分析 对第三次检索出的160篇文献进行关键词共现分析和共词分析(图5~6)。度中心性Top 10关键词节点依次为ammonia volatilization(0.648)、soil(0.312)、field(0.160)、nitrogen(0.152)、losses(0.146)、urea(0.129)、ammonia(0.120)、management(0.117)、wheat(0.115)、hydrolysis(0.106),这些关键词均与土壤NH3挥发紧密相关(图5)。且其他关键词如calcareous soils、flooded soils、water、NBTPT、surface applied urea、 deep placement system、temperature、 hydrolysis、 fertilization、 cattle、 time、management(practices)等关键词均是影响土壤氨挥发的主要因素,15N(fertilizer)同位素标记示踪法也是定量化、溯源研究土壤NH3挥发的重要方法,这也再次证明了此方法的可行性较高。

表3 1978—2018年土壤NH3挥发研究领域Top 10高被引论文(第二次检索)

图3 1978—2018年土壤NH3挥发关键词共现网络图谱(第二次检索)

图4 1978—2018年土壤NH3排放领域共词分析的概念结构图谱(第二次检索)

图6结果表明,轴1(Dim1)和轴2(Dim2)分别解释了所有分析结果的52.01%和13.17%,累积解释率达65.18%。通过对标注红色的关键词进行分析,发现soil ammonia volatilization(土壤NH3挥发)与losses(损失)、field(农田)、management(管理措施)、calcareous soils(石灰性土壤)、surface applied urea(表施尿素)、nitrogen( 氮 )、fertilization( 施 肥 )、nitrogen mineralization(矿化)等距离最小也最相关,这与前人研究结果[11,42]一致。对蓝色区域中关键词进行分析,主要关键词有NBTPT(脲酶抑制剂)、surface urea(表施尿素)、water(水分)、temperature(温度)及efficiency(效率),这主要是由于脲酶抑制剂可以抑制表施尿素的NH3挥发[43],温度升高、含水量降低均能够提高土壤溶液中NH3浓度进而提高NH3挥发速率[44]。绿色区域关键词有hydrolysis(水解)、active site(活性位点)、flooded soils(淹水土壤)、phosphoroamides(磷酰胺)和triamide(三酰胺),其中磷酰胺和三酰胺作为脲酶抑制剂,主要通过抑制脲酶活性来达到抑制土壤NH3挥发的效果[45-46]。综上,3个区域关键词均与土壤NH3挥发密切相关,证明此方法可用来精确检索出与研究主题密切相关的文献。

表4 1978—2018年土壤NH3挥发研究领域Top 10高被引论文(第三次检索)

4.3 第三次检索小结

通过上述2次过程(文献检索、高被引论文分析、关键词共现分析及共词分析)进行精炼检索式(检索式中主题词显著增加),进而提升文献检索精确度。第三次检索出来的文献数量仅为160篇,且高被引论文分析结果表明,Top 10高被引论文的主要研究内容均为土壤NH3挥发(表4)。对160篇文献及其参考文献进行关键词共现分析和共词分析,发现图5和图6中展现的关键词更加细化且均与土壤NH3挥发紧密相关。说明文献计量分析在快速、精准检索文献中的应用方法切实可行。

图5 1978—2018年土壤NH3挥发关键词共现网络图谱(第三次检索)

图6 1978—2018年土壤NH3排放领域共词分析的概念结构图谱(第三次检索)

5 讨论

土壤NH3挥发是诸多因子综合作用的过程,而目前绝大多数研究舍弃了多因子综合作用这一考虑,多因素效应研究较少[47-48]。由本研究结果推测,也许可以根据关键词共现分析、共词分析结果中的关键词,结合专业知识、分析,进而查找科学空白,如气候变化(图5中climate change关键词)背景下农业土壤NH3排放机制,在此过程中又有哪些关键驱动因素,温度升高又会对土壤NH3挥发产生何种影响。再如水分、温度及施氮(图5~6中water、temperature及nitrogen fertilization关键词)对土壤氨挥发的单因素效应,是否存在双因素或三因素交互效应。确定科学问题后,通过本研究方法快速精确检索文献,查找出相关权威、关键文献,以获得回答该科学问题的思路、解决方法,这可能也是本方法今后的重要发展方向和研究热点,精确查找研究领域研究现状、当前热点及科研空白(科学问题),进而为科研工作者提供一定参考。

6 结论

本研究基于Web of Science核心合集数据库,以土壤氨(NH3)挥发为研究主题,利用R语言bibliometrix包,精确检索出关于土壤NH3挥发的关键文献,并探索出了文献计量分析在快速精准检索关键文献中的应用方法:只需输入少量简单的关键词(如土壤氨挥发)进行检索,然后对检索出的文献数据进行文献计量分析,根据关键词共现、共词分析结果,增加与研究主题关系密切的关键词,进而不断精炼检索文献即可精准检索出关键文献。且通过假设精确查找关于土壤NH3挥发与水分(或温度、管理)方面研究文献,利用此方法进行验证,结果证明该方法切实可行。在大数据背景下,文献计量结合R-bibliometrix工具,使用本研究方法,有助于提出科学问题、精确检索关键文献、获取科研思路及解决方法,对科研工作者具备一定参考价值。