期刊数据库中文献类型的划分与比较

2019-05-05林歌歌侯海燕胡志刚

中国科技期刊研究 2019年4期

■林歌歌侯海燕胡志刚

大连理工大学科学学与科技管理研究所，辽宁省大连市甘井子区凌工路2号 116024

在近代科学诞生之初，科学家们主要通过著作、书信、沙龙和演讲等渠道记录和传播科学发现和科学知识。1665年，世界上最早的两种科技期刊——法国的《学者杂志》和英国的《哲学汇刊》相继创刊，开启了科技期刊出版和学术论文写作的新时代[1]。早期的学术论文在形式上以书信体(Letters或者Communications)和实验报告体(Notes)为主，注重研究结果(Results)的描述。20世纪前后，随着科学研究对研究方法(Methodology)的强调，“实验和方法”开始在学术论文中独立成节，形成了包含引言(Introduction)、方法(Methods)、结果(Results)和讨论(Discussion)4个部分的IMRAD论文结构。20世纪后半叶，综述性论文(Review Articles)开始出现并成为科技论文中非常重要的文献类型。

不同的文献类型在科学发展的历程中分别扮演着不同的角色，从而丰富了学者的学术交流方式。对于刚刚进入一个领域的学者来说，阅读综述性论文,通常能够更全面系统地了解这个领域的特征和特点；而对于需要时刻跟踪领域前沿的学者来说，阅读原创性研究论文或者会议论文，可以更快地跟随科学发展的节奏，阅读读者来信类论文则有助于了解其他学者之间的不同观点和争论。

除综述性期刊外，大多数期刊包含不同的文献类型，尤其是Nature、Science这种历史悠久、声名远播的老牌期刊，其涵盖的文献类型更加丰富，并在不同的层面上发挥着重要的作用。在Web of Science、Scopus等文献数据库中，通过专门的字段来标记论文的文献类型(Document Type，DT)，以方便用户根据检索目标快捷地找到相关类型的文献。在科学计量学中，文献类型是文献计量分析的重要元素[2-3]，例如，依据文献类型对论文进行加权评价，或者只选择特定类型的文献进行评价[4]。

1989年，Braun等[5]最早将文献类型作为文献计量分析的一部分，分析SCI数据库文献类型的分布。1995年，Moed等[6]发现基于不同文献类型所选择的研究数据子集，其引用指标的得分不同。2008年，Glänzel[7]发现主题相同文章中，Review文献的平均被引频次大于Article文献，而Article又大于Letter。2013年，Wang[8]发现不同文献类型文章的引用速度不同，即引用开始和引用结束的引用曲线分布不同。2017年，Donner[4]研究了Web of Science数据库对文献类型匹配的正确度。此外，其他学者也研究了文献类型划分的有效性[9-10]，文献类型与科技评价的关系[9,11-13]、与期刊影响因子之间的关系[14-15]等。

不同文献数据库对于文献类型的设计、定义及划分方法并不一致，例如Web of Science划分了42种文献类型，而Scopus则仅有16种，同时期刊(如Nature)也会对文献类型进行界定和划分，这就进一步增加文献类型研究的复杂性。在前人的诸多研究中，研究者鲜有关注不同数据库之间、期刊和数据库之间的文献分类差异，以及这种差异会对期刊评价和科技评价所产生的巨大影响。江晓原等[16-17]发现期刊影响因子的高低与期刊文献类型的设置有极大的关系。

本研究以Nature刊载的论文为例，分别获取Web of Science和Scopus数据库、Nature对同一篇论文划分的文献类型，通过比较3种文献类型划分结果之间的区别和联系，以及其产生的可能影响，以加深人们对文献类型的理解，促进对单篇论文、期刊、机构等进行更合理的评价，并对如何提高期刊的影响力,如何选择合理的文献类型进行计量分析,如何合理地评价单篇论文的质量等提出建议，为基于文献类型的文献检索和计量分析提供参考。

1 概念界定与数据获取

1.1 文献类型的概念界定

Web of Science[注]Web of Science各个文献类型的详细含义见：http://images.webofknowledge.com//WOKRS528R15/help/WOS/hs_document_type.html。、Scopus[注]Scopus各个文献类型的详细含义见：https://www.elsevier.com/__data/assets/pdf_file/0007/69451/0597-Scopus-Content-Coverage-Guide-US-LETTER-v4-HI-singles-no-ticks.pdf。和Nature[注]Nature各个文献类型的详细含义见：http://s3-service-broker-live-19ea8b98-4d41-4cb4-be4c-d68f4963b7dd.s3.amazonaws.com/uploads/ckeditor/attachments/7807/2a_Manuscript_formatting.pdf。拥有不同的文献分类标准，每种分类体系下相同文献类型的含义不尽相同，甚至大相径庭。例如，Article在三种文献分类体系下均泛指Original Research，而Letter在Web of Science与Scopus中均泛指读者针对过去发表的材料与期刊编者之间的书信往来，但Nature却将Letter类型的文献划分为Original Research，与Article文献类型同属一个类别，都是反映原始研究工作的主要文献类型(表1)。

表1 Nature、Web of Science和Scopus的文献类型定义(部分展示)

除此之外，同一篇文章在不同的文献分类体系下可能会被分配不同的文献类型，而这些文献类型的含义可能迥然不同。例如，2013年美国学者Aaron D. Franklin在Nature上发表题为“Electronics: The road to carbon nanotube transistors”的文章，其在Nature、Scopus、Web of Science中分别对应News & Views、Article和Editorial Material，而显然这3种文献类型的含义差别很大，在Scopus中被划入了原创性研究中，但在Nature中仅仅被划分为新闻评论性文章(图1)。

3种分类体系按照何种具体机制对科研论文进行文献类型划分，并没有详细的官方解释，只是给出了定义。但一般来说，文献类型的划分原则可能涉及：(1)论文的长度，即页数；(2)论文的参考文献数量；(3)论文的作者数；(4)论文的被引频次；(5)论文的章节标题；(6)期刊及数据库的文献类型定义。

图1 同一篇文章在3种文献分类体系下所对应的文献类型

例如：Nature规定，Article类型文献的参考文献数量不超过50条，而Letter类型文献的参考文献数量不超过30条；Scopus数据库规定了Article文献类型的章节特征；而Web of Science则是给出了Article的详细定义(表1)。

1.2 数据获取

以2008—2017年Nature刊载的文献为例，分别统计了每篇文章在Nature、Scopus、Web of Science中对应的文献类型。具体的做法是：(1)分别在Web of Science和Scopus数据库中检索与下载2008—2017年Nature刊载的文献索引，分别获得26493和25978篇文献记录；(2)依据每篇文章的DOI号对两个数据库的文献进行匹配，能够进行匹配的文献数为21533篇，无法匹配的主要原因是两个数据库中文章DOI号信息的缺失；(3)Nature文献类型的获取。本研究依据每篇文章的DOI号通过“网络爬取”的方法获取其在Nature官方网站(https://www.nature.com/)中对应的文献类型，可以获取21507篇对应的文献类型。至此，每篇文献都匹配了NatureDocument Type(NDT)、Web of Science Document Type(WDT)和Scopus Document Type(SDT)。

本研究共提取到51种不重复的文献类型，其中某些文献类型的含义明显重复，可以进行合并归纳处理，合并后得到18种Nature文献类型(表2)。例如，Column: Party of One和Column: World View均属于News的下设分栏，故将其并入News and Views文献类别中，一些不容易合并且数量较少的文献类型都归入Other Type中，而诸如Article、Letter、Editorial等常见文献类型不进行合并处理。

表2 Nature文献类型的分布情况

2 结果与讨论

2.1 文献类型的数量分析

本研究统计了文献数据集在Web of Science、Scopus和Nature中分别对应的文献类型的种类(表3)，分别为10种、9种和18种，可看出Nature对文章的分类更加细致，类型更加多样。例如，Futures栏目[18]就是Nature专门刊登“完全原创”“长度在850至950个单词之间的优秀科幻作品”，该栏目下的文章并不是学术性论文，可能是小说或者影评等，但是这种非学术性的文章也被Web of Science与Scopus收录并重新划入Editorial Material与Note文献类型中。

Nature上发表最多的文献类型是News and Views，其次是Letter和Brief Communications，Article类型文献数量的排名仅在第4位。从统计结果可知,Nature主要刊登的文章类型并不是Article与Review，这正印证了穆蕴秋等[19]称其为两栖期刊的说法。但是，在Web of Science与Scopus中，Nature刊载文献数量最多的文献类型却变成了Article，而Letter类型的文献数量大大下降。

需要注意的是，在3种文献分类体系下，虽然都有Article、Review、Letter等文献类型，但对应的文献数量却不甚相同。例如，虽然在Web of Science与Scopus中排名第一的均是Article，但后者所含文献数量却比前者多20%；Scopus中的Editorial所含文献数仅为Web of Science中Editorial Material所含文献数的10%，却与Nature中的Editorial相差不大。

表3 在Nature、Web of Science与Scopus中对应文献类型的论文数

2.2 文献类型的对比分析

在Nature、Scopus、Web of Science 3种文献类型分类体系下，除“同名不同义”的情况外，Nature中还有很多文献类型在Web of Science与Scopus中并没有直接对应的分类。Web of Science与Scopus数据库如何对Nature刊载的文献进行再次分类？为了探究这一问题，本研究对3种文献分类体系进行了比较分析，结果如图2所示。

(1) Web of Science数据库中的文献类型分析。从图2中左侧两列数据可知，Web of Science将Nature中的Article和Letter两种文献类型几乎均划为其Article文献类型，将Nature中Brief Communications几乎全部划为Letter，将Nature中Review Article几乎全部划为Review。Nature刊载文章数最多的文献类型为News and Views，Web of Science数据库主要将其划分为Editorial Material和News Idem两类。

此外，Nature中Editorial类型的文献数量只占总刊载文献量的2.5%，而Web of Science中Editorial Material却占28.6%。除Nature中的Editorial几乎全部划为Web of Science中的Editorial Material外，Nature中的Comments and Opinion、Essay、Outlook等类型也被划为Web of Science中的Editorial Material。需要注意的是，Nature中显然不属于Web of Science中Editorial Material类型的科幻小说栏目类型Futures也被划入Editorial Material。由此可知，Web of Science中Editorial Material并不是通常意义上理解的“社论材料”，此类型也包含了诸多难以再分类的文献。

(2) Scopus数据库的文献类型分析。从图2中右侧两列数据可知，Scopus将Nature中的Article和Letter两种文献类型基本上都划为Article，此外还将Nature中1/8的News and Views、1/3的Books and Arts、1/2的Outlook划为Article；Scopus将Nature中86%的Brief Communications、0.7%的Letter划为Letter；Scopus将Nature中几乎全部的Review Article划入Review；Nature刊载文章数最多的文献类型为News and Views类型，其在Scopus数据库中主要被重新划分为Note和Short Survey两类，还有1/8被划为Articles。

此外，Nature中的Editorial类型基本上都被划为Scopus中的Editorial；Scopus中Note涉及了Nature中的诸多文献类型，例如，Nature中的News and Views、Books and Arts、Brief Communication等。若只看Scopus的Note定义(即Note, discussion or commentary)，则很难想象会出现这样的文献类型再分类结果。

(3) Web of Science与Scopus对照分析。为了直接对Web of Science与Scopus进行对照分析，将Nature的文献分类标准从图2中去除，得到图3。

图3 Web of Science与Scopus文献类型匹配图

Scopus中Article的文献数量比Web of Science中的Article多20%，显然前者的含义比后者更广泛，包含的文章类型更多，也包含了后者中1/7的Editorial Material和1/6的News Idem。

Scopus中的Editorial与Web of Science中的Editorial Material差异较大，前者包含文献数很少，只为后者的10%，后者覆盖了前者中较多的文献类型。而Scopus的Note与Web of Science中的Editorial Material情况一样复杂，其中涉及了多种Web of Science文献类型。

Scopus中的Letter与Web of Science中的Letter含义较为接近，后者的86%被同样划入前者的Letter中，但后者中部分文章被划入了前者的Article与Note。据统计分析可知，Scopus将Web of Science中Letter类型里被引频次较高(均值为16.4次)，参考文献数较多(均值为7.6条)的文献重新划分为Article。

Scopus中的Review的文献数是Web of Science中Review的1.6倍，可以看出前者的范围更广泛，除后者中的Review外，部分Article、Editorial Material、News Idem也被包含在前者的Review中。

此外，Scopus中的Erratum与Web of Science中的Correction虽不同名，但两者的含义基本相同；Web of Science中的Editorial Material与Scopus中的Note，两者含义宽泛，包含的文献类型众多，含义远超其字面上的“社论材料”与“注释”。

2.3 文献类型的计量特征分析

由于篇幅有限，本研究选取了3种文献分类体系下“同名”或“近义”的文献类型进行计量特征分析，分别统计了(1)～(4)组10种不同的文献类型的参考文献数量、被引频次、页数、作者数4种计量指标的平均数及中位数，其统计结果如表4所示。

表4 Nature、Web of Science和Scopus中“同名”或“近义”文献类型的文献计量特征

Nature中Article类型文献的参考文献数量、被引频次、页数、作者数的平均值和中位数均高于Web of Science中Article类型文献，而Web of Science中Article类型的各项指标又略高于Scopus中Article类型文献。

Nature中Letter与Web of Science中Letter和Scopus中Letter的各项指标均差异很大，而与两个数据库中Article的各项指标较为接近。Nature中的Letter与Web of Science、Scopus中的Letter虽然文献类型的名称相同，但具体含义却大相径庭；Nature的Letter与两个数据库的Article虽然文献类型的名称不同，但具体含义却大抵相同，这与Hayashi等[2]的研究结论基本一致。

Nature中Editorial类型文献的各项计量指标均低于Web of Science中Editorial Material，而与Scopus中Editorial类型文献的各项指标较为接近。正如van Leeuwen等[20]所言，Web of Science中部分Editorial Material类型文献是科研评价的必要组成部分，因为这部分文献的学术价值很大且影响力很高，即Editorial Material中包含了各种各样质量参差不齐的文章，所以在进行科研评价时不能简单地全部包含或者全部排除。而Nature和Scopus中的Editorial类型文献的质量普遍较低，是科研评价的非必要组成部分。

Nature中的Brief Communications与Web of Science和Scopus中Letter类型文献的各项指标均比较接近，即这3种文献类型虽然不同名，但内涵相近，都泛指书信，即读者针对过去发表的材料与期刊编者之间的书信往来。在进行科研评价时，可将这两个数据库中Letter类型的文献排除在外，而Nature中Letter类型的文献则是必须考虑在内的。

3 讨论与总结

3.1 文献类型差异的可能影响

Web of Science、Scopus与Nature对文献分类的差异会给科研人员造成不必要的困扰，影响期刊影响因子的计算，导致论文得不到合理的评价等。

对于科研人员而言，使用文献索引数据库是为了快速找到特定论文，Web of Science与Scopus数据库最初设定文献分类[10]的目的也是如此，而目前不同数据库之间、期刊与数据库之间文献类型的差异性与复杂性却与其初衷背道而驰。同时，对于从事文献计量或科学计量的科研工作者而言，文献类型的差异增加了文献计量与科技评价的难度。例如van Leeuwen等[20]研究在进行科研评价时是否应包含Web of Science中Editorial Material文献类型，基于本研究的分析可知，可将Nature与Scopus中的Editorial类型文献全部排除，但需寻找特定办法来挑选Web of Science 的Editorial Material中有价值的文章参与评价，这对科研评价而言是一项巨大挑战。

对于期刊而言，文献分类标准不同，所计算出的期刊影响因子也不同[19,21-22]。影响因子的计算涉及文献类型，分母中“引用项”只包括原创研究论文和综述论文。若依据Nature的标准，Article和Letter属原创研究论文，其数量共计8142篇；若按照Web of Science的标准，Article表示原创性研究，其数量为8254篇。除数值不同外，Web of Science中Article类型不但没有包含Nature中全部Article和Letter两种类型，而且还包含Nature中少量News and Views、Comments and Opinion、Other Type等期刊划定的非原创性的文献类型。

对于单篇论文而言，一旦文献类型被分配错误，就很有可能得不到正确的质量评价[10,20]。据本研究的统计，2008—2017年Nature共有3293篇高被引论文和64篇热点论文，这些论文均来自于Web of Science的Article和Review两种文献类型。若一篇论文被划分为Editorial Material，则其几乎不可能入选ESI高被引论文和热点论文，若被划分为Article或Review，则其拥有了入选ESI高被引论文和热点论文的入场券。期刊和数据库之间的文献类型差异本不该成为学术论文被科学评价的阻力和障碍。

3.2 总结与展望

文献类型是文献计量学的一个重要指标，是论文质量与水平的重要体现。本研究通过对Web of Science、Scopus、Nature这3种文献分类体系的研究，探索了不同分类体系之间的联系与差异，发现3种文献分类体系不仅文献类型的设置各具特色，而且“同名”文献类型的含义不尽相同，甚至千差万别。

本研究主要有以下发现：(1)同一数据集在Web of Science、Scopus和Nature中分别对应不同的文献分类，Nature的文献类型种类最多，Scopus最少；(2)3种文献类型分类体系中均存在Article、Letter、Editorial、Review等文献类型，但这些文献类型的含义却不甚相同，例如Nature中的Letter代表原创性研究，但Web of Science和Scopus却代表书信；(3)Web of Science中的Editorial类似一个“大杂烩”，此类型的文献质量参差不齐，很多难以明确分类的文献会被归入此类，而Scopus中与之对应的是Note类型；(4)Nature并不是严格意义上的学术期刊，其刊载了很多与学术无关的文章，News and Views类型文献数量占总发文量的31%，而原创性研究(Article与Letter)的数量仅占38%；(5)不同分类体系下相同文献类型所对应的文献质量不尽相同，Nature中Article类型文献的质量最高，而Scopus中对应的文献质量则相对较低。此外，Nature中的Brief Communications才是与Web of Science和Scopus中Letter对应的文献类型。通过本研究的分析可知，在对单篇论文、期刊、机构等进行科研评价时，也应将论文的文献类型考虑在内，尤其需要注意期刊和数据库之间的文献类型差异。

Web of Science、Scopus以及期刊所采用的不同文献分类体系给读者和科研工作人员带来了困扰，给单篇论文、期刊、科研机构的评价以及研究人员的科研业绩评估等带来了诸多麻烦与阻碍，为了解决这些问题，笔者将进一步研究不同的文献分类标准会对期刊和科研评价造成何种程度的影响。对于其他期刊而言，是否同样存在期刊与数据库文献分类标准不一致的情况，两者之间的相似性与差异性又有何种特征等，这也将是笔者下一步的研究重点。

致谢感谢香港浸会大学经济学院王睿新老师，他曾就文献类型的影响与论文作者进行了深入探讨，给本研究的写作和完成带来了很多启发。