国外学术期刊评价的历史演进与发展趋势分析*

2021-01-06齐东峰

图书馆研究与工作 2021年8期

齐东峰

（中国国家图书馆北京 100081）

1 引言

学术期刊作为报道、传播科研成果的重要载体，自十七世纪中叶第一种学术期刊《学者杂志》（Journal des Scavans）问世以来，就成为了文献信息资源的重要组成部分。学术期刊诞生初期，期刊的种类少、刊载的文章数量少，它所承载的文献信息很容易获取。然而，随着社会的进步和科学技术的不断发展，学术期刊的种类快速增长，其所刊载的文献信息数量也随之成倍增长。如今，社会的进步日新月异，全球每年出版的学术论文数以百万计。据《乌利希全球连续出版物指南》（Ulrichsweb Global Serials Directory）统计，至2020年2月，全世界在发行中的（Active）学术期刊共20余万种。另据国际科学技术和医学出版商协会（International Association of Scientific，Technical and Medical Publishers，简称STM）统计，全球同行评议的英文学术期刊约33 100种，每年发表的论文多达300万篇以上[1]。

学术期刊数量及其刊载文章从无到有、由少至多。对于学术期刊的使用者而言，面对逐渐增加且浩如烟海的学术文献，如何更快速有效地获取自己所需的信息？对于图书馆而言，如何在期刊数量庞大与资源建设经费有限的矛盾下合理配置资源？这些逐渐成为一种复杂的、艰深的问题，需要科学、系统地加以解决。因此，随着图书馆学、情报学、文献计量学的逐步发展，学者们基于对学术期刊的性质、特点、功能及人们利用文献规律等诸多方面的研究，逐步发现并建立了适合学术期刊不同历史发展阶段的评价方法、体系和工具。

2 国外学术期刊评价的历史脉络

2.1 二次文献的出现与其评价功能

从1665年第一种学术期刊产生后，学术期刊很快在欧美各国成长起来，并表现出了强劲的影响力与生命力，至十九世纪末，其数量已有一万种。虽然这一时期的学术期刊也已经细化到数学、物理、化学、生物、医学、动物学、人类学、工程、地质学、考古学、语言学、经济学、政治学等方方面面，但由于出版规模尚不算宏大，并且各种期刊分散在不同的国家，在当时能够获取相关的期刊信息已实属不易，更无法谈及对世界上的学术期刊进行系统性的评价。

20世纪初，社会的文明程度逐步提高，科学技术快速发展，尤其是自然科学领域，如数学、物理、化学、冶金、机械、交通运输、采矿和电子电器等学科领域，科学研究的经费投入越来越高，科学发现和科研产出越来越多。全球的学术期刊品种数量，尤其在发达国家，呈现出螺旋上升的趋势。19世纪中叶欧美各国的科技期刊仅有1 000余种，19世纪末时达10 000种，到20世纪中叶，该数字已猛增到35 000种[2]。学术期刊，不仅数量在不断地发生着变化，涉及的学科领域也越来越广，很多期刊的品质越来越高。与此同时，相同领域的不同学术期刊之间也出现了一定的质量或业界口碑的差距。

受此影响，文摘索引类期刊也不断地变化。一方面，大量的文摘索引类刊物应运而生，截至20世纪六十年代，全球的文摘类期刊已到达了1 500多种[3]。另一方面，在许多学科领域，为了适应学术期刊刊载内容的精细化发展，文摘类期刊开始分辑出版，从每种出版一辑增至多辑，有的文摘期刊甚至出版几十至上百辑。然而，即便文摘索引类期刊能够随着学术期刊出版的迅速发展而发展，但它们作为检索工具已不能且不应该将世界上某一学科领域的所有论文文献都收录进来。说不能收录全面，是因为进入20世纪后，发表在学术期刊中的学术成果开始呈几何倍数增加，除欧美国家外，其他国家的学术期刊也逐步进入发展期，因此任何一种检索工具都很难达到“大而全”或“小而全”的规模。说不应该收全，则是由于在学术期刊快速发展的阶段，大多数期刊品质在逐步提升，但部分学术期刊因为在编辑出版的过程中存在着一定的问题，导致办刊水平相对低下。因此，一些文摘索引类期刊检索工具开始制定选择来源期刊的标准，有选择性地对学术期刊及其刊载论文进行收录。这些检索工具对编辑出版、论文评审制度、学术期刊刊载论文的质量、编委、是否采用同行评议等方面均有一定的要求，在某些学科领域甚至对期刊刊载论文自身的时效性和国际性也有一定的要求。因此，它们除具备文献检索、为学术期刊评价提供基础数据的功能外，这种对学术期刊的筛选，也间接地起到了期刊评价的作用。

2.2 学术期刊评价的萌芽

最初，文摘或索引等二次文献期刊的产生，主要目的在于发现存世的学术期刊并让更多的需求者获取相关信息，并没有特意针对哪些期刊更加重要、更具价值等方面的问题去收录或编制文摘或索引。然而，一种文摘或索引期刊所收录的文献量毕竟是有限的，而随着世界上学术期刊数量的不断增多，它们逐渐无法全面地收录本学科领域出现的所有期刊文献，只能有选择性地进行收录。于是，二次文献期刊以及后来的二次文献数据库只能根据学术期刊的定性与定量评价对其所收录学科领域的期刊进行遴选，从而确定收录刊源。正是基于全球学术期刊数量的急剧增长给文献管理与利用带来了越来越大的困难这样一个前提，学者们才开始注重期刊文献数量与质量的规律以及文献科学管理的研究。学术期刊评价就是在这样的社会背景下开始萌芽的。

2.2.1 谢泼德引文的启示作用

谈期刊文献数量与质量规律的发现，必须从“引文”谈起，因为后来的文献计量相关发现与发明，均始自人们对引文的重视。所谓“引文”，即指引用文献（citation）或参考文献（Cited Reference），是专业的研究人员在形成自己的研究成果时引用或参考其他相关人员所撰写的文献资料[4]。19世纪下半叶，美国一位叫作弗兰克·谢泼德（Frank Shepard）的法律出版商注意到了美国联邦法院和州法院以及美国其他联邦机构各种判例之间的关系，在判例和援引案例之间建立索引，使之形成援引和被援引的关系，并统一编制成一览表，甚至标出判例是否已被修改、撤销、推翻或加入新的限制条件。律师们将该一览表黏贴在自己的卷宗上，可以快速了解某一判例是否仍然适合援引，非常方便。以至后来，律师们几乎人人都有一本。1873年，谢泼德成立了谢泼德引文公司（Shepard's Citations Inc.），将该一览表编制成法律判例的检索工具出版。这就是著名的《谢泼德引文》（Shepard's Citations）。利用《谢泼德引文》对判例、法规或其他法律资料进行检查、评价的过程，甚至被称为“谢泼德法”（Shepardizing）。《科学引文索引》的创始人尤金·加菲尔德（Eugene Garfield）曾这样评价《谢泼德引文》：“它用施引与被引的关系将判例和法律条文形成了一个关系网，很多法律诉讼因为在改引文中查到了相关判例而诉讼成功，这是其他检索工具无法做到的。”[5]加菲尔德在回忆创建《科学引文索引》的历史时也亲口承认《谢泼德引文》是他创造《科学引文索引》的灵感来源和原始模型[6]。

2.2.2 文献统计与引文分析的尝试

19世纪末至20世纪初，文献与情报研究人员在《普尔期刊文献索引》与《谢泼德引文》的基础上对文献计量分析开始了尝试性的工作。

1917年英国动物教授、文献学家弗朗西斯·科尔（Francis J. Cole）与动物学家内莉·伊尔斯（Nellie B.Eales）在《科学进展》（Science Progress）杂志上发表了题为“比较解剖学的历史，第一部分——文献的统计分析”（The history of comparative anatomy: part I—a statistical analysis of the literature）的文章，首次利用文献统计的方法对1543年至1860年之间欧洲各国学术期刊上发表的比较解剖学文献进行了分析，既展示了不同时间段内比较解剖学的发展情况，又揭示了他们所统计的论文在不同国家的分布情况，并在文章中论述了对文献进行统计分析的功能与作用[7]。

1922年，英国专利局图书馆学家爱德华·温德姆·休姆（Edward Wyndham Hulme）以“有关现代文明发展的统计书目”（Statistical Bibliography in Relation to the Growth of Modern Civilization）为题在剑桥大学进行了两次演讲，提出了“统计书目”（Statistical bibliography）的说法[8]。休姆对丛书《国际科技文献目录》（International Catalogue of Scientific Literature）中收录的期刊部分进行了统计分析，并根据分析结果列出了生理学、细菌学、血清学与生物学四个学科领域的学术期刊排序表[9]。休姆这一研究既是用文献计量的方式阐明现代文明发展的新方法，也是初步利用文献统计的方式进行期刊评价的一次尝试。

1927年，格罗斯（P.L.K. Gross）与格罗斯（E.M.Gross）在《科学》（Science）杂志发表了一篇题为“大学图书馆与化学教育”（College Libraries and Chemical Education）的文章，通过对化学教育学术期刊的引文进行统计分析，将被引期刊按被引次数的多寡从高到低排序，列出了核心期刊表，从而为订购化学教育领域的学术期刊提供了定量的决策依据[10]。格罗斯的这篇文章第一次提出了“引文分析”（Citation analysis）这一概念，认为文献的被引频次在一定程度上能够反映文献自身的价值，可称得上是学术期刊评价与文献计量学方面具有开创性意义的研究成果[11]。

2.3 学术期刊评价基础理论的诞生

20世纪三十年代至六十年代，研究者们在期刊文献研究方面的一个显著特点是开始注重理论研究。一些研究者在文献统计与分析的基础上，开始从典型到一般进行归纳，从局部到整体进行发掘，寻找文献的规律，以期建立具有普遍指导意义的理论性结论[12]。一些从载文、引文与使用等角度对学术期刊进行评价的相关理论与定律因此相继出现，如布拉德福定律、加菲尔德定律、普赖斯指数和特鲁斯威尔定律等。

布拉德福定律、加菲尔德定律、普赖斯指数和特鲁斯威尔定律分别从期刊的载文规律、引文规律、生命周期、使用规律四方面构成了期刊评价的理论基础。布拉德福定律从期刊载文量的角度揭示了科学文献的分散与集中，为图书馆核心期刊遴选提供了最基本的理论支持。加菲尔德定律从期刊论文与参考文献之间引证关系的角度，为核心期刊遴选提供了重要的量化测度指标。普赖斯指数从期刊论文的科学价值生命周期的角度对于引文数据的量化提供了时效性的参考。特鲁斯威尔定律则从用户的角度出发，以文献传播与流通的数据作为量化准则，为学术期刊评价及图书馆期刊的续订与撤订提供了理论依据。

2.4 学术期刊评价的深化发展

20世纪三十年代，布拉德福在提出文献分散与集中定律的同时，第一次提出了学术期刊“核心区”（nucleus）的概念。最初的“核心区”主要反映特定学科领域相关论文分布的情况。20世纪六十年代，加菲尔德通过对期刊参考文献的大量统计与分析，既证明了布拉德福定律的正确性，又从引文的角度发现了期刊文献集中与分散的规律，在学术期刊“核心区”的基础上提出了“所有学科的核心期刊加在一起不会超过1 000种，实际上，各学科最重要的核心期刊总和甚至少于500种”的论断，并相继推出了《科学引文索引》《社会科学引文索引》《艺术与人文引文索引》等具有期刊评价功能的工具。引文分析法的出现和引文工具的使用，使图书情报领域对期刊评价的理解发生了根本性的变化，它不仅仅反映特定学科领域相关论文分布的规律，同时也反映了学术论文的学术价值以及相应期刊的质量。此时，期刊评价由对期刊论文数量的统计的评价转变为对期刊文献质量和学术价值的评价。1969年，特鲁斯威尔又从文献利用的角度验证了80/20法则在文献领域的适用性，也从文献利用的角度为期刊的评价及核心期刊的遴选实践增加了重要理论支撑。从此，学术期刊的评价开始向指标化、体系化的方向深入发展。

在学术期刊评价理论的基础上，国内外文献信息服务机构、各领域的科学家、出版机构等通过深入的研究与实践活动逐渐形成了一些具有实操性的期刊评价工具。只是不同的期刊评价工具研究与运用主体，对期刊评价的目的略有不同。例如，图书馆等文献信息收藏与服务机构通常以采选期刊和剔除老化期刊为目的；科学家们则试图利用期刊评价工具找出其研究领域最具有影响力的期刊，发表学术成果；出版机构则希望通过期刊评价工具指导其编辑实践与出版政策的制定等，从而提高其出版物的质量与影响力。基于此，国内外陆续诞生了由各种不同期刊评价工具研究主体研制的具有不同评价功能的学术期刊评价工具。国内外较为著名的期刊评价工具主要有“Web of Science的期刊收录与评价体系”、“Scopus的期刊收录与评价体系”、北京大学图书馆主持编制的《国外人文社会科学核心期刊总览》和南京大学图书馆主持编制的《国外科学技术核心期刊总览》等。

3 国外学术期刊评价的未来趋势分析

虽然目前国外学术期刊评价指标较为多样化，但总体而言，主流评价指标与对应的评价方法和体系是以衡量引文量、被引频次、学术期刊自身载文量、时间窗等数据及其相互之间的关系为基础，并以此计算学术期刊的老化速度、权威程度、影响力等。随着期刊出版、网络技术、学术交流以及信息传播等相关环境的不断变化与发展，未来学术期刊评价的指标与方法也将更加多元化、更加公众化、更加注重用户的体验与评价、更加注重评价的深度与广度。

3.1 新兴媒体相关数据被纳入评价数据

虽然布拉德福定律、加菲尔德定律、普赖斯指数和特鲁斯威尔定律分别从期刊的载文规律、引文规律、生命周期、使用规律四方面构成了期刊评价的理论基础，但由于加菲尔德发现的引文规律与分析方法逐渐形成了成熟的理论体系并被广泛地接受，因此传统的期刊评价在20世纪下半叶至21世纪初则更多地围绕着学术期刊载文的引文关系展开，影响因子、五年影响因子、即年指标等学术期刊计量指标一直在学术期刊评价活动中发挥着重要的作用，甚至Web of Science的期刊收录与评价体系一直以来也被视作学术期刊评价的核心工具。即便在21世纪初，爱思唯尔推出了Scopus的期刊收录与评价体系，谷歌推出了谷歌学术指标（Google Scholar Metrics），其平均理论也没有跳出引文规律与引文分析法的窠臼。无论是Scopus平台使用的引用分数、SCImago期刊排名指数、篇均来源期刊标准影响指标、h指数，还是谷歌学术指标所倚重的h5指数，均建立在了引文分析法的基础之上。然而，基于引文分析的学术期刊评价虽然有文献检索、发现研究前沿、预测研究趋势等作用，但在网络信息如此发达的时代，它的局限性与缺陷已经日益凸显。一方面，学术成果从发表到被引用的周期较长导致无法即时反映影响力[13]；另一方面，在学术社交网络如此发达的今天，在线科研交流的周期更短、评审制度更加自由、交流单元逐渐细化到了科研工作者个人或科研机构，学术成果的发布形式更具多样化，许多学术成果的贡献者与使用者通过不同的社交媒体对学术期刊作出了重要的评价，这些评价不仅弥补了传统引文分析方法重现象轻质量的缺陷，同时也从用户的角度出发开展学术期刊评价，使学术期刊的评价更具真实性与全面性。

近年来，基于新兴媒体的学术期刊评价模型逐渐进入学术期刊评价领域。它们对学术期刊的网络使用情况、被获取情况、被提及情况、社交媒体的引用和评价情况进行数据挖掘和分析，形成了重要的评价方法，这就是所谓的“替代计量学”（Altmetrics）的方法。20世纪末，随着信息网络时代的到来，学术期刊评价的计量指标研究对象与范围已不再囿于传统的计量指标，逐步扩展到网络领域。早在1997年，丹麦学者阿曼德（T. C. Almind）与英格文森（P.Ingwersen）率先提出“网络计量学”（Webmetrics）这一术语，认为可以运用信息计量学的方法手段把网络页面看作传统的引文，并结合计量学方法、计算机技术及网络技术来计量分析网络信息的规律[14]。2009年，学者卡内伦（C. Neylon）和吴（Wu Shirley）提出了“单篇论文评价计量”（Article-Level Metrics）的概念，认为通过研究科研人员收藏论文的相关数据测度单篇论文的影响力更有价值[15]。2010年，在网络计量和单篇论文评价计量的基础上，美国信息学教授杰森·普里姆（Jason Priem）与布莱德利·黑明格（Bradley M. Hemminger）提出了“科学计量2.0”（Scientometrics 2.0）假说，希望利用Web2.0环境下的社交媒体、文献管理工具、开放获取平台等不同渠道产生的指标数据为学术论文即时全面的评价提供依据。同年，普里姆在推特（Twitter）上提出了“替代计量学”（Altmetrics）这一术语，并联合塔拉博雷利（D. Taraborelli）等学者在网站上发表“替代计量学”宣言。2011年，“替代计量学”研讨会首次召开，学术期刊评价相关人士纷纷参与会议，从不同方面探讨了替代计量学的内涵、理论及挑战等问题，引发了替代计量学研究热潮。受此影响，Altmetric.com、ImpactStory、PlumX Metrics、PLoS ALMs等替代计量学相关工具也不断涌现。Altmetric.com是麦克米伦出版集团旗下数字科学（Digital Science）公司开发的产品，主要通过追踪学术内容的在线所受关注的状态，提供学术期刊论文在社交媒体、文献管理工具等网络平台上的被提及或关注的相关数据[16]。ImpactStory是由普里姆与希瑟·皮沃瓦（Heather Piwowar）联合开发，通过收集和归并评价对象的统计数据，如保存、引用、推荐、讨论等，并据此生成报告，其主要评价对象包括论文、数据集、软件及演示文稿等[17]。PlumX Metrics由安德拉·米卡雷克（Andrea Michalek）与迈克·布斯曼（Mike Buschman）创建，是整合传统引用指标与替代计量指标的评价工具。它将传统引用量和替代计量数据整合在同一界面上，形成学术成果影响力鸟瞰图，旨在为学术成果提供更为全面的影响力评价。其评价对象非常广泛，包括论文、数据集、报告、图书及其章节、网络课程、期刊、会议论文、网页、临床试验、政府文件、手稿、专利等[18]。PLoS ALMs全称为“PLoS Article-Level Metrics”，是由著名的高质量开放获取期刊出版者PLoS与社会科学领域的预印本论文开放获取在线存储机构SSRN所提供的替代计量指标形成的评价工具，能够追踪PLoS出版的所有学术论文影响力的相关信息，包括每一篇论文的下载量以及该论文在社会媒体和博客上被提及、被评论、标注、评级等相关数据[19]。

针对新兴媒体的相关数据，不同替代计量学工具都拥有着许多相同的计量指标。从替代计量的数据来源看，替代计量指标主要包括博客替代计量指标（Blogs altmetrics）、推特替代计量指标（Twitter altmetrics）、新闻替代计量指标（News altmetrics）、政策文件替代计量指标（Policy document altmetrics）、脸书替代计量指标（Facebook altmetrics）、视频替代计量指标（Video altmetrics）、同行评议替代计量指标（Peer review altmetrics）、问答平台替代计量指标（Q&A altmetrics）等。从网络活动与交互的类型上看，替代计量指标还可以分为阅读替代计量指标（Readership altmetrics）、下载替代计量指标（Download altmetrics）、收藏替代计量指标（Favorite altmetrics）、分享替代计量指标（Share altmetrics）、提及替代计量指标（Mention altmetrics）、评论替代计量指标（Comment altmetrics）、再利用替代计量指标（Reuse altmetrics）等[20]。

当然，相较于传统的学术期刊评价指标，利用新兴媒体数据形成的学术期刊替代计量评价指标和评价工具是全新的学术交流评价体系。这虽然是学术成果影响力的总和评价，但由于数据源的查询方式不同、更新频率不同、收集方式不同等因素，仍缺乏统一遵循的最佳实践标准，仍有待进一步规范与完善。

3.2 不同评价指标深度融合

学术期刊的评价总是一种相对的评价，是在特定的时间，利用特定的指标与评价体系，在某些特定的条件下进行的，因此这种评价只能是一种特定历史阶段的评价，存在缺陷是在所难免的[21]。例如，影响因子这一指标就会受到情况发行频率、刊载论文容量、学科领域、时间窗口界线等诸多因素的影响而导致计算值难以公平、公正、合理[22]。h指数存在对高被引和低被引文章均不敏感、未充分考虑时间窗口界线等问题。特征因子存在着对学科敏感性较弱、评价结果区分度较差、受网络结构影响较大等问题。SCImago期刊排名指数存在着未对原创文章与综述文章进行区分，造成测量值评价准确性降低的问题[23]。引用分数这一指标同样存在着将期刊论文、综述、评论等类型的文章赋予相同权重的问题，它在数据的计算方法上与影响因子差别不大，无法从根本上解决影响因子目前已存在的问题。

在新媒体融合时代的大背景下，学术期刊评价经历了从传统的单一简单指标到复合指标、由单一的评价方法到综合性评价方法、由单一维度到多维度的演化及动态发展过程[24]。在当前期刊评价指标及其评价方法存在众多问题的情况下，学术期刊评价也应根据时代特征与环境作出一定的改变，多维度、多指标融合地进行学术期刊的综合评价。未来的期刊评价将会更加深入地分析各评价指标的优缺点，充分利用不同评价指标的侧重点，有针对性地改进不同指标的缺陷，形成多指标融合的评价方法。这种深度的融合，更加契合学术期刊需要从载文、引文、网络关注、社交媒体评价等不同的侧面反映其影响力的需求。深度融合的综合性评价，既可以根据特定的需求，从某一个侧重点，如引用频次、网络关注度、用户行为数据等，深入评价学术期刊，也可以将多个指标进行综合，通过测度学术期刊多方面的不同特征值，全面反映其综合影响力。

目前，专注于学术期刊评价与研究的一些机构，已经尝试着迈出了多评价指标深度融合的第一步。2017年6月，科睿唯安宣布与Impactstory建立一种全新的战略合作伙伴关系，致力于开发并创新型分析与工作流解决方案。同年，PlumX Metrics被爱思唯尔收购。如今，在所有Scopus界面下，用户可以查到学术文献的PlumX Metrics相关数据。

4 结语

从索引文摘类期刊的萌芽算起，国外学术期刊的评价走过了二百余年的历史。在这二百余年中，期刊的评价经过了由简入繁、由浅入深、由粗至精的发展过程，在不断地积累经验、创新方法，尽最大可能地满足学术期刊在不同时代发展的需求。然而，学术期刊评价作为实践性非常强的科学评价活动，不可能普适于与学术期刊相关的编辑、作者、用户、出版机构、文献服务机构等，而是要在不同的环境下，将评价方法本地化，科学合理地为相关评价活动服务。