我国学术评价发展特征、存在问题与变革趋势<br/>——基于《中文核心期刊要目总览》评价指标分析

我国学术评价发展特征、存在问题与变革趋势
——基于《中文核心期刊要目总览》评价指标分析

2023-11-13宋欣雨周金元

科技管理研究 2023年18期

宋欣雨，周金元

（1.南京大学信息管理学院，江苏南京 210023；2.江苏大学图书馆，江苏镇江 212013）

中国特色社会主义进入了新时代，我国正向世界科技强国大跨步迈进，而推进这一目标的实现离不开各学科领域的研究支撑。新时代下的科研环境当有新的战略布局。“为什么要进行科学研究”“好的研究应是什么样”是迫切需要反思的问题。学术评价是科研主体前进路上的重要“引路人”。2018年教育部开展清理“唯论文、唯帽子、唯职称、唯学历、唯奖项”专项行动（以下简称“五唯”）［1］，拉开我国学术评价导向改革的序幕。主流学术评价方法是否足够科学全面，能否做到紧随时境而变以应当下之需，评价结果的可用性如何，是我国学术评价研究的时代命题。科研管理中，单篇论文评价常与所在期刊评价结果画上等号，种类繁多的期刊排行榜间接影响评定项目申报、课题验收、绩效考核等诸多决策［2］。但期刊评价的初心是为图书馆、科研人员、读者及期刊出版商的选择优质资源提供参考依据［3］，不能因遴选结果被过度使用而忽视期刊分级研究的现实作用。对期刊而言，评价结果可以检验和对比办刊成效，促进探索办刊思路，而学术界可以通过核心期刊高效了解学科、专业的历程及趋势，研究前沿及热点议题等。科学公正全面的期刊评价对于优化论文质量、合理分配学术资源，促进科学交流和提升学术水平有重要意义。1992 年，由北京大学图书馆及北京十几所高校图书馆众多期刊工作者及相关单位专家参加的中文核心期刊评价研究项目成果——首版《中文核心期刊要目总览》（以下简称《总览》）正式出版，填补了国内体系化的大型中文期刊评价工具书空白，此后30 多年来，其在学术评价研究中持续占据重要地位。本研究聚焦我国学术评价发展特征、存在问题与变革趋势，以《总览》为切入点，通过演化及制度分析，从指标体系、评价成果角度回顾发展，揭示发展特征，关注问题与效能，在当前学术评价变革趋势中获得启示，并对未来评价发展作出初步展望，旨在进一步认识我国学术评价的发展规律与价值，为推动我国科研事业在新时代更高质量发展提供参考。

1 《总览》发展历程分析

1.1 评价指标体系不断丰富与优化

《总览》的发布始于1992 年，1992—2008 年间的更新频率为每4 年1 次，之后改为每3 年1 次，截至目前已出版9 版；随着外部环境变化，其定量评价指标体系不断发展，指标数从第1 版的3 个丰富到第9 版的16 个（见表1）［4］。根据《总览》自身的演进，将其30 多年定量评价历程划分为建立起步、转型发展、研究深化3 个阶段进行考察。

1.1.1 建立起步阶段（1992—2000 年）

在建立起步阶段，《总览》主要进行数量统计，探索维度不断升级。改革开放后，我国各领域全面复苏，期刊作为知识载体，对传播科技成果、推动社会发展至关重要。20 世纪80 年代末，国内公开发行的期刊激增至6 000 余种，随之而来的是期刊的收藏、管理和有效利用问题。1991 年，科学技术部发布《科学技术期刊管理办法》，旨在加强期刊管理，以政策导向引领《总览》的研究编制。《总览》在研制之初就采用了科学客观实用的多指标评价体系，指标选择标准是能够反映期刊学术水平、核心效应明显、适合大部分学科、具有可操作性、有较好的统计源［5］。由于首版统计源大多为纸质，存在手工统计弊端，所以仅采用了3 个评价指标：被索量、被摘量、被引量。其中，被索量、被摘量可以反映期刊规模和容量［6］，被引量则是从读者角度体现期刊论文影响力，但指标的绝对属性使其存在局限。随着电子检索工具的出现，后两版《总览》在首版基础上增加了载文量、被摘率、影响因子［7］，可见，《总览》建立起步阶段由数量评价到尝试兼顾多维指标，由仅有绝对量指标到逐步考虑相对量指标。追本溯源，核心期刊的理论基础是布拉德福定律，即根据不均匀分布现象客观划分出核心期刊［8］。通过前3版大规模统计，证明了所有论文的被索量、被摘量、被引量、载文量、被摘率、影响因子皆依循布拉德福定律［5］，这一正向反馈使《总览》的更新研究和编制出版得以继续。

1.1.2 转型发展阶段（2004—2011 年）

在转型发展阶段，《总览》顺应网络时代挖掘使用数据。第4 版增加他引量、获奖或被重要检索工具收录指标，删去载文量指标，标志着评价由重“量”到重“质”的重大转型。经过如复印报刊资料全文数据库、《新华文摘》等国内知名文摘期刊编辑和文摘员的阅读、分析和撰写摘要，论文经历二次评价，这是专家作出的选择，本质是选出专家眼中影响力较大、质量较高的论文［9］。同理，获奖或被重要检索工具收录也是专家层面对于论文质量的深度认定。此外，适当降低不恰当自引的影响［10］，引入他引量指标考察读者层面的论文使用情况，进一步提高论文质量在期刊评价中的效力。与此同时取消载文量指标，使得指标体系的质量价值取向更为清晰。1994 年中国正式接入国际互联网，经过10多年的积淀与发展，科学成果依靠网络得到更及时传播与评价［11］。在第5 版及第6 版中，Web 下载量指标应运而生，该指标除了具有无滞后年限的优点，还可以体现未被引用文献的价值［12］；同时增加基金论文比，强化考察期刊中的重要论文［13］。总而言之，该阶段的期刊评价指标顺应了网络时代的发展，削弱了期刊规模与容量的作用力，满足了一定程度的质量需求。

1.1.3 全面深化阶段（2014 年至今）

2014 年以来，《总览》的评价指标数量开始超过10 个，进入全面深化阶段，理论研究深入、技术手段进步为指标体系的长期发展、不断丰富提供可能［14］。在这一阶段，《总览》把控期刊的真实影响，深耕精准分析。第7 版新增他引影响因子指标以抵制期刊过度自引或互引同盟现象［15］。互引指数是首个具有反向评价意义的正向指标，进一步识别期刊之间人为操纵影响因子的情况［16］。论文被引指数通过测度期刊中存在的“有效”文章来衡量期刊影响力［17］。由于学科之间的引用差异，一些研究结果指出影响因子引证窗口2 年时间过短的问题［18］，第8 版随即调整，加入5 年影响因子、5 年他引影响因子指标。特征因子、论文影响分值等指标起源于2009 年全新改版的《期刊引用报告》，特征因子指标考虑到施引期刊的影响力，实现兼顾引文数量与价值的评价［19］；论文影响分值可衡量期刊的篇级影响力［20］。Web 下载率指标则体现了期刊的即年反应速度，更客观反映期刊网络影响力，是Web下载量指标的有益补充［21］。以上指标旨在精准把握论文使用数据，研求全面科学的评价体系。此外，第8 版及之后再度考察期刊获奖情况，指每3 年评选1 次的中国出版政府奖期刊奖，这是我国新闻出版领域的最高奖项，激励着中文期刊走专业化、高质量发展之路［22］；同时，因国内索引大多是不加选择地收录期刊论文的全部题名，故被索量指标与学术评价相关性不强［23］，被《总览》从指标体系中剔除。不难发现，《总览》的评价指标体系在30多年的探索与实践中，以每3 版为一个发展阶段，基本遵循一版定下基调、两版调整以贯彻的路径，依据核心定律，强化理论研究。

1.2 核心期刊数量趋于稳定，继承率不断提高

针对我国学术现状，必须加大完善期刊的分类评价与分级管理力度［24］。为了保证研究结果科学实用，在定量评价基础上，《总览》每版会通过专家定性评价对定量评价结果进行调整补充［25］。

1.2.1 核心期刊数量趋于稳定

《总览》采用分学科评价方法，以《中国图书馆分类法》作为学科分类依据，选择学科发展比较成熟、学科界限相对明确，并且已形成一定数量的期刊群设置学科类目。通过在国家新闻出版署、国家统计局官网检索收集，得到第9 版的核心期刊数与当年中国正式出版的中文期刊总数（（未含港澳台地区，以下简称“中国中文期刊总数”），可见近15 年来《总览》稳定甄选1 900 多种核心期刊，自2014 年开始核心期刊数占中国中文期刊总数跌破20%，但与此同时，中国中文期刊总数呈现持续上升趋势，在2017 年突破1 万种（详见图1）。根据《2021 年全国科技经费投入统计公报》，2021 年我国研究与试验发展（R&D）经费投入总量为2.8 万亿元，比上年增长14.6%［26］，全国（未含港澳台地区，下同）研发人员总量达到562.0 万人年，连续9年居世界第一［27］；对教育部［28-29］官网调研发现，自《总览》核心期刊数占中国中文期刊总数的比例跌破20%的2014 年以来，我国硕博研究生招生规模持续扩大，2020 年招生总数已近2014 年的2 倍，科研经费的不断增长及科研人员队伍的持续壮大理应助力学术繁荣。

图1 《总览》核心期刊数及其占中国中文期刊总数比例的发展趋势

1.2.2 核心期刊继承率不断提高

各学科领域内的核心期刊评比有助于期刊间的良性竞争、促进提高学术水平，而动态更新的核心期刊目录更是有利于编辑部吸收优质稿源，在学术和业务水平上精益求精。进入核心目录后的期刊自然增强了吸引力，优质来稿进一步提升期刊质量，形成良性循环。而激发期刊群体办刊积极性的关键在于评选周期的规律性及评选结果的动态性，不确定性将鼓励非核心期刊的斗志，强化现有核心期刊的危机意识，引起期刊间的质量竞争不断加剧，进而提高我国整体学术水平［30］。《总览》以参评期刊数量的2%和专业期刊的15%为限，将某学科核心期刊数量按照某学科专业期刊数相较上一版进行调整，比如对比2020 年第9 版与2011 年第6 版收录的期刊数，经核对中国知网期刊库记载的曾用刊名进行消歧处理后发现，第6 版的期刊继承率达84.46%，而对比2020 第9 版与2017 年8 版的期刊数，期刊继承率达到了94.1%（详见表2）。

表2 《总览》核心期刊继承率

2 《总览》评价现状与存在问题分析

2.1 “不破难立”的评价指标体系

2.1.1 核心期刊载文量异常下降

2010—2020 年间，《总览》收录的核心期刊载文数量持续下降，平均每年降幅为2.2%。这一现象与客观环境是相互矛盾的。其一，伴随高等教育普及化，我国科研投入日益增多，科研人员数量急剧增长，在此背景下，作为科研成果主要形式之一的论文的数量与质量应不断提高；其二，一般而言，核心期刊已然代表着学科领域内的较高水准，是未上榜期刊和相关研究人员的标杆，是科技进步的重要支撑，因此核心期刊载文量下降是不利于社会发展的异常现象。但根据影响因子指标的计算公式可以发现，一定时段内的载文量是学术期刊评价中的逆向指标，影响因子成为“唯”的对象，期刊有效信息量牺牲的危害应引起重视，学术评价中应建立有效机制对“唯影响因子”现象进行干预。

2.1.2 疏于监管的论文学术规范

在第9 版《总览》的16 个评价指标中，尚未制定针对学术规范问题的指标，即题录、参考文献信息的规范性考察。题录信息与检索息息相关，是论文的重要组成部分；英文摘要等是否完整准确更是关乎着论文与期刊的国际影响力；参考文献是否真实规范也事关重大，是论文创新的知识基础和引文分析法的关键节点。有研究选取了5 904 条参考文献进行准确性验证，发现21.9%的参考文献与原文不符，且未执行国家标准和未全刊统一的规范性问题也较显著［31］。但学术规范问题未在目前的学术评价体系中有所体现和重视。

2.1.3 专家认可度界定标准不当

除了下载引用等由广大读者“自下而上”进行评价的指标之外，《总览》评价指标体系中还含有由专家认可程度进行评价的“自上而下”的指标，即基金论文比（国家级、省部级）与获奖或被重要检索系统收录。但自2008 年第5 版及之后加入的基金论文比指标，在当前学术环境下作为一种评价指标存在被滥用的倾向。有研究指出，论文是否有基金与论文质量及其后续影响力没有必然联系［32］。此外，间接使用无关基金项目、提供虚假基金项目等行为导致学术失范问题，严重误导了期刊发展方向，损害学术风气［33］。而对于获奖指标而言，目前仅统计了从期刊层面出发的中国出版政府奖期刊奖，该指标的全面性有待加强。

2.1.4 困于引用的学术评价标准

通过回顾旧版本可以发现，《总览》的评价指标体系无论是在指标数量上还是评价维度上都与时俱进、迭代更新，但“破五唯”对期刊评价提出了新要求。在挖掘用户使用情况方面，学界惯用引文分析法以量化论文学术影响力，而2020 年第9 版中由引用行为衍生出的指标高达10 个，然而一方面，由于出版周期等原因损耗了论文的时效性，这使得引文分析法有其难以摆脱的滞后性问题，另一方面，部分期刊为了快速进入核心之列而采取不正当竞争方式，被引数据容易“走捷径”已是不争事实［34］。期刊评价的维度应更加多元，如涉及质量、贡献与影响，而大量外部引用数据通常仅衡量了学术影响力一个方面，难以挖掘期刊论文的质量、贡献与非学术影响力等，这与我国学术发展不相适应，与“破五唯”新形势的要求不相符合。

2.1.5 下载指标统计源尚有欠缺

Web 下载量、Web 下载率等指标是网络时代中评价论文关注度、影响力层面指标的重要补充。2020 年第9 版《总览》中，与论文下载相关指标的统计源有中国期刊全文数据库、万方数据知识服务平台、中文科技期刊数据库、超星学习通与超星发现产品数据平台，而随着开放获取的发展，我国众多期刊在其官网等提供了论文全文下载的渠道，极大促进了知识共享与学术交流，其中部分期刊官网实时展示了论文的摘要阅读量、全文下载量等统计信息，数量甚为可观。可见，《总览》评价体系中与论文下载相关指标在统计源的范围上未与时俱进。

2.2 评价结果适用性有待加强

2.2.1 制约发展的核心期刊规模

制定科研发展方针是构筑文化强国的重要战略环节，以“百花齐放、百家争鸣”为宗旨的期刊发挥着重要引领作用。《总览》立志于为不同类型、级别的图书馆采访与收藏中文期刊的同时，为各个专业和不同层次的读者选择阅读中文期刊提供参考依据，但该项服务的全面性有待商榷，《总览》发展10 多年来评选出的核心期刊数量趋近，但新时代我国科研人员的规模和整体科研实力早已不可同日而语。学术期刊是推广应用研究成果与开展学术交流的重要平台，回归《总览》的研制目的，较少的核心期刊种数难以满足需要较大文献保障量用户的参考需求，也难以为创新思想的传播保驾护航。

2.2.2 马太效应显著的研究结果

我国期刊建设、科研队伍正处于发展的“快车道”，评选核心期刊有利于发挥学术引领作用，但核心期刊群的过度稳定强化了核心期刊的地位，加剧了学术领域的马太效应。学界的“唯核心”论造成导向偏差，核心期刊论文在绩效考核中的重要作用使得非核心期刊发展被边缘化。核心期刊通常拥有大量来稿，被引数据也更可观，而与之形成鲜明对比的是其他非核心普通期刊的稿源稀缺和难以被引用，学术话语权只掌握在约20%的期刊手中［35］。此外，核心期刊继承率不断提高，如此反复陷入怪圈，限制了非核心期刊的成长，大量稿件涌向核心期刊但却无处可发，导致资源浪费，阻碍了大范围的知识传播和科技发展。

3 我国学术期刊评价发展对策与建议

3.1 “破五唯”推动健全评价指标体系

邱均平等［36］指出，学术期刊评价是文献计量学的重要应用领域，利用文献从其出现、情报加工、使用三方面呈现出的核心效应可测定出核心期刊，基于此全局视角得以审视评价体系的科学合理性。为此，本研究在2020 年第9 版《总览》16 个定量指标的基础上，构造出学术期刊量化评价框架如图2所示，各指标的选择遵循科学性、系统性、可测性和综合性原则［37］。其中“*”表示展望新增指标。

图2 期刊量化评价框架

3.1.1 保质保量助力学术交流

载文量的异常下降问题需要一条解决路径。保质保量让学术期刊良性生长，在知识传播、学术交流中作出更大贡献，因此在对学术期刊评价时应将期刊承载的知识容量作为考察项目，但为了避免回到重量轻质阶段，可以将本学科本轮参评期刊的平均载文量作为基准线，采取不达标扣分、超标不加分的计分方法，引导期刊设计合理、客观的发文量。期刊在秉承“内容为王”原则的同时也应关注自身的知识容量，达到质和量双全的目标。不同于目前评价体系聚焦对论文使用环节的考察，在论文出现环节设置标准，为评价期刊管理能力提供新视角。

3.1.2 从学术规范中看编校质量

编校质量是期刊办刊水平的体现维度之一。在文献出现环节，除了可增加衡量期刊知识容量的载文量指标，还可增加审核编校质量的学术规范性指标。具体而言，重点审查论文中英题录信息和参考文献信息的完整性、规范性、真实性。在实际操作中，可以采用抽查方式以减小工作量，设置扣分指标，在抽查样本中发现不规范现象即进行相应扣分；当某期刊出现情节严重的不当引用、篡改抄袭等学术不端时，启动“一票否决”，取消其当期参评资格；督促期刊关注所刊载论文的格式与引用等规范性，营造良好学术风气。

3.1.3 合理全面地吸纳专家意见

鉴于基金论文比指标在目前期刊评价中的重要性，可能导致研究人员和期刊编辑过度追求基金引发各类基金滥用行为，此外，不同学科的基金申报难度差异较大，各基金论文的质量与价值都需谨慎衡量，建议对该指标精准赋权，加大滥用基金的失信惩治力度，让学术评价结果更加真实。而对于获奖指标而言，除了中国出版政府奖期刊奖，可以在期刊、论文层面挖掘更多具有含金量的奖项，如“中国科技期刊卓越行动计划”“期刊主题宣传好文章”等，这将是同行评议的有力补充。

3.1.4 完善引用之外的多元评价

传统环境下，基于引用的相关指标能够反映期刊论文的影响力，这种影响力更多意味着文章在学术界的被关注度，即其学术影响力。影响力不等于文章的全部价值，计量指标只能在合理范围内使用，可以起到的是支撑作用而非决定作用。评价导向引领发展方向，文章内容质量、贡献应作为影响力之外的关键评价要素，如论文的科学性与创新性评价、论文可用于解决现实问题的程度等。评价制度有待完善。“唯影响因子”的困境亟待破除，“破”字为先、“立”字为要，不破不立，不立难破，不断完善的多元评价为多样化的科研管理提供参考。

3.1.5 挖掘具有评价价值的信息

互联网时代中，大众网络行为也受到关注，目前大多数聚焦于论文下载行为，如Web 下载量、Web 下载率，将学术期刊官网的论文下载情况补充至当前下载相关指标数据中，是一种间接衡量开放科学环境下期刊开放度的方法。当然，更多其他网络行为及其衍生指标有待开发。如，“Altmetrics”的概念最早由Priem 等［38］提出，指建立基于社会网络的新计量指标体系，邱均平团队［39］将其译为“替代计量学”并进行系统梳理，研究基于社交网络的在线新型计量指标，促进开放科学及在线交流的全面发展。网络环境下论文的影响力评价研究具有科学性、有效性和先进性，因此应推动使用Altmetrics指标衡量论文在学术界内外的影响力，可充分发挥网络时代特性，进一步高效挖掘文献的社会价值。此外，在评价主体上，除专家评审团队，可以适当结合建立读者的发声渠道，如在期刊官网或微信公众号等捕捉大众声音，打通更多读者“自下而上”的评价路径。

3.2 产出与时俱进的评价结果

3.2.1 分级准入以带动规模化发展

当前核心期刊的规模已难以符合时代需求。期刊评价的初心是通过科学的方法营造各具特色、质量上乘、丰富多彩的期刊健康发展生态［40］，期刊评价应更多利用指标制定最低标准［41］。可采用两种级别标准遴选期刊，如同时选出权威期刊与核心期刊，权威期刊即核心中的核心［42］，在不稀释核心区价值的同时促进我国更多其他学术期刊进入核心区，进而良性发展，创造更多精品，打响品牌力量，产生规模效应，带来学术繁荣。此外，具有层次性的评价结果有助于更好地服务管理和决策，可以帮助图书馆、读者、行政部门等使用方作出更灵活的选择。

3.2.2 吐故纳新以创造良性学术生态

核心期刊在当今的学术环境中占有极大优势，其话语权和吸引力也不言而喻，更多的优质稿件及评价体系的相对稳定使得核心学术期刊群有着一定程度上合理的延续性及继承性。在实现期刊群分级准入核心区之后，持续探索出可以用来评价的信息，不断考求出科学的数据转换方式，定期更新完善的定量评价体系结合科学精确的专家定性评价，促进核心期刊内部加强质量竞争。坚持吐故纳新，强化现有核心期刊的危机意识，使其保“核心”、争“权威”，以稳定的自我提升求发展，为水平较高的非核心期刊创造更多机会，增强我国期刊活力，推动学术建设良性发展。

4 结论

我国正稳步迈向世界科技强国，特别强调提高文化软实力，繁荣发展的学术期刊是重要的文化窗口，作为科研主体引路人的学术评价，其导向与制度事关我国科研事业的健康发展，科研成果的评价问题仍是新时代中面临的难题。本研究以发展历程悠久、认可度高的《总览》为抓手，对其30 多年的成长发展主要情况进行回顾，分析其发展现状，望借此管窥其复杂全貌，为建设科学全面的学术评价制度提供参考。研究发现，《总览》的3 个发展阶段，即建立起步阶段（1992—2000 年）、转型发展阶段（2004—2011 年）、研究深化阶段（2014 年至今），形成了从始于数量统计、探索维度升级到顺应网络时代、挖掘使用数据，再到把控真实影响、深耕精准分析的演进模式。入选核心期刊数量趋于稳定，继承率不断提高。研究认为，在“破五唯”背景下，我国的学术评价在稳步前进，但仍有提升空间。在现行评价指标体系的驱动下，存在核心期刊载文量异常下降、论文学术规范疏于监管、专家认可度界定标准不当、评价标准困于引用、指标统计源不完善五大问题；而就评价结果而言，存在核心期刊规模制约发展、榜单更迭不显著两大困境。基于此，展望变革趋势：一方面，以质量与贡献为导向健全评价指标体系。深化质与量的评价标准，关注学术规范性是持续产出高质量论文和建设高水平期刊的保障机制，及时更替“过气”指标，立足实情完善多元评价，促进“自下而上”与“自上而下”评价路径的融合。另一方面，产出与时俱进的评价结果，提高评价效用。管理和决策依赖于具有层次性的评价结果，完善可持续、规模化的评选机制，瞄准原则不断吐故纳新，持续探索具有中国特色的本土化方案，努力创造良性学术生态。

现阶段，学术评价的范围应更加广泛、建设应更加深刻，这对评价主体提出了更高的要求，也为我国科研管理与科技发展提供了机遇。秉持前沿视野，旨在创新评价内容、加强评价规范、保障评价效用、为“学术评价要转向何方”之问寻求理性方案。学术评价任重而道远，我们仍需继续开展更为深入的研究。