同行评审的人工智能应用:现状与挑战
2020-11-09刘银娣
刘银娣
[摘 要] 同行评审(Peer Review)是国际上科技期刊稿件评审的基本制度。科技出版商已经使用一些早期人工智能(Artificial Intelligence,AI)技术来增强和自动化同行评审中涉及的任务,包括同行评审行政管理环节的编辑管理系统、专家同行评审过程的论文和评审专家分析和匹配以及数据核查和验证环节的人工智能应用。人工智能既可能解决同行评审系统中出现的问题,也面临科技出版价值判断的伦理困境、数据开放和可靠性以及科技出版产业集中度进一步提高的挑战。
[关键词] 同行评审 人工智能应用 智能评审 科技出版
[中图分类号] G237[文献标识码] A[文章编号] 1009-5853 (2020) 05-0068-06
[Abstract] The Peer Review is the basic system for reviewing manuscripts in academic journals internationally. Science, Technology and Medicine(STM)publishers have used some of the early Artificial Intelligence(AI)technologies to enhance and automate the tasks involved in peer review, including editorial management systems for peer review administration, peer review process papers and review expert analysis and matching, and data verification and validation Artificial Intelligence application in syndrome links. Artificial Intelligence may not only solve the problems in peer review system, but also face the ethical dilemma of value judgment, data openness and reliability, and the challenge of further improving the concentration of STM publishing industry.
[Key words] Peer Review Artificial Intelligence application Intelligent review STM publishing
同行评审(Peer Review)是国际上科技期刊稿件评审的基本制度。辛巴信息(Simba Information)统计数据显示,每年有超过250万篇的科学文章发表在28000余种英文科技期刊上,年增长率接近5%,这还只是成功发表的论文,事实上科技期刊审查的论文是发表论文数量的两倍以上,每一篇发表的文章,曾经无数次被彻底拒绝,或被退回到作者的修改细化之中[1]。数量相对较少和固定的学者要审核数量如此庞大的学术论文,这必然会造成同行评审效率的低下和不必要的延迟发表。一方面,同行评审增加了学术期刊出版成本,降低了科技出版生产效率[2]。另一方面,同行评审过程中,个人偏见往往无法避免。审稿人可能对来自竞争实验室或反对者的稿件更加挑剔,对来自其朋友、潜在的未来合作者或研究资助部门的稿件则有所偏袒。因此,近年来,科技出版商已经使用一些早期的人工智能(Artificial Intelligence,AI)技术来增强和自动化同行评审中涉及的任务,以提高科技出版运营速度和效率,消除人类偏见。当然,任何一项新技术的应用,总会有其拥簇者和反对者,人工智能也不例外。虽然这些技术对于科技出版商和研究人员来说显示出巨大的潜力,然而,在同行评审这一传统上以“人”为主导的领域,人工智能可以取代人类执行的哪些功能?我们是否能够相信人工智能對新的研究成果的评估?完全自动化的同行评审是否可行?尽管多项科技出版产业和研究报告都对人工智能的同行评审应用未来言之凿凿,我们却仍然需要对其应用现状进行全面的分析,并在深刻了解同行评审功能和流程的基础上,审慎应对。
1 同行评审的含义、功能与面临的问题
1.1 同行评审的含义
同行评审是国际上科技期刊稿件评审的基本制度。从1665年法国皇家科学院出版的《学者杂志》(Le Journal des Savants)和英国皇家科学院出版的《哲学学报》(Philosophical Transactions)算起,学术期刊的同行评审已有300多年历史。时至今日,同行评审业已成为国际上学术期刊稿件评审与质量控制的一种基本制度规范[3]。广义的同行评审一般可定义为某领域的学者或专家在特定时间段对所涉及领域的知识产品进行客观评价的过程。狭义的同行评审侧重于指学术期刊论文的外审评议活动[4]。本文采用狭义定义。在一篇论文发表之前,期刊编辑需要根据论文的研究领域,为其甄选出有能力审核该论文的专家、学者。这个评审过程因期刊而异,但通常由两位到三位评审者组成,并将评审意见报告给编辑,编辑根据同行评审专家的意见做出是否发表该论文的最终决定。据统计,所有科技期刊的稿件平均接受率约为50%,质量越高的期刊稿件接受率越低,其中科学引文索引(Science Citation Index,简称SCI)一区收录的期刊稿件接受率仅为10%—30% [5]。
1.2 同行评审的功能
同行评审制度的理念是通过“第三方”评审来确保公平性,旨在为学术共同体提供一种制度化的、针对研究工作及成果的、自我约束的管理手段[6]。对于科学交流,特别是对科技期刊而言至关重要。同行评审是期刊甄选优秀科技成果、维护和提高学术质量的重要途径之一。这一制度有助于筛选出最有价值的研究,并提高已发表论文的质量。
尽管同行评审存在一些缺陷,但是多项调查显示,学者仍然坚定地支持这项制度,例如在出版研究联盟2008年的一项调查中,93%的学者不同意“同行评审是不必要的” [7],姆尼根(Mulligan)等学者比较1993年和2005年的调查结果发现研究人员对同行评审的核心态度几乎没有变化:它仍然受到高度重视,很大一部分仍然承诺愿意进行和接受同行评审[8]。赛博研究(CIBER Research)2012年调查了学者们支持同行评审的原因,主要包括以下方面。
(1)提供信任的核心支柱。研究人员(特别是年轻学者)愿意使用非同行评审的材料,但不太可能引用他们:经过同行评审的内容被看作是一项更为正式和权威的学术活动成果,因此,学者们更愿意信任经过同行评审的内容并引用它们。
(2)科学研究信息过滤。研究人员将同行评审视为科学研究信息的基础过滤器。对于专业研究人员来说,这种过滤将可信的同行评审科学成果与非同行评审材料区分开来,并以感知质量对期刊进行分级,将更好的文章发送给更好的期刊,对作为读者和作者的研究人员都有利。
(3)提高并保证发表论文的质量。相信同行评审会提高发表论文的质量也是研究人员支持同行评审的重要原因之一。在尼古拉斯(Nicholas)的调查中,大多数研究人员(约90%)表示,同行评审专家意见改进了自己最近发表的论文质量,尽管这个信念在不同的研究领域略有不同[9]。
1.3 同行评审面临的问题
同行评审当然不是没有批评者,事实上关于同行评审的缺陷和改进建议一直是学术出版研究的热点。主要的批评来自它是无效的、不可靠的;不善于发现错误,尤其是单盲形式的同行评审;缺乏对审稿人不当行为的监督和管理;速度缓慢,效率低下,不必要地延迟发表等[10]。改进措施建议包括既可以提高评审的公平性,又可以提高评审质量的开放同行评审;旨在提高效率并加速发布的级联评审;以及“发布然后过滤”模式的出版后评审。目前,为了解决这些问题,科技出版商开始求助人工智能技术,开启新的同行评审模式实验。
2 人工智能在同行评审环节的应用
2.1 同行评审行政管理环节的人工智能应用
尽管同行评审通常是由志愿研究者无偿进行的,但是出版商需要员工来管理评审过程。剑桥经济政策协会2008年“研究信息网络”(Research Information Network,RIN)报告最早研究了期刊出版过程所涉及的费用,包括图书馆获取采购资金的成本、同行评审、学者搜索以及阅读文章的成本,其后,2011年,进一步更新了这个数据,核算出期刊同行评审的人员和管理的平均成本为666英镑,不同级别和学科领域的期刊同行评审的行政管理成本也大不相同,但是总体而言,一般的科学出版机构,其发表一篇论文的同行评审成本约为400英镑到1000英镑,而拒绝一篇论文的更是需要比接受一篇论文付出更高的间接成本[11]。对期刊出版成本的理解不仅对出版商来说很重要,对于更广泛的学术团体来说也是重要的。因为期刊出版的高成本必然会带来期刊销售的高价格,从而引发“期刊危机”(Journal Crisis)。因此,不论是学术出版商,还是学术团体,越来越倾向于依靠自动化的编辑管理系统,加速稿件从提交到审查到出版的行政管理速度,以节省科学文献出版的时间和金钱。
全球最大的学术出版商之一爱思唯尔(Elsevier)就创建了这样的一个基于人工智能的编辑管理系统“艾维斯”(EVISE)来取代过时的爱思唯尔编辑系统,以更好地支持编辑过程,加快处理稿件的速度。“艾维斯”将手稿与剽窃检查软件联系起来,由编辑依据剽窃核查数据直接拒绝那些存在剽窃问题的稿件,避免这些稿件进入同行评审过程。其后,“艾维斯”根据内容建议该文章最适合的评审者,并与其他项目沟通,核查评审人员的状况、科学表现和利益冲突。选择同行评审人员之后,“艾维斯”自动准备有关各方之间的通信,向审阅者提供提示,如果没有回复则删除,并邀请备用审阅者。最后,“艾维斯”向作者发送决定信,并发送感谢信给审稿人。这个过程大大减少了人类编辑的干预和管理,提高了同行评审行政管理过程的效率。
2.2 专家同行评审过程的人工智能应用
选择审稿人是同行评审最耗时的工作之一。例如爱思唯尔旗下共有2500多种学术期刊,其必须为提交期刊的每一份稿件选择最适合的审稿人。其中,2015年,共有70万名同行评审专家对提交到爱思唯尔期刊的180万份稿件进行了审查,最终仅发表40万份稿件[12]。能够审查稿件的人数通常局限于该领域的专家。各个专业领域获得博士学位的人的比例本就不高,而且随着学科领域的进一步细化,还要不断地将专家分别归类到各个学科和分支学科,因此,最终有资格审查某一份稿件的专家数量是有限的。
从理论上说,只要有全面的专家信息数据库可用,人工智能是有能力在对数据库信息进行全面审查的情况下为每一份稿件寻找到最合适的评审者的。因此,智能化同行评审的第一步是建立全面的评审专家数据库。爱思唯尔、施普林格-自然出版集团(Springer-Nature)早就开始了同行评审专家数据库的建设,爱思唯尔的“艾维斯”还与当今世界最大的文摘和引文数据库斯高帕斯(Scopus)合作,以帮助“艾维斯”更加全面地审查评审者的概况,科学表现和利益冲突,为每一篇稿件自动化分配更为合适的审稿人。布里斯托尔大学(The University of Bristol)智能系统实验室的西蒙·布莱斯(Simon Price)博士和皮特·弗莱奇(Peter Flach)教授开发了用来分析和匹配论文潜在审稿人的系统“提交筛选”(SubSift)。该系统将多个论文提交筛选网络服务组合成一个由向导式用户界面驱动的工作流程,用于分析和匹配论文的潜在同行评审人,并建立作者和潜在的同行评审人双向选择的用户界面。通过一系列自动化工具,组建同行评审小组,由同行評审专家对作者和论文的主题进行审查,基于论文是否对科学发现做出重大贡献,论文的主张是否可核实等标准对论文进行评分,并将评论者评分汇总,以自动发出退稿、修改或录用决定[13]。论文和评审专家分析和匹配是可以用基于特征的表示方法来解决的关键任务,这是机器学习中最常见的一种应用,也是人工智能同行评审应用研究中增长最快的领域之一。
2.3 數据核查和验证环节的人工智能应用
同行评审的另一个不足是,许多类型的研究不能被审稿人验证。对于某些理论学科而言,例如数学等,内容相对独立,审稿人可以通过阅读论文来检查论文的准确性,而不需要审查已发表的文献以外的证据,但是这在实验科学领域则是不可能的。例如临床试验和计算机系统等,存在大量的统计数据和实验数据造假,由于评审者无法重复实验,其只能审查研究是否看起来做得很好。近年来,因为数据造假而被撤回的论文从2000年初期的每年约30人上升到2011年的400多人,即使考虑在此期间发表的论文数量增长了44%,被撤回论文的增长比率也是非常惊人的[14]。因此除了行政管理和评审专家匹配外,人工智能还被用于统计数据核查和实验数据验证。
施普林格-自然出版集团就在研发一套名为“统计核查”(Stat Reviewer)的系统,检查论文的完整度和数据的准确性。该系统可以识别和分析研究的组成部分,生成分析报告,标识以不正确的方式处理统计数据的情况以及未遵循指导方法的情况。该系统目前还处于测试阶段,出版商生物医学中心(BioMed Central)对该项目感兴趣,并且自2014年以来一直参与其发展。从2016年秋季开始,生物医学中心一直领导一项旨在调查自动化对研究进行统计和方法学审查的可能性的实验。该实验包括4个期刊:《试验》(Trials), 《重症监护》(Critical Care), 《BMC医学》(BMC Medicine),以及《关节炎研究与治疗》(Arthritis Research & Therapy)。在这4种期刊中,同时采用“统计核查”系统和常规工作方法,以衡量“统计核查”与正常同行评审相比检测到的方法和统计错误的多少,目前尚未发布对照研究结果[15]。
3 同行评审环节人工智能应用的挑战
尽管近年来,多项关于科技出版的报告都将同行评审列为未来科技出版领域最重要的趋势之一,多项科技出版产业和研究会议也将人工智能在同行评审领域的应用作为重要议题。然而,事实上,人工智能既可能解决同行评审系统中出现的问题,也可能给这个过程带来新的挑战。
首先,智能化的同行评审过程,使得“好科学”的价值判断存在风险,可能给科学出版带来伦理困境。尽管人工智能在同行评审过程中的应用将加快科学交流,消除人类偏见。但是,如前所述,同行评审的重要功能在于提供信任、过滤科学研究信息以及保证发表论文的质量。科学家会信任由智能机器人评审的学术期刊和文献吗?智能同行评审在加速科学出版速度的同时会不会造成科学研究文献的进一步泛滥,进而失去科学出版的过滤功能?科学研究文献质量的判断标准是什么?仅仅是统计数据和方法的正确吗?这只是科学研究文献发表的基本要求。创新程度、重要性以及对该研究领域的潜在影响是更为重要的质量判断标准。而要对此做出判断,智能评审不仅要读懂一篇论文,它还需要有超越文章本身的思考能力。也就是说,智能评审不仅要了解这篇文章研究了什么,更需要明白这个研究在这个领域究竟有什么突破,而突破常常是不可预见的,不具有一般规律的。因此,我们很难对智能评审有效识别颠覆性的突破研究持乐观态度。
其次,数据的开放性和可靠性是智能评审面临的另一个挑战。人工智能算法的有效性基于其对海量科学研究文献的学习。人工智能获取和学习到的科学研究数据越多,算法就越准确,自动化决策能力就越强。然而,大量的科学文献,尤其是各个领域最有声望的研究成果都是被各大科技出版商锁定在其收费壁垒之内的,人工智能无法得到充分学习,其有效性也必然大打折扣。除此之外,所有需要的数据都来自于先前发表的研究。如果以前的研究数据错误怎么办?判断错误的责任谁来负责?
最后,智能评审可能进一步提高科技出版产业的集中度,不利于中小科技出版商的生存和发展。商业出版集团在科技出版中所占的份额越来越大,前五名的科技出版商施普林格-自然出版集团、爱思唯尔、泰勒&弗朗西斯(Taylor&Francis)、威利(Wiley)和塞奇(Sage),2013年出版的英文论文占全球全年出版的英文论文的50%以上[16]。近年来,这个比例还在逐渐增长。一方面,如前所述,智能评审系统效能的提高离不开海量的科学研究文献和数据;另一方面,智能评审的发展还离不开庞大的资金和技术支持。无论哪个方面,大型商业出版机构明显比中小型科技出版商有着更大的优势。因此,智能评审的发展可能造成科技出版产业集中度的进一步提高,不利于中小科技出版商的生存和发展,也不利于学术交流。
4 结 语
人工智能将极大地减少人类编辑大部分工作,例如选择审稿人和判断是否出版稿件等投入的时间,人工智能可以成为同行评审的有力助手。然而,在人工智能大规模应用于同行评审之前,出版商、人类编辑和研究者需要将人工智能的应用置于科技出版的规则之内,明确人工智能必须取代人类哪些工作,可能做哪些工作,不可以做哪些工作。 在科技出版领域内,智能评审需要遵守的规则与人类编辑并没有什么不同。简而言之,人工智能是一个由集体人类智慧建立的独特而丰富的高效智能系统,人工智能最终无法接近人类的能力,科学出版仍然需要人类编辑和审稿人,只是他们会在更高的层次上工作。人工智能可以作为同行评审的支持,而人类则需要教导其评审规则。
注 释
[1] Simba Information. Global Scientific & Technical Publishing 2017-2021[OL].[2018-03-25]. https://www.businesswire.com/news/home/20171120005455/en/Global-Scientific-Technical-Publishing-Industry-Report-2017-2021
[2] Lucia Vesnic-Alujevic. Peer Review and Scientific Publishing in Times of Web 2.0[J]. Pub Res Q ,2014,30(3):39-49
[3] 方卿.中國学术期刊同行评审的实践与研究[J].图书情报知识,2007,120(7):89-92
[4] 刘军,曾令烽,曹烨,等. 科技期刊论文同行评议中伦理学风险控制与优化要点[J]. 中国科技期刊研究,2017,28( 5): 407-412
[5] Mark Ware,Michael Mabe.The STM Report:An overview of scientific and scholarly journal publishing(2015)[OL]. [2018-03-25]. https : //www.stm-assoc.org / 2015_02_20_STM_Report_2015.pdf
[6] 徐书令,房威. 学术论文同行评审: 过去·现状·未来[J].编辑学报,2016,28(6):535-538
[7] Publishing Research Consortium Ware, M. (2008). Peer review: Benefits, perceptions and alternatives[OL]. [2018-03-28]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.214.9676&rep=rep1&type=pdf
[8] Mulligan, A., & Mabe, M. (2011). The effect of the internet on researcher motivations,behaviour and attitudes[J]. Journal of Documentation,2011,67(4):290-311
[9] CIBER Research. PEER usage study: Randomised controlled trial results(2012b)[OL]. [2018-04-10]http://www.peerproject.eu/reports
[10] Ware, M. Peer review: Recent experience and future directions[J]. New Review of Information Networking,2011,16(1),23–53
[11] RIN. Access to scholarly content: Gaps and barriers(2011a)[OL]. [2018-04-10]. http://www.rin.ac.uk/system/files/attachments/gaps_final_report_low_res.pdf
[12] RELX Group . RELX Group Annual Reports and Financial Statements 2017[OL]. [2018-05-20]. https://www.relx.com/~/media/Files/R/RELX-Group/documents/reports/annual-reports/relx2017-annual-report. pdf
[13] University of Bristol.Scientists look to AI for help in peer review[OL].[2018-02-27]. https://techxplore.com/news/2017-03-scientists-ai-peer.html
[14] Van Noorden, R.. Science publishing: The trouble with retractions[J]. Nature,2011,478(10):26-28
[15] Svenska.Artificial Intelligence supports peer review[OL].[2018-05-01].https://www.tidningencurie.se/en/nyheter/2017/02/09/artificial-intelligence-supports-peer-review/.
[16] Mark Ware,Michael Mabe.The STM Report:An overview of scientific and scholarly journal publishing(2015)[OL]. [2018-03-25]. https://www.stm-assoc.org/2015_02_20_STM_Report_2015.pdf.
(收稿日期:2018-10-17;返修日期:2020-08-10)