论文作坊的特点与甄别方法
2022-10-11王佳静王蒲生
■王佳静 王蒲生
1)清华大学医院管理研究院,广东省深圳市南山区清华大学 518055 2)清华大学深圳国际研究生院,广东省深圳市南山区清华大学 518055
论文作坊(Paper Mill,亦有学者译为“论文工厂”)是指以商业买卖形式向学术界提供论文相关服务的除“作者”和期刊以外的第三方非法组织。论文作坊的买卖双方通常不直接见面,卖家借由网络等渠道向顾客提供伪造实验数据、代写论文、以润色为名修改实质内容、代投论文等服务。一些论文作坊隐匿在写字楼的格子间里,规模或大或小,少则几人,多则上百人。论文作坊最早于20世纪中叶出现在美国[1]。起初论文作坊主要提供代写学期论文(Term Papers)服务[1-2],其后形式不断变异,逐渐衍生出代写期刊论文、学位论文、基金项目申请书及结项报告等服务。
论文作坊的危害极大。不同于以往个人与个人之间小范围内违反学术道德的行径,论文作坊采用的是批量生产论文的商业模式,并且大多同时涉及抄袭剽窃、数据造假、不当署名等多种学术不端行为。其情节之严重、影响之恶劣、危害之深远,皆远超通常的学术不端行为。
目前有关论文作坊的学术研究相对较少,论文作坊更多由大众传媒揭露。已有学术研究大多针对“论文代理”“中介机构”“第三方平台”等现象开展研究[3-4],且多为编辑结合所在期刊的实践经验对论文作坊的代写或代投等环节的分析和总结[5-7],所提出的识别特征与防范措施通常为零散的注意要点;也有研究基于稿件基本信息[8]、作者投稿 IP[9]、采编系统登录密码[10]等特定视角识别和防范代写或代投论文。尚无学者对论文作坊作伪的全流程进行系统甄别,且较少对论文作坊涉及的多种不端行为及其危害性进行深入全面的分析。
本文通过对撤稿观察数据库(Retraction Watch Database)2016—2021年因涉嫌论文作坊而被撤稿的论文进行撤稿时间趋势分析和国别对比分析,揭示作坊论文滋蔓的规律;采用案例分析法解析国家自然科学基金委员会、撤稿观察(Retraction Watch)网站公布的多个典型案例,探究论文作坊涉及的学术不端行为及其对学术界造成的危害,进而系统性地提出甄别论文作坊作伪痕迹的有效方法。
1 论文作坊的现状
论文作坊规模生产与批量买卖相结合的商业模式,使得其业务规模迅速扩张,直至席卷全球,接连引发国际学术圈的震动。
1.1 论文作坊的历时变化与国别比较
论文作坊现象近年来有愈演愈烈之势,而中国的论文作坊现象尤其严重。由撤稿观察数据库2016—2021年作坊论文撤稿数量的历时变化和国别比较结果(图1)可知,被撤稿的作坊论文数量激增,且绝大多数来源于中国学者。《肿瘤生物学》(TumorBiology)期刊2017年4月宣布撤稿的2012年至2016年间发表的107篇文章作者来自125家中国机构和4家国外研究机构[11]。由科技部等部门组成的联合工作组调查发现,来自中国作者的撤稿中,至少有12篇系向第三方中介机构购买。《自然》(Nature)新闻专栏2021年3月发表了《打击炮制伪科学的论文作坊》(“The fight against fake-paper factories that churn out sham science”)一文,剑指中国论文作坊及数据造假[12]。文中提及英国皇家化学学会(Royal Society of Chemistry,RSC)出版的期刊在2021年1月撤销的68篇论文作者均来自中国的医院。RSC认为,存在“一个生产‘假’研究的系统”。国家自然科学基金委员会披露,自2015年3月起,英国生物医学中心(BioMed Central,BMC)、斯普林格(Springer)、爱思唯尔(Elsevier)、自然(Nature)等国际著名学术出版集团的4批集中撤稿中共涉及117篇中国学者发表的论文[13],其中23篇得到国家自然科学基金资助。经监督委员会集中调查,上述论文均委托第三方中介机构润色、代投或纯粹系买卖所得,其中有13篇与名为“丰核信息科技有限公司”的第三方中介机构有关。
图1 世界与中国作坊论文撤稿数量的历时变化
1.2 论文作坊的营销伎俩
论文作坊提供的是不正当的服务,其服务模式通常有两种:一是按照论文买家的需求“量身定制”论文;二是直接售卖待发表录用稿的署名权,即“过稿转让”。俄罗斯一家面向全球主营“过稿转让”业务的商业机构利用某些期刊接收拟发表论文后允许修改论文作者的制度漏洞,帮助有论文署名权买卖需求的双方牵线搭桥,从中赚取中介费用[14]。该公司官网显示,只需要花费32200卢布(约合人民币3500元),购买者即可在即将发表或已发表的论文上署名。论文作坊所提供的论文生产服务已形成“论文代写-代发表-代引用”的产业链条,产业链的上游是专门从事论文代写服务的职业“枪手”,下游则是接收这些代写论文的“可操作期刊”。除此之外,部分论文作坊创新经营模式,以投放广告为主营业务,免费为买家提供论文;或采用“以文换文”的运营方式,即提交一篇自行撰写的论文,便可免费获得一篇所需论文[15]。
论文作坊的营销目前多采用线上渠道,互联网的兴起为其业务扩张提供了便利条件,论文作坊可借助各大互联网平台寻找潜在的买家。一些论文作坊假冒期刊网站发布广告,或将广告植入学术信息的官方发布网站,极具迷惑性。还有一些论文作坊通过社交媒体发布论文交易广告,广告中常包括“国家级”“知网收录”“见刊快”等词汇。
2 论文作坊的学术不端行为
论文作坊是滋生学术不端行为的渊薮,其生产论文的过程涉及抄袭剽窃、数据造假、图片重复使用、大规模同行评议造假、不当署名、基金标注不实、一稿多投和重复发表等,形形色色、花样翻新,为害甚烈。
2.1 抄袭剽窃
作坊论文的质量良莠不齐。部分“良心商家”为买家提供勉强合格的论文,但还有数量可观的“黑心商家”采用抄袭、剽窃等方式贩卖质量低劣的论文。论文作坊常雇佣“枪手”代写论文,这些写手的专业程度和学术能力参差不齐,其中大部分难以独立完成一篇合格的论文。因此,许多写手为了节省时间完成任务,常采用抄袭、剽窃等方式改写或照搬他人的文章。湖南某高校资源环境学院学生杨某通过论文作坊代写代投的文章便是因为与华北某大学檀某等已发表的论文重复率较高,被期刊察觉后撤稿[16]。抄袭剽窃是论文作坊中最常见的学术不端行为,同时也是作坊论文被发现和被揭露的主要原因之一。
论文作坊抄袭剽窃的手段近年来不断更新,洗稿便是一种新型剽窃方式,即通过语言转换、同义词改写、句子结构变换等手段,只对他人的稿件进行语言文字上的修改而对论文内容不做实质性改动的抄袭方法。“洗稿”一词以前常用于新闻媒体行业,后来逐渐演化引申到学术期刊领域,成为隐蔽的抄袭剽窃形式。传统大篇幅或段落的抄袭方式因期刊编辑部对论文查重系统的普遍使用而趋于减少,论文作坊为逃避论文查重系统的审查、提高录用率,不断更新抄袭剽窃的手段。洗稿的目的本就是逃避论文查重系统的审查,因此这种二次加工论文的造假手段在认定上具有一定的难度,目前仅能依靠编辑人工识别。许多论文作坊正是利用洗稿难以被发现的技术漏洞,大肆宣传可提供“不涉及抄袭,包过查重系统”的服务。此外,还有一些人工智能软件可以进行洗稿。人工智能通过对输入语料库的深度学习可以完成一篇“高仿论文”,甚至能达到“以假乱真”的地步。麻省理工学院计算机科学与人工智能专业的三位研究生于2005年开发了一款能自动生成计算机科学方向学术论文的网页程序SCIgen。SCIgen通过“学习”一定数量的学术论文后,能自动生成一篇满足SCI收录论文结构形式要求的学术论文,包括标题、摘要、关键词、参考文献、图片、表格和流程图等,但是内容不具有学术价值。2012年,计算机科学家Cyril Labbé在美国电气和电子工程师协会(Institute of Electrical and Electronics Engineers,IEEE)举办的会议上和Springer期刊发表的论文中分别发现85篇和120多篇由SCIgen自动生成的劣质论文[17]。目前,仍然有人使用该程序撰写论文并被期刊接收。有专家估计,计算机科学领域的所有论文中,每100万篇论文中约有75篇是由SCIgen生成的[18]。
2.2 数据造假,图片重复使用
修饰篡改数据和重复使用图片是论文作坊在论文内容方面造假的另一常用手段。科学论文的实验结果通常采用实验数据和实验图片的形式展示,同时,数据和图片也是发表论文的核心成果和论文创新性的主要表现。由于许多论文作坊缺乏完成论文所需的实验条件和资质,因此他们经常擅自套用并修饰篡改他人的实验数据,甚至直接凭空捏造数据;至于实验图片,则采用直接复制已发表论文的图片或胡乱堆砌经Photoshop软件处理后的实验图片。著名论文打假专家Elisabeth Bik在2020年5月揭露了发表在《欧洲医学药理学评论》(EuropeanReviewforMedicalandPharmacologicalSciences,ERMPS)的疑似来自同一论文作坊的121篇论文[19],其中8篇来自不同单位的不同作者研究不同肿瘤类型的论文竟然有着相同的结果:Kaplan-Meier曲线、线形图和蛋白免疫印迹(Western Blot,WB)结果完全一致,甚至连病人的数据也一模一样。Elisabeth Bik推测,这些图片均来自同一个收藏有百余幅图片的图像库。现代科学技术的基石在于实验及其可重复性,而这些试图通过修饰数据和美化图片编造实验结果的论文扰人视听、混淆真相,与科学传播的初衷相去甚远。更让人唏嘘的是,这些以假乱真的论文极有可能会误导缺乏经验的年轻学者,完全违背了现代科学精神。
2.3 大规模同行评议造假
同行评议造假是论文作坊弄虚作假的一种方式。论文作坊自知生产的论文学术质量低劣,便想方设法通过其他方式来提高论文的录用率。论文作坊通常利用论文作者可以推荐审稿专家的制度漏洞,伪造同行评议审稿人的邮箱,并将自行撰写的虚假审稿意见通过该邮箱发送至期刊编辑部。例如,广东某大学的周某通过论文作坊购买论文后,使用论文作坊为其伪造的同行评议专家邮箱提交虚假的论文审查意见,并以第一作者或通信作者的身份在JournaloftheRenin-Angiotensin-AldosteroneSystem(JRAAS)期刊上发表数篇论文[20]。这些虚假的审稿意见看似内容详实且篇幅较长,甚至给出一些似是而非的学术意见,造假手段极为隐蔽,期刊编辑若不审查审稿专家邮箱的真实性或第一次遇见类似的审稿意见,往往难以察觉其中的猫腻。不过,当论文作坊大规模作案时,通过对比多篇审稿意见就可以发现虚假审稿意见的套路和模板;通过追踪某一个虚假邮箱,也可以顺藤摸瓜找到其他相关的造假邮箱。
此外,有些期刊编辑也参与到同行评议造假的过程中。部分编辑利令智昏,与论文作坊共谋,向论文作坊予以便利以获取收入分成。大规模同行评议造假从一定层面上反映出部分期刊编辑的不作为。期刊编辑没有尽到学术期刊质量“守门人”的责任,相当于为论文作坊的投稿敞开了大门,学术论文中充斥着作坊论文也就不足为奇了。
2.4 不当署名
论文作坊为提高论文的录用率,常常在论文署名上做手脚。根据2019年颁布的行业标准《学术出版规范——期刊学术不端行为界定》,作坊论文常见的署名不当主要表现为两种形式,包括对论文所涉及的研究有实质性贡献的人未在论文中署名,以及未经他人同意擅自将其列入作者名单。例如,在他人不知情的情况下擅自将该领域的知名专家学者列为论文作者或通信作者,湖南某大学的唐某2015年在AppliedMicrobiologyandBiotechnology期刊上发表的一篇论文便是如此。唐某从论文作坊处购买一篇抄袭他人研究成果的论文后,擅自标注他人科学基金项目申请号,并将不知情的专家列为论文作者或通信作者[21-22]。此外,在过稿转让的实际案例中,论文作坊还常采用在论文通过评审后要求期刊修改或增加作者署名的方式出售论文署名权。
2.5 基金标注不实
虚假标注科学基金是论文作坊造假的惯用伎俩。由于基金项目资助的研究通常会经历较为严格的审查程序,且代表了该学科领域的研究前沿,标注基金可视为对论文质量的一种认可和背书。相应地,学术期刊更青睐于标注国家级或省级基金项目的论文。此外,由于“基金论文比”是非常重要的期刊评价指标之一,许多期刊甚至会给基金论文开辟绿色通道,减少审稿环节或缩短审稿时间[23]。因此,论文买家或论文作坊常常会虚假标注基金以提高论文录用率。基金标注不实的常见表现形式有无中生有、挂名发表、利用出版时滞延迟添加、项目结题仍挂基金、研究内容与基金内容不符、罗列多项基金等[24]。论文作坊通常涉及前两种形式,即擅自标注他人获资助的基金项目或者直接编造不存在的基金项目且套用他人基金号。例如,哈尔滨某大学的王某通过网络联系委托论文作坊代写代发论文,并利用擅自标注他人基金项目申请号和一稿两发的手段提高论文录用率[25]。
2.6 一稿多投,重复发表
为提高论文的录用概率,论文作坊还常采用一稿多投的策略。毫无疑问,这种“广撒网”的方式能够降低论文被拒的风险并减少论文从投稿到被接收的时间周期。如果某一期刊同意接收论文,论文作坊便通知其他期刊编辑撤回论文,不再发表。此外,还有部分作者为增加发表文章的数量,会将自己已发表的中文论文翻译成英文后投到英文期刊,或者将已发表的英文论文译成中文再次发表。
3 论文作坊的危害
论文作坊对科研系统存在着诸多危害,包括损害科学的独创性,割裂署名的权责关系,造成审稿和撤稿环节时间成本和经济成本激增,甚至对某个区域的学术声誉造成整体性损害。
3.1 损害科学的独创性
论文作坊生产论文的过程严重损害了独创性这一科学的最高价值[26]。论文作坊不以产生新知识为目标,而仅以论文发表为目的的论文生产行为,严重破坏了科学研究活动的传统伦理规范。自论文作坊处购买虚假数据或图表的所谓“论文作者”并未真正开展研究,无实验做支撑却能成功发表论文,并假借为科学共同体增进“新知识”而获益。现代科学制度强调科学的公有性,“承认和尊重是科学家对自己的发现的唯一财产权”[26]。如果让此类违反独创性的科学研究获得承认和奖励,将违背科学规范所认同的价值观,严重损害科学规范的道德有效性。
3.2 割裂署名的权责关系
署名不仅是作者对于科研成果享有的权利,更是责任和信誉的体现。因此,署名的作者需对文章的真实性、准确性等承担相应的责任。而论文作坊的买卖双方对此全然不顾,未对文章作出实际贡献的论文购买者享有署名权,论文的实际写作者却无人知晓。然而一旦被质疑存在学术不端行为时,这些冒名顶替的购买者往往将责任推卸给论文作坊的生产者,以外包实验室提供了偏倚的数据为由逃避责任。凭借着这些虚假的“高级定制”论文,作者的声誉、知名度不断提升,所获得的研究经费、薪酬、津贴(如出席国际会议的差旅费)都可能会增加。作坊论文一旦被引,作者论文的被引频次将上升,这不仅会提高作者个人的学术指数,也能提高期刊的JCR影响因子和CiteScore等评价指标。期刊的影响力得以提高,就职于这些期刊的编辑的社会地位和声望也会水涨船高。作坊论文看似让出版系统的各个主体都获益,实则严重损害了学者和期刊的科研诚信、学术形象和学术声誉[27]。
3.3 增加时间成本和经济成本
论文作坊快速生产的大量弄虚作假的产品,大大增加了编辑审稿所花费的时间成本和经济成本。日益隐蔽的论文作坊作伪手段给期刊编辑的识别工作增加了难度。并且当发现学术不端的迹象后,对存疑论文进行调查的过程也需要消耗大量的人力、物力和财力。更严重的影响存在于论文自发表至撤销这一时段。许多学者的研究表明,从稿件发表到发现问题、撤销稿件的过程具有时滞性,期刊审查并撤回造假论文的过程比一轮投稿审查更加耗时[28]。有研究发现,Web of Science(WoS)数据库平均撤稿时滞为2.02~4.96年[29],Scopus数据库中最长的撤稿时滞甚至达到26年[30],且被引频次越高,撤稿时滞越长,净化时间成本越高[31]。
3.4 重创区域和机构的学术声誉
学术造假行为会严重影响事发地学者群体的学术信誉,导致国际学者不信任该区域学者的研究成果,从而减少甚至规避对该区域论文的引用。《分子治疗》(MolecularTherapy)期刊于2021年2月发表社论:“‘垃圾科学’的数量不断增加,将对来自事发地区其他研究的可信度造成破坏,期刊界会越来越多地对来自该地区的科学研究产生怀疑。”[32]《欧洲药理学》(EuropeanJournalofPharmacology)期刊主编弗兰克·雷德格尔德(Frank Redegeld)也曾表示:“中国的论文作坊频生正在削弱我们对来自中国学者的其他论文的信心。”[12]
论文作坊的造假行为对学术期刊同样危害巨大。学术期刊有其长期合作的论文审稿人,质量低劣的作坊论文会增加审稿人的工作量,长此以往会耗尽可信赖的审稿人资源,使得编辑只能选用作者提供的虚假审稿人,从而使得虚假论文“成功”发表,进而影响期刊的声誉。
4 论文作坊作伪的甄别方法
但凡造假,必留痕迹。作坊论文从写作、投稿到撤稿环节,都存在诸多异常之处。在写稿环节,作坊论文的数据来源异常,修图痕迹明显;内容质量粗劣,专业素养缺失。在投稿过程中操作混乱,代投痕迹显然。当面对学术不端质疑和撤稿问询时,作者往往选择消极推诿而非积极申诉;邮件交流中英文表达不畅,回复内容空洞浮泛。这些作伪痕迹都能够帮助期刊编辑和评审专家甄别伪劣的作坊论文。
4.1 写稿环节
数据来源异常,修图痕迹明显。买家委托论文作坊代为收集数据,但在论文的正文及附注中均未披露数据获取的途径,或谎称研究数据由本人亲自收集;当察觉外包的数据存在偏误时,部分买家虽在研究局限性中对此有所披露,但会将其归责于外包公司,且并不写明数据存在的具体问题和外包公司的基本信息;图片存在严重的修饰或美化痕迹,甚至同一图片重复出现在完全不相关的论文中,有从“图片库”中任意拼接而成之嫌[33]。
内容质量粗劣,专业素养缺失。作坊论文的写手未受过特定领域的学术训练,缺乏学科专业素养和文献知识储备,对核心专业词汇往往使用不当,所写文章不符合学科的学术写作要求;作坊论文会使用所属学科模板进行规模化制作,因此会出现相近领域的数篇论文在文本结构、研究假设和实验方法等方面均具有高度相似性的现象;论文实质内容与其所宣称的贡献极不相称,过分夸大论文的研究成就;论文内容与所投期刊的办刊宗旨严重不符;引用的参考文献与论文内容相关性较低,甚至风马牛不相及。
4.2 投稿环节
投稿操作混乱,代投迹象难掩。在注册阶段,投稿者的注册信息不完整,绑定的邮箱为商业邮箱而非学术邮箱[33];在投稿阶段,投稿者并非作者本人;从注册到投稿之间的时间跨度过短[6];投稿者通过在不同的时间和地点发送邮件,试图掩盖其真实位置所在[33];投稿者登录投稿系统次数较少,与其他投稿者随时关注稿件处理进程的情况明显不同;多篇投稿的IP地址相同[9];同一作者一次性投多篇稿件,这些稿件甚至并非来自同一专业领域等。作坊论文的目标期刊也具有一些共性,大多是以收取版面费为主要资金来源的非核心期刊,审稿时间短、载文量大,且刊发的论文质量不高,抄袭剽窃现象严重。此外,这些学术期刊与论文作坊之间常常保持着“良好”的合作关系,可有偿缩短审稿时间,提高稿件录用概率[34-35]。
4.3 撤稿环节
消极回应质疑,屡屡推诿塞责。作者在被质疑学术不端、被要求提供原始数据时,常常抱有侥幸心理,编造诸如新冠肺炎疫情造成数据丢失或无法访问,孩子将咖啡洒到计算机上致使数据无法访问等荒谬理由搪塞编辑部[33],拒不提供原始数据。如若编辑部反复追问或开展正式调查,作者发现搪塞不成,一般会在几小时之内迅速同意撤稿,但并不公开承认自己的造假行为。部分作者即使公开承认数据存在瑕疵,通常也不会说明数据存在的具体问题,而是采用各种手段推诿塞责,如宣称有问题的数据皆由自己的研究生或博士后所生产,并且数据生产者已遭惩罚,但未见任何关于该惩罚的官方通告。还有的作者采取迁延或逃避的策略,回复有关撤稿事宜的邮件速度极慢,有时长达6个月,甚至不予回复,这些作者对论文是否发表的关心远高于对于论文撤稿的回应[33]。
英文表达不畅,回复内容空洞。电子邮件的英文表达水平较之论文写作差距过大;作者在与编辑部有关涉嫌学术不端的邮件交流中,回避关于学术不端行为的讨论,答复内容空洞;有时甚至会出现论文的所有作者在几乎相同的时间回复编辑的情况,且邮件回复口吻一致,内容高度相似。
5 结语
通过对撤稿观察数据库中因涉嫌论文作坊而被撤稿的论文进行撤稿时间趋势分析和国别对比分析,发现近年来被撤稿的作坊论文数量激增,且绝大多数来源于中国学者。在对国家自然科学基金委员会、撤稿观察网站公布的多个典型案例的剖析后发现,近年来由论文作坊引起的国际期刊集体撤稿事件频发。论文作坊常通过抄袭剽窃、数据造假、不当署名等手段作伪,形式隐蔽、为害匪浅。基于上述分析,提出在写稿、投稿和撤稿环节中甄别论文作坊作伪痕迹的方法。
本研究仅基于国家自然科学基金委员会和撤稿观察数据库对论文作坊的现状、涉及的学术不端行为、危害与甄别方法进行探讨,部分典型案例可能未被收录其中,研究结论具有一定的局限性。如何制订行之有效的监管措施,遏制论文作坊对学术界的侵蚀是需要进一步探究的问题。至于论文作坊产生的原因和运作细节,尚需深入论文作坊实地调查以探明个中缘由,进而对症下药、形成规制,有效惩戒和去除论文作坊的危害,维护健康诚信的科研环境。