科技论文伪造数据的识别与防范
2019-01-28李侗桐冯秋蕾韩鸿宾
■李侗桐 冯秋蕾 韩鸿宾
1)北京大学医学部科学研究处,北京市海淀区学院路38号 100191 2)《中华医学科研管理杂志》编辑部,北京市海淀区学院路38号 100191
近年来,国际出版集团集中撤稿的事件频繁发生,引起了我国社会各界对学术不端行为的广泛关注。无论是作者、管理者,还是出版编辑和审稿专家,都在积极尝试采用不同的方法来抵制抄袭、伪造数据、一稿多投等学术不端行为。目前我国防范学术不端的措施主要集中在规范编辑审稿流程[1]、完善信息化检测系统[2]、建立监督问责机制[3]、强化社会宣传教育[4]等方面。随着这些方法的实施和学术不端文献检测工具的普及,抄袭与一稿多投等文字重复性造假得到了较好的控制。但数据造假具有较强的隐匿性[5],不能通过自动文献检测系统识别,现有的学术不端防范措施很难有效识别并防范这一学术不端行为。而相比于国际知名期刊[6-7],我国科技期刊编辑对数据造假的重视程度和鉴别能力也存在不足。因此,本文根据笔者在《中华医学科研管理》的工作经验,总结伪造数据这一学术不端行为的基本类型,归纳识别和防范伪造数据的方法,以期为期刊编辑抵制学术不端行为提供借鉴和参考。
1 伪造数据的基本类型和案例
1.1 捏造数据
捏造数据是指在论文中描述根本不存在的研究数据和结果。部分研究者为了丰富自己的文章内容,增强文章说服力,根据既往研究结果肆意捏造调查或实验数据。研究者在捏造数据前多会了解所在领域的数据取值范围,编造出符合专业要求的结果,导致这种学术造假行为具有极强的隐匿性,很难被编辑识别。如《中华医学科研管理》编辑部曾收到一篇医学伦理领域的投稿,该论文采取邮件函评的方式调查了全国百余名专家对某项伦理问题的态度,其中方法部分对研究的调查时间、调查对象以及调查内容的介绍不清晰,且未描述调查时的拒访情况,但在结果部分说明数据质量很好,数据缺失为0。在对该论文进行编辑加工时,编辑要求该论文作者补充研究方法,说明数据收集过程,提供调查问卷等研究工具。经与作者沟通发现,该论文作者并不从事伦理领域的工作,且对研究过程不清楚,前后表述逻辑不一致,也不能及时提供研究工具,因此怀疑该论文存在捏造数据等学术不端问题。
1.2 虚报样本量
虚报样本量是指研究者在撰写论文时根据已有的样本情况增加不符合实际的样本量。部分研究者为了扩大研究结果的代表性和普适性,故意编造样本量,如调查范围从某县、市虚报为某省或全国等。虚报样本量的情况多存在不太可能实现的调查环境或者是对作者来说无法轻易获得的调查数据[8],若未能及时发现,可能会严重误导其所在领域的其他研究者。以《中华医学科研管理》的一篇来稿为例,该论文拟分析三级甲等医院的医生科研工作需求,采取多阶段抽样的方法选取了全国1000余名医生开展调查,调查工具完整,调查记录详细。但编辑发现该论文作者是一位二线城市县级医院的科研工作者,在不到2个月的时间内完成了对全国10个城市50家三级甲等医院医生的调查,可操作性较低。经反复沟通,该文作者承认仅调查了其所在城市5家医院的100余名医生,并依据收集的数据编造出其余9个城市45家医院的结果,虚报了调查的样本量。
1.3 篡改数据
篡改数据是指研究者在收集完调查结果或实验数据后,根据研究预期修改或取舍数据[9]。这种学术不端行为是伪造数据中最常见的类型,一般可以分为两类:(1)研究者在统计分析时发现研究结果不符合预期,企图通过修改数据得到虚假结论,获得“阳性”结果[10];(2)研究者删除不利于实现预期结果的数据,仅选择部分内容作为所撰写论文的数据来源,隐瞒真实研究结果。总的来说,与从研究初期就蓄意进行的捏造数据和虚报样本量相比,篡改数据多发生在统计分析的过程中,但由于未能引起研究者的足够重视,极易引起大范围的学术造假,后果十分严重。这类论文常存在数据前后不一致、叙述或论证逻辑错误等问题。如《中华医学科研管理》曾收到一篇关于医院药剂科医生科研成果研究的稿件,采用二分类Logistic回归分析影响医生科研成果的相关因素。编辑在对比拟采用稿件和原始稿件时发现,回归方程中某因素的P值由P<0.05变为P>0.05,且结果描述和讨论部分也相应改变,但其他参数如OR值和95%置信区间没变,作者也没有在修改稿和修改说明中标注这些修改内容。因此,编辑部怀疑该论文存在篡改数据问题并对此展开调查,经核实发现该作者为了应对评审专家的审稿意见,在回修稿件时修改了统计结果,该论文确实存在伪造数据的问题。
2 识别伪造数据的方法
伪造数据的隐匿性较强,无论是捏造数据、虚报样本量,还是篡改数据,都需要编辑反复阅读论文,留意细节,从蛛丝马迹中寻找突破口。本研究根据《中华医学科研管理》编辑部近年来抵制学术不端工作的经验,梳理了识别伪造数据的方法。
2.1 熟悉专业背景
对比作者的专业领域和论文研究内容,判断作者开展调查/实验和获取研究数据的可操作性。既往研究认为,如果作者单位与研究内容不符,论文可能存在挂名、买卖署名、第三方代写等问题[11]。笔者发现,在捏造数据和虚报样本量等伪造数据的论文中也可能出现作者专业领域与研究内容不一致的情况。可能的原因在于,伪造数据的作者多愿意撰写较容易发表或研究热度较高的论文,并没有基于自身的工作和研究背景,从而导致研究内容与自身专业相悖。同时,编辑应深入分析获得论文数据的可能性[12]。如果论文的作者单位与研究领域无关,且在短时间内获得了大范围的、相对完整的调查数据,编辑应给予足够重视,进一步分析判断该文是否存在伪造数据的问题。
2.2 关注方法描述
由具有统计专业背景的编辑审核论文方法和结果部分,要求作者按照国际医学杂志编辑委员会(International Committee of Medical Journal Editors,ICMJE)数据共享声明、临床试验报告规范(Consolidated Standards of Reporting Trials,CONSORT)论文对照清单、诊断准确性研究报告(Standards for Reporting of Diagnostic Accuracy, STRAD)对照检查清单、加强观察性流行病学研究报告(Strengthening the Reporting of Observational Studies in Epidemiology, STROBE)声明、非随机对照设计报告(Transparent Reporting of Evaluations with Nonrandomized Designs,TREND)规范等规范研究方法的描述,全面记录研究过程。既往研究提出,为抵制学术不端行为,编辑部应细分审稿专家和编辑的研究领域,为不同内容稿件配置相应领域的审稿专家和编辑,以便鉴别稿件内容是否存在学术不端问题[13]。编辑部应要求作者按照国际统一规范,详细而又系统地描述研究设计、调查时间、调查地点、数据收集过程、数据处理方法、统计方法等信息,这样不仅可以提升论文统计描述的准确性[14],更有助于编辑和审稿专家了解论文的学术价值,判断研究结果的可信度和可重复性,有效规避学术造假。
2.3 对比修改内容
在正式接受稿件之前,编辑部应对比拟采用稿件和原始稿件,关注数据修改内容,分析修改的合理性。部分作者为了迎合审稿专家和编辑部的要求或为了实现预期结果,在回修稿件时修改研究数据。为规避这种情况,笔者建议编辑部在论文正式发表之前仔细比对原稿与修改稿。这与编校过程中的核红并不一样[15],因为作者恶意修改数据的行为多发生在稿件编校之前,且不会明显标注修改的范围和内容,并不容易引起审稿专家和编辑的注意。如果对比发现论文的关键性统计指标如发病率、患病率、P值、OR值以及95%置信区间等发生改变,并引起结果以及结论的变化,编辑部应该对作者的数据分析过程提出质疑,要求作者对数据修改给出合理解释,并提供相应的证据支持。
2.4 梳理论证逻辑
梳理文章论证逻辑,判断研究数据与文章逻辑的一致性,查找数据矛盾。由于伪造的数据不是实际的研究结果,数据的真实性较差,常导致论文出现首尾矛盾的现象,这与既往学者的观点一致[16]。对于这种情况,编辑在审核稿件时,应避免单就某一部分内容局限地判断文章的可信度,需全面、整体地评价文章的论证逻辑,通过各部分衔接、呼应等细节判断文章是否存在伪造数据等学术不端问题。
3 伪造数据的防范措施
3.1 提升编辑鉴别伪造数据的能力
与其他学术不端行为不同的是,伪造数据论文呈现方式多样,造假程度不一,很难依据固定模式加以鉴别,这就给编辑出版工作带来较大挑战。结合既往研究结果[5, 17],笔者认为提升编辑防范数据造假能力的方法主要有以下3种。
(1) 建立编辑与所在领域专家的学习交流和资源共享渠道。科技期刊编辑部可以定期组织编辑以组稿或约稿的形式对相关专家进行深度访谈,也可以通过座谈会或讲座等学术活动邀请相关专家介绍所在领域的最新发展情况,帮助编辑了解学术动态,提高他们对伪造数据论文的敏感度,增强他们处理学术不端问题的信心。
(2) 重视对编辑进行与科技论文相关的数据收集和统计分析方法的继续教育。例如,目前研究论文常使用Stata、R、SAS等统计分析软件,编辑如果能够了解这些统计分析软件的基本特性,就可以根据作者提供的数据资料和统计语法复核数据分析过程,判断论文是否存在选择性汇报或修改结果的情况。但这些分析方法也不是一成不变的,科技论文数据收集和处理手段日新月异,编辑必须不断学习,积极参加继续教育培训,才能建立并维持鉴别论文数据真实性的能力。
(3) 加强与作者的沟通联系也是增强编辑学术不端鉴别能力的必要途径。由于伪造数据具有较强的隐匿性,仅仅依靠论文文本分析很难发现问题,编辑应加强与作者沟通,充分了解论文撰写的真实情况,避免因误判影响作者的学术生涯[18]。例如,编辑可以在未提前告知作者的情况下,请作者描述调查或实验过程,尤其是研究时间、研究地点和研究对象的选择等细节。文章的关键作者应对调查或实验过程十分了解,熟知自己研究的方法和内容。如果作者不能按照编辑的要求自然、详尽地叙述研究信息,就很可能存在数据造假问题。
3.2 加强作者的科研诚信意识
作者是论文撰写的主要行为体,我国《著作权法》也规定作者“文责自负”,因此加强作者的科研诚信意识是防范伪造数据等学术不端行为的关键。编辑作为防范学术不端的“守门人”,应积极参与科研诚信宣传教育,帮助作者了解学术规范知识。在与作者的沟通过程中,编辑可以告知作者遵守科研道德的重要意义,并定期向作者发送科研诚信宣传教育邮件,促使作者树立正确的学术观念。同时,编辑部也可以组织开展学术道德和科研诚信培训班,介绍伪造数据等学术不端论文案例,并要求作者参加线下或线上的培训学习,从而遏制部分作者投机取巧的心态。
从期刊角度来看,编辑部可以在期刊官方网站或排版空隙转载出版诚信的相关文件,如国务院办公厅印发的《关于进一步加强科研诚信建设的若干意见》和教育部印发的《高等学校预防与处理学术不端行为办法》等,提醒作者注意论文诚信问题,减少学术不端行为的发生。
3.3 建立期刊防范学术不端惩戒机制
在防范伪造数据等学术不端行为的过程中,期刊应建立有效、系统的稿件管理惩戒机制,从制度上规范作者行为。结合国际期刊和国内优秀期刊的实践经验,《中华医学科研管理》编辑部自2018年开始设立了从论文投稿至论文发表后的全流程科研诚信管理机制。
(1) 论文投稿阶段的防范机制。在论文投稿时,编辑部要求作者提供论文相关的分析数据库和调查工具,并要求所有作者签署版权转让协议和科研诚信声明。其中,针对涉及研究设计和数据统计的论文,编辑会根据论文的不同的类型引导作者参考国际统一报告规范,如CONSORT论文对照清单、STRAD对照检查清单、STROBE声明以及TREND规范等,进一步完善论文内容,补充具体材料。
(2) 论文审校阶段的防范机制。如果在论文审校的过程中发现数据造假,编辑部会予以退稿处理,并将作者列入期刊黑名单,视情节严重程度规定涉事论文的所有作者在3~5年时间内不得向该刊投稿。中华医学会杂志社在统一的远程投稿系统中设置了作者黑名单库,如果某位作者被中华医学会旗下的某种期刊纳入黑名单,其他期刊在收到该作者投稿时也会看到黑名单记录,并根据相应的编辑部制度决定稿件去留。这种黑名单机制在一定程度上增大了作者的违规成本,有助于制约学术不端行为。
(3) 论文正式发表后的防范机制。如果在论文正式发表后发现伪造数据等问题,编辑部将予以撤稿处理,并公开发布撤稿声明。但必须注意的是,撤稿对作者和作者单位来说都是极大的惩罚,将对作者的学术生涯产生长期影响,限制作者及其所在单位的科研发展[19]。因此,编辑部应在核实伪造数据问题、确定作者存在严重学术不端行为后再做出撤稿决定,避免因误判造成不良影响。尽管《中华医学科研管理》编辑部尚未因学术不端行为出现过撤稿事件,但如果在论文发表后发现论文确实存在数据造假,编辑部也不会因撤稿的严重后果而姑息作者的学术不端行为。
4 结论
目前,科技期刊编辑多依赖于文献检测系统抵制学术不端行为,其可对文字重复性造假具有较好的控制作用,但对伪造数据等隐匿性造假的作用甚微[18]。因此,伪造数据等学术不端行为恐有愈演愈烈的趋势,亟需引起社会各界,尤其是科技期刊编辑的重视。编辑作为抵制学术不端的“防火墙”和“守门人”,应当树立“守土有责”的职责意识,在收稿、编辑、校对、出版等环节关注伪造数据问题,切实把好学术成果的最后一道防线。本研究根据伪造数据这类学术不端行为的特点,分别从专业背景、方法描述、修改对比以及论证逻辑等方面梳理了识别伪造数据的方法,为科技期刊编辑识别伪造数据论文、防范学术不端行为提供借鉴和参考。