科技论文数据错误辨析
——以《湖北科技学院学报》为例
2020-12-03胡莉
胡 莉
(湖北科技学院 学报编辑部,湖北 咸宁 437100)
数据是信息的表达方式,通过符号、文字、数字、视频、语音等形式表达信息的内涵。科研数据是科技论文的重要组成部分,大量的科学研究需要用数据说话,数据的研究关系到科技的未来。实验数据不当,影响研究项目的结论流产,数据缺失失真涉嫌抄袭和剽窃,理论数据有误造成推理混乱,损害作者和期刊的声誉。比如近年来,国际学术界撤稿事件频繁发生,引起了社会各界对学术不端行为的广泛关注,其中数据造假是学术不端行为中比较隐晦的一部分。“目前多数的学术不端检测技术还只能基于文字进行相似性检测或完成简单的数据完整性和一致性检测”[1]。数据造假因为隐匿性强,不能被自动文献检测系统识别,不容易被直观地发现,但是数据造假具有极大的社会危害性,Springer出版集团总监Tamara Welshot认为学术不端类型最重要的类型就是“编造数据和数据造假”。[2]。因此,国际知名期刊对数据造假提出了相关的政策和建议。2014年《Science》和《Nature》都相继推出了专门的数据审查流程。[3]
相较国际顶级期刊针对数据审查和数据造假现象采取强有力的措施,我国的科技期刊对数据错误的识别和纠正还存在一些不足。笔者从自身所在的期刊出发,结合工作中的案例,例举数据错误尤其是数字错误的相关类型,以期提供借鉴和建议。
一、日常数据错误类型
1.数据输入内容前后矛盾
数据的正确输入关系到论文的严谨和科学性,数据的输入不正确影响论文的结论和科学性。有的论文中作者数据输入不完全,前后内容有出入。如笔者编辑的一篇研究方言语法的文章中,作者在表1[4]中例举了收集到的吉林方言语法研究总体统计表,其中词法研究数量为153,句法研究为35,在其后的表2[4]吉林方言语法研究阶段统计表中,词法研究2010年之前和之后的数量分别为51和103,总计154,句法研究2010年之前和之后的数量分别为6和15,总计21,与表1中词法和句法的研究数量数据不统一。前后数据有误会让读者认为论文不严谨,有造假的嫌疑。同时,前后数据不统一,由此推导出的结论也让人产生怀疑。
表1 吉林方言语法研究总体统计表
表2 吉林方言语法研究阶段统计表(以2010年为节点)
笔者认真核对数据后与作者沟通联系,了解数据前后矛盾是因为输入错误还是统计数据本身有问题。经核对后作者表示是统计中数据输入错误后改正数据。
2.数据计算逻辑错误
在作者提供的数据中,有的数据经过计算与作者要求达到的结果不符。比如一些百分数据,将提供的数据相加后得出的数据不是100%。笔者校对的一篇文章以艺术专业和英语专业对比研究大学英语翻译教学问题的元认知问题。作者为了研究议题分别对两个专业的相关学生进行问卷调查,得出两个专业学生英语与职业规划的关系如下表3[5]。
表3 英语与职业规划的关系
表3中将两个专业的职业规划与英语的关系分为5种关系。笔者经过计算与核对发现,其中,艺术专业的5种关系的数据比例相加后得出的百分比是100.6%,不符合百分比的逻辑,因此断定是比例数据出现了计算的错误,联系作者重新检查数据的计算,纠正数据的错误。
3.数据缺失
有的作者在记录数据过程中,文中解释相关内容可以从表中得出数据,但是实际上表格中没有对数据作出说明,如笔者编校的一篇文章,见表4[6]。
表4 中国知网与“创客”相关的文献数量统计
表4列举了中国知网从2008年至2017年与“创客”相关的各种文献数量。但是文中文字注明“由表可以看出,2008-2017年(考虑完整年份),篇名中包含“创客”的文献共6823篇。”[6]从表中,可以看出各年的文献数量,但是2008-2017年总共的文献数量表格中并没有标明,论文数据没有在表格中表现出来。科技论文应该严谨,数据的来源,数据的推算结果都应该有根有据,不能有任何遗漏。
4.数据标注不规范
数据分析要耐心而细致,任何一点失误,都会产生“蝴蝶效应”。如2020年5月7日,中国医学科学院医学实验动物研究所在nature发表《新冠病毒在hACE2转基因小鼠中的致病性》,因为图片误用,被质疑论文涉嫌一图多用。科学论文写作应该严谨,任何数据有出入的地方都应该说明,简单明了。比如笔者曾经校对过的一篇论文中作者插入了柱状图形如图1和图2,两图中的坐标轴尺度标注不一致,表1中的纵轴尺度标注最大是60,表2中的纵轴尺度标注最大是80。咋一看没有什么错误,但是仔细看,就发现两个不同,左右图中选择大部分准确选项的人数比例从图形上看几乎差不多高度,但是从数据上看相隔甚远。所以,作者撰写论文的时候一定要严格遵守学术论文写作的规范,不能图省事,必须保持学术的严谨。
图1传统教学交果评估(%) 图2PBL教学效果评估(%)
5.数据描述不当
笔者在编校过程中,经常发现有的年轻作者由于对数据和关系表达不当产生的数据错误问题。产生的原因多数因为作者写作经验不足,对数据的认识不到位。比如,在笔者曾经校对的一篇稿件中,很多作者对于公式中的上标和下标认识不清,经常产生该下标的不标识的现象,作者自己明白,但是给读者的阅读造成混乱和误解。比如笔者遇到一篇论文中作者提供一个模型如下:
因子模型:Xi=aiF1+aiF2+...+aiFm+Ui (i=1,2,......,k,m<=k)
在这个公式中有3个变量X,F,a,其中i,m应该标识为下标,否则阅读到这个地方容易使读者产生混乱,到底变量是X,F,a,还是Xi,Fm,ai。经过与作者沟通以后,作者将它们改为下标。
6.篡改数据
有的作者将论文中收集调查的数据擅自取舍或者修改,使之符合预期的试验结果。研究者在数据分析中,刻意删除不利于研究结论的数据,只选择符合研究结论的结果。例如,笔者校对一篇经济类文章,作者采用PMC指数模型对学前教育政策进行量化评价研究。文章中,作者通过访问相关官方网站,选取了一定时间内有代表性的学前教育政策若干项建立PMC指数模型,分类一二级变量。确立10项一级变量,在如表5。
表5 10项学前教育政策分析汇总表
笔者经过逐个计算发现,表5的均值除了X1、X8和X10正确外,其余均有错误。作者在文后的结论中,得出结论,与真实数据不符,因此怀疑有数据造假的嫌疑。笔者联系作者,督促其检查数据的来源,对数据进行严格的检验然后修正,否则视为数据造假。
二、应对数据错误的方法和措施
数据错误量与科技论文的水平息息相关,同时,数据错误也是论文编校中的一个容易忽视的模糊地带。编辑在编校过程中要重视对数据错误的发现和纠正,不能掉以轻心,不仅仅要重视论文内容的编校,更要结合内容,统筹全文,从统一的角度来看待论文中出现的数据。为了防止论文中数据错误的出现,笔者认为可以从以下几个方面进行改进:
1.编辑在审稿和校对的过程中要仔细认真,提高数据的审查意识。在编辑加工过程中,时刻做到“心中有数”[7]。除了纠正文字和内容的错误之外,对文中相关数据的校对更加要细致,审查入微,使论文的数据精确地反映主题。科技期刊中的数据主要以图表的形式表示,图表中的数据是论文观点的支持。编辑要认真审读论文数据,梳理论证逻辑,以防数据与论文内容相背离。科研数据必须真实可靠,科研人员必须严肃谨慎对待,杜绝数据造假。论文发表前对实验结果和过程要反复验证,确保准确无误。
2.强化作者的科研诚信意识。科学研究为人类服务,其基本的准则就是诚信。近年来,国内外学术界频频曝光论文造假事件,多位学术大咖爆出数据造假的丑闻,前有南开大学校长论文被爆数据造假,后有自然等国际著名期刊撤回中国学者稿件,将科研诚信问题揭露在公众面前。2019年9月25日,科技部、中央宣传部、最高人民法院等20家单位联合发布《科研诚信案件调查处理规则(试行)》,是我国首部专门规范科研失信行为调查与处理的规范性法律。为了守住科研诚信的大门,编辑应该帮助作者加深学术规范认识,积极向作者宣传科研诚信的意义,通过在学报网页上刊登防止学术不端的告知,链接防范科研失信行为的相关规范和准则,强化作者的科研诚信意识,树立端正的学术研究态度,从源头上建立科研诚信的壁垒。同时,还可以例举有关学术不端数据造假的案例,让作者认识到数据造假学术不端的严重性,进一步规避学术论文发表中的舞弊行为。ICMJE表现在给出定义同时查看该作者以往的发表工作。而EASE则表现在通过文献分析,以医学研究为例,从基本统计学方法的规范、插图的质控、对数据的报告规范进行深入探讨[8]。
3.将有统计数据内容的论文交由有统计学专业背景的编辑或者外聘统计专业的专家老师对文章进行审核。学术论文当中涉及到大量的数据,用数据说话的最基本的原则是要科学的使用数据。“欧洲科学基金会(ESF)和美国研究诚信办公室(ORI)于2010年发布的著名的《科研诚信新加坡声明》第1、2、3、4条及FFP定义的理解,科研数据造假包括:数据产生方法造假、描述和分类失实、测量和计量数据造假、比较对象不当、统计数据造假、数据加工及呈现方法不当等等”[9]。应该严格按照《科研诚信新加坡声明》对数据进行审核。越来越多的作者特别是经济专业的作者运用SPSS或者Eviews等统计软件,运用统计学方法将数据引用到科研创作中。统计学的加入给科研论文的科学性和客观性提供了数据的来源,也给编辑的编校工作带来了新的挑战。应该鼓励在职编辑学习有关数理统计的相关知识,了解统计软件的运用,可以邀请相关统计学专家来对编辑部对编辑进行统计学知识的普及与培训,提升期刊编辑的统计学知识。[3]
4.借助相关网络技术对论文数据进行监督。如湖北科技学院学报2019年加入OSID开放科学计划,设置开放科学数据与内容专项,方便作者上传数据,呈现学术研究的过程数据、论文统计图表的支撑数据以及证明研究过程的内容(高清图片、视频等),并签署版权转让协议。对录取的论文首先进行数据的统计与检测,读者不仅可以通过纸质学报浏览论文,还可以通过网络直接获取论文的相关数据的信息,通过网络共同监督论文数据的可靠性。国外一个比较著名的网站叫Retraction Watch ,学者们可以通过网络互相联系,发现并举报网络不端的行为。研究的基础数据和材料公开可以获取不仅能够使同行基于其研究发现取得进一步的研究进展,而且能更好地评估研究成果,从而增加对科学的信任。
5.建立稿件管理惩戒机制。对审校过程中发现数据造假的,应该予以退稿处理,并可以将造假作者纳入失信名单,按照情节严重规定其在一定时期内不得向本刊投稿,从源头上有效制约数据造假的行为,对投稿作者失信违约造假产生威慑力。比如COPE定义数据造假表现在给出定义,在核实造假情况后对文章进行拒稿或撤回处理。
三、结语
科技期刊论文有很强的专业性和理论性,编辑不可能对所发表论文代表的所有专业都了解,除了对常规的文字和格式进行校对外,还要加强对论文数据的审核和校对。编辑要强化责任意识,不能因为工作的繁琐而对数据的审核掉以轻心,培养职业敏感性,加强自身素质,不断学习,积累专业知识。用细致、耐心的工作态度,对科技论文进行认真审读,严格把关,及时发现论文中的数据问题,降低数据的差错率,避免数据造假产生的学术不端的现象,提高期刊的整体学术质量。