基于撤稿观察数据库的被撤销会议文献研究
2021-04-07邓支青吴任力
邓支青 吴任力
(1.深圳大学管理学院 深圳 518000;2. 深圳大学社会发展与公共政策研究中心 深圳 518000;3. 武汉大学信息管理学院 武汉 430072)
A Study of Retracted Conference Papers Based on the Retraction Watch Database
Deng Zhiqing1, 2Wu Renli3
(1. College of Management, Shenzhen University, Shenzhen 518000; 2. Center for Social Development and Public Policy, Shenzhen University, Shenzhen 518000; 3. School of Information Management, Wuhan University, Wuhan 430072)
Abstract: [Purpose/Significance]It is of great value to study the laws and characteristics of retracted academic documents for objectively understanding the retraction phenomenon, purifying academic environment and strengthening scientific integrity. Current research on retraction focuses on journal articles but rarely on conference papers. [Method/Process]This paper analyzes the characteristics of time, source and subject distribution as well as reasons and time to retraction of the 7,579 retracted conference papers in the Retraction Watch Database. [Result/Conclusion] It is found that there are significant differences in the reasons and time lags between the retraction of conference papers and journal papers, and that China is the "hardest hit" for the retraction of conference papers. We believe that researchers, reviewers, publishers, and scientific research institutions need to work together to strengthen the quality control of academic conferences and improve the normative behavior of relevant subjects.
Keywords: retraction watch database; retracted conference papers; characteristics of papers; reasons for retractions; time to retract
0 引 言
在学术交流与传播中,已形成较为成熟的撤稿机制,用以修正文献并提醒读者注意包含严重缺陷或错误数据导致其发现和结论不可信的出版物,也被用于提醒读者注意重复发表、抄袭和未能披露的利益冲突问题[1]。其主要目的在于纠正文献并确保其完整性,而不是惩罚涉及不端行为的作者。撤稿是一种世界性的现象,即使不考虑具体原因,被撤销的文献也代表着“项目失败的明确证据”,撤稿的数量和频率也因此成为科学事业健康程度的重要指标[2]。因而,对于撤稿全面而系统的研究具有现实需要和重要价值[3]。
学术会议是研究成果交流与传播的重要渠道,会议所涵盖的广泛主题可以帮助科研人员重新获得其在专业研究中失去的一些更广泛维度的知识,并增加将这个社区联系在一起的沟通和联系[4]。会议文献则属于“发生在特定的社会文化背景下并具有特定的交流功能”的文献类型[5],可以在连接迥然不同的科学社区方面发挥作用,成为弥合不同科学专业之间差距的重要途径,并拓展专家的一般知识基础。会议文献正在成为重要的科学信息来源,对会议文献的撤稿机制也逐渐形成。但当前对会议文献撤稿的具体深入研究较为缺乏,不利于学术共同体形成对于学术会议成果交流与发表的清晰认知。
撤稿观察数据库收录了1990年以来的撤稿文献并不断更新,数据量大、信息齐全并可依据需求限定检索条件,为研究被撤销文献提供了良好的数据基础。本文以撤稿观察数据库中的会议文献数据为研究对象,揭示其规律和特征,为科研人员的会议选择和学术行为提供参考;为期刊编辑审核会议论文拓展版本提供针对性参考;促进会议文献出版机构和科研管理部门建立健全相应的管理机制,规范撤销论文操作,促进负责任高质量的科学研究发展。
1 文献综述
据《自然》杂志报道,2001-2010年间文献总量增加了44%,期刊撤回的文章数量却增加了10倍,其中44%缘于作者的不端行为[6]。导致许多观察者呼吁出版商、编辑和其他把关者做出更大努力以消除不良的科学行为,这一关注促使伊万·奥兰斯基(Ivan Oransky)和亚当·马库斯(Adam Marcus)创建了撤稿观察(Retraction Watch)博客[7],通报最新撤稿情况并就与撤稿有关的问题展开讨论。当前,已有许多学者基于PubMed[8]、ScienceDirect[9-10]、Web of Science[11]、Retraction Watch[12-13]、Scopus[3],CNKI、万方和维普[14]等数据库,对被撤销论文的地区、期刊分布情况及其时序变化和时滞,被撤销原因、发表时间、撤稿年份、撤稿后引文的时间变化等内容进行了研究分析。这些研究多以被撤销的期刊论文为研究对象,研究证实:抄袭、欺诈和同行评议造假等不端行为是造成撤稿的主要原因[2, 11, 15],严重影响了科学研究的可信度和社会声誉;而因撤稿操作不规范不明确,部分文章被撤销后仍被引用带来了产生虚假甚至是有害结论的风险[16]。向菲等人分析Web of Science和PubMed数据库2010-2018年间的撤稿数据还发现,撤稿会负向影响通讯作者的发文量、相对生产率、h指数和职位变化等学术表现,对其学术生涯产生消极影响[17]。张秀峰[18]、冷怀明[19]、张维等[20]从撤稿角度,分析总结了学术期刊应吸取的教训和抵制学术不端、维护学术规范与出版伦理的应对之策。这些研究对揭示被撤销文章的特征与分布规律,促进科研管理部门、出版机构以及科研人员提高对于撤稿文章的关注度,加强科研诚信监管和建设具有重要意义。
经统计,会议文献占据了学术文献的较大比例。仅以Web of Science核心合集为例,截至2020年11月2日,此数据库共收录67 562 111篇文献,其中会议文献(会议论文和会议摘要)15 214 286篇,占总数的22.52%;与此同时,共有929篇会议文献被撤回,占总被撤销文献的13.9%。一方面,当前仅有张路基于Scopus数据库对被撤销会议论文的总体分布特征、中国撤销论文及撤销论文的被引用情况等内容进行了规律性的统计分析[21],基于更广泛数据来源的被撤销会议文献的系统性的、深层次的研究尚存在空白;另一方面,会议文献相较于期刊论文有其特殊性,其撤稿有何规律?当前,对于会议文献的撤稿操作是否规范?这些问题亟待明确,以为科研管理部门、出版机构以及科研人员形成对于各学术会议的正确认识、完善撤稿操作、规范科研行为提供参考,全面净化学术环境,促进科研诚信建设。
2 研究过程与研究方法
2.1数据收集本研究通过自编Python爬虫程序,以“Article Type(s)= Conference Abstract/Paper”为限定条件,从撤稿观察数据库爬取了7 579篇文献。爬取数据中,每篇被撤销会议文献数据包含论文标题、学科、出版物名称、出版商、机构、撤稿声明URL、撤稿理由、文章作者、原始文献发表日期、撤稿日期、国家共11个字段。对于部分字段信息缺失或明显有误的数据,综合互联网搜索及Web of Science、Scopus等其他数据库信息予以人工补齐或更正。
2.2数据分析本研究基于爬取的数据信息,分析被撤销会议文献的时间变化、出版商、作者来源等特征。结合撤稿观察数据库用户指南中有关撤稿原因的描述,分析会议文献被撤销的原因;对于仍不明确其含义的撤稿原因,通过必应和百度搜索引擎的互联网搜索,依据原始撤稿声明的信息客观理解并最终确定。两位作者对每项撤稿原因及其描述进行了独立翻译、交叉审核与共同修正,确保无分歧。最终,从95种不同撤稿原因中提取出与会议文献相关的撤稿原因,共57种[22];运用Ucinet和NetDraw进行撤稿理由共现网络中心度的分析并绘制有向图;并根据数据库指南对撤稿原因的具体描述对其进行再分类归总。
3 研究结果
3.1被撤销会议文献的特征
3.1.1 时间分布 截至2019年3月31日,撤稿观察数据库共收录了19 911篇被撤销文献,其中包含1990年以来发表的7 579篇会议文献。撤稿总量分布与会议文献被撤销数量变化如图1所示。
图1 撤稿观察数据库中被撤销的文献总量与会议文献数量变化
从图1可以看出,被撤销的会议文献与所有类型文献在数量上随时间变化的趋势基本一致。2004年以前,被撤销的会议文献数量极少。2009-2011年三年间,撤稿总量和会议文献撤稿数量剧增;2010年撤销的会议文献数量最多,缘于电气和电子工程师协会(IEEE)的几次大规模集中撤稿事件。会议文献撤稿数量占总撤稿数量的比例的变化趋势则表明,会议文献撤稿在总撤稿中占有较大比例,2009-2011年间均超过半数,2010年占比甚至高达89.36%。这也说明,会议文献属于撤稿研究中不可忽视的重要部分。
3.1.2 来源分布 7 579篇被撤销会议文献来自270个不同的出版物;从出版商来看,7 362篇被撤销会议文献为IEEE出版,占被撤销会议文献总量的97.14%。其中,撤稿数量排名前20的出版物的撤稿总量占被撤销会议文献总量的比例高达73.98%,而这些会议多在中国的广州、武汉、成都等城市举办。撤稿数量最多的为2011年第二届电子商务与电子政 务国际会议(International Conference on E-Business and E-Government,ICEE),由IEEE和上海大学主办,上海大学管理学院承办,上海商学院和南京信息工程大学协办。为更加清楚了解这些高被撤销会议文集的特征,本研究依据原始出版物统计了论文总量数据,并据其计算撤稿数量占会议接收论文总量的比率,如表1所示。从中可以看出,撤稿数量排名前20的来源出版物所发表的论文数量总体偏多;撤稿比例最高达90%左右。
表1 被撤销会议文献数量Top20的会议文集
7 579篇文献的作者来自60多个国家和地区,来自中国的最多,占被撤销会议文献总量的91.20%。如表2所示,被撤销的会议文献以独著或2~3人合著为主;单篇文献作者数量最高达13人。从作者所在机构判定其所属国家或地区,7 392篇文献由来自同一国家或地区的作者独立或合作完成;187篇由跨国(地区)的多名作者合著,而其中108篇又属于中国作者与其他国家(地区)作者合著的情形。
表2 被撤销会议文献的作者特征
3.1.3 学科分布 被撤销的会议文献来自不同的学科领域,根据数据库所提供的“学科”字段,可将被撤销文献归为商业与技术、社会科学、自然科学等7个不同的学科领域;其中,部分文献同时标识了多个学科领域,本研究分析时在每一领域各计一次。7 579篇被撤销会议文献的学科分布情况如表3所示:
表3 被撤销会议文献的学科分布
分析可知,被撤销的7 579篇会议文献中,绝大部分来自商业与技术领域,尤以经济学、管理学、计算机科学及其与数学和工程科学的交叉领域文献为主,与文献的会议来源主题相一致;健康科学和人文科学领域被撤销的会议文献占比较小。这种结果,部分缘于不同学科领域所发表的会议文献总数的差异,也与以电子商务、电子政府、管理科学、计算机技术应用等为主题的部分学术会议接收论文数量大,撤稿比率非常高有关。
3.2会议文献被撤销的一般特征撤销已出版的文献,属于撤稿主体在内外部环境和制度作用下所作出的一种反应[23],可以被视为一种行为,并具有其规律性。
3.2.1 被撤销原因 一篇文献被撤销可能同时涉及多种理由。7 579篇文献中,3 944篇文献的撤稿原因被标记为“Notice - Limited or No Information”或“Notice-Lack of”,即撤稿声明中有关被撤销原因的说明信息很少,或原始文献被添加了撤销或更正的水印但没有任何说明;或出版商从发布平台中删除了文章,但没有发布撤稿声明。其他包含明确撤稿理由信息的3635篇文献中,因完全相同原因被撤销的文献数量大于等于10篇的情况如表4所示:
表4 会议文献被撤销具体原因及其数量(≥10)
为便于分析并更加清晰呈现会议文献被撤销的规律,本研究参考张晴等[24]、刘清海[25]、Varela等[26]对撤稿原因的分类,结合撤稿观察用户指南中对于各类撤稿理由的描述,将57种原因归为14类。
表5 会议文献被撤销原因归类及其数量
综合表4和表5来看,对于明确声明了撤稿理由的会议文献,因作者违反期刊、出版商或机构接受的政策和惯例而遭受投诉、反对与调查是最主要的原因。回溯相关撤稿声明,论文被会议文集收录,但作者并没有注册会议发表其文章;作者在文献中披露了机密性信息等都属于作者违反相关政策的表现。尽管因作者违反出版商政策或惯例而撤销的会议文献数量很大,但出版商所发布的撤稿声明中都没有明确陈述具体行为事由。作者因受到调查而主动撤回或撤回以在不同期刊发表的情形属于会议文献被撤销常见的原因。作者伪造或篡改数据、抄袭、伪造作者或署名不实、未获得原始作者或第三方同意等学术不端行为也是会议文献被撤销的重要原因。其他,如在数据收集、输入和计算,结果分析、方法设计、图像制作等方面的错误,对于数据有效性、文章署名、文献引用、结论客观性的争议或担忧,研究结果的不可复制性,存在版权争议或法律、伦理方面的问题,因利益冲突未能保持研究中的客观性,引用了已被撤销文献等原因也造成了一定数量的会议文献被撤销。从撤稿声明中包含明确撤稿理由信息的文献来看,一篇会议文献多因两种或两种以上原因被撤销。因此,本研究构建了撤稿理由的共现网络图(如图2所示),据其揭示不同撤稿理由之间的关联关系。
图2 会议文献被撤销原因共现网络图
从图2可以看出,作者主动撤回、作者违反政策、出版商的调查、伪造的作者、声明-有限或无信息、第三方团体的调查、公司/机构的调查、篡改或伪造数据、分析错误、有关数据的担忧或问题等10个撤稿理由的网络中心度明显高于其他原因,表明它们属于会议文献被撤销原因共现中高频出现的撤稿理由。除了撤稿理由不明的3 944篇文献以及因单一原因被撤销的38篇文献,其他3 597篇文献均同时涉及多种撤稿理由,以因作者违反政策惯例、学术不端或错误性、不准确性等问题遭受出版商或第三方团体调查而主动撤回稿件或被出版社撤销稿件为主。
3.2.2 被撤销时滞 发表时间与最终撤稿时间之间的差,构成文献的撤稿时滞[27]。无论撤稿原因为何,撤稿时滞都在一定程度上反映了学术界识别发现有问题的科学研究人员或成果的效率,是科学环境净化时效的一种表征。经统计(如表6所示),7 579篇文献中撤稿时滞最短的为0天,涉及25篇文献,撤稿原因以作者主动撤回以在其他期刊发表或作者的抄袭、伪造篡改数据两类学术不端行为为主。究其缘由,一是因为许多作者会将会议论文进一步拓展作为期刊论文发表,从而主动要求撤回其文章[28];二是因为随着技术的进步与应用,文章抄袭等不端行为很容易被学术不端检测系统识别出来,从而造成撤稿。撤稿时滞最长的为3 991天(约合11年),涉及的文献为1990年发表的医学领域有关消化内科和药理学的文章,回溯出版商的撤稿声明:作者涉及篡改和伪造数据,英国医学委员会(General Medical Council)认为作者犯了严重的不端行为,并将其停职1年。综合来看,7 579篇会议文献被撤销的平均时滞为59.7天,约为2个月的时间;其中,53.44%的文献的撤稿时滞在31~60天之间。
表6 会议文献被撤销的时滞(天)分布
4 研究结论
本研究以撤稿观察数据库中收录的7 579篇被撤销的会议文献为研究对象,从时间和来源两个方面分析了被撤销会议文献的特征,从原因和时滞两个方面分析了会议文献被撤销的一般特征。基于研究结果,结合已有相关研究,可得出以下几个主要结论:
4.1学术会议的全面质量管理亟待加强分析发现,被撤销的会议文献数量大,在总撤稿数量中占有较大份额,甚至在部分年份贡献了绝大多数的撤稿。其中,IEEE所批准主办或协办的会议及其出版的会议文集是被撤销会议文献的最主要来源。对此,IEEE发布的声明中称,IEEE长期致力于确保会议及其所发表的论文的高质量。但通过其常规会议质量监控流程,IEEE意识到,在同行评议和会议组织程序的质量方面,某些会议存在不一致之处。通过进一步的深入调查发现,某些会议的组织程序委员会遵循的程序不足以确保符合IEEE对高质量出版物的高标准,IEEE决定剔除部分会议[29]。因而,有必要加强对于学术会议的全面质量管理,从会议发起人、会议组织程序委员会、投稿者、审稿人等多主体的行为入手,完善组织程序、流程设计与质量监督。
4.2会议相关学术行为的规范性仍需提高大量会议文献的撤销声明中缺乏对于撤稿理由和事实的描述性信息,或甚至没有撤稿声明而直接从发表平台被删除;一些涉及文本抄袭、文章抄袭等本应属于审稿中易于被检测出来的不端行为的稿件,发表出版后才被发现并撤销;一些国际会议如电子商务与电子政务国际会议(International Conference on E-Business and E-Government,ICEE)、亚太电力与能源国际发展会议(Asia-Pacific Power and Energy Engineering Conference,APPEEC)、管理与服务科学国际会议(International Conference on Management and Service Science,MASS)、IEEE国际应急管理与管理学科会议(IEEE International Conference on Emergency Management and Management Sciences,ICEMMS)等,所接收发表的文章多次遭大规模集中撤稿,其中一些会议甚至被IEEE剔除,导致相应学科领域的会议文献撤稿占据极大比例。以上这些,说明当前会议组织和流程控制不严格、撤稿行为异常、撤稿流程不规范等现象和问题比较严重,与会议相关的投稿、审稿和撤稿等学术行为的规范性需要进一步提高。
4.3中国是会议文献撤稿的“重灾区”被撤销文献数量排名前20的会议多在中国举办,部分会议接收文章的数量甚至超过2 000,撤稿率过半;被撤销的7 579篇文献共涉及中国的10 000多名科研人员,许多都来自国内知名高等学校、科研院所和医疗机构,其中只有不到1/10的论文不涉及中国作者。由此可见,中国是会议文献撤稿的“重灾区”。但对于中国作者被撤销的大多数文献,出版商并没有明确给出撤稿原因;已经明确的撤稿原因中,以作者违反政策惯例为主,还包含抄袭、图像、分析、结论等方面的错误性问题。形成良好的学术服务与监督体系,营造良好的学术氛围对于我国科研诚信建设与科技创新至关重要,势在必行。
4.4会议文献撤稿与期刊论文撤稿具有重要区别对比本研究与其他相关研究的结果可以发现,会议文献与期刊论文在撤稿原因、撤稿时滞方面存在较大差异。具体来看,期刊论文多因抄袭、同行评议造假等学术不端行为被撤稿[2, 11],出版商对于撤稿原因的标注普遍较为全面规范。而对于本研究中的会议文献,过半数的文献被撤销而未明确说明原因,出版商含糊其辞;已明确撤稿原因的文献中,以作者违反出版商政策或惯例及作者主动撤回为主,作者主动撤回以在其他期刊发表也属于较为常见的现象。此外,根据IEEE的声明,大量会议文献被撤销可能是因为会议本身在流程与质量控制方面存在问题,不符合其要求和标准而被剔除,不同于期刊论文因论文和作者本身问题被撤稿。有关撤销时滞,张晴等发现92篇中文期刊论文的平均撤销时滞为1.5年[24],包靖玲等发现1 015 篇国际医学学术期刊论文的撤销时滞最长为26年、平均3.3年[30],Ilan等发现ScienceDirect中995篇论文的撤销时滞最长为28年[9]:会议文献的平均撤销时滞(约为2个月)明显比期刊论文短。这可能与学术文献发表前期刊和会议在组织建设与程序控制方面的严密性、稳定性和成熟性差异有关。会议文献的出版周期往往更短,负责统筹管理的会议组织程序委员会也具有较大不确定性,导致学术会议本身的质量和审稿规范性存在不稳定性,不符合标准规范的会议文献相较于期刊论文更易于在出版后的短期时间内被检测出来。
5 总 结
随着越来越多的撤稿事件登上头条,为净化学术环境,促进科研诚信建设,需要参与学术研究、学术出版、学术评价的科研人员、审稿人、出版商、科研管理机构共同努力。本研究从不同角度揭示了会议文献被撤销的一般规律和特征,对于学术共同体和社会各界具有参考价值和启示意义。对于学术共同体和社会形成有关会议文献被撤销的正确认识具有帮助作用,对于科研人员有效识别学术会议质量具有参考价值,对于相关组织机构规范撤稿操作具有启示意义。
研究发现,当研究人员将会议文献拓展并向学术期刊投稿时,论文最初提交的会议名称可能导致编辑对文章贡献类型的期望的差异,对会议拓展论文进行评估的审稿人会对会议的接收率、研究质量、同行评审过程的严谨性、项目委员会的程序以及其他这类情况有所了解[28]。对于科研人员而言,要致力于开展高质量负责任的科学研究,而当他们希望通过学术会议传播最新知识和研究创新时,参考会议文献被撤销的规律和特征判断选择高标准的学术会议对于提高其知识传播效果和社会影响力至关重要。此外,频发的大规模集中撤稿事件在一定程度上损害了科研人员的形象,降低了社会对于科学界的认可度。而更好地理解撤回的根本原因,则可能有助于改变科学文化的努力,并防止公众对科学的信任丧失[31]。研究人员、出版商和其他相关主体要共同寻求改善处理方式的方法,其努力的方向可能包括:建立更好地将论文与其撤稿声明或修订联系起来的制度,提高研究中错误的透明度和清晰度[6];会议相关主体和出版商承担更多的责任,提高组织程序和相关行为的规范性。
本研究基于撤稿观察数据库收录的被撤销会议文献展开研究,囿于数据库以及撤稿声明的完备度,研究难免存在局限和不足之处,对于撤稿原因的分析尚不深入。针对出版商大量集中撤稿、撤稿原因不明等现象,以出版商、会议主办方和被撤稿作者为调查对象,从多维视角探索学术会议文献出版在质量保障、法律保障尤其是版权协调方面面临的现实问题与潜在风险,寻求应对之策,具有重要现实意义。未来,如何利用大数据技术,基于学术共同体和社会公众对于撤稿相关数据信息的差异化需求,建设更加规范全面的撤稿数据库,并建立与其他网络信息平台的实时关联,全方位促进科研诚信建设与监管也将是重要的研究内容与实践工作。