论文泡沫飚升,人工智能要背锅吗
2024-04-19张田勘
张田勘
据英国《自然》杂志报道,2023年被撤回的研究论文数量已超过1万篇,创下了年度纪录。大部分被撤回的论文来自出版机构辛迪维,该机构已撤回的论文数量超过8000篇。此前,我国教育部科学技术与信息化司发布通知,决定在各高校开展撤稿论文的自查工作。
被撤回的1万多篇论文可能只是冰山一角。根据《自然》杂志的分析,在过去10年中,论文撤回率(即每年发表的论文被撤回的比例)增加了两倍以上。2022年,这一比例超过了0.2%,相当于每发表500篇论文就会有1篇被撤回。此外,全球公布的撤回论文总数已超过5万篇,还有更多的论文被认定为论文工厂生产的造假论文,数量多达10万篇,其中一些撤稿还在论证中。
引起论文撤回的原因很多,除了存在同行评议的缺陷和系统性操控之外,论文工厂生产的论文也是一个重要因素。论文工厂是指那些专门生产大量学术论文的机构,它们通过雇佣写手撰写论文,然后出售给需要发表论文的人或机构,以获取高额利润。这些论文即使没有被阅读,也会被作为综述性文章统计,并被“洗白”成为主流文献。虽然一些论文撤回是因为作者发现了研究工作中的错误,但是绝大多数撤稿都源于科研诚信问题。
还有大量混杂在正常论文中的造假论文尚未被发现,也未被撤回。从比例来看,目前的撤稿率是0.2%,但估计实际的论文造假率可能为2%,造假率是撤稿率的10倍。
另一篇发表于《自然》杂志的文章指出,在过去20年已发表的40万篇科学论文中,约有7万篇是在2022年发表的。在2022年发表的所有科学论文中,有1.5%~2%与论文工厂的“作品”非常相似;而在生物学和医学论文中,这一比例最高,達到了3%,这说明生物学和医学领域的论文造假率最高。
德国神经心理学家、《恢复性神经病学和神经科学》期刊主编萨贝尔进行了一项调查,得出了与《自然》杂志类似的结论。他使用论文造假检测器对5000篇论文进行了验证,在2020年发表的神经科学论文中,有34%的论文涉嫌抄袭,而在医学类论文中,这一比例为24%。这些论文造假率远高于萨贝尔预估的2%。萨贝尔在医学预印本平台(MedRxiv)上发表的报告还显示,过去10多年,造假论文从逐渐增加到快速增加,2010—2020年,论文造假率从16%上升到28%。 在生物医学领域,仅2020年就有30万篇论文涉嫌造假。
近年来,高产研究人员大量增加,也从一个侧面反映了论文泡沫化现象。美国斯坦福大学伊安尼迪斯团队对2000—2022年斯科普斯数据库(Scopus)中的文章进行了研究,发现高产作者的数量成倍增加。2016年以前物理学领域“极端高产”作者数量较多,但2016年以后该领域高产作者数量逐年下降;与此同时,非物理学领域此类作者的数量却持续增加。除了物理学以外,大多数高产作者来自临床医学领域,到2022年,该领域已有近700名高产研究者。农业、渔业和林业是高产研究者数量增长速度最快的领域,从2016年到2022年增长了14倍。仅在2022年,非物理学领域就有1266名作者每5天发表一篇论文。相比之下,2016年只有387人这样高产。
科学研究是追求真理的人类行为,大量论文造假导致的泡沫不仅影响社会文明的提升和经济的发展,还可能对人们的健康和生命安全构成严重威胁。正如萨贝尔所言,如果30%的论文都是伪造的,那就意味着人们所接触到的信息中有30%是不可靠的,甚至是有害的。
那么,为什么会出现大量的论文泡沫呢?利益的诱惑是根本原因—伪造论文能够获得丰厚的收入。在全球各种网站和社交媒体上,充斥着大量论文工厂的小广告。这些论文工厂甚至承诺能够将论文发表在顶级学术期刊上,根据论文的难易程度收取费用,每篇1000~25000美元。据估算,如果每篇造假论文的均价为1万美元,那么论文造假行业的年营收可能高达30亿~40亿美元。论文工厂雇佣的论文写手主要为科学领域的学生、学者和顾问,他们极为高产。一些论文工厂甚至宣称自己拥有数百名写手,每个月能够稳定产出超过100篇可发表的学术论文。
从时间段上看,高产作者的数量和产出率在2014年开始趋于稳定,但近期却突然增加。这表明高产作者极有可能利用了以 ChatGPT为代表的生成式人工智能工具。
这些人工智能工具为众多论文工厂提供了几乎是零成本的生产工具。他们可以使用人工智能技术(如文本生成、数据统计、图像处理等)“生产”论文并使其看起来更真实,甚至一些科研人员也借助ChatGPT撰写论文。
尽管科学界和出版商希望能够检测出所有由大型语言模型(LLM)生成的文本,但迄今为止,人工智能检测工具还无法可靠地识别由LLM生成的论文。一些研究团队正在致力于研发能够为所有LLM产品添加水印的技术,然而目前尚未有相关软件问世。因此,在揭露和打击论文泡沫方面,一些研究人员认为应该对人工智能产品进行立法,例如,对LLM产品进行披露或添加水印,并将删除水印视为非法行为。此外,萨贝尔还建议将任何提供非学术电子邮件地址的文章视为可能是论文工厂的“作品”而加以标记。
人工智能正在改变世界,因此需要对人工智能工具的使用进行引导并制定规则,从而减少论文造假和撤稿的情况。一项对100家出版商和期刊进行的研究发现,截至2023年5月,约17%的出版商和70%的期刊已发布了关于如何使用LLM的指导方针,但这些指导方针在很多细节上存在差异。因此,未来可能需要国际社会制定一套统一的指导方针和准则,以帮助研究人员报告他们使用人工智能工具的情况,并区分原创内容和人工智能生成内容 。这将有助于确保学术界的诚信和公正性。
【责任编辑】张小萌