僵尸试验攻陷学术殿堂

2023-09-29非田

看世界 2023年17期

关键词：学术论文试验

非田

超四分之一的临床试验数据可能有问题，甚至是完全编造的？这不是故意散播的耸人听闻言论，而是权威科学杂志《自然》在7月一篇调查报道中的结论。

在这篇名为《医学受到不可信的临床试验的困扰》的文章中，作者讲述了多个临床数据存疑甚至造假的“经典案例”。以英格兰国家卫生局的麻醉师约翰·卡尔斯利为例，他本身也是《麻醉学》杂志的编辑，以擅长在医学试验中发现可疑数据而闻名。

从2017年起，他开始整理自己曾处理过的500多项随机对照试验（RCT）论文手稿。经过长达3年的研究，他拿到了150项试验的匿名个体参与者数据（IPD），有44%存在数据缺陷。在他的推算下，约有26%的论文存在明显问题，涉嫌伪造数据。

严谨的学术殿堂里，造假等行为屡见不鲜，甚至连斯坦福大学校长都在不久前都被指称学术不端。正如《自然》所称，“双盲、可大规模重复、可标准量化”等基础科学逻辑，正在被屡禁不止的造假所挑战和摧毁。

事前发现越发艰难

1948年，一位咳声不止、面色苍白的英国人走进了皇家布朗普顿医院。在那个年代，晚期肺结核无异于死亡的代名词。被诊断为患上该病的他，只好抱着试试看的态度来到国内最好的心肺病医院。

为了验证链霉素治疗肺结核的疗效，在英国医学研究委员会的牵头下，英国正在开展一场被后世载入史册的医学试验：在上述医院等医疗机构中，肺结核患者将被分为链霉素组和对照组，两组除链霉素外其余治疗措施全部相同—在半年时间里，对照组的死亡率为27%，而链霉素组仅为7%。

在期刊不强制要求论文作者提供IPD数据的情况下，编辑很难发现论文的漏洞。

日本麻醉專家藤井善隆插画

论文打假网站PubPeer

这是人类历史上第一个随机双盲对照临床试验，他不仅验证了链霉素的有效，更让RCT成为后世验证药物效果的准绳。1970年起，美国食品药品管理局（FDA）要求制药商提交新药申请时，必须附上RCT结果。

RCT被誉为临床研究皇冠上的明珠，往往被认为是验证更为可靠数据的手段，而大量的分析推演，也都是建立在RCT基础上的。可一旦造假者将目标瞄准了RCT，不仅造假的事实更难被发现，其产生的危害也更为剧烈。

卡尔斯利将那些伪造RCT结果的试验称为“僵尸试验”—乍一看和正常的研究没有太大区别，但无法提供任何有科研价值的信息。

即便经验丰富如卡尔斯利，在无法拿到IPD的情况下，也只能确认2%的研究存在问题，只有1%能被认定为是“僵尸试验”，这与此前提到的44%和26%的比例相差极大。

这也就意味着，在期刊不强制要求论文作者提供IPD数据的情况下，编辑很难发现论文的漏洞，这些“僵尸试验”很可能顺利刊发。

RCT随机对照双盲实验

讽刺的是，严于律己的卡尔斯利不止一次拒绝被他认为是有问题的论文，但无法期待所有从业者都能像他这般自律。他悲哀地发现，尽管自己已经写信提醒过同行们，但那些被他拒绝的论文，大多会在不久后发表在其他期刊上，不少数据和他看到时存在差异，很可能是又“编”了一次。

不可信的研究或影响临床

更严重的是，大量的“僵尸试验”不仅会间接坑害后来的研究者，甚至直接影响治疗—因为RCT是评估临床治疗的重要依据，医疗指南往往会引用这些评估，而这也是国外医生进行治疗时的重要参考依据之一。

《自然》杂志举出了多个血淋淋的教训。在新冠疫情期间，有大量关于伊维菌素可以治疗新冠的RCT试验，认为其疗效显著，但去年的一项研究发现，这些试验中，有40%以上结果并不可信。

日本学者佐藤能启是骨科专家，他在被发现造假后选择自杀，但论文的遗祸却并未随着他离去而消失。据统计，他伪造了数十个预防骨折的药物或补充剂的试验数据，共计有113篇论文被撤稿，其中27篇论文被88篇系统评价和临床指南引用，其中一些已经成为了日本骨质疏松症的治疗参考。

与之相似的还有氨甲环酸。这是一种常用于治疗产后大出血的药物，但据伦敦卫生与热带医学学院的流行病学家调查，该药物的26项RCT中，有许多存在严重缺陷。今年4月，美国一项涉及1.1万人的RCT显示，氨甲环酸“只有轻微的、没有统计学意义的益处”。

而澳大利亚墨尔本莫纳什大学的学者在对比了36项关于氨甲环酸的研究后发现，只有2021年法国一项涉及4000多名患者的研究显示，氨甲环酸减少了16%的严重出血，但其余35项研究中，却称这一药物有效率高达93%。如此异常的数据的背后，或许存在造假问题。

“目前尚不清楚这些不可信的研究是否影响了临床实践”，《自然》杂志写道。受此影响，世界卫生组织也只能选取“折中方案”，建议使用氨甲环酸治疗分娩后失血，但并未推荐用于预防。

即便权威如《自然》，同样也没少被论文造假所困扰。去年7月，《科学》发布调查称，2006年，一篇刊载于《自然》上的论文涉嫌造假—该论文被认为是阿尔茨海默病领域的“开山论文”，外界基于第一作者西尔万·莱斯内提出的假说，投入了天文数字般的资金。

如今这一假说被质疑，虽不至于直接颠覆全部研究，但对学术研究和药品研发领域而言，都是一次冲击。

学术打假缺乏激励

大量论文数据造假背后，暗藏着一个个专业制假的“论文工厂”（paper mill），只要支付数百到数千美元不等的金额，就能为客户提供从论文撰写到刊发的一条龙式服务。《自然》杂志统计，过去十年里，许多领域的期刊发表了数以万计的可疑假论文，不少就是由这些“论文工厂”一手炮制的。

AI已经能生成假的显微镜图像，但想要证明图像是AI生成的，并不容易。

西尔万·莱斯内的作假论文被认为是阿尔茨海默病领域的“开山论文”

德国麻醉专家Joachim Boldt

与这样庞大且成规模的组织相比，学术打假人难免显得形单影只。以欧美学术界最出名的打假网站PubPeer和Retraction Watch为例，前者成立于2012年，主要依靠科研人员匿名对已发表论文进行评论和质疑，而后者关注学术撤稿领域，虽有专职团队但人数不多，资金也主要依赖几个基金会支持。

总体而言，学术打假更像是个体在对抗庞大的团队，大有双拳难敌四手之感。“用爱发电”已成为学术打假的常态，2017年，一份针对1200多名《自然》審稿人的问卷显示，71%的受访者表示，并不指望从审稿中获得报酬。

但面对日益严重的论文造假问题，“用爱发电”的模式显然不是长久之策。Retraction Watch创始人曾发文指出，2000年至2010年间，全世界被撤稿的论文从每年40篇增长到400篇左右；而到了2015年，这一数字已经激增至700篇左右，这对于审核者提出了相当高的要求。

更何况，如今涉嫌学术不端者的地位也越来越高，想要看穿造假并不容易。截至今年7月，Retraction Watch的《撤稿排行榜》上已有5人被撤稿超过100篇，其中排名前二的，分别是约阿希姆·博尔特与日本人藤井善隆，两人都是本国麻醉领域专家。

《自然》杂志也曾发文称，面对海量论文，期刊编辑很难找到乐意效劳的同行评审人。

除了团队人数完全不对等外，随着ChatGPT、NewBing等AI技术的成熟，学术打假人或评审人如今正面临着AI批量生产论文的新挑战。

在今年5月《自然》举办的一场关于“论文工厂”问题的峰会上，不少专家均认为，ChatGPT等的大规模应用，会让“论文工厂”更加泛滥，“有了AI之后，论文工厂对原始数据的造假能力将再上一个台阶”。目前，AI已经能生成假的显微镜图像，但想要证明图像是AI生成的，并不容易。

需打击造假源头

愈发严重的学术造假，归根结底还是社会问题。当错误的代价由别人承担时，犯错是容易的；当造假者未必会得到相应的惩罚，学术造假变得普遍，自然也就不稀奇了。

以前文提到的西尔万·莱斯内为例，在那篇涉嫌造假的论文发表前，他不过是一个名不见经传的学术新人，但在文章横空出世后，他旋即被多家知名医药公司追捧，可谓是名利双收。但事发后，他却没有受到多大的影响。

日本科学家小保方晴子的经历也与之相似。在宣称发现“万能细胞”前，她只是一个资历平平的普通科学家，在对女性科研人员不算友好的日本科研圈并不受重视。但那篇造假的论文，却让她获得“日本居里夫人”“下一个诺贝尔奖获得者”的美誉。

东窗事发后，她不仅没有销声匿迹，反而将学术不端的经历写成书，把责任全部推到了已经自杀的导师身上。小保方晴子在访谈中表示，这本书收获了百万册销量，自己还收到了来自国外的研究邀请。

日本科学家小保方晴子

事后追责效果不佳，更凸显预防的重要性。卡尔斯利认为，要想解决学术造假问题，必须从源头抓起，他所在的《麻醉学》杂志已经开始要求论文作者提供临床试验的IPD。他也呼吁，期刊应该假定所有论文都有潜在的缺陷，并要求编辑在发表RCT内容前审查IPD数据，敦促各方务必加强审查。

可惜的是，这一做法并未得到普及。2016年，国际医学期刊编辑委员会（ICMJE）提议，要求对随机对照试验进行强制性数据共享，但遭到了反对。此后，ICMJE也“服软”了，仅鼓励数据共享而非硬性要求。

由此可见，面对这一困境，业内似乎并没有很好的解决方法。在巨大的利益与显赫的名声面前，指望所有人都能不迷失自我，显然并不现实。从社会层面而言，要改变“唯论文论”的评价体系，严厉打击“论文工厂”，或许还有很长的路要走。

责任编辑吴阳煜 wyy@nfcmag.com

展开全文▼

猜你喜欢

学术论文试验

如何理解“Curator”：一个由翻译引发的学术思考