僵尸试验攻陷学术殿堂
2023-09-29非田
非田
超四分之一的临床试验数据可能有问题,甚至是完全编造的?这不是故意散播的耸人听闻言论,而是权威科学杂志《自然》在7月一篇调查报道中的结论。
在这篇名为《医学受到不可信的临床试验的困扰》的文章中,作者讲述了多个临床数据存疑甚至造假的“经典案例”。以英格兰国家卫生局的麻醉师约翰·卡尔斯利为例,他本身也是《麻醉学》杂志的编辑,以擅长在医学试验中发现可疑数据而闻名。
从2017年起,他开始整理自己曾处理过的500多项随机对照试验(RCT)论文手稿。经过长达3年的研究,他拿到了150项试验的匿名个体参与者数据(IPD),有44%存在数据缺陷。在他的推算下,约有26%的论文存在明显问题,涉嫌伪造数据。
严谨的学术殿堂里,造假等行为屡见不鲜,甚至连斯坦福大学校长都在不久前都被指称学术不端。正如《自然》所称,“双盲、可大规模重复、可标准量化”等基础科学逻辑,正在被屡禁不止的造假所挑战和摧毁。
事前发现越发艰难
1948年,一位咳声不止、面色苍白的英国人走进了皇家布朗普顿医院。在那个年代,晚期肺结核无异于死亡的代名词。被诊断为患上该病的他,只好抱着试试看的态度来到国内最好的心肺病医院。
为了验证链霉素治疗肺结核的疗效,在英国医学研究委员会的牵头下,英国正在开展一场被后世载入史册的医学试验:在上述医院等医疗机构中,肺结核患者将被分为链霉素组和对照组,两组除链霉素外其余治疗措施全部相同—在半年时间里,对照组的死亡率为27%,而链霉素组仅为7%。
在期刊不强制要求论文作者提供IPD数据的情况下,编辑很难发现论文的漏洞。
日本麻醉專家藤井善隆插画
论文打假网站PubPeer
这是人类历史上第一个随机双盲对照临床试验,他不仅验证了链霉素的有效,更让RCT成为后世验证药物效果的准绳。1970年起,美国食品药品管理局(FDA)要求制药商提交新药申请时,必须附上RCT结果。
RCT被誉为临床研究皇冠上的明珠,往往被认为是验证更为可靠数据的手段,而大量的分析推演,也都是建立在RCT基础上的。可一旦造假者将目标瞄准了RCT,不仅造假的事实更难被发现,其产生的危害也更为剧烈。
卡尔斯利将那些伪造RCT结果的试验称为“僵尸试验”—乍一看和正常的研究没有太大区别,但无法提供任何有科研价值的信息。
即便经验丰富如卡尔斯利,在无法拿到IPD的情况下,也只能确认2%的研究存在问题,只有1%能被认定为是“僵尸试验”,这与此前提到的44%和26%的比例相差极大。
这也就意味着,在期刊不强制要求论文作者提供IPD数据的情况下,编辑很难发现论文的漏洞,这些“僵尸试验”很可能顺利刊发。
RCT随机对照双盲实验
讽刺的是,严于律己的卡尔斯利不止一次拒绝被他认为是有问题的论文,但无法期待所有从业者都能像他这般自律。他悲哀地发现,尽管自己已经写信提醒过同行们,但那些被他拒绝的论文,大多会在不久后发表在其他期刊上,不少数据和他看到时存在差异,很可能是又“编”了一次。
不可信的研究或影响临床
更严重的是,大量的“僵尸试验”不仅会间接坑害后来的研究者,甚至直接影响治疗—因为RCT是评估临床治疗的重要依据,医疗指南往往会引用这些评估,而这也是国外医生进行治疗时的重要参考依据之一。
《自然》杂志举出了多个血淋淋的教训。在新冠疫情期间,有大量关于伊维菌素可以治疗新冠的RCT试验,认为其疗效显著,但去年的一项研究发现,这些试验中,有40%以上结果并不可信。
日本学者佐藤能启是骨科专家,他在被发现造假后选择自杀,但论文的遗祸却并未随着他离去而消失。据统计,他伪造了数十个预防骨折的药物或补充剂的试验数据,共计有113篇论文被撤稿,其中27篇论文被88篇系统评价和临床指南引用,其中一些已经成为了日本骨质疏松症的治疗参考。
与之相似的还有氨甲环酸。这是一种常用于治疗产后大出血的药物,但据伦敦卫生与热带医学学院的流行病学家调查,该药物的26项RCT中,有许多存在严重缺陷。今年4月,美国一项涉及1.1万人的RCT显示,氨甲环酸“只有轻微的、没有统计学意义的益处”。
而澳大利亚墨尔本莫纳什大学的学者在对比了36项关于氨甲环酸的研究后发现,只有2021年法国一项涉及4000多名患者的研究显示,氨甲环酸减少了16%的严重出血,但其余35项研究中,却称这一药物有效率高达93%。如此异常的数据的背后,或许存在造假问题。
“目前尚不清楚这些不可信的研究是否影响了临床实践”,《自然》杂志写道。受此影响,世界卫生组织也只能选取“折中方案”,建议使用氨甲环酸治疗分娩后失血,但并未推荐用于预防。
即便权威如《自然》,同样也没少被论文造假所困扰。去年7月,《科学》发布调查称,2006年,一篇刊载于《自然》上的论文涉嫌造假—该论文被认为是阿尔茨海默病领域的“开山论文”,外界基于第一作者西尔万·莱斯内提出的假说,投入了天文数字般的资金。
如今这一假说被质疑,虽不至于直接颠覆全部研究,但对学术研究和药品研发领域而言,都是一次冲击。
学术打假缺乏激励
大量论文数据造假背后,暗藏着一个个专业制假的“论文工厂”(paper mill),只要支付数百到数千美元不等的金额,就能为客户提供从论文撰写到刊发的一条龙式服务。《自然》杂志统计,过去十年里,许多领域的期刊发表了数以万计的可疑假论文,不少就是由这些“论文工厂”一手炮制的。
AI已经能生成假的显微镜图像,但想要证明图像是AI生成的,并不容易。
西尔万·莱斯内的作假论文被认为是阿尔茨海默病领域的“开山论文”
德国麻醉专家Joachim Boldt
与这样庞大且成规模的组织相比,学术打假人难免显得形单影只。以欧美学术界最出名的打假网站PubPeer和Retraction Watch为例,前者成立于2012年,主要依靠科研人员匿名对已发表论文进行评论和质疑,而后者关注学术撤稿领域,虽有专职团队但人数不多,资金也主要依赖几个基金会支持。
总体而言,学术打假更像是个体在对抗庞大的团队,大有双拳难敌四手之感。“用爱发电”已成为学术打假的常态,2017年,一份针对1200多名《自然》審稿人的问卷显示,71%的受访者表示,并不指望从审稿中获得报酬。
但面对日益严重的论文造假问题,“用爱发电”的模式显然不是长久之策。Retraction Watch创始人曾发文指出,2000年至2010年间,全世界被撤稿的论文从每年40篇增长到400篇左右;而到了2015年,这一数字已经激增至700篇左右,这对于审核者提出了相当高的要求。
更何况,如今涉嫌学术不端者的地位也越来越高,想要看穿造假并不容易。截至今年7月,Retraction Watch的《撤稿排行榜》上已有5人被撤稿超过100篇,其中排名前二的,分别是约阿希姆·博尔特与日本人藤井善隆,两人都是本国麻醉领域专家。
《自然》杂志也曾发文称,面对海量论文,期刊编辑很难找到乐意效劳的同行评审人。
除了团队人数完全不对等外,随着ChatGPT、NewBing等AI技术的成熟,学术打假人或评审人如今正面临着AI批量生产论文的新挑战。
在今年5月《自然》举办的一场关于“论文工厂”问题的峰会上,不少专家均认为,ChatGPT等的大规模应用,会让“论文工厂”更加泛滥,“有了AI之后,论文工厂对原始数据的造假能力将再上一个台阶”。目前,AI已经能生成假的显微镜图像,但想要证明图像是AI生成的,并不容易。
需打击造假源头
愈发严重的学术造假,归根结底还是社会问题。当错误的代价由别人承担时,犯错是容易的;当造假者未必会得到相应的惩罚,学术造假变得普遍,自然也就不稀奇了。
以前文提到的西尔万·莱斯内为例,在那篇涉嫌造假的论文发表前,他不过是一个名不见经传的学术新人,但在文章横空出世后,他旋即被多家知名医药公司追捧,可谓是名利双收。但事发后,他却没有受到多大的影响。
日本科学家小保方晴子的经历也与之相似。在宣称发现“万能细胞”前,她只是一个资历平平的普通科学家,在对女性科研人员不算友好的日本科研圈并不受重视。但那篇造假的论文,却让她获得“日本居里夫人”“下一个诺贝尔奖获得者”的美誉。
东窗事发后,她不仅没有销声匿迹,反而将学术不端的经历写成书,把责任全部推到了已经自杀的导师身上。小保方晴子在访谈中表示,这本书收获了百万册销量,自己还收到了来自国外的研究邀请。
日本科学家小保方晴子
事后追责效果不佳,更凸显预防的重要性。卡尔斯利认为,要想解决学术造假问题,必须从源头抓起,他所在的《麻醉学》杂志已经开始要求论文作者提供临床试验的IPD。他也呼吁,期刊应该假定所有论文都有潜在的缺陷,并要求编辑在发表RCT内容前审查IPD数据,敦促各方务必加强审查。
可惜的是,这一做法并未得到普及。2016年,国际医学期刊编辑委员会(ICMJE)提议,要求对随机对照试验进行强制性数据共享,但遭到了反对。此后,ICMJE也“服软”了,仅鼓励数据共享而非硬性要求。
由此可见,面对这一困境,业内似乎并没有很好的解决方法。在巨大的利益与显赫的名声面前,指望所有人都能不迷失自我,显然并不现实。从社会层面而言,要改变“唯论文论”的评价体系,严厉打击“论文工厂”,或许还有很长的路要走。
责任编辑吴阳煜 wyy@nfcmag.com