杜克大学波蒂事件及研究的可重复性
2013-01-26王炳顺
王炳顺
(上海交通大学基础医学院生物统计学教研室,上海 200025)
近几年,《自然》和《科学》等许多国际学术期刊围绕美国著名学府杜克大学发生的一起重大学术问题事件持续进行探讨和反思,[1-3]甚至连《纽约时报》及哥伦比亚广播公司电视新闻杂志栏目《60分钟》等各路新闻媒体纷纷跟进报道,一时间,杜克大学“波蒂事件”进入公众的视线,吸引了广大公众的眼球,一些杂志与媒体甚至不客气地称之为杜克丑闻与杜克欺骗。[4-6]目前尚未见到国内学术期刊介绍该事件的来龙去脉及其引发的学术反思与启示。本文对杜克事件进行了初步梳理,并对医学研究的复杂性与可重复性问题进行探讨。
1 杜克学术事件概览
恶性肿瘤是严重危害人类健康的重大疾病。经过数十年的艰苦探索,肿瘤基础研究取得了很大进展,然而,成果转化到临床应用及临床肿瘤治疗效果方面一直没有太大突破。近些年来,采用有效手段对不同患者准确筛选敏感化疗方案的肿瘤个性化治疗成为一个热门领域。2006年10月杜克团队以阿尼尔·波蒂(Anil Potti)为第一作者、约瑟夫·内文斯(Joseph Nevins)为通讯作者在《自然-医学》杂志(Nature medicine)发表研究结果,[7]声称基于肿瘤细胞系药敏试验与基因表达谱成功建立了肿瘤对化疗的敏感性预测模型,根据肿瘤基因特征可为患者选择针对性的敏感化疗药物。杜克大学研究团队的研究引起了同行极大兴趣与关注,其中包括美国德克萨斯大学安德森癌症中心(MD Anderson Cancer Center,MDACC,Texas University)的临床研究者,他们在跟进前出于慎重,邀请基思·巴格利(Keith Baggerly)和凯文·库姆斯(Kevin Coombes)这两位专长生物信息研究的生物统计学家对杜克团队的《自然-医学》论文加以核实。两位生物统计学家不曾想到,几经周折,随之而来的是影响学界的一场大风波。
2006年11月起,巴格利和库姆斯反复联系杜克团队,虽然得到作者有关原始数据和研究方法的一些澄清说明,但是仍然不能重现论文中的结果。深入探查后,他们在杜克团队论文中发现了一些低级错误,包括看似不属于数据清单中的基因、数据错位及混乱的标签分组等。2007年11月,库姆斯和巴格利的对杜克团队文章的担忧发表在《自然-医学》期刊上。[8]而波蒂和内文斯只承认是一些笔误并予以修正,[9]否认了巴格利等人指出的其他主要问题,并认为自己的方法是稳健可重复的。
波蒂-内文斯团队在一些著名期刊发表了基于同样方法的一系列论文。在波蒂-内文斯团队在《自然—医学》论文发表一年后,杜克大学根据波蒂-内文斯预测方法启动了三个临床试验项目。巴格利2009年获知临床试验早已开始后感觉事态严重,担心那些满怀希望投奔杜克的癌症患者可能在承担更大的风险,于是决定采取另外一种措施:发表自己的论文。联系生物医学期刊碰壁后,2009年9月,他们将论文发表在统计学专业杂志《应用统计学年刊》上。[10]
几乎同一时间段,美国国家癌症研究所(National Cancer Institute,NCI)的生物统计学家也在尝试查证杜克团队的工作,后来和巴格利与库姆斯一样并没有验证出杜克团队已发表论文的研究结果。为了回应安德森癌症中心和NCI研究人员的质疑和担忧,2009年10月,杜克大学的管理层对波蒂-内文斯团队的研究工作进行了审查,并暂停了三项临床试验。然而杜克大学管理层在审查时没有把巴格利博士等人的批评意见递交到独立审查委员会,该委员会只收到了研究方自己所提供的材料,导致独立审查委员会没有发现问题。杜克大学的审查算是通过了,但审查过程没有公开,三项临床试验于2010年2月重新开始。2010年7月,《癌症通讯》的有关波蒂涉嫌简历造假的报道让整个杜克事件出现戏剧性的转折。7月19日,33位资深生物统计学家和生物信息学专家联名写信给NCI主任同时转发杜克大学及其他管理机构,反映杜克临床试验问题。杜克大学随即让波蒂停职休假接受调查。几天后,33位著名的生物统计学家和生物信息学专家联名写信给NCI主任哈罗德·瓦默斯(Harold Varmus),表达了对于杜克大学临床试验中应用其预测模型的担忧,极力主张独立审核结果出来前先暂停杜克的三个临床试验。随后NCI和杜克大学邀请美国国家研究院下辖的医学研究所(Institute of Medicine,IOM)成立外部独立审查委员会调查杜克临床试验的科学基础。经过几番调查与听证后,IOM成立的专门委员会最终在2012年3月公布了报告《组学转化研究的演变:吸取教训与前行之路》。[11]
2010年底,杜克大学永久停止了那三项临床试验。波蒂博士最终从杜克大学辞职,他承认简历造假,但声称自己并没有意识到数据处理与分析存在错误。一团乱麻的杜克事件,留给本研究领域一片阴云,留给同行一面黄色警告牌,留给杜克大学研究体系整顿及应对诉讼纠纷等无数折腾。
2 学术自净的撤稿问题及医学研究的复杂性
杜克事件后,据负责临床研究的杜克大学副校长、转化医学研究院院长罗伯特·卡利夫(Robert Califf)教授估计:波蒂团队的撤稿陆陆续续可能会达到20多篇。需要警示的是,正如IOM的报告《组学转化研究的演变:吸取教训与前行之路》中特别指出的,杜克事件暴露的系列问题并不局限于杜克大学。[11]从全球生物医学研究论文的撤稿率就可见一斑。在PubMed搜索1990~2009年“已撤稿”的论文记录,结果显示:20年来论文发表总数在不断增加的同时撤稿率不断快速上升。由于论文发表到撤稿声明需要些时日,可以预见,后几年的撤稿比例将会提升。
撤稿是学术自我纠错的反映,不难理解撤稿数量位居前列的是全球科研人员关注度极高的《自然》、《科学》和《新英格兰医学》、《柳叶刀》等高水平学术期刊。难道其他杂志错误率少因而撤稿少?看看著名学者Ioannidis在《PLoS-医学》发表文章分析的《为什么大多数发表的研究结果是假阳性》,[12]也就能理解撤稿只是有心发现了论文中的问题而纠错,整个学术出版界还有大量的问题论文被“冷落”了,撤稿数量反映的只是问题的冰山一角。
撤稿率的上升某种程度上体现了现代医学研究中生命现象与人类疾病的复杂性。就像美国在20世纪70年代掀起攻克癌症的战争,雄心勃勃实施“国家癌症计划”,然而,几十年过去了,尽管投入了大量人力和物力,却没有取得人们所预期的成果,因为癌症生物学复杂性远远超过了人们当时的理解。又如,2001年人类基因组工作草图的发表是人类基因组计划的里程碑事件,人们以为打开了遗传天书,能够解码生命、可以征服癌症等重大疾病了。然而十年后,《自然》杂志于2010年3月刊文慨叹《人类基因组十年:生命太复杂了》。[13]而且,相比前十年,2001年后撤稿比例上升的更快,这一有趣现象有待进一步分析。它是否提示由结构基因组学向功能基因组学过渡、转化的过程中,人们就像陷入了更大的科学迷宫,更难找到出口、更容易迷失犯错?生物医学研究具有不同层面与各个阶段,越是靠近发现与探索阶段越像是盲人摸象,每个研究组都抱着自己的靶标,以为目标明确、问题有解了。尤其当生物医学研究产生海量数据,人们在数据挖掘过程中往往变成了数据打捞、数据揉搓或数据拷问,“屈打成招”的阳性结果纷纷冒出,矛盾的、冲突的结论更显示医学研究问题的复杂性。
生命现象的复杂性和医学研究中的不确定性,促使我们懂得谦卑,敬畏生命;促使我们了解得越多,越需要去了解更多;促使我们不断发现与验证,探索与确证。我们承认自身知识有限和工具有限,需要解决的是如何在有限认知基础上一步一步向前推进。例如撤稿是学术净化与科学进步的反映,撤稿背后的原因就值得甄别,从而有针对性地逐步解决问题。已有多位研究者对此进行了深入分析,[14-16]其中Wager等人调查了1998~2008年间被撤稿论文,[14]对其中312篇文章撤稿原因进行仔细分析与分类,第一类占40%:包括研究工具、数据源与计算方面的错误,结果不能重复;第二类为学术不端,占28%,如剽窃、捏造与弄虚作假;随后17%为重复发表,15%为其他原因。
杜克事件发端于波蒂团队的研究结果不能被重复与重现。由此,有必要厘清医学研究的重复性问题。
3 医学研究的基本准则:可重复性
重复是科学研究的基本准则,不能重复则无法确认研究结果,可重复的结果才是真实可信的。基于不同视角,重复性大致可以分为三个层面。
3.1 单项研究本身所需要重复的样本量
生物医学研究一个重要特点是研究对象的个体变异性。常识告诉我们个别现象不能代表普遍规律。为了区分事实和偶然性,生物医学研究要重复观察一定数量的独立样本,而样本量取决于效应值大小、变异程度、研究把握度及对假阳性错误的控制水平。当然,当研究成本高昂,或者就像前面漆黑一片,明眼人也要靠“拐杖”试探着前进,有的时候仍可能会进行类似一个组别只设两三只小鼠的探索性研究。
这里需要注意各独立个体的重复观察数据与同一个体重复测量值的区别。后者解决的是技术上测量精度需要,前者才能解决统计学推断问题。这类似生物医学基础研究中常说的“生物学重复”与“技术重复”。技术重复不是完全独立的,不能消除系统误差与生物个体变异。已有文章强调基因组学研究中随着测序技术应用的推广和成本降低,不能忽略了生物学重复的重要性。[17]如果实验设计没有生物学重复,或者生物学重复的样本量不足,将不能得到有统计学意义的结果;所获得的差异表达基因很可能只是少数个体差异的表现,并不能反映疾病或者特定生理状态下的群体本质特征。这警示我们绝不能让高新技术的光芒迷障双眼,而忽略了医学科研中需要贯彻的统计学基本原理。
3.2 针对同一问题,一项研究能被其他独立研究所重复
这里所指的重复不是一模一样的克隆性复制,而是指针对同一问题,两个或多个相对独立的研究能否达到一致结论。例如,对于企业创新药物注册申请,美国FDA通常要求申办者提交相对独立的两个关键临床试验证据,确保上市药物安全、有效。又如,在某个热门研究领域,一个实验室的结果能否被另一团队重复出来。通常说的重复就是这个意义上的相互印证。
2012年3月,《自然》杂志发表来自企业界的资深研究员C·格伦·贝格利(C.Glenn Begley)的一篇评论文章《提高临床前癌症研究标准》。[18]文中报道:为了在一些突破性癌症研究的基础上研发新药物,研究小组选择了一流杂志上53份癌症基础研究“里程碑式”研究论文,试图重复他们的研究工作以重现论文结果,即企业在巨额投入前需要确保这些研究发现的真实性。然而令作者震惊的是:有47篇论文,即约九成的研究不能被重复。可见不能对已发表的结果一概信以为真,重复是鉴别真伪的试金石。
3.3 单项研究自身的结果能够被重现
基于同一原始研究资料,既可以由作者自己的分析工具生成该论文展示的研究结果,也可以由他人在别的平台中用相似的分析过程重现一样的结果。这方面越来越得到一些杂志的认同,[19-21]尤其对于组学方面的研究,除了需要作者提交芯片等原始数据,今后将会逐步要求提供分析流程及所用的程序代码。
前述巴克利等人为了重新再现杜克大学波蒂团队所发表论文的结果,虽然可以获取波蒂团队提交的数据,但由于缺乏具体分析过程,他们的核查工作耗费了近两千个小时。可见为了学术自身净化与及时纠错,数据共享与程序提交很有必要,为了原始研究结果出来后高效率地流程化分析及确保此后重现性,值得花费大量时间与精力用于程序代码的编写与调整。例如在临床试验统计分析时,常常采用SAS软件ODS功能结合Report过程自动生成统计分析报告;组学海量数据分析时可以结合R语言Sweave函数或采用整合的knitr包生成动态报表。[22]若条件许可,重大项目的大数据分析最好能得到所在大学或机构独立的统计中心进行重现性验证和确认。
一般来说,单项研究本身样本量越大,结论越有说服力,在与其他同类研究比较时证据强度越大;在数据和分析流程固定的情况下,一项研究自身的结果能被很好重现,那么他人就能鉴别研究结论的可接受程度;自身重现性好的研究更有可能被同类研究所重复,从而确认研究结果的真实性和结论的稳健性,增进人类对本质规律的认识。
杜克大学波蒂重大学术丑闻并非偶然性事件,面对复杂的生命现象探寻医学本质规律,既要鼓励创新、宽容失败、勇敢探索,又要强调研究所必需的“可重复性”、避免急躁冒进,以免危害学术体系,甚至导致公众的信任危机。只有基于经得起考证的确凿数据,坚实的基础研究,才会高效转化成临床应用成果,造福人类健康。
[1]Couzin-Frankel J.Cancer research.As questions grow,Duke halts trials,launches investigation[J].Science,2010,329(5992):614-615.
[2]Samuel Reich E.Cancer trial errors revealed[J].Nature,2011,469(7329):139 -140.
[3]Kaiser J.Clinical medicine.Biomarker tests need closer scrutiny,IOM concludes[J].Science,2012,335(6076):1554.
[4]Goozner M.Duke scandal highlights need for genomics research criteria[J].J Natl Cancer Inst,2011,103(12):916 -917.
[5]Ince D.The Duke University scandal—what can be done[J].Significance,2011,8(3):113-115.
[6]Deception at Duke:Fraud in cancer care?CBS News 60 Minutes[EB/OL].http://www.cbsnews.com/8301 -18560_162 -57376073/deception-at- duke,2012-9-29.
[7]Potti A,Dressman HK,Bild A,et al.Genomic signatures to guide the use of chemotherapeutics[J].Nat Med,2006,12(11):1294 -1300.
[8]Coombes KR,Wang J,Baggerly KA.Microarrays:retracing steps[J].Nat Med,2007,13(11):1276-1277.
[9]Potti A,Nevins JR.Reply to Microarrays:retracing steps[J].Nat Med,2007,13(11):1277-1278.
[10]Baggerly KA,Coombes KR.Deriving chemosensitivity from cell lines:Forensic bioinformatics and reproducible research in high-throughput biology[J].The Anna of Appl Stat,2009,3(4):1309-1334.
[11]IOM(Institute of Medicine).Evolution of Trans-lational Omics:Lessons Learned and the Path Forward[M].Washington,DC:The National Academies Press,2012:239 -280.
[12]Ioannidis JPA.Why most published research findings are false[J].PLoS Med,2005,2(8):696-701.
[13]Check Hayden E.Human genome at ten:Life is Complicated[J].Nature,2010,464(7289):664-667.
[14]Wager E,Williams.Why and How Do Journals Retract Articles?An Analysis of Medline Retractions 1988 - 2008[J].J Med Ethics,2011,37(9):567-570.
[15]Van Noorden R.Science publishing:The trouble with retractions[J].Nature,2011,478(7367):26-28.
[16]Fang FC,Steen RG,Casadevall A.Misconduct accounts for the majority of retracted scientific publications[J].Proc Natl Acad Sci USA,2012,109(42):17028- 17033.
[17]Hansen KD,Wu Z,Irizarry RA,et al.Sequencing technology does not eliminate biological variability[J].Nat Biotechnol,2011,29(7):572-573.
[18]Begley CG,Ellis LM.Drug development:Raise standards for preclinical cancer research[J].Nature,2012,483(7391):531 -533.
[19]Laine C,Goodman SN,Griswold ME.Reproducible research:moving toward research the public can really trust[J].Ann Intern Med,2007,146(6):450-453.
[20]Baggerly KA,Coombes KR.What information should be required to Support Clinical“Omics”Publications[J].Clin Chem,2011,57(5):688-690.
[21]Ince DC,Hatton L,Graham -Cumming J.The case for open computer programs[J].Nature,2012,482(7386):485 -488.
[22]Yihui Xie.knitr:Elegant,flexible and fast dynamic report generation with R[EB/OL].http://yihui.name/knitr/,2012 -9 -29.