APP下载

临床试验中P值的意义及结果解读

2017-04-05周敏林综述刘玉秀审校

肾脏病与透析肾移植杂志 2017年2期
关键词:临床试验结论阴性

周敏林 综述 刘玉秀 审校

·医学继续教育·

临床试验中P值的意义及结果解读

周敏林1综述 刘玉秀2审校

P值是生物医学研究中最常使用的统计学概念,在临床试验中尤为普遍。但关于P值的意义一直争议不断。本文在对美国统计协会发布的P值声明进行阐述的基础上,介绍《新英格兰医学杂志》发表的两篇关于临床试验获得主要结局P值后的结果解读要点,结合STOP-IgAN和SPRINT两个真实临床试验进行实例解读,期望为研究者正确解读P值、提高临床试验结果报告质量提供遵循依据,得到准确的研究结论。

P值 统计意义 临床试验

临床试验完成后,其结论一般取决于主要结局的P值,若P<0.05,则认为是阳性结果,反之视为阴性结果。这种仅基于P值做结论推断的事实近年来饱受争议。多篇文章指出P值常被误解或误用[1-5]。假设检验的创立者Fisher等[6]提出用P值量化拒绝原假设的程度[6-7],而如今P<0.05常被误认为是差异显著,而P<0.01则被误认为是差异非常显著,甚至获得较小P值的研究结果基本不被质疑[8]。因此,澄清P值的意义并对试验结果进行正确解读成为学术界关注的焦点。本文在对美国统计协会(American Statistical Association,ASA)发布的P值声明进行阐述的基础上,介绍《新英格兰医学杂志》(The New England Journal of Medicine,NEJM)发表的两篇关于临床试验获得主要结局P值后的结果解读的要点,结合STOP-IgAN和SPRINT两个临床试验进行实例解读,期望为研究者正确解读P值、提高临床试验结果报告质量提供遵循依据,得到准确的研究结论。

P值的意义

2014年《Nature》杂志刊发了《Scientific method:statistical errors》并配发述评,对统计检验的“金标准”P值提出了质疑,认为P值并没有科学家所认为的那样可信[9-10]。该文成为Nature杂志最受关注的文章之一(http://www.altmetric.com/details/2115792#score)。鉴于目前存在关于P值和统计意义(Statistical significance)的误解及误用,ASA于2016年3月在线发布《ASA关于P值的声明:背景、过程和目的》,在此基础上推出了《ASA关于统计意义和P值的声明》(http://dx.doi.org/10.1080/00031305.2016.1154108)。该声明给出了P值的定义及六条准则。P值是指在特定的统计假设模型下,数据的某个统计指标(如两组样本均数之差)等于观察值或比观察值更为极端的概率。六条关于P值的准则,反映了ASA对P值的官方态度:(1)P值表示数据与特定的统计模型不匹配的程度。即在原假设(如两组之间没有差异)的前提下,P值越小,说明数据与模型不匹配程度越高,因此越有理由拒绝原假设。(2)P值不是研究假说为真的概率,也不是数据由随机产生的概率。P值说明数据与假设的关系,而不解释假设本身。(3)科学结论、商业决策或政策制定不能取决于P值是否超过规定的界值。成功的决策应考虑实验设计、数据质量、外部证据、假设的合理性等诸多因素。仅仅看P值是否小于0.05是非常具有误导性的。(4)正确的推断依赖于报告的全面性和透明度。研究者要公布研究中所有的假设、数据收集和统计分析过程,以及P值。(5)P值或统计意义并不表示处理效应(Treatment effect)的大小或结果的重要性。再微小的效应,当样本量足够大或测量精度足够高时,都能获得较小的P值;反之再大的效应在样本量不足或测量精度不高时,其P值也会很大。(6)P值本身并不是衡量一个模型或假说的标准。数据分析时不能仅计算P值,而应同时采用其他适合的或可行性更高的方法。该声明尽管并没有超越既往P值的学术内涵,但ASA从本质上全面透彻地梳理了统计界关于P值的统计意义并形成共识,所有科研人员、统计学人员、以及与统计学应用相关的人员都应该了解这份共识。

基于P值的试验结果解读

仅仅基于P值做结论推断过于简单,还必须关注与P值相关的其他事项。2016年9月《NEJM》杂志刊登了Pocock和Stone联手发表的两篇重磅论文,《The Primary outcome fails—what next?》[11]和《The Primary outcome is Positive-Is that good enough?》[12]。两篇文章深度诠释了当主要结局的P值有统计学意义和无统计学意义时,该如何解读和进一步分析试验结果。

主要结局阴性结果的解读 如果试验主要结局(Primary outcome)的P>0.05,则无统计学意义,可以考虑从以下12个方面进一步探讨:(1)是否有其他的获益?如TORCH临床试验[13],沙美特罗联合氟替卡松与安慰剂对照治疗慢性阻塞性肺病,其主要结局全因死亡的P值为0.052,而其他结局指标均有统计学意义,这样的结果值得更积极地解读,而不仅仅是简单的“阴性结果”。(2)试验的把握度(power)是否足够?本来有差异的处理效应因样本量不足而未被发现,这样的试验结果应解读为把握度不足,目前尚无法获得结论而不是阴性结论。(3)主要结局是否合适(或是否定义明确)?试验的成功与否很大程度上取决于指标的定义和判定方法。有时候复合指标(Composite outcome)尽管可以增加主要终点事件的数目,但是不一定能够增加试验的效能。(4)研究人群是否合适?当试验失败时更倾向于质疑是否入组了不合适的研究人群。依据研究结局的发生机制和前期研究来确定合适的受试人群是成功的关键。(5)治疗方案是否合适?关键试验(pivotal trial)中确定新药的剂量非常困难,为使风险最小化,一般设计三组,分别是对照组和新药的两种剂量组。(6)试验执行过程中有何不足?如果方案执行很差,会导致处理效应被弱化或者消失。(7)非劣效界值(noninferiority margin)是否明确?治疗组与阳性对照相比未获得优效结论时,是否可以得出非劣效结论?如果治疗组有其他优势,比如伤害更小、副作用更少,是可以考虑作非劣效判定的,关键是要在研究设计阶段事先声明并定义好非劣效假设。(8)亚组分析(subgroup analysis)是否有阳性结果?主要结局无统计学意义则考虑做亚组分析,这样的想法尽管常有误导性,但有时对结果分析是有一定帮助的。当然,即使亚组的交互作用有统计意义,至多对产生新的研究假说有帮助,而不能做为定论。(9)次要结局(secondary outcome)是否有阳性结果发现?主要结局阴性时,可以依据阳性的次要结局做假设推断,虽然注册机构不会批准该新药,但次要结局的发现可以影响指导原则及实践指南。(10)进一步的其他分析方法是否有结果的改变?如协变量(covariate)调整、实际处理分析(as-treated analysis)或符合方案分析(per-protocol analysis)、复发事件(repeat events)分析等是否改变了当前的结果。(11)是否存在其他研究证据?当临床试验效能足够却获得意外的阴性结果,则需要仔细分析对比先前的其它类似试验研究结果以进一步查找原因。(12)从作用机制上能否解释治疗组更优?如果试验方法学无法解释治疗失败的原因,可以试着从生物学机制角度去解释。

主要结局阳性结果的解读 如果试验主要结局的P值小于0.05,表明有统计学意义,则可以考虑从以下11个方面进一步探讨:(1)P<0.05是否足够?P=0.05表示有5%的可能出现假阳性结果。如果试验想更加确信治疗措施差异的存在,则P值应该更小,如P<0.001。(2)治疗获益的临床意义?除了要有统计学意义,处理效应也要有临床意义,这取决于处理效应的相对指标(如风险比HR)或绝对指标(如率差)的大小,此外,还应提供相应的95%可信区间。(3)主要结局在临床上是否重要?临床试验中常使用替代指标和复合指标作为主要结局,但却不能完全等同于硬终点(如死亡、心脑血管事件等)。已有使用替代指标(surrogate outcome)的大规模临床试验的结果遭到质疑,如ACCORD试验[14]。而使用复合指标时则有必要查明是其中哪些指标导致了阳性结果,这样更有利于对结果的细化解读。(4)次要结局的结论与主要结局是否一致?若次要结局也显示阳性结果,则会使试验的阳性结论更加确信。(5)亚组分析结论是否一致?治疗效应会因人群特征的不同而不同。一种情况是所有亚组的结论都和总的结论一致,而在某特定亚组治疗获益更大,另外一种较为棘手的情况是总的结论阳性而亚组分析是阴性的,而这种阴性结果也许是因为进行了多次亚组分析而出现的错误结果。然而,是否应禁止这样的亚组人群使用该治疗实难抉择,需要从统计交互作用(Interaction)及生物学合理性等方面进行具体分析。(6)试验样本量是否足够大?小样本试验获得阳性结果时,下结论需当心,因其效能不足,可能是治疗效应的夸大而出现的假阳性结果。(7)试验是否提前终止?部分试验由于中期分析显示治疗优效而提前终止,提前终止有夸大试验结果的风险,此外还可能导致次要结局和安全终点无法获得。因此,提前终止试验需谨慎而为。(8)安全性如何?当一个新的治疗方案显示优效时,必须要关心安全性问题。安全性和疗效结果都要提供。结果解读时也应综合分析治疗方案的疗效和安全性,两者间需充分权衡。(9)疗效和安全性是否有患者人群特异性?即应当尽可能识别出不同类型患者人群疗效-安全性关系。可通过统计模型预测病人的疗效和安全性事件发生风险,分析其利弊。(10)试验在设计和执行方面是否有缺陷?主要结局具有高度显著性的优效结果因偶然性出现的可能性较小,但是要排除设计和执行方面的缺陷。(11)研究结果是否可应用到所有患者?任何临床试验均是将特定的治疗应用于特定的受试者,需客观分析这样的结果能否推广到临床应用中。试验进行的地域是影响结果推广的因素之一,同时,遗传、生理结构、环境和饮食结构的差别也都是影响结果推广的因素。此外,单中心临床试验因其特定的护理及治疗背景,所得出的结论应用于修改临床指南时应慎重,还要有多中心临床试验的验证。

实例结果解读

在对上述内容学习体会的基础上,我们选取NEJM杂志上发表的两篇随机对照临床试验(randomized clinical trial,RCT)研究为例,分别对主要结局的P值结果为阴性和阳性的情形进行实例解读。

STOP-IgAN研究—主要结局阴性的结果解读 STOP-IgAN研究[15]是前瞻、开放、随机对照试验,目的是比较强化支持治疗与强化支持治疗联合免疫抑制剂方案对进展性IgAN的疗效。符合条件的患者经过6个月的强化支持治疗后,蛋白尿在0.75~3.5 g/d之间且合并高血压或肾功能下降的患者随机分配至强化支持治疗组和强化支持治疗联合免疫抑制剂组。该试验有两个主要结局,分别是达到临床完全缓解和GFR较基线下降15 ml/(min·1.73m2)以上的比例。全分析集(full-analysis set)结果显示强化支持治疗联合免疫抑制剂组的完全临床缓解与强化支持治疗组相比,其OR值为4.82,95%CI(1.43~16.3),P=0.01;而两组GFR下降>15 ml/(min·1.73m2)的OR值为0.89,95%CI(0.44~1.81),P=0.75。尽管免疫抑制剂治疗可提高临床完全缓解率,但试验的总结论为免疫抑制剂治疗对肾功能无保护作用。作为主要结局指标之一,该研究在讨论eGFR下降>15 ml/(min·1.73m2)获得的阴性结果时,从以下几方面进行:(1)两组eGFR的绝对差值未提示有潜在治疗获益趋势;(2)两组均有超过25%的人到达终点,把握度不足的可能性较小;(3)关于eGFR下降>15 ml/(min·1.73m2)终点定义的讨论,监管当局采用eGFR下降50%作为终点指标,最近也有研究指出eGFR下降30%是有效的替代终点;(4)研究设计包括了筛选期,筛选了同质、高风险研究人群;(5)治疗方案符合KDIGO指导原则;(6)其他与eGFR有关的次要结局也均无统计学差异;(7)分析采用校正了基线eGFR和蛋白尿的多因素logistic分析,此外,可获得病例分析(available-case analysis )也未显示eGFR的指标两组差别有统计学意义。文章的这7点讨论内容分别对应主要结局阴性结果解读12条的条目1-5、9、10。尽管没有面面俱到,但确实为该指标出现的阴性结果提供了充分而客观的辩护,体现了对临床试验实际结果的尊重。当然,该文能基于阴性结果解读12条进一步细化分析,其质量将更加完美。事实上,在针对这篇文章的通信中[16],有学者认为此研究设计的随访时间应该更长,研究应该采用终末期肾病这样的临床硬终点。此外,Pozzi[17]认为该研究应该对肾脏的组织形态学进行评估,因已发表的IgAN牛津分型显示组织学病变对肾脏生存和治疗效果存在一定的影响,研究应增加多因素分析以探讨预后的影响因素。

SPRINT研究—主要结局阳性的结果解读 SPRINT研究[18]旨在验证强化降压策略是否有更多心血管获益,其纳入年龄≥50岁,基线收缩压≥130 mmHg,且至少存在一个心血管风险事件影响因素的受试者,随机分配至强化降压组(<120 mmHg)或标准降压组(<140 mmHg),主要结局为复合终点(心肌梗死、心力衰竭、卒中、急性冠脉综合征、心血管死亡),两组的HR为0.75,95%CI(0.64~0.89),P<0.001,结果表明强化降压与标准降压相比,可使患者的心血管事件风险降低25%,其发表引起了广泛的关注。对于如此阳性结果,研究又是如何解读的呢?(1)主要结局的P<0.001;(2)次要结局心力衰竭、心血管死亡、全因死亡,强化降压组均低于标准降压组;(3)预先设定的亚组分析结论与总体分析结论一致;(4)样本量足够大;(5)研究强化降压组获益显著,故提前终止试验;(6)强化降压组低血压、晕厥、电解质异常与急性肾损伤或衰竭相关不良反应发生更为常见,对待强化降压带来的心血管和死亡方面的获益和不良反应需要权衡;(7)研究人群缺乏普遍性,研究剔除了糖尿病、既往卒中或年龄<50岁的人群。文章这7点的讨论内容分别对应主要结局阳性结果解读11条的条目1、4~8、11。Pocock等[12]在其文章中也引用该研究作为提前终止、获益与风险评价、研究普遍性这三点的典型案例。在针对这篇文章的通信中[19],也有学者指出研究采用的电子血压计读数会低于人工听诊法约8 mmHg,且研究显示对于75岁以上的老人可能获益更大。或许人们会满足于临床试验主要结局出现的阳性结果,而忽视了对结果的客观解读,甚至过度夸大和迷信“阳性结果”,这是应力求避免的。阳性结果解读11条的提出促使人们必须对科学结论进行冷静的思考。

讨论与总结

现阶段,统计学作为重要的分析手段已被广大研究者所认同,而P值因易于计算及词约指明,成为判断研究结果的“金标准”,在生物医学研究中被广泛使用及被过度依赖。2016年《美国医学会杂志》(The Journal of the American Medical Association,JAMA)刊登了《Evolution of reportingPvalues in the biomedical literature,1990-2015》[20-21],总结了1990年至2015年数百万篇生物医学文献P值的报道频率,发现摘要中P值报道频率呈逐年上升趋势,由7.3%升至15.6%,遗憾的是大多数文章在报道P值时没有同时报道处理效应的可信区间。我国的P值使用现状也不容乐观。我们检索统计了2014年~2016年在中文核心期刊上发表的61篇RCT研究,研究结果均以0.05为检验水准,除了6篇非劣效临床试验提供了P值和处理效应的可信区间外,其他55篇RCT均以P值大小做结论推断,未提供处理效应的可信区间。在统计分析中,报告P值同时给出处理效应可信区间所提供的统计信息更完整,也更有利于结果的定量客观解读,因此呼声越来越高,理应成为报告科学结果的一条准则,而不是仅仅报告P值。在基于P值的结论推断中,需视具体结果结合Pocock等[11-12]总结的建议进行全面地、透彻地分析。

综上所述,P值提供的信息有限,当有其他适宜的方法(如计算可信区间)时,数据分析不可止于一个P值的计算。将数据分析或科学推断简化为一个标准(如P<0.05)是非常错误的决策。临床试验在获得主要疗效P值后,绝不可轻易做阳性或阴性的决断结论,需要结合研究背景、研究设计、研究实施、多种数据分析结果做综合的科学推断,没有任何单一的指标可以取代科学推理。

(衷心感谢刘志红院士对于本文的推荐和指导,也非常感谢侯金花医生对STOP-IgAN研究和SPRINT研究进行专业翻译给予的帮助)

1 Goodman SN.pvalues,hypothesis tests,and likelihood:implications for epidemiology of a neglected historical debate.Am J Epidemiol,1993,137(5):485-496.

2 Goodman SN.Toward evidence-based medical statistics.1:The P value fallacy.Ann Intern Med,1999,130(12):995-1004.

3 Goodman S.A dirty dozen:twelve p-value misconceptions.Semin Hematol,2008,45(3):135-140.

4 Stang A,Poole C,Kuss O.The ongoing tyranny of statistical significance testing in biomedical research.Eur J Epidemiol,2010,25(4):225-230.

5 Rosendaal FR.The p-value:A clinician's disease? Eur J Intern Med,2016,35:20-23.

6 Fisher RA.Statistical Methods for Research Workers,Oliver and Boyd,1925.

7 Fisher RA.Statistical Methods and Scientific Inference,2nd ed,Hafner,1959.

8 Halsey LG,Curran-Everett D,Vowler SL,et al.The fickle P value generates irreproducible results.Nat Methods,2015,12(3):179-185.

9 Nuzzo R.Scientific Method:Statistical Errors.Nature,2014,506 (7487):150-152.

10 Number crunch.Nature,2014,506 (7487):131-132.

11 Pocock SJ,Stone GW.The primary outcome fails—What next? N Engl J Med,2016,375(9):861-870.

12 Pocock SJ,Stone GW.The primary outcome is positive—Is that good enough? N Engl J Med,2016,375(10):971-979.

13 Calverley PM,Anderson JA,Celli B,et al.Salmeterol and fluticasone propionate and survival in chronic obstructive pulmonary disease.N Engl J Med,2007,356(8):775-789.

14 The action to Control Cardiovascular Risk in Diabetes Study Group.Effects of intensive glucose lowering in type 2 diabetes.N Engl J Med,2008,358(24):2545-2559.

15 Rauen T,Eitner F,Fitzner C,et al.Intensive Supportive Care plus Immunosuppression in IgA Nephropathy.N Engl J Med,2015,373(23):2225-2236.

16 Correspondence:Intensive supportive care plus immunosuppression in IgA nephropathy.N Engl J Med,2016,374(10):991-993.

17 Pozzi C.Pro:STOP immunosuppression in IgA nephropathy? Nephrol Dial Transplant,2016,31(11):1766-1770.

18 The SPRINT Research Group.A Randomized Trial of Intensive versus Standard Blood-Pressure Control.N Engl J Med,2015,373(22):2103-2116.

19 Correspondence:A Randomized Trial of Intensive versus Standard Blood-Pressure Control.N Engl J Med,2016,374(23):2290-2295.

20 Chavalarias D,Wallach JD,Li AH,et al.Evolution of Reporting P Values in the Biomedical Literature,1990-2015.JAMA,2016 ,315(11):1141-1148.

21 Kyriacou DN .The Enduring Evolution of the P Value.JAMA.2016,315 (11):1113-1115.

(本文编辑 可 可)

Interpretation ofPvalue in clinical trials

ZHOUMinlin1,LIUYuxiu2

1NationalClinicalResearchCenterofKidneyDisease,JinlingHospital,NanjingUniversitySchoolofMedicine,Nanjing210016,China2DepartmentofMedicalStatistics,JinlingHospital,NanjingUniversitySchoolofMedicine,Nanjing210016,China

Pvalue is the most widely used statistical concept in the biomedical study, especially in the clinical trials, but there are controversies over its utility. In this review, we will introduce the American Statistical Association Statement onPvalues; in addition, we will summarize the interpretation ofPvalue for the primary outcome achieved in the clinical trials by using STOP-IgAN and SPRINT clinical trials as examples. The purpose of this review is to facilitate a more balanced interpretation ofPvalue, a more qualified clinical trial report and the scientific conclusion process.

Pvalue statistical significance clinical trial

10.3969/cndt.j.issn.1006-298X.2017.02.015

国家自然科学基金(81473066);江苏省科技计划项目(BE2016747)

1南京军区南京总医院肾脏科 国家肾脏疾病临床医学研究中心 全军肾脏病研究所(南京,210016),2医学统计学教研室

2017-01-05

猜你喜欢

临床试验结论阴性
由一个简单结论联想到的数论题
立体几何中的一个有用结论
抗疫中第一个获批临床试验的中药——说说化湿败毒方
钼靶X线假阴性乳腺癌的MRI特征
三阴性乳腺癌的临床研究进展
结论
hrHPV阳性TCT阴性的妇女2年后随访研究
黄癸素对三阴性乳腺癌MDA-MB-231细胞的体内外抑制作用
肿瘤治疗药物Tosedostat的Ⅱ期临床试验结束
Droxidopa用于治疗注意缺陷多动障碍的Ⅱ期临床试验取得积极结果