临床试验报告规范及国内临床试验报告存在的问题及对策*
2022-10-31余泽宇张佳坤魏佳俐梁士兵刘建平
韩 梅 余泽宇 张佳坤 魏佳俐 梁士兵, 刘建平△
1.北京中医药大学循证医学中心 (北京, 100029) 2.北京中医药大学中医学院 3.北京中医药大学针灸推拿学院
1 临床试验报告规范制定的原因及发展
临床试验指以人体(患者或健康受试者)为对象的试验,旨在确定干预措施在人群中疗效与安全性的系统性试验[1]。任何一个临床试验的结果都可能被应用于未来的人群,因此,每项临床试验都是公众事件,而非研究者或申办方的个人行为。公众应有对临床试验设计、实施、结果所有细节的知晓权。临床试验报告就是临床试验完成后将试验的整个过程和结果呈现给公众的信息文件。
1946年,英国医学研究委员会(MRC)对链霉素治疗肺结核开展的临床试验,是医学史上第一次严格的随机对照试验[2]。此后的半个世纪,临床试验在世界范围内得到了广泛地应用,但是研究者们对于试验过程和结果的报告不一致且不完整,这使得读者不能从各个试验报告中完全获取同类内容的信息。1995年,一个由临床研究者、统计学家、流行病学家和生物医学编辑组成的国际小组制定了临床试验报告统一标准,即“CONSORT(Consolidated Standards of Reporting Trials)声明”,并于1996年在JAMA等期刊上发表,此后在2001年和2010年分别进行了修订和更新,最终形成了包括1份25项条目的清单和1个流程图[3,4]。CONSORT声明是基于标准的两组平行随机临床试验设计而制定,应用于其他类型的试验(比如非随机对照试验)时有一定的局限性,因此,CONSORT工作组陆续制订针对不同试验类型和不同干预措施的扩展版,扩展版本在EQUATOR网站(https://www.equator-network.org/)上有呈现。
EQUATOR Network 是一个“伞状”组织,汇集了研究人员、医学期刊编辑、同行审稿专家、报告指南的制定者、研究资助机构和其他合作者,共同致力于提高研究出版物和研究本身的质量。截至2021年12月,EQUATOR网站已经发布和正在研制的医学研究报告规范有480个,其中与随机对照试验相关的报告规范有180个,除了CONSORT声明外还涉及具体某一疾病、干预措施、结局指标、研究设计、试验方案、试验过程管理、统计分析、实施科学等方面的报告规范。
2 CONSORT声明及其扩展版汇总分析
CONSORT声明2010版包含25个条目的对照检查清单、1个临床试验各个阶段(招募、分配、随访和分析)的受试者流程图以及对清单中每一个条目的释义[4]。清单从文题和摘要、背景和目的、研究方法、结果、讨论和其他信息6个方面详细地推荐了应报告的条目,其中研究方法部分从试验设计、受试者、干预(对照)措施、结局指标、样本量估算方法、随机方法(随机序列的产生、分配方案的隐藏以及随机的实施)、是否对受试者、医护提供者、结局评估者实施盲法以及具体的统计学方法8个条目提出报告要求,研究结果部分从受试者流程、招募、基线资料、纳入分析例数、每个结局的效应值、辅助分析方法以及研究出现的危害7个条目提出报告要求。研究者在进行平行随机对照试验的报告时应逐条对照检查清单是否报告全面。
20多年来,已经有 40个与CONSORT声明相关的扩展声明公开发表,其中与研究对象相关的扩展声明有7个,包括针对牙齿矫正人群、疼痛患者、不孕症患者、肿瘤患者、儿童、药物流产妇女以及健康公平性的扩展声明;与干预措施相关的扩展声明有17个,涉及到人工智能、社会和心理干预、基于网络和移动设备健康干预、电子医疗保健、非药物疗法、处方精简、医疗保健模拟、顺势疗法、作业疗法、过敏原特异性治疗以及干预措施描述和复制11个领域,以及6个与中医药相关的扩展声明(表1);还包括2个与研究方案相关的扩展声明,涉及新冠肺炎疫情和人工智能;1个针对摘要的扩展;2个与结局指标相关的扩展和11个与研究设计相关的扩展。现将涉及研究设计、结局指标以及中医药研究共性问题的19个CONSORT扩展声明进行汇总(表1),临床研究者可以根据特定的研究设计及内容,选择恰当的中/英文报告规范进行参考。
表1 涉及研究设计、结局指标以及中医药领域共性问题的19项CONSORT扩展声明
3 目前国内临床试验报告存在的问题及建议
以“CONSORT声明”作为检索词,限定在标题/关键词中,在中国知网、重庆维普、万方三个数据库进行检索,共检索到在正式期刊发表的基于CONSORT声明评价随机对照试验报告质量的中文研究18篇(分别为18项不同研究领域报告质量的评价研究)。其中最早1项发表于2009年,最新3项发表于2022年。18项研究中,有3项参照了CONSORT声明2001版本,15项参照了CONSORT声明2010版本,每项研究纳入试验数量为8至178项不等,共计1 033项(发表于数据库建库至2021年)。18项研究中,有4项针对《中国小儿急救医学》、《中华医学科研管理杂志》、《中国心血管杂志》、《中国新药与临床杂志》上发表的临床试验进行报告质量评价,1项针对肿瘤护理领域的试验进行报告质量评价,其余13项均是基于不同疾病对中医药领域的临床试验进行了评价,包括中药4项、针刺7项、灸法1项和推拿1项。
纳入的18项针对临床试验报告质量评价的结果表明,在过去20多年间,临床试验的报告质量并未得到明显改善。早期临床试验存在的报告问题在当前试验报告中仍普遍存在,主要体现在研究设计和统计分析上。因此,尽管发表的临床试验数量不断增多,但却难以为临床实践提供高质量证据。究其原因可能与临床研究人员缺乏方法学知识有关。大部分临床研究设计之初并没有方法学和统计学人员参加,或者临床研究者与方法学专家缺乏充分的沟通交流,临床问题凝练不清,研究目的不明,最终形成了不够严谨、质量差的临床研究。结合文献研究结果、笔者20多年开展文献评价研究的经验以及对2位中文核心期刊编辑的访谈,分析总结了目前国内临床试验报告中存在的共性问题,并提出可操作的建议。
3.1 研究假说不明确 研究假说是研究目的体现,也是拟回答的临床问题的依据。大多数研究缺乏假说,或者阐述的研究假设比较模糊,如“某干预措施与某对照措施比较用于治疗某疾病的疗效如何”,并没有明确说明想要检验的干预措施的“疗效”是优效、等效或非劣效。
建议:研究假设要基于临床问题和前期研究工作基础提出。比如,如果研究采用空白对照或安慰剂对照,通常会采用优效性设计,此时应当考虑临床有意义的界值,即干预组的总体疗效比对照组好多少才认为是优效;如果采用目前公认的阳性药物做对照,可以考虑等效性设计或者非劣效设计;在两种干预措施互相对照的研究中,比如针刺和中药的疗效比较,还可以考虑采用差异性设计的方法。不同的研究假设采用的样本量计算公式不同,应以最能体现研究目的的主要结局指标作为样本量估算的参数。与研究假设对应的假设检验也应当分为差异性检验、优效性检验、等效性检验和非劣效性检验。差异性检验是和0做比较,即两总体均数/有效率是否完全不等,而不考虑这种差别是否具有专业意义;优效性检验、非劣效性检验和等效性检验是和临床有意义的界值做比较,即检验在一定允许范围内是否相等或不等,不仅要检验差异是否存在,而且应当关注这种差别是否具有临床意义[25]。因此,研究假设明确,与之对应的主要结局指标选取、样本量估算、统计学分析的问题就能够相应解决。
3.2 试验注册与方案获取应引起足够的重视 国内的大多数期刊并未对临床试验方案的注册做强制要求,因此试验开始前注册方案在国内的临床研究中并不理想。而且,研究者发起的研究通常也不具备健全的三级质控体系来监控研究进展和方案的违背情况,这就会导致读者无法判断研究结果的报告是否按照预设的研究方案执行,是否存在不完整报告偏倚和选择性报告偏倚。
建议:《赫尔辛基宣言》(2008版)要求任何临床试验必须在招募第一例受试者之前在公共注册机构注册。目前国内开展临床试验的方案注册以中国临床试验注册中心(http://www.chictr.org.cn/)为主。近年来美国临床注册中心(https://www.ClinicalTrials.gov)不再接受国内的研究者注册新的账号,但是原有账号可以继续注册新的临床研究(免费)。另外,英国国际标准随机对照临床试验编号注册库(https://www.isrctn.com/)也可以提供国际范围内临床试验的注册(收费,约230英镑)。
3.3 随机和盲法描述不清 多数临床研究仅提及“随机”二字,或者仅提及“随机数字表、计算机程序”产生随机序列,对于随机隐藏的方式、盲法的实施对象或者未施盲是否会对研究结果造成影响很少提及。不论是“随机”还是“盲法”都需要不直接参与试验的第三方来实施,临床研究者并没有直接参与这两部分工作,因此,在描述这两部分时通常无法明确表达。
建议:应明确描述使用何种工具产生随机序列,是否采用了区组随机或者分层随机。对于区组随机,还应描述区组大小以及区组大小是否固定还是随机改变。应用分层随机还应说明分层因素(如分中心 、性别 、疾病的阶段)、 分层的分类截断值、层内随机采用简单随机还是区组随机。对于受试者的例数分配,需要描述不同组间的比例是1∶1还是1∶n(多臂研究)。随机隐藏最简单的方法是由产生随机序列的第三方将分配方案放在密封的、不透光的、顺序编码的容器中;也可以采取中心电话/中心网络的方式实施,即每一位患者在知情同意后给第三方致电/登录网页获取分组信息。
“双盲法”通常以安慰剂对照来实现,应当说明施盲对象,而不要让读者自己判断是不是实现了单盲(患者)、双盲(患者和医生)或者三盲(患者、医生及结局评价者)。对于盲法研究,还应当报告是否有破盲的风险,如评估干预措施与安慰剂的一致性。在安慰剂对照研究中,随机隐藏的实现与非安慰剂研究不同,通常通过药物编码的方式(根据随机分配方案将试验药品和安慰剂进行顺序编码,患者编号与药物编号一一对应)达到隐藏分配方案的目的。值得注意的是,并不是所有的研究都必须设盲,如果未设盲,也应当阐明不设盲是否会对试验结果产生影响以及可能的影响大小。
3.4 随机化后退组和剔除的人数及原因未报告 临床试验中受试对象退出与失访是很常见的现象,也可能存在被误纳入的情况。因此,临床试验应当准确报告退组和剔除的人数以便于采用恰当的方法进行统计分析。目前文献报告大多显示随机分组的人数与进入统计分析的人数相等,这在大型、长时间的临床试验中几乎不可能实现,加之大部分研究并未提前注册试验方案,因此无法排除研究者挑选完整病例进行分析和报告的可能,从而给读者提供了有偏倚的、不可靠的研究结果和结论。
建议:采用临床研究受试者流程图是追踪受试者流向的最佳方式,如果受到发表文章版面的限制,也可以采用文字描述或添加附件的方式进行报告。受试者流向(流程图)包括招募、随机分配、接受治疗、随访、分析5个阶段,并分别给出各个阶段的人数,以及未纳入或者排除的人数和理由。
3.5 意向性分析、亚组分析和校正分析缺如 不论是否报告随机化后退组和剔除的人数,大部分研究均仅呈现符合方案集的统计分析结果。符合方案集是一种非随机的比较方法,任何在分析时排除患者的做法都有悖于随机分配的本意,而且可能导致结果偏倚。部分研究的亚组分析和校正分析也没有说明哪些是事先设计的,哪些是根据基线数据比较的结果临时增加的。而事后决定的亚组分析会因把握度不足得出假阳性的结果,即使根据基线比较结果进行的校正分析也可能导致出现结果偏倚。
建议:研究结果的比较应采用意向性治疗分析,包括全部参与随机分配的病例,不论其是否实际接受了已知分配或者是否完成规定治疗,均应进入到待分析的数据集中。对于缺失数据应当采用恰当的方法进行填补。如果进行了亚组分析,研究者应当报告哪些亚组分析是预先设定用于确证的,哪些亚组分析是事后增加用于探索的,对于预先设定的亚组分析需要报告为什么这样做,选择性地报告亚组分析可能导致偏倚。亚组分析的建议也适用于对基线变量作过校正后的分析。即使是随机分组,也会存在部分指标基线不均衡的情况,主流做法是只要是真正的随机分组就不需要做校正,除非是事先设定好的协变量,比如不同的分中心。若有校正,作者应该说明选择校正哪些变量是否是预先计划的,校正前和校正后的分析均应报告结果。
3.6 结局指标未报告组间差异的效应值及其精确性 大多数研究仅报告假设检验的结果,即检验统计量和P值,读者只能从中判断出组间统计学差异的显著程度,但难以判断研究结果的临床意义。
建议:对于每组的各个结局指标,都应报告描述性统计的结果(例如,发生某事件的受试者人数及其分母,或测量指标的均数和标准差),同时给出组间差异,即效应值。对二分类变量结局指标,效应值可以是相对危险度、比值比或者危险差;对于连续变量数据,通常是均值之差,同时给出差异的可信区间。在差异无统计学意义时可信区间尤其有价值,因为在这种情况下常可从可信区间看出,统计结果并不能排除重要临床差异存在的可能[4]。例如,RR值及其可信区间为3.5[0.99, 9.5],虽然组间比较无统计学差异,但效应值较大,可信区间的上限值较大,有进一步研究探索临床差异的价值。
3.7 不良事件和严重不良事件的报告不充分 大多数的研究仅报告有效性结局,未报告安全性结局。事实上,有关干预措施益处和危害的信息同等重要,以便于读者权衡后作出决定。
建议:临床试验难免发生非预期的不良事件,不论是否构成不良反应,均应如实报告,如果整个研究未发生任何不良事件,也应当予以说明。
3.8 鲜少提及中期分析和中止试验的原则 临床试验均应提前根据参数估算所需要的样本量,任何中期分析或者提前中止的研究结果均可能会对研究结论造成影响。因此,研究者应当如实报告是否完成了预期样本量的受试者观察。事实上,很多临床试验需要长时间招募受试者,如果干预措施效果极好或极差,均应出于伦理原因提前终止研究。
建议:可通过积累数据的同时,同步进行结果检验的方法来解决,最好由独立的数据监察委员会执行。不过,对积累的数据进行多次统计学检验而不经恰当的校正则可能得出错误结果并导致解释错误。如果需要进行多次中期分析,可采用成组序贯统计方法来校正,并且需要在临床试验方案中预先设定。一些临床试验研究者使用成组序贯方法来辅助决策,也有人把它们当作一种正规的终止试验的标准。
4 结论
综上所述,国内临床试验报告存在诸多研究设计与统计分析上的缺陷,为了避免大量低质量的重复,对于两组平行随机对照试验的结果报告,研究者们不仅需要熟悉CONSORT声明的各个条目,更重要的是需要认真理解各个条目的解释和说明。对于不同的设计类型以及中医药领域的研究,还应当同时参考CONSORT声明目前已发表的40个扩展版本。