随机对照临床试验在外科中的局限性

2021-11-30王锡山

中华结直肠疾病电子杂志 2021年5期

王锡山

1948年，在英国医学研究委员会的领导下，英国统计学家Austin Bradford Hill为观察链霉素对肺结核的治疗效果，开展了第一项大规模的随机对照临床试验（randomized controlled trial，RCT）[1]。自此，随机对照临床研究逐渐被大家认可，并被誉为临床证据中的“金标准”，在循证医学中心制定的证据等级金字塔中，RCT的证据等级最高。医学研究者和统计学家拟用RCT来减少试验过程中产生的偏倚，从而提高试验结果的准确性和可信度，国际上高水平的期刊也对RCT研究更为青睐。然而在RCT发展的这七十多年间，有不少学者也发现了这一“金标准”可能不适用于所有的临床试验，其存在很多局限性。对于RCT，我们要以辩证的角度看待，透过现象分析其本质，尤其是外科学领域，这种对患者长期的、高度个性化的干预措施，RCT是否完全适用？笔者以自己的思考来抛砖引玉，以期重新审视RCT在外科中的作用。

一、RCT的简要发展史

对照是观察一项干预措施是否有效最简单的方式。目前可追溯的最早的对照研究是1747年，英国的Lind医生为探索治疗坏血病的方法，将12名坏血病患者平均分为6组，每组患者给予不同的膳食，发现橙汁和柠檬汁可能会促进患者的康复[2]。这种观察方法，或称作试验方法在当时十分先进，因为Lind医生意识到需要对患者进行组间比较，但分组方式现在看来缺少随机性，每组的患者人数也很少，导致疾病的转归可能与干预措施之间的关联较小。

早在17世纪，放血疗法是一种十分普遍的治疗手段，Van Helmont医生对这种疗法提出质疑，并提出一个大胆的设想，他建议找几百个发热或胸膜炎的患者，用抽签的方式将患者分为两组，一组用放血治疗，另一组用非放血的治疗方法，以观察放血疗法是否有效[3]。虽然最后这项试验没有最终付诸实践，但他提出的以抽签的方式进行分组，可能是最早的“随机”思想，而抽签方式本身，也解决了临床试验中的“公平”的问题。几乎没有患者会去选择安慰剂，因为那是已知的不会起到任何作用的“药物”，但若仅由研究者对受试者进行分组，那对于研究者来说，对使用安慰剂的患者的关注可能更少，对于患者来说，他们也会感觉这种方式对自己不公平，从而退出研究，或者特意隐瞒、夸大症状。而采用抽签的方式，在当时看来，患者虽然知道不公平，但往往会认为是“命中注定”而接受这种分组。现在看来，抽签的方式做到了将各种影响疾病转归的因素从组间消除。直到20世纪，“抽签分组可以实现组间可比性”才被从理论上证明，从而奠定了RCT的核心理论基础[4]。

1948年，Austin Bradford Hill为观察链霉素对肺结核的疗效纳入了107例急性进展性双侧肺结核新发病例，根据随机数表产生随机分组序列，并使用密闭的信封，医生和患者均无法预先知道将会被分到哪组[5]。符合入组条件的患者入院后，随机分组中心随机给患者一个信封，打开信封后，患者只知道被分到哪组，但并不知道接受的治疗是特殊治疗还是常规治疗。对照组患者只卧床休息，而观察组患者在此基础上，接受链霉素治疗，这两组患者不住在同一病房。该项研究无因副作用退出治疗的病例。半年后，51%的观察组患者病情明显改善，而对照组只有8%，同时，观察组有7%的患者死亡，而对照组有27%。这项研究使全世界相信链霉素对于肺结核的治疗效果。此后，Hill也建立了很多随机对照的研究方法。但在当时，对于RCT的评价褒贬不一，反对者认为，不给对照组施加新的治疗措施，或者使用安慰剂，这种做法是不道德的，支持者则认为，RCT可以确定新的治疗措施是否优于目前的标准治疗。

但是当时，除了学术界和政府，极少有药企愿意花费金钱和时间来进行RCT试验来评价新药的疗效。他们更愿意依靠临床医生的推荐和病例报道来推广药品，这不但会夸大药品的疗效，也会掩盖药品的毒副作用，以至于酿造了沙利度胺的“海豹儿”悲剧[6]。此后，美国国会在1962年颁布了针对食品、药品及化妆品法案的Kefauver-Harris修正案，强制要求新药在上市前，需在“充足严格的对照研究”下被证明是有效的[7]。到1970年，美国食品药品监督管理局（FDA）以要求新药批准必须经过随机对照试验来实现修正案的实施。二战后，随着美国医药行业的迅速发展，使得美国成为RCT试验的领导者。欧洲、日本等发达国家也陆续推行了类似的法律法规。随着各国间国际合作日益密切，RCT逐步系统化，而医药行业反而成了推动RCT试验的主要赞助商。至20世纪80年代，RCT逐渐被奉为对医疗卫生服务中的某种疗法或药物的效果进行评价的“金标准”。1991年，加拿大McMaster大学的Gorden教授首次在JAMA上提出“循证医学”一词，循证医学迅速兴起，方法学等级体系出现，RCT被认为是“最高级别”证据[8]。2002年，美国临床试验数据库（Clinical Trails.gov）正式投入使用，用于全世界药物试验/新技术的临床研究的注册。

二、RCT的优势与局限

RCT研究在设计上十分严谨，力求最大程度地避免因为设计或试验实施过程中产生的各种选择偏倚，从而提高统计学检验的有效性。研究对象的随机分配，使得组间的基线可以保持相对的一致，完美地解决了病例对照研究和队列研究中的混杂问题，同时也增加了组间的可比性，所以RCT研究也具有很好的内部真实性。RCT研究可以说是最严谨的一种流行病学研究类型，也是评价一种干预效果优劣的最严谨的研究类型。

但RCT不是所有医学领域的“金标准”。回顾RCT的历史，几乎是被药物贯穿始终，因为同一种药物在上市后，无论是其分子式、剂型、纯度、使用方法与剂量等，各批次药物都具有高度的“一致性”，在这个背景下，RCT研究的优点才得以最大程度的展现：包括随机（减少干扰因素）、设置对照（可以观察新药疗效的优劣）和盲法（消除人为因素对结果的干扰）。但这并不意味着RCT的优势可以“移植”到其他医学领域。例如在精神病学领域，虽然也开展了大量的精神类药品的RCT研究，但精神类疾病的治疗是一种长期的、高度个性化的过程，涉及到心理疗法和治疗药物的配合使用，而这又与医生对疾病进展的主观判断和医生的经验密切相关[9]。但随着RCT的兴起，大量关于精神类药品的RCT研究迅速增长，可能导致对于心理疗法重视的降低，并且由于患者的高度个性化，导致结果可信度不高。

20世纪70年代，为了对重症心肺功能衰竭的患者提供长时间的心肺支持，发明了体外膜肺氧合（extracorporeal membrane oxygenation，ECMO），从而为患者的康复争取了时间。1971年，ECMO成功救治了一位因多发性创伤导致呼吸衰竭进行性加重的男性；1975年，Bartlett医生首次用ECMO救治了一例持续性肺动脉高压的新生儿[10]。在ECMO的运行和治疗机制已经很明确的情况下，就不必再进行RCT研究。

而在外科领域，RCT也难以称为“金标准”。与单纯用药治疗不同，外科施加的干预措施，有一部分是立竿见影、显而易见的。比如对于颈部外伤伴有咽喉或气管损伤，立即出现呼吸困难的患者，若不立即行气管切开术，患者会因窒息而死亡。虽然没有RCT证据支持，但这已经成为业内共识。

外科一些经典术式的推广过程，也并非需要RCT证据支持。以笔者所在领域的全直肠系膜切除术（totalmesorectalexcision，TME）为例，1982年，Heald教授首次提出了TME手术，并报道了50例TME手术病例，随访两年，无一例复发。1986年，Heald教授在《Lancet》又报道了115例行TME手术的直肠癌患者的5年生存情况[11]。1993年，Heald教授发表了152例行TME手术患者的随访结果，局部复发率仅为2.6%，远低于Miles术[12]。1995年在挪威奥斯陆举行的“直肠癌外科——国际标准化”讨论会上，与会者一致认为TME可产生优良的结果，四个国家五个中心外科医师运用TME原则分别证实这种“治愈性手术”后的局部复发率为5%左右，总治愈率接近80%[13]。至此，TME受到业内广泛认同，并逐渐成为推行的标准术式，而这个过程并未推行大规模的RCT研究。

三、近现代外科学技术发展举例

自19世纪至今，随着人类对人体器官解剖认知的不断深入，以及麻醉、无菌术和输血等技术和理念的提出与完善，使得头、胸、腹不再是手术禁区，外科学也开启了新的时代，成为推动医学进步的中坚力量。

1879年，法国医生Jules Emile Pean为一位胃癌患者切除了胃，但患者在5天后不幸死亡；1880年，Ludwig R.von Rydydie教授在总结了Jules的经验教训后，也进行了手术治疗胃癌的尝试，但患者在手术当天便不幸死亡；1881年，被誉为“腹部外科学之父”的Theodor Billroth在对狗进行了大量的动物实验后，完成了第一例用胃切除加胃十二指肠吻合术治疗幽门部胃癌，即现在的Billroth I式手术，并获得了成功[14]。

二战结束后，肥胖症人口剧增，减重手术逐渐兴起，1954年，J.H.Linner和A.J.Kremen医生完成了第一例旷置大部分小肠的减重手术，同时期的Henriksson医生也进行了空回肠短路手术，并切除了旷置部分的小肠，虽然减重效果较好，但是术后并发症严重；1963年，Payne和DeWind医生尝试将十二指肠与大肠连接，但患者术后出现了顽固的腹泻；1966年，“减重手术之父”——Mason和Ito发现消化性溃疡患者在行胃大部切除术后，可以长期维持低体重状态，于是发明了胃旁路术，随后，在1976年，Griffen在此基础上对术式进行改良，将胃与小肠直接吻合，有效的减轻了术后胆汁反流及反流性食管炎的症状[15]。

1807年，德国医生Bozzini发明出世界上首个直肠镜，1901年，Jacobacus医生首次用腹腔镜对患者进行腹腔内检查，但限于当时光源和成像技术，腔镜只能用于进行观察诊断。1954年，光导纤维技术诞生，1957年，Hirschowitz首次展示了光导纤维内镜，解决了内镜照明问题。随着电子显像技术的发展，1983年，Welch Allyn公司在内镜前端装置了高敏感度微型摄像机，通过光电信号转换，成功地将内镜下观察到的图像转变成电视信号。1987年，法国医生Mouret完成了首例腹腔镜下胆囊切除术，1991年2月，荀祖武医生完成我国首例腹腔镜下胆囊切除术。此后的30多年间，依托于腹腔镜平台，微创外科取得了飞速发展[16]。

纵观近现代外科手术发展的历史，无论是对于肿瘤的治疗的挑战，还是对于肥胖的厌恶，抑或是腹腔镜技术对外科的改变，每一种新的外科术式的产生，都离不开外科医生自身对于求知的欲望、人民百姓对于生活质量的要求的不断提升，以及科技的发展所带来的行业概念的革命，这可能是指引外科技术发展的三个根本原因，也是外科新技术产生的意义。虽然随机对照试验可以评价一项技术的安全性和有效性，但不应该是评价这项技术的全部，而且，RCT在外科临床研究中，仍存在许多争议。

四、RCT在外科新技术中的困境

RCT的核心思想是尽可能的保证观察组和对照组的一致性，为了达到这个目的，研究者花费大量心思制定一系列严格的纳入和排除标准，并应用随机数表法等随机方法去将患者分组，以期最大程度的影响试验结果的组间差异。但与药物RCT研究不同的是，对于外科新技术的RCT研究，影响最大的因素可能不是患者，而是术者。实施该手术的外科医生对于新术式的掌握程度、学习速度如何，这也是外科新技术在推广时常会遇到的问题。另一个需要关注的问题是风险。药物RCT研究，其风险是均一的，而对于进行外科新技术的医生来说，新技术可能会增加手术风险，这可能会导致手术时间的延长、对于并发症处理不得当、术后过于关注该患者等，都会影响研究的结果。

对于外科新技术而言，术者往往需要一个学习曲线，处于不同学习阶段的术者的能力不同，可能对结果的影响更大。荷兰的一项研究，对4个taTME手术量超过45例的中心，通过阶段分隔的方法粗略估算各阶段的局部复发率，结果发现，前10例taTME手术患者的局部复发率为15%（6/40），第11至40例taTME手术患者的局部复发率为4.2%（5/120），第41例之后，这一数据降为3.8%（4/106）。研究者得出结论：实施taTME手术后的局部复发率，可能随着手术经验的增多、渡过学习曲线而降低，经过结构化培训taTME手术，肿瘤学安全性得到明显改善[17]。由此可见，术者的技术会对肿瘤学结局产生影响。

RCT在外科新技术中的另一个困境是RCT与外科技术快速发展之间的矛盾。在肿瘤外科中，任何情况下，肿瘤手术的近期和远期安全性和有效性必须置于首位，患者生命永远第一，所以复发率和生存率是一定要统计的，也需要进行RCT研究，但这个过程可能会耗时数年，甚至十几年。当我们用足够的时间，积累了足够的数据，试图去评价新技术时，发现技术或治疗方法已经发生了改变，在新技术还未来得及惠及患者时，已经过时了，这也再次证明，评价一项外科新技术时，RCT不应该成为其评价的主体，甚至是全部。

五、培训体系的建立与RCT

当然，外科领域并不是要完全排斥RCT，更不是要否定循证医学，只是不宜盲目的为了证据“高级”而进行RCT。在利用RCT对外科新技术进行评价之前，需要构建完善的培训体系，将欲进行RCT研究的术者的技术同质化。关于结构化培训的重要性，Heald教授认为，手术医师必须具备足够的手术经验，且必须经过相关专家的指导培训。Wexner教授也认为，过快的在未受过培训的、低手术量的医师中开展外科新技术的研究，其所带来的手术并发症和不良的肿瘤学结局，可能会掩盖该术式的优点，影响该技术的推广与发展。

笔者认为，一个完善的培训体系的建立，应该从以下几方面着手：（1）在国家层面，以国家卫生健康委员会和中国医师协会为主体，建立健全的外科新技术培训体系，协会制定技术规范与考核标准，并设置区域培训定点单位，以点带面，推动新技术在该区域的发展；（2）各专委会系统性优化培训体系，以各领域专家为主体，借助各种培训平台，充分利用前沿科技，针对不同水平等级的医生开展针对性的培训与指导，重点针对新技术关键操作步骤设置个性化培训课程和考核项目；（3）对拟开展新技术的医院，提供仿真操作模型、进行动物实验等，并做好拟开展新技术的科室和医生的备案；（4）对拟开展新技术的科室，以科室学科带头人为主体，对开展新技术的医生的手术进行指导和质量控制；（5）与此同时，医生还要加强自身学习，熟悉手术部位的解剖知识，加强基本操作的练习，特别要注意技术细节，并敢于提出自己的想法与见解，共同完善新技术。

经过系统化培训的医生，可以缩短学习曲线，但在开展新技术相关RCT研究前，还应对手术资质进行评价，笔者认为，可以从以下三个方面进行考察：（1）研究者对新技术涉及的器官、部位的解剖知识的掌握；（2）手术应进行全程录像，并由相关领域专家对术中操作、和标本质量进行评价；（3）应开展一定数量的手术，渡过学习曲线的上升期。至此，在外科技术相关的RCT研究中，方可将最大的“变量”同质化，开展的RCT研究结果也更为可靠。