建立适合中医学的科学的临床评价体系

2020-06-22袁冰

医学与哲学 2020年10期

袁冰

目前,国际流行的疾病分类系统(international classification of diseases，ICD)是依据疾病的病因、部位、病理及临床表现4个分类轴心建立的多轴心系统。长期以来，现代医学对治疗方法的临床试验及疗效评价基本上是以这个体系界定的疾病为基础的。

近年来，随着自然疗法、传统医学以补充和替代医学的方式得到现代医学有限度的承认，随着循证医学的理念得到广泛的认可，满足可重复性的实证成为将医学经验和治疗方法纳入现代医学体系的充分条件。自然疗法、传统医学中一些有明显效果和实用意义的治疗方法和经验被接纳，充实进以疾病医学为核心的现代医学的治疗体系；一些反映这些疗法、经验特点的要素和规则，也逐渐被纳入临床评价体系。而进入21世纪以来，为了适应创新药物的发展，加速新药推出的速度，降低研发和临床评价的成本，美国食品药品监督管理局(Food and Drug Administration,FDA)更是在临床试验方法和药品评价方面推出了一系列改革举措。

1 精准医学兴起引发的临床评价体系的变革

以个性化为特征的精准医学的兴起，不可避免会触碰基于疾病医学理念建立的临床评价体系。为了支持创新型医学和相关药物研发，美国FDA出台的举措以及由此引发的一系列事件，引起了医学界的广泛关注：(1)为了加快精准医学相关的药物审批，FDA将创新性临床试验分成两大类，第一类称为篮子试验(basket trial)，就是将带有相同靶基因的不同癌症放进一个篮子里进行研究，以促进应对带有相同靶基因的不同来源的肿瘤的药物研发。第二类称为雨伞试验(umbrella trial)，即把具有不同靶基因的同一疾病(如肺癌)，拢聚在同一把雨伞之下，促进针对带有不同靶基因的同一来源的肿瘤的标靶药物的研发[1]。(2)2017年5月，具有里程碑的意义，FDA首次批准了不依照肿瘤来源，而是依照生物标志物进行区分的抗肿瘤药物的适应症。默沙东(Merck Sharp & Dohme,MSD)的一款新药KEYTRUDA(pembrolizumab)获批治疗带有微卫星不稳定性高(microsatellite instability-high，MSI-H)或错配修复缺陷(mismatch repair deficient，dMMR)的更多类型的实体瘤患者。此前，FDA一直基于癌症在体内的起源部位(如肺癌或乳腺癌)而进行癌症疗法的审批。MSI-H与dMMR是两种常见的遗传异常，含有这两种变异的肿瘤，细胞内的DNA修复机制往往会受到影响，不能正常发挥作用。带有这些异常的肿瘤分布非常广泛，可出现在结直肠、子宫内膜、胃肠道、乳腺、前列腺、膀胱、甲状腺等多个部位。因此，通过遗传变异特征而非病发部位来区分这些癌症，对于治疗有着更好的指导意义。这一点在临床试验过程中得到了证实。但如果基于之前的临床评价体系，这种药物很难统计出临床意义[2]。这个成果得以获批，正是源于针对该药物的“篮子试验”。(3)2018年11月，FDA批准了首个“篮子试验”：涉及携带原肌球蛋白受体激酶(tropomyosin receptor kinase,TRK)基因融合突变的小分子抑制剂Larotrectinib，用于治疗患有与神经营养性酪氨酸激酶(neurotrophic tropomyosin-related kinase,NTRK)基因融合的成人和儿童实体瘤患者。根据Larotrectinib一项临床试验的全球研究负责人David Hyman博士的介绍，“NTRK基因融合是一种罕见的癌症驱动因子，FDA批准Larotrectinib对于此类肿瘤的治疗是一个重要的里程碑”。它是“首个获批的针对这种基因改变且与肿瘤类型无关的治疗药物”[3]。Larotrectinib在临床试验纳入的所有55例患者中总体有效率达到78%，完全缓解率13%，部分缓解率64%；这些患者涉及到13种不同的实体瘤类型，包括肺癌、甲状腺癌、黑色素瘤、胃肠道间质瘤、结肠癌、软组织肉瘤、涎腺肿瘤和婴儿纤维肉瘤等，但都有一个共同的标靶分子——TRK基因的融合[4]。

FDA之所以会对一直实行的临床评价体系做出改变，是以精准医学的研究进展为依据的：(1)仅基于肿瘤来源的疾病分类和在此基础上的进一步分型，通常不足以准确界定药物的适用范围。增加基于基因、蛋白质、代谢物等生物标志物描述的个性化特征，会大大提升药物选择性的精准度。这恰恰是精准医学兴起的原因。(2)用来标定患者某种个性化特征的有时不是单一的生物标志物，很多情况下会是多个生物标志物指标的组合。(3)这些生物标志物异常标定的靶点通常不止关联于一种特定的疾病，可能会与多种疾病相关，如与MSI-H与dMMR两种遗传异常相关联的肿瘤可出现在多个部位。

这些研究进展显示，精准医学用于标定靶点的生物标志物，其意义或许并不局限于对现代医学的传统疾病分类更加细致的区分和精准化。它们与疾病的关系在很多情况下，是一种多对多的网络关系。也就是说，随着精准医学研究的进展，新的靶点和标靶药物不断被发现，在现代医学架构下将会出现一个与传统疾病分类不同的新的疾病分类和治疗体系。这是一个以生物标志物定义的靶点和标靶药物体系，它将是一个与传统疾病分类体系并列的独立的体系。由此,现代医学将进入辨病治疗与辨“靶点”治疗相结合的时代。

2 “真实世界研究”对传统“随机对照试验”的冲击

今天，虽然以随机双盲对照为特征的大规模临床试验依然是检验治疗方法安全有效性的金标准，但由于以往基于这种貌似严谨科学的试验发展的药物，在应用于临床一段时间之后，常常会发现一些远期的副作用，严重的甚至会导致药物的淘汰或禁用。于是越来越多的人开始对这种临床试验结果的可靠性产生质疑。此外，这种临床试验的经济性和合理性也受到越来越多的诟病。病人团体声称大规模的临床试验耗时费力，而且会拖延可能挽救生命的突破性药物进入市场的速度。激进的市场化政策推动者倡导以“市场决定”的模式代替FDA的审批，宣称只要药品的安全性得到保证，不管有效性存在与否，都应该被许可在市场上销售，因为市场竞争和理性的消费者会让真正性价比高的药物自然胜出[5]。

在这样的大背景下，真实世界证据(real-world evidence，RWE)越来越引起人们的关注。2016年12月美国颁布《21世纪治愈法案》[6]，要求FDA在医疗产品审批和监管程序中纳入RWE。2018年12月6日，FDA重磅宣布《真实世界证据方案框架》，为实现RWE支持药品审批决策的目标提供了一个相对清晰的路线图。真实世界研究是指研究数据来自真实的医疗环境，反映实际诊疗过程和真实条件下的患者健康状况的研究。真实世界数据(real world data，RWD)是通过多种途径获得的与患者健康状态和医疗行为相关的数据。RWE是通过分析RWD产生的与医疗产品的使用及潜在获益或风险相关的临床研究证据[7]。RWD来源非常广泛，可以是患者在门诊、住院、检查、手术、药房、可穿戴设备、社交媒体等多种渠道产生的海量数据。数据类型可以是研究数据，如基于特定研究目的患者调查、电子病历，以及基于真实医疗条件开展的干预性研究(如实效性随机对照试验)的数据；也可是非研究数据，如医院、医保部门、民政部门、公共卫生部门的日常监测记录、储存的各类与健康相关的数据，如医院电子病历、医保理赔数据库、公共卫生调查与公共健康监测(如药品不良事件监测)、出生/死亡登记项目等[8]。

为了对药品上市后安全性进行有效的监测和评价，需要大量贴近临床实际的研究结果以及更贴近自然环境的流行病学数据。FDA自2008年起，开始建立全国范围内的药品安全性监测电子系统。该系统通过在数据库中主动检索和整合相关信息，实现了对医疗产品上市后安全性的实时动态监测。2018年8月时，该系统已与全美18家机构建立合作关系，涵盖上亿患者信息。目前FDA正在考虑能否利用这一系统，在药品批准上市前开展真实世界研究，指导药品安全性决策[6]。

作为最高等级的临床证据标准，传统的临床随机对照试验(randomized controlled trial，RCT)需要严格控制试验条件，在可能有效的目标人群中进行标准化治疗，样本量小，随访时间短。而真实世界研究可以纳入复杂的、患有多种疾病的患者；可以非随机的方式分配治疗；可以在治疗中根据患者的需求和临床医师治疗策略的变化，同时采用多种措施；允许临床医师根据病情和患者的全身状况而不是按照计划书确定剂量，从而精确地满足患者的需要；可以设定更长的研究期限以测试干预措施的远期效果和风险；可以包括更宽泛的指标，如功效指标、患者结局报告、成本效益指标等，使研究证据有更强的外推性，更具临床实用价值[7]。

传统临床试验往往是前瞻性的，真实世界研究大多数是回顾性的队列研究和病例对照研究；传统临床试验耗时费力，临床试验流程繁琐，涉及巨大的药品和人员开支。相对地，真实世界研究可以通过较小的成本取得具有与临床试验同样价值的信息[5]。药物上市后，真实世界研究可以通过前瞻性/回顾性研究跟踪药物在真实世界中的长期安全性、有效性及患者依从性；也可以通过将更复杂的、患有多种疾病的患者分成不同的亚组，研究药物在不同亚组人群的效果差异[7]。目前，FDA已经开始在肿瘤和某些罕见病领域，利用RWE参与评价药品的有效性[9]。

目前，真实世界研究与临床试验有殊途同归的趋势。一方面，临床试验强调纳入多样化人群，提高试验结果在真实场景的准确性。尽管可能因为病人的多样性导致试验结果准确性降低，但是却保证了试验结果的可外推性，即外部有效性。另一方面，是实用试验的兴起，临床试验尽可能模拟真实治疗的场景，用较少的约束条件观察大样本病人对某些治疗方法的疗效和安全性。在这种减少干预情况下获得临床研究数据具有可接受性强、成本较低、操作灵活等优点，得到了越来越广泛的应用。

与此同时，真实世界研究的方法也在实践中得到不断改进和完善。相比RCT，之前的回顾性研究无法从根本上解决试验组和对照组可比性较差的问题。如今的真实世界研究会像传统临床试验一样，将分析计划提前确定下来，最大程度地减少选择性报告带来的偏差。此外，真实世界研究也在进行着方法学的创新，更好地使用在现实生活中不断产生的海量数据。大数据、机器学习、人工智能等技术，已被广泛用于回顾性研究的方法学创新当中[7]。

2018年的美国临床肿瘤学会(American Society of Clinical Oncology,ASCO)会议披露，CancerLinQ将与FDA合作，考察各种新批准的抗肿瘤药在真实人群中的可靠性。该公司搜集全美不同类型肿瘤诊所的真实病人数据，使用创新性大数据引导个性化的新药研发，帮助FDA进行新药批准的决策。并且，海量数据能够更快核实罕见的药品不良反应，有助于实时监督药品的安全性。也许，CancerLinQ为整合临床试验和真实世界研究所做的，正是药品评价体系未来的发展方向[10]。

随着时间的推移，真实世界研究和临床试验不断从对方汲取有益的成分以减少自身的缺陷，两者的界限会变得更加不明显。正如美国FDA肿瘤资深专家Sean Khozin医生在ASCO年会上所说的那样：“我们需要跨越随机对照试验的限制，使用真实世界数据来指导医疗系统改革和卫生政策的制定。”[5]

今天，站在真实世界研究的角度看，“百年神药”阿司匹林的前世今生，不就是一个正在进行并将会一直做下去的真实世界研究吗？见图1。

图1 阿司匹林的前世今生

3 精准医学与中医学：两种不同层面的个性化医学

今天，精准医学从零开始，启动了构建个性化医学体系的漫漫征程。却不知，中国人的祖先，凝聚几千年的智慧，经过了难以计数的人体试验，给今天的世界留下了一个相当完备的个性化医学体系。精准医学的研究，目前还局限于以基因变异为主的生物标志物，短期目标是应对肿瘤。其对能个性化地描述人体状态的生物标志物的研究，尚待拓展到蛋白质、代谢物以至更广泛的领域。面对目前已有超过30 000种的疾病分类体系，对肿瘤的探索，只能说是漫漫长路迈出了第一步。而即使有一天搞清楚了这30 000种疾病，开发出了针对每种疾病的精准药物，人们还要面对多种疾病同时出现时，治疗方法的整合问题。届时，能把针对这一个个疾病研究的带有副作用的精准药物同时应用在一个病人身上吗？

现代医学进入精准医学时代，是近现代医学沿着器官-组织-细胞-分子的次序，对生命研究逐步走向纵深的必然结果。分子是已知具有生命特征的最小组分。分子生物学的建立及发展，标志着向纵深的方向生命科学已经走到了尽头。分子生物学、细胞生物学和精准医学目前正在进行的是在分子和细胞层面的横向拓展。然而今天，越来越多的生物学家、医学家意识到，生命不能归结为组成生命的分子与分子、细胞与细胞之间的相互作用，要了解生命的整体特性，要从整体上把控生命，生物学、医学一定要走向整合。近年来，系统生物学的兴起以及医学领域整合呼声日甚，无疑反映了生命科学和医学发展的这种大趋势。

然而，我们能在微观分析基础上实现整体综合吗？生命科学和医学作为自然科学的应用领域，近几百年来，一直是由自然科学方法和技术的进步驱动的。近几十年来，自然科学一方面沿着分子、原子、基本粒子的方向把人类对自然规律的揭示引入更加微观的层面；另一方面随着科学方法的进化，已开始直面复杂性，不再把宇宙、地球、生态、人体、人脑这样的复杂系统的问题归结为简单系统的问题，用简单科学的方法去处理。

复杂性科学的进展，引发了科学观念和思维方式的根本变革。复杂性科学推出的最重要的概念就是“涌现”。由于复杂系统“涌现”现象的存在，从微观层次的组成及其行为规则不可能演绎推导出系统整体的宏观结构或性质。也就是说，从整体通过分析走向微观层次可以，但基于分析的结果走向整合却不行。由此宣告了现代医学试图通过“分析-重构”的方式，在分析基础上实现整合，最终从整体上把握人体的道路是行不通的。系统生物学迄今为止的研究现状也对此提供了佐证。

20世纪七八十年代采用系统科学早期的“分析-重构”理念建立的系统生物学，对生物体进行的整合研究目前已跨过30多个年头。然而，它展示给人们的不是整合起来的美妙前景，而是面对生命复杂性科学家的无奈：生物体系统的复杂程度远超乎人们的想象, 现阶段不宜研究整个生物体系统,只能从研究具有一定功能、相对独立的“小系统”开始[11]。而面对生物体的适应性，系统生物学家更是一筹莫展：可重复性是自然科学研究的基本原则，然而，由于生物体的适应性，当科学家依据实验科学视为天经地义的“可重复”理念，对生物体出现的某些现象及对某些刺激(或药物)的反应进行重复试验时，试验结果严格意义上的重现性反而常常成了“奢侈”的要求。适应性是生物体与生俱来的特征，是科学无法改变的客观存在。因此，问题只能出在我们研究它的方法，也就是说，系统生物学目前采用的研究方法可能本质上不适于研究具有复杂适应性的生命[12]。

如今，复杂性科学研究已经走过了它的早期阶段。随着“涌现”现象及规律的发现，随着“分析-重构”方法在复杂系统整合实践中屡屡碰壁，科学家不得不另辟蹊径：既然复杂系统不能通过分析基础上重构的方法去认识、去把控，那就只能把它作为一个整体，从对整体的输入输出的考察中，通过模拟仿真的方法建立它的模型，认识它的内在规律，并基于模型实现对它的整体调控。

今天，当我们站在复杂性科学的制高点，看待具有几千年历史的中医时，发现它的理论体系的建立，它的状态描述与调控方式，与复杂性科学的整体方法如出一辙。中医学从整体层面建立个性化的状态描述；而精准医学建立的个性化状态描述则是从分子层面开始。现代医学意识到了疾病医学的局限，开始建立个性化的状态描述，这无疑是医学的巨大进步。但在微观层面建立个性化的状态描述，一定会面临着需要整合到整体而又难以整合的问题。而中医学直接从整体层面建立个性化状态描述，不存在从微观层面整合到整体的过程。

中医学用于描述形形色色的个性化状态，只有大约100个状态变量(中医学称之为证候)。而精准医学在微观层面建立状态描述，根据遗传学研究的最新进展，仅人类基因(包括编码和非编码基因)的数量已达到约40 000个[13]，遗传突变的数量更远大于此。而且，随着蛋白质、代谢物组学研究的进展，发现的生物标志物异常会达到更大的规模。显然，基于生物标志物的精准医学状态描述系统中状态变量的数量会远远超过中医学的规模。

近几十年来，采用现代分析方法对中医证候的研究表明，与中医学的一种证候关联，在人体实体的微观层面通常会体现为多个生物标志物的异常，如中医辨证有肾阳虚的患者，24小时尿17羟皮质类固醇含量普遍低于正常[14]，三碘甲状腺原氨酸(triiodothyonine,T3)、四碘甲状腺原氨酸(tetraiodothyronine,thyroxine,T4)、血清促甲状腺激素(thyroid stimulating hormone,TSH)(甲状腺轴)、睾丸酮(testosterone,T)、雌二醇(estradiol,E2)、卵泡刺激素(follicle-stimulating hormone,FSH)、促黄体生成素(luteotropic hormone,LH)测定亦比正常人低，TSH兴奋试验通常会出现延迟反应[15]。而针对证候的有效治疗，也常常会伴随着实体微观层面多个发生异常的生物标志物的恢复。也就是说，通过补肾阳的方法，随着肾阳虚证候的改善，上述异常的指标通常会向正常值回复。而反过来从人体实体的微观层面着眼，却不能指望通过对一个证候对应的多个异常的生物标志物的精准治疗，从整体上能够达成使证候回复正常的宏观效果。也就是说，将分别具有提升肾皮质类固醇含量、T3、T4、TSH、T、E2、FSH、LH等指标的药物一同服用，不能设想会整合出改善中医肾阳虚证的稳定效果。原因在于：(1)在肾阳虚证候对应的众多的异常生物标志物指标中，相关性较好的指标通常是在造成肾阳虚的因果关系链中靠近结果的环节。靠近原因的环节可能由于与肾阳虚的相关性不明显，因此很难将它们找出来。而针对靠近结果的环节的治疗，难免会“治标不治本”，难于产生长期稳定的效果。(2)精准药物并不是只对作为靶点的生物标志物发挥作用，在人体也会有其他作用或副作用。多种这样的“精准”药物对人体的综合效应，难以期待会整合出宏观层面我们期待的效果。

基于整体层面建立状态描述的中医学，其药物研究的受控量直接是整体层面的证候，因此，进行疾病调控不涉及从微观到整体的整合。而在整体层面同时出现多个证候的整合，由于中医学的证候总数仅数以百计，而且通过对各部分疾病重要性、危害性进行的治疗次序的综合分析，一个临床治疗方案中需要应对的证候总数在绝大多数情况下不会超过10个(通常会在5个以内)，相比从微观层面整合到整体的复杂性会有天壤之别。

当我们理清了精准医学、系统生物学以及中医学在生命科学框架下的结构关系，了解了精准医学建立的个性化医学体系与中医学辨证论治体系的层次关系以及它们在医学整合方面的作用和意义，就不难理解中医学令人称奇的临床疗效后面蕴含的深刻方法论。

今天，美国FDA对临床试验和疗效评价体系的改革，为精准医学从微观层面建立个性化状态描述敞开了大门，而精准医学的兴起也使得人类能够从科学的角度理解中医学在整体层面建立个性化状态描述的更深刻的科学性与先进性。更重要的是，这个适合个性化医学的临床评价体系，同样适合于整体层面个性化医学体系——中医学的临床疗效评价。而在现代医学构建它的个性化医学体系的同时，基于这个体系对中国传统医学的临床评价，将同时开启从现代医学整合中国传统医学，从分析走向整体综合的历史进程。

4 中药研究模式和临床评价体系的变革及其局限性

以个性化为特征的精准医学中蕴含的“同病异治”、“异病同治”的理念与中医学辨证论治深刻的一致性，自然引起了中国医学界的关注。美国FDA为推进个性化医学发展而对药物临床试验和疗效评价体系的创新，也自然推进了中国对与辨证论治相关的中药新药临床评价体系的改革。2018年11月6日，国家药品监督管理局发布了《证候类中药新药临床研究技术指导原则》(以下简称《指导原则》)[16]，旨在为证候类中药新药临床试验的开展和有效性、安全性评价提供基础性指导。证候类中药新药临床研究的参照系可为单纯的中医证候，可为某一中医疾病下的某一证候类型，亦可为某一中医证候下至少3个不同西医疾病类型。《指导原则》的发布，意味着将中医证候开始纳入可通过传统的前瞻性临床试验进行评价的范畴。

国家药品监督管理局的这一举措，显然顺应了医学走向个性化需要对药物临床评价体系变革的大趋势，是在美国FDA为加速创新药物的临床评价推出了“篮子试验”和“雨伞试验”模式后，对中药临床评价方法的有限度的“松绑”。“中医证统西医病的研究模式”完全就是“篮子试验”的中药版本。此前，单纯针对中医证候的药物，在现行药品评价体系下无从进行业界认可的临床试验和疗效评价，其有效性也自然得不到科学的证明。

在中国持续数十年，投入大量人力和财力进行的针对疾病的中药新药研究及其临床评价，并没有产生出多少疗效超越传统中药的新药品种，也看不到对中医药发展的实质推动作用。这种研究目前似乎走到了尽头，2015年以来，中药研发一直处于政策等待阶段。《指导原则》的出台，似乎为中药研发指出了新的方向，也为中成药品种数量的增长提供了新的空间。然而，基于这个《指导原则》对证候类中药新药的开发，能切实推出一批疗效超越传统中药的新药品种，或对中医药的发展产生实质性的推动？还是像以往一样，投入大量的人力、财力，主要是为取得一张能合法销售的注册批号？对此，业界似乎并不乐观。究其原因，从对《指导原则》作为参照系的三种研究模式的实用价值分析可见端倪。

4.1 单纯中医证候研究模式——针对单纯中医证候的新药研究

中医学经过千百年的人体试验，形成了完备的中药学和方剂学体系，针对单纯证候的配方，很容易由治疗该证候的单味中药组合出来，或从对应的方剂类别中筛选出来。很难指望投入大量人力、物力和财力，在短时间开发的新药会比传统的中药、方剂有更好的临床效果。

中医学针对证候的药物主要是用于辨证论治。临床上经常需要根据患者实际出现的不同证候组合对处方进行加减变通。这种模式研发出来的针对单一中医证候的药物，可否像中医的传统方剂一样，方便临床根据辨证进行配方？如果能，如何考量它与其他药物联合使用的协同与拮抗？它与中医传统的针对这一证候的中药、方剂相比有无性能和性价比的优势？如果不能或者不方便，在传统中药、方剂已提供了众多选择的情况下，如此大的新药研发投入，又有多大的实用价值？

目前中医界尚未形成统一的证候辨识标准，对其疗效的判定与临床评价的公信力不足，而且临床试验很难找到仅单一证候成立的病例，对大量有不同兼证的患者，只对一个证候进行统计，疗效评价的可靠性需要探讨。此外，针对证候的中药，通常要了解药物方方面面的作用及偏性，仅就其针对单一证候的效果进行评价，对药物整体性能的认识很难满足中医辨证论治的需要。

此外，“选择符合某个中医证候诊断标准的适应人群进行研究，观察药物对该中医证候所涉及的症状、体征以及相关指标的改善情况”，限定此类新药研究的参照系为单一中医证候。针对证候组合(如气血两虚，气滞、血瘀兼气虚)的新药研究是同步开放还是逐步开放尚待明确。此外，对证候组合的数量是否有限制？如果限制，有何依据？如果不限制，5个证候的组合，假设每种组合只研究一种新药，这种模式能提供的批号数量已达到百亿级。如此大的新药研发空间，庞大的研发资金和人力投入，究竟有多大的实用价值，也值得深思。

4.2 中医病证结合研究模式——针对某一疾病下的单一证候分型的新药研究

针对某一疾病下的单一证候进行药物研究，临床试验是以该疾病下的特定证候为参照系进行统计的。在中医学中，与一种疾病相关的单一证候可能有数种，通常适用不同的药物。而这数种证候的不同组合也可能适用不同的药物。这就出现了一个问题：假定与某一疾病相关的证候有5种，分别研究出了5种不同的药物。那么，当患有该疾病的患者同时出现其中4种证候时，是否需要将其中的4种药物一起让病人服用呢？如果不妥，是否针对这些单一证候的每一种组合要研究出一种药物呢？这个组合数是3 905种。也就是说，要做到针对这种疾病下同时出现不超过4种证候的每一种证候组合有药可医，需要研究3 905种新药。

4.3 中医证统西医病的研究模式——针对同一证候下多种西医疾病的新药研究

这就是针对中医证候的“篮子试验”。美国的FDA推出“篮子试验”是为了加速针对生物标志物的标靶药物的审批。这些标靶药物通常是针对该靶点没有药物或已有的药物疗效不理想。“篮子试验”目前主要用于以往被视为“不治之症”的抗肿瘤药物的临床试验和疗效评价。而针对中医证候的“篮子试验”所针对的证候，目前已有大量的传统中药或方剂可选。临床试验需要“在同一证候下选择至少3个不同西医疾病来进行研究”意味着不少于3倍的病例数，研发和临床评价所需成本相对于新药的实用价值远不能与抗肿瘤的标靶药物相比，如此的投入产出比对开发者会有多大的动力？

无疑，国家药品监督管理局推出的新举措符合中医的特色，也顺应了药物临床评价体系改革的趋势。但这种有限的改良仍然没有跳出疾病医学和RCT的框框，与中医临床应用的“真实世界”相距甚远。古往今来，中医对数千种中药和难以数计的方剂作用的认识和疗效评价，是基于长期的“真实世界研究”的，就像现代医学之于“百年神药”阿司匹林一样。只是科学方法和技术水平的限制，达不到现代医学基于实证对阿司匹林临床研究的严谨性。

应当看到，西药以化学合成、生物制剂、有效成份提取为主要来源，研究参照系多为单一的特定靶点，用于人体的临床试验大多有副作用。但即使针对这样的药品，在欧美国家目前已经对这种耗时费力的临床试验的合理性和经济性提出了质疑。常用中药大多是无毒无害的动物、植物、矿物的组成部分，其毒性及因偏性导致的副作用大多可以通过炮制以及合理的配方减毒或进行佐制，与西药的安全性完全不在同一个等级。而且类似的中药及配方在过去、现在乃至将来中医师日常的临床诊症过程中经常使用。对它们的评价是否一定要参照和跟进西药的评价体系？投入大量的社会资源(包括人力、物力和财力)建立这样一个貌似科学的评价体系，对于提升人类的健康水平有多大的实际意义，有多大的投入产出比？在现代医学药品评价体系摆脱了传统临床试验和评价方法的羁绊，开始走向“真实世界”的今天，将一直生存在“真实世界”的中医学针对证候的药物、方剂研究套上“科学的临床试验和疗效评价”的羁绊，对中医药发展是否具有积极意义?这些都是值得中医药界以及相应的监督管理部门认真思考的问题。

5 与中医学相适应的科学的临床评价体系

“篮子试验”和“雨伞试验”作为适应个性化医学的临床试验模式，无疑也适合同为个性化医学的中医辨证论治方法的临床评价。《指导原则》推出的“中医证统西医病的研究模式”是不折不扣的“篮子试验”，完全适于针对证候的药物研发，从而将中医学对药物作用的认识建立在实证的基础上;而“中医病证结合研究模式”,如果将研究范围由针对某一中医疾病下的“某一证候”改为“所有相关证候”，就变成了不折不扣的“雨伞试验”，适于系统地研究一种疾病下的各种证候分型及相应的治疗方法。由此，与一种疾病相关的证候类型的确定，将不再完全根据中医师的经验，而是建立在严格的统计分析的实证基础上。

不同之处在于，对精准医学个性化疗法的临床试验采用的参照系是基于微观层面的“靶点”，而对中医辨证论治方法的试验采用的参照系只能是中医的证候。精准医学的“靶点”可以基于规范的标准进行客观的检测，显然，要将中医的辨证论治纳入“篮子试验”和“雨伞试验”进行科学的临床试验和疗效评价，建立规范化的证候诊断标准是必不可少的前提。

中医证候的规范化问题在20世纪80年代初就被摆上了台面，但至今也未形成公认的行业标准，可见不是一个简单的问题。中医证候通常由一组有相关性的症状、体征(亦可引入客观的检测指标)定义。由于这些症状/体征对证候的诊断缺乏特异性，基于它们对证候进行诊断不仅涉及它们本身定性的规范化，也涉及证候成立的逻辑条件的设定以及症状、体征对相关证候诊断意义的定量化。此外，为确保辨证论治体系的完备性，这个体系应当包括哪些证候？如何对它们实行统一规范的命名？由于证候间的界限不清晰，如何确保每个证候一定程度的独立性，不致因重复、冗余导致证候体系结构上的混乱？这些均是建立规范的证候体系无法回避的问题。

第一，症状、体征的规范化。近几十年，中医界在这方面已积累了很多有价值的研究。但由于受限于中医症状、体征传统描述方式的限制，还达不到科学规范的要求。基于科学规范的描述，首先，要做到命名统一，涵义表述清晰、无歧义；其次，需要将复合的症状/体征分解为独立要素；症状/体征主体与描述它的属性也要分离。基于这些原则，自上而下地建立症状、体征体系的结构，抛开中医传统描述的局限，对每一症状/体征进行规范的表述，完全可以将中医症状、体征描述的水平提升到与现代医学相应的水平。

第二，基于症状、体征对证候诊断的定性规则与诊断意义的定量量度。由于症状、体征对证候的诊断通常不具有特异性，在基于它们进行辨证过程中，既存在从症状、体征到证候的要满足的逻辑条件，又存在一个症状/体征出现对于证候成立的诊断意义的量的量度。这是一个模糊识别问题，远不是《指导原则》中提到的“证候诊断量表”所能解决[11]。随着近年来人工智能技术的进步,与此类似的指纹识别、人面识别、语言识别，准确率均提升到95%以上，达到了实用要求并已实际投入实用。已经有成熟的算法和规则可以借鉴，不存在难以逾越的技术难题，只需要基于这些算法和规则，根据中医证候辨识的实际情况先建立经验模型，进而在基于经验模型的应用中，收集数据，以对规则和参数进行调整优化，逐渐提升辨证诊断的准确率[17]。

第三，证候体系的结构化、规范化。在中医学中存在脏腑-气血津液辨证、六经辨证、卫气营血辨证和三焦辨证几大体系，不同体系的证候间存在实同名异、结构混乱的情况。如卫气营血辨证的“气分证”与六经辨证的“阳明经证”的“实同名异”,三焦辨证中的中焦湿热与脏腑辨证中的肝胆湿热、脾胃湿热之间的结构混乱。此外，由于主神志的脏腑一直存在“心主”和“脑主”的分歧，也带来相关证候的定义及结构的不清晰。证候体系的结构化包括证候列表的确定、证候界限的划分、相互间的结构关系以及证候系统的整体布局。如果能撇开中医理论传承上的“来源”与“依据”，纯粹把它作为一个结构设计问题，即采用什么样的结构，能够把与这几个体系相关的证候按照结构化的原则合理的整合到一起，证候体系的结构化则是可以按照现代科学结构分析的方法合理解决并不断优化的技术问题[18]。

以上给出的中医辨证论治体系规范化的方案，是跳出了中医学学科的局限，在现代科学的视野下提出的解决方案。其实，中医证候规范化的障碍并不在于技术的复杂性，而是涉及是否将中医学作为一门科学的认识论问题。近年来，关于“中医是否科学”的争论一次次成为舆论关注的焦点，实际上，这个争论涉及两个容易混淆的命题:一是中医学是否具有科学性，二是中医学是不是一门科学。对于前一个命题，随着复杂性科学兴起带来的科学观念的进化，随着精准医学带来的个性化医学理念的兴起以及世界范围内对中医学临床疗效越来越广泛的认可，答案似乎已经不成为问题。然而，对于后一个命题，中医界似乎还缺乏认真的思考和共识。“中医学是不是一门科学”，重要的不在于别人怎么看，而在于中医界自己。如果中医界自己没有将中医学视为一门科学，就不必计较别人怎么看；如果中医界真正把中医学当作一门科学，就至少不应当排斥按照科学的规范规范中医学的体系。总不能打着科学的旗号而又不遵守科学的规矩。

“篮子试验”和“雨伞试验”极大地拓展了一个临床试验的涵盖范围。原来一件临床试验要求的样本量分摊到一个证候相关的多种疾病或一种疾病相关的多种证候类型，显然远远不够了。相应地，不得不拉长试验周期，扩大样本量，以使证候相关的每种疾病，疾病相关的每种证候，均能达到作出结论所需要的样本量。而这又无疑会使临床试验的实施难度及成本大大提升，进一步降低投入人力、财力进行证候相关中药研究的实际意义和经济价值。

无论在过去还是现在，中医师因人而异，随证处方均不需要任何预先的临床试验，只要辨证准确，用药符合中医的规范，临床很少会出现不良反应。对这样药物的临床评价更没有必要一定跟进现代医学的临床试验和疗效评价体系。

然而，无论是采用传统临床试验还是真实世界的研究，对治疗方法或药物的安全性评价都是必不可少的。RCT及其相应的疗效评价体系，是在还原论为主流科学理念的时代，基于“每次只变动一个变量”设计的，原则适合于观察范围较局限的针对单一疾病或单一证候的药物研究。而中医用于辨证论治的药物，通常需要观察药物对人体各个部分的全方位作用，RCT的方法显然不太适合。“篮子试验”和“雨伞试验”用于中医学针对证候药物的临床评价是适合的，但由于中医学证候的宏观性，疗效的判定会更多涉及需要长期随访观察的远期效应。而且现实中人患病常常不止一个证候异常，也就是说大多数的统计案例是多个证候同时并存的情况，因此，采用可以纳入复杂的、患有多种疾病的患者，可以非随机的方式分配治疗，并且需要大量的案例的真实世界研究，似乎更为适当。显然，在现代医学临床评价越来越重视“真实世界证据”的今天，几千年来一直基于“真实世界研究”发展起来的中医药学体系，它的临床评价体系更不应脱离“真实世界证据”。

只是今天的“真实世界”研究，已不能象古代一样完全依据医生的主观感觉和临床经验，而是应建立在严格的实证和统计分析基础上。而实现这种大样本的真实世界研究，证候体系的规范化和标准化是必不可少的前提。有了规范化、标准化的人体模型和证候体系，有了统一而规范化、标准化的症状、体征和检测指标体系，还需要按照统一、规范的原则，去全面收集患者的信息，而不是只收集患者叙述的和医生认为重要的部分信息。在这方面，美国“全美健康研究项目”的信息采集方案及建立的数据平台是值得借鉴的[19]。就是说也要建立能够基于规范化的症状、体征体系和证候体系，全面收集患者疾病相关信息的数据平台。如此，才能最大限度地保证收集到的患者疾病数据的客观性和全面性。否则，收集的信息难免摆脱“瞎子摸象”的境遇：不同的医师在同一患者身上会看到不同的病情，或注重患者不同方面的病情信息。以这样的临床数据为基础，不仅会影响疗效评价的准确性，也会影响基于数据进行机器学习的可靠性。

基于“真实世界研究”进行疗效评价，“篮子试验”、“雨伞试验”不再是临床研究方法，而成了设计统计算法的依据。基于与“全美健康研究项目”相类似的数据平台收集的临床数据，甚至能够对药物各方面的作用(包括副作用)进行全面的统计分析。以这样的数据为基础，才能确保临床疗效和安全性评价的准确性。进而通过数据挖掘和机器学习，调整规范化体系涉及的一些规则和参数，不断提升诊断规范的准确性。由此，依据真实世界研究中产生的数据，中医学对药物及方剂性能的认识将建立在严格实证的基础上，并随着真实世界研究的深化而得到持续的发展。而这样一个体系，同样可以用于中成药新药、新疗法的疗效评价。

6 结语

为适应医学走向个性化的趋势，美国FDA对临床评价体系做出了具有里程碑意义的变革。精准医学发展的某些标靶药物，基于之前的临床评价体系不具有临床意义，而按照新的疗效评价体系却具备了显著的有效性。而目前还不被这一变革的始作俑者所知的更重要的意义在于，这个新的疗效评价体系，同样可用于中医学的临床疗效评价。

中医学的临床评价，经历了几十年按照西药针对疾病的“随机对照试验”模式，目前开始了向与美国FDA推出的“篮子试验”和“雨伞试验”相一致的模式过渡。然而，最适合中医药临床疗效评价的是建立在实证和统计分析基础上的“真实世界研究”。而实现“临床应用与疗效评价的统一”的真实世界研究，辨证论治体系的规范化是必不可少的，规范化的信息采集体系的建立及推行是核心，而在此基础上，便是与疗效评价相关的统计算法设计以及评价原则的制定及实施。随着临床评价体系的变革，中医学的有效性将得到科学的证明，同时也将启动基于科学规范对中医学体系的完善整理。由此，将推动中医学在理论更新和实践检验的相互作用下，逐步发展为一个严格科学化的医学体系。