精确医学5年历程的回顾与思考(下)*
2021-11-30吴家睿
吴家睿
五年前兴起的精确医学是现代医学史上最重要的变革活动,其战略目标是要重构关注个体差异的生物医学研究和临床实践的新体系。为了实现这一战略目标,科研管理者和研究人员提出了不同于传统还原论指导下的“小科学”的研究策略——数据密集型研究范式,并据此开展了超越传统临床医学的研究和实践——个体健康状态全过程的研究和维护。
1 基本策略:基于大数据驱动的研究模式
2021年是人类基因组序列草图发表20周年,美国《科学》周刊为此发表了题为“庆祝基因组”的社论:“人类基因组测序的成功宣告了‘大科学’的生物学时代到来,并且产生了一种全新的科研生态系统,以用于开展那些复杂的、技术驱动的、数据密集型的多学科研究项目,从而能够持续不断地改进我们对肿瘤、微生物、大脑,以及其他生物学领域的认识。”[1]在人类基因组计划的推动下,生物医学进入了“大数据时代”。 “癌症基因组图集”(the cancer genome atlas,TCGA)计划在2018年结束时总共产生了2.5 EB(1 EB=1 018 Byte)的数据[2];据数据科学家统计,世界范围内产生的医疗健康数据在2013年大约为153 EB,而在2020年则可能增长到了2 314 EB[3]。
精确医学的推动者显然把握住了大数据时代的脉络。《迈向精确医学——构建生物医学研究的知识网络和新的疾病分类法》(以下简称“迈向精确医学”报告)的作者明确指出:“开展本项研究的动机在于,与人体有关的分子数据正在暴发性地增长,尤其是那些与患者个体相关的分子数据;由此带来了巨大的、尚未被开发的机会,即如何利用这些分子数据改善人类的健康状况。”[4]可以说,精确医学不同于传统生物医学和循证医学的主要研究策略正是体现在对生物医学大数据和其他与健康相关的大数据采集和利用;正如美国国立卫生研究院(National Institutes of Health, NIH)在“精确医学先导队列项目”(precision medicine initiative cohort program,PMI-CP)的实施报告中所说:“为了成功实施PMI-CP,需要采用成熟的以及全新的方法和技术来进行数据采集和管理。”[5]
1.1 基于系统生物学的个体大数据研究
传统生物医学建立在还原论的基础上,其研究策略表现出“碎片化”的特色。美国著名肿瘤生物学家Weinberg[6]对此有过一个很好的总结:“在20世纪,生物学从传统的描述性科学转变成为一门假设驱动的实验科学。与此紧密联系的是还原论占据了统治地位,即对复杂生命系统的理解可以通过将其拆解为组成的零部件并逐个地拿出来进行研究。”但是,精确医学的倡导者认为,生物体是由众多基因、蛋白质和代谢小分子之间广泛的相互作用,以及从分子到细胞到组织等多个层次之间整合而构成的复杂系统,需要采用系统论观点从全局性角度进行整合性研究,才能够完整地认识生命的生理和病理活动。“迈向精确医学”报告明确提出:“要建立这样一种医学模式:将个体的临床信息和分子特征用来构建一个巨大的‘疾病知识网络’,并通过这种知识网络来支持精确诊断和个体化治疗。”[4]该报告还详细讨论了在这个“知识网络”中所涉及到的生物学数据和临床数据等不同层次的数据,不仅涉及到了基因组、表观遗传组、蛋白质组等分子层次的多组学数据,而且还要考虑肠道菌群和电子健康档案,甚至还讨论了外部物理环境和居住条件等可能对其健康有影响的环境因素——“暴露组”(exposome)[4]。2015年初,NIH主任Collins和美国国立肿瘤研究所(National Cancer Institute,NCI)所长Varmus[7]撰文介绍美国精确医学计划时特别强调:“参与者将被要求同意对其进行全面地生物学分析(包括细胞种类、蛋白质、代谢分子、RNA和DNA;当经费允许时可进行全基因组测序)和行为分析,并与其电子健康档案相联。”
斯坦福大学Snyder是最早运用系统生物学策略进行个体生物医学知识网络的构建;他连续14个月在不同时间点采集自己的表型数据和血液样本,并将这些表型数据与血液样本分析得到的基因组、转录组、蛋白质组和代谢组等多组学数据整合,形成了一个反映这段时间内个体生理病理变化的“知识网络”,称为“整合的个体组学谱”(integrative personal omics profile,iPOP)[8]。不久之后,美国系统生物学研究所Hood领导的团队也开展了类似的工作,在9个月时间内分3次采集了108个人的多组学数据(包括基因组、蛋白质组、代谢组和微生物组数据)、临床检测数据,并用可穿戴设备收集了日常运动数据;研究者进一步将这些海量大数据整合形成了反映个体生理和病理变化的“相关性网络”,并利用这种个体相关性网络数据指导个体的健康管理[9]。需要强调的是,美国PMI-CP采用的是同样的思路,只是把要研究的人群样本扩大到了一百万[5]。
在精确医学推进的过程中,经常看到一种偏重基因组测序研究的观点,尤其是在肿瘤研究领域过于强调基因组分析的重要性,如NCI的Moscow等[10]就这样认为:“精确肿瘤医学(precision cancer medicine)这个概念是指,肿瘤学家努力定制一个符合肿瘤基因组复杂性质的靶向治疗方案。” NCI在2006年启动TCGA计划时强调的也正是“癌症基因组”。随着研究工作的深入,人们认识到,仅仅关注基因组是远远不够的。NCI继TCGA计划之后很快又组建了“临床肿瘤蛋白质组分析协作组”(clinical proteomic tumor analysis consortium,CPTAC)。研究者为这种研究工作创造出了一个整合了蛋白质组和基因组的新词“proteogenomics”,并在2014年发表了第一篇proteogenomics方面的研究论文,揭示了人结直肠癌的基因组与蛋白质组之间的差异[11]。NCI的研究人员最近发表了一篇关于proteogenomics综述,文章的标题就是《精确肿瘤医学的下一个地标:Proteogenomics指导肿瘤的诊断与治疗》[12]。
越来越多的研究表明,基因组和蛋白质组的关系非常复杂,且mRNA表达水平和其相应的蛋白质丰度之间相关性并非人们想的那样高。不久前,一篇综述文章系统地分析了蛋白质丰度与mRNA表达水平的关系,指出这种关系受到细胞状态、内外环境变化等各种影响,在许多情况下转录水平本身不足以用来预测蛋白质丰度[13]。美国科学家最近用质谱技术定量分析了32个人类组织中1万2千多个基因的蛋白质表达情况,并与相关的基因表达数据进行了比较,发现二者的一致性并不是很高,而且“组织特有的蛋白质信息能够解释遗传疾病的表型,而仅仅采用转录组信息则做不到这一点”[14]。更重要的是,蛋白质组可以出现独立于基因组的变异[15]。在2014年那篇proteogenomics研究论文中,研究者从95个结直肠癌样本的蛋白质组鉴定出796个单氨基酸变异(single amino acid variants,SAAVs),其中对应于基因组单核苷酸多态性(single nucleotide polymorphism,SNP)的为526个,而全新的为162个,即肿瘤细胞中近1/4的氨基酸变异没有对应的基因组序列变异[11]。
超越基因组测序思路的系统生物学研究策略不仅能够提供生命复杂系统更为完整的信息,而且在精确医学的临床实践中也发挥着重要的作用。例如,中国军事科学院军事医学研究院研究人员和合作者利用系统生物学方法,将弥漫型胃癌分为三个亚型,并发现这三个亚型与生存预后和化疗敏感性密切相关[16];他们的另一项对早期肝癌的研究还发现,目前临床上认为的早期肝癌可以进一步分成三种蛋白质组亚型,由此还找到了肝癌精准治疗的新靶点[17]。不久前,笔者与合作者的一项对中国转移性结直肠患者临床组织样本的研究发现,这些患者可以被分为3个具有显著不同分子特征和预后的分子亚型,其特定的激酶-底物分子相互作用网络能够为三种靶向药物的药效判别提供准确的预测[18]。最近,中国科学院上海药物研究所研究人员利用系统生物学手段对癌基因KRAS突变肿瘤进行了分子分型,并提出了基于“磷酸化信号通路互补”的联合用药策略[19]。
需要强调的是,系统生物学并不是仅仅停留在分子层面的各种生物分子数据的整合,而是需要构建从分子层面到细胞层面到组织器官层面,乃至环境层面各种信息和数据之间的“知识网络”。美国NCI于2016年初启动了一个抗击肿瘤的新计划——“肿瘤登月计划”。作为该计划的一个部分,NCI最近又启动了一个名为“人类肿瘤图谱网络”(the human tumor atlas network,HTAN)的研究计划,拟从分子、细胞、组织器官等多个尺度获取各种类型肿瘤的数据,并与患者的临床数据进行整合形成“关系网”[20];“该计划构建的肿瘤图谱能够为肿瘤生物学提供深远的影响,并且能够改进肿瘤的检测、预防和治疗方法,从而为肿瘤患者和高危人群进行更好地精确医学干预。”[20]
显然,研究者不仅要按照系统生物学思路进行个体生物学和其他种类数据的采集,而且要将所采集到的数据构建为可用于系统生物学全局性整合分析的数据库。“迈向精确医学”报告就明确提出:“知识网络的建立及其在研究和临床上的应用,都取决于是否有可供利用的大型数据库;这些数据库充分整合了人类疾病的各种知识,并以层级的形式组织起来。”[4]该报告的作者认为,构建这种生物学数据库的核心是要形成以“个体为中心”的数据共享平台,将个体分子及其表型数据完整地收集到一起。传统的生物学数据库通常是按照数据类型进行构建,如“基因组数据库”或“蛋白质组数据库”。但是,从基于系统生物学的个体化研究来看,“如果在个体健康和疾病调查的一开始,就把其相关的分子组学数据、个体涉及环境和健康史等方面的数据从个体中分离出来,个体不可或缺的信息就会丢失”[4]。因此,按照系统生物学思路构建以“个体为中心”的数据库就必然成为开展精确医学的基本策略。这种策略不仅有助于研究人员开展基于系统生物学的精确医学研究,而且还有助于患者及其他研究参与者完整地访问和使用他们自己各种类型的数据。PMI-CP的组织者在其实施方案中就明确提出:“参与者应该可以访问他们本人在PMI-CP中的数据……每个参与者还应该可以充分地下载其健康数据和临床实验室数据(包括组学数据)。”[5]
1.2 基于规模化人群的群体大数据研究
从前美国总统奥巴马2015年1月宣布之初,精确医学计划的基本策略就明确为大规模人群队列研究——收集百万美国志愿者样本与数据,并进行持续五年以上的随访。这一策略在随后发表的PMI-CP实施方案中有着明确的解释:“PMI-CP队列的规模以及相配套的策略——对参与者进行随访并邀请他们参加后续的临床研究——将为省时省钱地开展此类研究提供一个非常好的机会。”[5]最近,该项目负责人Denny和NIH主任Collins[21]撰文介绍了精确医学到2030年的7个发展路径,其中之一就是“庞大的前瞻性队列”。不同于传统医学或者流行病学研究针对特定的疾病或者特定的人群,该PMI-CP项目的百万目标群体是来自“自然人群”,任何18岁以上的美国本土居民都可以自愿参加这项科研计划。这种招募多元化不仅体现在没有性别和年龄的限制,允许具有不同健康状态的人成为项目参与者,而且少数族裔和低收入的美国人也有同样的机会参与该项目。这种招募多元化更深一层目的是,让所有参与者对自身健康和风险都获得更好的认识。与此同时,招募的志愿者不再被简单地视为研究对象,而是成为项目的合作伙伴,“PMI-CP项目之目标是要通过研究、技术以及各种引导患者和研究者的政策推动一个新医学时代的到来,并提供机会让患者和研究者共同合作去努力发展个体化医疗”[5]。
需要指出的是,PMI-CP组织者把项目参与者的人数定为百万并非随意为之。在PMI-CP实施方案关于“采用100万或更多志愿者的理由”一节中,项目工作小组给出了多个理由,尤其是利用美国现有电子健康档案(electronic health records,EHR)数据库,对各种常见病的患病率和发病率进行了统计分析,认为只要人群数量达到或超过100万,在5年~10年检测到的每种美国人常见病(如糖尿病、中风、各种类型肿瘤)的平均发病数量将超过2万例,并将伴随着显著的致死致残率[5]。此外,人群大样本的研究还可以获得从小样本研究中难以发现的生物学信息。例如,血压是人体的一个复杂性状,涉及到众多遗传因子的调控;过去多个利用人群小样本的遗传相关性研究总共发现了274个遗传位点;而不久前研究者利用100万欧洲人样本进行遗传分析,一下就找到了影响血压的535个新位点[22]。中国科学院在2020年启动了一个为期5年的战略性先导科技专项“多维大数据驱动的中国人群精准健康研究”,其主要任务也是要采集百万中国自然人群的样本和数据,在此基础上开展中国人群的精准健康研究。可以看到,构建和利用大规模自然人群队列是精确医学的重要研究策略,正如英国《自然》杂志编辑部介绍“英国人群生物资源库”(UK Biobank)的社论标题所强调的《群体筛查——精确医学取决于对大规模人群的研究》[23]。
当然,要建立这样一个由志愿者组成的百万自然人群队列并非易事,PMI-CP组织者预计要到2023年以后才有可能达到这个目标[24]。不过,我们可以通过已经建成的UK Biobank认识一下大型人群队列在精确医学研究中的作用。英国研究者于2006年启动了UK Biobank项目,随后在5年时间里收集了50万40岁~69岁英国志愿者的血液、尿液和唾液等生物学样本,以及EHR数据等各种个人信息[25]。由于这是包含了各式各样生理和病理情况的自然人群,又是这样大的人群规模,因此UK Biobank可以用来回答健康领域方方面面的问题。自2012年建成至今,英国及其国外数万名研究人员利用其开展了大量的研究工作,仅2018年度利用它提供的样本和数据开展研究的科学家就有4 000多人,发表的研究论文近300篇,其中就包括了上文提到那项关于影响血压的遗传位点的研究工作[22]。最近,研究者通过分析UK Biobank里27万名欧洲血统参与者的外显子组序列数据,评估了基因变异与表型之间的关联,发现了许多常见疾病的罕见蛋白编码变异[26]。
真实世界证据(real world evidence,RWE)作为支撑精确医学实践的重要临床证据,主要来源是真实世界数据(real world data,RWD)。在国家药监局发布的《用于产生真实世界证据的真实世界数据指导原则(试行)》中认定10种类型RWD,包括:(1)医院信息系统数据;(2)医保支付数据;(3)登记研究数据;(4)药品安全性主动监测数据;(5)自然人群队列数据;(6)组学数据;(7)死亡登记数据;(8)患者报告结局数据;(9)来自移动设备的个体健康监测数据;(10)其他特定功能数据(公共卫生监测数据、患者随访数据、患者用药数据)。该文特别强调:“没有高质量的适用的RWD支持,RWE也无从谈起。”
作为医疗大数据的RWD,不仅被用于产生RWE以支持药物和医疗器械的研发与审评,而且还可以通过各种算法的分析去发现不同现象或事物之间隐藏着的内在联系,进而产生全新的医学知识。例如,研究者分析了瑞典国家患者登记信息库半个多世纪收集的近170万名患者的医学档案,发现早期切除阑尾的患者明显降低了患帕金森症的风险,表明阑尾可能是帕金森症的危险因素[27]。此外,研究者系统地研究了近13万个美国家庭48多万人的保险理赔数据,在此基础上进行了29种疾病之间的遗传和环境的相关性分析,从而构建立了一个与《国际疾病分类-9》(International Classification of Diseases-9, ICD-9)标准差别很大的疾病分类关系,如被ICD-9归类为循环系统疾病的高血压与1型糖尿病之间也有着很强的遗传相关性[28]。
健康领域的大数据研究面临着个人隐私保护和数据安全问题。早在1996年,美国政府就颁布了旨在保护个人健康隐私的《健康保险携带和责任法案》(Health Insurance Portability and Accountability Act,HIPAA)。我国政府也在2021年8月20日通过了《个人信息保护法》。需要指出的是,根据2021年6月10日通过的《数据安全法》中对“数据”的定义:“本法所称数据,是指任何以电子或者其他方式对信息的记录。”可以明确看到《个人信息保护法》所指的“信息”就是“数据”——该法第四条规定:“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息。”
个人隐私保护和数据安全问题因篇幅限制在这里不展开讨论,可参见笔者2020年发表的文章[29]。但从研究和应用的层面来看,目前亟需有关专家和管理部门在这些新法实施之际尽快完善个体健康数据的采集、管理、使用和共享等具体处理办法和实施细则。例如,《个人信息保护法》中把“生物识别”和“医疗健康”等定义为“敏感个人信息”,规定“只有在具有特定的目的和充分的必要性,并采取严格保护措施的情形下,个人信息处理者方可处理敏感个人信息”。对于人群健康大数据的有关研究,如何去界定“充分的必要性”和“严格保护措施”?精确医学需要生物医学大数据的开放和共享,如何在满足个人信息保护和数据安全的法规下进行?国际科学理事会数据委员会于2019年11月发布了《科研数据北京宣言》,其原则之一就是鼓励国家间数据开放与共享。为了更好地分享各国人群队列研究及其相关的数据,NIH等机构组建了一个“国际十万人队列联盟”(international hundred thousand plus cohort consortium,IHCC),在43个国家汇集了100多个队列,参与者超过5 000万[30]。而《个人信息保护法》在第三章中则要求:“个人信息处理者应当采取必要措施,保障境外接收方处理个人信息的活动达到本法规定的个人信息保护标准。”显然,有关部门应该为精确医学涉及到的健康大数据的开放与共享制定确实可行的办法,以保障精确医学国家间合作研究的顺利进行。
2 主要任务:开展注重个体差异的健康医学实践
尽管当前突如其来的新冠疫情给人类社会带来了巨大的冲击,但是肿瘤和糖尿病等慢性非传染性疾病(慢性病)仍然是危害人类健康的主要威胁。这些慢性病的发生和发展通常涉及到众多遗传因素和环境因素,以及这些因素之间复杂的相互作用,表现为患者之间存在明显的个体差异,肿瘤患者甚至在其体内同一肿瘤组织的不同细胞之间也存在差异。个体之间广泛存在的差异导致了患者之间对同样的药物治疗往往表现出不同的敏感性或者耐受性。由于循证医学实践活动对个体差异重视不够,往往治疗效果不尽如人意,因此它被称之为“不精确”医学。显然,精确医学的一个主要任务就是要揭示个体之间的差异,在此基础上开展个体化的慢性病治疗。
慢性病的发生需要时间,往往是一个漫长的过程,在出现临床症状之前,通常会先出现亚健康状态或疾病前期状态等各种过渡态。值得指出的是,慢性病的高危人群数量远大于其患病人群,如国内目前糖尿病患者为1亿,而处于糖尿病前期(prediabetes)的高危人群则估计近5亿[31]。慢性病的这种疾病演化特点表明,人们不仅仅要关注患者的诊断和治疗,而且要对个体发病之前的健康状态进行早期监测,一旦发现亚健康状态或前疾病状态时就应该及时进行早期干预,从而尽可能地防止或延缓疾病的发生。换句话说,精确医学并不是局限于疾病的个体化诊治,而是要实现对个体健康状态的全程管理和维护。
2.1 生物标志物的发现与应用
世界上找不到两片一模一样的树叶,更不可能找到两个完全一样的个体。即使是同卵孪生的双胞胎,二者之间的遗传信息也不是完全一样的。不久前的一项研究发现,同卵双胞胎的两个个体的基因组上不仅有“拷贝数差异”(copy-number-variation,CNV)的差别,而且还存在着少量的SNP的差别;对这些双胞胎的研究还发现,每对双胞胎中只有一个患有精神分裂症[32]。从目前在分子层面的研究结果来看,不仅仅是基因组层面存在广泛的个体差异,在转录组和蛋白质组等层面也存在着广泛的个体差异,而且这些不同种类之间的分子差异还表现为复杂的非线性关系[15]。
个体间的这些分子差异通常会导致不同的疾病易感性或者药物响应性。一般认为,高密度脂蛋白胆固醇(high-density lipoprotein cholesterol,HDL-C) 是“好”的胆固醇,可以降低罹患心脏病的风险。不久前的一项研究表明,某些人携带的HDL-C受体基因SCARB1出现了突变,其后果是HDL-C不能到肝脏进行分解,从而使得体内HDL-C增加;因此,携带这种基因突变的个体会由于HDL-C在动脉中累积而增加罹患心脏病的风险[33]。另一项研究发现,不同的SNP能够决定脂肪代谢通路里的关键转录因子PPARγ与其基因调控位点的结合,从而导致抗2型糖尿病药物对携带不同SNP的个体产生不同的药物响应,以及个体代谢性疾病发生的易感性。该文的作者特别强调其研究成果正是代表了精确医学[34]。
由此可见,个体化医疗的前提就是要认识清楚个体间的遗传差异和表型差异,尤其是分子层面存在的各种差异。标识个体特征的遗传因子或者表型因子一般被称为“生物标志物”(biomarker)。因此,精确医学的首要任务就是要发现不同个体所特有的生物标志物,然后利用这些生物标志物来指导临床实践。例如,欧盟在2014年启动了“创新药物先导项目2”(innovative medicines initiative 2,IMI2),明确提出了“生物标志物的发现和验证”就是精确医学的主要任务。《科学》杂志周刊在“庆祝基因组”社论中对此也给出了很好的阐述:“基因组草图的完成为一种新的精确医学范式奠定了基础,这种精确医学的目标就是要利用个体独特的基因序列信息去指导治疗和预防疾病的决策。”[1]
随着测序技术的迅速发展和性价比的显著提升,基因测序成为了检测个体差异和发现生物标志物的主要手段。据统计,健康相关的基因测序领域至少有14个国家的政府给予了支持,经费总计已超过40亿美元[35]。由于肿瘤患者的基因组具有高度的个体差异,因此基因测序在肿瘤诊治中得到了广泛的应用。美国NCI在2017年的《全国肿瘤治疗的精确医学问卷调查》中发现,参加调查的肿瘤医生有75.6%都采用了基因测序技术“next-generation sequencing”(NGS)指导肿瘤患者的治疗,其中34.0%的医生经常使用NGS检测来指导晚期难治性肿瘤患者的治疗,29.1%的医生通过NGS检测决定肿瘤患者是否有资格进行临床试验,17.5%的医生用NGS检测来决定能否给患者进行超适应证用药[36]。肿瘤靶向治疗是目前治疗肿瘤的主要方法,尤其是肺癌一类具有大量基因突变的疾病已经开发出了许多针对特定突变的靶向药物。显然,基因检测就必然是指导用药的主要基础。正如国家卫生健康委员会在2020年发布的《抗肿瘤药物临床应用管理办法(试行)》第二十三条中的规定:“国家卫生健康委发布的诊疗规范、临床诊疗指南、临床路径或药品说明书规定需进行基因靶点检测的靶向药物,使用前需经靶点基因检测,确认患者适用后方可开具。”测序技术未来依然是精确医学的关键技术;属于NIH那篇介绍精确医学到2030年的7个主要发展路径中的一个——“常规的医疗基因组学”(routine clinical genomics),“随着时间的推移,全基因组测序方法将变成一种常规的早期检测步骤,用来理解、预防、检测和治疗常见病和罕见病”[21]。
由于慢性病以及个体差异的高度复杂性,从基因组层面获取的生物标志物往往具有一定的局限性,并不能完全满足精确医学的需求。例如,循环肿瘤DNA(circulating tumor DNA,ctDNA)被广泛作为肿瘤患者临床检测的一种生物标志物,通常用来帮助诊断和治疗用药的选择。但是,美国临床肿瘤学会和美国病理学院的一项联合分析表明,ctDNA临床分析是基于比较它与肿瘤组织中致病突变的一致性,由于很多生物学因素都会影响到这种一致性结果,从而导致结果有可能出现假阴性;因此,ctDNA阴性检测结果的患者还需要做其他临床诊断才能下结论[37]。换句话说,用多个生物标志物组合来指导个体化治疗显然会比用单个生物标志物的效果更好。例如,涉及到22种类型肿瘤的4个临床试验的结果表明,当肿瘤突变负荷(tumor mutational burden,TMB)和T细胞炎症基因表达谱分别作为独立的生物标志物去预测患者对免疫检查点抑制剂PD-1抗体药物的响应时并不准,但是如果把这两种生物标志物联合起来去预测时则准确程度显著提高[38]。在当前的生物医学研究中,从核酸序列与修饰、蛋白质分子与修饰到代谢小分子等各种类型的生物分子中均发现了许多分子标志物;它们在临床实践中得到了广泛的运用,其中也包括了这些分子标志物之间各种组合的运用。需要指出的是,不仅各种类型的生物分子可以用作生物标志物,而且细胞和细胞外囊泡,甚至肠道菌群也可以用做生物标志物。
生物标志物在精确医学领域的一个独特之处是它可以同时用于临床研究和临床实践。美国默沙东公司的PD-1抗体药物“派姆单抗”最初的适应证只是黑色素瘤。公司随后利用两个生物标志物——高度微卫星不稳定性和错配修复缺陷作为用药指导开展了新的肿瘤适应证研究,发现只要患者肿瘤上携带这两个分子标志物中的任一个,不论罹患的是哪一种实体瘤,都对该药有所响应。2017年5月,美国食品药品监督管理局(Food and Drug Administration,FDA)根据这个研究结果批准了该药的新适应证;这是FDA历史上第一次批准了以生物标志物而非肿瘤类型作为肿瘤药物的临床指征。临床终点是评估药效的临床指标。由于肿瘤药物的总生存期(overall survival,OS)等很多临床终点往往在现实中可操作性不强,因此,研究者在现实中往往采用生物标志物等作为替代终点(surrogate endpoint)来评估临床研究或者治疗效果的有效性。不久前,FDA和NIH联合成立了一个生物标志物工作小组,并在2016年初发布了“生物标志物、终点和其他工具”(biomarkers, endpoints, and other tools,BEST)的术语表,进一步明确了生物标志物与替代终点之间的关系[39]。
2.2 健康状态的全过程维护
以抗击慢性病为主要目标的精确医学要完成的任务不仅仅是疾病的诊治,而且要开展疾病的预防和健康促进等,即健康全过程的维护。换句话说,传统临床医学的关键词是“疾病”,而精确医学的关键词则是“健康”。因此,精确医学时代提倡的是把健康管理和疾病诊治整合在一起的“健康医学”。这种围绕着健康维护任务的健康医学同样把具有独特价值的个体作为主要研究对象。例如,在美国研究人员2017年发表的一项研究工作中,他们在9个月时间里对108个健康个体进行生物学数据采集以及日常活动的连续性监测;这些数据经过分析形成了用于维护个体健康的“个体化数据云”[9]。在最近发表的一项以“精确健康”为主题的研究工作中,美国斯坦福大学研究人员招募了109名具有代谢性疾病风险的个体,进行了多年的监测,包括定期采集参与者的多组学数据和生理生化指标,共发现了超过67项临床可诉性健康问题;研究人员还利用可穿戴技术与生物学数据整合在一起,为每位参与者绘制了不同的健康特征谱,并对其变化进行了追踪[40]。
这种健康全过程维护导致了精确医学研究任务的一个主要特点:全人群的健康维护。也就是说,过去的临床医学主要关注患病人群,而今天的精确医学则拓展到所有个体,正如2019年第72届世界卫生大会之主题:“全民健康覆盖:不遗漏任何一人”。当前最具有代表性的研究项目是美国NIH正在进行中的“全民健康研究项目”。该项目的前身就是2015年提出的招募美国百万志愿者的PMI-CP[5]。由于“精确医学”容易让人联想到“疾病”,没有体现该项目的本质特征——健康,所以NIH在2016年将该项目名称更改为“全民健康研究项目”,明确表示其主要任务是,获取美国百万志愿者提供的各种个体健康信息,形成健康大数据,从而让广大的研究人员和参与者分享[24]。在2021年发布的“NIH拓展战略规划2021-2025财年”中特别强调:这个项目不关注疾病(disease agnostic),“它不聚焦在某一种疾病,某一种风险因子,或者是某一类人群;反之,它使得研究者可以评估涉及到各种疾病的多种风险因子”[41]。因此,该项目特别重视参与者的多样性,包括过去不受重视的族群,正如NIH的Collins在该项目一周年研讨会上所强调的:我们有信心在未来5年~6年内完成招募百万志愿者,并且覆盖全美各地区、各民族和族群等。
需要指出的是,“健康”的内涵实际上远比“疾病”复杂。按照世界卫生组织的定义,健康有三个要素,即身体、心理和社会适应性都要处在良好的状态。《细胞》杂志最近登载了一篇综述文章,题为《健康的要素》。该文从分子、细胞、组织器官等不同层次讨论了涉及机体健康的相关因素,以及这些因素之间的复杂相互作用;进而从生物学三个方面(空间的区域化、内稳态的维持、对压力的响应)提出了八个健康要素,并指出这些要素相互影响并交织在一起,其中任何一个要素受到破坏时将导致病理性的改变[42]。由此可以看出,如何精确检测和恰当评估个体的健康状态并不是一件容易的事。可以说,适用于目前健康研究的“健康”基本标准也还需要落实。为此,谷歌公司和美国的两所大学在2017年联合启动了一个称为“基线计划”(project baseline)的研究项目,要在4年时间里收集万人左右的健康大数据,并据此确定人类健康的“基准”。
个体健康的精确监测不容易,其精确干预同样不容易。健康的干预依然存在明显的个体差异。例如,过去人们认为,每一种食物使血糖水平升高的相对能力——“血糖指数”(glycemic index,GI)是固定不变的,即不同个体对于同一种食物引起的血糖水平升高的响应是一样的。但是,以色列科学家通过对800个健康个体的研究发现,食物的GI值存在着个体间差异,即不同个体对同一种食物可以表现出不同的GI[43]。显然,这类差异有可能源自个体之间不同的遗传背景,从而导致机体在对特定种类食物的摄入、吸收和利用时出现个体差异。例如,尽管格陵兰岛爱斯基摩人的主要食物是脂肪含量非常高的海洋鱼类和哺乳动物,但他们并没有出现高脂饮食常见的健康问题。研究发现,爱斯基摩人的第11号染色体上控制脂肪酸代谢的基因与欧洲人和中国汉人的基因之间存在着变异,使得爱斯基摩人能够更有效地利用食物中的脂肪酸[44]。由此可见,个体差异并非只是存在于病理过程中,同样广泛存在于生理过程中;针对人群的健康维护和促进措施不能忽略个体差异可能产生的影响。
3 结语
精确医学5年多来的发展和实践告诉我们,理解和运用精确医学这个概念时要注意不要把它局限于“医学”;这个概念实际上正在演化为内涵更为丰富的“精确健康”,而医学研究和临床实践相关的任务只不过是其中的一个部分。过去的生物医学主要是围绕着疾病开展研究,相比之下,对健康的相关研究则比较薄弱。研究者今后面临更为根本性的挑战;正如2021年NIH在“NIH拓展战略规划”中所说:“理解影响人类健康的基本过程是关键的一步,由此才能确定如何促进和重塑健康,以及识别、预防和治疗疾病。”[41]未来的精确医学显然要在一个更为宏大的生命健康“舞台”上展开。