励精图治
——代谢组学在精准化药物治疗中的角色
2019-02-25陈万生
张 凤,陈万生
0 引 言
新陈代谢是活细胞中全部有序化学反应的总称,是生物体最基本的生命活动过程。机体无时无刻不在进行着新陈代谢。代谢组学的本质就是系统研究机体代谢物的变化规律,揭示在特定时间点机体内部发生的生物化学活动,是系统生物学的重要组成部分[1-2]。代谢组学的研究目的是通过研究代谢物之间的相互转化与含量水平变化,将这些信息与病理生理过程中的生物化学以及生理功能改变联系起来,发现潜在的生物标志物。代谢物水平受许多因素的影响,包括遗传、疾病、环境、药物、饮食等,故代谢组学反应的是上述因素综合作用后机体的代谢组水平特征,是对生命活动“最后环节”的研究,被誉为“真实场景的评估”,与表型最为接近的组学,最能反应机体未来发生的变化;且这些特征性代谢物的出现或改变一般远早于传统的病理学终点。因此,对于特征性代谢物的干预使得疾病的治疗有极大的可能性[3-4]。另外,代谢物的动态特性有助于疾病的诊断和预后评判,以及预测和监测药物治疗效果,正逐渐成为精准化药物治疗的有力工具。
1 代谢组学分析的层次
Fiehn[5]将代谢组学分析分为以下几个层次:代谢物的靶标分析,主要针对样本中的一个或者几个化合物;代谢轮廓分析,对某一特定类别的代谢产物或某一代谢途径的所有中间物进行分析;代谢组学分析,采用特定的方法对样本中所有代谢物进行定性和定量分析;代谢指纹分析,对样本进行快速分类分析。前3个层次为靶向代谢组学技术,最后1项为非靶向代谢组学技术。因此,当前一般认为非靶向代谢组学技术为定性分析,通过差异组学分析发现候选生物标志物,提出科学假设;靶向代谢组学技术为定量分析,以非靶向代谢组学技术确定的一组候选生物标志物为分析目标,通过准确的定性和定量分析验证实验提出的假设,完成对候选生物标志物进行筛选、确认和验证。
2 代谢组学的研究方法
2.1样本类型代谢组学分析可利用各种生物样本,从尿液和血液到粪便、滑液、唾液、组织、特定细胞和肿瘤组织等。血液(以血清和血浆的形式)和尿液是最容易获取的生物样本,因为它们容易通过微创方法对患者及健康人进行采集,也不需要对这些类型的生物样品进行额外的研磨或分馏。其中血液所提供的小分子信息多于尿液,相对于尿液而言比较容易保存及前处理,因此成为最佳选择[6-7]。但两者也不是万能的分析样本,如在风湿性疾病患者中,关节或骨骼的滑液和组织与发病机制的关系较血液或尿液更为密切[8]。
2.2样本处理不同的生物样本需要的前处理方法不同,主要是获得性质、状态均一化的样本,并且尽可能降低生物样本中的残留酶、氧化还原反应等的影响,一般包括液液萃取、固相萃取、蛋白沉淀、冷冻干燥等。在实际操作的过程中,样本的前处理取决于实验选择的代谢组学检测技术。如由于尿液中小分子极性物质浓度较高,在核磁共振(nuclear magnetic resonance,NMR)检测时应加入相应浓度的缓冲盐,降低盐浓度造成的化学位移偏移和弛豫时间偏倚;在采用气相色谱-质谱联用(gas chromatography-mass spectrometer,GC-MS)法时,应对样本进行充分的衍生化,增强代谢产物的热稳定性,提高质谱离解能力;在进行液相色谱-质谱联用(liquid chromatography-mass spectrometer,LC-MS)分析时,首先应去除生物样本中的蛋白[9-10]。一般情况下并不会对生物样本进行多次或者多步骤的处理,以免失去一些内源性代谢物的信息。为尽可能降低生物样本中的残留酶、氧化还原反应等的影响,生物样本在采集后需要进行“淬灭”,最常用的方法是冷冻处理(液氮保存)或者冷甲醇保存等,避免强酸、强碱、高温等条件,减少代谢物降解[11]。
2.3样本检测代谢组学的数据采集对象种类繁多,所检测化合物分布类型广泛、理化性质存在明显差异,因此很难对生物样本用同一种方法进行全面的分析。目前主要的数据采集和分析技术包括NMR、MS和LC、GC、毛细管电泳(capillary electrophoresis,CE)等技术联用的方式,这些技术各有千秋、各有侧重,能够在实际应用的过程中相互补充。
NMR是最先应用于代谢组学研究的技术,主要优点是可以对代谢物进行定量分析,对样本无破坏性,分析速度快,不需要衍生化前处理,不需要样本分离等;但灵敏度低、检测动态范围窄。GC不能直接得到体系中难挥发的大多数代谢组分的信息,对于挥发性较低的代谢产物需要衍生化处理,预处理过程繁琐。相比较而言,MS具有较高的灵敏度和专属性,可以实现对多个化合物的同时快速分析与鉴定[12-14]。因此,随着质谱及其联用技术的发展,越来越多的研究者将多种LC-MS技术用于代谢组学的研究,实现复杂生物背景代谢产物的充分表征。在近几十年以来,质谱检测、分析技术的发展逐渐实现复杂生物背景的生物样本的充分表征,使得LC-MS逐渐成为了代谢组学研究的重点[15-16]。
2.4质量保证和质量控制质量保证(quality assurance,QA)和质量控制(quality control,QC)是代谢组学成功的2个不可或缺的质量管理过程,包括在任何高通量分析化学实验室中获取高质量数据的应用。QA定义了在采集样品前实施的所有计划和系统活动,以确保随后的分析过程能够满足预定的质量要求;QC可定义为在数据采集后用于测量和报告这些质量要求的操作技术和活动[17]。对QA而言,样本采集的分析前阶段,包括生物样本的收集、处理、运输、储存等变量均可能造成实验误差,已被认为是造成多数临床检测结果出现错误的变量,应该在实验进行中予以规范[18-19];QC主要参照FDA生物样本分析方法学验证指导原则(2018版)和新版中国药典(2015版)9012生物样品定量分析方法验证指导原则的要求进行方法学验证[20-21]。由于生物标志物属于内源性物质,不同于药物这样的外源性物质,有研究者认为目前以药物代谢动力学研究为中心的指南无法充分描述生物标志物方法验证[22]。但任何分析方法开发中的关键点都是验证每个步骤以获得可靠和可重复的结果,非靶向、靶向代谢组学并不超出此标准,生物样本分析的方法值得借鉴和学习,包括准确度、精密度、特异度、最低检测限、最低定量限等,已经成为目前正广泛使用的有效的验证策略[23]。除此以外,质控样本的制备、数据处理方法的应用都是分析方法开发过程中需要考虑的一些环节。
在本课题组开展的靶向代谢组学研究方案中,我们严格参照FDA和中国药典的相关指导原则完成完整的方法学论证;并严格规范分析前阶段中样本采集、运输的操作,对采血管的使用、样本的保存条件这两种主观因素进行了考察与规范,从检测结果稳定性和一致性入手,规范样本分析前阶段的采血管类型和样本在采血管中的保存时间,为血浆中氨基酸靶向代谢组学分析提供质量保证,从而对样本中内源性物质的真实情况给予最大程度的还原[24-26]。
2.5数据分析与统计分析代谢组学的数据分析是指将海量的多维数据轮廓谱进行降维处理,将代谢组学的变化同环境、病理、生理的变化联系起来,用可视化的数学模型将不同状态下代谢产物谱表征出来。许多统计技术可用于代谢组学数据的分析,包括单变量和多变量分析[27]。通常分析的起点是代谢物数据的QC,即数据的预处理。处理包括如下步骤:即数据归一化,以消除或减少原始数据中不必要的总体变化;数据标准化,以消除不同代谢物浓度数量级的差别,必要时需对浓度使用数据转换,或者消除异方差性的影响,使得数据满足一些线性分析技术的要求。接下来,进行单变量或多变量统计分析,以确定候选生物标志物。在线性回归模型、广义线性模型、t检验或方差分析等单变量分析方法中,对每个变量分别进行检验。多变量分析在寻找生物标志物分类和预测疾病的许多方面优势明显,主要包括主成分分析、偏最小二乘判别分析、惩罚回归模型、随机森林模型和支持向量机等[28]。
2.6候选生物标志物及其生物学意义阐明变量分析获得的差异化合物称为候选生物标志物,需要对其生物学意义进行挖掘,找出在病理和生理变化下体内代谢通路及其相关基因、酶等的变化,以便后期开展标志物验证,确定候选生物标志物的应用价值。常用的有DAVID(The Database for Annotation,Visualisation and Integrated Discovery)和IPA(Ingenuity Pathway Analysis)软件,用于识别代谢物特征和疾病之间关联的生物学途径[29-30]。由于上述软件需要付费,本课题组主要采用建立在网络基础上的代谢通路分析软件Metaboanalyst分析。通过网络富集分析和拓扑分析得出代谢网络得分(-log P)和影响因子,指出机体变化下的代谢通路[31]。由此获得的候选生物标志物需要经过进一步的确认,包括代谢通路和临床试验验证,用以获得更为准确的标志物信息,由此预测药物疗效的生物标志物对于提高精确医学的发展至关重要。目前有关肺癌分析生物标志物的验证是值得参考的案例,可以在Ⅱ期药物临床试验伴随进行,其研究结果可以有4种可能的方法来指导Ⅲ期试验设计:使用生物标志物驱动的富集设计、生物标志物分层设计、执行常规随机设计,或在当前结果下放弃/终止[32-33]。
另外,在生物标志物检测开发的质量保证和质量控制的条件下,由于检测方法系统化、自动化和标准化的要求,尤其基于质谱分析方法的不断提升使得生物标志物检测试剂盒自动化、小型化和普适性的开发势在必行。
3 励精图治 挑战不断
从2016年肿瘤细胞具有“重构能量代谢体系”的基本特征被揭示后,20世纪30年代生物学家Otto Warbug发现的“瓦尔堡效应”(Warburg effect)又开始登上肿瘤研究舞台,即糖酵解和三羧酸循环为主的葡萄糖代谢紊乱是肿瘤细胞生长增殖过程中的一个特有代谢特征[34]。因此,基于癌症代谢的转化性研究是当前精准药物治疗中最有代表性也最具引领性的方向。
陈赛娟院士和贾伟教授合作开展的772份急性髓细胞白血病(acute myeloid leukemia,AML)患者血清代谢组学研究发现AML患者的糖酵解代谢水平非常活跃,患者的糖酵解代谢活性越高,其生存越差,并且确定了血清2-HG水平是一个较为有效的预后因子。在此基础上开展的细胞和动物实验发现活跃的糖酵解代谢可显著降低AML细胞对化疗药阿糖胞苷的敏感性,且AML细胞异常活跃的糖酵解代谢可导致骨髓微环境中葡萄糖水平严重不足。进一步的代谢流分析研究发现AML细胞启动一个替代机制转而利用果糖保持足量的碳源摄取以维持细胞的恶性增殖,使用RNA沉默技术干扰AML细胞的SLC2A5基因表达,可显著降低细胞对果糖的摄取以及果糖诱导的细胞增殖,证实了果糖在肿瘤增殖中的地位。而后,他们在AML动物模型中发现果糖类似物2,5-脱水-D-甘露醇(2,5-AM)对该果糖转运的蛋白转运子GLUT5有高度亲和性,与阿糖胞苷联合使用后的疗效强于两者中任何一个单用药物的效果。这表明,针对GLUT5的小分子化学药物或者抗体药物有望与目前的常用肿瘤化疗药物联合使用,可能极大地改善癌症患者的治疗效果[35-36]。由此不难看出,代谢组学对于疾病机理的阐明、精准治疗离不开个体遗传特征的紧密联系;同时,个体代谢和遗传特征之间的紧密联系使得研究代谢水平变化的途径成为可能。为使代谢组学领域充分发挥其潜力,研究人员需要考虑代谢物产生的遗传因素以及这些代谢物在疾病过程中的潜在作用,而不仅仅是揭示代谢物水平的改变。
代谢组学从发现至今已经有了20多年的历程,有诸多关于精准药物治疗的候选生物标志物被发现;但是真正被运用于临床的比例却很低。美国梅奥诊所提供的测试目录仅提供了临床实践中使用的几十种标志物。大多数文献中基本上是小规模的初步类型研究,其中许多研究在实验设计上存在一些问题,如样本量大小、样本前处理技术、疾病组和对照组的选择、样本检测和分析技术等,甚至可能导致错误的发现或遗漏有效的标志物信息。其次,基于代谢组学技术对生物标志物的发现阶段是最重要、最基础的阶段,但验证和确认则是决定生物标志物能否应用于临床的关键,而这个验证过程往往需要若干年代,需要对每种可能的对照组情况,也就是不同的数据子集来支持生物标志物的应用[37]。Henry Nix曾表达:数据的组合不等于信息,信息的组合不等于知识,知识的组合不等于智慧,智慧的组合不等于事实[38]。因此,代谢组标准倡议(metabolomics standards initiative,MSI)发起并随后发表了一系列关于最低报告标准的论文,肯定了独立验证的必要和价值。
4 结 语
代谢组学研究为对疾病发生机制、药物治疗作用提出了各种假设,为深入了解目标人群的治疗过程开辟了新的研究领域。作为系统生物学的组成部分,代谢组的变化与基因组、转录组和蛋白组变化密切相关[39]。系统生物学方法的发展和各组学生物标志物整合模式将为联系复杂的代谢调节与多因素疾病的病因以及为疾病的精准治疗提供新的机会,并促进系统生物学在医学领域的进步。精准化药物治疗及其管理的目的是通过验证新的“组学”技术整合不同类型数据的新方法,最终到达提高患者群体诊断精度、广度的目的。精准化药物治疗的基石和最终验证将是大型的国家队列研究,对来自各种来源(如组织学、DNA、蛋白质和RNA、代谢物)的大量数据进行分析,以确定疾病风险、治疗反应和/或预后的最佳预测因子。面对如此庞大的数据,可以肯定的是,机器学习可以用来挖掘和不断改进算法,以计算患者的诊断,药物治疗反应和预后等,形成标志物组。随着研究的深入,所建立的算法可以应用于普通人群,开展疾病筛查,以确保临床表征隐性或者亚临床症状患者得到适当的护理,真正迈向精准化药物治疗的路径。